Co to znaczy schludne dane? Jak przygotować dane do analizy
Wielkość i format pliku prawie nie ma znaczenia. Ważny jest porządek. Zgodnie z zasadą “garbage in = garbage out” to co jest potrzebne do analizy to przejrzystość sposobu zapisania danych. Na poziomie ogólnym można o tym poczytać u Hadley Wickham w tym artykule lub zobaczyć na tym filmie. Przedstawiony tam punkt widzenia dotyczy pakietu R, który może jest, a może nie jest Tobie znany, ale ma zastosowanie w większości przypadków przygotowywania danych.
Dla przypomnienia 4 reguły dotyczące przygotowania danych:
- każda zmienna zawiera się w jednej kolumnie
- każda obserwacja zawiera się w jednym wierszu
- dane powinny mieścić się w jednej tabeli
- jeśli z różnych względów potrzebne jest kilka tabel powinny one zawierać kolumnę z wartościami identyfikującymi (ID) pozwalającymi połączyć je ze sobą
Na nazwy kolumn przeznaczamy 1 (jeden) wiersz. Jednym z dobrych zwyczajów jest umieszczenie w tym wierszu pełnej nazwy zmiennej, np.: ‘WiekPodczasBadania’ zamiast ‚WPB’. W przypadku danych kwestionariuszowych często kolejne pytania składają się na jakiś wynik sumaryczny - w nazwie kolumn można to zawrzeć podając kolejno kw1, kw2, … kwN, gdzie “kw” jest nazwą kwestionariusza a jeszcze lepiej skali (kw1_sk1_p1, kw1_sk1_p2…).
Dane mogą być zapisane w Excelu, lecz najlepiej w jednym arkuszu bez makr i formuł. Alternatywnym dobrym formatem jest plik tekstowy CSV lub TAB-delimited.
Reguły przeliczania (książka kodowa)
W większości przypadków dane powinny być opisane szerzej niż wynika to z ich charakterystyki liczbowej. Minimalnie powinny być podane:
- Informacja o zmiennych (wraz z jednostkami, np. wiek w latach)
- Sposób uzyskania z danych surowych gotowych zmiennych
- Informację o planie badawczym - w jaki sposób dane zostały pozyskane (np. powtarzane pomiary, badania kwestionariuszowe, itp.)
Formatem tego dokumentu jest dowolny format tekstowy, który jest Tobie wygodny.
Jak opisać zmienne?
Jeśli w zbiorze z danymi zamieszczono cyfry także dla zmiennych kategorialnych (np. wykształcenie, płeć) koniecznym jest podanie jakie cyfry jakim odpowiadają kategoriom, ale preferowanym sposobem zapisu jest używanie opisów tekstowych: “kobieta” - “mężczyzna”, “niski” - “średni” - “wysoki”. Ten sposób zmniejsza liczbę błędów związaną z kodowaniem.
Braki danych powinny być zakodowane wartością ‘NA’ lub pustym miejscem.
Wszelkie informacje zawarte w plikach z danymi powinny być dostępne w postaci tekstowej, tzn. jeśli np. w Excelu kolorami zaznaczone są osoby o określonej płci lub grupy to po imporcie do pakietu statystycznego ta informacja zginie.
Testem czy masz dobrą bazę na dane jest wpisanie kilku wymyślonych osób i próbne policzenie hipotez.