Co to znaczy schludne dane? Jak przygotować dane do analizy

Published

March 5, 2025

Modified

March 6, 2025

Wielkość i format pliku prawie nie ma znaczenia. Ważny jest porządek. Zgodnie z zasadą “garbage in = garbage out” to co jest potrzebne do analizy to przejrzystość sposobu zapisania danych. Na poziomie ogólnym można o tym poczytać u Hadley Wickham w tym artykule lub zobaczyć na tym filmie. Przedstawiony tam punkt widzenia dotyczy pakietu R, który może jest, a może nie jest Tobie znany, ale ma zastosowanie w większości przypadków przygotowywania danych.

Dla przypomnienia 4 reguły dotyczące przygotowania danych:

  1. każda zmienna zawiera się w jednej kolumnie
  2. każda obserwacja zawiera się w jednym wierszu
  3. dane powinny mieścić się w jednej tabeli
  4. jeśli z różnych względów potrzebne jest kilka tabel powinny one zawierać kolumnę z wartościami identyfikującymi (ID) pozwalającymi połączyć je ze sobą

Na nazwy kolumn przeznaczamy 1 (jeden) wiersz. Jednym z dobrych zwyczajów jest umieszczenie w tym wierszu pełnej nazwy zmiennej, np.: ‘WiekPodczasBadania’ zamiast ‚WPB’. W przypadku danych kwestionariuszowych często kolejne pytania składają się na jakiś wynik sumaryczny - w nazwie kolumn można to zawrzeć podając kolejno kw1, kw2, … kwN, gdzie “kw” jest nazwą kwestionariusza a jeszcze lepiej skali (kw1_sk1_p1, kw1_sk1_p2…).

Dane mogą być zapisane w Excelu, lecz najlepiej w jednym arkuszu bez makr i formuł. Alternatywnym dobrym formatem jest plik tekstowy CSV lub TAB-delimited.

Reguły przeliczania (książka kodowa)

W większości przypadków dane powinny być opisane szerzej niż wynika to z ich charakterystyki liczbowej. Minimalnie powinny być podane:

  1. Informacja o zmiennych (wraz z jednostkami, np. wiek w latach)
  2. Sposób uzyskania z danych surowych gotowych zmiennych
  3. Informację o planie badawczym - w jaki sposób dane zostały pozyskane (np. powtarzane pomiary, badania kwestionariuszowe, itp.)

Formatem tego dokumentu jest dowolny format tekstowy, który jest Tobie wygodny.

Jak opisać zmienne?

Jeśli w zbiorze z danymi zamieszczono cyfry także dla zmiennych kategorialnych (np. wykształcenie, płeć) koniecznym jest podanie jakie cyfry jakim odpowiadają kategoriom, ale preferowanym sposobem zapisu jest używanie opisów tekstowych: “kobieta” - “mężczyzna”, “niski” - “średni” - “wysoki”. Ten sposób zmniejsza liczbę błędów związaną z kodowaniem.

Braki danych powinny być zakodowane wartością ‘NA’ lub pustym miejscem.

Wszelkie informacje zawarte w plikach z danymi powinny być dostępne w postaci tekstowej, tzn. jeśli np. w Excelu kolorami zaznaczone są osoby o określonej płci lub grupy to po imporcie do pakietu statystycznego ta informacja zginie.

ProTip

Testem czy masz dobrą bazę na dane jest wpisanie kilku wymyślonych osób i próbne policzenie hipotez.