Jak przygotować i/lub wpisać dane do SPSS?

W SPSS dla ułatwienia ;-) są dwie zakładki: DANE i ZMIENNE.
Nasze dane wpisujemy w zakładce pierwszej przestrzegając zasady, aby w jednym wierszu znalazły się wszystkie informacje o obserwacjach (osoby, pary, np. małżeństwa albo trener - zawodnik, rodziny, itp.). W ten sposób kolejne kolumny będą zapisem wartości jakie przyjmują zmienne. W drugiej zakładce można je dookreślić (dodać opisy wartości, przyporządkować poziom pomiaru - nie jest to konieczne i służy jako ułatwienie).
Często łatwiej jest wprowadzić do SPSS wartości odpowiedzi na poszczególne pytania, a potem obliczyć w programie (menu Przekształcenia -> Oblicz wartości) wartości wskaźników zmiennych.
W miarę możliwości należy kodować wszystkie informacje w sposób numeryczny.

Dane można przygotować np. w Calcu lub Excelu pamiętając o zasadzie: 1 wiersz = 1 obserwacja. Poniżej ilustracje jak nie należy i dobrze przygotowanych danych (na żółto sposób kodowania pytań wielokrotnego wyboru).

 

Więcej na temat przygotowania danych do analiz statystycznych można znaleźć tutaj.

Jak udostępnić dane statystykowi?

To jest przewodnik dla tych, którzy chcą skorzystać z pomocy statystyka, co wiąże się z przekazaniem mu jakiś danych. Szczególnie mam na myśli:

  • współpracujących nad pracą badawczą
  • studentów i doktorantów, którzy potrzebują pomocy w obliczeniach lub konsultacji

Celem tego przewodnika jest spisanie wytycznych, które ułatwią współpracę i wskażą najlepszy sposób udostępniania danych oraz unikania pułapek. Wszyscy statystycy szacują, że proces przygotowania danych zajmuje im 80-95% czasu poświęconego na analizy. Przestrzeganie zawartych tu wskazówek pozwoli uzyskać wyniki bardzo szybko, ponieważ czas statystyka będzie spożytkowany bardziej produktywnie.

Oczywiście statystycy przeważnie potrafią z każdej formy danych przygotować analizowalną formę, ale osoba zbierająca dane zrobi to lepiej i szybciej, ponieważ ma informacje na temat danych, które statystyk często musi zdobyć (co zajmuje czas).

Co powinien otrzymać statystyk?

Dla przyśpieszenia i ułatwienia analiz dane powinny być:

  1. Danymi surowymi,
  2. zapisane wg schludnego schematu:
    • każda zmienna zawiera jedną kolumnę
    • każdy wiersz zawiera jedną obserwację
    • każdy pomiar tworzy tabelę
  3. z książką kodową opisującą każdą zmienną z jej możliwymi wartościami (np. zakres, lub kategorie)
  4. oraz dokładny przepis jak z danych surowych uzyskać zmienne.

Osobną kwestią jest umiejętne sformułowanie problemu badawczego i pytania do statystyka. Ale zajmijmy się najpierw danymi ;-)

Pokrótce o każdym z punktów:

Surowe dane

Surowe dane mają tą cechę, że są efektem pomiaru nie poddanym żadnym manipulacjom. Czy to będzie plik wynikowy z przyrządu pomiarowego, czy ręcznie wprowadzone liczby z pomiaru kwestionariuszowego - dane są ok, jeśli nic z nim nie robiono. Nic to znaczy:

  1. żaden program komputerowy ich nie obrabiał
  2. nie były zmieniane żadne wartości
  3. nic nie było też usuwane
  4. nie były też dokonywane żadne podsumowania i analizy w pliku

Kilka przykładów:

Przeliczanie lub zmienianie danych jest częstym błędem, który sprawia, że statystyk musi najpierw wykonać detektywistyczną pracę analizując dlaczego dane wyglądają właśnie w taki sposób.

Schludny format danych

Wielkość i format pliku nie ma znaczenia. Ważny jest porządek. Zgodnie z zasadą “garbage in = garbage out” to co jest potrzebne do analizy to przejrzystość sposobu zapisania danych. Na poziomie ogólnym można o tym poczytać u Hadley Wickham w tym artykule lub zobaczyć na tym filmie. Przedstawiony tam punkt widzenia dotyczy pakietu R, który może jest, a może nie jest Tobie znany, ale ma zastosowanie w większości przypadków przygotowywania danych. O danych do SPSS pisałem tu.

Dla przypomnienia 4 reguły dotyczące przygotowania danych:

  1. każda zmienna zawiera się w jednej kolumnie
  2. każda obserwacja zawiera się w jednym wierszu
  3. dane powinny mieścić się w jednej tabeli
  4. jeśli z różnych względów potrzebne jest kilka tabel powinny one zawierać kolumnę z wartościami (ID) pozwalającymi połączyć je ze sobą

Jednym z dobrych zwyczajów jest umieszczenie w pierwszym wierszu danych pełnej nazwy zmiennej, np.: ‘WiekPodczasBadania’ zamiast ‘WPB’ W przypadku danych kwestionariuszowych często kolejne pytania składają się na jakiś wynik sumaryczny - w nazwie kolumn można to zawrzeć podając kolejno kw1, kw2, … kwN, gdzie “kw” jest nazwą kwestionariusza a jeszcze lepiej skali.

Dane mogą być zapisane w Excelu, lecz najlepiej w jednym arkuszu bez makr i formuł. Alternatywnym dobrym formatem jest plik tekstowy CSV lub TAB-delimited.

Reguły przeliczania (książka kodowa)

W większości przypadków dane powinny być opisane szerzej niż wynika to z ich charakterystyki liczbowej. Minimalnie powinny być podane:

  1. Informacja o zmiennych (wraz z jednostkami, np. wiek w latach)
  2. Sposób uzyskania z danych surowych zmiennych
  3. Informację o planie badawczym - w jaki sposób dane zostały pozyskane (np. powtarzane pomiary, badania kwestionariuszowe, itp.)

Format tego dokumentu jest dowolny tekstowy, który jest Tobie wygodny.

Jak opisać zmienne

Jeśli w zbiorze z danymi zamieszczono cyfry także dla zmiennych kategorialnych (np. wykształcenie, płeć) koniecznym jest podanie jakie cyfry jakim kategoriom odpowiadają, ale preferowanym sposobem zapisu jest używanie opisów tekstowych: “kobieta” - “mężczyzna”, “niski” - “średni” - “wysoki”. Ten sposób zmniejsza liczbę błędów związaną z kodowaniem.

Braki danych powinny być zakodowane wartością NA.

Wszelkie informacje zawarte w plikach z danymi powinny być dostępne w postaci tekstowej, tzn. jeśli np. w Excelu kolorami zaznaczone są osoby o określonej płci lub grupy to po imporcie do pakietu statystycznego ta informacja zginie.

Czego można się spodziewać po statystyku

Jeśli otrzyma on tak przygotowane dane wynik analiz będzie dostępny dużo szybciej. Oczywiście nie oznacza to braku pytań i wiele sytuacji z danymi wymyka się z tych ram. Ale ich przestrzeganie pozwoli ograniczyć do minimum inżynierię wsteczną aby uzyskać czyste, analizowalne dane.

Dobrze zrobiona analiza statystyczna zawiera:

  1. Opis procedur analitycznych
  2. Skrypt do ich przeprowadzenia samodzielnie (w przypadku R)
  3. Pliki wynikowe w postaci raportu z tabelami i rycinami, które analiza wygenerowała

Na podstawie tych informacji powinno być możliwe powtórzenie analiz, a każdy ich etap powinien być jasny i zrozumiały. Jeśli tak nie jest należy pytać statystyka do skutku, tak aby nawet jeśli nie będzie możliwe powtórzenie analiz, to zrozumiałe będą jego poszczególne etapy.

Autorzy

====================

Na podstawie wersji angielskiej napisanej przez: * Jeff Leek - Wrote the initial version. * L. Collado-Torres - Fixed typos, added links. * Nick Reich - Added tips on storing data as text.

Przygotował wersję polską i zlokalizował dla Nauk Społecznych: * Paweł Kleka