• Nie Znaleziono Wyników

Używanie modeli opartych o  teorię odpowiadania na pozycje testowe przy analizowaniu wyników dotyczących zmiennych latentnych ma dwie niewątpliwe zalety:

1) wyniki przypisywane osobom uczestniczącym w badaniach wyrażane są na mocnej skali interwałowej Θ (Embretson i DeBoeck, 1994; Harwell i Gatti, 2001) oraz 2) modele IRT pozwalają na dokładniejszą estymację błędu pomiarowego SEM (Fraley, Waller i  Brennan, 2000; Mellenbergh, 1999; Reise i  Haviland, 2005). Przeprowadzone badania wykazały, że poziom błędu jest mocniej związany z  wynikami surowymi i  przeliczonymi, niż z  wynikami określonymi za pomocą poziomu Θ. Wynik ten wskazuje, że traktowanie wszystkich pozycji testowych bądź kwestionariuszowych równorzędnie – a tak się dzieje przy większości narzędzi badawczych w psychologii – ma wpływ na jakość wyników uzyskiwanych za pomocą skróconych wersji. Sumowanie odpowiedzi z  poszczególnych pozycji bez uwzględniania ich wagi, chociażby przez odniesienie się do ich trudności i mocy różnicującej, powoduje niekontrolowany wzrost błędu pomiarowego. Wyniki uzyskane w tej pracy wspierają tezę, iż wyniki przeliczone są stałe, bez względu na liczbę wybranych pozycji, ale należy pamiętać, że im jest ich mniej, tym większy staje się błąd pomiarowy.

Badania dostarczyły także informacji na temat kształtu zależności między długością narzędzia badawczego a  zróżnicowaniem wyników. Istnieje optymalna długość narzędzia wyznaczona przez funkcję krzywoliniową, gdzie dodawanie kolejnych pozycji zmniejsza rozrzut wyników. Nie jest to jednak zależność prosta i  od punktu przegięcia funkcji dalsze wydłużanie narzędzia nie przynosi znaczącej poprawy jakości wyników.

Przeprowadzone w  pracy analizy wykazały ponadto, że różne podejścia statystyczne prowadzą do uzyskania różnych skróconych zestawów pozycji testowych bądź kwestionariuszowych. Opierając się na korelacjach, ładunkach czynnikowych czy poziomie informacji zawartej w  poszczególnych pozycjach otrzymano różne zestawy, które jednocześnie nie różniły się wynikami przeliczonymi (poza testem Omnibus, gdzie

wyniki skrócone były istotnie niższe). Mimo odrzucenia hipotezy o  zgodności składu narzędzi, należy zwrócić uwagę, że porównanie rzetelności tych różnych wersji nie pozwala wybrać lepszej metody. Jednocześnie w  oparciu o  IRT wiadomo, że poziom trudności pozycji testowych wpływa na poziom błędu standardowego pomiaru. A z kolei poziom SEM wpływa pośrednio na długość narzędzia – te składające się z  pozycji łatwych i  o średnim poziomie trudności w  mniejszej liczbie kroków dostarczają informacji o poziomie Θ osoby uczestniczącej w badaniu.

Znając parametry pozycji wchodzących w skład narzędzia, badacz przygotowujący jego skróconą wersję może podjąć decyzję ze świadomością konsekwencji swojego wyboru. W  oparciu o  techniki probabilistyczne może spodziewać się określonego poziomu błędu, tym większego im więcej pozycji trudnych zostanie przez niego wybranych. Potwierdzeniem tej tezy jest zaprezentowana wcześniej obserwacja, zgodnie z którą poziom szacowanej cechy dla różnych wersji narzędzia nie różni się, poza wersją składającą się z trudnych pozycji.

Rezultaty uzyskane w tej pracy pokrywają się z wynikami przedstawionymi przez innych badaczy. Zarówno Embretson (1996), jak i Kang oraz  Waller (2005) stwierdzili niewielki wpływ długości testu na wielkość błędu, niezależnie od sposobu przeliczania wyniku. Co prawda w  klasycznej teorii testu zwiększanie długości skali jest jedną z metod zwiększania rzetelności pomiaru, jednak - jak wspomniano wcześniej - badania przeprowadzone w oparciu o IRT sugerują, że takie podejście jest mało efektywne.

5.1.1. Implikacje psychometryczne

Badania w  zakresie zastosowania modeli IRT w  różnych obszarach psychometrii są jej ważnym nurtem. Na gruncie teorii testów niejednokrotnie podkreślano psychometryczne zalety modeli Rascha w  odniesieniu do skal dychotomicznych (Embretson i  Reise, 2000; Reise i  Haviland, 2005), jednak znacznie mniej uwagi poświęcano modelom politomicznym. W  tym kontekście niniejsza praca wypełnia pewną lukę w  obszarze badawczym. W  1996 Susan E. Embretson potwierdziła teoretyczne przesłanki, że wyniki Θ uzyskane w  dychotomicznym modelu IRT są odporne zarówno na błędy I,  jak i  II rodzaju. Jednocześnie, podczas czynnikowej analizy wariancji wykazała, że wyniki surowe takiej odporności nie wykazują. Kang i  Waller (2005) rozszerzyli te wyniki dla modeli dwuparametrycznych. Symulacje przeprowadzone w  ramach powyższego opracowania sugerują, że wyniki uzyskane w oparciu o modele GRM także są odporniejsze na błędy niż wyniki surowe. Badania te wpisują się w trend sprawdzający teoretyczne modele w warunkach i dla narzędzi coraz

bardziej odpowiadających realiom rzeczywistych badań psychologicznych. Z uwagi na fakt, że w Polsce jak dotąd modele politomiczne nie były na gruncie psychologii badane, przedstawiona na kartach tej pracy próba przyczyni się do ich szerszego stosowania.

5.1.2. Implikacje wyników dla praktyki psychologicznej

Mimo, że pomiar uznawany jest za kluczowy element badań w  psychologii stosowanej, przez ostatnie 70 lat dominuje tylko jedno podejście psychometryczne oparte na klasycznej teorii testu. Związane jest ono z kilkoma ograniczeniami narzędzi badawczych: z tendencją do długich skal, gdzie interpretacja wyników zależy od próby normalizacyjnej; z  przyjmowaniem założenia, że każda pozycja testowa lub kwestionariuszowa wnosi tyle samo informacji do wyniku końcowego; z  trudnym tworzeniem równorzędnych wersji. Wszystkie te problemy rozwiązuje podejście oparte na IRT, które dostarcza wyniki na mocnej skali ilorazowej. Niestety, podejście probabilistyczne jest wciąż mało popularne, mimo że wielu badaczy opracowuje narzędzia na jego podstawie i  używa ich w  różnych dziedzinach psychologii:

osobowości (Reise i  Waller, 1990; Ferrando, 1994; Steinberg i  Thissen, 1995; Gray-Little, Williams i Hancock, 1997; Rouse, Finger i Butcher, 1999), postaw (Fraley, Waller i  Brennan, 2000), psychopatologii (Reise i  Waller, 2003; Waller i  Reise, 2009), psychologii klinicznej dzieci (Lanza, Foster, Taylor i  Burns, 2005), psychologii kryminalnej (Osgood, McMorris i  Potenza, 2002). Ten stan rzeczy można tłumaczyć brakem popularyzatorskich opracowań pokazujących zastosowanie IRT, deficytem programów statystycznych opartych na IRT i  nieobecnością IRT w  procesie edukacji psychologów i psychometrów. Być może poniższa praca przyczyni się do zmiany w tym obszarze, szczególnie poprzez udostępnienie prostego w  obsłudze narzędzia do przeprowadzania badań w oparciu o IRT, dostępnego pod adresem badanet.amu.edu.pl (por. załącznik 4).

Użycie IRT poprawia jakość analiz parametrycznych i  lepiej oddaje właściwości cech latentnych wpływających na wyniki obserwowane, niż klasyczna teoria testu uznająca wynik za składową części prawdziwej i  błędu pomiarowego. Mimo skomplikowanego aparatu matematycznego, poprawne zastosowanie IRT sprowadza się do prostego przestrzegania trzech opisanych poniżej kroków.

Po pierwsze, należy zebrać odpowiednią liczbę obserwacji, aby określić parametry pozycji testowych lub kwestionariuszowych według wybranego modelu IRT. Analizy w  tej pracy oraz najnowsze badania wskazują, że dla modeli politomicznych

wystarczająca jest liczebność próby w granicach 250-300 osób (Chuah, Drasgow i Luecht, 2006; Ostini i Nering, 2006).

Po drugie, należy określić wymiarowość cechy latentnej. Informacje te można często założyć w  oparciu o  przesłanki teoretyczne lub sprawdzić w  analizie czynnikowej. Problem braku jednowymiarowości można rozwiązać przeprowadzając osobno analizy dla poszczególnych podskal (Hulin i Ilgen, 2000).

Po trzecie, należy dobrać odpowiedni model do danych. Obecnie istnieje wiele modeli zarówno dychotomicznych, jak i  politomicznych jedno- i  wielowymiarowych. Są też nawet odpowiednie modele dla nieparametrycznych zmiennych latentnych. Ze względu na charakter większości zmiennych w  psychologii, model GRM Samejima wydaje się najlepszym wyborem.

Rezultaty tej pracy zdecydowanie wskazują, że wyniki szacowane w  oparciu o model 3PL i GRM charakteryzują się lepszą ogólną dokładnością niż wyniki surowe.

Biorąc to pod uwagę, nie waham się rekomendować badaczom w obszarze psychologii częstszego wykorzystywania modeli IRT, aby zwiększyć dokładność analiz parametrycznych. Mam nadzieję, że wyniki przedstawione w  tej pracy stanowią wystarczającą zachętę dla bardziej powszechnego stosowania modeli probabilistycznych.