• Nie Znaleziono Wyników

Zastosowanie podejścia probabilistycznego do szacowania wartości zmiennej latentnej ma trzy podstawowe zalety. Po pierwsze, w  modelach IRT wyniki zawsze są wyrażone na skali metrycznej jako miary wartości Θ. Jest to duża zaleta w stosunku do podejścia klasycznego, gdzie poziom pomiarowy w badaniach psychologicznych rzadko wykracza poza skalę porządkową. Po drugie, modele IRT pozwalają precyzyjniej szacować błąd standardowy pomiaru (SEM). Wyniki skrajne (niskie i  wysokie) są obciążone większym błędem niż wyniki ze środka zakresu, czyli błąd standardowy pomiaru różni się w obrębie skali Θ, inaczej niż w KTT, gdzie zakładany jest jego stały poziom dla całego pomiaru. Przyjęcie zmienności SEM pozwala dokładniej określać rzetelność narzędzia badawczego, a  także sporządzać różne zestawy z  dostępnych pozycji, maksymalizując precyzyjność testu lub kwestionariusza dla zadanej wartości Θ.

Trzecią zaletą modeli opartych na IRT jest obiektywność. Dysponując skalibrowanymi pozycjami, dostosowuje się narzędzie do potrzeb danej sytuacji badawczej oraz danej osoby uczestniczącej w  badaniu. Nie traci się przy tym możliwości porównania otrzymanego wyniku z  innymi. Nie ma znaczenia, w  jakiej grupie znalazła się dana osoba badana ani z  jakich pozycji składało się narzędzie pomiarowe – jej wynik jest obiektywny w  stosunku do wyników wszystkich osób badanych narzędziem składającym się z pozycji dobranych z tego samego zbioru.

1.6.1. Dopasowanie modelu IRT do formatu pozycji testowych

Wybierając model, w  oparciu o  który będą szacowane parametry pozycji, należy znać odpowiedź na pytanie o  liczbę kategorii odpowiedzi i  ich rodzaj. Dla testów lub kwestionariuszy z  pozycjami, na które są tylko dwie kategorie odpowiedzi: tak / nie,

prawda / fałsz itp., odpowiednie są modele dwukategorialne (dichotomous models):

jedno-, dwu-, trzy- lub cztero- parametryczne (oznaczane w  literaturze odpowiednio:

1, 2, 3 i 4PL). Jeśli można przyjąć dodatkowe założenie, iż poszczególne pozycje będą miały taką samą moc różnicującą (parametr a), można skorzystać z  rodziny modeli Rasch'a (Rasch, 1960). Główną zaletą modeli Rasch'a jest ich prostota, ale rzadko mamy do czynienia z  taką sytuacją, iż wszystkie pozycje charakteryzują się identycznym poziomem mocy różnicującej. Szacowanie różnych wartości parametrów dla każdej z  pozycji lepiej oddaje rzeczywiste funkcjonowanie pozycji wchodzących w  skład narzędzia badawczego. Z  tego powodu model 3PL jest najczęściej wybierany w sytuacji badania za pomocą narzędzia składającego się z pozycji dwukategorialnych . W przypadku używania testów wiedzy wydaje się słuszne założenie pewnego niezerowego prawdopodobieństwa dla możliwości odgadnięcia przez osoby uczestniczące w  badaniu prawidłowej odpowiedzi. Z  kolei dla pozycji z  kilkoma (> 2) uporządkowanymi kategoriami odpowiedzi (np.: tak / raczej tak / raczej nie / nie), najczęściej stosowane są wspomniane już modele wielokategorialne (polytomous models) np.: PCM – Partial Credit Model i  jego rozszerzenie GPCM lub GRM.

I  wreszcie dla wielokrotnych odpowiedzi z  nieokreślonym porządkiem, najbardziej odpowiednie są modele nominalne (nominal polytomous), zaś dla odpowiedzi w postaci rankingów odpowiednie są modele rankingowe (rankings) (Bock i Moustaki, 2007). Dla kwestionariuszy psychologicznych, które najczęściej opierają się na skali porządkowej, wielokategorialnej stosuje się przeważnie właśnie modele GPCM lub GRM.

1.6.2. Kryteria dopasowania modelu IRT do danych

Użyteczność wyników uzyskanych w analizach opartych o IRT zależy od stopnia, w  jakim wybrany model odzwierciedla rzeczywiste dane. Ocena dobroci dopasowania przyjętego modelu do otrzymanych danych, polega głównie na sprawdzeniu rozkładu różnic między wynikami otrzymanymi a  przewidzianymi przez przyjęty model. Dla modeli 1PL i  modeli Rasch'a konstrukcja takiego wskaźnika prawdopodobieństwa LR (likelihood ratio) jest stosunkowo prosta. Obliczany jest on na podstawie dostępnej obserwacji proporcji osób z odpowiedziami zgodnymi i niezgodnymi z kluczem.

LR = 1 ⇥

# (1.9),

gdzie α to wielkość błędu pierwszego rodzaju, β to wielkość błędu drugiego rodzaju. Stąd wskaźnik dopasowania D wyrażony jest wzorem 1.10:

D = 2ln

stopniami swobody df równymi liczbie parametrów dla przyjętego modelu.

Dla modeli bardziej złożonych, które szacują latentną wartość Θ, a więc wielkość z definicji nie podlegającą obserwacji, konstrukcja wskaźnika dobroci dopasowania jest trudniejsza (Rost i  Davier, 1994; Glas, 1988; Wright i  Mead, 1977; Wright i  Panchapakesan, 1969). Najszerzej przyjętym sposobem (DeMars, 2010, s. 235) jest wykreślenie krzywych odpowiedzi (item response curve) według przyjętego modelu i wyznaczonych parametrów, a następnie porównanie ich z krzywymi dla otrzymanych odpowiedzi. Procedura wyznaczania krzywej dla otrzymanych odpowiedzi wygląda w  ten sposób, iż po wyznaczeniu parametrów według przyjętego modelu i  obliczeniu wartości zmiennej latentnej dla osób badanych sortuje się ich wyniki Θ i  wyznacza g  równolicznych grup. Następnie oblicza się dla każdej pozycji procent zgodnych odpowiedzi w  obrębie każdej z  g grup. Na podstawie mediany wartości Θ wewnątrz grupy (oś Y) oraz procentu zgodnych odpowiedzi (oś X) wyznacza się krzywą odpowiedzi. Różnice między obiema krzywymi: otrzymaną i  wyznaczoną dla obliczonych parametrów, mogą być wskazówką występowania następujących problemów:

• niespełnienia założenia o jednowymiarowości zmiennej latentej,

• złego dopasowania modelu do danych,

• braku monotoniczności funkcji f(Θ) = p,

• wrażliwości na próbę (wysoki wskaźnik DIF – differential item functioning),

• słabego różnicowania poszczególnych pozycji.

Jako statystyczny wskaźnik dopasowania wykorzystywany jest współczynnik Pearsona 𝜒² (Swaminathan, Hambleton i Rogers, 2007, s. 699):

2

=

• k jest liczbą kategorii odpowiedzi,

• j jest indeksem pozycji testowych lub kwestionariuszowych,

• Ojk jest otrzymanym prawdopodobieństwem zgodnych pozycji dla pozycji j-tej,

• Ejk jest oczekiwanym prawdopodobieństwem zgodnych pozycji na podstawie wielkości parametrów obliczonych w oparciu o założony model IRT, dla mediany wartości Θ,

• Njk jest liczbą obserwacji dla pozycji j-tej, w kategorii k-tej.

Wskaźnik ten ma rozkład zbliżony do rozkładu 𝜒² ze stopniami swobody df = j - k,.

Dla modeli dwukategorialnych (k = 1) wzór ulega redukcji do postaci:

2

= X

J j=1

N

j

(O

j

E

j

)

2

E

j

(1 E

j

)

, # (1.11b).

Wskaźnik ten  podobnie jak inne oparte na dystrybuancie 𝜒² jest wrażliwy na

wielkość próby (Bock i Moustaki, 2007, Mair, Reise i Bentler, 2008). Z tego powodu we współczesnych programach komputerowych implementowane są bardziej zaawanso-wane algorytmy odpowiednie dla dużych prób i  narzędzi badawczych z  liczbą pozycji powyżej 20 (np. BILOG-MG – Zimowski, Muraki, Mislevy i Bock, 1996).

Porównując dopasowanie kilku modeli do danych, można zastosować procedurę zaproponowaną przez (Maydue-Olivares, Drasgow i  Mead (1994) nazywaną „idealny obserwator". Polega ona na wyznaczeniu współczynnika prawdopodobieństwa LR między danymi oszacowanymi przez porównywane modele. Analizując wskaźnik dopasowania D dla każdego z modeli i otrzymując zbliżone wartości możemy założyć, że między modelami nie istnieją znaczące różnice wpływające na dokładność oszacowania. Zatem wybór każdego z modeli pozwoli otrzymać podobnie dopasowane dane.

Powyższa ocena modelu z  punktu widzenia dopasowania do pozycji (item fit) może być uzupełniona o ocenę dopasowania odpowiedzi do osób badanych (person fit) (Swaminathan, Hambleton i Rogers, 2007; Emons, Sijtsma i Meijer, 2005). Celem tego rodzaju analizy jest zbadanie, czy istnieje taki zestaw odpowiedzi na poszczególne pozycje, który mógłby wskazywać na wpływ innej zmiennej latentnej, niż tej leżącej u podstaw narzędzia. Jako zestaw odpowiedzi używane są wszystkie możliwe wektory odpowiedzi, i  tak dla zestawu liczącego 8 czterokategorialnych pozycji przykładowy wektor zakodowanych odpowiedzi mógłby wyglądać następująco: {4  4  3  4  4  1  2  1}.

Czasami analizy tego rodzaju przeprowadza się aby wykryć oszustwa dokonywane

przez osoby badane podczas egzaminu, choć wynik analiz nie dowodzi tego wprost, a  jedynie wskazuje na istnienie takiej możliwości. Podstawowym wskaźnikiem jest indeks ZL opracowany przez Drasgow'a, Levine'a i McLaughlina (1991). Jego wartości bliskie 0 wskazują na dobre dopasowanie danych do modelu z  wyznaczonymi parametrami, wartości ujemne – na występowanie takich układów odpowiedzi, które nie są dopasowane do modelu, a wartości dodatnie – na istnienie takich odpowiedzi, które mają wyższe prawdopodobieństwo występowania, niż przewiduje model (por.

Karabatsos, 2003).

Podsumowując: IRT może być bardzo użytecznym narzędziem do rozwoju, doskonalenia i  oceny skal, wykraczającym poza możliwości analiz w  KTT (takich jak analiza czynnikowa, regresyjna, czy analiza rzetelności), ale ich nie zastępującym.

Wnioski wyciągane z  obu rodzajów analiz powinny być spójne, a  ich rozbieżność wskazuje np. na zły dobór modelu IRT lub nieuprawnione założenie o  ciągłości mierzonej zmiennej. Warto także pamiętać, iż konstruując przydatne narzędzie należy zadbać nie tylko o  zgodność wyników z  punktu widzenia statystycznego, ale też o poziom znaczenia klinicznego, tak aby analizy miały wartość praktyczną.

1.7. Tworzenie skróconych wersji testów - ujęcie w ramach Klasycznej