4. Statystyczna koncepcja zrównywania
4.5. Zrównywanie wyników obserwowanych z zastosowaniem modelu IRT
z zastosowaniem modelu IRT
Zrównywania wyników obserwowanych z zastosowaniem modelu IRT (por. Tabela 4.1) wymaga estymacji nieobserwowanych dystrybuant obserwowanych wyników lub lub obu tych dystrybuant na podstawie parametrów modelu IRT wyrażonych na wspólnej dla populacji skali. Ustalając uwagę na , oznacza to konieczność scałkowania po rozkładzie warunkowego prawdopodobieństwa uzyskania każdego z wyników:
Warunkowe prawdopodobieństwa są kombinacją warunkowych prawdopodobieństw zaobserwowania wektorów odpowiedzi sumujących się . Oszacowanie stanowi zatem skomplikowany problem kombinatoryczny połączony z całkowaniem numerycznym. Rekursywny algorytm obliczający szukane prawdopodobieństwa jest podany w Kolen & Brenan (2004). Glas & Béguin (1996) wskazują również na możliwość oszacowania szukanego poprzez przeprowadzenia stosownego eksperymentu Monte Carlo bazującego na oszacowanym i zrównanym modelu IRT.
W przeprowadzonych badaniach zaadaptowano symulacyjną strategię generowania wyrażonych na wspólnej skali wyników obserwowanych roku bazowego . Dla egzaminu gimnazjalnego rok bazowy ustalono na 2003 w teście matematyczno-przyrodniczym oraz humanistycznym, dla sprawdzianu po klasie VI za rok bazowy wybrano 2004. Do wygenerowania wyników obserwowanych dla danego rocznika na skali z roku bazowego generowano 5 milionów wyników zgodnie z oszacowaną dla tego rocznika średnią i odchyleniem standardowym rozkładu umiejętności oraz przy uwzględnieniu parametrów zadań dla roku bazowego.
77 Aby uzyskać jak najlepsze oszacowanie rozkładu wyników obserwowanych parametry zadań egzaminacyjnych zostały oszacowane w niezależnej procedurze od wielokrotnie replikowanej na podpróbkach danych egzaminacyjnych kalibracji łącznej wielogrupowym modelem IRT. Kalibracja wielogrupowym modelem IRT z wykorzystaniem oprogramowania MIRT, opisana we wcześniejszych akapitach rozdziału, miała na celu oszacowanie pierwszych dwóch momentów rozkładu umiejętności w poszczególnych latach na wspólnej skali wraz z błędami standardowymi tych parametrów. Wykorzystano do tego program MIRT, ze względu na to, że obsługuje on model wielogrupowy. Oszacowania parametrów zadań przeprowadzono natomiast dla każdego z egzaminów osobno, wykorzystując wszystkie wektory uczniowskich odpowiedzi zebrane w danym roku oraz inne niż do kalibracji łącznej oprogramowanie – Parscale 4.1. Zmiana oprogramowania była podyktowana przede wszystkim koniecznością wykorzystania w przypadku części zadań ocenianych 0-1 trójparametrycznego modelu logistycznego (3PLM) zamiast zastosowanego w zrównywaniu modelu dwuparametrycznego (2PLM). Model 3PLM został wykorzystany w przypadku tych zadań, dla których oszacowanie dwuparametrycznej krzywej charakterystycznej wykazywało niedopasowanie dla uczniów o niskim poziomie umiejętności wskazujące na występowanie dolnej asymptoty krzywej charakterystycznej położonej istotnie powyżej zera. Niemodelowanie tego zjawiska poprzez dwuparametryczną krzywą charakterystyczną skutkowałoby obciążonymi oszacowaniami rozkładu wyników obserwowanych.
Najlepszym rozwiązaniem byłoby zastosowanie modelu 3PLM również przy kalibracji łącznej w modelu wielogrupowym, niestety program MIRT nie obsługuje modelu 3PLM, a program Parscale nie obsługuje modelu wielogrupowego. Uzyskane za pomocą Parscale oszacowania parametrów zadań wraz z krzywymi charakterystycznymi oraz empirycznymi proporcjami zdobytych punktów w centylach umiejętności (które pozwalają ocenić dobroć dopasowania) przedstawiono w Aneksie A.
Przeliczenie konkretnego wyniku obserwowanego w roku (oznaczymy ), na odpowiedni wynik obserwowany dla bazowego testu ( ) na podstawie wspomnianych 5 milionów zasymulowanych wyników w teście zostało wyznaczone jako modalny wynik na skali bazowej uczniów o wyniku
:
Przeliczone wyniki posłużyły do stworzenia tablic przeliczeniowych zamieszczonych w dalszej części raportu (Tabele 6.2, 6.3 oraz 6.7).
Należy zauważyć, że zastosowana procedura nie spełnia formalnych wymogów nałożonych na zrównywanie. Dokonano przewidywania wyników ze wszystkich lat na skalę z roku bazowego, przez co niezachowany jest chociażby wymóg symetrii. Przełożenie wszystkich lat na jeden rok bazowy jest jednak rozwiązaniem pozwalającym na porównywanie wyników między wieloma latami. Zrównywanie w ścisłym rozumieniu tego terminu, jak opisano wcześniej, na skali wyników obserwowanych doprowadziłoby przy zaokrąglaniu do całkowitych punktów do przekształcenia identycznościowego – tylko takie przekształcenie pozwala przeliczyć wyniki w dwóch testach ocenianych na tą samą liczbę punktów w sposób różnowartościowy.
4.5.1. Generowanie PV z wykorzystaniem MCMC
W wyniku zrównania program MIRT dostarcza jedynie dwa pierwsze momenty rozkładu umiejętności. Dla zwiększenia precyzji odwzorowania kształtu rozkładu przy generowaniu wyników obserwowanych, obserwacje z rozkładu generowano z wykorzystaniem tak zwanych plausible
values – w skrócie PV. PV stanowią realizacje z rozkładu a posteriori parametru umiejętności ucznia o wektorze odpowiedzi (Wu, 2005):
(4.4)
gdzie jest rozkładem a priori umiejętności, a klasyczną funkcją wiarygodności zależną od parametru umiejętności oraz parametrów zadań (porównaj równanie (4.1)).
Uzyskanie PV zgodnie z równaniem (4.4) wymaga również zastosowania zaawansowanych numerycznych rozwiązań opartych na metodologii MCMC (Markov Chain Monte Carlo). W badaniu łańcuchy Markowa służące do wygenerowania PV stworzono zgodnie z podejściem Metropolis Hastings z symetryczną funkcją generującą kandydatów na kolejne punkty w łańcuchu Markowa. Konkretnie algorytm składał się z następujących kroków (por.: Patz & Junker, 1999, oraz de la Torre, 2009):
1) wylosuj punkt kandydujący zgodnie z generującym rozkładem ;
2) oblicz prawdopodobieństwo: ;
3) wylosuj z rozkładu jednostajnego na przedziale (0;1);
4) jeżeli , to zaakceptuj kandydata ( ), a w przeciwnym razie pozostaw łańcuch
w miejscu ( ).
Przy czym spełnione są następujące warunki:
a) wartość startowa łańcucha jest punktowym oszacowaniem EAP dostarczonym przez program użyty do dopasowania modelu IRT;
b) stała wartość odchylenia standardowego funkcji generującej kandydatów jest wzięta jako błąd standardowy oszacowania również raportowany przez program pierwotnie estymujący parametry IRT; kształt funkcji jest normalny (symetryczność);
c) rozkład a priori parametry umiejętności jest rozkładem standardowym normalnym. Ze względu na dobór wartości startowej łańcucha ) i odchylenia standardowego funkcji generujących kandydatów ( ) bardzo zbliżony do faktycznego rozkładu a posteriori (4.44), łańcuchy MCMC od samego początku znajdowały się w centralnym rejonie swojego docelowego rozkładu stacjonarnego. Rozkład a posteriori (4.4) wykorzystany do generowania PV uzyskiwano z 500 replikacji łańcucha po uprzednim odrzuceniu 200 pierwszych replikacji łańcucha (tzw. burn-in).
Do generowania PV dla uczniów piszących dany egzamin wykorzystano parametry zadań oszacowane za pomocą programu Parscale, których wartości podano w Aneksie A. Parametry zadań w Parscale są oszacowane w modelu jednogrupowym zakotwiczonym na rozkładzie o średniej 0 i odchyleniu standardowym 1, zatem przed przystąpieniem do dalszych analiz z wykorzystaniem PV przeskalowano je dla każdego roku, tak aby uwzględnić różnice rozkładów umiejętności między latami oszacowane za pomocą programu MIRT.
79