• Nie Znaleziono Wyników

Plan nierównoważnych grup z testem kotwiczącym i zrównywanie z wykorzystaniem IRT . 59

W dokumencie produkty EE (Stron 59-63)

4. Metodologia

4.5. Plan nierównoważnych grup z testem kotwiczącym i zrównywanie z wykorzystaniem IRT . 59

zrównywanie z wykorzystaniem IRT

Klasycznie wyróżniane są następujące plany zbierania danych umożliwiających przedstawianie na wspólnej skali wyników z różnych narzędzi pomiarowych:

plan grup równoważnych (equivalent groups, EG), w którym uczniowie z dwóch różnych prób rozwiązują dwa testy, przy czym zakłada się, że populacje, z jakich wywodzą się obie grupy, charakteryzują się tym samym poziomem umiejętności,

21

Zróżnicowane funkcjonowanie zadań oceniano w siedmiu różnych modelach, ostatecznie wybrano

trzy z nich: a) dla danych opierających się na zadaniach egzaminacyjnych, „starych”; b) dla danych

opierających się zarówno na zadaniach egzaminacyjnych, „starych”, jak i „nowych”, niejawnych, bez

wykorzystania modelu 3PLM; c) dla danych opierających się zarówno na zadaniach egzaminacyjnych,

„starych”, jak i „nowych”, niejawnych, z wykorzystaniem modelu 3PLM. Ostateczne oszacowania

wielkości efektu opierają się na uśrednionych statystykach P-DIF ze wskazanych trzech typów modeli.

Wielkości efektu DIF wskazującą na konieczność analizy treściowej pod kątem występowania

stronniczości ustalono arbitralnie na wartość 2/3*0,1≈0,067. Wartość taka została dobrana przy

uwzględnieniu rozkładu obserwowanych efektów DIF (uwzględniała wszystkie przypadki odstające)

oraz ze względu na przesłankę rzędu efektu, który miałby potencjalnie istotne praktyczne znaczenie."

plan pojedynczej grupy (single group, SG), gdzie ta sama próba rozwiązuje oba testy,

plan zrównoważony (counterbalanced design, CB), to w gruncie rzeczy dwa plany SG, gdzie dwie grupy uczniów rozwiązują oba testy w różnej kolejności,

plan nierównoważnych grup z testem kotwiczącym (nonequivalent groups with anchor test, NEAT), w tym planie biorą udział dwie grupy, pierwsza rozwiązuje test zrównywany oraz tzw. test kotwiczący, a druga ten sam test kotwiczący i test, do którego następuje zrównanie. Spośród wymienionych planów jedynie plan NEAT jest modelowym schematem zbierania danych, w którym grupy uczniów rozwiązujących różne testy różnią się poziomem umiejętności. W planie tym mamy dwie różne populacje uczniów 𝒫 oraz 𝒬, z których uczniowie rozwiązują dwa różne testy, odpowiednio 𝑋 oraz 𝑌. Plan ten uwzględnia również trzeci, dodatkowy podzbiór zadań – test 𝐴 noszący nazwę kotwicy, który jest rozwiązywany przez uczniów z obu populacji. Bez zastosowania dodatkowego testu 𝐴 rozwiązywanego zarówno przez próbę uczniów z populacji 𝒫 jak i 𝒬 porównanie wyników różnych grup uczniów jakie uzyskują w różnych testach 𝑋 oraz 𝑌 nie byłoby możliwe – nie sposób byłoby rozróżnić trudności testów 𝑋 oraz 𝑌 od różnic w poziomie umiejętności miedzy uczniami z 𝒫 oraz 𝒬. Schematycznie plan NEAT przedstawia Tabela 4.8.

Tabela 4.8. Schemat planu NEAT

Populacja Próba 𝑋 𝑌 𝐴

𝒫 𝑆1  

𝒬 𝑆2  

Zadanie ustalenia porównywalności wyników z różnych testów mierzących tą samą umiejętność stanowi problem zrównywania wyników testowych (czy ogólniej – linkowania/łączenia wyników testowych). Teoretyczne i metodologiczne szczegóły dotyczące problemu zrównywania testów można znaleźć u wielu autorów, na przykład u: Lorda (1980), Kolena i Brennana (2004), Doransa i Hollanda (2000) czy Hollanda i współpracowników (2007), a także w raporcie ze zrównywania wyników egzaminu gimnazjalnego 2002–2010 (Szaleniec i in., bdw). Tu ograniczymy się jedynie do ogólnej typologii metod zrównywania wyników ze szczególnym naciskiem na metody wykorzystujące modelowanie IRT. Na najogólniejszym poziomie, podziału metod zrównywania wyników testowych można dokonać w zależności od tego czy:

a) zrównywanie odbywa się na skali wyników obserwowanych, czy wyników prawdziwych,

b) zrównywanie odbywa się z bezpośrednim odwołaniem do modelu pomiarowego, czy nie. Większość technik wykorzystywanych do zrównywania wyników testowych zalicza się do kategorii zrównywania wyników obserwowanych (observed score equating), gdzie przez wynik obserwowany rozumie się klasyczny sumaryczny wynik w teście. Nacisk na przeprowadzanie zrównywania na poziomie wyników obserwowanych jest konsekwencją tego, że w przeważającej większości takie właśnie wyniki są wykorzystywane do raportowania rezultatów testowania. Zrównywanie wyników obserwowanych może zostać przeprowadzone bez konieczności odwoływania się w modelu statystycznym do sparametryzowanego mechanizmu leżącego u podstaw obserwowanych wyników, ale także z wykorzystaniem takiego modelu, tj. z wykorzystaniem IRT (IRT observed score equating).

W obrębie podejścia opartego na modelach IRT, pojawia się możliwość dokonania zrównywania wyników prawdziwych (IRT true score equating). Przez wynik prawdziwy danego ucznia rozumie się tu wartość oczekiwaną wyniku obserwowanego tego ucznia. Aby zrównanie zostało przeprowadzone na skali wyników prawdziwych klasycznej teorii testu, konieczne jest oszacowanie parametrów modelu pomiarowego leżącego u podstaw obserwowanych odpowiedzi. Zrównywania na skali wyników prawdziwych nie można zatem przeprowadzić „ateoretycznie”, jak w przypadku wyników obserwowanych. Omawiane zależności między metodami zrównywania wyników schematycznie opisuje Tabela 4.9.

Tabela 4.9. Schematyczny podział metod zrównywania wyników testowych

Zrównywanie wyników obserwowanych

Zrównywanie wyników prawdziwych

Metody niezależne od modelu pomiarowego

zrównywanie ekwicentylowe bez IRT, liniowe, metoda circle-arc

Metody oparte na modelu pomiarowym

Zrównywanie wyników

obserwowanych w oparciu o IRT

Zrównywanie wyników prawdziwych w oparciu o IRT

Zrównywanie testów w oparciu o model pomiarowy IRT nakłada na zrównywane testy założenie, że zastosowany model IRT poprawnie opisuje udzielane przez uczniów odpowiedzi na zadania zrównywanych testów. Wielowymiarowy model IRT (MIRT) stanowi, że dla każdego ucznia 𝑗 prawdopodobieństwo udzielenia konkretnego wektora odpowiedzi 𝒖𝑗 da się sparametryzować w następujący sposób (por. Reckase, 2009):

ℙ(𝑼𝑗= 𝒖𝑗|𝜽𝑗) = ∏ ℙ(𝑈𝑖 𝑖,𝑗= 𝑢𝑖,𝑗|𝜽𝑗), (4.3)

ℙ(𝑈𝑖,𝑗 = 𝑢𝑖,𝑗|𝜽𝑗) = 𝑓𝑖(𝑢𝑖,𝑗|𝜷𝑖, 𝜽𝑗), (4.4)

gdzie 𝜽𝑗= [𝜃𝑗(1), 𝜃𝑗(2), … , 𝜃𝑗(𝑚)] jest wektorem parametrów określających pozycję 𝑗-tego ucznia na 𝑚-wymiarowej zmiennej ukrytej 𝜽 (umiejętność, ability), a 𝜷𝑖 jest wektorem parametrów określających kształt 𝑓𝑖 – funkcji charakterystycznej 𝑖-tego zadania (item characteristic function, ICC). IRT zatem wprost postuluje rozdzielenie parametrów określających właściwości ucznia od parametrów określających właściwości zadań/testu w celu opisania mechanizmu udzielania odpowiedzi na zadania. Rozdzielenie parametrów zadań od parametrów uczniów stanowi klucz do zrozumienia popularności metod IRT przy zrównywaniu wyników.

Założenie (4.3) jest wielowymiarową wersją założenia o lokalnej homogeniczności pomiarów (local homogeneity; Ellis i van der Woldenberg, 1993) i oznacza, że cała informacja o współzmienności zadań zawarta jest w 𝜽 – ustaliwszy wartość parametru umiejętności ucznia 𝜽, odpowiedzi na zadania stają się zdarzeniami niezależnymi. Założenie (4.4) natomiast określa parametryczną postać zależności pomiędzy wartościami 𝜽, a prawdopodobieństwem określonych odpowiedzi w zadaniu 𝑈𝑖,𝑗. Od spełnienia obu tych bardzo silnych założeń zależy jakość wniosków opartych na zastosowaniach IRT, w szczególności jakość zrównywania testów wykorzystującego IRT. Z tego względu (por. Livingston, 2004; von Davier i inni, 2004) nadal często preferowane są, omówione wcześniej, nieczyniące tak daleko idących założeń „ateoretyczne” metody zrównywania wyników. Opis metod weryfikacji spełnienia

założeń IRT w kontekście zrównywania oraz analizy odporności (robustness) metod zrównywania IRT na niespełnienie założeń (4.3) i (4.4) można znaleźć w pracach Antona Béguina (2000) oraz Ceesa Glasa i Antona Béguina (2011).

Model IRT w (4.3) i (4.4) został określony dla ogólnego, wielowymiarowego przypadku umiejętności 𝜽. Dla uproszczenia, dalszy przegląd metod zrównywania w oparciu o modele IRT został przeprowadzony dla przypadku jednowymiarowego 𝜽 = 𝜃. Informacje o zrównywaniu z wykorzystaniem modeli MIRT można znaleźć u Marka Reckase (2009), Antona Béguina (2000), Yuana Li i Roberta Lissitza (2000) oraz Lihua Yao i Keitha Boughtona (2009). W dalszej części przyjmiemy, zatem, założenie, że zrównywane w planie NEAT testy 𝑋, 𝑌 oraz kotwica 𝐴 są jednowymiarowe22 i mierzą ten sam pojedynczy konstrukt (von Davier i von Davier, 2011).

Zmienna umiejętności 𝜃 jest w modelu IRT zmienną losową, tzn umiejętność ucznia 𝜃𝑗 pojawiająca się w równaniach (4.3) i (4.4) nie jest parametrem modelu podlegającym bezpośredniej estymacji, a jedynie losowym efektem zmiennej 𝜃 o określonym rozkładzie. To właśnie parametry rozkładu zmiennej umiejętności, oznaczmy go 𝜓, są estymowane dla modelu IRT. Jest to bardzo ważne w kontekście zrównywania – modelowanie rozkładu umiejętności oddzielnie dla każdej populacji jest istotą całej procedury. W związku z czym model IRT przedstawimy również w formie bezwarunkowej, tj. scałkowanej po rozkładzie umiejętności w populacji 𝒫:

𝑃(𝑼 = 𝒖|𝒫) = ∫ 𝑓(𝒖, 𝜃, 𝜷)𝜓 𝒫 (𝜃) 𝑑𝜃, (4.5)

Modele IRT poprzez uwzględnienie wprost parametrów rozkładu populacji oraz bezproblemowe radzenie sobie z niekompletnymi schematami zbierania danych stanowią bardzo dobre narzędzie do rozwiązania problemu zrównywania. W obrębie IRT wypracowano wiele metod do umieszczania na wspólnej skali rozkładów 𝜃 dla populacji 𝒫 oraz 𝒬 oraz parametrów 𝜷 dla testów 𝑋, 𝑌 oraz 𝐴. Wyróżnić można następujące metody (Kolen i Brennan, 2004):

1. Łączna kalibracja (concurrent calibration) wszystkich trzech testów.

2. Oddzielna kalibracja (separate calibration) par testów (𝑋, 𝐴) oraz (𝑌, 𝐴), po której stosuje się sprowadzające do wspólnej skali przekształcenia oparte na:

a) liniowej funkcji parametrów kotwicy – metody średnia/średnia lub średnia/sigma (mean/mean, mean/sigma),

b) krzywych charakterystycznych kotwicy – metoda Stockinga-Lorda lub Haebary.

3. Metoda ustalonych parametrów (fixed parameters method) dla kotwicy A. 4. Metoda przekształcania umiejętności (proficiency transformation).

W zrównywaniu wyników sprawdzianu, egzaminu gimnazjalnego oraz wybranych przedmiotów maturalnych omawianym w niniejszej monografii wybrano metodę kalibracji łącznej. Uczyniono tak ze względu na skomplikowany schemat zbierania danych (zob. Aneks 2) oraz ze względu na to, że parametry rozkładu umiejętności w różnych populacjach w tej metodzie są szacowane w sposób

22

Dyskusję o ścisłej zależności pomiędzy założeniem (4.3), a pojęciem „wymiarowości” testu można

znaleźć w przełomowej monografii Frederica Lorda i Melvina Novicka (1968).

bezpośredni. Łączna kalibracja dla planu NEAT polega na dopasowaniu do wszystkich danych zebranych z prób 𝑆1 oraz 𝑆2 modelu IRT w pojedynczej procedurze estymacji. Strukturalny brak odpowiedzi na zadania testu 𝑌 w próbie 𝑆1 oraz brak odpowiedzi na zadania testu 𝑋 w próbie 𝑆2 nie stanowi problemu dla maksymalizujących funkcję wiarygodności metod estymacji wykorzystywanych do szacowania parametrów modeli IRT. W celu uzyskania nieobciążonych parametrów w planie NEAT, konieczne jest bezpośrednie uwzględnienie w modelu IRT odrębnych parametrów dla rozkładów 𝜃 dla populacji 𝒫 oraz 𝒬 i oszacowanie ich z prób 𝑆1 oraz 𝑆2.

4.6. Implementacja metody łącznej kalibracji modelu IRT

do zrównania egzaminów gimnazjalnych i sprawdzianu

W powyższej części rozdziału opisano metodę łącznej kalibracji w zastosowaniu do planu NEAT. Logika postępowania w metodzie łącznej kalibracji przy bardziej skomplikowanym planie zrównywania, w skład którego wchodzi więcej populacji oraz więcej różnych testów, jest analogiczna – w pojedynczym kroku estymujemy parametry zadań z wszystkich testów oraz parametry rozkładu umiejętności dla każdej populacji. Dla planu zbierania danych zastosowanego przy zrównywaniu polskich egzaminów zewnętrznych (zob. Aneks 2) rozmiary macierzy danych przerastały możliwości obliczeniowe sprzętu oraz oprogramowania dostępnego na początkowych etapach projektu. Dla przezwyciężenia tego technicznego problemu pierwsze próby zrównywania przeprowadzano korzystając z wielokrotnie dokonywanej estymacji parametrów modelu IRT na losowych podpróbach z pełnego zbioru dostępnych wyników egzaminacyjnych. Wspomniane procedury próbkowania danych, opisane szczegółowo w raportach podsumowujących wcześniejsze etapy projektu (Szaleniec i in., bdw; 2013), wiązały się ze znaczną czasochłonnością i nastręczały wielu kłopotów przy estymacji błędów szacowania.

Ostatecznie dopasowanie modelu IRT przeprowadzono korzystając z opracowanego w Instytucie Badań Edukacyjnych oprogramowania, działającego w ramach Stata i umożliwiającego szacowanie parametrów wielogrupowego modelu IRT dla danych o tak dużych rozmiarach jak te, z którymi przyszło zmierzyć się w projekcie zrównującym wyniki egzaminacyjne. Zastosowany program stanowił adaptację powszechnie wykorzystywanego do szacowania modeli IRT algorytmu EM (Dempster, Laird i Rubin, 1977), w którym zmienna losowa nieznanego poziomu umiejętności ucznia jest traktowana jako brak danych.

Jedną z cech algorytmu EM jest to, że nie dostarcza on w sposób bezpośredni oszacowań błędów standardowych dla estymowanych za jego pomocą parametrów. Spośród wielu dostępnych metod szacowania błędów standardowych dla algorytmu EM, wybrano metodę polegającą na numerycznym różniczkowaniu przekształcenia EM, zgodnie z rekomendacjami, jakie można znaleźć w artykule Mortazy Jamshidiana i Roberta Jennricha (2000).

W dokumencie produkty EE (Stron 59-63)