• Nie Znaleziono Wyników

Plan nierównoważnych grup z testem kotwiczącym

W dokumencie produkty EE (Stron 69-73)

4. Statystyczna koncepcja zrównywania

4.2. Plan nierównoważnych grup z testem kotwiczącym

i zrównywanie z wykorzystaniem IRT

Modelowym planem zbierania danych do zrównywania wyników w przypadku różnych populacji uczniów rozwiązujących różne testy jest plan nierównoważnych grup z testem kotwiczącym (ang. nonequivalent

groups with anchor test design, NEAT). W planie tym mamy dwie różne populacje uczniów oraz , z których uczniowie rozwiązują dwa różne testy, odpowiednio oraz . Dodatkowo plan też uwzględnia trzeci, dodatkowy podzbiór zadań/test noszący nazwę kotwicy, który jest rozwiązywany przez uczniów z obu populacji. Schematycznie plan NEAT można przedstawić w następujący sposób:

Populacja Próba

 

 

Plan NEAT można formalnie podzielić w zależności od tego czy zbiór zadań wchodzących w skład testu jest odrębnym testem od oraz (kotwica zewnętrzna – ang. external anchor), czy też stanowi podzbiór zadań testów oraz uwzględniany przy obliczaniu wyników w tych testach (kotwica wewnętrzna – ang. internal anchor). Bez zastosowania dodatkowego testu rozwiązywanego zarówno przez próbę uczniów z populacji jak i nie byłoby możliwe porównanie

wyników różnych grup uczniów jakie uzyskują w różnych testach oraz – nie sposób byłoby rozróżnić trudności testów oraz od różnic w poziomie umiejętności między uczniami z oraz .

Zadanie ustalenia porównywalności wyników z różnych testów mierzących tę samą umiejętność stanowi problem zrównywania wyników testowych (czy ogólniej – linkowania/łączenia wyników testowych). Teoretyczne i metodologiczne niuanse dotyczące problemu zrównywania testów można znaleźć u wielu autorów, na przykład: Lord (1980), Kolen i Brennan (2004), Dorans & Holland (2000) czy Holland et al. (2007), a także w raporcie ze zrównywania wyników egzaminu gimnazjalnego 2002-2010 (Szaleniec et al., 2011). Tu ograniczymy się jedynie do ogólnej typologii metod zrównywania wyników ze szczególnym naciskiem na metody wykorzystujące modelowanie IRT.

Na najogólniejszym poziomie, podziału metod zrównywania wyników testowych można dokonać w zależności od tego czy:

a) zrównywanie odbywa się na skali wyników obserwowanych, czy wyników prawdziwych; b) zrównywanie odbywa się z bezpośrednim odwołaniem do modelu pomiarowego, czy nie.

Większość technik wykorzystywanych do zrównywania wyników testowych wpada w kategorię zrównywania wyników obserwowanych (ang. observed score equating), gdzie przez „wynik obserwowany” rozumie się klasyczny sumaryczny wynik w teście. Nacisk na przeprowadzanie zrównywania na poziomie wyników obserwowanych jest konsekwencją tego, że w przeważającej większości takie właśnie wyniki są wykorzystywane do raportowania rezultatów testowania. Zrównywanie wyników obserwowanych może zostać przeprowadzone bez konieczności odwoływania się w modelu statystycznym do sparametryzowanego mechanizmu leżącego u podstaw obserwowanych wyników, ale także z wykorzystaniem takiego modelu, tj. z wykorzystaniem IRT (ang.

IRT observed score equating).

W obrębie podejścia opartego na modelach IRT, pojawia się możliwość dokonania zrównywania wyników prawdziwych (ang. IRT true score equating). Przez „wynik prawdziwy” danego ucznia rozumie się tu wartość oczekiwaną z wyniku obserwowanego tego ucznia. Aby zrównanie zostało przeprowadzone na skali wyników prawdziwych klasycznej teorii testów, konieczne jest oszacowanie parametrów modelu pomiarowego leżącego u podstaw obserwowanych odpowiedzi. Zrównywania na skali wyników prawdziwych nie można zatem przeprowadzić „ateoretycznie” jak w przypadku wyników obserwowanych. Omawiane zależności między metodami zrównywania wyników schematycznie przedstawiono w Tabeli 4.1.

Tabela 4.1. Schematyczny podział metod zrównywania wyników testowych Zrównywanie wyników

obserwowanych

Zrównywanie wyników prawdziwych Metody niezależne od modelu

pomiarowego

(non-IRT) observed score equating -

Metody oparte na modelu pomiarowym

IRT observed score equating IRT true score equating

Korzystanie przy zrównywaniu wyników testowych z modelu pomiarowego IRT nakłada konieczność spełnienia wymagania, że zastosowany model IRT poprawnie opisuje udzielane przez uczniów

71 odpowiedzi na zadania zrównywanych testów. Jednowymiarowy model IRT stanowi, że dla każdego ucznia prawdopodobieństwo udzielenia konkretnego wektora odpowiedzi da się sparametryzować w następujący sposób:

(4.1a)

(4.1b)

gdzie jest parametrem określającym pozycję ucznia na zmiennej ukrytej (umiejętność, ang.

ability), a jest wektorem parametrów określających kształt – funkcji charakterystycznej zadania (ang. item characteristic function, ICC). IRT zatem wprost postuluje rozdzielenie parametrów określających właściwości ucznia od parametrów określających właściwości zadań/testu w celu opisania mechanizmu udzielania odpowiedzi na zadania. Rozdzielenie parametrów zadań od parametrów uczniów stanowi klucz do zrozumienia popularności metod IRT przy zrównywaniu wyników.

Założenie (4.1a) założeniem o lokalnej homogeniczności pomiarów (ang. local homogeneity, Ellis & van der Woldenberg, 1993) i oznacza, że cała informacja o współzmienności zadań zawarta jest w – ustaliwszy wartość parametru umiejętności ucznia , odpowiedzi na zadania stają się zdarzeniami niezależnymi. Założenie (4.1b) natomiast określa parametryczną postać zależności pomiędzy wartościami a prawdopodobieństwem określonych odpowiedzi w zadaniu . Od spełnienia obu tych bardzo silnych założeń zależy jakość wniosków opartych na zastosowaniach IRT, w szczególności jakość wykorzystującego IRT zrównywania wyników testów. Z tego względu (Livingston, 2004; von Davier et al., 2004) nadal często preferowane są, omówione wcześniej, nieczyniące tak daleko idących założeń „ateoretyczne” metody zrównywania wyników. Metody weryfikacji spełnienia założeń IRT w kontekście zrównywania oraz analiza odporności (ang.

robustness) metod zrównywania IRT na niespełnienie założeń (4.1) można znaleźć u: Béguin (2000) oraz Glas & Béguin (2011)..

Warto wspomnieć, że równania modelu IRT w (4.1) można łatwo uogólnić do postaci w której zmienna umiejętności jest wielowymiarowa (por.: Reckase, 2009). Zastosowanie modelu dwuwymiarowego teoretycznie byłoby z korzyścią dla precyzji zrównywania w przypadku egzaminu gimnazjalnego, w którym mamy dane tych samych uczniów z testów mierzących dwie różne umiejętności. Z rozwiązania dwuwymiarowego zrezygnowano ze względu na obliczeniowe skomplikowanie problemu zrównywania wielowymiarowego, które i tak w wariancie jednowymiarowym wiązało się z wieloma trudnościami natury praktycznej, co zostanie bliżej omówione w dalszej części rozdziału. Potencjalna możliwość zrównania egzaminu gimnazjalnego poprzez wykorzystanie dwuwymiarowego modelu IRT stanowi jednak interesującą alternatywę, która może stać się polem dla dalszych badań. Informacje o zrównywaniu wyników z wykorzystaniem modeli MIRT można znaleźć u: Reckase (2009), Béguin (2000), Li & Lissitz (2000) oraz Yao & Boughton (2009). W dalszej części przyjęto

założenie, że zrównywane w planie NEAT testy , oraz kotwica są jednowymiarowe21 i mierzą ten sam pojedynczy konstrukt (Davier & Davier, 2011).

Zmienna umiejętności jest w modelu IRT zmienną losową, tzn. umiejętność ucznia pojawiająca się we wzorze (4.1) nie jest parametrem modelu podlegającym bezpośredniej estymacji, a jedynie losowym efektem zmiennej o określonym rozkładzie. To właśnie parametry rozkładu zmiennej umiejętności, oznaczmy go , są estymowane w modelu IRT. Jest to bardzo ważne w kontekście zrównywania – modelowanie rozkładu umiejętności oddzielne dla każdej populacji jest istotą całej procedury, gdyż dąży się do rozdzielenia informacji o poziomie umiejętności różnych populacji od informacji o właściwościach testów. W związku z czym model IRT przedstawiono również w formie bezwarunkowej, tj. scałkowanej po rozkładzie umiejętności w populacji :

Modele IRT poprzez uwzględnienie wprost parametrów rozkładu populacji oraz bezproblemowe radzenie sobie z niekompletnymi schematami zbierania danych stanowią bardzo dobre narzędzie do rozwiązania problemu zrównywania wyników testów. W obrębie IRT wypracowano wiele metod do umieszczania na wspólnej skali rozkładów dla populacji oraz oraz parametrów dla testów , oraz . Wyróżnić można następujące metody (Kolen & Brennan, 2004) :

1) Łączna kalibracja (ang. concurrent calibration) wszystkich trzech testów.

2) Oddzielna kalibracja (ang. separate calibration), par testów ( , ) oraz , ), po której stosuje się sprowadzające do wspólnej skali przekształcenia oparte na:

a) liniowej funkcji parametrów kotwicy - metody średnia/średnia lub średnia/sigma (ang.

mean/mean, mean/sigma);

b) krzywych charakterystycznych kotwicy - metoda Stockinga-Lorda lub Haebary. 3) Metoda ustalonych parametrów (ang. fixed parameters method) dla kotwicy A.

4) Metoda przekształcania umiejętności (ang. proficiency transformation).

W zrównywaniu wyników egzaminu gimnazjalnego oraz sprawdzianu zastosowano metodę łącznej kalibracji. Uczyniono tak ze względu na skomplikowanie schematu zbierania danych (Tabele 2.1, 2.2 i 2.2a) oraz ze względu na szacowanie parametrów rozkładu umiejętności w różnych populacjach w tej metodzie w sposób bezpośredni. Łączna kalibracja dla planu NEAT polega na dopasowaniu do wszystkich danych zebranych z prób oraz modelu IRT w pojedynczej procedurze estymacji. Strukturalny brak odpowiedzi na zadania testu w próbie oraz brak odpowiedzi na zadania testu w próbie nie stanowi problemu dla maksymalizujących funkcję wiarygodności metod estymacji wykorzystywanych do szacowania parametrów modeli IRT. W celu uzyskania nieobciążonych

21

Dyskusję o ścisłej zależności pomiędzy założeniem (4.1a), a pojęciem „wymiarowości” testu można znaleźć w przełomowej monografii Lorda i Novicka (1968).

73 parametrów w planie NEAT, konieczne jest bezpośrednie uwzględnienie w modelu IRT odrębnych parametrów dla rozkładów dla populacji oraz i oszacowanie ich z prób oraz .

W dokumencie produkty EE (Stron 69-73)