• Nie Znaleziono Wyników

Analiza probabilistyczna

13. Analiza zadań funkcjonujących w e-maturze oraz różnicowanie wyników

13.2 Analiza zadań

13.2.2 Analiza probabilistyczna

W świetle klasycznej teorii testu e-matura jawi nam się jako egzamin prawie doskonały. Popatrzmy jednak na omawiane zadania z perspektywy probabilistycznej teorii testu (IRT). Pomińmy tutaj założenia samej IRT, które są powszechnie dostępne i były po wielokroć omawiane (de Ayala 2009).

0,86

Poniżej w tabeli przedstawiono podstawowe parametry zadań składających się na e-maturę. Zwróćmy szczególną uwagę na łatwość (difficulty) zadań oraz na miary dopasowania (INFIT i OUTFIT) modelu IRT do danych, którymi dysponujemy.

Item Difficulty Std.

Uporządkujmy zadania względem łatwości i sprawdźmy czy w miarę regularnie pokrywają cały mierzony zakres umiejętności uczniów.

4 WMS – weighted mean square (INFIT MEANSQ)

5 UMS – unweighted mean square (OUTFIT MEANSQ)

Przyjmijmy arbitralnie, że gdy

β<–1 mamy do czynienia z zadaniem łatwym, –1<β<1 – mówimy o zadaniu umiarkowanie trudnym, i wreszcie gdy β>1 – z zadaniem trudnym.

Otrzymujemy wtedy, że zadań łatwych było 6 (w tym jedno zadanie bardzo łatwe β<–3), umiarkowanie trudnych – 22 i trudnych – 5 (w tym jedno zadanie bardzo trudne β≈4). Widzimy zatem, iż przygotowane zadania we właściwy sposób pokrywały skalę kompetencji matematycznych uczniów.

Zanim przystąpimy do omówienia miar dopasowania modelu do naszych danych – kilka słów wyjaśnienia czym są miary dopasowania.6

WMS (weighted mean square) jest parametrem wskazującym na dopasowanie modelu do danych ze względu na testowane osoby. Wartość oczekiwana tej statystyki wynosi 1 i taka jest najbardziej pożądana. Wartości poniżej jedności oznaczają, że obserwacje są zbyt przewidywalne (występuje nadmiarowość danych zbyt dopasowanych do modelu).

Wartości większe niż 1,0 wskazują na nieprzewidywalność danych (dane nie pasują do modelu). Warto wspomnieć, że statystyka ta jest dość wrażliwa na obserwacje odstające (dla nielicznych grup badanych już jedna lub dwie obserwacje mogą znacząco wpływać na wartość statystyki). Ponadto obserwacje takie są trudne do zdiagnozowania i usunięcia (Downing, 2006).

6 Autorzy pozwalają sobie tutaj na małą dygresję spowodowaną brakiem dostępności opracowań miar dopasowania w języku polskim.

-4

Łatwość wyrażona w logitach (skala Θ)

Rozkład łatwości zadań

UMS (unweighted mean square) to statystyka mówiąca o dopasowaniu zadań do modelu IRT. Cechuje się podobnymi pożądanymi wartościami do statystyki WMS.

W przypadku tej statystyki obserwacje odstające diagnozuje się łatwo.

Obie miary dopasowania mogą teoretycznie przyjmować wartości od 0 do nieskończoności

W poniższych tabelach przedstawiono interpretację omawianych miar dopasowań, jak i ich wartości standaryzowanych.

Wartość WMS lub UMS Skutki dla pomiaru

> 2,0 W znacznym stopniu zakłóca system pomiarowy.

1,5 - 2,0 Nieprzydatne dla pomiaru, ale nie wykluczające.

0,5 - 1,5 Właściwe do pomiaru.

<0,5 Mniej wydajne do pomiaru, ale nie wykluczające.

Znormalizowana wartość WMS lub UMS

Skutki dla pomiaru

≥ 3 Dane są bardzo nieoczekiwane.

2,0 - 2,9 Dane zauważalnie nieprzewidywalne.

-1,9 - 1,9 Dane mają wystarczającą przewidywalność.

≤ -2 Dane są zbyt przewidywalne.

Wartości UMS dla wszystkich zadań mieszczą się w przedziale 〈0,82 ; 1,3〉, a wartości UMS – w przedziale 〈0,79 ; 1,57〉. Miara dopasowania INFIT spełnia oczekiwania co do wartości, nie odbiegając zbyt wiele od 1. W takim wypadku przestają mieć znaczenie wartości standaryzowane tej statystyki. Wszystkie zadania traktujemy wtedy, a właściwie wygenerowany model, jako dobrze dopasowany do danych.

Jeśli chodzi o miarę OUTFIT to jedynie jedno zadanie (12) posiada wartość statystyki poza dopuszczalnym przedziałem. W takim wypadku zmuszeni jesteśmy sprawdzić, czy standaryzowany wynik UMS mieści się w przedziale, w którym dane mają wystarczającą przewidywalność. Niestety tak nie jest. Wskaźnik 5,41 sugeruje, że dane są nieprzewidywalne, a zadanie wymaga zdecydowanej poprawki lub nawet

usunięcia z testu. Jednak zanim zdecydujemy się na tak radykalne posunięcie, przeanalizujmy wykres przedstawiający krzywą charakterystyczną tego zadania.

Krzywa charakterystyczna ma dość nieregularny przebieg. Jej kształt dla niskich wyników sugeruje, że konstrukcja zadania ułatwiała zdającym odgadywanie poprawnej odpowiedzi. Z kolei dla wyników średnich i wysokich obserwujemy „wypłaszczenie”

(mamy do czynienia prawie z funkcją stałą), które oznacza, że uczniowie o takim poziomie umiejętności nie byli różnicowani w zadowalającym stopniu7. Mimo tych zastrzeżeń wydaje się, że istnieją możliwości poprawienia treści tego zadania tak, aby wszystkie parametry spełniały nasze oczekiwania.

W kolejnej tabeli zestawiono, dla zadań ocenianych politomicznie, wartości progowe (threshold) umiejętności uczniów koniecznych do osiągniecia konkretnej oceny za zadanie (wyrażone w logitach) oraz miary dopasowania WMS i UMS.

Group Category Threshold8 Std.

Err WMS UMS

26 1 -1,43 0,06 0,94 0,93

2 1,43 0,05 1,02 1,04

27 1 0,39 0,06 0,99 0,46

7 W klasycznej teorii testu to zadanie również posiadało wskaźnik mocy różnicującej na bardzo niskim poziomie (0,14).

8 Oczywiście dla kategorii 0 pkt. nie możemy mówić o jakimkolwiek poziomie osiągnięć, dlatego ta kategoria została pominięta.

2 0,89 0,05 1,23 1,21

Oczekujemy, że wzrost punktacji będzie odpowiadał wyższemu poziomowi umiejętności. Do pięciu zadań (26,30,31,32,33) z tego zestawu nie możemy mieć żadnych zastrzeżeń.

W przypadku pozostałych zadań oprócz drobnych zakłóceń (wyróżnionych pogrubieniem) wartości progowe spełniają postawione warunki. Wyjątkiem jest zadanie 27, gdzie omawiane wskaźniki nie układają się rosnąco. Odwołajmy się do krzywej charakterystycznej tego zadania.

Możemy zaobserwować, że ani maksima dla kolejnych krzywych nie układają się we właściwej kolejności, ani nie spełniają tego warunku punkty przecięcia. Wszystkie punkty charakterystyczne skupione są w obszarze wyników wysokich, w dość wąskim zakresie. W efekcie mamy zadanie trudne i niewłaściwie pracujące, jeśli chodzi o wyznaczanie progu umiejętności koniecznego do osiągniecia danej punktacji. Zadanie należy poprawić.

Dla kontrastu przyjrzyjmy się krzywym charakterystycznym dla zadania 33.

Kolejne progi osiągnięć koniecznych do uzyskania odpowiedniej punktacji są doskonale widoczne. Zadanie jest poprawnie skonstruowane i wartościowe pomiarowo.

Zadaniem, którego miara dopasowania (WMS) wykracza poza przyjęty dopuszczalny przedział, jest zadanie 29. Statystyka INFIT przyjmuje wartość 2,96, co oznacza, że zadanie to w poważny sposób zakłóca pomiar mierzonych osiągnięć. Ponadto występuje tutaj niewłaściwa kolejność wartości progowych, a dodatkowo, aby uzyskać 3 pkt. należy przekroczyć próg 5,18 logita, co jest niebywałym osiągnięciem.

Wszystkie charakterystyczne punkty skupione są w bardzo wąskim przedziale od 33 do 35 punktów. Krzywa dla uczniów, którzy uzyskali 3 pkt. praktycznie nie jest widoczna (jej mały fragment widzimy zbliżony do wartości zerowej w obszarze 30-37 pkt.) Zadanie w takiej postaci wprowadza więcej „szumu”, niż samej przydatnej informacji.

Niestety klasyczna teoria testu nie wykazywała aż tak wielkiej ułomności tego zadania.

Informowała nas jedynie, ze zadanie słabo różnicuje uczniów aspirujących do w pełni poprawnego rozwiązania.

Powiązane dokumenty