Rzetelność i błędy pomiaru - Podziękowania i wkład poszczególnych autorów

Podziękowania i wkład poszczególnych autorów

2.1. Rzetelność i błędy pomiaru

Rozważania dotyczące jakości testów egzaminacyjnych zaczniemy od analizy rzetelno-ści tych narzędzi, bowiem zadowalająca rzetelność jest warunkiem koniecznym dla moż-liwości wykorzystania wyników testowych do szacowania EWD. Rzetelność pomiaru zdaje sprawę z tego, w jakim stopniu wynik uzyskany (obserwowany) jest uzależniony od loso-wych czynników, niezwiązanych z poziomem cechy, którą test mierzy. Jest to więc kluczo-wa właściwość testu, informująca o precyzji, z jaką dokonykluczo-wany jest pomiar. Jeśli rzetelność testu jest niska, niewielka jest też dokładność dokonywanego nim pomiaru. O rzetelności możemy również myśleć w kategoriach miary powtarzalności wyników pomiaru. Gdyby na przykład uczniowie przystąpili do napisania równoważnego testu w niewielkim odstępie czasu, na ile zbliżone wyniki otrzymaliby w obu testach? Jeśli testy byłyby równoważne i charakteryzowałyby się wysoką rzetelnością, rezultaty byłyby bardzo zbliżone. Jeśli niską – wyniki tych samych uczniów uzyskane w obu testach zapewne znacząco by od siebie odbiegały. Testy o niskiej rzetelności nie powinny więc służyć wyznaczaniu ani wyników indywidualnych, na podstawie których podejmowane są ważne dla uczniów decyzje, ani wskaźników mających na celu ocenę pracy szkoły (nie tylko miar EWD, ale również np. śred-niego wyniku egzaminacyjnego). Wystarczająco wysoką rzetelność pomiaru uznajemy za warunek konieczny dla uzyskania wiarygodnych miar jakości nauczania.

Badacze zainteresowani właściwościami psychometrycznymi polskich egzaminów ze-wnętrznych podsumowywali w swoich publikacjach wybrane sesje egzaminacyjne (patrz np.:

Dolata, Jasińska i Modzelewski, 2012; Pokropek iŻółtak, 2012; Pokropek, 2011

)

. Nas w szcze-gólności interesują te egzaminy, do których przystąpili badani uczniowie. Analiza rzetelności egzaminu gimnazjalnego przeprowadzonego w 2012 roku została opisana w pracy Artura Pokropka i Tomasza Żółtaka (2012) poświęconej znaczeniu zmiany formuły tegoż egzami-nu dla szacowania wskaźników EWD. Ponieważ uwzględnia ona wszystkie interesujące nas wskaźniki rzetelności, przytoczymy tu wyniki tych analiz, uzupełniając je o analogiczne miary wyliczone dla sprawdzianu szóstoklasisty z 2009 roku¹.

Tabela 1. Rzetelność egzaminów wykorzystywanych do wyliczania ewd dla gimnazjów

alfa 0,859 0,905 0,848 0,826 0,883 0,841 0,729

IRT 0,891 0,915 0,865 0,848 0,912 0,877 0,776

liczba zadań 25 47 22 25 47 --- 24

z sumowaniem podpunktów i kryteriów

alfa 0,757 0,879 0,757 0,822 0,882 --- 0,724

IRT 0,833 0,907 0,838 0,846 0,912 --- 0,775

Źródło: dane w tabeli dot. egzaminu gimnazjalnego pochodzą z: (Pokropek i Żółtak, 2012). Dane dot. sprawdzianu – obliczenia własne.

oznaczenia dla egzaminu gimnazjalnego: GH – część humanistyczna łącznie, GH-P – język polski, GH-H – historia i WOS, GMP – część matematyczno-przyrodnicza łącznie, GM-M – matematyka, GM-P – przyroda

W powyższej tabeli podano dwa wskaźniki rzetelności: klasyczną, powszechnie znaną miarę alfa Cronbacha oraz oszacowanie rzetelności na podstawie wyników modelu IRT. Alfa Cronbacha jest często stosowaną metodą szacowania dolnej granicy rzetelności danego po-miaru w ramach klasycznej teorii testu. Z tego też powodu została przez nas zaprezentowana.

Nie jest to jednak metoda optymalna w sytuacji, w której w teście znajdują się zadania oce-niane na skalach o różnej długości (z czym mamy do czynienia w niemal każdym egzaminie zewnętrznym). W takim wypadku wartość wskaźnika rzetelności może być niedoszacowana (Novick i Lewis, 1967). Świadomość tego faktu doprowadziła do przyjęcia konwencji wyli-czania rzetelności dla testu, w którym zadania otwarte podzielono na części odpowiadające różnym kryteriom i każdą z takich części traktuje się jak osobne zadanie. Podobnie traktuje się zadania składające się z kilku podpunktów ocenianych niezależnie, choć nawiązujących do tego samego materiału, problemu. Traktowanie jednak tak utworzonych części jako osob-nych zadań może prowadzić do przeszacowania wartości wskaźnika rzetelności ze względu na złamanie założenia o lokalnej (warunkowej) niezależności od siebie poszczególnych zadań i sztuczne zwiększenie długości testu.

Z tego względu w powyższej tabeli zaprezentowano wskaźniki rzetelności wyliczone dla poszczególnych testów w dwóch wariantach: w pierwszym każdy oceniany niezależnie przez egzaminatorów podpunkt czy kryterium było traktowane jak odrębne zadanie (co w tabe-li nazwano: bez sumowania wiązek), w drugim zsumowano punkty zdobyte dla każdej po-wiązanej grupy zadań, tworząc w ten sposób zadania o dłuższej skali. Egzamin gimnazjalny

z matematyki składał się z niezależnych zadań kodowanych na skali 01, stąd podano wyniki tylko dla pierwszego rozwiązania.

Obok wskaźnika alfa Cronbacha podano alternatywną miarę rzetelności, która wykazu-je się większą odpornością na różne długości skal poszczególnych zadań w teście. Jest to oszacowanie rzetelności na podstawie wyników egzaminów wyskalowanych modelami IRT.

Uogólniając nieco definicję rzetelności stosowaną w klasycznej teorii testu, możemy zdefinio-wać rzetelność jako siłę związku liniowego (kwadrat współczynnika korelacji liniowej) między prawdziwymi wartościami mierzonej cechy a wynikami testu. Prawdziwe wartości mierzonej cechy nie są oczywiście znane, ale aby oszacować wartość takiego kwadratu współczynnika korelacji wystarczy wiedza o ich zróżnicowaniu (wariancji), nie musimy przypisywać wartości cechy poszczególnym uczniom.

Całkowitą wariancję badanej cechy możemy zdekomponować na wariancję średnich wa-runkowych i średnią wariancji wawa-runkowych, w grupach wyróżnionych ze względu na ob-serwowany profil odpowiedzi (tj. punktację uzyskaną przez ucznia za poszczególne zadania – oznaczaną tu X):

D²(θ) = D²[E(θ|X)] + E[D²(θ|X)] (1)

Zauważmy przy tym, że jeśli do szacowania poziomu umiejętności uczniów wykorzy-stywane są estymatory expected a posteriori (EAP), to jako oszacowanie poziomu umiejęt-ności ucznia wykorzystywane jest właśnie przewidywanie wartości oczekiwanej rozkładu a posteriori:

θ_EAP = E(θ|X) (2)

Z kolei w roli analogicznej do błędu standardowego oszacowań wykorzystywane jest przewidywane odchylenie standardowe tego rozkładu:

BS(θ_EAP) = D(θ|X) (3)

Obie wymienione wartości: przewidywanie wartości oczekiwanej i odchylenia standardo-wego rozkładu a posteriori zwracane są dla każdego ucznia po wyestymowaniu modelu, mo-żemy więc bez problemu policzyć wariancję tych pierwszych: i średni kwadrat tych

drugich: .

W związku z tym rzetelność możemy oszacować, dzieląc wariancję przewidywania cechy ukrytej (za pomocą estymatorów EAP) przez sumę tej wariancji i średniej wariancji rozkładów a posteriori (por. de la Torre i Patz, 2005 s. 305):

r = D²[E(θ|X)] = (5)

D²[E(θ|X)] + E[D²(θ|X)]

D²(θ_EAP) D²(θ_EAP) + E[BS²(θ_EAP)]

Do wyliczenia przedstawionych tu oszacowań rzetelności wykorzystane zostały wyniki z modeli IRT użytych do wyskalowania wyników egzaminu gimnazjalnego z 2012 roku i spraw-dzianu z 2009 roku na potrzeby oszacowania wskaźników EWD dla gimnazjów (a więc również na potrzeby niniejszej publikacji). Zastosowany sposób skalowania został opisany w rozdziale do-tyczącym organizacji i metodologii badania (część Zmienne zależne wykorzystywane w analizach).

Wyniki zaprezentowane w tabeli 1 pokazują dość spójny obraz. Wskaźniki alfa Cronbacha dają trochę niższe oszacowania rzetelności niż te wyliczone na podstawie modeli IRT.

Rzetelność oszacowana dla testów, w których zsumowano punkty za kryteria i podpunkty dla poszczególnych zadań, tworząc zadania o dłuższych skalach, jest także trochę niższa niż ta wyliczona bez sumowania punktów. Dodatkowo alfa Cronbacha daje bardziej różniące się rezultaty dla obu sposobów liczenia rzetelności. Rzetelność wyliczona na podstawie modeli IRT, dająca bardziej stabilne wyniki, jest dla prawie wszystkich egzaminów wyższa niż 0,8 i tylko dla egzaminu gimnazjalnego z przedmiotów przyrodniczych wynosi około 0,78.

W zależności od celu pomiaru przyjmuje się różne progi dopuszczalnej minimalnej rzetelno-ści narzędzia. Testy wykorzystywane w celach badawczych do szacowania zależnorzetelno-ści populacyj-nych lub tzw. testy niskiej stawki mogą charakteryzować się nieco niższą rzetelnością ze względu na mniejsze konsekwencje popełnienia błędu w oszacowaniu poziomu danej cechy. Testy, których wyniki decydują o losach osób je piszących, powinny mieć jak najwyższą rzetelność. Przyjmuje się, że powinna ona wynosić co najmniej 0,9. Dla wykorzystania wyników testu do wyliczenia miar zagregowanych (np. dla szkół czy oddziałów), kryterium dopuszczalnej granicy rzetelności może zostać trochę obniżone. Dlatego można stwierdzić, że choć z punktu widzenia indywidualnego wy-niku ucznia, w szczególności w przypadku egzaminu gimnazjalnego będącego podstawą rekrutacji do szkoły ponadgimnazjalnej, rzetelność poszczególnych testów egzaminacyjnych jest nieco za ni-ska, to dla miar zagregowanych, takich jak EWD czy średni wynik egzaminacyjny szkoły, rzetelność analizowanych testów jest wystarczająca (ok. 0,8), by mogły być podstawą ich wyliczania.

W kontekście analiz opisywanych w dalszej części tego rozdziału warto poruszyć jeszcze jedną kwestię związaną z rzetelnością testów. Skutkiem niedoskonałej rzetelności testów

może być zaniżanie² oszacowań siły związku pomiędzy badanymi cechami, jako że uży-te w analizie wyniki uży-testów zawierają w sobie dodatkowe komponenty błędów losowych, niezwiązanych z badanymi cechami. Wynika z tego, że związki pomiędzy wynikami egza-minów a zewnętrznymi kryteriami trafności opisywane w dalszej części rozdziału mogą być w istocie nieco większe niż raportowane. Należy przy tym zastrzec, że po pierwsze, z punktu widzenia trafności metody EWD w istocie interesują nas związki pomiędzy wynikami egza-minów (oszacowaniami umiejętności uczniów), a nie cechami ukrytymi, stojącymi za tymi wynikami, gdyż modele EWD wyliczane są właśnie na podstawie takich oszacowań³. Po drugie, przeprowadzone w ograniczonym zakresie analizy danych z badania z wykorzysta-niem modeli strukturalnych pokazują, że siła związków latentnych pomiędzy analizowany-mi cechaanalizowany-mi niewiele przewyższa siłę zależności analizowany-między oszacowaniaanalizowany-mi. Jednocześnie siła zależności latentnych jest wyraźnie niższa, niż wynikałoby to z zastosowania prostej korekty na rzetelność (correction for attenuation), w przypadku współczynnika korelacji liniowej po-legającej na podzieleniu jego wartości przez pierwiastek z iloczynu rzetelności obu analizo-wanych konstruktów.

Precyzja pomiaru jest warunkiem koniecznym do zbudowania miar efektywności kształcenia, jednak nie jest warunkiem wystarczającym. Dla jakości wskaźników EWD większe znaczenie mogą mieć błędy nielosowe mogące prowadzić do obciążenia miar zagregowanych (Linn, 2008). Problem błędów nielosowych badany z perspektywy pozycji testowych można rozważać przez pryzmat tzw. analizy zróżnicowania funkcjonowania zadań (Grudniewska i Kondratek, 2012; Pokropek, 2013). Jeśli zakładamy, że zadania, z któ-rych składa się test, mierzą ten sam konstrukt, to ewentualny wpływ charakterystyk ucznia na prawdopodobieństwo poprawnego rozwiązania każdego z tych zadań powinien być w całości zapośredniczany przez wpływ tych charakterystyk na poziom badanej umie-jętności. Inaczej mówiąc, jeśli dysponujemy informacją o poziomie umiejętności ucznia (w praktyce oszacowaniem jego poziomu umiejętności), to informacja o cechach ucznia, jak np. płeć czy status społeczno-ekonomiczny rodziny, nie powinny wnosić już żadnych dodatkowych informacji, użytecznych do przewidywania szans poprawnego rozwiązania zadania. Wpływ takich cech na wyniki powinien być dla wszystkich zadań taki sam i wyni-kać ze średnich różnic w poziomie umiejętności, występujących w ramach całej badanej zbiorowości. Występowanie w teście zadań, które wyłamują się z takiej ogólnej zależności,

2 Czasem stosowane jest też określenie „rozrzedzanie”, jako bardziej dosłowne tłumaczenie angielskiego terminu attenuation.

3 Można wyobrazić sobie wyliczanie wskaźników EWD za pomocą modeli strukturalnych, jednak z racji bardzo dużej złożoności obliczeniowej jest to rozwiązanie obecnie niemożliwe do wdrożenia w przypadku danych

funkcjonują inaczej niż inne zadania w teście, jest zjawiskiem niepożądanym i konstruując testy należy starać się takie zadania usuwać.

Niestety, procedury tworzenia testów egzaminacyjnych nie przewidują badania stron-niczości zadań ze względu na cechy ucznia na etapie konstrukcji ostatecznej wersji ar-kusza, ani weryfikacji skali problemu po przeprowadzonej sesji egzaminacyjnej. Analizy dla wybranych testów egzaminacyjnych prowadzone przez badaczy zainteresowanych jakością tych narzędzi sugerują, że pewnym problemem może być znaczna liczba za-dań na egzaminie gimnazjalnym stronniczych ze względu na płeć ucznia (Grudniewska i Kondratek, 2012; Pokropek, 2013). Pochodzenie ucznia lub wielkość miejscowości, w któ-rej znajduje się szkoła, ma z kolei mniejsze znaczenie (Pokropek, 2013). Jednak analizy te są niekompletne z tego powodu, że dotyczą tylko niektórych egzaminów przeprowadza-nych w konkretprzeprowadza-nych latach.

Oddzielny problem stanowi kwestia ewentualnej stronniczości całych arkuszy egzami-nacyjnych. Stronniczy test można wyobrazić sobie jako złożony w przeważającej mierze z zadań, które faworyzują pewną grupę, np. zamieszkałych na wsiach względem mieszka-jących w miastach. W takiej sytuacji szkoły, w których uczy się większa proporcja uczniów, dla których test był przychylny, zyskiwałyby na wartości miary EWD nie dlatego, że uczą efektywniej, ale ze względu na stronniczość testu. Niestety, w praktyce stwierdzenie, czy dany test jest stronniczy, jest rzeczą trudną i często kontrowersyjną. Jeśli test składa się z za-dań „jednorodnie stronniczych”, procedury statystyczne służące wyszukiwaniu zróżnicowa-nia funkcjonowazróżnicowa-nia zadań nie znajdą tu zastosowazróżnicowa-nia. Pomocne jest oczywiście zbadanie związków pomiędzy mierzonym przez test konstruktem a interesującymi nas charakterysty-kami uczniów. Niestety określenie kryteriów oceny, jaka siła i kierunek tych związków mogą zostać uznane za naturalne, a jakie za wskazujące na niepożądaną stronniczość, jest już kwe-stią dyskusyjną i nawet w środowisku specjalistów od dziedziny, jaką mierzy dany test, mogą występować znaczące różnice opinii. Koniecznym uzupełnieniem jest więc analiza treś-ciowa zadań wchodzących w skład testu, np. w celu sprawdzenia, czy zachowana została równowaga w zakresie kontekstów zadań. Oczywiście dobrą metodą unikania stronniczości testów jest zaplanowanie zrównoważonego składu testu w zakresie kontekstu zadań już na etapie przygotowywania planu testu. Choć kwestia ewentualnej stronniczości egzaminów jest istotna z punktu widzenia własności wyliczanych na ich podstawie wskaźników EWD, to niestety, z przedstawionych wyżej powodów określenie, czy polskie egzaminy są stronnicze, wykracza dalece poza ramy tego rozdziału. Należy jednak dodać, że dopóki porównujemy szkoły nie różniące się znacząco między sobą np. cechami środowiska takimi jak wielkość miejscowości, ewentualne nielosowe błędy pomiaru nie będą podważały trafności wycią-ganych na podstawie wskaźników EWD wniosków.

Kolejnym wartym rozpatrzenia problemem związanym ze znaczeniem dokładności pomiaru dla wskaźników EWD jest zależność błędu pomiaru od poziomu badanej ce-chy. Klasyczna teoria testu, posługując się jedną miarą rzetelności, przyjmuje założenie, że precyzja pomiaru jest identyczna dla każdego ucznia niezależnie od poziomu jego umiejętności. Założenie to nie jest jednak w pełni poprawne. W modelach IRT przyjmuje się, że precyzja pomiaru cechy ucznia jest uzależniona nie tylko od liczby rozwiązanych przez niego zadań i ich jakości pomiarowej, ale także od tego, jak dobrze pod względem trudności dobrano zadania, które przed uczniem postawiono (De Ayala, 2009). Dane za-danie dostarczy bowiem najwięcej informacji potrzebnej do oszacowania poziomu cechy ucznia, jeśli jego trudność będzie dobrana tak, by uczeń miał 50% szansy na poradzenie sobie z nim. Dla przykładu, jeśli w teście znajduje się niewiele zadań bardzo trudnych, poziom umiejętności uczniów bardzo zdolnych będzie oszacowany na podstawie nie-wielkiej ilości informacji, czyli z mniejszą precyzją. Zdecydowana większość testów wia-domości i umiejętności jest skonstruowana w taki sposób, że z najmniejszym błędem sza-cuje wyniki uczniów o zbliżonym do przeciętnego poziomu danej cechy, a na krańcach skali precyzja pomiaru jest mniejsza. Wynika to z rozkładu trudności zadań w stosunku do rozkładu umiejętności badanej populacji (niewielka liczba zadań skrajnie łatwych i skraj-nie trudnych). Egzaminy zewnętrzne skraj-nie odbiegają znacząco od tej reguły. Jakie mogą być konsekwencje tego dla miar zagregowanych? Wskaźniki dla szkół, których znaczna część uczniów osiąga skrajnie wysokie lub skrajnie niskie wyniki, mogą być obarczone większym błędem niż te, które są szacowane dla szkół o przeciętnych wynikach (por.

Chudowsky i in., 2010). Tak jak w przypadku większości statystyk: na przypadki odstające należy patrzeć z większą dozą nieufności.

W dokumencie Trafność metody edukacyjnej wartości dodanej dla gimnazjów (Stron 63-69)