• Nie Znaleziono Wyników

Rzetelność testu egzaminacyjnego

W dokumencie produkty EE (Stron 34-37)

2. Jakość testów egzaminacyjnych

2.3. Rzetelność testu egzaminacyjnego

W polskim systemie egzaminacyjnym od samego początku jego powstania (zarówno w Centralnej, jak i okręgowych komisjach egzaminacyjnych (CKE i OKE)) wykorzystuje się klasyczną teoria testu (KTT), jako przewodnik dla autorów zadań i całych arkuszy egzaminacyjnych. Korzystają z niej także statystycy OKE przeprowadzając podstawowe analizy wyników egzaminacyjnych. Stanowi ona rów-nież podstawę pojęciową dla komunikowania i interpretacji wyników obok rozwijającej się w ostat-nich latach teorii odpowiedzi na pozycje testowe - IRT (Item Response Theory)2.

Podstawowym elementem testu jest zadanie lub pytanie, na które uczeń udziela odpowiedzi3. W ar-kuszach egzaminacyjnych stosowanych w polskich egzaminach zewnętrznych stosowane są zarów-no zadania zamknięte, wymagające wyboru odpowiedzi, jak i zadania nazywane otwartymi, które wymagają krótkiej odpowiedzi, lub dłuższej (np. zapisania rozwiązania zadania z matematyki, fizyki, chemii lub napisania rozprawki, opowiadania, analizy krytycznej). W niektórych egzaminach stoso-wane są tylko zadania zamknięte, jak w egzaminie gimnazjalnym z historii i przedmiotów przyrodni-czych (począwszy od roku 2012) lub tylko zadania otwarte - matura z języka polskiego i matematyki na poziomie rozszerzonym. W obrębie zadań zamkniętych i otwartych funkcjonuje kilka szczegó-łowych rozróżnień w zależności od typu sformułowania pytania i sposobu udzielania odpowiedzi (Niemierko, 1975; Hornowska, 2001; Downing, 2009; Skórska, Świst i Szaleniec, 2014a), o czym więcej w kolejnym podrozdziale.

Zadania często powiązane są z materiałami źródłowymi, którymi mogą być fragmenty tekstu, tabele, wykresy, mapy, rysunki, obrazy czy zdjęcia. Do jednego materiału źródłowego może być przypisane jedno zadanie lub kilka. I tak, w zestawie zadań ze sprawdzianu 2014 (S-1-142) do pierwszego tekstu źródłowego zatytułowanego „Zaklęty dźwięk” odnosiło się pięć zadań zamkniętych (wielokrotnego 2 Krótkie wprowadzenie do teorii odpowiedzi na pozycje testowe przedstawione jest w rozdziale 3.1 tego

rapor-wyboru – zdający wybierał jedną odpowiedź z czterech proponowanych), kolejne pięć zadań od-nosiło się do fragmentu wiersza pod tytułem „Muzyka”, a cztery ostatnie z 20 zadań zamkniętych powiązane były z tabelą. Sześć zadań otwartych, to w tym zestawie cztery zadania z matematyki, w których uczeń zapisuje cały tok rozwiązywania i dwa zadania z języka polskiego polegające na napisaniu ogłoszenia i opowiadania. Dla każdego zadania na etapie konstrukcyjnym przypisana jest skala punktacji. W cytowanym arkuszu każde z dwudziestu zadań zamkniętych punktowane było 0 lub 1, a kolejnych sześć otwartych zadań odpowiednio 0-1, 0-4, 0-3, 0-2, 0-1 i ostatnie badające umiejętność pisania własnego tekstu (opowiadanie) 0-9.

W rezultacie egzaminu każdemu zdającemu uczniowi przypisywany jest wynik w postaci liczby (w Polsce to suma punktów lub procent maksymalnej liczby punktów4 za udzielenie odpowiedzi za zadania w arkuszu egzaminacyjnym). Taki wynik nazywamy zaobserwowanym, punktowym wy-nikiem z egzaminu. Wyniki punktowe zadań i wyniki całego egzaminu są wielkościami, na których w KTT przeprowadza się analizy. Wyniki obserwowane, zwane też wynikami surowymi, stanowią najczęściej stosowaną postać rezultatu egzaminacyjnego komunikowanego uczniom i szkołom w polskich egzaminach.

W odróżnieniu od wyników obserwowanych możemy zdefiniować wyniki prawdziwe egzaminu. Jednym z fundamentalnych założeń KTT jest to, że powtarzając wielokrotnie pomiar tym samym testem, na tej samej osobie wcale nie uzyskalibyśmy takich samych ocen, a wręcz cały indywidual-ny wachlarz (rozkład) wyników. Ponieważ podczas egzaminu przy rozwiązywaniu zadań następuje uczenie się i zapamiętywanie zadań, nie można empirycznie sprawdzić w prosty sposób tego za-łożenia, jak można to w prosty sposób zrobić dla pomiaru fizycznego np. wagi ciała, wysokości itp. W KTT wynikiem prawdziwym jest więc wynik średni z całego rozkładu poszczególnych wyników pomiaru dla tego samego ucznia – będziemy go oznaczać grecką literą τ. Wynik prawdziwy jest pojęciem statystycznym i nie można myśleć o nim jako o wyniku idealnym, czy wyniku, na który uczeń rzeczywiście zasłużył rozwiązując dany test. Wyniku prawdziwego się nie obserwuje, dlatego też nazywamy go często zmienną ukrytą (konstruktem). Wynik obserwowany i wynik prawdziwy to pojęcia, które umożliwiają zdefiniowanie błędu pomiaru, który będziemy oznaczać grecką literą ε. Błąd pomiaru, o którym wspomnieliśmy już na początku rozdziału, definiujemy jako różnicę pomię-dzy wynikiem obserwowanym X i wynikiem prawdziwym τ.

ε=X-τ

Kolejnym ważnym pojęciem klasycznej teorii testu jest miara zmienności (zróżnicowania) wyników nazywana wariancją. Jest ona średnią arytmetyczną kwadratów odchyleń od średniej arytmetycznej wyniku. Pozwala ona określić, jakie jest rozproszenie wyników wokół średniej. Ponieważ wariancja jest miarą kwadratową, to w wielu wypadkach do opisu zróżnicowania wyników pomiaru wygod-niej jest stosować pierwiastek kwadratowy z wariancji nazywany odchyleniem standardowym. Od-chylenie standardowe (podawane przy wszystkich wynikach średnich w sprawozdaniach z egzami-nów CKE i OKE) jest łatwe w interpretacji, gdyż jest wyrażane w takich samych jednostkach co wynik. Na przykład w Tabeli 2.1. średni wynik surowy dla kraju wynosił w 2014 r. 25,8 punktu a odchylenie standardowe 8 punktów5.

4 Przy czym w egzaminie gimnazjalnym od 2012, a w sprawdzianie i egzaminie maturalnym od 2015, do komunikowania wyników wykorzystywana jest skala centylowa i procent maksymalnej liczby punktów.

5 Jak można zauważyć, analizując średnie wyniki surowe dla kraju, ich zróżnicowanie jest bardzo duże, a pomiędzy wy-nikiem z roku 2002 i roku 2009 różnica wynosi prawie 7 punktów – tyle co średnie odchylenie standardowe w ciągu 13 lat. Przyczyną takiego zróżnicowania może być różnica w poziomie umiejętności badanych sprawdzianem w poszczególnych rocznikach szóstoklasistów lub różnica w trudności testów zastosowanych na sprawdzianie albo jedno i drugie. Do problemu porównywalności wyników wrócimy w rozdziale 3 raportu.

Tabela 2.1. Średnie i odchylenia standardowe dla całej populacji wyników obserwowanych ze sprawdzianu (arkusz stan-dardowy)

2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014

X średnie 29,49 28,61 25,55 29,50 25,32 26,57 25,77 22,64 24,56 25,27 22,75 24,03 25,80

σ 6,83 6,73 7,83 7,43 8,56 7,82 7,52 7,63 8,03 7,50 7,63 8,38 8,00

Źródło: opracowanie własne na podstawie Szaleniec i in. (2015)

Powróćmy jeszcze do losowego błędu pomiaru. Potocznie, gdy rozmawiamy o błędzie, to mamy często na myśli pomyłkę i sytuację, w której możemy dokonać korekty polegającej na usunięciu przyczyny błędu i samego błędu. W teorii i praktyce pomiaru pojęcie błędu pomiaru ma bardziej złożone znaczenie. Każdy, kto uczestniczył w zawodach sportowych, zdaje sobie sprawę ze zmien-ności wyników, pomimo posiadania takiego samego rzeczywistego poziomu danej umiejętzmien-ności przy kolejnych próbach, np. skoku wzwyż. Nikt z nas nie funkcjonuje w sposób ciągły na najwyższym poziomie swoich umiejętności, co dotyczy zarówno fizycznej, jak i intelektualnej aktywności. Ta fluk-tuacja wyników spowodowana jest przez wiele czynników zależnych od natury samego pomiaru. W przypadku egzaminów do takich czynników możemy między innymi zaliczyć fluktuacje w zakre-sie fizycznej i intelektualnej wydajności uczniów piszących egzamin, niekontrolowaną zmienność warunków, w których przeprowadzany jest egzamin, różnice poszczególnych uczniów w percepcji konkretnych zadań w warunkach stresu egzaminacyjnego, różnice w interpretowaniu schematu oceniania przez oceniających zadania. Sumaryczny efekt tych wszystkich czynników składa się na to, co nazywamy ogólnie losowym błędem pomiaru. Występowanie losowego błędu pomiaru sta-nowi poważne zagrożenie dla rzetelności testów będących podstawą egzaminów zewnętrznych. Rzetelność odnosi się zarówno zastosowanego narzędzia (testu egzaminacyjnego), jak i organizacji przeprowadzenia oraz oceniania egzaminu. Kiedy mówimy o rzetelności, zawsze mamy na myśli losowe błędy pomiaru. Rzetelność wyników testu definiuje się jako stosunek wariancji prawdziwej do wariancji całkowitej obserwowanego wyniku testowego. Minimalna wartość rzetelności wyno-si zero. Jeżeli rzetelność egzaminu wynowyno-si zero, oznacza to, że cała zmienność uzyskanych wyni-ków pochodzi z błędu pomiaru. Na drugim biegunie mamy maksymalną rzetelność wynoszącą 1, co oznaczałoby brak błędu pomiaru, a cała zmienność wyników pochodziłaby od rzeczywistego zróżnicowania poziomu umiejętności uczniów. Jeżeli weźmiemy na przykład wskaźnik rzetelności sprawdzianu z 2012 roku, który wynosił 0,81, to moglibyśmy przypuszczać, że 81% zmienności zaob-serwowanych wyników pochodzi ze zróżnicowania wyników prawdziwych, a 19% z błędu pomiaru. Rzetelność obok trafności jest jednym z najważniejszych pojęć w pomiarze edukacyjnym. W kla-sycznej teorii pomiaru stosuje się różne podejścia do szacowania wskaźnika rzetelności np. korelację wyników dwóch testów równoległych zastosowanych w różnych terminach lub metodę połówko-wą. Dla pojedynczego testowania, jakim jest egzamin, w zasadzie nie da się oszacować dokładnie wskaźnika rzetelności. Możemy tylko oszacować dolną granicę rzetelności. W systemie egzaminów zewnętrznych stosuje się w tym celu wskaźnik alfa Cronbacha6, który jest miarą wewnętrznej zgod-ności testu: wskaźnikiem pokazującym, w jakim stopniu wszystkie zadania w teście sprawdzają tę 6 W ramach KTT stosuje się obok wskaźnika alfa Cronbacha jeszcze trzy metody badania rzetelności. Z praktycznych względów są trudne do zastosowania w polskim systemie egzaminów zewnętrznych. Metoda retestu daje współczynnik rze-telności zdefiniowany jako korelacja wyników tego samego testu przeprowadzonych na tych samych osobach w dwóch róż-nych punktach czasu. Metoda form alternatywróż-nych dostarcza wskaźnika rzetelności jako współczynnika korelacji wyników

samą grupę umiejętności. Jeżeli sprawdzian byłby testem homogenicznym tzn. mierzącym jeden rodzaj umiejętności i wszystkie zadania byłyby w taki sam sposób punktowane, to wartość wskaź-nika alfa byłaby bliska rzetelności. Ponieważ jednak sprawdzian nie jest takim testem, gdyż obej-muje umiejętności z różnych przedmiotów sprawdzane zadaniami o różnej długości skali punktów, wskaźniki alfa podane w tabeli 2.2. mogą być znacznie niższe od rzeczywistej rzetelności sprawdzia-nu. Tak więc jeżeli dla sprawdzianu w 2012 roku alfa Cronbacha wynosiła 0,81, to jedynie możemy powiedzieć, że rzetelność tego egzaminu nie była niższa od 0,81.

Tabela 2.2. Wskaźniki rzetelności

α

Cronbacha dla sprawdzianu z wykorzystaniem arkusza standardowego S1

2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014

α

Cronbacha 0,77 0,77 0,79 0,78 0,90 0,89 0,79 0,77 0,79 0,80 0,81 0,83 0,81

Źródło: opracowanie własne na podstawie Szaleniec i in. (2015)

Jak już wspomniano rzetelność egzaminu zależy zarówno od zastosowanego narzędzia (testu egza-minacyjnego), jak i organizacji przeprowadzenia oraz oceniania egzaminu. Jeżeli skupimy się tylko na samym teście egzaminacyjnym to dominujący wpływ na wartość wskaźnika rzetelności będzie miała jakość zadań, z których składa się test, ich dobór (zgodnie z wcześniej przygotowanym pla-nem w odniesieniu do zakresu umiejętności będących przedmiotem pomiaru na egzaminie) oraz liczba zadań. Zadania wchodzące w skład testu powinny pozwolić, na podstawie odpowiedzi na nie, dobrze odróżnić uczniów o niskich i wysokich umiejętnościach z zakresu danego egzaminu. Właści-wość tę nazywamy mocą różnicującą zadań. W klasycznej teorii testu moc różnicująca zadań opisy-wana jest jedną liczbą i szacoopisy-wana jest jako korelacja zadania z całym testem albo korelacja danego zadania z resztą testu (po wykluczeniu tego zadania) i przyjmuje wartości od minus jeden do plus jeden. W rzetelnym teście moc różnicująca zadań powinna być dodatnia i jak najwyższa. Im wyższa moc różnicująca zadań, tym większa wartość współczynnika rzetelności. Współczynnik rzetelności wzrasta także wraz ze wzrostem liczby zadań w teście. Liczba zadań w teście wynika z jednej strony z koncepcji egzaminu, a z drugiej z możliwości psychofizycznych zdających dany egzamin w trakcie jednej sesji. Jest ona zawsze przedmiotem kompromisu pomiędzy czasem przeznaczonym na test, a dążeniem do jak najwyższej rzetelności pomiaru i jest określana w procedurach przygotowywania zadań i testów stanowionych przez Centralną Komisję Egzaminacyjną.

W dokumencie produkty EE (Stron 34-37)