2. Jakość testów egzaminacyjnych
2.8. Skale stosowane w komunikowaniu wyników w Polsce
Naturalne wydaje się komunikowanie wyników egzaminów jako sumy punktów przyznanych uczniom za poprawnie wykonane zadania. Dla uczniów jest to najbardziej zrozumiała forma, gdyż odnosi się bezpośrednio do arkusza egzaminacyjnego. Również dla innych odbiorców nie nastręcza ona trudności w interpretacji. W takiej właśnie formie prezentowane są wyniki od początku istnie-nia sytemu egzaminów zewnętrznych w Polsce, np. na zaświadczeistnie-niach dla sprawdzianu po szó-stej klasie szkoły podstawowej. W przypadku odbiorców informacji dotyczących kilku egzaminów suma punktów nie jest jednak zbyt wygodna ze względu na różną liczbę punktów możliwych do zdobycia w zależności od typu egzaminu. Czym innym są 24 punkty zdobyte podczas sprawdzia-nu, a czym innym podczas matury z języka polskiego. Maksymalnie na sprawdzianie (do 2014 roku włącznie) uczeń mógł uzyskać 40 punktów, a na poziomie podstawowym egzaminu maturalnego z języka polskiego 70 punktów. Sumę punktów za poprawnie rozwiązane zadania zawsze odnosi się do maksymalnej możliwej do zdobycia punktacji, zatem bardzo wygodne jest przedstawianie jej w formie procentowej. Gdyby podana przykładowo punktacja dotyczyła tego samego ucznia – wynik w postaci 60% ze sprawdzianu i 34% z matury niósłby za sobą więcej informacji niż tzw. wynik surowy (prosta suma punktów). Od razu widoczna jest różnica w poziomie wykonania dla obydwu egzaminów, co wymaga dodatkowych operacji przy wcześniejszej formie przedstawienia wyników. W formie procentowej wyniki są prezentowane np. na świadectwach maturalnych i od 2012 roku także na zaświadczeniach z egzaminu gimnazjalnego.
Zaprezentowane powyżej formy komunikowania wyników w gruncie rzeczy niewiele mówią o po-ziomie badanych umiejętności uczniów. Również w postaci wyników uśrednionych np. dla szkół czy województw nie możemy określić, czy są one wysokie czy niskie bez dodatkowych informacji. Mo-głoby się zdawać, że przykładowy wynik rzędu 60% na egzaminie to wynik przyzwoity, zakładając, że średni wynik to 50% (co nie jest bezzasadne). Do oceny tej informacji potrzebne są dane o rozkładzie wyników wszystkich uczniów biorących udział w egzaminie. W 2014 roku średni wynik sprawdzia-nu po szóstej klasie szkoły podstawowej dla uczniów piszących arkusz standardowy wyniósł 25,8 punktu (Centralna Komisja Egzaminacyjna, 2014a) czyli 65%. Okazuje się, że podany jako przykład wynik wynoszący 60% plasuje się poniżej średniego wyniku. Gdybyśmy nie sprawdzili rzeczywiste-go rozkładu wyników i opierali się wyłącznie na naszym przekonaniu, że 50% powinno oznaczać średni wynik popełnilibyśmy dość istotny błąd w interpretacji. Podobne problemy z interpretacją, bez informacji o rzeczywistym rozkładzie wyników, będziemy mieli z przykładowym wynikiem z eg-zaminu maturalnego z języka polskiego. Na poziomie podstawowym próg zdawalności wyznaczony został na 30%, zatem nasz przykładowy wynik wynoszący 34% gwarantuje uczniowi zdanie tego egzaminu, choć możemy odnosić wrażenie, że jest to wynik raczej słaby. Średnia z egzaminu matu-ralnego z poziomu podstawowego dla języka polskiego w 2014 roku wynosi 51% (Centralna Komi-sja Egzaminacyjna, 2014b), co odpowiada przyjętemu wcześniej założeniu, zatem w tym przypadku nasza intuicyjna interpretacja zostaje potwierdzona. Wahania średnich wyników egzaminacyjnych pomiędzy latami (por. rozdział 3) mogą jednak powodować, że nie zawsze tak będzie i podobnie jak w przykładzie ze sprawdzianem możemy popełnić błąd.
Jak widać na powyższych przykładach, wyniki surowe czy ich przekształcenie do wyników procento-wych nie są dobrą formą prezentacji wyników, jeśli jej celem jest dokonywanie porównań (zwłaszcza między latami). Są to formy proste w przygotowaniu i odbiorze, lecz stosunkowo łatwo mogą po-wodować błędy w interpretacji u niezbyt doświadczonych odbiorców. Konieczność uwzględniania rozkładu wyników w ich przedstawianiu prowadzi do zastosowania skal standardowych.
Najbardziej znaną skalą standardową jest skala nazywana skalą z, w której jednostką jest odchylenie standardowe (miara zróżnicowania wyników), a wartość średnia wynosi 0. Skale standardowe opie-rają się na pewnych właściwościach rozkładu normalnego:
1. zarówno poniżej, jak i powyżej średniej znajduje się 50% wyników,
2. w odległości jednego odchylenia standardowego od średniej mieści się około 68% wyników (symetrycznie po 34% poniżej, jak i powyżej średniej),
3. w odległości dwóch odchyleń standardowych od średniej mieści się około 95% wyników (rów-nież symetrycznie wokół średniej),
4. w odległości trzech odchyleń standardowych od średniej mieści się ponad 99% wyników (sy-metrycznie wokół średniej),
5. pozostałe obserwacje leżą dalej niż trzy odchylenia standardowe od średniej. Rysunek 2.6. Skala standardowa z
Ilustrację powyższych stwierdzeń przedstawia rysunek 2.6. Przeliczenia dowolnego wyniku suro-wego na skalę standardową z można dokonać bardzo prosto – odejmując od niego wynik średni, a następnie dzieląc przez odchylenie standardowe. Odchylenie standardowe dla sprawdzianu 2014 wynosi 8 (Centralna Komisja Egzaminacyjna, 2014a), zatem nasz przykładowy wynik ze sprawdzianu w skali z wynosi: (24-25,8)/8=-0,225. Znajduje się on w obszarze jednego odchylenia standardowego poniżej średniej, czyli w grupie około 34% podobnych wyników22. Odchylenie standardowe opisy-wanego egzaminu maturalnego wynosi 17% (Centralna Komisja Egzaminacyjna, 2014b), zatem na skali z przykładowy wynik z matury z języka polskiego na poziomie podstawowym wynosi: (34%-51%)/17%=-1. Taki wynik uzyskany przez ucznia oznaczałby, że tylko około 16% uczniów uzyskało wynik gorszy od niego (od połowy wszystkich wyników poniżej średniej równej 0 należy odjąć 34% mieszczące się w odległości jednego odchylenia standardowego poniżej średniej; por. rysunek 2.6). Od początku istnienia systemu egzaminów zewnętrznych jedną z form komunikacji wyników jest skala staninowa, o której wspomniano już we wcześniejszej części tego rozdziału. Jest to skala stan-dardowa, podobnie jak skala z, ma ona jednak nieco inne jednostki, a co za tym idzie, inaczej wy-znaczone przedziały wyników. Jej nazwa pochodzi od angielskiego określenia standard nine, czyli 22 Dla celów dydaktycznych przykłady zawarte w tej części opierają się na założeniu, że wyniki egzaminacyjne mają rozkład normalny.
-4 -3 -2 -1 0 1 2 3 4
standardowa dziewiątka, co odnosi się do wyznaczonych dziewięciu przedziałów wyników, tzw. staninów. Średni wynik na tej skali przypada na piąty stanin (który odpowiada wartości 0 na skali z), a każdy stanin (za wyjątkiem skrajnych: pierwszego i dziewiątego) zawiera w sobie wyniki z obszaru 0,5 odchylenia standardowego (co jest równoznaczne z tym, że odchylenie standardowe skali stani-nowej wynosi 2). Taka konstrukcja skali powoduje, że:
• w piątym staninie mieści się 20% wyników, • w czwartym i szóstym staninie – po 17% wyników, • w trzecim i siódmym staninie – po 12% wyników, • w drugim i ósmym staninie – po 7% wyników, • w pierwszym i dziewiątym staninie po 4% wyników.
Przedziały na skali staninowej i ich odniesienie do skali z ilustruje rysunek 2.7. Rysunek 2.7 Skala staninowa w odniesieniu do skali z
Skal standardowych opartych na podobnych założeniach jak skala staninowa można stworzyć wiele, wymienić można choćby skalę stenową (Hornowska, 2007). Ma ona dziesięć przedziałów (stenów), jej średnia wynosi 5,5, a odchylenie standardowe 2, a nazwa pochodzi od angielskiego standard
ten, czyli standardowa dziesiątka. Ważną cechą tego typu skal jest to, że wartości interpretuje się
tylko w odniesieniu do wyznaczonych na nich przedziałów, co w przypadku danych egzaminacyj-nych skutkuje utratą informacji, gdyż przedziałów jest mniej niż możliwych do zdobycia surowych punktów.
Centralna Komisja Egzaminacyjna wyznacza co roku przedziały skali staninowej np. dla sprawdzianu i publikuje je w sprawozdaniach. Tabela 2.12. zawiera przedziały wyników dla sprawdzianu 2014 i odpowiadające im staniny (Centralna Komisja Egzaminacyjna, 2014a). Już pierwszy rzut oka na jej zawartość ujawnia pewne problemy – procent wyników w poszczególnych staninach odbiega od wartości teoretycznych i nie jest symetryczny względem środkowego staninu. Jest to skutkiem tego, że sprawdzian jest punktowany na skali od 0 do 40 punktów więc nie możemy wystarczająco
do-z
-4,00 -3,75 -3,50 -3,25 -3,00 -2,75 -2,50 -2,25 -2,00 -1,75 -1,50 -1,25 -1,00 -0,75 -0,50 -0,25 0,00 0,25 0,50 0,75 1,00 1,25 1,50 1,75 2,00 2,25 2,50 2,75 3,00 3,25 3,50 3,75 4,00
pomocą uszeregować uczniów w klasie, to musielibyśmy przyznawać miejsca ex aequo uczniom, którzy otrzymali np. 20 i 24 punkty ze sprawdzianu (4 stanin; por. tabela 2.12.).
Tabela 2.12 Przedziały skali staninowej dla wyników sprawdzianu 2014
Stanin Procent wyników Przedział wyników
1 4,3 0–10 2 6,2 11–14 3 12,0 15–19 4 17,3 20–24 5 22,5 25–29 6 14,6 30–32 7 13,0 33–35 8 6,0 36–37 9 4,1 38–40
Źródło: Centralna Komisja Egzaminacyjna (2014a)
Innym typem skali stosowanej do komunikowania wyników egzaminacyjnych jest skala centylowa, o której wspomniano we wcześniejszej części rozdziału. Została ona wprowadzona do komuniko-wania wyników egzaminu gimnazjalnego w 2012 roku i wskazuje, jaki procent obserwacji (wyni-ków) jest mniejszy lub równy niż dana wartość. Zasadę jej konstrukcji można opisać przy pomocy tzw. kwartyli, które dzielą wyniki na cztery grupy (stąd ich nazwa). Pierwszy kwartyl określa wartość, gdzie 25% wyników jest mniejsze lub jej równe, drugi kwartyl to mediana, czyli wartość, gdzie 50% wyników jest mniejsze lub jej równe, natomiast trzeci kwartyl to wartość, gdzie 75% wyników jest mniejsze lub jej równe. Podobnie kwintyle dzielą wyniki na pięć, a decyle na dziesięć grup. Łatwo zatem wywnioskować, że centyle (zwane też percentylami) dzielą wyniki na sto grup.
Rysunek 2.8 Przedziały wyników na skali centylowej
centyle
We wcześniejszych przykładach skal (staninowa i stenowa) grupy były wyznaczane przy użyciu od-ległości od średniej w jednostkach odchylenia standardowego skali z. Skutkowało to różnym udzia-łem procentowym wyników w poszczególnych przedziałach. W przypadku skali centylowej mamy do czynienia z sytuacja odwrotną – przedziały pomiędzy poszczególnymi centylami mają zawierać taką samą liczbę obserwacji, czyli 1%. Skutkuje to tym, że im bliżej średniej, tym pomiędzy centyla-mi zawiera się coraz mniejszy przedział wyników. Ilustrację tej cechy skali centylowej przedstawia rysunek 2.8.
Choć skala centylowa ma niewątpliwie swoje zalety, ma też niestety wady. Zaletą tej skali jest to, że nie redukuje ona informacji o wynikach w tak dużym stopniu jak skala staninowa. Gdybyśmy mieli jednak do czynienia z egzaminem, na którym możliwe byłoby osiągnięcie dużej liczby punktów, to mogłoby dojść do sytuacji, kiedy pomiędzy dwoma centylami znajdowałyby się wyniki różniące się pomiędzy sobą na surowej skali. Wadą skali centylowej jest natomiast niemożliwość dokonywania na niej pewnych operacji matematycznych, które są naturalne w przypadku porównywania wyni-ków (choć wynika to wprost z konstrukcji tej skali). O ile w przypadku surowych wyniwyni-ków możliwe jest określenie, że uczeń, który otrzymał ze sprawdzianu 20 punktów (50%) uzyskał ich dwukrotnie mniej niż uczeń, którego punktację ustalono na 40 punktów (100%), o tyle w przypadku centyli jest to niemożliwe. Za pomocą skali centylowej nie możemy nawet określić tak prostej zależności, jak to, o ile punktów więcej lub mniej od średniej uzyskał dany uczeń. Musimy przyjąć zupełnie inny sposób interpretacji wyników i odnosić się do proporcji uczniów posiadających wynik niższy lub taki sam (lub wyższy).
Dokonując podsumowania cech skal zaprezentowanych powyżej można dojść do (słusznego) wniosku, że wybór skali, na której prezentowane są wyniki zależny jest od celu, któremu mają one służyć. Każda skala znajdzie swoim zwolenników i przeciwników i nie ma skali, która spełniałaby oczekiwania wszystkich odbiorców informacji o wynikach egzaminacyjnych. Stosowane przez Cen-tralną Komisję Egzaminacyjną do komunikowania skale są szeroko używane także w innych krajach przez instytucje zajmujące się edukacją. Za przykład może posłużyć chociażby amerykańska orga-nizacja o nazwie Educational Records Bureau23 oferująca szereg testów osiągnięć czy egzaminów wstępnych, która w swoim niezależnym egzaminie wstępnym dla szkół (Independent School En-trance Exam) prezentuje uczniom wyniki zarówno na skali staninowej, jak i centylowej24. Przykładem z drugiej strony globu może być nowozelandzka organizacja New Zealand Council for Educational Research25 zajmująca się badaniami edukacyjnymi, która ich wyniki komunikuje również przy użyciu tych dwóch skal26.
Skale stosowane w edukacji nie ograniczają się do zaprezentowanych przykładów. Poza skalą stani-nową bardzo często można spotkać inne skale standardowe. W międzynarodowych badaniach PISA, PIRLS, TIMSS wykorzystywana jest skala o średniej 500 i odchyleniu standardowych równym 100 (zwana skalą CEEB27). Popularną i dobrze znaną skalą jest też standardowa skala o średniej 100 i od-chyleniu standardowym równym 15. Wielość skal standardowych wynika z możliwości arbitralnego ustalenia wartości średniej i wielkości odchylenia standardowego. Można w ten sposób tworzyć skale dostosowane do specyficznych potrzeb danego egzaminu, badania czy testu. Przeliczania wy-ników surowych na skale standardowe dokonuje się poprzez użycie skali z – wynik w skali z mnoży się przez odchylenie standardowe używanej skali i do wyniku tej operacji dodaje jej wartość średnią. Dowolność wyboru parametrów skal standardowych rodzi pewne konsekwencje dotyczące ich pre-cyzji. Wspomniana skala staninowa ma zbyt mały zakres, aby dobrze reprezentować zróżnicowanie 23 https://www.erblearn.org/
24 Opis komunikowania wyników ISEE można znaleźć pod adresem http://www.ehow.com/how_7801376_understand--scores-isee-exam.html http://www.erblearn.org/sites/default/files/images/parents/Understanding%20the%20ISEE%20
wyników opisywanych egzaminów, przez co następowała utrata części informacji. Oczywiście nic nie stoi na przeszkodzie, aby zamiast używania tylko liczb całkowitych wyrażać wyniki również z czę-ścią ułamkową. Jeśli średnia skali staninowej wynosi 5, a jej odchylenie standardowe 2, to podany wcześniej jako przykład wynik ze sprawdzianu z 2014 wynoszący 24 punkty (z=-0,225) roku można według opisanej wyżej reguły obliczyć jako: -0,225*2+5, co daje 4,55. Nie jest to już jednak wynik na skali staninowej, a na innej skali o średniej 5 i odchyleniu standardowym 2, gdyż na skali staninowej wynik należy zaokrąglić do liczby całkowitej (por. tabela 2.12). Pomimo dodania części ułamkowej nadal jednak mamy do czynienia ze „ściśnięciem” wyników z zakresu 0–40 do zakresu 0–9, co może być niewygodne. Z drugiej strony moglibyśmy użyć skali CEEB, w której wspomniany wynik miałby wartość 47828. Tak duża liczba może powodować iluzję, że nasz egzamin jest bardzo precyzyjny – potencjalnie możemy przecież odróżnić kogoś, kto uzyskał 477 punktów od kogoś, kto uzyskał 476 czy 478 punktów. Dopiero obliczenie, że jeden punkt na skali surowej sprawdzianu 2014, czyli 1/8 odchylenia standardowego, jest równy 12,5 punktu w skali CEEB uświadamia nam, że w rzeczy-wistości jest to niemożliwe. Za sprawą takich wskaźników, jak Edukacyjna Wartość Dodana (EWD) czy Porównywalne Wyniki Egzaminacyjne (PWE) w komunikowaniu wyników egzaminów zewnętrz-nych w Polsce zaczęto używać skali o średniej równej 100 i odchyleniu standardowym równym 15 (zob. rozdział 3 i 4 raportu)