Edukacyjnej Wartości Dodanej

(1)

Edukacyjnej Wartości Dodanej

Podsumowanie polskich doświadczeń 2005-2015

÷

3 + 2

f(x)

EWD

σ ²

(2)

Redakcja językowa:

Magdalena Pokropek Recenzenci:

dr hab. Przemysław Biecek Wydawca:

Instytut Badań Edukacyjnych ul. Górczewska 8, 01-180 Warszawa tel. (22) 241 71 00; www.ibe.edu.pl Skład:

Andrzej Dziekoński Druk:

Agencja Reklamowo-Wydawnicza A.Grzegorczyk ul. Kutrzeby 15, 05-082 Stare Babice

Copyright by: Instytut Badań Edukacyjnych, Warszawa 2015c ISBN: 978-83-65115-57-7

Publikacja powstała w ramach projektu „Badania dotyczące rozwoju metodologii szacowania wskaźnika edukacyjnej wartości dodanej (EWD)”; współfinansowana została przez Unię Europejską ze środków Europejskiego Funduszu Społecznego w ramach projektu: „Rozwój metody edukacyjnej wartości dodanej na potrzeby wzmocnienia ewaluacyjnej funkcji egzaminów zewnętrznych”.

Egzemplarz bezpłatny

(3)

Podziękowania 5

1 Wprowadzenie 7

1.1. Co znajduje się w tej książce . . . 7

1.2. Co nie znalazło się w tej książce . . . 8

2 Wskaźniki EWD 9 2.1. Podstawowe własności EWD . . . 9

2.2. Zakres zmiennych kontrolnych w modelach EWD a interpretacja wskaźników 11 2.3. Wskaźniki EWD w Polsce . . . 14

3 Przekształcanie wyników egzaminów 17 3.1. Ogólne własności metod przekształcania wyników egzaminów . . . 19

3.2. Skala standardowa 100;15 . . . 20

3.3. Skala EWD . . . 20

3.4. Normalizacja ekwikwantylowa . . . 21

3.5. Skalowanie z użyciem modeli IRT . . . 23

3.5.1. Wybór modelu skalowania . . . 23

3.5.2. Zadania o złych własnościach psychometrycznych . . . 27

3.5.3. Założenie o lokalnej niezależności zadań . . . 27

3.6. Skalowanie wyników matury . . . 30

3.6.1. Złożona struktura egzaminu maturalnego . . . 30

3.6.2. Typ szkoły i heterogeniczność populacji zdających . . . 32

3.6.3. Problem (auto)selekcji . . . 32

3.6.4. Wybór tematu wypowiedzi pisemnych . . . 34

3.6.5. Skalowanie wyników egzaminów na potrzeby jednorocznych wskaźni- ków EWD dla LO i techników . . . 35

4 Modele EWD 37 4.1. Modelowanie relacji pomiędzy wynikami „na wejściu”, a wynikami „na wyjściu” . . . 37

4.1.1. Źródła nieliniowej zależności od wyników „na wejściu” . . . 37

4.1.2. Metody modelowania nieliniowej zależności od wyników „na wejściu” 40 4.1.3. Metody graficznej diagnostyki nieliniowego przebiegu zależności . . 42

(4)

4.2. Dodatkowe zmienne w modelu . . . 44

4.2.1. Płeć, dysleksja, laureaci konkursów przedmiotowych . . . 44

4.2.2. Wiek . . . 46

4.2.3. Średnie wyniki „na wejściu” . . . 47

4.3. Metody estymacji modeli EWD i metody wyliczania oszacowań punktowych wskaźników EWD . . . 49

4.4. Szacowanie błędu standardowego wskaźników EWD . . . 54

4.5. Wskaźniki średnich wyników egzaminu „na wyjściu” i ich związek z EWD . 55 4.6. Trendy w ramach okresów trzyletnich . . . 57

4.7. „Latentne” wskaźniki EWD . . . 58 5 Możliwości i ograniczenia dalszego rozwoju wskaźników EWD w Polsce 63 Aneks A: Kalendarium rozwoju metod szacowania polskich wskaźników

EWD 67

Aneks B: Struktura polskich egzaminów zewnętrznych 69 Aneks C: Zadania usunięte z modeli skalowania ze względu na niską

1 7 ę

j c a n i m y r k s y d

Aneks D: Parametry związane z typem szkoły i wyborem przedmiotów 2 7 a

i n a w o l a k s h c a l e d o m h c y w o p u r g o l e i w w

4 7 )

y w o t z s e r (

” t s e t k n i L

„ : E s k e n A

Aneks F: Wyniki procedury wyboru stopnia wielomianu 76 Aneks G: Dekompozycja wariancji w trzyletnich modelach EWD 83 6 8 e

i s a z c w D W E w ó k i n ź a k s w ć ś o n li b a t S : H s k e n A

Aneks I: Związki pomiędzy wielkością szkoły a wartościami wskaźników

EWD 87

8 8 a

n a w o t y c a r u t a r e t i L

(5)

Książka ta ma tylko jednego autora, ale opisuje efekty pracy wielu osób, które przyczyniły się do rozwoju metodologii wyliczania polskich wskaźników edukacyjnej wartości dodanej w latach 2005-2015. w związku z tym chciałbym podkreślić wkład, udokumentowany zresztą licznymi publikacjami, jaki wnieśli tu przede wszystkim Maciej Jakubowski i Artur Pokropek. To ich pracy zawdzięczamy wybór stosowanych w naszym kraju metod wyliczania modeli EWD i skalowania wyników egzaminów. Od Artura pochodzi też choćby idea prezentacji w dwuwymiarowej przestrzeni wartości trzyletnich wskaźników EWD i średnich wyników szkoły „na wyjściu” oraz uwzględnienia parametrów selekcji w modelu skalowania wyników matury. Chciałbym też podziękować Grzegorzowi Golonce, Maciejowi Koniewskiemu, Aleksandrze Jasińskiej i Annie Rappe za ich wkład w analizy własności różnych modyfikacji wskaźników EWD oraz zaangażowanie w proces wyliczania i publikacji wskaźników. Ogromne znaczenie dla usprawnienia procesu harmo- nizacji, łączenia i przekształcania danych egzaminacyjnych, a przez to również możliwości implementacji niektórych złożonych metod statystycznych, miały prace nad rozwojem systemu bazodanowego wykonane przez Mateusza Żółtaka. Cała nasza praca nie byłaby możliwa bez Ewy Stożek i Romana Dolaty, którzy z ogromnym zaangażowaniem kierowali projektami poświęconymi rozwojowi metody EWD w Polsce. Zbiorcze podziękowanie kieruję również do wszystkich osób, które brały udział w realizacji tych projektów.

w momencie, gdy piszę te słowa, przyszłość EWD w Polsce jest niepewna. Pozostaje mi mieć nadzieję, że, jak sądzę, bardzo owocna praca nad rozwojem tej metody w naszym kraju nie pójdzie na marne i jej wyniki będą wykorzystywane również w przyszłości.

Tomasz Żółtak Warszawa, sierpień 2015

(6)

(7)

Wprowadzenie

1.1. Co znajduje się w tej książce

Książka ta stanowi podsumowanie dotychczasowych prac nad rozwojem metodologii wyliczania polskich wskaźników edukacyjnej wartości dodanej (EWD) dla gimnazjów i szkół kończących się maturą. Bazuje ona w dużej mierze na raporcie Statystyczne modelowanie wskaźników edukacyjnej wartości dodanej – podsumowanie polskich doświad- czeń (Żółtak, 2013c), w stosunku do którego została jednak gruntownie poprawiona, zaktualizowana i uzupełniona o opis nowych rozwiązań, wdrożonych w latach 2014-2015.

W książce wykorzystane też zostały zaadaptowane fragmenty innych wcześniejszych publikacji autora poświęconych wskaźnikom EWD (Żółtak, 2013a, 2015).

W publikacji zawarty został przede wszystkim opis metod statystycznych wykorzystywanych do wyliczania polskich wskaźników EWD. Omówione zostały tu zarówno rozwiązania ostatecznie wdrożone i wykorzystywane do wyliczania publikowanych wskaź- ników, jak i metody, które były testowane, ale nie zdecydowano się na ich wykorzystanie.

Publikacja ta ma charakter w dużej mierze techniczny, choć starano się, aby opisowi metod statystycznych towarzyszył komentarz uzasadniający celowość wykorzystania danej metody oraz omówienie skutków, jakie przyjęcie poszczególnych rozwiązań ma dla zakresu, w jakim będzie można wskaźniki wykorzystać i sposobu, w jaki należałoby je interpretować. Zagadnienia statystyczne zostały podzielone na dwie grupy, opisane w oddzielnych rozdziałach. Pierwsza grupa obejmuje metody przekształcania (skalowania) wyników egzaminów zewnętrznych w ten sposób, aby były one bardziej użyteczne do dalszych analiz. Druga grupa to kwestie związane z modelowaniem zależności pomiędzy wynikami egzaminu „na wejściu” a wynikami egzaminu „na wyjściu” przy pomocy modeli regresji i z wyliczaniem na podstawie takich modeli wskaźników EWD.

Krótkie zakończenie obejmuje omówienie dalszych możliwych kierunków rozwoju metodologii wyliczania polskich wskaźników EWD oraz ograniczeń, które mogą ten rozwój utrudniać. Dla ułatwienia odbioru książki przez czytelników, którzy nie mieli wcześniej styku ze wskaźnikami EWD, przygotowany został początkowy rozdział, obejmujący wprowadzenie w tematykę ewaluacji pracy instytucji oświatowych w Polsce przy pomocy metody EWD. Uzupełnienie całości publikacji stanowią aneksy, zawierające w skondensowanej formie dodatkowe informacje nt. historii zmian w metodologii wyliczania polskich wskaźników EWD, struktury polskich egzaminów zewnętrznych oraz własności modeli EWD.

(8)

1.2. Co nie znalazło się w tej książce

Książka ta obejmuje jedynie wycinek tematyki związanej z rozwojem i własnościami polskich wskaźników EWD. Poniżej wymienione zostały kwestie, które nie są w niej poruszane, wraz ze wskazaniem publikacji, które zostały poświęcone tym zagadnieniom.

W książce nie zostały podjęte kwestie związane z wyliczaniem wskaźników EWD dla szkół podstawowych. Oczywiście brak jest centralnych, obowiązkowych egzaminów, których wyniki mogłyby służyć w tym przypadku jako miary osiągnięć „na wejściu”

w modelach. Można jednak wykorzystać wyniki ogólnopolskich badań diagnostycznych uczniów klas III, które w ostatnich kilku latach rokrocznie prowadzone były przez Instytut Badań Edukacyjnych i w których wzięła udział zdecydowana większość polskich szkół podstawowych, do stworzenia wskaźników EWD opisujących drugi etap edukacyjny, tj. nauczanie w klasach IV-VI. Prace nad przygotowaniem i wdrożeniem takich modeli EWD zostały podjęte, choć są jeszcze na wczesnym etapie. Pierwsze wyniki, uzyskane na grupie uczniów zdających sprawdzian w 2014 r. (a piszących test diagnostyczny OBUT w 2011 r.) opisane zostały w wydanym przez Instytut Badań Edukacyjnych raporcie Egzaminy zewnętrzne w polityce i praktyce edukacyjnej, w rozdziale poświęconym EWD (Dolata i in., 2015). W oddzielnej publikacji (Dolata i in., 2014) opisane zostały wyniki badań, prowadzonych na reprezentatywnej próbie szkół podstawowych, nad kontekstowym modelem oceny efektywności nauczania po pierwszym etapie edukacji (tj. W klasach I-III). W ramach tego podejścia, pokrewnego modelom EWD, wobec braku miary osiągnięć uczniów „na wejściu” do przewidywania osiągnięć „na wyjściu” wykorzystywane są inne czynniki opisujące poziom zasobów edukacyjnych, którymi dysponują oni na początku danego etapu nauki (przede wszystkim kapitał kulturowy i ekonomiczny rodziny).

Zagadnienia trafności polskich wskaźników EWD, a w szczególności konsekwencji stosowania bardzo ograniczonego zestawu zmiennych kontrolnych, badane były na reprezentatywnych próbach gimnazjów i szkół ponadgimnazjalnych, a wyniki tych badań opisane zostały w oddzielnych publikacjach: Ścieżki rozwoju edukacyjnego młodzieży – szkoły ponadgimnazjalne (Karwowski, 2013) i Trafność metody edukacyjnej wartości dodanej dla gimnazjów (Dolata i in., 2013). Syntezę opisanych tam wyników zawiera wspomniany wcześniej raport (Dolata i in., 2015).

Kwestie związane z przygotowaniem infrastruktury bazodanowej oraz częściowo informatycznej, służącej integracji danych egzaminacyjnych i danych o szkołach na potrzeby wyliczania wskaźników EWD, omówione zostały w rozdziale 9 monografii Porównywalne wyniki egzaminacyjne (Szaleniec i in., 2015b, 186-191). Dodatkowe informacje na ten temat, jak również szczegółowy opis procedur wyliczania wskaźników EWD, można też znaleźć na stronie internetowej http://zpd.ibe.edu.pl.

Sposoby wykorzystania wskaźników EWD w ewaluacji pracy szkół oraz opisy narzędzi służących do analiz z użyciem wskaźników znajdują się m.in. W raporcie Egzaminy zewnętrzne w polityce i praktyce edukacyjnej, w rozdziale poświęconym EWD (Dolata i in., 2015) oraz materiałach szkoleniowych dostępnych na stronie http://ewd.edu.pl.

(9)

Wskaźniki EWD

Idea wskaźników edukacyjnej wartości dodanej (EWD) opiera się na porównywaniu ze sobą wyników dwóch (lub więcej) egzaminów w celu określenia wkładu szkoły w wyniki nauczania. Wskaźniki te mogą być traktowane jako szczególny sposób komunikowania wyników egzaminacyjnych dla grup uczniów, w odniesieniu do ich wcześniejszych osiągnięć (Dolata, 2007b). Można powiedzieć, że przy wyliczaniu wskaźników EWD dąży się do skorygowania osiągnięć uzyskanych przez uczniów na zakończenie danego etapu kształcenia o różnice wynikające z tego, jak różnili się oni już na początku tego etapu. Jednym z najistotniejszych, a często wręcz podstawowym, zastosowaniem wskaźników EWD jest ewaluacja pracy szkół (a czasem również nauczycieli), jednak mogą one być wykorzystywane również w innych celach, np. dla wsparcia rodziców przy wyborze szkoły, do której poślą oni swoje dzieci, a także planowania i oceny realizacji lokalnych polityk edukacyjnych.

2.1. Podstawowe własności EWD

Należy podkreślić dwie cechy wskaźników EWD, które dla większości osób stykających się z nimi po raz pierwszy są mało intuicyjne. Po pierwsze, wskaźniki EWD z założenia wyliczane są jako miara zagregowana, na podstawie wyników egzaminacyjnych grup uczniów, a interpretowane jako miary (przeciętnego) wkładu szkoły lub nauczyciela¹ w wyniki nauczania w odniesieniu do tej grupy uczniów. Nie posługujemy się EWD jako charakterystyką pojedynczego ucznia. Jest ona charakterystyką instytucji czy osoby, która oddziałuje na daną grupę uczniów. Wskaźniki EWD z założenia mają pełnić funkcję ewaluacyjną, a nie diagnostyczną.

Po drugie, wartości wskaźników EWD, niejako wbrew nazwie, nie wskazują na bezwzględne postępy (przyrost lub spadek wiedzy i umiejętności) uczniów. Określenie

„wartość dodana” nie odnosi się do tego, co uczniowie umieli wcześniej, ale do tego, jak ich osiągnięcia pod koniec danego etapu kształcenia plasują się na tle innych uczniów o takich samych uprzednich osiągnięciach i innych cechach indywidualnych (np. takiej samej płci czy wieku) oraz ewentualnie uczących się w podobnych warunkach (np. w szkole o takim samym średnim poziomie uprzednich osiągnięć). Zestaw kontrolowanych cech może się różnić w zależności od konkretnego modelu EWD. Inaczej mówiąc, podstawą do wyliczenia wskaźników EWD jest to, o ile wyższe lub niższe są wyniki uczniów pod koniec danego etapu kształcenia, niż „można by się tego spodziewać”. Co ważne, to, czego „można by się spodziewać”, wyznaczamy nie na podstawie przyjętych a priori założeń odnośnie tego, co uczniowie powinni umieć, lecz na podstawie odnotowanych empirycznie zależności

1 W dalszej części tekstu, dla wygody językowej, będę pisać o EWD jako o charakterystyce szkoły.

(10)

statystycznych pomiędzy cechami wszystkich zdających w kraju (w szczególności zaś ich uprzednimi osiągnięciami), a ich osiągnięciami na zakończenie danego etapu kształcenia.

Nie można więc, jak często się to zdarza osobom nieobeznanym z tematem, interpreto- wać zerowej wartości wskaźnika EWD jako „braku przyrostu wiedzy”, a więc sytuacji wprost nagannej. Wskazuje ona po prostu, że uczniowie danej szkoły poradzili sobie na egzaminie końcowym średnio podobnie, jak inni zdający o podobnych cechach i w tym sensie nie jest ona nacechowana ani pozytywnie, ani negatywnie, lecz neutralna. Wskaźniki EWD nie pozwalają śledzić bezwzględnego przyrostu wiedzy i umiejętności, ani dla tych samych uczniów zdających kolejne egzaminy, ani dla kolejnych kohort zdających ten sam egzamin w różnych latach. Aby osiągnąć takie cele, konieczne byłoby zastosowanie nie modeli EWD, ale zrównywania wyników egzaminów (odpowiednio wertykalnego lub podłużnego), w celu wyrażenia ich na tej samej skali (Szaleniec i in., 2015b). Podejście do oceny jakości pracy szkół przyjęte w ramach metody EWD stoi więc w sprzeczności z typowym sposobem myślenia o ocenie szkół, skupiającym się na rozliczaniu z wyników nauczania, a więc na pytaniach o to, ile w toku nauki uczeń „uzyskał wiedzy”, czy

„opanował potrzebne umiejętności” i osiągnął „biegłość w danej dziedzinie”, względnie jak jest od takiej wymaganej biegłości daleki. Może to rodzić pytanie, do czego właściwie takie wskaźniki mogą być przydatne.

W literaturze poświęconej zarządzaniu systemem oświaty wskazuje się, że tradycyjne podejście do oceny instytucji edukacyjnych, oparte na monitorowaniu wyłącznie końcowych osiągnięć, pociąga za sobą pewne istotne, niepożądane konsekwencje. Dzieje się tak zwłaszcza wtedy, gdy wykorzystywane są wskaźniki mierzące odsetek uczniów osiągających wyniki powyżej pewnego ustalonego poziomu. Prowadzi to do skupienia się instytucji edukacyjnych na tych uczniach, którzy są w pobliżu tego progu i „rokują” na jego przekroczenie. Jednocześnie nauczyciele w dosyć oczywisty sposób demotywowani są do poświęcania uwagi uczniom bardziej zdolnym, którzy pomimo to zapewne i tak osiągną wymagane postępy. Nieco paradoksalnie tracić mogą jednak również uczniowie najsłabsi.

W ich przypadku nawet relatywnie duży wysiłek włożony w nauczanie nie dawałby pewności osiągnięcia przez nich wymaganego poziomu, co sprawia, że nauczycielom znacznie bardziej „opłaca się” skoncentrować uwagę na uczniach o wynikach bliżej progu (Neal, 2010). Ogólnie rzecz biorąc, mamy w takiej sytuacji do czynienia z zawężeniem

„pola widzenia” i zakresu oddziaływania ewaluacji na pracę szkół.

Dodatkowo skupienie się wyłącznie na efektach końcowych nie bierze pod uwagę różnic pomiędzy uczniami, którzy przychodzą do różnych szkół. Placówki pracujące z uczniami o niższych uprzednich osiągnięciach, czy działające w niekorzystnym środowisku społecznym, mogą w ramach takiego podejścia nie mieć szans na uzyskanie pozytywnej oceny, co nie będzie wspierać motywacji ich pracowników. Stosowanie takich metod oceny pracy szkół raczej nie będzie sprzyjać wyrównywaniu szans edukacyjnych.

Tymczasem dla działań zmierzających do poprawy efektywności systemu edukacji podstawowe znaczenie wydaje się mieć właśnie próba określenia wkładu szkoły w wyniki egzaminacyjne. Cel ten pozwalają osiągnąć, a przynajmniej przybliżyć się do niego, właśnie wskaźniki EWD. Co ważne, korzystanie z nich nie wymaga stosowania egzaminów zrównanych pionowo (a więc takich, których wyniki można wyrazić na jednej skali), co, jak wspomniano, byłoby konieczne, aby obserwować przyrost wiedzy i umiejętności uczniów interpretowany w kategoriach absolutnych. Jednocześnie w praktyce wskaźniki

(11)

EWD powinny być wykorzystywane w połączeniu z innymi miarami, pozwalającymi dostrzec inne aspekty rzeczywistości edukacyjnej, w szczególności z wynikami egzaminów końcowych. W szczególności chodzi o uchwycenie problemu, że nawet dosyć wysokie wartości wskaźników EWD mogą czasem iść w parze z niskimi wynikami końcowymi.

Choć wskaźniki EWD pokazują, że za ten ostatni fakt nie należy obwiniać niskiej jakości pracy szkoły, niskie wyniki cały czas pozostają problemem, który warto by było starać się rozwiązać (choć zapewne będzie to wymagać podjęcia szerszych działań, oddziałujących przede wszystkim na środowisko, w jakim szkoła pracuje). Z kolei patrząc na szkoły o niskich wartościach wskaźników EWD możemy powiedzieć, patrząc z perspektywy systemowej (z perspektywy rodzica może to wyglądać nieco inaczej), że większy problem stanowią szkoły łączące niskie EWD i niskie wyniki niż te, w których EWD jest co prawda niskie, ale wyniki końcowe mimo to względnie wysokie. Równocześnie należy podkreślić, że EWD nie można traktować jako jedynej i pewnej metody oceny jakości pracy szkoły, zwłaszcza jeśli miałaby ona być podstawą do podejmowania ważkich decyzji, np. o wysokości dodatków do wynagrodzeń, czy likwidacji placówek.

2.2. Zakres zmiennych kontrolnych w modelach EWD a interpretacja wskaźników

W modelach służących do wyliczania wskaźników EWD wyniki „na wyjściu” mogą być przewidywane nie tylko ze względu na same wyniki „na wejściu”, ale dodatkowo również ze względu na różne cechy ucznia (jak płeć, wiek czy zamożność rodziny) oraz szkoły (np. średni poziom wyników „na wejściu”). Włączanie do modelu takich dodatkowych zmiennych ma na celu wybicie z wyliczanych wskaźników EWD tych czynników, które mogą wpływać na osiągnięcia uczniów, ale są niezależne od działań szkoły. Na przykład, jeśli zgodzimy się ze stwierdzeniem, że od uczniów, którzy nie posługują się dobrze językiem wykładowym (np. dzieci imigrantów) nie można rozsądnie wymagać takich samych jak od innych postępów w nauce, to powinniśmy korygować (obniżać) ich przewidywane wyniki egzaminu „na wyjściu” – punkt odniesienia, do którego będą porównywani. W przeciwnym wypadku szkoły pracujące z takimi uczniami będą miały zaniżane wartości wskaźników EWD.

Generalnie przyjmuje się, że uwzględnienie dodatkowych charakterystyk uczniów w modelu pozytywnie wpływa na jakość uzyskiwanych wskaźników EWD. Z drugiej strony formułuje się jednak zastrzeżenia, że w praktyce trudno wykluczyć występowanie czynników selekcji, sprawiających, że uczniowie z defaworyzowanych społecznie środowisk trafiają do szkół o istotnie gorszym poziomie nauczania. W oczywisty sposób mechanizmem sprzyjającym występowaniu takiej zależności jest istnienie konkursowej selekcji do szkół na danym etapie edukacji, w oparciu o wcześniejsze osiągnięcia edukacyjne. Warto jednak zdać sobie sprawę, że ze zjawiskiem tym możemy mieć do czynienia również wtedy, gdy brak jest formalnej selekcji, ale w praktyce występuje ona z powodów o charakterze strukturalnym (geograficznym). Do takiego związku będzie dochodzić na przykład wtedy, jeżeli na wsi notujemy niższe wyniki egzaminów (z czym mamy do czynienia w Polsce) i jednocześnie możemy podejrzewać, że szkoły wiejskie mają trudności z przyciągnięciem

(12)

wysoko wykwalifikowanej kadry nauczycielskiej (bo np. zdolni nauczyciele wolą pracować w miastach). Jeśli występują tego rodzaju zależności, część wpływu przypisywanego w modelu charakterystykom uczniów – i wytrącanego ze wskaźników EWD – naprawdę związana jest z różnicami w efektywności pracy szkół (lub nauczycieli). Poszerzanie zakresu czynników kontrolowanych w modelu z jednej strony chroni więc przed „niesprawiedliwym”

ocenianiem szkół, jednak z drugiej może utrudniać rozróżnianie od siebie szkół pracujących efektywnie i nieefektywnie (Ebbes, Böckenholt i Wedel, 2004; McCaffrey, Lockwood, Koretz, Hamilton, 2003 s. 68-75; OECD, 2008, s. 125-139).

Dodatkowe komplikacje, oprócz wymienionych powyżej, występują w przypadku zmiennych opisujących charakterystyki szkoły. Aby je omówić, konieczne będzie wprowadzenie, poczynionego przez Raudenbusha i Willmsa (1995), rozróżnienia na dwa rodzaje efektów, które mogą być estymowane w ramach systemów oceny efektywności pracy szkół. Efekty pierwszego rodzaju, nazywane „efektami typu A”, są interesujące z punktu widzenia rodziców, chcących wybrać szkołę dla swojego dziecka. Efekty drugiego rodzaju, tzw.

„efekty typu B”, są z kolei obiektem zainteresowania instytucji zarządzających oświatą, które chciałyby oceniać efektywność pracy szkół.

Przy wyliczaniu efektów typu A uwzględniane są jedynie charakterystyki poszczegól- nych uczniów. Przy wyliczaniu efektów typu B brane są pod uwagę również czynniki opisujące kontekst działania szkoły, które mogą mieć istotny wpływ na uzyskiwane przez uczniów postępy w nauce, jednak pozostają poza bezpośrednią kontrolą samej szkoły (dyrektora, nauczycieli). Przykładem takich czynników może być przeciętny poziom umiejętności uczniów przychodzących do danej placówki, ale także lokalizacja szkoły (w

„dobrej” lub „złej” dzielnicy, ale również w mieście lub na wsi) albo baza materialna, jaką szkoła dysponuje. W związku z tym, przy ocenie efektywności pracy szkoły również i te czynniki powinny być kontrolowane, aby nie miały wpływu na formułowaną ocenę.

Z drugiej strony, rodziców dziecka interesuje, w której szkole ma ono szanse osiągnąć najlepsze wyniki, biorąc pod uwagę zarówno efektywność pracy szkoły, jak i czynniki strukturalne (kontekstowe). Szkoła bardzo efektywna (w sensie efektów typu B), ale działająca w bardzo niesprzyjających warunkach może dawać gorsze perspektywy niż szkoła o przeciętnej efektywności, działająca w wyjątkowo sprzyjającym otoczeniu.

Widać więc, że perspektywa rodzica i perspektywa ewaluatora mogą być rozbieżne.

O tym, czy w modelu EWD uwzględniać czynniki strukturalne (kontekstowe), czy też ich nie uwzględniać, powinno decydować to, do kogo przede wszystkim kierowane są wskaźniki.

Niestety czasem twórcy systemu EWD wykazują się w tym zakresie niekonsekwencją, czego przykładem były rozwiązania angielskie z lat 2006-2011, kiedy stosowano model z szerokim zakresem zmiennych kontekstowych, choć jednocześnie bardzo silnie podkreślano, że wskaźniki powinny służyć rodzicom pomocą przy dokonywaniu wyboru szkoły dla dziecka (Goldstein i Leckie, 2009). Dodatkowo wskazuje się na duże trudności w uzyskaniu wiarygodnych wskaźników typu B, w szczególności zaś na niemożliwość formułowania na podstawie wskaźników EWD mocnych interpretacji przyczynowych (Raudenbush, 2004;

Reardon i Raudenbush, 2008; Rubin, Stuart i Zanutto, 2004).

W kontekście wprowadzania do modeli EWD czynników strukturalnych (kontekstowych) warto wspomnieć o jeszcze jednym problemie. Dążąc do uwzględnienia bezpo- średnio w modelu wszystkich czynników mogących wpływać na wyniki, a niezależnych od działań szkoły, co prawda zyskujemy na adekwatności prowadzenia bezpośrednich

(13)

porównań, nawet pomiędzy szkołami pracującymi w bardzo różnych środowiskach, jednak z drugiej strony tracimy możliwości łatwego diagnozowania systemu edukacyjnego na poziomach wyższych niż szkoła. W szczególności dotyczy to ewentualnego wprowadzania do modelu kontroli ze względu na położenie szkół w różnych jednostkach podziału terytorialnego (powiatach, ew. gminach), co bywa praktykowane w modelach EWD wykorzystywanych za granicą. Na podstawie wskaźników, które byłyby wyliczone w ten sposób, w sposób oczywisty nie zaobserwujemy już różnic pomiędzy poszczególnymi jednostkami podziału terytorialnego, terenami wiejskimi i miejskimi, itd. Co prawda można dojść do tych informacji, analizując parametry modelu regresji, wykorzystanego do wyliczenia wskaźników EWD, jednak dla potencjalnych użytkowników będzie to typowo zadanie bardzo trudne, albo wręcz niemożliwe do wykonania. Trzeba więc rozważyć, czy w praktyce, z punktu widzenia użyteczności wskaźników, ważniejsza jest możliwość adekwatnego porównywania ze sobą nawet bardzo różnych szkół, czy też prowadzenia pewnych porównań również na wyższych poziomach agregacji. Warto też zauważyć, że w przypadku wprowadzania do modeli kontroli ze względu na jednostki terytorialne, pojawiają się problemy metodologiczne, związane z niepokrywaniem się podziału administracyjnego kraju z obszarami oddziaływania procesów kształtujących lokalną edukację. W szczególności dotyczy to obszarów metropolitalnych.

W związku z tym wprowadzanie do użytku wskaźników EWD zawsze wymaga przemyślenia, jakim celom mają one przede wszystkim służyć i czy w ramach dostępnych możliwości technicznych (dostępności danych) jesteśmy w stanie te cele w zadowalającym stopniu zrealizować. Zresztą kwestia optymalnego doboru wykorzystywanych metod statystycznych ze względu na przewidywane zastosowanie i rozwiązania techniczne, które mogą zostać wykorzystywane do pozyskania danych oraz wyliczania i prezentacji wskaźników EWD, stanowi jeden z głównych wątków tej książki. Warto przy tym zaznaczyć, że w praktyce pewne niedoskonałości wskaźników, wynikające choćby z ograniczonego zakresu zmiennych kontrolnych wykorzystywanych w modelach EWD, mogą być łagodzone poprzez odpowiednią praktykę wykorzystania ich w dalszych analizach, co zostanie zasygnalizowane poniżej.

Nieco odrębny problem stanowi kwestia, na ile ma sens uznawanie, że wpływ szkoły nie różnicuje się ze względu na charakterystyki uczniów, a więc, że szkoła tak samo efektywnie naucza chłopców i dziewczęta, uczniów o niskich i o wysokich wynikach

„na wejściu”, itd. Zwłaszcza w kontekście „perspektywy rodzica” problem ten wydaje się dosyć poważny, jeśli bowiem, przynajmniej w niektórych szkołach, występuje takie systematyczne zróżnicowanie efektywności nauczania, to jeden wskaźnik, wyliczony na podstawie wszystkich uczniów danej placówki nie będzie dawał informacji adekwatnej w odniesieniu do konkretnego dziecka. Niestety, trzeba w tym miejscu zauważyć, że wskaźniki EWD stanowią bardzo słabą podstawę dla wnioskowania o perspektywach powodzenia dzieci, w zależności od wyboru szkoły, w której będą się uczyć. Jest to powodowane przede wszystkim znaczną niestabilnością wskaźników EWD między latami, co sprawia, że predykcje, czynione przecież na kilka lat wprzód (długość etapu kształcenia), są obarczone ogromną niepewnością pomiarową. Ich niewielką użyteczność, na gruncie angielskim, ilustruje wspomniany już wcześniej artykuł Goldsteina i Leckiego (2009). Two- rząc wskaźniki w oparciu o mniejsze grupy uczniów, tylko powiększalibyśmy tę niepewność, co niekoniecznie prowadziłoby nas w stronę lepszych, bardziej użytecznych wskaźników.

(14)

2.3. Wskaźniki EWD w Polsce

Omawiane w tej książce wskaźniki EWD wyliczane są dla gimnazjów oraz dla szkół kończących się maturą – liceów ogólnokształcących i techników. Przy tym w przypadku techników należy pamiętać, że mierzą one wyłącznie efektywność pracy szkoły w zakresie nauczania wiedzy ogólnej (przygotowania do matury). Dla każdego typu szkoły wskaźniki wyliczane są w dwóch podstawowych wariantach: jako tak zwane wskaźniki jednoroczne i trzyletnie. Pierwsze z nich uwzględniają wyniki jednego rocznika absolwentów, podczas gdy przy wyliczaniu tych drugich brane są pod uwagę osiągnięcia trzech kolejnych roczników absolwentów. Oba typy wskaźników różnią się metodami statystycznymi wykorzystywanymi w modelowaniu EWD (zostaną one wyczerpująco omówione w dalszych rozdziałach), ale za ważniejszą różnicę należy uznać ich przeznaczenie i sposób udostępniania odbiorcom.

Wskaźniki trzyletnie publikowane są w ogólnodostępnym serwisie internetowym, z myślą o bardzo szerokiej grupie odbiorców: od nauczycieli i dyrektorów, poprzez organy zarządzające i nadzór pedagogiczny, po rodziców uczniów. W związku z tym zdecydowano się na wyliczanie wskaźników w oparciu o wyniki trzech kolejnych sesji egzaminu maturalnego tak, by były one bardziej stabilne, zdawały sprawę z przeciętnej efektywności pracy szkoły w dłuższym okresie i nie prowokowały do wyciągania zbyt pochopnych wniosków z różnic, jakie mogą występować pomiędzy pojedynczymi latami.

Wybór trzyletniego okresu podyktowany jest zgodnością z długością toku kształcenia w gimnazjach i liceach ogólnokształcących, co powinno sprzyjać wygładzaniu różnic związanych z cyklicznymi zmianami zespołów nauczycielskich uczących kolejne roczniki uczniów. Arbitralnie przyjęto, że wskaźniki prezentowane są tylko dla szkół, które w okresie trzyletnim miały przynajmniej 30 absolwentów, uwzględnionych w modelu EWD. W przygotowanym interfejsie WWW można łatwo dokonywać porównań pomiędzy różnymi szkołami lub śledzić zmiany wartości wskaźników jednej szkoły w czasie.

Warto zauważyć, że odpowiedni wybór szkół do porównania może tu częściowo rekompensować ograniczenie zakresu zmiennych kontrolnych w polskich modelach EWD.

Jeśli jesteśmy w stanie wskazać placówki, które są podobne do tej, której wyniki chcemy analizować (np. pracują w podobnym środowisku społecznym), ich wyniki mogą nam posłużyć za lepszy punkt odniesienia do oceny osiągnięć danej szkoły. W szczególności szkoły wielkomiejskie warto analizować nie w odniesieniu do średnich ogólnopolskich wartości wskaźników, ale w kontekście szkół znajdujących się w tym samym mieście.

Wskaźniki jednoroczne z założenia mają być wykorzystywane przede wszystkim do ewaluacji wewnątrzszkolnej. Odbiorcom nie są przy tym udostępniane gotowe wskaźniki, wyliczone dla poszczególnych szkół (jak ma to miejsce w przypadku wskaźników trzyletnich), lecz aplikacja pozwalająca wyliczyć wartość EWD dla dowolnie zdefiniowanych grup uczniów. Aby to jednak było możliwe, użytkownik musi wcześniej sam pozyskać i wczytać do aplikacji dane potrzebne do wyliczenia wskaźników EWD (zestawienie wyników egzaminów poszczególnych uczniów wraz z informacją o ich płci i dysleksji).

Dyrektorzy szkół mogą pozyskać takie dane z okręgowych komisji egzaminacyjnych.

Wartości jednorocznych wskaźników EWD są oczywiście wyliczane w oparciu o model przeliczony wcześniej na danych ogólnokrajowych, którego parametry, pozwalające na późniejsze wyliczanie wskaźników, są zapisywane w przygotowywanej aplikacji. Pozwala to

(15)

na prowadzenie bardziej dociekliwych analiz nad zróżnicowaniem efektywności kształcenia, jednak stawia użytkownikom dużo wyższe wymagania zarówno w zakresie technicznych umiejętności posługiwania się dostarczanym im narzędziem, jak i w zakresie interpretacji uzyskiwanych wyników. Grupa osób mogących korzystać ze wskaźników jednorocznych jest przy tym zawężona do tych, które mogą otrzymać z okręgowych komisji egzaminacyjnych dane z wynikami uczniów – głównie nauczycieli i dyrektorów. Istnieje możliwość dokony- wania porównań między szkołami, ale w praktyce jest ona bardzo ograniczona ze względu na dostępność danych egzaminacyjnych (dyrektor może uzyskać dane tylko swojej szkoły).

(16)

(17)

Przekształcanie wyników egzaminów

Idea wyliczania wskaźników EWD opiera się na porównywaniu ze sobą wyników egzaminów. W związku z tym wysoka jakość egzaminów jest podstawowym warunkiem koniecznym do uzyskania dobrych wskaźników EWD. W dotychczasowych publikacjach poświęconych tematyce trafności polskich egzaminów w kontekście wyliczania wskaźników EWD oceniane są one jako posiadające wystarczająco dobre własności (Jasińska i Żółtak, 2013; Pokropek, 2013), choć wskazywanych jest też wiele możliwych pól do poprawy (Grudniewska i Kondratek, 2012; Koniewski i in., 2014; Pokropek, 2012; Szaleniec i in., 2015a). Nie ulega przy tym wątpliwości, że surowe wyniki egzaminów, tj. proste sumy punktów uzyskanych za poszczególne zadania (albo równoważnie odsetki maksymalnej możliwej do uzyskania liczby punktów), nie mogą być bezpośrednio porównywane pomiędzy różnymi edycjami tego samego egzaminu.

Tabela 1 zawiera zestawienie średnich i odchyleń standardowych wyników surowych sprawdzianu oraz części humanistycznej i matematyczno-przyrodniczej egzaminu gimnazjalnego z lat 2005-2011 (zamieszczane w sprawozdaniach Centralnej Komisji Egzamina- cyjnej). Przytoczone liczby wskazują, że rozkłady wyników surowych różnią się znacząco między niektórymi latami, zarówno co do średniej, jak i co do zróżnicowania wyników.

Wahania średniej z roku na rok często przekraczają 10% odchylenia standardowego wyników, a w ekstremalnych przypadkach, jak różnica pomiędzy sprawdzianem z 2005 i 2006 r., czy pomiędzy częścią humanistyczną egzaminu gimnazjalnego z 2011 i 2012 r., dochodzą do połowy odchylenia standardowego rozkładu wyników. Samo odchylenie standardowe wyników dla części humanistycznej egzaminu gimnazjalnego w 2011 r. jest wyższe o blisko 11% niż w 2010 r. Wydaje się nieprawdopodobnym, aby te różnice miały odwzorowywać zróżnicowanie istotnie występujące pomiędzy poszczególnymi rocznikami absolwentów. Dużo bardziej prawdopodobne, że ich źródłem jest po prostu zróżnicowanie własności arkuszy egzaminacyjnych, wykorzystywanych w poszczególnych latach.

Przypuszczenia te znajdują potwierdzenie w badaniach nad porównywalnymi wynikami egzaminacyjnymi, które prowadzone były w Instytucie Badań Edukacyjnych przez zespół Henryka Szaleńca. Na podstawie specjalnie przeprowadzonych testów zrównujących auto- rzy badania szacują, że po wytrąceniu wpływu zróżnicowania trudności egzaminów między latami ogólnopolskie średnie wyników sprawdzianu z lat 2005-2011 różnią się od siebie nawzajem o nie więcej niż 1,6 punktu. Maksymalne różnice pomiędzy zrównanymi średnimi ogólnopolskimi, wyrażonymi na skali wyników surowych, zostały w tym samym okresie oszacowane na 2,4 punktu w przypadku części matematyczno-przyrodniczej i na 2,1 punktu w przypadku części humanistycznej egzaminu gimnazjalnego (Szaleniec i in., 2015b).

(18)

Tabela 1. Średnie i odchylenia standardowe wyników surowych sprawdzianu, części humanistycznej i części matematyczno-przyrodniczej egzaminu gimnazjalnego w latach 2005-2011. Żródło: CKE

sprawdzian część hum. egz. gimn. część mat.-przyr.

egz. gimn.

rok średnia odch. stand. średnia odch. stand. średnia odch. stand.

2011 25,27 7,51 25,31 9,34 23,63 9,37

2010 24,56 8,03 30,34 8,38 26,71 9,32

2009 22,64 7,63 31,67 8,70 26,03 11,02

2008 25,80 7,52 30,75 9,84 27,07 10,65

2007 26,60 7,82 31,48 9,78 25,31 10,22

2006 25,32 8,56 31,39 8,39 23,90 10,30

2005 29,50 7,43 33,18 8,71 24,26 10,15

Choć zróżnicowanie średniego poziomu wyników egzaminów pomiędzy latami nie stanowi istotnego problemu z punktu widzenia wyliczania samych wskaźników EWD – jesteśmy bowiem w stanie kontrolować te różnice poprzez odpowiednią specyfikację modelu – jest jednak kilka innych powodów, dla których wysoce wskazane wydaje się przekształca-

nie surowych wyników egzaminów tak, aby uczynić je bardziej porównywalnymi pomiędzy kolejnymi latami. Po pierwsze, wskaźniki EWD powinny być interpretowane w połączeniu z wynikami egzaminów końcowych, co zresztą podkreśla przyjęty w Polsce sposób prezentacji trzyletnich wskaźników EWD (są to elipsy obrazujące łączny obszar ufności dla położenia EWD i średniego wyniku końcowego szkoły, z uwzględnieniem współzależności między tymi dwoma zmiennymi). W ramach tego rozwiązania, obejmującego agregację wyników końcowych z trzech różnych lat, przedstawienie wyników egzaminów na skali, która będzie w jakiś sposób porównywalna między latami, jest więc koniecznością. Po drugie, jak pokazuje zestawienie w Tabeli 1, znaczne wahania dotyczą nie tylko poziomu, ale też zróżnicowania wyników egzaminów, co ma już bezpośredni wpływ na wskaźniki EWD. Jeśliby nie korygować tych wahań, to w ramach wskaźników trzyletnich, lata, w których zróżnicowanie wyników końcowych było większe, miałyby też zapewne większy wpływ na wartości wskaźników EWD (choć zależy to jeszcze od tego, czy stabilna w czasie byłaby siła zależności pomiędzy wynikami „na wejściu” i wynikami „na wyjściu”).

Jednocześnie trzeba zaznaczyć, że nie stawiamy tu sobie za cel wyrażenia wyników egzaminów na tej samej skali, pozwalającej śledzić zmiany średniego poziomu i zróżnico- wania wyników na poziomie ogólnokrajowym kraju w kolejnych latach. Choć w ogólności jest to cel możliwy do osiągnięcia, jednak jego realizacja jest bardzo skomplikowana i kosztowna, gdyż wymaga prowadzenia dodatkowych badań zrównujących (Szaleniec i in., 2012; Szaleniec i in., 2015b). W kontekście wyliczania wskaźników EWD cel może być dużo skromniejszy – odniesienie wyników uzyskanych na egzaminie przez danego ucznia do wyników wszystkich zdających w tym samym roku. Zmiana takiego relatywnego położenia uczniów w rozkładzie wyników jest wystarczająco dobrą podstawą do wyliczania

(19)

wskaźników EWD, bowiem z założenia są one miarami względnymi (Żółtak, 2013a).

Aby ten cel osiągnąć, konieczne jest jednak odpowiednie przekształcenie surowych wyników egzaminacyjnych.

3.1. Ogólne własności metod przekształcania wyników egzaminów

Z teoretycznego punktu widzenia metody przekształcania wyników egzaminów stoso- wane w procesie wyliczania wskaźników EWD możemy podzielić na te, które zakładają określony model pomiarowy oraz metody, które nie odwołują się do takich założeń.

Pierwsze z nich stanowią modele IRT, reprezentantem drugiej grupy jest zaś metoda normalizacji ekwikwantylowej. Z praktycznego punktu widzenia zasadnicze znaczenie ma jednak inne rozróżnienie, a mianowicie, czy metoda wykorzystuje wyłącznie sumaryczny wynik surowy (równoważnie odsetek zdobytych punktów), czy też wymaga informacji o punktacji uzyskanej za wykonanie poszczególnych zadań egzaminu. W tej pierwszej grupie możemy umieścić normalizację ekwikwantylową oraz model Rascha, w drugiej pozostałe modele IRT. Oczywiście rozróżnienie to ma sens tylko w sytuacji, gdy wszyscy uczniowie rozwiązują ten sam zestaw zadań. Jeśli jest inaczej, nie da się uzyskać rozsądnego przekształcenia wyników wyłącznie na podstawie informacji o sumie zdobytych punktów¹.

Możliwość posługiwania się wyłącznie wynikiem sumarycznym ma duże znaczenie w przypadku jednorocznych wskaźników EWD, które wyliczane są przez użytkowników w zewnętrznej aplikacji – Kalkulatorze EWD – na podstawie samodzielnie wczytanych danych. Metody wymagające informacji o punktacji za poszczególne zadania byłyby bardzo skomplikowane do zaimplementowania w tej aplikacji (konieczność implementacji modułu statystycznego do estymacji oszacowań z danych wejściowych na podstawie zadanych parametrów modelu IRT lub konieczność stosowania olbrzymiej wielkości tablic przeliczeniowych). Z drugiej strony użytkownicy mogliby mieć trudności z pozyskaniem wyników egzaminacyjnych w tej formie, a proces wczytywania ich do Kalkulatora byłby potencjalnym źródłem ogromnej liczby przekłamań i błędów.

W praktyce spośród dwóch wymienionych metod operujących wyłącznie na wyniku sumarycznym – normalizacji ekwikwantylowej i modelu Rascha – w odniesieniu do polskich egzaminów zastosowanie znajduje głównie ta pierwsza. Model Rascha jest najbardziej restrykcyjną formą modeli IRT – zakłada się w nim, że wyniki każdego zadania w teście są tak samo silnie powiązane z mierzoną cechą – a egzaminy przygotowywane w naszym kraju niestety zwykle nie spełniają tego założenia. W związku z tym, do przekształcania wyników egzaminów na potrzeby wyliczania jednorocznych wskaźników EWD dla gimnazjów wykorzystywana jest od 2012 r. metoda normalizacji ekwikwantylowej.

Wcześniej, w latach 2009-2011, była ona stosowana także do przekształcania wyników egzaminów na potrzeby wyliczania trzyletnich wskaźników EWD gimnazjów. Modele Rascha, w nieco zmodyfikowanej formie, używane są wyłącznie na potrzeby wyliczania jednorocznych wskaźników EWD dla liceów ogólnokształcących i techników.

1 Chyba że możemy przyjąć założenie, że posługiwano się całkowiecie ekwiwalentnymi zestawami zadań.

(20)

3.2. Skala standardowa 100;15

Wszystkie wspomniane powyżej metody łączy to, że w efekcie ich zastosowania otrzymujemy wyniki przedstawione na skali standardowej. W odróżnieniu od skali surowych wyników, nie jest ona definiowana przez założone minimum i maksimum (możliwych do zdobycia punktów), ale przez założone wartości średniej i odchylenia standardowego wyników w grupie osób, przyjętej jako punkt odniesienia. Jak już wspomniano, w przypadku przekształcania wyników egzaminów na potrzeby wyliczania i prezentacji wskaźników EWD taką grupę odniesienia stanowią wszyscy zdający dany egzamin w danym roku². Jeśli chodzi o parametry rozkładu, jako założona wartość średnia wybrane zostało 100, a jako założona wartość odchylenia standardowego 15 – możemy więc skrótowo określić używaną skalę jako „skalę standardową 100;15”³.

Zauważmy przy tym, że minimalne i maksymalne możliwe do uzyskania wartości na skali standardowej różnią się pomiędzy latami, zależnie od własności psychometrycznych testów wykorzystanych w danym roku. Wyników na skali standardowej nie da się też bezpośrednio interpretować w kategoriach „odsetka opanowanego materiału”. Jest to cena, jaką musimy zapłacić za możliwość porównywania wyników z różnych lat w sytuacji, gdy trudność (a i zawartość treściowa) arkuszy nie jest dobrze wystandaryzowana (ujednolicona) między latami. Zresztą świadomość występowania wyraźnych różnic w trudności egzaminów uświadamia nam, że interpretowanie surowych wyników polskich egzaminów w kategoriach „odsetka opanowanego materiału”, choć wydaje się bardzo intuicyjne, to jednak może być zwodnicze (obarczone dużym błędem), co sprawia, że w gruncie rzeczy jest niezbyt użyteczne.

Ponieważ wyniki uzyskiwane zarówno na maturze, jak i na egzaminie gimnazjalnym przez uczniów liceów ogólnokształcących są zdecydowanie wyższe niż wyniki uzyskiwane przez uczniów techników, zdecydowano się oddzielnie wyliczać wskaźniki dla obu typów szkół. Uznano bowiem, że w takiej sytuacji licea nie mogą być dobrym punktem odniesienia dla techników i odwrotnie (oczywiście istotne są tu też różnice w celach kształcenia tych dwóch typów szkół). Aby ułatwić interpretację wyników dla każdego z tych typów szkół, na potrzeby maturalnych modeli EWD znormalizowane wyniki przekształcane są na skalę o średniej 100 i odchyleniu standardowym 15 oddzielnie w ramach grupy uczniów liceów ogólnokształcących i w ramach grupy uczniów techników. Dotyczy to zarówno wyników matury, jak i wyników egzaminu gimnazjalnego.

3.3. Skala EWD

Skala, na jakiej wyrażane są wskaźniki EWD jest ściśle powiązana ze skalą, na jakiej wyrażane są wyniki egzaminacyjne, choć oczywiście nie jest z nią tożsama. Jak wspomniano we wcześniejszym rozdziale, wskaźniki EWD mają średnią 0, co wskazuje na przeciętną, właśnie średnią, efektywność nauczania. Jednostka skali EWD nie jest jednak

2 Z pominięciem osób nie uwzględnianych przy wyliczaniu wskaźników EWD

3 Skala standardowa 100;15 określana bywa mianem „skali IQ”, ze względu na to, że po raz pierwszy była ona szerzej stosowana właśnie w odniesieniu do testów inteligencji. Określenie to nie oznacza jednak bynajmniej, że każda cecha wyrażona na takiej skali jest inteligencją.

(21)

powiązana ze zróżnicowaniem efektywności nauczania (z tego powodu skala EWD nie jest skalą standardową), ale jest przejęta ze skali wyników egzaminacyjnych. Właśnie dzięki temu, że obie skale posiadają tą samą jednostkę możliwa jest interpretacja EWD jako wkładu szkoły w wyniki egzaminacyjne. Odwołując się, trochę na wyrost (por. rozdziały 2.2 i 4.2.3), do interpretacji przyczynowej, można powiedzieć, że uczniowie danej szkoły, dzięki temu, że uczyli się w niej, a nie w „przeciętnej szkole” (szkole o średniej efektywności nauczania), zyskali (lub stracili – jeśli EWD jest ujemna) na egzaminie końcowym średnio tyle punktów, ile wynosi wartość EWD. Samo zróżnicowanie wartości EWD w zbiorowości szkół może być różne, w zależności od dziedziny i okresu, a zależy od wielkości składowych wariancji w modelu EWD. Dokładniej od tego, jak duża jest ta część wariancji resztowej, którą da się przypisać poziomowi międzygrupowemu.

3.4. Normalizacja ekwikwantylowa

Procedura normalizacji ekwikwantylowej ma na celu takie przekształcenie wartości zmiennej, aby jej rozkład miał własności możliwie zbliżone do założonego rozkładu – w przypadku procedury stosowanej w procesie wyliczania wskaźników EWD rozkładu normalnego standaryzowanego. Jednocześnie następuje standaryzacja wyników, w rezulta- cie której punktem odniesienia dla skali wyników staje się średni wynik w ramach grupy, na której przeprowadzana jest normalizacja, a jednostką skali odchylenie standardowe wyników w ramach tej grupy. Następnie poprzez przekształcenie liniowe możliwe jest dowolne ustalenie średniej i odchylenia standardowego skali. Przeliczenie wyników polskich egzaminów na skalę znormalizowaną o średniej 100 i odchyleniu standardowym 15 dokonywane jest tzw. metodą Hazena (Barnett, 1975) na podstawie wzoru⁴:

U (X = xi) = 100 + 15Φ⁻¹

P (X ≤ xi) −P (X = xi) 2

(1) gdzie:

U (X = xi) wynik znormalizowany dla wyniku surowego równego xi;

Φ⁻¹ funkcja odwrotna do dystrybuanty rozkładu normalnego standaryzowanego;

P (X ≤ xi) odsetek zdających (w grupie odniesienia) z wynikiem surowym nie wyższym niż xi;

P (X = xi) odsetek zdających (w grupie odniesienia z wynikiem surowym równym xi. Jak widać, normalizacja ekwikwantylowa przebiega w ten sposób, że dla każdego wyniku surowego obliczane jest, jaki odsetek w grupie odniesienia stanowią osoby, które uzyskały wynik nie wyższy niż dany oraz jaki odsetek w grupie odniesienia stanowią osoby, które uzyskały dokładnie dany wynik surowy. Następnie od tego pierwszego odsetka odejmowana jest połowa drugiego odsetka. Można więc powiedzieć, że w ramach grupy osób, które uzyskały dany wynik surowy szukamy „połowy” (ściśle formalnie:

4 W tym miejscu chciałbym podziękować Piotrowi Migdałowi, którego cenna uwaga pozwoliła nam skorygować błąd we wzorze, który pojawiał się we wcześniejszych publikacjach (błąd ten związany był ze złą interpretacją wzorów pojawiających się w innych publikacjach, w których zakłada się, że wszystkie obserwacje w ramach zbiorowości mają unikalne wartości normalizowanej zmiennej).

(22)

Rysunek 1. Związki pomiędzy znormalizowanymi ekwikwantylowo wynikami poszczególnych par testów egzaminu gimnazjalnego 2012 r. A znormalizowanymi ekwikwantylowo wynikami części tego samego egzaminu (tj. sumarycznych wyników par testów).

wartości oczekiwanej) i wybieramy ten punkt na „reprezentanta” tej grupy. Z tym, że aby móc dokonać przekształcenia, musimy też uwzględnić, jak wiele osób uzyskało wyniki gorsze niż dany. Odsetek będący wynikiem opisanego odejmowania może zostać przekształcony na skalę standardową o średniej 0 i odchyleniu standardowym 1 poprzez wykorzystanie funkcji odwrotnej do dystrybuanty rozkładu normalnego standaryzowanego.

Tak wyrażony wynik może być już łatwo wyrażony na dowolnej innej skali standardowej (tj. O innych wartościach średniej i/lub odchylenia standardowego) z użyciem przekształ- cenia liniowego polegającego na pomnożeniu przez wartość odchylenia standardowego docelowej skali (w naszym przypadku 15) i dodanie wartości średniej docelowej skali (w naszym przypadku 100).

Warto zaznaczyć, że w przypadku nowej, wprowadzonej w 2012 r. formuły egzaminu gimnazjalnego, znormalizowane wyniki dla dwóch części egzaminu gimnazjalnego (humanistycznej i matematyczno-przyrodniczej) wyliczane są na podstawie rozkładu sumy wyników surowych z odpowiednich dwóch testów, a nie z przekształcenia ich wyników znormalizowanych. W szczególności znormalizowany wynik danej części egzaminu gimnazjalnego nie jest średnią z wyników znormalizowanych dwóch tworzących daną część testów. Zależność pomiędzy znormalizowanymi wynikami testów tworzących daną część i znormalizowanym wynikiem dla tej części jako całości wynika z łącznego rozkładu wyników tych dwóch testów, jest złożona i nie daje się łatwo opisać. Przykładowy przebieg takich zależności dla egzaminu gimnazjalnego z 2012 r. przedstawiony został na Rysunku 1.

(23)

3.5. Skalowanie z użyciem modeli IRT

3.5.1.Wybór modelu skalowania

W przypadku trzyletnich wskaźników EWD, które wyliczane są centralnie, a na- stępnie publikowane za pośrednictwem strony internetowej, możliwe jest posłużenie się bardziej wyrafinowanymi statystycznie metodami przekształcania wyników egzaminacyjnych. W przypadku wskaźników maturalnych jest to wręcz konieczne – wyłącznie wykorzystanie modeli IRT pozwala dobrze poradzić sobie z wyznaczeniem oszacowań poziomu umiejętności „na wyjściu” w sytuacji, gdy różni uczniowie rozwiązywali częściowo inny zestaw zadań. W porównaniu z normalizacją ekwikwantylową zastosowanie modeli IRT ma dwie zalety. Po pierwsze, odwołanie do modelu opisującego związek pomiędzy mierzoną cechą a wynikami poszczególnych zadań pozwala na ocenę jakości egzaminu jako całości i poszczególnych zadań. Co prawda w momencie, gdy egzamin został już przeprowadzony, możliwości wykorzystania tak zdobytych informacji ograniczają się do usunięcia z modelu skalowania zadań o szczególnie słabych własnościach pomiarowych.

Po drugie, oszacowania poziomu umiejętności uzyskiwane z takich modeli mają lepsze własności statystyczne, nawet w sytuacji, gdy rozkłady wyników surowych są bardzo nietypowe (Jasińska i Żółtak, 2013; Pokropek, 2013).

Podstawowym zagadnieniem, jakie należy rozpatrzyć, jest wybór formy stosowanego modelu. Jak już wcześniej wspomniano, polskie egzaminy z reguły nie spełniają w zadowa- lający sposób założeń modelu Rascha, więc nie może on zostać wykorzystany. W związku z tym w grupie modeli typowo stosowanych do testów umiejętności należy rozważyć po pierwsze wybór pomiędzy modelem dwuparametrycznym a trzyparametrycznym dla zadań ocenianych binarnie, po drugie zaś wybór pomiędzy modelem graded response a modelem partial credit dla zadań o kilku możliwych poziomach wykonania (Kondratek i Pokropek, 2013; Linden i Hambelton, 1997).

W trzyparametrycznym logistycznym (3PL) modelu IRT prawdopodobieństwo udzie- lenia poprawnej odpowiedzi na k-te zadanie testowe w zależności od natężenia mierzonej cechy ukrytej θ opisywane jest wzorem:

P (X_k= 1) = 1 − 1 − c_k

1 + exp(ak(θ − bk)) (2)

gdzie poszczególne parametry modelu przyjęło się określać jako:

a_k dyskryminacja – wskazuje ona na siłę związku pomiędzy mierzoną cechą a wynikiem zadania (zasadniczo parametr ten przyjmuje wartości dodatnie, choć rzadko może się zdarzyć, że w teście wystąpią zadania źle skonstruowane, których związek z mierzoną cechą będzie negatywny, a więc ich dyskryminacja będzie ujemna);

bk trudność – co nie wymaga komentarza;

ck pseudozgadywanie – wyznacza granicę, do której zbiega prawdopodobieństwo udzie- lenia prawidłowej odpowiedzi, gdy θ zbiega do minus nieskończoności (w odróżnieniu od dwóch poprzednich parametr może przyjmować tylko wartości z przedziału [0; 1)).

(24)

W dwuparametrycznym modelu logistycznym (2PL) przyjmuje się, że wartość parametru c jest równa zeru i nie uwzględnia się go w modelowaniu:

P (X_k= 1) = 1 − 1

1 + exp(ak(θ − bk)) (3)

Łatwo przy tym zauważyć, że jest to równoznaczne z przyjęcie założenia, że zależność pomiędzy mierzoną cechą ukrytą a wynikiem odpowiedzi na zadanie testowe opisywana jest modelem regresji logistycznej:

log

P (Xk= 1) 1 − P (Xk= 1)

= (−akbk) + akθ (4) Dla zadań ocenianych binarnie model trzyparametryczny zapewnia lepsze dopasowanie do danych. Poza tym wydaje się, że przy dużej uwadze, jaką w Polsce (i nie tylko) przywiązuje się do problemu wpływu ewentualnego zgadywania na wyniki egzaminów (Twardowska i in., 2011), atrakcyjne jest dodanie do modelu parametru pozwalającego uwzględnić występowanie tego zjawiska. Jednak w praktyce wiarygodne szacowanie parametrów zgadywania jest zadaniem dosyć trudnym, szczególnie dla łatwych i bardzo łatwych zadań, których w polskich egzaminach (zwłaszcza w sprawdzianie) nie brakuje. Problem polega na tym, że informacji użytecznych dla określenia wartości parametru zgadywania zadania dostarczają uczniowie, których poziom umiejętności jest zdecydowanie niższy od poziomu trudności zadania. Dla zadań łatwych grupa ta jest niewielka, a więc oszacowania tego parametru obarczone są znaczną niepewnością, co niestety nie pozostaje bez wpływu również na dokładność szacowania pozostałych parametrów zadania.

Warto też zauważyć, że same oszacowania punktowe poziomu umiejętności uzyskiwane w wyniku zastosowania do tych samych danych modelu dwuparametrycznego i trzyparametrycznego są do siebie bardzo zbliżone, nawet w sytuacji, gdy istotnie występuje zjawisko zgadywania (Żółtak i Golonka, 2014). Co prawda oba modele mogą dawać bardzo różniące się od siebie oszacowania błędów standardowych dla oszacowań poziomu umiejętności, jednakże z punktu widzenia procedury wyliczania wskaźników EWD fakt ten nie ma większego znaczenia. Dzieje się tak, gdyż w modelach regresji używanych do wyliczania wskaźników EWD informacja o tych błędach standardowych nie jest, na razie, w żaden sposób wykorzystywana. Można więc stwierdzić, że w ostatecznym rozrachunku – z punktu widzenia skalowania wyników egzaminów na potrzeby wyliczania wskaźników EWD – model trzyparametryczny nie ma wyraźnych przewag nad modelem dwuparametrycznym.

Jeśli chodzi o modele dla zadań o kilku możliwych poziomach wykonania, to dla k-tego zadania testowego o liczbie różnych możliwych poziomów wykonania równej m_k (aby być w zgodzie z konwencją punktowania zadań na egzaminach, przyjmijmy, że poziomy numerowane są począwszy od zera: 0, 1, . . . , m_k-1) prawdopodobieństwo, że uczeń osiągnie co najmniej g-ty poziom wykonania, jest w modelu graded response opisywane wzorem:

P (X_k ≥ g) = 1 − 1

1 + exp(ak(θ − bkg)) (5) Prawdopodobieństwo osiągnięcia dokładnie g-tego poziomu wykonania można zaś ob- liczyć jako:

P (X_k= g) = P (X_k ≥ g) − P (X_k ≥ (g + 1)) (6)

(25)

przy czym przyjmuje się, że:

P (Xk ≥ 0) = 1 (7)

P (X_k ≥ m_k) = 0 (8)

Podobnie jak w przypadku dwuparametrycznego modelu logistycznego, jest to równoważne przyjęciu założenia, że zależność pomiędzy mierzoną cechą ukrytą a wynikiem odpowiedzi na zadanie testowe opisywana jest modelem regresji logistycznej, z tym że w tym przypadku jest to jej odmiana – wielowartościowa regresja logistyczna dla zmiennej zależnej mierzonej na skali porządkowej:

log

P (Xk≥ g) 1 − P (Xk ≥ g)

= (−akbkg) + akθ (9) W modelu partial credit prawdopodobieństwo osiągnięcia dokładnie g-tego poziomu wykonania opisywane jest z kolei wzorem:

dla g > 0:

P (X_k= g) = exp (Pg

l=1a_k(θ − b_kl)) 1 +Pm_k−1

l=1 expPl

j=1[ai(θ − bkj)] (10) dla g = 0:

P (Xk = 0) = 1

1 +Pm_k−1 l=1 expPl

j=1[ai(θ − bkj)] = 1 −

mk−1

X

g=1

P (Xk = g) (11)

Współczynniki bkg z modelu graded response i modelu partial credit posiadają ana- logiczną interpretację i wskazują wartości θ, w których prawdopodobieństwo uzyskania g-tego poziomu wykonania zrównuje się z prawdopodobieństwem uzyskania poziomu (g+1)-tego. Jednocześnie w modelu partial credit możliwe jest, że bk(g+1)< bkg. Jeśli taka sytuacja ma miejsce, określa się ją mianem zaburzenia kolejności poziomów wykonania ze względu na trudność. Oznacza to też, że nie istnieje taki przedział wartości θ, dla którego uzyskanie (g + 1)-tego poziomu wykonania byłoby bardziej prawdopodobne niż każdego innego poziomu wykonania. Jest to sytuacja niepożądana przy konstruowaniu testów, wskazująca, że należałoby skorygować schemat oceniania zadania tak, by był on bardziej efektywny. W modelu graded response nie dopuszcza się występowania takiej sytuacji. Ze sposobu parametryzacji modelu wynika, że zawsze b_k(g+1) ≥ b_kg. W związku z tą własnością wykorzystywanie modelu partial credit jest wskazane na etapie tworzenia i pilotażu arkuszy testowych, jednak w odniesieniu do dopracowanych testów egzaminacyjnych nie ma on przewagi nad modelem graded response. Istotną cechą tego drugiego jest z kolei ścisłe pokrewieństwo formalne z modelami strukturalnymi dla porządkowych zmiennych obserwowalnych (CSEM: Categorical Structural Equation Modeling), estymowanymi na podstawie macierzy korelacji polichorycznych. Choć należy zaznaczyć, że aby były to podejścia formalnie ekwiwalentne, konieczne byłoby zastąpienie w równaniach (9) i (5) (analogicznie dla modelu 2PL w równaniach (4) i (3) ) logistycznej funkcji łączącej funkcją probitową (Bartholomew, 1987; Takane, de Leeuw, 1987).

(26)

Ostatecznie do skalowania wyników egzaminów na potrzeby wyliczania wskaźników EWD zdecydowano się wykorzystać model dwuparametryczny dla zadań binarnych i model graded response dla zadań o kilku możliwych poziomach wykonania. Decyzja ta częściowo podyktowana została faktem dostępności oprogramowania w ramach projektu – do skalowania wykorzystano bowiem program Mplus, dający możliwość estymacji modeli strukturalnych, na potrzeby innych prac badawczych prowadzonych w ramach projektu, w szczególności związanych z badaniami podłużnymi. Jednocześnie program ten nie dawał jeszcze do niedawna możliwości estymacji modelu trzyparametrycznego, ani nie umożliwiał łatwej specyfikacji modelu partial credit. W świetle przedstawionej powyżej argumentacji nie powinno to być jednak uznawane za poważny problem.

Przy skalowaniu wyników egzaminów modelami IRT przyjęto podejście, że każda z części egzaminu gimnazjalnego skalowana będzie oddzielnie. W odniesieniu do formuły egzaminu gimnazjalnego wprowadzonej w 2012 r. przyjęto, że oddzielnymi modelami skalowany będzie każdy z czterech testów, a do tego niezależnie przeprowadzona zostanie estymacja modeli traktujących jako jeden konstrukt oba testy odpowiednio części humanistycznej i części matematyczno-przyrodniczej. Decyzję o niestosowaniu wielowymiarowych modeli IRT podjęto z dwóch powodów. Po pierwsze, z powodu znacznie większego stopnia komplikacji i złożoności obliczeniowej modeli wielowymiarowych. Po drugie, ze względu na fakt nieuchronnie zawyżanej korelacji (w stosunku do korelacji latentnych) pomiędzy oszacowaniami poziomów umiejętności na różnych wymiarach, uzyskiwanych z takich modeli. W efekcie oszacowania poziomu umiejętności z różnych dziedzin (części egzaminu) uzyskiwane z modeli wielowymiarowych bardzo niewiele się od siebie różnią, co stawiałoby pod znakiem zapytania zasadność wyliczania różnych wskaźników EWD, opartych na poszczególnych częściach lub testach wchodzących w skład egzaminu gimnazjalnego.

Estymacja modeli dokonywana jest metodą Marginal Maximum Likelihood (MML), to znaczy przy założeniu konkretnej formy rozkładu mierzonej cechy ukrytej w badanej populacji. Zgodnie z powszechnie przyjmowaną konwencją – i implementacjami w progra- mach statystycznych – zakładany był rozkład normalny. W modelach skalowania matury założenie o rozkładzie cechy w populacji zostało nieco zmodyfikowane (osłabione), co wiązało się z wykorzystaniem modeli wielogrupowych. Szczegóły przyjętych tu rozwiązań opisane są w oddzielnym podrozdziale.

W przypadku egzaminu gimnazjalnego i sprawdzianu, gdy wszyscy zdający rozwiązują ten sam zestaw zadań, oprócz metody estymacji MML, odwołującej się do optymalizacji funkcji wiarygodności w odniesieniu bezpośrednio do macierzy danych, możliwe jest też zastosowanie estymacji opartej na analizie macierzy korelacji tetra/polichorycznych.

Pierwsze z tych podejść jest bliżej związane z tradycją modelowania IRT, drugie zaś wywodzi się z tradycji analizy modeli strukturalnych (SEM: Structural Equation Modeling).

Zaletą drugiego podejścia jest mniejsza złożoność obliczeniowa procedur estymacji oraz istnienie wielu indeksów pozwalających ocenić stopień dopasowania modelu do danych.

Nie znajduje ono jednak zastosowania w sytuacji, gdy niektórzy zdający rozwiązywali inny zestaw zadań niż inni, z czym mamy do czynienia w przypadku egzaminu maturalnego. Ze względu na chęć stosowania tego samego podejścia przy estymacji modeli dla wszystkich egzaminów oraz przywiązanie do tradycji IRT zdecydowano się na zastosowanie drugiego podejścia – optymalizacji na podstawie pełnej macierzy danych.

(27)

Oszacowania umiejętności uczniów uzyskiwane są na podstawie wyestymowanych parametrów modelu metodą EAP (Expected A’Posteriori), a następnie przekształcane liniowo tak, aby ich średnia w grupie wszystkich zdających wynosiła 100, a odchylenie standardowe 15.

3.5.2. Zadania o złych własnościach psychometrycznych

Przy skalowaniu wyników egzaminów przyjęto zasadę, że z modeli skalowania usuwane będą zadania o złych własnościach psychometrycznych, a dokładniej mające zbyt słaby związek z cechą mierzoną przez cały test. Jako kryterium przyjęto wartość parametru dyskryminacji mniejszą niż 0,2. W pojedynczym kroku usuwane jest tylko jedno zadanie o najmniejszej dyskryminacji, a następnie model estymowany jest ponownie. Procedura kontynuowana jest do momentu, aż wszystkie zadania uwzględnione w modelu będą mieć dyskryminację powyżej przyjętego progu. Zadania, które usunięto z modeli skalowania w wyniku zastosowania tej procedury, zestawione zostały w aneksie C.

Takie działanie może być uznane za nieco kontrowersyjne, jako ingerencja w kompozycję treściową testu. Warto jednak zwrócić uwagę, że w sytuacji, gdy do skalowania nie jest używany model Rascha, lecz dopuszcza się zróżnicowanie „jakości pomiarowej” zadań (w modelach 2PL/SGRM/GPCM wyrażane parametrem dyskryminacji), w procesie estymowania osiągnięć uczniów wyniki rozwiązania poszczególnych zadań są brane pod uwagę z różnymi wagami. Większą wagę przypisuje się przy tym zadaniom o lepszej

„jakości pomiarowej” (wyższych wartościach parametru dyskryminacji). Tak więc już samo odejście od modelu Rascha narusza założoną – w sensie udziału w łącznym wyniku surowym – strukturę treściową testu. W szczególności zadania o dyskryminacji poniżej założonego progu i tak mają pomijalny wpływ na oszacowania umiejętności uczniów.

Usunięcie ich z modelu skalowania niewiele więc zmienia. Z drugiej strony, pomimo zmiany kompozycji treściowej, oszacowania umiejętności uzyskiwane z takich modeli pozostają bardzo silnie skorelowane zarówno z wynikami surowymi, jak i z oszacowaniami umiejętności uzyskiwanymi z modeli (wartości współczynnika korelacji Pearsona są co do zasady nie mniejsze niż 0,95). Tak więc z punktu widzenia dalszych analiz, w szczególności wyliczania wskaźników EWD, pewne naruszenia założonej kompozycji treściowej nie mają większego znaczenia praktycznego. Warto też odnotować, że przy konstruowaniu polskich egzaminów zewnętrznych nie przykłada się szczególnie dużej wagi do zachowania stabilnej kompozycji treściowej arkuszy pomiędzy poszczególnymi latami, zwłaszcza w przypadku arkuszy obejmujących materiał z kilku różnych przedmiotów.

3.5.3. Założenie o lokalnej niezależności zadań

Pewien problem przy skalowaniu wyników polskich egzaminów zewnętrznych z użyciem modeli IRT sprawia określenie, czy poszczególne części wyróżnione w arkuszu egzamina- cyjnym i reprezentowane w zbiorze danych przez oddzielne zmienne stanowią odrębne zadania, czy też należałoby je traktować jako powiązane ze sobą części tego samego zadania.

Konkretnie chodzi tu o stwierdzenie, czy spełnione jest jedno z podstawowych założeń

Edukacyjnej Wartości Dodanej