Egzamin maturalny z języka polskiego na poziomie podstawowym

6. Wyniki zrównywania

6.5. Egzamin maturalny z języka polskiego na poziomie podstawowym

podstawowym

6.5.1. Specyficzne problemy związane ze zrównywaniem

egzaminu maturalnego z języka polskiego

Zanim przejdziemy do omówienia wyników analizy zrównującej uzyskanych dla matury z języka polskiego na poziomie podstawowym poświęcimy trochę miejsca na omówienie specyficznych trudności związanych z przeprowadzeniem takiej analizy. Zasadniczą trudnością związaną z przeprowadzeniem zrównania tego egzaminu, jest fakt, że zdający mogą wybrać jeden z dwóch różnych tematów, na który formułują rozbudowaną wypowiedź pisemną podlegającą ocenie. Tematy różnią się znacznie zakresem lektur, jakie potencjalnie mogą się okazać użyteczne przy formułowaniu argumentacyjnego tekstu, ponadto jeden z tematów (częściej wybierany) wymaga stworzenia wypowiedzi o charakterze rozprawki problemowej, a drugi (rzadziej wybierany) wiąże się z koniecznością dokonania interpretacji tekstu literackiego. W terminach psychometrycznych oznacza to, że tematy zadań rozszerzonej odpowiedzi (wypracowań) z tej samej edycji egzaminu mogą potencjalnie różnić się trudnością, ale również mogą potencjalnie mierzyć nieco odmienne konstrukty. Należy się spodziewać, że całkowita wariancja wyników uzyskanych poprzez realizację konkretnego tematu będzie zawierała pewną porcję specyficzną dla tego zadania, która znajduje odzwierciedlenie w uniwersum treści jakie pragniemy testem maturalnym z języka polskiego mierzyć, ale nie będzie miała reprezentacji w innych zadaniach maturalnych. O ile problem różnic w trudności tematów jest dość prosty do kontroli statystycznej przy zastosowaniu podczas zrównywania modeli IRT, o tyle problem równoważności mierzonych konstruktów jest zdecydowanie trudniejszy, przez co stanowi znaczne zagrożenie dla trafności przeprowadzonej analizy.

Konstrukcja egzaminu maturalnego z języka polskiego na poziomie podstawowym powoduje, że pojedyncza edycja egzaminu stanowi de facto mieszankę dwóch różnych testów, które zawierają część

85 90 95 100 105 110 115 2010 2011 2012 2013 w yn ik z m at u ry z m at em at yki rok

zadań wspólnych (zadania nie będące wypracowaniem), oraz które nie są rozprowadzone między uczniami w sposób losowy. W pewnym sensie stanowi to klasyczny przykład schematu nierównoważnych grup z testem kotwiczącym (NEAT, por. Tabela 4.8, Rozdział 4), gdyż mamy dwie grupy uczniów, które potencjalnie różnią się poziomem umiejętności i każda z grup rozwiązuje test złożony z części zadań wspólnych (zadania kotwiczące) oraz części zadań, które są specyficznie wykorzystane tylko w jednej z grup. Mimo iż schemat zbierania danych dla pojedynczej edycji egzaminu przyjmuje formalnie postać schematu NEAT, jest istotna różnica między tym jak pomiar umiejętności poprawnie skonstruowany w schemacie NEAT powinien wyglądać, a tym co ma miejsce w przypadku matury z języka polskiego. Mianowicie, aby prawidłowo skontrolować różnice w trudności między dwoma egzaminami oraz różnice w poziomie umiejętności między dwoma grupami uczniów w schemacie NEAT, zadania kotwiczące powinny być reprezentatywną próbką zadań mierzących badane umiejętności. W przypadku matury z języka polskiego założenie to nie jest spełnione. Kotwiczące zadania wspólne dla dwóch grup uczniów nie będą w stanie uchwycić pewnych specyficznych aspektów umiejętności językowych jakie znajdują swoją reprezentację w realizacji tematów wypracowania. Zrównywanie wyników dwóch grup uczniów, wybierających różne tematy w ramach tej samej edycji egzaminu maturalnego będzie się wiązało z utratą pewnej porcji informacji o prawdziwym poziomie umiejętności uczniów. Porcji informacji, która jest specyficzna dla umiejętności realizowanych w ramach formułowania wypowiedzi pisemnej, a w szczególności która jest specyficzna dla umiejętności realizowanych w ramach formułowania wypowiedzi pisemnej jeden z wybranych tematów.

Dla dalszego zilustrowania problemów związanych z możliwością wyboru tematu wypowiedzi pisemnej, jakie mogą wpływać na zrównanie egzaminu maturalnego z języka polskiego,

Tabela 6.7

przedstawia informacje o średniej oraz odchyleniu standardowym wyników uzyskiwanych za zadanie rozszerzonej odpowiedzi (wypracowanie), pozostałe zadania oraz za całość egzaminu.

Tabela 6.7

zawiera także wyrażone na wspólnej skali parametry rozkładu uzyskane przez dopasowanie do danych wielogrupowego modelu IRT, które są zakotwiczone ze średnią 0 oraz odchyleniem standardowym 1 w grupie uczniów piszących temat drugi (II) w roku 2012 – wyniki te są podstawą analiz na zrównanych wynikach przedstawianych w dalszej części.

Tabela 6.7. Wyniki matury z języka polskiego w zależności od wybieranego tematu*

Rok i temat % uczniów

Suma punktów za

wypracowanie Suma punktów za pozostałe zadania Suma za całą pracę Parametry wielogrupowego modelu irt Średnia SD Średnia SD Średnia SD Średnia Błąd st. SD Błąd st.

2010 I 8,4% 32,6 8,1 14,8 2,9 47,4 9,7 1,10 0,058 1,05 0,037 II 15,2% 23,9 8,6 13,8 3,2 37,6 10,5 0,44 0,044 1,24 0,043 ? 76,4% 27,4 9,7 14,2 3,1 41,6 11,5 0,71 0,048 1,20 0,041 2011 I 18,2% 29,0 9,9 13,8 3,3 42,8 12,1 0,63 0,033 0,95 0,026 II 62,5% 24,3 8,4 13,4 3,3 37,7 10,5 0,45 0,030 0,90 0,025 ? 19,4% 24,9 9,4 13,3 3,3 38,2 11,6 0,42 0,030 0,93 0,026 2012 I 8,6% 26,18 8,7 13,7 3,0 39,9 10,6 0,70 0,009 0,94 0,008 II 91,1% 26,22 8,2 12,2 3,3 38,4 10,2 0,00 – 1,00 – ? 0,4% 28,6 16,1 13,0 4,8 41,5 20,2 0,47 0,109 3,35 0,108 2013 I 21,6% 27,1 9,2 14,1 3,2 41,3 11,3 0,45 0,030 0,95 0,024 II 78,0% 25,0 8,5 13,9 3,1 38,8 10,4 0,31 0,028 0,86 0,021 ? 0,3% 27,4 17,5 14,1 5,0 41,5 21,7 1,01 0,115 2,88 0,129

Tabela 6.7 wskazuje na pierwszą informację ilustrującą dalsze problemy, które mogą wystąpić podczas zrównywania wyników: nie w każdym przypadku informacja o wyborze tematu przez ucznia została zebrana. Dla takich uczniów wyniki za realizację wypowiedzi pisemnej są modelowane jako kolejny, trzeci zestaw, unikalnych dla tej grupy zadań, mimo iż wiadomo, że jest to mieszanka wyników z realizacji tematów I oraz II. W pierwszych dwóch latach problem braku informacji o wyborze tematu był systemowy – tylko niektóre okręgowe komisje egzaminacyjne zbierały takie dane – w dwóch ostatnich latach przyczyna nie jest jasna, jednocześnie braki w tej zmiennej mają już tylko marginalny charakter.

Przyjmując, że brak informacji o wyborze tematu ma charakter losowy, możemy oszacować zróżnicowaną wybieralność tematu I oraz II między latami. Temat I (interpretacyjny) w roku 2010 był wybierany przez 35,7% uczniów, w roku 2011 przez 22,5% uczniów, w roku 2012 przez 8,6% uczniów, a w roku 2013 przez 21,7% uczniów. Widzimy zatem, że rok 2012 znacznie odstaje na tle reszty, przez to że interpretacyjny temat był wybierany przez uczniów bardzo rzadko. Specyficzne zachowanie się wyników w roku 2012 na tym się nie kończy. Dla wszystkich lat, oprócz 2012, możemy zaobserwować, że uczniowie wybierający temat I uzyskiwali wyższe wyniki na części egzaminu nie będącej wypracowaniem, co jest sygnałem, że ich poziom umiejętności jest wyższy niż uczniów wybierających temat II, i jednocześnie uzyskiwali wyższe wyniki za część egzaminu będącą rozbudowaną wypowiedzią pisemną. Natomiast w roku 2012, 8,6% uczniów wybierających temat I również uzyskiwało wyższe wyniki za część egzaminu nie będącą wypracowaniem, co również przemawia za tym, że ich ogólny poziom umiejętności językowych był wyższy niż uczniów wybierających temat II w tym roku. Jednak średni wynik z realizacji części pisemnej dla grupy wybierającej temat I w roku 2012 był nawet nieznacznie niższy (na drugim miejscu po przecinku) niż w grupie, która wybrała temat II. Obserwacja, że uczniowie o wyższym poziomie ogólnej umiejętności językowej (za czym przemawia wyższy wynik na części egzaminu nie będącej wypowiedzią pisemną) uzyskali za wypowiedź pisemną w 2012 niższy wynik nakazuje wyciągnąć wniosek, że realizacja tematu I była na pewno trudniejsza od realizacji tematu II w tym roku.

Choć różnice w trudności zadań mogą zostać poddane kontroli poprzez zastosowanie wielogrupowego modelu IRT, rodzi się pytanie czy obserwowany wzór różnic w wynikach w dwóch wyróżnionych częściach egzaminu maturalnego z języka polskiego nie jest związany z wspomnianymi wcześniej specyficznymi aspektami umiejętności językowych wymaganymi do poprawnego napisania wypowiedzi pisemnej na poszczególne tematy. Skutki takich hipotetycznych różnic w specyficzności tematów I oraz II są trudne do przewidzenia oraz nie mogły być kontrolowane w trakcie przeprowadzonej analizy. Problematyka ta jest związana nie tylko z oceną trafności prezentowanych wyników zrównanych z matury z języka polskiego, ale także, w całej ogólności, z możliwością porównywania wyników uzyskiwanych przez uczniów wybierających poszczególne tematy wypracowania podczas danej edycji matury z języka polskiego oraz z możliwością porównywania wyników tego egzaminu między latami. Jest to doniosłe zagadnienie, wymagające dalszej skrupulatnej analizy, która jednak wykracza poza zakres niniejszej monografii. Niemniej, trzeba zaznaczyć, że prezentowane w dalszej części wyniki zrównania matury z języka polskiego mogą być obciążone pewnym błędem związanym z brakiem kontroli specyficzności tematów wypowiedzi pisemnej. Uwaga ta jest istotna tym bardziej, że prezentowane dalej wyniki dla matury z języka polskiego w znacznym stopniu odstają swoim wzorem od tych jakie obserwujemy we wszystkich innych zrównywanych egzaminach.

Ze względu na specyficzną dla tego egzaminu maturalnego konstrukcję testu, polegającą na tym, że uczniowie wybierają jeden z dwóch tematów wypowiedzi pisemnej, pewnego komentarza wymaga sposób, w jaki obserwowane wyniki na skali testu z roku 2012 zostały oszacowane dla innych roczników. W celu oszacowania rozkładów na skali z roku 2012 najpierw dopasowano do zbioru danych zrównujących model IRT, w którym wyniki uzyskiwane za realizację różnych tematów były traktowane jako odrębne zadania, a dla grup uczniów wybierających różne tematy włączono do modelu możliwość

niezależnego oszacowania rozkładu umiejętności (parametry modelu IRT dla grup przedstawia Tabela 6.7). Wielogrupowe modelowanie w obrębie pojedynczej edycji egzaminu miało na celu kontrolę nielosowego (skorelowanego z poziomem umiejętności) mechanizmu leżącego za wyborem tematu. Następnie, wyliczono warunkowe prawdopodobieństwo uzyskania określonej liczby punktów w maturze z 2012 roku w zależności od poziomu zmiennej ukrytej uczniów rozwiązujących test w roku 2012, zupełnie ignorując informację o tym, czy suma punktów w teście została uzyskana przy wyborze tematu I lub tematu II. Ostatecznie, takie nieparametryczne krzywe charakterystyczne dla całego testu, zostały wykorzystane do oszacowania rozkładów wyników obserwowanych w innych latach niż 2012 przy uwzględnieniu rozkładu ukrytej zmiennej umiejętności w tych latach. Zastosowana procedura oznacza przyjęcie implicite założenia, że gdyby uczniowie w latach innych niż 2012 mieli do wyboru takie same tematy jak para pojawiająca się w egzaminie z 2012, to zależność pomiędzy poziomem umiejętności uczniów z tych lat, a dokonywanym przez nich wyborem tematu byłaby identyczna jak w 2012 roku. W szczególności, gdyby, hipotetycznie, między latami nie było różnic w zakresie umiejętności językowych, to w każdym z roczników temat I, zamiast tematu II, z 2012 roku wybierałoby zawsze około 8% uczniów. Jeżeli przyjęte założenie o stałej między latami zależności między poziomem umiejętności językowych a prawdopodobieństwem wyboru tematu I zamiast tematu II w roku 2012 jest błędne, to prezentowane wyniki będą tym błędem w odpowiednim stopniu obarczone. Należy zauważyć, że mechanizmy leżące u podstaw podejmowanego przez uczniów wyboru tematu spośród pojawiającej się w każdym roku pary są problemem mało zbadanym, a mającym bardzo istotne znaczenie zarówno przy interpretacji (zrównanych, jak i niezrównanych) wyników z matury z języka polskiego.

6.5.2. Zmiany trudności egzaminu w latach 2010–2013

Rysunek 6.10 przedstawia rozkłady wyników z pierwszego terminu egzaminu maturalnego z języka polskiego na skali egzaminu z roku 2012 oszacowane na podstawie analizy zrównującej (puste słupki) oraz faktycznie uzyskane przez uczniów (pełne słupki) w latach 2010–2013. Okazuje się, że w przypadku matury z języka polskiego mamy do czynienia z odmienną niż dla innych egzaminów zależnością między obserwowanymi wynikami zrównanymi, a faktycznym rozkładem wyników egzaminacyjnych. Mianowicie, matura z języka polskiego jest jedynym egzaminem, dla którego obserwujemy silniejsze zmiany w zakresie średniej, jak i odchylenia standardowego wyników zrównanych do roku referencyjnego, niż fluktuacje analogicznych parametrów między latami dla surowych wyników obserwowanych (dwa ostatnie wykresy – Rysunek 6.10). Taki wynik odpowiada sytuacji, w której przy znacznych zmianach umiejętności uczniów między latami, trudność egzaminów ma względem tych zmian charakter buforujący, tj. populacja uczniów bardziej zdolnych podchodzi do egzaminu trudniejszego (2010, w dalszej kolejności 2011 oraz 2013), a populacja uczniów mniej zdolnych – do egzaminu łatwiejszego (rok 2012).

Rysunek 6.10. Rozkłady wyników obserwowanych z matury podstawowej z języka polskiego w latach 2010–2014. Pełne słupki odnoszą się do niezrównanych wyników egzaminacyjnych, zrównane wyniki przedstawiono za pomocą słupków pustych

Tabela 6.8 pokazuje jak różnice we właściwościach rozkładów egzaminów z matury z języka polskiego w latach 2010–2013 przy zestawieniu z wynikami na wspólnej skali egzaminu z roku 2012 przekładają się na zdawalność tego egzaminu. W tabeli tej przedstawiono jak wyglądała faktyczna zdawalność egzaminu w analizowanych czterech rocznikach uczniów i jakby zdawalność dla tych samych roczników wyglądała, gdyby wszyscy rozwiązywali ten sam test – egzamin referencyjny z roku 2012. Zgodnie z tym, że zrównane do roku 2012 obserwowane wyniki egzaminacyjne podniosły w latach innych niż 2012 średni wynik z egzaminu, w porównaniu do wyniku faktycznie uzyskanego, możemy zaobserwować wzrost zdawalności egzaminu w latach 2010 (z 97,3 do 98,1), 2011 (z 96,8 do 99,2) oraz 2013 (z 97,4% do 99,1%). Egzamin z roku 2010, nawet po wyrażeniu na skali zrównanej do 2012 charakteryzuje się niższą w porównaniu z latami 2011 oraz 2013 zdawalnością, mimo iż średni poziom umiejętności na wspólnej skali w tym roku oszacowano na najwyższy. Dzieje się tak, ponieważ wariancja wyników zrównanych w tym roku jest zdecydowanie wyższa niż dla innych lat. Aneks 1 zawiera tabelę pozwalającą przeliczyć surowy próg zdawalności w roku 2012 na równoważne mu poziomem umiejętności językowych odpowiedniki w innych latach. I tak, próg zdawalności równoważny temu z 2012 roku oszacowano dla roku 2010 przypada w zakresie 17–20 punktów (zamiast 21), dla roku 2011 w zakresie 12–14 punktów (zamiast 21) a w roku 2013 w zakresie 13–15 punktów. Zamiast pojedynczej reprezentacji punktowej progu zdawalności pojawiają się tu zakresy, gdyż wartość na progu zdawalności w roku 2012 (i w każdym innym dla matury z języka polskiego) jest nadreprezentowana względem innych wartości, zwłaszcza tych poniżej progu.

Tabela 6.8. Zdawalność egzaminu maturalnego z języka polskiego wyliczona na niezrównanych wynikach egzaminacyjnych oraz na wynikach wyrażonych na skali egzaminu z roku 2012

Rok egzaminu

Procent uczniów uzyskujących 21 punktów lub więcej niezrównane wyniki

egzaminacyjne

wyniki na skali egzaminu z 2012 roku

2010 97,3% 98,1%

2011 96,8% 99,2%

2012 97,6% 97,6%

2013 97,4% 99,1%

6.5.3. Wyniki w latach 2010–2013 na skali zmiennej ukrytej

Tabela 6.7 przedstawia uzyskane w wyniku bezpośredniego dopasowania do danych wielogrupowego modelu IRT oszacowania parametrów rozkładu umiejętności, zakotwiczone na skali o średniej 0 oraz odchyleniu standardowym 1 w grupie uczniów piszących temat II w roku 2012. Aby wyrazić wyniki zrównania w sposób analogiczny do zestawień dla innych egzaminów, w których wyniki zmiennej ukrytej są zakotwiczone na skali o średniej 100 oraz odchyleniu standardowym 15 w całej populacji uczniów podchodzących do egzaminu, wartości (zob. Tabela 6.7) uśredniono uwzględniając wybieralność tematów w poszczególnych rocznikach, a następnie przekształcono, tak aby uzyskać docelowy rozkład w grupie referencyjnej. Ostateczne wyniki zrównania na skali zmiennej ukrytej dla matury z języka polskiego przedstawia Tabela 6.9, oraz graficznie Rysunek 6.11.

Tabela 6.9. Średnia oraz odchylenie standardowe zmiennej umiejętności dla egzaminu maturalnego z języka polskiego w latach 2010–2013, wyniki zrównane na skali 100; 15 zakotwiczone w roku 2012 Rok egzaminu Średnia ^Błąd standard. 95% przedział ufn. Odch. stand. Błąd standard. 95% przedział ufn.

dolna gr. górna gr. dolna gr. górna gr.

2010 109,1 0,72 107,7 110,5 17,9 0,61 16,7 19,1

2011 105,9 0,45 105,0 106,8 13,5 0,37 12,8 14,2

2012 100,0 0,02 100,0 100,0 15,0 0,02 15,0 15,0

2013 104,0 0,42 103,1 104,8 13,0 0,33 12,3 13,6

Różnice w średnich wynikach umiejętności językowych mierzonych testem maturalnym okazują się na tyle znaczne, że średni poziom umiejętności między wszystkimi analizowanymi rocznikami różni się w

sposób istotny statystycznie, nawet mimo relatywnie dużych błędów standardowych. Największą różnicę obserwujemy między rokiem 2010, ze średnią 109,1 a rokiem referencyjnym 2012. Tak wysokich różnic (rzędu 60% odchylenia standardowego) między populacjami uczniów rozwiązującymi egzamin w różnych latach nie obserwowano dla żadnego innego egzaminu. Jeżeli dodatkowo uwzględnimy wszystkie wcześniej opisane wątpliwości związane z trafnością zrównywania matury z języka polskiego, to należy podejść do uzyskanego rezultatu z dużą ostrożnością. Oprócz różnic w średnim poziomie umiejętności zanotowano istotne statystycznie różnice dla parametru odchylenia standardowego (zob.

Tabela 6.9

). Rozproszenie wyników jest silniejsze w roku 2010 w porównaniu z rokiem referencyjnym, natomiast w latach 2011 oraz 2013 jest niższe niż w 2012.

Rysunek 6.11. Średnie zrównane wyniki dla egzaminu maturalnego z języka polskiego na skali 100;15 wraz z 95% przedziałem ufności

W dokumencie produkty EE (Stron 105-112)