• Nie Znaleziono Wyników

Skalowanie wertykalne

W dokumencie produkty EE (Stron 120-128)

6. Wyniki zrównywania

6.8. Skalowanie wertykalne

W niniejszym podrozdziale przedstawiono specyfikę danych zebranych podczas studium zrównującego przez Zespół Analiz Osiągnięć Uczniów, wynikające z niej uzasadnienie wyboru do skalowania modelu podwójnego czynnika (bi-factor model), opis niniejszego modelu oraz wyniki skalowania. O specyfice l tej metody w niniejszym badaniu można przeczytać w podrozdziale 4.10.

Budowę skali pionowej zacznijmy od przedstawienia schematu kotwiczenia zadań mierzących umiejętności z zakresu języka polskiego oraz matematyki. Tabela 6.12 (język polski) i Tabela 6.13 (matematyka) przedstawiają liczbę zadań rozwiązywanych w poszczególnych falach badania zrównującego na etapie sprawdzianu, egzaminu gimnazjalnego oraz maturalnego oraz liczbę zadań kotwiczących pomiędzy sąsiadującymi między sobą etapami.

Tabela 6.12. Schemat kotwiczenia zadań dla języka polskiego w latach 2012–2014

Rok badania Test

Liczba zadań z danego etapu edukacyjnego

Zrównywanie 2012 Zrównywanie 2013 Zrównywanie 2014 Sprawdzian (SP) 66 15 12

Kotwica dla etapów

SP i EG (K1) 6 4 3

Egzamin

gimnazjalny (EG) 32 25 22 Kotwica dla etapów

EG i M (K2) nd nd 5

Matura (M) nd nd 42

nd – w danym zrównaniu nie badano danego etapu edukacyjnego

Schemat kotwiczenia zadań z języka polskiego (zob. Tabela 6.12) pozwala na zbudowanie skali wertykalnej dla dwóch etapów edukacyjnych w przypadku badań zrównujących z roku 2012 i 2013 oraz trzech etapów edukacyjnych dla studium przeprowadzonego w roku 2014. Można zauważyć, że skalowanie wertykalne umiejętności z zakresu języka polskiego opiera się na niewielkiej liczbie zadań kotwiczących (oznaczanych w tabelach jako K1 i K2). Pomiędzy etapami sprawdzianu i egzaminu gimnazjalnego (K1) w roku 2012 można było wyróżnić sześć zadań wspólnych, natomiast w roku 2013 cztery takie zadania. W roku 2014 w schemacie skalowania zastosowano trzy zadania wspólne dla etapu sprawdzianu i egzaminu gimnazjalnego (K1) oraz cztery takie zadania dla etapu egzaminu gimnazjalnego i matury (K2).

Tabela 6.13. Schemat kotwiczenia zadań dla matematyki w latach 2012–2014

Rok badania Test

Liczba zadań z danego etapu edukacyjnego

Zrównywanie 2012 Zrównywanie 2013 Zrównywanie 2014 Sprawdzian (SP) 62 11 15

Kotwica dla etapów

SP i EG (K1) 5 3 4

Egzamin

gimnazjalny (EG) 17 18 25 Kotwica dla etapów

EG i M (K2) nd 15 5

Matura (M) nd 61 33

nd – w danym zrównaniu nie badano danego etapu edukacyjnego

Zastosowana w badaniach zrównujących liczba zadań kotwiczących jest niewielka zarówno podczas pomiaru umiejętności z języka polskiego jak i matematyki. W literaturze (Kolen i Brennan, 2004) wskazuje się, że powinna ona wynosić co najmniej 20% całego testu, ze względu na stabilność oszacowań. Oznacza to, że procedura skalowania wertykalnego w przypadku danych zebranych przez ZAOU może być problematyczna (trzeba pamiętać jednak, że przeprowadzone badania były podporządkowane przede wszystkim zrównywaniu horyzontalnemu).

Biorąc pod uwagę specyficzny schemat kotwiczenia zastosowany w badaniach zrównujących oraz potencjalne obciążenie związane z tradycyjnymi metodami skalowania wertykalnego rozwiązaniem

pozwalającym na bardziej rzetelne oszacowanie skal pionowych może być wykorzystanie modelu podwójnego czynnika (bi-factor model) (Li, 2011; Li i Lissitz, 2012).

Model podwójnego czynnika to model, w którym zakładamy, że struktura kowariancji pomiędzy odpowiedziami udzielonymi przez badanego może być wyjaśniona przez jeden czynnik ogólny, który odzwierciedla wariancję wspólną dla wszystkich pytań/zadań oraz czynniki specyficzne (grupowe), które odzwierciedlają dodatkową wspólną wariancję pomiędzy zbiorami/skupieniami zadań, zazwyczaj tych o podobnej treści (Gibbons i Hedeker, 1992; Reise, 2012; Świst, Skórska i Pokropek, w druku). Czynnik główny ma za zadanie adekwatnie odzwierciedlać związki pomiędzy pozycjami/zadaniami oraz mierzonym konstruktem (np. jakością życia, a w kontekście edukacyjnym np. umiejętnościami matematycznymi), poprzez kontrolę wielowymiarowości związanej z czynnikami specyficznymi (Reise, 2012). Model ten musi spełnić dwa założenia. Po pierwsze każde zadanie musi posiadać niezerowy ładunek na czynniku wspólnym i tylko jeden niezerowy ładunek na czynniku specyficznym. Po drugie, czynniki specyficzne muszą być ortogonalne wobec siebie oraz wobec czynnika głównego (Li, 2011).

Stosując model podwójnego czynnika w kontekście skalowania wertykalnego otrzymujemy wspólną skalę (czynnik główny) dla poszczególnych etapów edukacyjnych, biorąc także pod uwagę czynniki specyficzne odzwierciedlające konkretne, unikalne umiejętności nabywane na poszczególnych etapach edukacyjnych (czynniki specyficzne). Wszystkie zadania z kolejnych etapów edukacyjnych26 ładują czynnik wspólny (odpowiadający ogólnie rozumianym umiejętnościom). Zadania specyficzne dla poszczególnych klas ładują czynniki specyficzne, odwołujące się do specyficznych umiejętności nauczanych na poszczególnych etapach edukacyjnych. Schematy modeli podwójnego czynnika dla dwóch i trzech etapów edukacyjnych przedstawia Rysunek 6.20 oraz Rysunek 6.21.

26 Zadania zostały rozwiązywane przez uczniów tak jak wynika to ze schematu doboru próby oraz planów zrównania.

Rysunek 6.20. Model podwójnego czynnika dla dwóch etapów edukacyjnych27

Model podwójnego czynnika dla dwóch etapów edukacyjnych (zob. Rysunek 6.20) zakłada, że wszystkie zadania mierzące umiejętności z zakresu sprawdzianu (SP), egzaminu gimnazjalnego (EG) oraz zadania kotwiczące (K1) pomiędzy tymi dwoma etapami ładują czynnik główny (oznaczony jako G). Zadania odpowiadające poziomowi szkoły podstawowej (SP) oraz zadania kotwiczące (K1) ładują także czynnik specyficzny SP, natomiast zadania unikalne dla etapu egzaminu gimnazjalnego ładują czynnik specyficzny EG.

27

SP – szkoła podstawowa, K1 – zadania kotwiczące pomiędzy szkołą podstawową, a egzaminem

gimnazjalnym, EG – egzamin gimnazjalny, G – czynnik wspólny (poziom umiejętności)).

Rysunek 6.21. Model podwójnego czynnika dla trzech etapów edukacyjnych28

Jeśli skonstruujemy skalę pionową dla trzech etapów edukacyjnych w modelu podwójnego czynnika (zob. Rysunek 6.21), oznaczać to będzie, że wszystkie typy zadań: mierzące umiejętności z zakresu sprawdzianu (SP), egzaminu gimnazjalnego (EG), matury (M), kotwiczące pomiędzy szkołą podstawową a gimnazjum (K1) oraz gimnazjum a maturą (K2) będą ładować czynnik główny (G). Zadania z poziomu sprawdzianu oraz kotwiczące K1 ładują czynnik specyficzny SP (umiejętności unikalne dla szkoły podstawowej), zadania z poziomu egzaminu gimnazjalnego oraz kotwiczące K2 ładują czynnik specyficzny EG (analogicznie – umiejętności unikalne dla gimnazjum) oraz zadania z poziomu matury – czynnik specyficzny M (czyli odpowiadające specyfice nauczania na ostatnim etapie edukacyjnym).

Wykazano, że modele podwójnego czynnika cechują się lepszą dobrocią dopasowania do danych z różnorakich testów osiągnięć niż modele jednowymiarowe bądź też bardziej złożone modele wielowymiarowe (Gibbons, Bock, Hedeker, Weiss, Segawa i Bhaumik, 2007; Gibbons i Hedeker, 1992; Reise, Morizot i Hays, 2007). Ying Li (2011) wskazuje, że struktura modelu podwójnego czynnika w sposób naturalny oddaje ideę skalowania wertykalnego. Czynnik wspólny może modelować skalę pionową, natomiast czynniki specyficzne mogą modelować przesunięcie się konstruktów.

Do oceny uzyskanych skal pionowych wykorzystane zostały jej dwie własności:

 średni przyrost umiejętności z klasy do klasy/jednego etapu edukacyjnego do drugiego (average grade-to-grade growth), czyli różnica pomiędzy średnimi (lub medianami/wybranymi punktami percentylowymi) dla konkretnych etapów nauczania,

28

SP – szkoła podstawowa, K1 – zadania kotwiczące pomiędzy szkołą podstawową, a egzaminem

gimnazjalnym, EG – egzamin gimnazjalny, K2 – zadania kotwiczące pomiędzy egzaminem gimnazjalnym

a maturalnym, M – egzamin maturalny, G – czynnik wspólny (poziom umiejętności).

 zróżnicowanie przyrostu pomiędzy klasami/etapami edukacyjnymi (grade-to-grade variability), czyli różnica pomiędzy odchyleniami standardowymi (lub innymi miarami zmienności) pomiędzy sąsiadującymi etapami nauczania.

Analizy wykonano w programie Mplus 7.1 (Muthén i Muthén, 1992-2010), z wykorzystaniem estymacji MLR. Poniżej przedstawiono wyniki w podziale na język polski oraz na matematykę. W przypadku rozszerzonej wypowiedzi pisemnej z języka polskiego (matura), część kryteriów jest oceniana na skali posiadającej więcej niż 10 punktów. Mplus nie ma możliwości potraktowania takich zmiennych jako kategorialnych, więc zadania te zostały uznane za mierzone na skali ciągłej.

Podczas interpretacji wyników należy przede wszystkim pamiętać, że nie istnieje żadna interpretowalna jednostka przyrostu umiejętności (Beard, 2008) – dlatego porównanie przyrostu umiejętności matematycznych lub humanistycznych odbywa się wyłącznie pomiędzy kolejnymi falami badania.

6.8.1. Język polski

Przyrost umiejętności humanistycznych mierzono w trzech falach badania. W roku 2012 i 2013 mierzono przyrost pomiędzy poziomem szkoły podstawowej oraz gimnazjum, w roku 2014 dodano pomiar przyrostu umiejętności pomiędzy gimnazjum a szkołami ponadgimnazjalnymi. W roku 2012 i 2013 przyjęto poziom szkoły podstawowej za poziom odniesienia (średnia dla czynnika głównego została ustalona jako 0, wariancja jako 1). W roku 2014, celem łatwiejszych porównań, przyjęto poziom gimnazjum za poziom odniesienia i dla niego ustalono średnią czynnika głównego jako 0, a wariancję jako 1.

Tabela 6.14 oraz Tabela 6.15 przedstawiają wyniki skalowania wertykalnego dla umiejętności humanistycznych29. Tendencja przyrostu oraz zróżnicowania umiejętności wygląda podobnie w roku 2012 i 2013 – umiejętności rosną wraz z przejściem ze szkoły podstawowej do gimnazjum, co jest zgodne z oczekiwaniami. Zróżnicowanie przyrostu umiejętności jest podobne dla roku 2012 i 2013 – większe na trzecim niż na drugim etapie edukacyjnym. Zaobserwowano większy przyrost umiejętności w roku 2012 niż 2013 – należy również zauważyć, że w roku 2013 wariancja czynnika specyficznego dla gimnazjum jest wyższa niż w roku 2012. Oznacza to, że istnieje część wariancji odpowiadająca za specyficzne aspekty umiejętności z języka polskiego, mierzone przez egzamin gimnazjalny. W roku 2012 uzyskano spójną pionową skalę umiejętności – wariancja czynników specyficznych jest niewielka. Rozstrzygnięcie o przyczynie pojawienia się wariancji czynnika specyficznego dla etapu EG w roku 2013 wymagałoby jakościowej analizy treści zeszytów testowych z danego roku oraz porównania jej wyników z analizą treści zeszytów wykorzystanych w roku 2012 (gdzie uzyskano spójną skalę pionową). W roku 2014, zaobserwowano podobne natężenie przyrostu umiejętności pomiędzy gimnazjum a szkołą podstawową, oraz szkołą ponadgimnazjalną a gimnazjum. Należy jednak zauważyć, że zróżnicowanie przyrostu umiejętności pomiędzy gimnazjum a szkołą ponadgimnazjalną drastycznie spada. Świadczy to o tym, że uczniowie stają się na etapie szkół ponadgimnazjalnych coraz bardziej podobni w nabywaniu umiejętności. Dla roku 2014 wariancja czynników specyficznych jest niewielka, tak więc pionowa skala umiejętności jest spójna.

29 Uzyskano następujące miary dopasowania: a) rok 2012: AIC = 250272,409 i BIC = 253455,907 b) rok 2013: AIC = 85456,916 i BIC = 86529,095 c) rok 2014: AIC = 320417,959 i BIC = 328379,872.

Tabela 6.14. Oszacowania średnich oraz wariancji dla przyrostu umiejętności uczniów z języka polskiego dla modelu podwójnego czynnika w latach 2012–2014

Rok

Wariancje czynników specyficznych

Średnie dla czynnika głównego

Wariancja dla czynnika głównego SP EG M I etap ed. II etap ed. III etap ed. I etap ed. II etap ed. III etap ed. 2012 0,10 0,05 nd 0,00 3,98 nd 1,00 1,70 nd 2013 0,02 0,34 nd 0,00 1,09 nd 1,00 1,53 nd 2014 0,02 0,02 0,07 -0,15 0,00 0,13 0,07 1,00 0,07

nd – w danej fali badań zrównujących nie badano tego etapu

Tabela 6.15. Oszacowania średniego przyrostu umiejętności, jego zróżnicowania dla języka polskiego w latach 2012–2014

Rok

Średni przyrost umiejętności (wartość bezwzględna)

Zróżnicowanie umiejętności (wartość bezwzględna)

SP-GIM GIM-MAT SP-GIM GIM-MAT

2012 3,98 nd 0,70 nd

2013 1,09 nd 0,53 nd

2014 0,15 0,13 0,93 0,93

nd – w danej fali badań zrównujących nie badano tego etapu

6.8.2. Matematyka

Przyrost umiejętności matematycznych mierzono również w trzech falach badania. W roku 2012 mierzono przyrost pomiędzy poziomem szkoły podstawowej oraz gimnazjum, w roku 2013 i 2014 również pomiędzy gimnazjum a szkołami ponadgimnazjalnymi. Podobnie, jak dla języka polskiego, w roku 2012 przyjęto poziom szkoły podstawowej za poziom odniesienia, a w roku 2013 i 2014 poziom gimnazjum.

Tabela 6.16 i Tabela 6.17 obrazują wyniki skalowania wertykalnego dla umiejętności matematycznych30. Dla roku 2012 istnieje przyrost umiejętności matematycznych pomiędzy pierwszym i drugim etapem edukacyjnym oraz wzrasta zróżnicowanie umiejętności dla drugiego etapu edukacyjnego. Wariancja czynnika specyficznego dla egzaminu gimnazjalnego jest dosyć znaczna, co oznacza nabywanie specyficznych umiejętności na danym etapie.

W roku 2013 wariancje czynników specyficznych są znaczne dla każdego z analizowanych etapów edukacyjnych (szczególnie w przypadku szkoły podstawowej). Zaobserwowano większy wzrost umiejętności matematycznych pomiędzy szkołą podstawową a gimnazjum, natomiast stosunkowo mniejszy przyrost pomiędzy gimnazjum a liceum.

30

Uzyskano następujące miary dopasowania: a) rok 2012: AIC = 234408,808 i BIC =237256,844 b) rok

2013: AIC = 240554,79 i BIC = 245346,203 c) rok 2014: AIC = 167466,611 i BIC = 170332,675.

W roku 2014 uzyskano spójną pionową skalę umiejętności – wariancja czynników specyficznych jest niewielka. Można zaobserwować przyrost umiejętności pomiędzy szkołą podstawową a gimnazjum oraz mniejszy przyrost umiejętności pomiędzy gimnazjum a szkołą ponadgimnazjalną. Zróżnicowanie poziomu umiejętności rośnie pomiędzy drugim i trzecim etapem edukacyjnym, a następnie maleje (jak we wszystkich analizowanych zrównaniach) między trzecim a czwartym etapem edukacyjnym.

Tabela 6.16. Oszacowania średnich oraz wariancji dla przyrostu umiejętności uczniów z matematyki w przypadku modelu podwójnego czynnika w latach 2012–2014

Rok

Wariancje czynników specyficznych

Średnie dla czynnika głównego

Wariancja dla czynnika głównego SP EG M I etap ed. II etap ed. III etap ed. I etap ed. II etap ed. III etap ed. 2012 0,13 0,53 nd 0,00 0,16 nd 1,00 1,73 nd 2013 1,41 0,27 0,65 -3,51 0,00 1,36 0,53 1,00 0,65 2014 0,00 0,00 0,08 -0,91 0,00 0,34 0,86 1,00 0,75

nd – w danej fali badań zrównujących nie badano tego etapu

Tabela 6.17. Oszacowania średniego przyrostu umiejętności oraz jego zróżnicowania dla matematyki w latach 2012–2014

Rok

średni przyrost umiejętności (wartość bezwzględna)

zróżnicowanie umiejętności (wartość bezwzględna)

SP-GIM GIM-MAT SP-GIM GIM-MAT

2012 0,16 nd 0,73 nd

2013 3,51 1,36 0,47 0,33

2014 0,91 0,34 0,14 0,26

nd – w danej fali badań zrównujących nie badano tego etapu

Można zauważyć, że zróżnicowanie przyrostu umiejętności uczniów między gimnazjum a maturą zmniejsza się we wszystkich analizowanych falach badania. Jest to zgodne z tendencjami obserwowanymi w literaturze – zjawiskiem znanym jako kurczenie się skali (scale shrinkage) (Yen, 1985; Camilli, Yamamoto i Wang, 1993). Prawdopodobnie do szkół ponadgimnazjalnych dostaje się wskutek selekcji zbliżona do siebie poziomem grupa uczniów, natomiast w przypadku gimnazjów i szkół podstawowych, w Polsce obowiązkowych, zróżnicowanie poziomu umiejętności uczniów jest zdecydowanie większe. Podobne wnioski płyną z badań nad zróżnicowaniem międzyszkolnym uczniów, czyli tym w jakim stopniu można przewidywać wynik egzaminacyjny na podstawie tego, jaką szkołę skończył dany uczeń (Dolata, 2012). Wskazuje się, że selekcyjność szkół wzrasta wraz z kolejnymi etapami edukacyjnymi – do gimnazjów uczęszczają uczniowie bardziej podobni do siebie pod względem poziomu umiejętności niż do szkół podstawowych.

Przy interpretacji modeli podwójnego czynnika oraz przedstawionych wyników skalowania wertykalnego należy pamiętać o niewielkiej liczbie zadań kotwiczących, która determinuje jakość uzyskanej skali wertykalnej. Nie należy też zapominać, że brakuje kryteriów pozwalających na ocenę czy przyrost umiejętności uczniów mierzony w danej fali badania jest „duży” czy „mały” – można je porównywać

wyłącznie względem siebie. Można zaobserwować także, że w zależności od fali badania, udało się zbudować mniej lub bardziej spójne skale wertykalne. Należy zauważyć, że wariancja czynników specyficznych potrafi być znaczna. Oznacza to, że na poszczególnych etapach edukacyjnych nabywane są specyficzne aspekty umiejętności matematycznych i w zakresie języka polskiego. Z powyższych powodów model podwójnego czynnika wydaje się być koncepcyjnie dobrym wyborem do analizy tego typu danych. Rozwiązanie to wymaga jednak przeprowadzenia badań symulacyjnych, pozwalających na rozstrzygnięcie o stabilności parametrów uzyskiwanych przy pomocy tej metody (skoro właściwości skal uzyskanych przy pomocy modelu podwójnego czynnika różnią się zarówno pomiędzy przedmiotami jak i falami zrównania). Analizy symulacyjne powinny być szczególnie ważne w przypadku skali pionowej dla języka polskiego (rok 2014), dla której to wyniki wydają się być szczególnie niestabilne. W związku z tym, że w zeszytach zrównujących wykorzystano szereg jakościowo różnych tematów wypracowań z lat poprzednich, mogą one odpowiadać szeregowi jakościowo różnych umiejętności.

W dokumencie produkty EE (Stron 120-128)