spójność mierzonych konstruktów - Podziękowania i wkład poszczególnych autorów

Podziękowania i wkład poszczególnych autorów

2.4. spójność mierzonych konstruktów

Wskaźniki EWD służą ocenie względnego przyrostu umiejętności uczniów w szkołach między dwoma momentami pomiaru: przed rozpoczęciem nauki w danej szkole i w chwi-li jej zakończenia. Skoro mają one dostarczyć informacji na temat relatywnej zmiany pozio-mu umiejętności w tym okresie, oba testy wykorzystywane do pomiaru osiągnięć powin-ny mierzyć ten sam konstrukt (umiejętność). Oczywistym jest, że jeśli chcemy na przykład oszacować względny przyrost umiejętności czytania, powinniśmy porównać poziom tej właśnie umiejętności na początku i na końcu okresu, który nas interesuje. Najlepiej było-by tego dokonać, wykorzystując dokładnie ten sam test. Wtedy mielibyło-byśmy pewność, że w obu punktach czasowych mierzymy dokładnie tę samą umiejętność. Tu pojawia się jed-nak problem niedostosowania trudności testu do badanej populacji. Ta bowiem rozwija swoje umiejętności przez dany okres nauki (np. trzy lata spędzone w gimnazjum), więc test, który był odpowiednio trudny dla uczniów na początku tego okresu, może okazać się za łatwy na jego zakończenie (czego konsekwencją będzie nieprawidłowe oszacowanie wyników uczniów o najwyższym poziomie umiejętności). Rozwiązaniem tego problemu może być skonstruowanie dwóch testów mierzących tę samą umiejętność, ale odpowied-nio różniących się trudnością oraz zastosowanie odpowiednich procedur umożliwiających przedstawienie wyników obu testów na jednej skali pomiarowej (tzw. skali pionowej, patrz np.: Kolen, Brennan i Kolen, 2004). Dzięki temu możliwe jest wyznaczenie bezwzględnego przyrostu umiejętności dla każdego badanego ucznia. Jest to niewątpliwie wartościowa informacja dla celów diagnozy indywidualnej ucznia, daje bowiem możliwość śledzenia tempa rozwoju poszczególnych umiejętności. Jednak z punktu widzenia modelowania EWD nie jest to informacja niezbędna, a nawet nie jest użyteczna.

Większość modeli EWD (w tym także te stosowane w Polsce) nie wymaga, by wy-niki uczniów były wyrażone na tej samej skali, ponieważ wyliczana na ich podstawie wartość dodana mówi o względnym przyroście umiejętności uczniów uczących się w danej szkole w porównaniu do uczniów z innych szkół uwzględnionych w modelu.

Dodatkowo, nawet gdybyśmy dysponowali zrównanymi pionowo wynikami testów, nie zmieniłoby to znacząco sposobu wyliczania wskaźników, dla których najważniejsza jest możliwość odniesień i porównań do pozostałych szkół w populacji (czyli właśnie

miara relatywna). Niemniej niektórzy badacze rozważają znaczenie wyrażenia obu po-miarów na jednej skali dla modelowania wartości dodanej, podkreślając zalety takiego rozwiązania (Chudowsky i in., 2010; Linn, 2008; Reckase, 2008), ale także wskazując na trudności modelowania i wrażliwość modeli na przyjętą metodę konstrukcji skal pio-nowych (Linn, 2008).

Wykorzystanie do modelowania EWD wyników wyrażonych na wspólnej skali ma tę zaletę, że spójność konstruktu jest zapewniona już na etapie tworzenia narzędzi i skal pomiarowych.

Testy, które mają być zrównane pionowo, muszą być skonstruowane na podstawie spójnej kon-cepcji, muszą mierzyć tę samą umiejętność. Dodatkowo analizy statystyczne wykonywane na potrzeby zrównania wyników dają potwierdzenie empiryczne tego, że mamy do czynienia z tą samą cechą ukrytą leżącą u podstaw wyników dwóch pomiarów. Nie dysponując skalą pionową, lub nie planując jej konstruowania, możemy jednak zapewnić spójność konstruktów za pomocą wspólnej koncepcji skal pomiarowych oraz troski na etapie tworzenia narzędzia o dobór takich zadań, które dobrze wskaźnikują badaną umiejętność na danych poziomach nauczania.

W polskim systemie egzaminów zewnętrznych, na etapie planowania i konstruowania testów, nie zakłada się, że wyniki kolejnych egzaminów, do których przystępują ci sami uczniowie, będą wyrażane na wspólnej skali. Egzaminy zewnętrzne nie są także tworzone w celu wyznaczania na ich podstawie wskaźników EWD, więc ich twórcy nie muszą wy-kazywać się troską o zachowanie spójnej koncepcji testów obejmujących kolejne etapy kształcenia. Z punktu widzenia modelowania EWD niesie to za sobą ryzyko rozbieżności między umiejętnościami mierzonymi na egzaminach podsumowujących kolejne etapy kształcenia. Dlatego konieczna jest analiza tego, czy i które egzaminy mogą być wykorzy-stane do wyliczenia wskaźników EWD oraz jakie są tego konsekwencje dla interpretacji wyznaczonych wskaźników.

Im konstrukty mierzone za pomocą dwóch testów wykorzystanych do modelowania EWD będą do siebie bardziej zbliżone, tym EWD będzie miało czytelniejszą interpretację.

Jeśli bowiem będziemy przewidywać poziom umiejętności czytania po zakończeniu na-uki w danej szkole na podstawie uprzedniego poziomu umiejętności czytania, będziemy mogli myśleć o wyznaczonych wskaźnikach EWD jako o mierze względnego przyrostu da-nej umiejętności. Jeśli natomiast przewidywania tego dokonamy na podstawie na przykład informacji na temat inteligencji i statusu społeczno-ekonomicznego rodziny pochodzenia ucznia, wyliczone na podstawie tego wskaźniki EWD będą interpretowane jako miara wy-ników kształcenia zrelatywizowana do szkół, które uczą uczniów o takich samych zasobach (inteligencji i statusie społeczno-ekonomicznym). Wskaźniki te są podobne do siebie w ta-kim sensie, że starają się wytrącić z wyniku końcowego to, co jest niezależne od szkoły:

szkolnych, pozostawiając przede wszystkim tę część, którą możemy przypisać pracy szkoły.

Nie będą one jednak ani tożsame w sensie wyliczonych wartości ani ich interpretacji.

W przypadku gimnazjalnych modeli EWD do wyliczania wszystkich wskaźników wy-korzystuje się tą samą miarę „na wejściu”: wyniki sprawdzianu w klasie szóstej szkoły podstawowej. Jest to test wiedzy ogólnej, mierzący wiadomości i umiejętności z róż-nych przedmiotów: języka polskiego, matematyki i przyrody. Test ten jest za krótki, by umożliwiał stworzenie wystarczająco rzetelnych podskal odpowiadających poszczegól-nym dziedzinom obecposzczegól-nym na egzaminie gimnazjalposzczegól-nym. Ponadto często zdarza się tak, że niektóre jego zadania odwołują się równocześnie do wiedzy z różnych przedmiotów i ich przydział do poszczególnych podskal mógłby być co najmniej problematyczny.

Dlatego jest on wykorzystywany w całości we wszystkich modelach służących do wy-znaczania gimnazjalnych wskaźników EWD. W konsekwencji, wyniki sprawdzianu są trak-towane jako miara zasobów czy potencjału ucznia u progu nauki w gimnazjum. Zasoby te są związane z szansą na dobry wynik na egzaminie gimnazjalnym w dwojaki sposób.

Po pierwsze, na sprawdzian składają się zadania mierzące umiejętności z przedmio-tów obecnych także na egzaminie gimnazjalnym, tak więc jego wynik jest uzależniony częściowo od poziomu umiejętności, będącej przedmiotem zainteresowania z punktu widzenia danego wskaźnika EWD (np. wskaźnika matematyczno-przyrodniczego). Po drugie, wynik sprawdzianu jest nośnikiem informacji o cechach ucznia niezależnych od szkoły, a mających znaczenie dla jego osiągnięć, tak na tym, jak i kolejnych etapach kształcenia (patrz np. rozdziały książki omawiające znaczenie wieku i inteligencji oraz statusu społeczno-ekonomicznego rodziny).

Tak więc dla rozważanego problemu zasadności wykorzystania w wyliczaniu gimnazjal-nych wskaźników EWD wyników sprawdzianu jako miary zasobów na progu nauki w gimna-zjum kluczowe staje się pytanie o to, jak silnie wyniki egzaminu gimnazjalnego są powiązane z wynikami sprawdzianu. Gdyby związki te były bardzo słabe, oznaczałoby to, że wyniki na sprawdzianie w niewielkim stopniu pozwalają przewidywać wynik na egzaminie gimnazjal-nym, a co za tym idzie, nie mogą być wartościową podstawą wyliczania wskaźników EWD.

Im zaobserwowane związki będą silniejsze, tym większa pewność co do tego, że u podstawy wyników obu testów leżą zbliżone konstrukty. W tabeli 3. przedstawiono współczynniki kore-lacji liniowych między oszacowaniami poziomu umiejętności uczniów na sprawdzianie z 2009 roku i egzaminie gimnazjalnym z 2012 roku. Dodatkowo, dla zachowania punktu odniesienia, pokazano korelacje między oszacowaniami poziomu umiejętności dla poszczególnych części egzaminu gimnazjalnego. Korelacje policzone zostały w programie Mplus 7 metodą pseudo maximum likelihood, z uwzględnieniem trójstopniowego schematu doboru próby i nierów-nych prawdopodobieństw doboru.

Tabela 3. korelacje między egzaminami wykorzystywanymi do wyliczania wskaźników ewd

egzamin sPR gmP gm-m gm-P gh gh-P gh-h

sprawdzian (SPR) 1

egzamin gimnazjalny – część

matematyczno-przyrodnicza (GMP) 0,782 1 egzamin gimnazjalny – matematyka

(GM-M) 0,755 0,973 1

egzamin gimnazjalny – przyroda

(GM-P) 0,719 0,885 0,760 1

egzamin gimnazjalny – część

humanistyczna (GH) 0,769 0,776 0,731 0,757 1

egzamin gimnazjalny – język polski

(GH-P) 0,720 0,694 0,658 0,671 0,929 1

egzamin gimnazjalny – historia i WOS

(GH-H) 0,707 0,742 0,695 0,727 0,924 0,725 1

Korelacje między wynikami sprawdzianu a wynikami poszczególnych części egzami-nu gimnazjalnego są wysokie i wynoszą ok. 0,71–0,78. Są one nieco silniejsze dla przed-miotów matematyczno-przyrodniczych niż humanistycznych, jednak różnice są znikome.

Co ciekawe, mimo że sprawdzian jest testem wiedzy ogólnej, korelacje między nim a eg-zaminem gimnazjalnym z części matematyczno-przyrodniczej lub z matematyki są po-dobnej wielkości jak korelacje między egzaminem gimnazjalnym w części matematyczno--przyrodniczej a maturalnym wskaźnikiem matematyczno-przyrodniczym lub maturalnym wskaźnikiem z matematyki, a dla przedmiotów humanistycznych są nawet wyższe niż dla analogicznych par egzaminów wykorzystywanych do wyliczenia maturalnych wskaźników EWD (por.: Pokropek, 2013).

Można jednak przypuszczać, że tak wysokie korelacje między egzaminami, które nie mierzą z założenia dokładnie tych samych umiejętności (sprawdzian mierzy szerszy zakres umiejętności) są konsekwencją tego, że wyniki wszystkich tych testów uwarunkowane są przede wszystkim inteligencją i statusem społeczno-ekonomicznym rodziny ucznia.

W celu zweryfikowania, czy istotnie mamy tu do czynienia wyłącznie z korelacją pozorną policzono korelacje cząstkowe między wynikami egzaminów po wytrąceniu znaczenia inteligencji i wskaźników statusu. Korelacje wyliczono, porównując wartości

współczynni-egzaminu gimnazjalnego przewidywano za pomocą inteligencji i zmiennych opisujących status rodziny ucznia ze współczynnikami determinacji modeli, w których dodatkowo uwzględniono wyniki sprawdzianu. Inteligencja opisywana była wynikiem testu matryc Ravena przeprowadzonego na I etapie badania (sposób konstrukcji wskaźnika został opi-sany w rozdziale poświęconym problemowi wieku i inteligencji dla wyników egzamina-cyjnych i EWD, a wskaźniki statusu społeczno-ekonomicznego rodziny ucznia stanowiły wykształcenie rodziców wyrażone w latach nauki (najwyższe z obojga rodziców lub je-dyne dostępne), międzynarodowy wskaźnik statusu społeczno-ekonomicznego (HISEI), międzynarodowy wskaźnik prestiżu zawodu (SIOPS) i wskaźnik zasobności domu ucz-nia. Wskaźniki te zostały dokładnie scharakteryzowane w rozdziale 5. Wszystkie modele estymowane były w programie Mplus 7 metodą pseudo maximum likelihood, z uwzględ-nieniem trójstopniowego schematu doboru próby i nierównych prawdopodobieństw doboru.

Tabela 4. siła związku poszczególnych części egzaminu gimnazjalnego ze sprawdzianem bez i po wyłączeniu wpływu inteligencji i statusu społeczno-ekonomicznego rodziny ucznia

współczynnik egzamin gimnazjalny

gmP gm-m gm-P gh gh-P gh-h

kwadrat korelacji

ze sprawdzianem 0,598 0,562 0,497 0,574 0,499 0,490

kwadrat korelacji cząstkowej

ze sprawdzianem 0,201 0,184 0,181 0,220 0,194 0,186

Oznaczenia dla egzaminu gimnazjalnego: GMP – część matematyczno-przyrodnicza łącznie, GM-M – matematyka, GM-P – przyroda, GH – część humanistyczna łącznie, GH-P – język polski, GH-H – historia i WOS”

Wyniki analiz wskazują, że blisko dwie trzecie siły związku pomiędzy wynikami sprawdzianu a wynikami poszczególnych części egzaminu gimnazjalnego stanowi za-pośredniczany przez sprawdzian wpływ inteligencji i czynników statusowych. Należy jednak zaznaczyć, że wariancja wspólna dla wyników sprawdzianu i egzaminu gimna-zjalnego, ale niezwiązana z wpływem inteligencji i czynników statusowych stanowi 18–22% wariancji wyników poszczególnych części egzaminu gimnazjalnego, co należy uznać za znaczny odsetek. Twierdzenie, że związki pomiędzy wynikami sprawdzianu i egzaminu gimnazjalnego są w istocie jedynie korelacją pozorną, wynikającą z wpływu inteligencji i statusu na oba wyniki obu tych egzaminów, jest w świetle tych wyników nieuprawnione.

Zaprezentowane w tej części rozdziału wyniki pokazały, że sprawdzian mierzy na tyle bliski konstrukt, co poszczególne części egzaminu gimnazjalnego, że może być z powodzeniem wy-korzystywany w gimnazjalnych modelach EWD jako miara uczniowskich zasobów „na wejściu”.

Dopóki pomiar osiągnięć szkolnych na zakończenie szkoły podstawowej nie zmieni swojej for-my tak, by umożliwiał wyznaczenie wyników dla odpowiadających egzaminowi gimnazjalnemu umiejętności, dopóty jedyną możliwością wyliczania gimnazjalnych wskaźników EWD będzie wykorzystanie wyniku łącznego ze sprawdzianu jako miary zasobów ucznia rozpoczynającego naukę w danej szkole. Powyższe analizy pokazały jednak, że jest to rozwiązanie uzasadnione.

W dokumencie Trafność metody edukacyjnej wartości dodanej dla gimnazjów (Stron 80-85)