• Nie Znaleziono Wyników

Aneks 1 – procedury statystyczne

W dokumencie produkty EE (Stron 96-99)

Aneks ten zawiera opis procedury uzyskiwania oszacowań umiejętności uczniów oraz sposobu skonstruowania poziomów umie-jętności wykorzystanych w analizach przedstawionych w niniejszym raporcie. Jego zasadniczym celem jest zapewnienie reprodu-kowalności uzyskanych wyników. Nie zawiera on przystępnego opisu zastosowanych metod statystycznych, dociekliwy Czytelnik znajdzie jednak odniesienia do stosownej literatury.

Model i skalowanie

Wyniki testów rozwiązanych przez uczniów zostały wyskalowane z użyciem Item Response Theory (IRT). Dla zadań ocenianych 0/1 zastosowany został dwuparametryczny model logistyczny (2PL), natomiast dla zadań ocenianych na dłuższych skalach (H_96.2, H_79.3) generalized partial credit model (GPCM) (Kondratek i Pokropek, 2013). Użyto metody estymacji Marginal Maximum Likelyhood (MML) (Baker i Kim, 2004). Oszacowania umiejętności uczniów uzyskano za pomocą estymatora expected a’posteriori (EAP) (Kondra-tek i Pokropek, 2013) – w momencie, gdy w żadnej z przeprowadzonych analiz nie polegano na oszacowaniach błędów standardo-wych21, było to rozwiązanie wystarczające.

Prawie wszystkie rozpatrywane skale (historia, chronologia, praca z tekstem, praca z mapą, praca z ikonografią) skalowano niezależnie od siebie. Wyjątek stanowiły skale historia przed 1918 r. oraz historia po 1918 r., które zostały wyskalowane w modelu dwuwymiaro-wym (Hambleton i van der Linden, 1997). Pozwoliło to zbadać, na ile umiejętności uczniów na tych skalach są ze sobą skorelowane. Wszystkie skale estymowane były modelem wielogrupowym z grupami wyznaczanymi przez kombinację klasy i typu szkoły (łącz-nie sześć grup). Rozwiąza(łącz-nie to podyktowane zostało z jednej strony (podział na typ szkoły) skalą rozbieżności rozkładów umiejęt-ności historycznych uczniów w poszczególnych typach szkół, uniemożliwiającą traktowanie ich jako jednej populacji, z drugiej zaś (podział na klasy) możliwością otrzymania explicite jako estymowanego parametru modelu różnicy w średnim populacyjnym po-ziomie umiejętności uczniów pomiędzy pierwszymi a drugimi klasami. W zastosowanych modelach wymuszono inwariancję pa-rametrów zadań pomiędzy grupami, uwolniono natomiast parametry grup (średnie i wariancje, zaś w modelu dwuwymiarowym także kowariancje między wymiarami).

Wyłączywszy skale historia przed 1918 r. oraz historia po 1918 r., parametry zadań zafiksowane zostały na wartościach otrzymanych w toku analiz przeprowadzonych po pierwszej rundzie badania. Dzięki temu uzyskano oszacowania umiejętności uczniów na tej samej skali, którą zastosowano do pomiaru w pierwszej rundzie badania. Tak więc wartość 0 odpowiada średniej umiejętności uczniów na danej skali w pierwszej rundzie badania, a odchylenie standardowe umiejętności uczniów na danej skali w pierwszej rundzie badania wynosi 1.

W związku z niestabilnością obliczeniową modelu dwuwymiarowego zastosowanego dla skal historia przed 1918 r. oraz historia po 1918 r. przy parametrach zadań zafiksowanych na wartościach uzyskanych po pierwszej rundzie badania model ten wyskalowa-ny został ze swobodnie estymowawyskalowa-nymi parametrami zadań (choć z zachowaniem ich inwariancji pomiędzy grupami). W tym wy-padku średnia 0 odpowiada średniej umiejętności uczniów w grupie drugich klas liceów ogólnokształcących na skali historia przed 1918 r., a 1 – odchyleniu standardowemu umiejętności tych uczniów.

Jeśli dana umiejętność mierzona była przez zadania umieszczone w różnych wersjach zeszytów testowych, skalowano łącznie dane ze wszystkich wersji zeszytów (z brakami danych dla zadań, których dany uczeń nie pisał ze względu na to, że wypełniał ze-szyt testowy niezawierający danego zadania) (Kondratek i Pokropek, 2013). Stabilną estymację modelu zapewniało w tym wypad-ku silne kotwiczenie każdej ze skal pomiędzy wersjami zeszytów testowych:

„ skala historia – zeszyty A/B/C – kotwica na 52 zadania (ze 111 w skali); „ skala chronologia – zeszyty A/B/C – kotwica na 23 zadania (z 48 w skali);

„ skala praca z tekstem – zeszyty A/B/C – kotwica na 37 zadań (z 59 w skali); „ skala praca z mapą – zeszyty A/B – kotwica na 13 zadań (z 24 w skali); „ skala praca z ikonografią – zeszyty A/C – kotwica na 15 zadań (z 26 w skali);

„ skale historia przed 1918 r. i historia po 1918 r. – zeszyty A/B/C – kotwica na odpowiednio 44 zadania (z 84 w skali) i 11 (z 30 w ska-li) zadań.

Zastosowanie modeli 2PL i GPCM, a także to, że różni uczniowie pisali różniące się od siebie liczbą i zestawem zadań zeszyty testo-we, powoduje, że nie istnieje proste przekształcenie pomiędzy sumą punktów zdobytych przez ucznia w teście a oszacowaniem jego umiejętności.

Kryteria eliminacji zadań

Nie wszystkie zadania, które znalazły się w zeszytach testowych rozwiązywanych przez uczniów, zostały użyte do skalowania. Speł-nienie dowolnego z niżej wymienionych kryteriów powodowało pominięcie zadania w ostatecznym skalowaniu. Kryteria były roz-patrywane niezależnie przy skalowaniu każdej ze skal.

1. dyskryminacja IRT < 0

Zadania „sprzeczne z testem”, dla których prawdopodobieństwo udzielenia poprawnej odpowiedzi maleje wraz ze wzrostem umiejętności historycznych ucznia.

2. dyskryminacja IRT < 0,5 i zadanie zaniża współczynnik alfa Cronbacha

Zadania o bardzo niskiej dyskryminacji, a więc takie, dla których prawdopodobieństwo udzielenia poprawnej odpowie-dzi nie zmieniało się zauważalnie w zależności od poziomu umiejętności historycznych uczniów. Jednocześnie zadania te musiały obniżać rzetelność przynajmniej jednej wersji zeszytu testowego (A/B/C) mierzoną wg klasycznej teorii testu za pomocą współczynnika alfa Cronbacha.

3. trudność IRT < -2 lub trudność IRT > 2

Zadania o skrajnie wysokiej lub niskiej trudności. W wypadku użycia modeli 2PL i/lub GPCM skrajnie niska trudność ozna-cza najczęściej wysoką podatność zadania na zgadywanie. Większość z tych zadań nie spełniała także kryterium dopaso-wania modelu do danych.

4. Zadania niedopasowane do danych na podstawie statystyki S-X2 (Kang i Chen, 2007; Orlando i Thissen, 2000) przy pozio-mie istotności 0,05.

Z uwagi na ograniczenia używanego oprogramowania statystyka była liczona oddzielnie dla każdej wersji zeszytu testowego (wer-sje A/B/C). Zadanie uznawano za niedopasowane, jeśli wykazywało niedopasowanie w co najmniej połowie wersji zeszytów testo-wych, w których występowało.

Wykresy charakterystyczne zadań

Stosowane w raporcie wykresy charakterystyczne zadań, obrazujące wybieralność odpowiedzi w poszczególnych grupach umie-jętności uczniów, zasadniczo odpowiadają wykresom charakterystycznym zadań stosowanym w ramach KTT. Różnica polega na tym, że w wypadku tego raportu grupy uczniów na osi X wykresów odpowiadają stosowanemu w raporcie podziałowi na pozio-my umiejętności uczniów, które skonstruowano w oparciu o wyniki skalowania IRT (nie zaś np. podziałowi na kwartyle ze względu na sumę punktów uzyskanych w teście). Nie zmienia to jednak w żaden sposób sposobu interpretacji wykresów. Podczas oblicza-nia odsetków uczniów na danym poziomie użyto wag (patrz opis użytych wag).

Skutecznie diagnozujące umiejętności ucznia zadanie ma wykres, w którym grupa uczniów o najniższych umiejętnościach wybie-ra podobnie często każdą z odpowiedzi, natomiast wwybie-raz ze wzrostem poziomu umiejętności uczniów cowybie-raz częściej wybiewybie-rana jest odpowiedź poprawna. W wypadku zadań trudniejszych wzrost ten jest powolny, natomiast w wypadku zadań łatwych – szybki.

Wagi

Podczas analizowania wyników badania zastosowano wagi będące złożeniem:

„ wag analitycznych, pozwalających uwzględnić nadreprezentację w drugiej rundzie badania zasadniczych szkół zawodowych; „ wag poststratyfikacyjnych, doważających rozkład liczby uczniów pomiędzy typy szkół do rozkładu założonego przy

konstru-owaniu próby.

Podstawowym powodem przyjęcia tak prostego schematu ważenia był fakt, że populację badaną określono jako populację ab-solwentów gimnazjów, podczas gdy próba dobierana była na podstawie populacji uczniów szkół ponadgimnazjalnych, a w bada-niu nie gromadzono informacji na temat gimnazjów, do których uczęszczali uczniowie. Co prawda, same populacje absolwentów gimnazjów i uczniów pierwszych klas szkół ponadgimnazjalnych są co do jednostek obserwacji praktycznie tożsame (ze względu na obowiązek szkolny i brak problemów z jego egzekwowaniem w Polsce), ale już cechy gimnazjum i szkoły ponadgimnazjalnej, do której uczęszczał dany uczeń, mogą się od siebie różnić. Co więcej, można się spodziewać, że różnice te nie będą miały lo-sowego charakteru ze względu na poziom umiejętności ucznia (ze względu np. na profilowanie czy wyższą selekcyjność szkół ponadgimnazjalnych). Tak więc:

„ nie doważano do rozkładów brzegowych szkół ponadgimnazjalnych, bowiem populację badaną określono inaczej, a cechy szkół ponadgimnazjalnych nie są tożsame z cechami gimnazjów, do których uczęszczali poszczególni uczniowie;

„ doważanie na podstawie cech szkół ponadgimnazjalnych do rozkładów brzegowych gimnazjów byłoby błędem;

„ brak w badaniu zmiennych opisujących gimnazja, umożliwiających doważanie do rozkładów brzegowych populacji badanej (absolwenci gimnazjów), co uniemożliwia doważanie do rozkładów brzegowych opisujących gimnazja.

Oprogramowanie

W dokumencie produkty EE (Stron 96-99)