Skalowanie wyników pomiaru kognitywnego i szacowanie statystyk

i szacowanie statystyk na podstawie danych PIAAC

Dane surowe uzyskane w badaniu PIAAC charakteryzują się statystycznymi brakami danych, tj. każ-demu respondentowi brakuje informacji pozwalających na bezpośrednie oszacowanie kompetencji z jednej lub dwóch dziedzin. Jednak ten schemat braku danych jest zaplanowany i zgodny z kon-cepcją badania (por. rysunek 3.2., rozdział 3), i mimo że na poziomie próby odsetek osób poddanych testowaniu konkretnej kompetencji jest z góry założony, to na poziomie indywidualnym przydział zadań – a poprzez to brak informacji o respondencie z danego zakresu pomiaru – jest losowy. Ob-serwowane braki danych są więc brakami losowymi (tj. nieskorelowanymi z cechami responden-tów), co pozwala na zastosowanie procedur imputacyjnych do brakujących wartości zmiennych mierzących umiejętności na podstawie pozostałych informacji zebranych w badaniu. Jednocześnie krótszy pomiar kognitywny pozwala na redukcję kosztów badania w odniesieniu do wielkości próby i długości trwania wywiadu, które musiałyby zostać istotnie zwiększone, by zweryfikować wszystkie umiejętności u wszystkich respondentów. Schemat badania z założonymi brakami danych pozwala na uzyskanie szerokiego spektrum informacji o rozkładzie kompetencji w populacji na podstawie wielu rozwiązanych zadań łącznie przez wszystkich respondentów. Odbywa się to jednak kosztem precyzji pomiaru kompetencji poszczególnych osób, który jest celem np. testów szkolnych i gdzie pominięcie pewnych dziedzin i zaimputowanie wyników na podstawie wyników innych uczniów i cech społeczno-demograficznych byłoby nieakceptowalne.

Skalowanie wyników, tj. oszacowanie kompetencji na podstawie rozwiązanych przez responden-tów zadań, wykorzystuje metodologię IRT (teoria odpowiedzi na zadania testowe, item response

theory), która pozwala także na uwzględnienie zróżnicowania właściwości pytań (poziomów

trud-ności i dyskryminacji) i umieszczenie ich na tej samej skali, co umiejęttrud-ności respondentów. Pierwszy etap skalowania to kalibracja parametrów zadań kognitywnych, tj. oszacowanie parametrów okre-ślonych funkcji pozwalających na scharakteryzowanie zadań rozwiązywanych w PIAAC pod kątem ich trudności i mocy dyskryminacji na podstawie odpowiedzi respondentów w badaniu PIAAC, jak również w badaniach ALL i IALS. W tym celu wykorzystano model generalized partial credit (GPCM), pozwalający na modelowanie zadań ocenianych wielopunktowo71, który – w przypadku zadań oce-nianych dwupunktowo – jest równoważny dwuparametrycznemu modelowi logistycznemu (2PL). W kolejnym kroku skalowania uwzględnia się także informacje zebrane w kwestionariuszu osobo-wym, przyjmując założenie, że rozkład umiejętności w populacji jest wielowymiarowym rozkładem normalnym o wartościach średnich, będących funkcjami charakterystyk społeczno-demograficz-nych respondentów i odpowiednio zdefiniowanej macierzy wariancji-kowariancji modelującej za-leżność 3 badanych kompetencji72. Uwzględniając informacje zarówno z kwestionariusza osobo-wego, jak i z pomiaru kognitywnego, szacuje się wielowymiarowy rozkład kompetencji a posteriori, także w przypadku, gdy pomiar danej kompetencji nie został przeprowadzony dla danej osoby73. W tej sytuacji rozkłady a posteriori odzwierciedlają, w możliwie najlepszy sposób, prawdopodobne wartości brakujących danych z punktu widzenia informacji zawartych w zbiorze danych, tj. informa-cji uzyskanych w kwestionariuszu osobowym oraz szacunku pozostałych kompeteninforma-cji.

Wykorzystanie funkcji gęstości w analizach wyników badań kompetencji, podobnie jak włączenie do bazy danych informacji pozwalających użytkownikom odtworzyć cały rozkład a posteriori kom-petencji, wymagałoby zastosowania bardziej skomplikowanych metod statystycznych i rozwiązań informatycznych, i tym samym ograniczałoby docelową grupę badaczy oraz zakres analiz możliwych

71 Zadania oceniane wielopunktowo, to zadania, których punktacja wychodzi poza najprostszy schemat oceniania

poprawnie/niepoprawnie.

72 W procedurze skalowania PIAAC redukuje się dane kwestionariusza osobowego, stosując analizę głównych składowych,

156

Aneks 2. Skalowanie wyników pomiaru kognitywnego i szacowanie statystyk na podstawie danych PIAAC

do przeprowadzenia. Jednocześnie włączenie do bazy danych informacji jedynie o średniej indywi-dualnych rozkładów umiejętności stanowi zagrożenie zbyt dużej koncentracji na wynikach indy-widualnych i nieuwzględnianiu tego, że umiejętności są zmiennymi nieobserwowanymi, których oszacowania punktowe są obarczone stosunkowo dużym błędem. Stąd w wielu badaniach kompe-tencji, w tym i w PIAAC, wykorzystuje się metodologię imputacji wielokrotnej, przypisując każdemu respondentowi 10 możliwych wartości poziomu umiejętności (plausible values), które są wartościa-mi wylosowanywartościa-mi z indywidualnych rozkładów a posteriori. Dlatego analizy wyników powinny być przeprowadzone dla każdej plausible value niezależnie, a ostateczny raportowany wynik powinien stanowić średnią z wyników 10 analiz. Niepewność co do punktowych oszacowań umiejętności jest uwzględniana także przy ocenie wiarygodności otrzymywanych wyników – na ostateczne wartości błędów szacunku kompetencji składa się błąd losowy (wynikający z tego, że PIAAC nie jest bada-niem pełnym, lecz częściowym – wykorzystującym próbę losową) oraz część imputacyjna błędu, wyznaczana w oparciu o zróżnicowanie wyników dla kolejnych plausible values.

Praca z danymi PIAAC

Badanie PIAAC, podobnie jak wiele innych międzynarodowych badań umiejętności (np. PIRLS, TIMSS, PISA, IALS, ALLS, ICCS, SITES, TALIS, TEDS, CIVIC), wymaga od osób pracujących z danymi uwzględnienia specyfiki założeń statystycznych i psychometrycznych badania.

Skomplikowany schemat doboru próby implikuje wykorzystanie metod replikacyjnych do znaczania błędów losowych oszacowań, przy czym dane dla Polski są przystosowane do wy-korzystania metody paired jackknife z 80 wagami replikacyjnymi (oznaczonymi jako zmienne SPFWT1-SPFWT80 w zbiorze danych). Ponadto wykorzystanie w analizach informacji o kompe-tencjach wymaga 10-krotnego przeprowadzenia analizy dla każdej z dostępnej w zbiorze danych plausible value (PVLIT, PVNUM, bądź PVPSL dla odpowiednio rozumienia tekstu, rozumowania matematycznego bądź wykorzystywania TIK) i uśrednienia otrzymanych wyników w celu otrzy-mania ostatecznego szacunku. Błąd standardowy tego szacunku powinien uwzględniać zarów-no błąd losowy, jak i błąd wynikający z zastosowania imputacji przy szacowaniu kompetencji. Ponadto praca ze zmiennymi uzyskanymi na podstawie informacji z kwestionariusza osobowe-go wymaga znajomości treści pytań i ścieżek przejścia oraz uwzględniania przyczyny pozycyj-nych braków dapozycyj-nych (nieistotność pytania dla danego respondenta, tzw. valid skip, odmowa odpowiedzi, odpowiedź nie wiem, bądź informacje są niedostępne lub pozbawione sensu). Materiały pomocnicze do danych PIAAC wraz z bazą danych dla Polski można znaleźć na stronie internetowej IBE pod adresem: http://www.piaac.pl

Instytut Badań Edukacyjnych

ul. Górczewska 8, 01-180 Warszawa | tel. +48 22 241 71 00 | ibe@ibe.edu.pl | www.ibe.edu.pl

Projekt współfinansowany ze środków Unii Europejskiej w ramach Europejskiego Funduszu Społecznego.

Instytut Badań Edukacyjnych

Głównym zadaniem Instytutu jest prowadzenie badań, analiz i prac rozwojowych przydatnych w rozwoju

polityki i praktyki edukacyjnej.

Instytut zatrudnia ponad 150 badaczy zajmujących się edukacją – pedagogów, socjologów,

psycholo-gów, ekonomistów, politologów i przedstawicieli innych dyscyplin naukowych – wybitnych specjalistów

w swoich dziedzinach, o różnorakich doświadczeniach zawodowych, które obejmują oprócz badań

na-ukowych także pracę dydaktyczną, doświadczenie w administracji publicznej czy działalność w

organiza-cjach pozarządowych.

IBE realizuje projekty systemowe: „Opracowanie założeń merytorycznych i instytucjonalnych wdrażania

Krajowych Ram Kwalifikacji oraz Krajowego Rejestru Kwalifikacji dla uczenia się przez całe życie”, „Badanie

jakości i efektywności edukacji oraz instytucjonalizacja zaplecza badawczego”, „Badanie dotyczące rozwoju

metodologii szacowania wskaźnika edukacyjnej wartości dodanej” (EWD), „Badanie uwarunkowań

zróżni-cowania wyników egzaminów zewnętrznych”.

W dokumencie produkty EE (Stron 155-160)