skalowanie wyników - Podziękowania i wkład poszczególnych autorów

Podziękowania i wkład poszczególnych autorów

2.5. skalowanie wyników

W ogólności pomiar jakiejś cechy sprowadza się do przypisania obiektom liczb określających po-ziom, wielkość lub natężenie badanej właściwości. W taki sposób mierzymy na przykład obiekty ze świata fizycznego. Chcąc określić masę jakiś produktów, posługując się wagą, przypisujemy im ilości kilogramów. Dodatkowo możemy powiedzieć, że jeden produkt jest na przykład dwa razy cięższy od drugiego. To powszechne doświadczenie sprawia, że wiele osób zwykło sądzić, że aby zmierzyć poziom cechy ukrytej, jaką jest na przykład umiejętność czytania, wystarczy poszczególnym osobom rozwiązującym test czytania przypisać liczbę zdobytych punktów czy odsetek prawidłowo rozwiąza-nych zadań. W tym przypadku sprawa nie jest jednak taka prosta właśnie z tego powodu, że intere-sująca nas umiejętność nie jest cechą bezpośrednio obserwowalną, jak większość fizycznych właści-wości obiektów. Ponadto tak przypisany wynik będzie uzależniony od rodzaju i liczby zadań w teście, jego trudności itp. Wobec tego, jeśli chcemy mierzyć cechę bezpośrednio nieobserwowalną, musimy wykorzystać jakiś model pomiarowy, który na podstawie obserwowanych danych (rozwiązanych za-dań w teście) ujawni lub potwierdzi strukturę badanej cechy oraz zdefiniuje skalę pomiarową. Dlatego do liczenia wskaźników EWD nie wykorzystuje się surowej sumy punktów czy odsetka poprawnie rozwiązanych zadań, ale wyniki przekształca się na skalę o pożądanych właściwościach.

Modele EWD oparte na regresji liniowej (do których możemy zaliczyć także te stosowane w Polsce) wymagają po pierwsze tego, by wyniki pomiarów wykorzystanych do modelowa-nia miały wystarczająco dużo wartości, by mogły być traktowane w analizach jako zmienna o ciągłym charakterze (OECD, 2008). Ponadto powinny one spełniać założenia o interwałowym charakterze skali, na której są wyrażone (Ballou, 2009; Reardon i Raudenbush, 2009). Drugie z tych założeń oznacza, że wzrost o jedną jednostkę na skali oznacza równoważny przyrost wiadomości i umiejętności w każdym zakresie skali. Jest to bardzo silne i trudne do spełnienia założenie, jednak różne sposoby wyznaczania wyników mogą być mniej lub bardziej narażone na odstępstwa od interwałowego charakteru skali, a tym samym mogą powodować mniejsze

Niektórzy badacze uważają, że wykorzystanie modeli IRT do wyznaczenia wyników zapewnia interwałowy charakter skal, jednak nie jest to założenie niekontrowersyjne (Ballou, 2009; Pokropek, 2013). Podkreśla się, że w szczególności skale powstałe w wyniku zastosowania modelu Rascha i mo-deli jednoparametrycznych mają teoretyczne podstawy co do tego, by mogły być uznane za inter-wałowe. Ważne jest przy tym, by model IRT był dobrze dopasowany do danych. Generalnie należy jednak stwierdzić, że założenie o interwałowym charakterze skali jest dużo mniej problematyczne w odniesieniu do wyników wyskalowanych za pomocą modeli IRT niż w odniesieniu do wyników surowych, wyrażonych w centylach czy przeliczonych na odsetek zdobytych punktów.

Wyniki egzaminacyjne wykorzystywane do wyliczania gimnazjalnych wskaźników EWD są skalowane dwuparametrycznym modelem IRT (oraz modelem SGRM dla zadań punkto-wanych na szerszych skalach). Zadania, które mają bardzo niskie wartości parametru dyskry-minacji (poniżej 0,2), są usuwane z testu⁷ na etapie skalowania i wyliczania wyników, jako że wykazują niewielki związek z mierzoną cechą i podważają założenie o jednowymiarowości testu. Te czynności pozwalają poprawić właściwości skal, na których wyrażane są wyniki eg-zaminacyjne, jednak nie zastąpią przemyślanej procedury tworzenia narzędzi pomiarowych tak, by spełniały one założenia teorii, która powinna być przyjęta z góry. W związku z tym należy poddać weryfikacji jakość powstałych skal pomiarowych. Dokonamy tego, porównując zgodność rozkładów wyskalowanych wyników z rozkładem normalnym, jako że przyjęło się założenie, że właśnie taki rozkład mają umiejętności mierzone testami egzaminacyjnymi (por.:

Pokropek, 2013; Reckase, 2008). Znaczące odstępstwa będziemy uznawać za świadczące na niekorzyść skali pomiarowej, zaprzeczające interwałowemu charakterowi skali.

Formalne testy statystyczne badające odstępstwa od rozkładu normalnego są bardzo czułe na nawet niewielkie odchylenia, jeśli analizy są wykonywane na dużych próbach i dlatego ich wyniki mogą być mało informatywne. Przyjrzyjmy się zatem przedstawionym poniżej wykresom poka-zującym histogramy wyskalowanych wyników wraz z naniesioną krzywą rozkładu normalnego.

Najmniej zastrzeżeń, co do zgodności z rozkładem normalnym, można mieć w przypadku wyników sprawdzianu w 2009 roku. Wyniki egzaminów gimnazjalnych, może za wyjątkiem egzaminu z części humanistycznej i egzaminu z języka polskiego, budzą pewne wątpliwości. W wynikach egzaminów z matematyki i przedmiotów przyrodniczych, a także łącznego wyniku z części matematyczno--przyrodniczej uwidacznia się efekt sufitowy. Dodatkowo rozkłady wyników egzaminów z części matematyczno-przyrodniczej oraz egzaminu z matematyki są delikatnie prawostronnie skośne.

Warto jednak podkreślić fakt, że zaobserwowany wzór zgodności lub jej braku z rozkładem normal-nym nie jest powtarzalny w kolejnych sesjach egzaminacyjnych (np.: Pokropek, 2013).

7 Spośród wszystkich egzaminów wykorzystywanych do wyznaczenia jednorocznych wskaźników EWD za rok 2012 usunięto łącznie trzy zadania. Szczegóły znajdują się w rozdziale 1.

Rysunek 1. Rozkłady wyskalowanych wyników egzaminacyjnych wykorzystywanych do wylicze-nia gimnazjalnych wskaźników ewd (dane z próby badawczej)

Wyniki te sugerują konieczność zachowania większej ostrożności w formułowaniu wnio-sków na podstawie wskaźników dla przedmiotów matematyczno-przyrodniczych z 2012 roku.

Nie są one jednak na tyle duże, by dyskredytowały te oszacowania. Natomiast z punktu wi-dzenia modelowania EWD wysoce pożądane byłoby, by egzaminy zewnętrzne miały bardziej stabilne właściwości w kolejnych latach, a rozkłady ich wyników były jak najbliższe rozkładom

2.6. Podsumowanie

Przedstawione w tym rozdziale analizy wykazały, że egzaminy zewnętrzne wykorzy-stane do konstrukcji gimnazjalnych wskaźników EWD mają wystarczająco dobre właś-ciwości, by mogły stanowić podstawę wyliczania trafnej miary EWD. Rzetelność testów egzaminacyjnych okazała się wystarczająca dla tworzenia miar zagregowanych. Związki z zewnętrznymi kryteriami przemawiają za tym, że niosą one za sobą informację również o skuteczności realizacji szerzej rozumianych celów nauczania. Ponadto, mimo iż spraw-dzian jest testem wiedzy ogólnej, mierzy on na tyle bliski konstrukt co poszczególne czę-ści egzaminu gimnazjalnego, że może być z powodzeniem wykorzystywany w modelach EWD jako miara uczniowskich zasobów „na wejściu”. Skale wykorzystane do konstrukcji gimnazjalnych wskaźników EWD mają wystarczająco dobre właściwości, wykazano jedy-nie drobne odstępstwa od uznanych wzorców.

Jednocześnie warto zaznaczyć, że poprawa pewnych własności polskich egzaminów zewnętrznych mogłaby przyczynić się do zwiększenia jakości wyliczanych wskaźników EWD. Rekomendacje w tym zakresie sprowadzają się do zwiększenia troski o jakość eg-zaminów na etapie ich planowania i konstruowania; wykorzystania w pełni możliwości badań pilotażowych w celu diagnozy zadań niespełniających założeń przyjętego modelu oraz zadań stronniczych, a także dostosowania trudności egzaminów tak, by ich wyniki miały stabilne rozkłady w kolejnych latach, które zgodnie z założeniem o badanej umie-jętności będą zbliżone swoim kształtem do rozkładu normalnego. Ponadto dokumenta-cja podsumowująca proces tworzenia oraz właściwości każdego testu egzaminacyjnego powinna być publicznie dostępna niedługo po zakończonej sesji. Zwyczaj taki ułatwiłby badaczom korzystanie z wyników egzaminacyjnych w celach naukowych, a dla szerszego grona odbiorców mógłby stać się czynnikiem uwiarygodniającym wykorzystywane na-rzędzia. Poprawa testów egzaminacyjnych we wspomnianych zakresach podniosłaby nie tylko jakość wskaźników EWD, ale każdej miary opartej na tych testach: średniego wyniku szkoły, a w szczególności wyników indywidualnych uczniów.

literatura

Anastasi, A. i Urbina, A. (1999). Testy psychologiczne. Warszawa: Pracownia Testów Psychologicznych Polskiego Towarzystwa Psychologicznego.

Ballou, D. (2009). Test Scaling and Value-Added Measurement. Education Finance and Policy, 4(4), 351–383.

Centralna Komisja Egzaminacyjna (2010). Informator o egzaminie gimnazjalnym od roku szkolnego 2011/2012. Warszawa: Centralna Komisja Egzaminacyjna.

Centralna Komisja Egzaminacyjna (2012). Wstępne informacje o wynikach egzaminu

gimnazjalnego w 2012 r. Retrieved August 7, 2013, from http://www.cke.edu.pl/files/file/kom_na_

str_cke.pdf.

Chudowsky, N., Koenig, J. A. i Braun, H. I., (red.) (2010). Getting value out of value-added report of a workshop. Washington: National Academies Press. Pobrano z: http://site.ebrary.com/

id/10370371

De Ayala, R. J. (2009). The theory and practice of item response theory. New York: Guilford Press.

de la Torre, J. i Patz, R. J. (2005). Making the most of what we have: A practical application of multidimensional item theory in test scoring. Journal of educational and Behavioral Statistics, 30, 295–311.

Dolata, R., Jasińska, A. i Modzelewski, M. (2012). Wykorzystanie krajowych egzaminów jako instrumentu polityki oświatowej na przykładzie procesu różnicowania się gimnazjów w dużych miastach. Polityka Społeczna, (Nr tematyczny 1), 41–46.

Grudniewska, M. i Kondratek, B. (2012). Zróżnicowane funkcjonowanie zadań w egzaminach zewnętrznych w zależności od płci na przykładzie części matematyczno-przyrodniczej egzaminu gimnazjalnego. [w:] Niemierko, B. i Szmigel, M. K. (red.), Regionalne i lokalne diagnozy edukacyjne. Grupa Tomami.

Haeberlin, U., Moser, U., Bless, G. (1989). Fragebogen zur Erfassung von Dimensionen der Integration von Schülern (FDI 4–6) – Questionnaire for recording dimensions of integration of pupils. Psychologie in Erziehung und Unterricht: Zeitschrift für Forschung und Praxis, 36(H. 1), 17–26.

Informator z aneksem dla uczniów ze specyficznymi trudnościami w uczeniu się. Sprawdzian w klasie szóstej szkoły podstawowej przeprowadzony od roku szkolnego 2009/2010. (2009).

Warszawa: Centralna Komisja Egzaminacyjna.

Jakubowski, M. i Pokropek, A. (2009). Badając egzaminy: podejście ilościowe w badaniach edukacyjnych. Warszawa: Centralna Komisja Egzaminacyjna.

Jasińska, A. (2010). Pomiar gotowości szkolnej za pomocą skali quasi-obserwacyjnej. [w:]

Niemierko, B., Szmigel, M. K. (red.), Teraźniejszość i przyszłość oceniania szkolnego (s. 415–424).

Kraków: Grupa Tomami.

Kolen, M. J., Brennan, R. L. i Kolen, M. J. (2004). Test equating, scaling, and linking: methods and practices. New York: Springer.

Linn, R. (2008). Measurement issues associated with value-added methods. [w:] Paper prepared for a Workshop Held by the Committee on Value-Added Methodology for Instructional Improvement, Program Evaluation and Educational Accountability. Washington: DC.

Lockwood, J. R., McCaffrey, D. F., Hamilton, L. S., Stecher, B., Le, V.-N. i Martinez, J. F. (2007).

The Sensitivity of Value-Added Teacher Effect Estimates to Different Mathematics Achievement Measures. Journal of Educational Measurement, 44(1), 47–67.

Novick, M. R. i Lewis, C. (1967). Coefficient alpha and the reliability of composite measurements. Psychometrika, 32(1), 1–13.

OECD (2008). Measuring improvements in learning outcomes: best practices to assess the value-added of schools. Paris: OECD.

Pokropek, A. (2011). Matura z języka polskiego. Wybrane problemy psychometryczne. [w:]

Niemierko, B., Szmigel, M. K. (red.), Ewaluacja w edukacji: koncepcje, metody, perspektywy.

Kraków: Grupa Tomami.

Pokropek, A. (2013). Trafność testów egzaminacyjnych. [w:] M. Karwowski (Red.), Ścieżki rozwoju edukacyjnego młodzieży – szkoły pogimnazjalne. Warszawa: Wydawnictwo Instytutu Filozofii i Socjologii PAN.

Pokropek, A. i Żółtak, T. (2012). Nowe modele jednorocznej EWD. [w:] Niemierko, B.

i Szmigel, M. K. (red.), Regionalne i lokalne diagnozy edukacyjne. Grupa Tomami.

Reardon, S. F. i Raudenbush, S. W. (2009). Assumptions of value-added models for estimating school effects. Education Finance and Policy, (4(4)), 492–519.

Reckase, M. (2008). Measurement Issues Associated with Value-Added Methods. [w:] Paper prepared for a Workshop Held by the Committee on Value-Added Methodology for Instructional Improvement, Program Evaluation and Educational Accountability. Washington: DC.

Ryan, R. M. i Deci, E. L. (2000). Intrinsic and Extrinsic Motivations: Classic Definitions and New Directions. Contemporary Educational Psychology, 25(1), 54–67. doi:10.1006/ceps.1999.1020 Sędek, G. (1995). Bezradność intelektualna w szkole. Warszawa: Wydawnictwo Instytutu Psychologii.

Skorupiński, P. M. (2013). Modele trafności pomiaru. [w:] Karwowski, M. (red.), Ścieżki rozwoju edukacyjnego młodzieży – szkoły pogimnazjalne. Warszawa: Wydawnictwo Instytutu Filozofii i Socjologii PAN.

Vansteenkiste, M., Sierens, E., Soenens, B., Luyckx, K. i Lens, W. (2009). Motivational Profiles from a Self-Determination Perspective: The Quality of Motivation Matters. Journal of Educational Psychology, 101(3), 671–688.

W niniejszym rozdziale przedstawione zostaną podstawowe problemy związane z modelo-waniem statystycznym EWD. Na wstępie omówiona zostanie kwestia uwzględniania w modelach służących do wyliczania wskaźników EWD zmiennych kontrolnych. Rozwiązania przyjęte przy konstrukcji polskich wskaźników dla gimnazjów przedstawione zostaną w odniesieniu do roz-wiązań wykorzystywanych w Anglii i USA. W dalszej części rozdziału przedstawiony zostanie do-kładniej sposób wyliczania wskaźników EWD gimnazjów, zarówno jednorocznych jak i trzyletnich.

Omówione zostaną też zmiany, jakie zaszły w tym zakresie od początku projektu.

W dokumencie Trafność metody edukacyjnej wartości dodanej dla gimnazjów (Stron 85-91)