Analizy zawarte w  tej pracy dotyczyły wybranych dwóch narzędzi. Jeden test i  jeden kwestionariusz to zbyt mało, aby stwierdzić, że odkryte właściwości dotyczyć będą większości narzędzi wykorzystywanych w  badaniach psychologicznych. Tym niemniej, jest to obiecujący początek procesu włączania do listy narzędzi badawczych współczesnych psychologów także wersji komputerowych, a  w  szczególności adaptacyjnych. Podejmując próby stworzenia takich wersji należy jednak pamiętać, że w zaprezentowanych wyżej  analizach uzyskano niejednoznaczne wyniki dla poszczególnych parametrów. W  porównaniu do wersji pełnych, dla wersji skróconych uzyskano różne wyniki w  obu narzędziach. Dla pomiaru temperamentu zróżnicowanie wyników skróconego kwestionariusza było mniejsze; z kolei dla testu inteligencji w  wersji skróconej zróżnicowanie wyników było większe. Wciąż otwartym pozostaje pytanie, czy czynnikiem różnicującym jest obszar narzędzia, czy tylko różna forma pozycji testowych i kwestionariuszowych.

Metodologia budowania skróconych wersji narzędzi badawczych w oparciu o IRT jest bardziej skomplikowana, niż za pomocą analizy czynnikowej lub analizy regresji.

Ma jednak ogromną zaletę, ponieważ potrafi określić przydatność poszczególnych pozycji bez względu na ich poziom pomiarowy. Odpowiednie modele matematyczne opisują zarówno pozycje dychotomiczne jak i  wielokategorialne, gdzie te pierwsze są problematyczne w  analizach czynnikowych i  regresyjnych. Tę zaletę można wykorzystać budując wersje skrócone wielu narzędzi badawczych w psychologii, tak jak ma to miejsce np. w psychiatrii (Streiner, 2010; Cooper i Petrides, 2010; Calamia i in., 2011; Khan, Lewis i  Lindenmayer, 2011). Takie wersje narzędzi pozwalają ograniczyć do niezbędnego minimum czas potrzebny na przeprowadzanie badania, dostarczając jednocześnie parametrycznych informacji na temat poziomu badanych cech ukrytych.

Ponadto zastosowanie komputera w  procesie zbierania wyników z  testu lub kwestionariusza pozwala wprowadzić pomiar nowych parametrów, np. czasu odpowiadania na poszczególne pozycje. Dostarcza to informacji o  przebiegu badania w czasie, które można wykorzystać do poprawy jakości danych, szczególnie w testach inteligencji, gdzie np. osoby nierzetelnie wypełniające test robią to istotnie szybciej.

Obszary badawcze wymagające głębszej eksploracji, dotyczą odpowiedzi na pytania o  długość skróconych wersji narzędzi badawczych oraz wielkość prób kalibracyjnych.

Pierwszy przypadek dotyczy tworzenia wersji skróconych. W takim przypadku, gdy nie jest wykorzystywany algorytm adaptacyjny, a  badacz chce tylko uzyskać krótką wersję danego narzędzia, aby skrócić czas potrzebny na badanie, otwarta pozostaje kwestia optymalnej długości narzędzia. Czy odkryta w  zaprezentowanych wcześniej analizach funkcja odwrotna opisywać będzie także inne testy i/lub kwestionariusze, poza użytymi w tej pracy?

Drugie pytaniem wymagające odpowiedzi można sformułować następująco: Czy dla każdej mierzonej cechy optymalna wielkość próby kalibracyjnej będzie wynosiła 275 osób? W  przypadku tej pracy, a  także wspomnianych już opracowań innych badaczy (Chuah, Drasgow i  Luecht, 2006; Ostini i  Nering, 2006) szacunki opierają się na analizach symulacyjnych. Na ile stabilne są te wyniki? Czy zostaną potwierdzone w  badaniach rzeczywistych? Na te pytania należałoby odpowiedzieć, zanim przystąpi się do stosowania IRT w  budowaniu narzędzi w  wersjach skróconych lub adaptacyjnych.

Mimo tych wątpliwości opracowane tutaj skrócone wersje stanowią obiecującą alternatywę dla wersji oryginalnych.

Słownik symboli

1pl – odmiana jednoparametryczna (pozycje różnią się tylko trudnością) modelu dwukategorialnego IRT

1Q – pierwszy kwartyl

2pl – odmiana dwuparametryczna (pozycje różnią się trudnością i mocą dyskryminacyjną) modelu dwukategorialnego IRT

3pl – odmiana trójparametryczna (różnią się trudnością, mocą dyskryminacyjną oraz poziomem zgadywalności) modelu dwukategorialnego IRT

3Q – trzeci kwartyl

4pl – odmiana czwórparametryczna (pozycje różnią się trudnością, mocą

dyskryminacyjną, poziomem zgadywalności i niedbałości) modelu dwukategorialnego IRT

a – moc różnicująca danej pozycji b – poziom trudności pozycji B.D. – brak danych

c – parametr zgadywania

CAT– sposób badania polegający na tym, że osoby uczestniczące w badaniu otrzymują pytania ustalane w oparciu o dotychczasowe odpowiedzi i dobierane tak, aby

zmaksymalizować ilość informacji i z jak najmniejszym błędem dokonać estymacji wartości 𝜃 (Computerized-Adaptive Test)

CI – granice przedziału ufności (Confidence Interval) d – parametr niedbałości

D – stały parametr maksymalizujący dopasowanie krzywej logistycznej do ogiwy df – stopnie swobody (degree of freedom)

DIF – wskaźnik określający na ile osoby o tym samym poziomie 𝜃 uzyskają różne wyniki

w związku z pochodzeniem z różnych grup (Differential Item Functioning) e – podstawa logarytmu naturalnego – stała matematyczna

F – wartość rozkładu F Snedecora

FA – analiza czynnikowa (Factor Analysis)

FIT – sposób przeprowadzania badania polegający na tym, że osoby uczestniczące w badaniu rozwiązują taki sam zestaw pytań (Fixed-Item Test)

GPCM – wielokategorialny uogólniony model punktów częściowych (Generalised Partial Credit Model)

GRM – model IRT klasy odpowiedzi (Graded Response Model) I – informacja, w IRT odwrotność SEM

ICC – krzywe charakterystyczne dla pozycji (Item Characteristic Curve) IRT – teorii odpowiadania na pozycje testu (Item Response Theory) KTT – klasyczny model wyniku prawdziwego lub klasyczna teoria testów

kwestionariusz – narzędzia badawcze, w których odpowiedzi udzielane przez osoby uczestniczące w badaniu wskazują na poziom natężenia badanych cech

LR – stopień podobieństwa (Likelihood Ratio)

MCMC – klasa algorytmów próbkowania z rozkładu prawd

MR – wielokrotna analiza regresji (Multivariate Linear Regression)

OL – sposób prezentacji pozycji testowych z wykorzystaniem komputerów Omnibus – nazwa testu inteligencji

p – poziom istotności

p(Θ) – prawdopodobieństwo posiadania umiejętności, wiedzy itp. na danym poziomie Θ PCM – wielokategorialny jednoparametryczny model IRT

pozycje (testowe, kwestionariuszowe) – elementy w postaci zdań, pytań lub zadań, z których składają się testy lub kwestionariusze

PP – sposób prezentacji pozycji testowych z wykorzystaniem papieru i ołówka

PTS – nazwa kwestionariusza do mierzenia temperamentu (Pavlovian Temperament Survey)

q – odwrotność prawdopodobieństwa p – prawdopodobieństwo nie posiadania umiejętności itp.

RPN – nazwa czynnika w kwestionariuszu PTS - ruchliwość procesów nerwowych RST – teoria losowego doboru próby (Random Sampling Theory)

SAT – sposób badania, w którym procedura dobierania pytań opiera się na wyborze przez osoby uczestniczącej w badaniu poziomu trudności następnej pozycji (Self-Adapted Test)

SD – odchylenie standardowe (Standard Deviation)

SEM – standardowy błąd pomiaru (Standard Error Measurement) SMD – standaryzowana średnia różnica,

SPH – nazwa czynnika w kwestionariuszu PTS - siła procesów hamowania SPP – nazwa czynnika w kwestionariuszu PTS - siła procesów pobudzenia

t – wartość rozkładu t-Studenta

test – narzędzie, za pomocą którego ocenia się poprawność lub jakość odpowiedzi w odniesieniu do pewnego standardu

TS, T, S3ij, Q3, 𝜒²G/D – statystyczne wskaźniki określające jednowymiarowość zmiennej


WP – wynik przeliczony WS – wynik surowy

Z – standaryzowana wartość statystyki testu różnic α – wielkość błędu pierwszego rodzaju

β – wielkość błędu drugiego rodzaju

Θ – zmienna latentna – właściwość, cecha, która nie jest dostępna bezpośredniemu pomiarowi; poprzez wartość cechy latentnej rozumie się tu zarówno natężenie cechy badanej, jak i poziom umiejętności


