Wymogi psychometryczne dla narzędzi badawczych

3. Adaptacja kulturowa narzędzi badawczych

3.5. Wymogi psychometryczne dla narzędzi badawczych

Brzeziński podaje, że „kryteriami dobroci testu są: trafność (zwłaszcza trafność teoretyczna), rzetelność, błąd standardowy (SEM), korelacja pozycji z wynikiem ogólnym (jednolitość)” [5].

Trafność

W standardach dla testów stosowanych w psychologii i pedagogice czytamy: „Trafność jest najbardziej podstawową kategorią w procesie tworzenia i oceny testu. Pojęcie trafności odnosi się do stopnia, w jakim dane empiryczne oraz teoria uzasadniają interpretację wyników testowych w zakładanym kierunku. Proces walidacji obejmuje ciągłe zbieranie danych w celu dostarczenia mocnych podstaw naukowych proponowanej interpretacji wyników testowych. Procesowi temu podlega zatem kierunek interpretacji wyników testowych, a nie test jako taki.” [2].

Źródła danych do oceny trafności [5, 14, 26-28]:

 dane, których źródłem jest treść testu – analiza związku między zdefiniowanym konstruktem, który ma być zmierzony, a treścią testu;

 dane oparte na analizie procesu udzielania odpowiedzi;

 dane wynikające z analizy struktury wewnętrznej testu;

 dane oparte na analizie związków z innymi zmiennymi: dane zbieżne i różnicowe, związek między testem a kryterium;

 dane oparte na konsekwencjach testowania.

Dane pochodzące z różnych źródeł mogą potwierdzać różne aspekty trafności (aspekt zbieżnościowy i różnicujący), ale nie reprezentują różnych rodzajów trafności. Trafność jest pojęciem spójnym. Jest to stopień, w jakim różne kumulujące się dane potwierdzają zamierzoną interpretację wyników testowych. Tradycyjnie się wyróżnia [26-28]:

 trafność kryterialną (diagnostyczną i prognostyczną – criterion validity: concurrent validity, predictive validity) – tradycyjnie określaną na podstawie korelacji wyników nowego testu z jakimś kryterium zewnętrznym (najlepiej nietestowym) lub tzw. złotym standardem.

 trafność treściową (wewnętrzną – content validity) – ustalenie jej wymaga precyzyjnego zdefiniowania konstruktu, wykazania, że pozycje testu stanowią reprezentatywną dla niego próbę. Inne możliwe metody ustalania trafności treściowej to: porównywanie pomiaru z obowiązującymi standardami, założeniami teoretycznymi, wywiady z potencjalnymi osobami badanymi.

 trafność teoretyczną (construct validity) – polega na wykazaniu związku narzędzia badawczego z konstruktem teoretycznym. Trafność teoretyczna jest też rozumiana jako wypadkowa trafności kryterialnej i trafności treściowej. Cronbach i Meehl (1955) zaproponowali 5 sposobów ustalania trafności teoretycznej [14]:

o analiza różnic międzygrupowych – jeżeli na podstawie danych z wcześniejszych badań lub naszego rozumienia konstruktu można oczekiwać, że pewne grupy badanych będą uzyskiwały różne wyniki w teście, można to bezpośrednio zbadać;

o analiza macierzy korelacji i analiza czynnikowa – jeżeli dwa testy mierzą ten sam konstrukt, można oczekiwać korelacji między nimi,

44 a analiza czynnikowa może być bezpośrednio stosowana do testowania hipotez na temat konstruktów;

o analiza struktury wewnętrznej testu – zgodność wewnętrzną testu opisują korelacje poszczególnych pozycji testu z wynikiem ogólnym testu oraz niektóre współczynniki rzetelności;

o analiza zmian nieprzypadkowych testu – stabilność wyników testowych („rzetelność retestowa”) może być odpowiednia do określenia trafności teoretycznej. To, w jaki sposób stabilność wyników wpływa na trafność testu, zależy od teorii definiującej konstrukt;

o analiza procesu rozwiązywania testu. Jest to nieformalna metoda sprawdzania trafności testu, polega na obserwacji procesu odpowiadania na pozycje testu. Wynik testu może zależeć od błędnego odczytania zadania, niezrozumienia polecenia, braku czasu.

Rzetelność

Rzetelność (reliability) oznacza stałość pomiarów, gdy procedura badania testem jest powtarzana dla jednostek lub dla grup badanych osób [2]. Metody badania rzetelności testu [5, 14, 26-28] są następujące:

 metoda powtórnego testowania (test-retest reliability) polega na dwukrotnym przebadaniu tej samej grupy osób tym samym narzędziem pomiarowym. Oszacowaniem współczynnika rzetelności w tym przypadku jest współczynnik korelacji między dwoma zbiorami wyników. Słabym punktem tej metody jest czas występujący między dwoma badaniami. Osoba wypełniająca kwestionariusz może zapamiętać pytania i za drugim razem udzielić takich samych odpowiedzi, podnosząc tym samym współczynnik korelacji, co powoduje przeszacowanie współczynnika rzetelności (otrzymanie większej wartości). Możliwa jest również sytuacja odwrotna w przypadku wydłużenia odstępu czasowego między badaniami;

 metoda form równoległych (parallel – forms reliability) polega na równoległym badaniu dwoma równoległymi narzędziami pomiarowymi, za

45 pomocą których dokonuje się pomiaru tej samej grupy osób. Oszacowaniem współczynnika rzetelności jest współczynnik korelacji między otrzymanymi za pomocą obu narzędzi wyników;

 metoda połówkowa (odd-even reliability) polega na podziale testu na dwie lub więcej części i traktowaniu ich jako niezależne skale (narzędzia badawcze). Oszacowaniem rzetelności całego testu jest współczynnik Spearmana-Browna, wykorzystujący współczynniki korelacji obliczane dla każdej części skali oddzielnie, które są traktowane jako ocena rzetelności pomiarów dla połówek kwestionariusza – tzw. współczynnik równoważności połówkowej. Wadą tej metody jest otrzymywanie większego współczynnika rzetelności dla dłuższych kwestionariuszy, co oznacza, że zwiększając liczbę pytań, zawsze otrzymamy wyższy współczynnik rzetelności. Zwiększona liczba pytań może zniechęcić jednocześnie respondenta do udzielania odpowiedzi, co zmniejszy rzetelność narzędzia pomiarowego. Ponadto podział na grupy należy tak przeprowadzić, by każda z części zawierała pozycje testowe najbardziej podobne do siebie pod względem treściowym i statystycznym;

 metoda zgodności wewnętrznej (internal consistency reliability) stosuje się do oceny rzetelności kwestionariuszy złożonych z różnych serii pytań o dychotomizowanych wynikach. Oszacowaniem współczynnika rzetelności testu jest wzór Kudera-Richardsona;

 wzór Cronbacha Alfa (Cronbach’s Alfa) jest uogólnieniem metody połówkowej i równocześnie uogólnieniem wzoru Kudera-Richardsona. Według tego wzoru współczynnik oceniający rzetelność kwestionariusza jest średnią ze wszystkich współczynników równoważności połówkowej. Główną zaletą tego współczynnika jest możliwość oceny rzetelności kwestionariuszy złożonych z pytań o dowolnej liczbie kategorii odpowiedzi.

W dokumencie Zastosowanie polskiej wersji skali zadowolenia z pielęgnacji Newcastle do oceny opieki pielęgniarskiej (Stron 42-46)