• Nie Znaleziono Wyników

PARAMETRY SKALI DWUWAŻONYCH OCEN

Przykład 20. Zasięg, Efekt

€€

e

€€€

e = + + − 〈0; 2〉 [22]

gdzie |+e| – wartość bezwzględna przyrostu, |–e| – wartość bezwzględna spadku, obliczone ze wzoru [21]

Parametr ten określa standardową obwiednię fluktuacji, czyli sumę amplitud z wahań wypowiedzi respondentów. Odzwierciedla to głębokość zachodzących przemian i jest w badanym procesie miarą intensywności oddziaływań przede wszystkim czynników zewnętrznych. W pomiarze dydaktycznym jakości zajęć wartość liczbowa Zasięgu nosi wyraźne piętno siły wpływu nauczyciela. Przy średnim [e] = 0,2 można przyjąć, że [e] > 0,2 jest oddziaływaniem ponadprze-ciętnym, [e] > 0,25 silnym, [e] < 0,2 poniżej przeponadprze-ciętnym, a [e] < 0,15 słabym.

Efekt – dynamika fluktuacji

Do uogólniającego wnioskowania o rezultatach pomiarów dystansowych wykorzystuje się parametr efektywnościowy. Efekt 'Effect [±e] obliczany jest z różnicy pomiędzy modułem przyrostu [+e] i modułem spadku [–e]:

e

€€

€€

e

€€€

e = + − −

± 〈-1; +1〉 [23]

gdzie |+e| – wartość bezwzględna przyrostu, |–e| – wartość bezwzględna spadku, obliczone ze wzoru [21]

Ten najbardziej pożyteczny parametr wyznacza kierunek i skalarną wartość dynamiki przemian zachodzących w badanym procesie. Jest praktyczną miarą jakości splotu wszystkich oddziaływań intencjonalnych i okazjonalnych – tak pozytywnych, jak i negatywnych – ze wskazaniem tych, które dominowały.

W pomiarze dydaktycznym wskaźnik efektu jest wypadkową akceptacji bądź odrzucania zarówno treści, jak i metod stosowanych przez nauczyciela, lecz silnie modyfikowaną przez interakcję zewnętrznych oddziaływań środowiska.

W praktyce na poziomie wyników grup lub klas można przyjąć, że [±e] > 0,15 jest Efektem doskonałym, [±e] > 0,10 bardzo dobrym, a [±e] > 0,05 dobrym.

Przykład 20. Zasięg, Efekt

Przyjmijmy próbę badawczą i zbiory danych (x') oraz (x'') identyczne jak w przykładzie 19.

Wyznaczyć obwiednię i dynamikę fluktuacji ze wzorów [22] i [23].

Wykorzystamy statystyki obliczone w przykładzie 19: [+e] ≈ 0,56 [–e] = -0,375 1° Zasięg [e] = |+e| + |–e | ≈ 0,56 + 0,375 ≈ 0,935

2° Efekt [±e] = |+e| – |–e | ≈ 0,56 – 0,375 ≈ +0,185

Ryc. 41. Tworzenie wektorów wynikowych fluktuacji dla k- grup

Przy wyznaczaniu oraz interpretacji parametrów pochodnych zarówno Fluktuacji jak i Zmiany warto operować na wektorach, a nie na różnicach.

Wprawdzie wyniki różnic dwóch liczb mają także znak plus lub minus, lecz operowanie pojęciem wektorów znacznie lepiej ilustruje zjawiska przemiesz-czania. Przyjąć jednak trzeba jednoznaczne ograniczenie, że są to wektory odwzorowane na jednej osi liczbowej, w pojedynczym wymiarze (w jedno-wymiarowej przestrzeni euklidesowej, a nie na płaszczyźnie). Nie są to więc wektory równoległe, jak mogłoby wynikać z analizy ryciny 41, ilustrującej mechanizm składania, lecz współosiowe, jak na tej samej rycinie już po złożeniu składowych w wektor wynikowy. W takim założeniu suma/różnica wektorów jest równa sumie/różnicy ich wartości skalarnej, a zwrot przy odejmowaniu skierowany jest zgodnie z wektorem o większej długości.

Zarówno Efekt jak i Trend są parametrami liczbowymi niemianowanymi, co oznacza, że nie przedstawiają one żadnych jednostek (nie są ani wagami, ani poziomami ocen). Ich wartości mieszczą się zawsze w przedziale 〈

-

1; +1〉

a indeksowy sposób obliczania upoważnia do podawania wartości w postaci ułamków bądź procentów, po wymnożeniu przez 100%. Właśnie ze względu na takie właściwości stanowią one podstawę do porównywania wyników różnych grup respondentów, w tym również prób pochodzących z różnych populacji. Ponadto obydwa te parametry stanowią bazę do skonstruowania wewnętrznego wyznacznika trafności pomiarowej.

Ślady Wzorce

wahania wypowiedzi ... fluktuacja jako baza analizy indeksowej zmiana a fluktuacja ... różnice statystyk, statystyki z różnic różnice a wektory ... składanie wektorów współosiowych amplitudy fluktuacji ... przyrost i spadek, indeksy przemian obwiednia fluktuacji ... zasięg, siła zewnętrznych oddziaływań dynamika fluktuacji ... efekt, wynikowy wyznacznik przemian

oś fluktuacji

dynamika

0

. . .

+e1

e1

±e1

e1

+e1

+e2

e2

±e2

e2

+e2

+ek

ek

±ek=0

ek

+ek

zasięg fluktuacji [e]

Wyznaczniki jakości pomiarowej

Trudno jest przejrzyście oddzielić rezultaty ewaluacji świadczące o jakości indykatum od empirycznych wyznaczników dobroci samego pomiaru. W obu przypadkach wykorzystuje się zazwyczaj te same zbiory danych. Jeśli celem badań było np. ustalenie poziomu natężenia określonych cech mentalnych, to uzyskane rezultaty są zarówno symptomami tych cech, jak też splotem wielu innych czynników, cech i zjawisk. Zawsze aktualne pozostają pytania:

Czy wyniki odzwierciedlają to, co było celem ewaluacji; czy raczej są efektem tego, że trafiliśmy na niestandardową grupę badawczą? A może rezultaty są w ogóle skutkiem jakiegoś niezamierzonego błędu w zastosowanej metodologii?

W pewnym stopniu wyjaśnia to drugi pomiar tych samych prób badawczych.

I choć niektórych kwestii nie udaje się nigdy rozstrzygnąć, to w interpretacji trzeba podejmować decyzje. Ułatwiają to specjalnie skonstruowane wyznaczniki statystyk kwantyfikacyjnych, znamiennych w obranym modelu skalowania.

 Wyznaczniki jakości pomiarowej – to zbiór strategicznych dla danej skali parametrów kwantyfikacyjnych, weryfikujących z jednej strony prawidłowość empirycznego funkcjonowania idei, na której oparto skalowanie narzędzia, a z drugiej strony – weryfikujących aspekty wynikowe procesu badawczego.

W Skali dwuważonych ocen do oszacowania jakości badań stosuje się wyznaczniki: konkluzyjności, selektywności, trafności i rzetelności pomiaru.

Oczywiście ewaluator, w zależności od potrzeb, może wykorzystać także inne znane statystyki i techniki analizy, bądź ograniczyć się do opisanych poniżej.

Każdy z wyznaczników jakości pomiarowej spełnia kluczową rolę w różnych fazach opracowywania narzędzia skalowanego i przeprowadzania ewaluacji:

 Kwantyfikator selekcyjny konkluzyjności wskaźników – na etapie konstru-owania i weryfikkonstru-owania skali ułatwia podejmowanie decyzji w kwestii doboru do kwestionariusza optymalnych bodźców-stwierdzeń, posiadających zdat-ność do generowania wypowiedzi zróżnicowanych, lecz walencyjnie zgodnych.

 Kwantyfikator selekcyjny istotności różnic – w fazie porównywania grup (np. w eksperymencie) służy do testowania, czy różnice średnich są istotne statystycznie. Ponadto pomaga w ustalaniu liczebności prób wystarczających do uzyskania z góry założonej precyzji pomiaru i rozdzielczości wyników.

 Kwantyfikator kumulacyjny trafności wyników – podczas interpretowania trendów i efektów ewaluacji wspiera formułowanie wniosków uogólniających i orzekanie co do wiarygodności parametrów odzwierciedlających zachodzące przemiany. Służy do porównania wyników obliczonych dwiema metodami.

 Kwantyfikator buforowy rzetelności skali – po upowszechnieniu wyników umożliwia porównywanie z innymi badaniami, na odmiennych populacjach, w różnych środowiskach, za pomocą innych skal i wobec innego indykatum.

Ponadto może wspierać procesy ekstrakcji zmiennych i optymalizacji skali.

Konkluzyjność – siła wnioskowania

Strategicznym wyznacznikiem mocy wnioskotwórczej wskaźników oraz kwantyfikatorem doboru bodźców-stwierdzeń jest standaryzowany parametr Konkluzyjności 'Conclusiveness [č], będący zestawieniem rozrzutu z rozziewem:

Xmax

Od średniej dyspersji odejmowane są wartości odzwierciedlające to, jak silna jest opozycja wyrażająca opinie przeciwne poglądom kwalifikowanej większości.

Z jednej strony większa zgodność daje solidniejsze podstawy do stwierdzenia, że mamy rzeczywiście do czynienia z uformowanymi już standardami, lecz z drugiej strony nie może to być zgodność całkowita, gdyż wówczas zbędna byłaby ewaluacja. Strategią osiągania konkluzyjności badań za pomocą skal dwuważonych jest uzyskanie optymalnego kompromisu pomiędzy zgodnością (mały rozziew) i jednocześnie konieczną niejednomyślnością (duża dyspersja).

Moc wnioskotwórcza ma źródło w tym, że respondenci potwierdzają istnienie symptomów wartości tam, gdzie ona wcale nie jest oczywista i jednoznaczna.

Zerowa wartość wyznacznika [č] świadczy o braku podstaw do wniosko-wania, a ujemna – o konieczności wyeliminowania bodźca-stwierdzenia przy weryfikacji skali. Wartość [č] > 0,5 oznacza prawidłowość wyjustowania oznak, dopasowanie próbkowania do aktualnej rozpiętości symptomów indykatum i osadzenie semantyki stwierdzeń w strefach zgodnych ze standardami ewa-luatywnymi. Konkluzyjność w pewnym stopniu maleje przy dużej skośności rozkładu, jednak spadek jest znaczący tylko wtedy, gdy skośność pojawia się w obu pomiarach. Jeśli natomiast choćby jeden z rozkładów 'przed' lub 'po' jest w miarę symetryczny, to skośność drugiego praktycznie nie ma znaczenia.

Przykład 21. Konkluzyjność

Przyjmijmy zbiory danych identyczne jak w przykładzie 13 oraz statystyki obliczone wcześniej.

1 -2 2 3 2 0 2 2 -1 1 2 1 0 3 2 -3 -1 0 2 3 -2 2 -1 1 3 0 1 2 3 2 2 0 3 3 2 2 3 3 2 2 2 3 2 3 2 0 1 2 3 2 1 2 1 2 2 1 2 3 3 1 Obliczyć konkluzyjność wskaźnika wg wzoru [24], wykorzystując wyniki z przykładów 5, 11, 13, 15.

[d'] = 3,33 [d''] = 1,73 [–b'] = -0,67 [–b''] = 0 [s'] = -0,225 [–d''] = -1,0 [+d''] = 0,73 1° Druga miara skośności: [s''] = (|+d''| – |–d''|) / d'' ≈ (0,73 1,0) / 1,73 ≈ -0,156

2° Konkluzyjność [č] ≈ {(3,33+1,73)/2 – |-0,67| – |0| – |-0,225|·|-0,156|} /3 ≈ 0,61

Selektywność – istotność różnicowania

Porównywanie średnich rezultatów dwóch prób badawczych daje wprost odpowiedź, która z grup lub klas uzyskała lepszy wynik w ujęciu matema-tycznym. Jednak w podejściu statystycznym warto sprawdzić, czy różnice są na tyle duże, iż ewentualny błąd pomiaru lub estymacji nie podważy pewności co do zróżnicowania. Mierzymy bowiem tylko wybraną próbę respondentów, a ponadto zakładamy, że to średnia arytmetyczna wyników jednostkowych jest najlepszym oszacowaniem poszukiwanego wyniku ogólnego. A przecież wartość przeciętna ze splotu cech mentalnych wcale nie musi być idealnym wyznacznikiem wypadkowej jakości cech. Z tego powodu zakłada się pewien (w miarę niski) próg prawdopodobieństwa popełnienia błędu nie większego niż α (np. 1%, 5% lub 10%) i przy takim warunku przeprowadza test selektywności.

Dla poziomu istotności [α] wzór na Selektywność 'Selectivity [š] ma postać:

( )

Selek-tywności, równym sumie odpowiednich przedziałów ufności realnej (ryc. 42).

Jeśli różnice średnich są większe od [š], to stwierdzamy istotność różnic z pew-nością 100% - α. W przeciwnym wypadku zróżnicowanie nie jest wiarygodne i trzeba przyjąć inny poziom istotności, zmieniając wartość współczynnika U(α)45. Wzór [25] ulega uproszczeniu w sytuacji,

gdy porównywane są dwie średnie z obu pomiarów 'przed' i 'po' tej samej grupy.

Po przekształceniu można też obliczać [n]

jako liczebności prób konieczne do uzys-kania z góry założonej selektywności.

Przykład 22. Selektywność

Przyjmijmy próbę badawczą n = 30 i zbiory danych identyczne jak w przykładzie 13.

Zbadać istotność różnic średnich wg wzoru [24], wykorzystując wyniki z przykładów 5 i 13.

n' = n'' = 30 Q' = 1 < Q'' = 2 [+d'] = 1,29 [–d''] = -1,0 poziom istotności α = 5%

Ryc. 42. Selektywność – oszacowanie istotności różnic pomiędzy średnimi

Trafność – słuszność wnioskowania

Wyznacznikiem weryfikacji jakości pomiarowej jest Trafność 'Aptness [â]:

( ) ( )

t €€ e €

€

€€1

†= − ± − ± → 1 [26]

gdzie ±t – trend obliczony ze wzoru [19] jako parametr analizy różnicowej

±e – efekt obliczony ze wzoru [23] jako parametr analizy indeksowej

Parametr ten jest zestawieniem Trendu, wyznaczonego za pomocą różnicowej analizy zmian, z Efektem ustalonym za pomocą indeksowej analizy fluktuacji.

Na podstawie zgodności lub niezgodności obu tych miar, obliczonych dwiema różnymi metodami, orzeka się o stopniu wiarygodności wyników odzwiercie-dlających zachodzące przemiany. Należy przy tym pamiętać, że Trafność jest kwantyfikatorem kumulacyjnym, a więc jego wyznaczanie i interpretowanie odnosi się tylko do wyższych poziomów zmiennych zagregowanych, a więc co najmniej do czynników, a głównie do wyników połówkowych i ogólnych. W po-niższym przykładzie zróbmy odstępstwo, obliczając trafność wskaźników.

Przykład 23. Trafność

Przyjmijmy próbę badawczą i zbiory danych identyczne jak w przykładzie 13.

Wyznaczyć trafność pomiaru wg wzoru [24], wykorzystując obliczenia z przykładów 17 i 20.

Trend [±t] ≈ +0,516 Efekt [±e] ≈ +0,185

Trafność: [â] = 1 – |(±t) – (±e)| ≈ 1 – |0,516 – 0,185| ≈ 0,67

Zgodnie z przewidywaniem, obliczona trafność wskaźników jest bardzo niska.

Potwierdza to konieczność budowania skal pomiarowych złożonych z wielu wskaźników. W ewaluacji InfoKultury za pomocą skali 24-pozycyjnej parametry trafności wyników grup osiągały średnio >0,96 a czynników >0,95 (tj. α <5%).

Q'' –c''

+c' +c'

–c''

Q''

różnica nieistotna statystycznie różnica istotna statystycznie Q'

Q'

dla Q'' > Q' [ š] = |+c'| + |–c''|

Rzetelność – zróżnicowanie wewnątrzspójne

Skala cech mentalnych powinna wyraźnie wskazywać, że badane osoby są na znacznie różniących się poziomach, jednak u konkretnej osoby oznaki mierzonej cechy powinny być spójne i oscylować wokół poziomu charaktery-zującego cechę osobniczą. Pierwszą z tak zdefiniowanych właściwości skali winna być rozdzielczość, czyli zdolność do różnicowania natężeń indykatum, podobna interpretacyjnie do mocy dyskryminacyjnej w skali Likerta. Drugą – koherentność, oznaczająca zdolność do wydobywania spójnych wskaźników i uogólniania koincydentnych oznak tej cechy, jaką chcemy badać, podobna interpretacyjnie do miar trafności wewnętrznej skal. W przekroju przez przy-padki o liczebności [n] „rzetelna” skala ujawnia duże zróżnicowania wypowiedzi respondentów wobec pojedynczego wskaźnika (kolumny macierzy na ryc. 43), natomiast w przekroju przez wskaźniki zmiennych – możliwie największą zgodność wypowiedzi każdego indywidualnie respondenta (wiersz macierzy).

Koherentność – spójność p zmiennych

5 4 5 5 . . . 4 3 3 4 3 . . . 3 1 2 2 1 . . . 1 4 4 3 2 . . . 3 . . . . . . . . . . . . . . . . . . Rozdzielczość – zróżnicowanie cech n przypadków

2 2 1 1 . . . 2

Ryc. 43. Rozdzielczość i koherentność macierzy wskaźników

Obie te właściwości ujmuje parametr o nazwie Rzetelność 'Reliability [ř], przy czym komponent zróżnicowania cech znajduje się w mianowniku wzoru:



gdzie Xjk – waga wypowiedzi j-tego respondenta wobec k-tego wskaźnika n – liczebność ogółu respondentów, p – liczba wskaźników w skali

Jest to wiernie odwzorowany współczynnik rzetelności alfa Cronbacha, zale-cany jako buforowy wyznacznik jakości, porównawczy dla różnych pomiarów.

Świadczyć może o wiarygodności oznak i o prawidłowym doborze wskaźników rzeczywiście tej samej cechy, lecz mierzonej u zróżnicowanych respondentów.

Przykład 24. Rzetelność

Jako ilustrację sposobu obliczania współczynnika rzetelności przedstawię zasadę wykorzystania do tego celu arkusza kalkulacyjnego. Dla przejrzystości tabeli przyjmijmy małą liczebnie próbę n=5 i tylko p=5 pozycji skali. Nie ma to wpływu na samą procedurę obliczania, a w arkuszu liczba kolumn i wierszy może być powiększona stosownie do potrzeb. Wykorzystamy dane z ryciny 43.

Zacznijmy od uproszczenia formuły zapisu wzoru, przypisując każdej sumie ∑ dużą literę od A do F.

W takiej postaci trzeba jednak pamiętać, że litery przed nawiasem C( B( F( E( nie oznaczają mnożenia.

Pozostawmy wolny pierwszy wiersz arkusza na ewentualne opisanie kolumn oraz lewą kolumnę (boczek) na późniejsze opisanie zawartości wierszy:

A B C D E F G H

1° Wypełnijmy 25 komórek o adresach B2 ÷ F6 wartościami przykładowych danych X (jak wyżej).

2° W komórce B7 wstawmy formułę obliczania średniej A =ŚREDNIA(B2:B6) 3° Chwyćmy myszą za prawy dolny narożnik komórki B7 i przeciągnijmy formułę poziomo do F7.

4° W komórce B8 wprowadźmy formułę =(B2-B$7)^2 i przeciągnijmy formułę poziomo do F8.

5° Zaznaczmy komórkę B8, chwyćmy myszą dolny narożnik i przeciągnijmy formułę w dół do F12.

6° Powtórzmy to powielanie formuł dla kolumn C, D, E i F (adresy formuł aktualizują się same).

7° W komórce B13 wstawmy formułę obliczania sumy B =SUMA(B8:B12) 8° Chwyćmy myszą narożnik komórki B13 i przeciągnijmy formułę poziomo do F13.

9° W komórce G13 wstawmy formułę obliczania sumy C =SUMA(B13:F13) 10° W komórce G2 wstawmy formułę obliczania sumy D =SUMA(B2:F2) 11° Chwyćmy myszą narożnik komórki G2 i przeciągnijmy formułę w dół do G6.

12° W komórce G7 wstawmy formułę obliczania średniej E =ŚREDNIA(G2:G6)

Bardzo wysoki wynik [ř] ≈ 0,96 z przykładu 24. jest skutkiem tego, że celowo dobrałem dane tak, aby zilustrować ideę rzetelności. Sprawdźmy zatem, czy uzyskamy oznakę nierzetelności po zamianie wierszy i kolumn w macierzy:

Powiązane dokumenty