• Nie Znaleziono Wyników

PARAMETRY SKALI DWUWAŻONYCH OCEN

Przykład 6. Odchylenie standardowe

Przyjmijmy wagi (x) takie same jak w przykładzie 5, uzyskane przez 30 studentów:

1 -2 2 3 2 0 2 2 -1 1 2 1 0 3 2 -3 -1 0 2 3 -2 2 -1 1 3 0 1 2 3 2 Obliczyć odchylenie standardowe według klasycznego wzoru [5].

Kroki liczenia: 1° Suma Σx = 30 2° Średnia jakość Q = Σx/n = 30/30 = 1 3° Różnice (x – Q):

0 -3 1 2 1 -1 1 1 -2 0 1 0 -1 2 1 -4 -2 -1 1 2 -3 1 -2 0 2 -1 0 1 2 1 4° Każdą z różnic Y, powstałą z odjęcia (x – 1), należy podnieść do kwadratu, otrzymując:

0 9 1 4 1 1 1 1 4 0 1 0 1 4 1 16 4 1 1 4 9 1 4 0 4 1 0 1 4 1 5° Suma ΣY2 = 80 6° Wariancja ΣY2/n = 80/30 ≈ 2,67 7° Odchylenie σ ≈ √2,67 ≈ 1,63

Warto zwrócić uwagę na fakt, że wprawdzie przewija się tu pojęcie wariancji, lecz statystyka ta nie ma większego zastosowania w skalach dwuważonych, gdyż przy jej liczeniu traci się informacje dotyczące asymetrii rozkładu.

Rozrzut – dyspersja oznak

Często zamiennie ze słowem odchylenie używa się nazwy rozrzut. Jest to niepoprawne, gdyż odchylenie (dewiacja) to średniokwadratowa odległość od środka, natomiast rozrzut (dyspersja) to standardowy zakres rozpostarcia.

Wyznaczanie dewiacji względem średniej jest istotą momentów centralnych, a wytyczanie dyspersji jest domeną niezwiązanych momentów absolutnych.

Ryc. 27. Realne miary dewiacji i dyspersji rozkładu empirycznego

W skalach dwuważonych trzymajmy się interpretacji następującej:

- Odchylenia realne – to dwie statystyki odstępstwa przypadków od średniej, tworzone ze średnich kwadratowych odległości od pozycji centralnej.

- Rozrzut – to statystyka zakresu rozproszenia przypadków, utworzona z obu odchyleń i wytyczająca większościowo kwalifikowany obszar dyspersji.

- Rozstęp – to całkowita rozpiętości pomiędzy dwoma skrajnymi przypadkami.

realne odchylenie ujemne –d

realne odchylenie dodatnie +d średnia

kres górny

skali

Qmax kres

dolny skali

Qmin Q

≈68%

respondentów (≈16%)

(≈16%)

rozrzut

Zgodnie z przyjętą konwencją rozróżniania dewiacji od dyspersji, zde-finiujmy Rozrzut 'Dispersion [d] jako sumę modułów obu odchyleń realnych:

d

€€

€€

d

€€€

€€

d = − + + d≠0 [6]

gdzie |–d|, |+d| – wartości bezwzględne odchyleń realnych ze wzoru [4]

Parametr ten stanowi odniesienie standaryzacyjne dla innych miar, występuje wówczas w mianowniku wzorów. Przyjmuje się zatem założenie, że Rozrzut musi być większy od zera. Z tego powodu trzeba sprawdzać to, czy w jakiej-kolwiek badanej próbie, wobec dowolnego bodźca-stwierdzenia nie ma przy-padkiem całkowitej jednomyślności wypowiedzi (zły wskaźnik). Optymalny rozrzut wespół z minimalnym rozziewem są budulcem miary konkluzyjności.

Z cech rozkładów quasi-normalnych wynika oszacowanie, że w zakresie Rozrzutu powinny mieścić się rezultaty kwalifikowanej większości responden-tów ≈68%, a reszta teoretycznie w równej części powyżej i poniżej. Jednakże przy dużej asymetrii zdarza się, że powyżej zakresu rozrzutu brakuje miejsca.

Przykład 7. Rozrzut

Przyjmijmy wagi (x) te same jak w przykładzie 5, uzyskane przez 30 studentów:

1 -2 2 3 2 0 2 2 -1 1 2 1 0 3 2 -3 -1 0 2 3 -2 2 -1 1 3 0 1 2 3 2 Obliczyć Rozrzut wypowiedzi wg wzoru [6] oraz ustalić w tym zakresie liczebności wg ryc. 27.

Kontynuacja przykładu 5: [–d] ≈ -2,04 [+d] = 1,29 6° Rozrzut [d] ≈ |-2,04| + |1,29| ≈ 3,33 1° Średnia Q = 1 2° Zakres rozrzutu Q – |–d|; Q + |+d| = 1 – 2,04; 1 + 1,29 = -1,04; 2,29 3° W przedziale -1,04; 2,29 mieści się 22 respondentów, poniżej 3, a powyżej 5 respondentów.

4° Odpowiada to procentowemu rozkładowi liczebności: ≈73%, 10% i ≈17%.

Powyższy przykład ilustruje inne zjawisko. Otóż kres dolny Rozrzutu 〈

-

1,04〉

znajduje się bardzo blisko wagi równej

-

1. Z tego powodu – uwzględniając błąd oszacowania wartości średniej oczekiwanej – w zasadzie te trzy przypadki

-

1 na równi mogłyby znaleźć się w zakresie dolnym, razem z rezultatami

-

2 i

-

3.

Wówczas rozkład procentowy wynosiłby: ≈63%, 20% i ≈17%. W statystyce

„prawda zwykle leży gdzieś pośrodku”, co potwierdza teorię, że na podstawie odchyleń realnych można szacować liczebności przypadków mieszczących się w obszarze rozrzutu i poza nim. Warto sprawdzić to choćby na przykładzie 1.

Ślady Wzorce

wskaźniki i ich agregacja ... opcje wypowiedzi, wagi i ich średnie kategorie miar statystycznych ... momenty zwykłe, centralne i absolutne przeciętne, uśrednienie oznak ... jakość a intensywność wypowiedzi niezgodność, dysjunkcja oznak ... rozziew wypowiedzi przeciwstawnych nieregularność, dewiacja oznak ... odchylenia realne i standardowe rozproszenie, dyspersja oznak ... rozrzut, zróżnicowanie wypowiedzi

Spójność – koniunkcja oznak

Narzędzia pomiarowe budowane zgodnie ze strategią ewaluacji splotowej powinny zawierać kontrolne pary wskaźników, próbkujących dokładnie ten sam składnik indykatum, lecz z innej perspektywy czasoprzestrzennej. Zalecanym układem w kwestionariuszu jest umieszczanie par kontrolnych obok siebie.

Przyjmujemy zatem, że kolejne pozycje kwestionariusza o numerach niepa-rzystych i paniepa-rzystych {1 i 2; 3 i 4 ... 23 i 24} tworzą koniunkcję wskaźników tej samej zmiennej cząstkowej. W takim razie powinny one posiadać swoiste podobieństwa właściwości statystycznych, zwane koherentnością. Jako naj-prostszą miarę koherentności zdefiniujmy Spójność 'Consistency [c]:

=

Parametr ten zbudowany jest na różnicach pomiędzy wskaźnikami two-rzącymi parę kontrolną, a ponieważ większe różnice byłyby miarą niespójności, stąd dla odwrócenia moment absolutny występuje we wzorze jako odjemnik.

Dzielenie przez wartość kresowej wagi Xmax jest zabiegiem standaryzującym, umożliwiającym porównywanie spójności skal opartych na różnych wagach.

Potencjalnie najwyższą wartością tego parametru jest 1, a realnie dobrą co najmniej 0,5. Do niższej spójności należy jednak podchodzić z ostrożnością.

Podczas tworzenia nowej skali parametr ten co prawda może służyć jako kwantyfikator pomocniczy, lecz nie jako selekcyjny. Może być więc przydatny jedynie do optymalizacji, lecz nie do odrzucania bodźców-stwierdzeń. Wynika to z celowo zalecanej strategii różnicowania obu wskaźników pary kontrolnej, dlatego podczas interpretacji Spójności należy przede wszystkim wnikać w ich relacje czasoprzestrzenne – czy to owe zróżnicowania były przyczyną niespój-ności, czy może respondenci byli niekonsekwentni w swych wypowiedziach.

Przykład 8. Spójność

30 studentów uzyskało wagi (xp-1) oraz (xp) odpowiednio dla nieparzystej i parzystej pozycji skali:

1 -2 2 3 2 0 2 2 -1 1 2 1 0 3 2 -3 -1 0 2 3 -2 2 -1 1 3 0 1 2 3 2 1 -1 3 3 2 -1 2 2 0 2 2 2 1 3 1 -1 -1 0 3 2 -1 2 -1 2 3 1 2 2 1 2

Obliczyć Spójność kontrolnej pary wskaźników według wzoru [7].

Kroki liczenia: 1° Ustala się wartości bezwzględne (Y) z różnic pomiędzy parami wskaźników:

0 1 1 0 0 1 0 0 1 1 0 1 1 0 1 2 0 0 1 1 1 0 0 1 0 1 1 0 2 0 2° Suma ΣY = 18 3° Niespójność ΣY/n/Xmax = 18/30/3 = 0,2 4° Spójność [c] = 1 – 0,2 = 0,8

Wartość | Ważkość – średnie przeskalowane

Przypomnę, że w Skali dwuważonych ocen zaproponowałem ewaluatorom jednolitą konwencję przeskalowywania poziomów, mającą na celu ułatwienie interpretacji i szersze uprzystępnianie wyników. Chodzi o przesunięcie war-tości średnich ze skali wymiarowanej za pomocą wag, na skalę wyrażaną za pomocą ocen szkolnych (akademickich). W celu zapewnienia całkowitej jed-noznaczności nadałem odmienne nazewnictwo i oznaczenia dla parametrów przed i po konwersji na skalę ocen. Jakość i intensywność po przesunięciu przyjmują odpowiednio nazwy Wartość 'Value [V] oraz Ważkość 'Weight [W]:

Q

Przeskalowanie poziomów jest dodaniem liczby 2,5 do uprzednio wyliczonych wartości średnich. Zwracam uwagę na to, że o ile Wartość można by obliczać także z wag przeskalowanych, o tyle Ważkość musi być wyznaczana zawsze z wag pierwotnych 〈

-

3...+3〉. Z tego powodu konwersję ze skali wag na skalę ocen należy przeprowadzić na końcu, dopiero po obliczeniu danego parametru.

Ryc. 28. Konwersja ze skali wag na skalę ocen

Teoretycznie wartości wypowiedzi na skali ocen mogłyby wypełniać cały zakres 〈–0,5...+5,5〉, lecz w praktyce pomiarowej wszystkie uśrednione oznaki cząstkowe z reguły mieszczą się w zakresie 〈2...5〉. Tak więc do wizualizacji wyników na wykresach umieszcza się cztery górne przedziały ocen 2, 3, 4, 5, dodatkowo z rozpiętością ±0,5 podziałki. Natomiast do opisu jakościowego wykorzystuje się nazwy czterech poziomów w rozumieniu osiągnięć akade-mickich (niedostateczny, dostateczny, dobry, bardzo dobry). W takiej skali ocen Wartość V=2 oznacza poziom niedostateczny i nie tam tutaj miejsca na poziom mierny czy dopuszczający, dla którego każda z proponowanych nazw okazuje się nietrafna. Parametr [V] jest bazową miarą dla takich estymatorów standardu ewaluatywnego, jak Baza i Norma oraz Poziomy HML.

H

Baza | Norma – średnie oczekiwane

Empiryczną miarą najbardziej zbliżoną do teoretycznego estymatora jest Norma. Wbrew pejoratywnym skojarzeniom, nie jest to jakiś narzucony pułap do osiągnięcia, lecz specyficzna podstawa normalizacji skali, umożliwiająca porównywanie wyników. Bazę 'Base [B'] i Normę 'Norm [N''] oblicza się jako średnie arytmetyczne ze średnich wartości osiągniętych odpowiednio w po-miarach początkowych i końcowych przez wszystkie podgrupy respondentów:

( )

Vi' – średnie wartości w i-tych klasach (grupach) w pomiarze początkowym Vi" – średnie wartości w i-tych klasach (grupach) w pomiarze końcowym k – liczba klas lub grup wyodrębnionych z ogółu badanej zbiorowości

Istotną cechą Normy w porównaniu ze średnią ogólną dla całej próby badawczej jest to, że niweluje ona nieco wpływ zróżnicowanych liczebności w poszczególnych grupach. Wyjaśnię to na przykładzie posiadanych przeze mnie danych empirycznych. Otóż dysponuję wynikami kilkuset studentów pedagogiki, a z innych kierunków studiów (w tym technicznych) otrzymuję zwykle reprezentacje mniejsze niż stuosobowe. Rozdzielczy sposób obliczania najpierw średnich grupowych i dopiero z nich obliczanie Normy powoduje, że nie jest ona zdominowana przez osiągnięcia tej najliczniejszej grupy.

Z drugiej strony – włączenie do normy rezultatów nawet nielicznej, lecz wyjątkowo nietypowej grupy, w jakimś stopniu mogłoby wypaczyć standardy.

Z tego względu dane empiryczne współtworzące Normę i określające standardy winny pochodzić z grup możliwie wiernie reprezentujących badaną populację.

Ufność realna – tolerancja średnich

Jeśli badacz chce uogólnić wnioski na populację, to nie może poprze-stać jedynie na wyznaczeniu statystyk z próby. Na ich podstawie dodatkowo musi oszacować, jak dalece są one wiarygodne i na ile mogłyby ulec zmianie, gdyby zbadał całą populację. Jedną z metod określania tolerancji średnich jest estymacja przedziałowa, oparta na charakterystyce rozkładu normalnego, który dla poziomu istotności np. α = 5% ma wartość 1,96. Zakres tolerancji, przy której z błędem ≤5% hipotetyczna średnia populacji mieści się w pobliżu średniej obliczonej z próby, nazywa się przedziałem ufności. Do wyznaczenia przedziału ufności potrzebna jest jeszcze znajomość odchylenia i liczebności.

Ze względu na to, że statystyka skal dwuważonych opiera się na założeniu potencjalnej asymetrii rozkładu, także i tu jako bazowe wyznaczniki dewiacji wykorzystajmy obydwa odchylenia realne, osobno ujemne [

-

d] i dodatnie [+d].

Analogicznie do dewiacji, również Ufność realna 'Real Confidence definio-wana jest przez dwa parametry – przedział ufności ujemny [–c] i dodatni [+c]:

( )

n U d

c =

− α

( )

n U d

c +

=

+ α U(5%) = 1,96 [10]

gdzie 1,96 – wartość z tabel rozkładu normalnego dla istotności α = 5%

–d, +d – odchylenie realne ujemne i dodatnie obliczone ze wzoru [4]

n – liczebność próby (klasy, grupy lub ogółu badanej zbiorowości)

Przedziały ufności α=5% jako momenty centralne wyznaczają zakres tolerancji wokół wartości średniej z próby. W razie potrzeby zmiany poziomu istotności, odpowiednią wartość współczynnika U(α) odczytuje się z tabel lub oblicza za pomocą funkcji arkusza kalkulacyjnego45. Najpewniejszą sytuację zaufania co do wartości średniej mamy wówczas, gdy przedziały ufności są najmniejsze.

Oznacza to konieczność racjonalnego zwiększania liczebności prób badaw-czych, o ile celem ewaluacji jest uogólnienie wniosków na populację. Poniższy przykład dobitnie ilustruje, że na podstawie tak nielicznej próby n=30 osób nie można precyzyjnie oszacować wartości średniej oczekiwanej dla populacji.

Powiązane dokumenty