Analiza współzależności
dwóch cech II
Dopasowanie funkcji regresji do danych empirycznych
Po znalezieniu równania funkcji regresji należy zbadać, na ile nasze oszacowanie pokrywa się z rzeczywistością. W tym celu badamy dopasowanie funkcji regresji do danych
empirycznych.
Do oceny dopasowania prostej regresji do punktów
empirycznych wykorzystuje się tak zwane reszty, które stanowią różnicę między rzeczywistymi i teoretycznymi (wyliczonymi z równania prostej) wartościami zmiennej zależnej. Oznaczamy je jako
ei = yi − ̂yi .
Dopasowanie funkcji regresji do danych empirycznych
Funkcja regresji jest poprawnie oszacowana, jeśli wartości reszt są niewielkie i mają charakter przypadkowy.
W oparciu o reszty wyznacza się następujące miary dopasowania modelu do danych empirycznych:
•
Średni błąd szacunku (średni błąd resztowy lub odchylenie standardowe składnika resztowego):Se =
∑N
i=1 (yi − ̂yi)2
N − 2 =
∑N
i=1 ei2 N − 2 .
Średni błąd szacunku
Określa on, o ile przeciętnie różnią się wartości zmiennej zależnej wyznaczone na podstawie funkcji regresji od jej wartości empirycznych. Im mniejszy jest błąd, tym lepsze dopasowanie funkcji regresji do danych rzeczywistych (tym mniej mylić się będziemy szacując wartość zmiennej zależnej na podstawie funkcji regresji).
Współczynnik determinacji
•
Jest to najważniejsza miara dopasowania funkcji regresji dodanych empirycznych. Przyjmuje on wartość z przedziału od 0 do 1, przy czym im większa jego wartość, tym lepsze
dopasowanie funkcji. Określa on, ile % zmienności cechy Y
zostało wyjaśnione przy pomocy oszacowanej funkcji regresji (ile
% tej zmienności wynika z czynników uwzględnionych w równaniu regresji). W przypadku prostej regresji liniowej wiadomo, że
R2 = 1 −
∑N
i=1 (yi − ̂yi)2
∑N
i=1 (yi − y)2 .
R2 = (rxy)2 .
Współczynnik determinacji
N
∑i=1
(yi − y)2 − zmienność całkowita
N
∑i=1
(yi − ̂yi)2 − zmienność pozostała
N
∑i=1
( ̂yi − yi)2 − zmienność wyjaśniona
N
∑i=1
(yi − y)2 = ∑N
i=1
( ̂yi − yi)2 + ∑N
i=1
(yi − ̂yi)2
Przykład
Zbadamy dopasowanie oszacowanej funkcji regresji do danych empirycznych. Obliczenia należy zacząć od wyznaczenia
teoretycznych wartości zmiennej zależnej wyznaczonych przez funkcję regresji, a następnie obliczamy reszty.
Numer
pracownika Staż pracy (w latach) Wydajność pracy (w szt./h)
1 1 10
2 2 11
3 3 12
4 4 14
5 5 15
6 5 15
7 6 16
8 7 18
9 8 19
10 9 20
̂y = 8,5 + 1,3 ⋅ x .
Przykład
Staż pracy
(w latach) Wydajność pracy (w szt./h)
1 10 9,8 0,2 0,04
2 11 11,1 -0,1 0,01
3 12 12,4 -0,4 0,16
4 14 13,7 0,3 0,09
5 15 15 0,0 0,00
5 15 15 0,0 0,00
6 16 16,3 -0,3 0,09
7 18 17,6 0,4 0,16
8 19 18,9 0,1 0,01
9 20 20,2 -0,2 0,04
Razem — — 0,60
xi yi îy = 8,5 + 1,3 ⋅ xi ei = yi − ̂yi ei2 = (yi − ̂yi)2
N = 10, Se =
∑N i=1 ei2
N − 2 = 0,6
10 − 2 = 0,27.
Przykład
Se =
∑N
i=1 ei2
N − 2 = 0,6
10 − 2 = 0,27.
Oznacza to, że wyznaczając wydajność pracy pracowników na podstawie oszacowanej funkcji regresji mylimy się średnio o ± 0,27 sztuk/h. Innymi słowy, teoretyczna (obliczona na podstawie funkcji regresji) wydajność pracy poszczególnych pracowników różni się od wydajności rzeczywistej o ± 0,27 sztuk na godzinę.
Przykład
1 10 9,8 0,2 0,04 25
2 11 11,1 -0,1 0,01 16
3 12 12,4 -0,4 0,16 9
4 14 13,7 0,3 0,09 1
5 15 15 0,0 0,00 0
5 15 15 0,0 0,00 0
6 16 16,3 -0,3 0,09 1
7 18 17,6 0,4 0,16 9
8 19 18,9 0,1 0,01 16
9 20 20,2 -0,2 0,04 25
Razem 150 — — 0,60 102
xi yi îy = 8,5 + 1,3 ⋅ xi ei2 = (yi − ̂yi)2
N = 10, y = 150
10 = 15, R2 = 1 −
∑N
i=1 (yi − ̂yi)2
∑N
i=1 (yi − y)2 = 1 − 0,6
102 = 0,9941.
ei = yi − ̂yi (yi − y)2
Przykład
R2 = 0,9941.
Otrzymano wartość współczynnika determinacji bliską 1, a więc dopasowanie funkcji regresji do danych empirycznych jest bardzo dobre. Zmienność wydajności pracy została
wyjaśniona przez badaną regresję aż w 99,41%.
Wydajność pracy
7 10 13 16 19 22
Staż pracy
0 1 2 3 4 5 6 7 8 9
y = 1,3x + 8,5
R² = 0,9941
Wykorzystanie funkcji regresji
Właściwie wyspecyfikowana, tzn. poprawna merytorycznie i dobrze dopasowana do danych empirycznych funkcja regresji może posłużyć do przewidywania wartości jednej zmiennej przy znanym poziomie drugiej. Warunkiem jest jednak, aby relacje między zmiennymi nie uległy znacznym zmianom, np.
pod wpływem nieprzewidzianych, losowych okoliczności.
Ponieważ jednak funkcja regresji z jedną zmienną niezależną stanowi bardzo mocne uproszczenie rzeczywistości, również prognozy dokonywane są nieco „na wyrost”.
Przykład
Na podstawie oszacowanej funkcji regresji z poprzedniego przykładu:
̂y = 8,5 + 1,3 ⋅ x
przewidzimy jakiej wydajności można się spodziewać po pracowniku o stażu dwunastoletnim.
Interesuje nas, jaką wydajność może osiągnąć pracownik ze stażem
xP = 12
Prognozę tę wyznaczymy podstawiając powyższą wartość do równania regresji.
Przykład
Otrzymujemy:
̂y = 8,5 + 1,3 ⋅ xP = 8,5 + 1,3 ⋅ 12 = 24,1 szt./h .
Oznacza to, że po pracowniku z dwunastoletnim stażem można się spodziewać, że w ciągu godziny wyprodukuje średnio 24,1 sztuk wyrobu. Nasze szacunki są obarczone
pewnym błędem, który przyjmujemy na poziomie średniego błędu szacunku. Zatem uwzględniając wartość błędu, do
otrzymanego wyniku dodamy i odejmiemy 0,27 szt./h;
uzyskujemy w ten sposób przedział liczbowy (23,83; 24,37).
Urealniając ten wynik, możemy zatem przypuszczać, że
pracownik z 12-letnim stażem wyprodukuje od 23 do 25 szt.
wyrobu w ciągu godziny.
Współczynnik korelacji rang Spearmana
Służy on do badania zależności dwóch cech przedstawionych w szeregu korelacyjnym. Cechy te mogą być mierzalne lub niemierzalne ale porządkowe. Liczba badanych jednostek powinna być nieduża (poniżej 30).
Przypuśćmy, że badamy N jednostek analizując dwie cechy.
Elementy te można można więc uporządkować ze względu na obie cechy. Poszczególnym uporządkowanym wariantom cechy nadajemy kolejne numery, które określa się mianem rang, a
procedurę nadawania rang — rangowaniem.
Rangowanie
Poszczególnym uporządkowanym wariantom cechy
przyporządkowujemy kolejne liczby naturalne. W sytuacji, gdy kilka jednostek badania ma takie same warianty cechy, rangi ustalane są wówczas jako średnia arytmetyczna z
kolejnych pozycji na jakich znalazły się jednostki badania posiadające dany wariant cechy, np.
Nr jednostki Wariant cechy Ranga
1 podstawowe 1
2 zawodowe 2
3 średnie 4
Średnia z 3, 4, 5
4 średnie 4
5 średnie 4
6 wyższe 6,5 Średnia z 6, 7
7 wyższe 6,5
Współczynnik korelacji rang Spearmana
Współczynnik korelacji rang Spearmana wyznacza się na podstawie następującego wzoru
gdzie di oznaczają różnice między rangami odpowiadających sobie wartości xi i yi tzn. rangami cech X i Y dla
poszczególnych jednostek badania.
rs = 1 − 6 ∑N
i=1 di2 N(N2 − 1) ,
Współczynnik korelacji rang Spearmana
Współczynnik korelacji rang Spearmana przyjmuje wartości z przedziału od -1 do 1. Im wartość tego miernika jest bliższa -1, tym silniejsza ujemna korelacja między badanymi
cechami, z kolei — im bliższa 1, tym silniejsza korelacja
dodatnia. Wartości bliskie zeru wskazują na słabą zależność.
Współczynnik ten jest symetryczny, to znaczy zależność Y od X jest taka sama jak zależność X od Y.
Sposób wyznaczania współczynnika rang zaprezentujemy dla dwóch sytuacji, w których zalecane jest jego użycie: dla obu cech mierzalnych oraz w sytuacji, gdy jedna z cech jest
niemierzalna, ale której warianty dają się uporządkować.
Przykład I
Za pomocą współczynnika rang ustalimy zależność między emisją zanieczyszczeń powietrza CO2 a liczbą ludności w starych krajach Unii Europejskiej i w Polsce w 2004 roku.
Kraj Liczba ludności
(w tys.) Emisja zanieczyszczeń powietrza CO2
(w mln ton)
Austra 8 105 79,5
Belgia 10 416 123,5
Dania 5 401 50,5
Finlandia 5 226 56,7
Francja 60 044 415,7
Grecja 11 015 110,5
Hiszpania 43 768 368,3
Irlandia 4 024 47,7
Luksemburg 454 12,1
Holandia 16 275 175,9
Niemcy 82 561 876,8
Portugalia 10 524 68,7
Szwecja 8 991 51,5
Wielka
Brytania 59 561 555,6
Włochy 57 537 488
Polska 38 180 317,7
Przykład I
Rangowanie ze względu na pierwszą cechę - Liczbę ludności.
Kraj Liczba ludności
(w tys.) Ranga
Luksemburg 454 1
Irlandia 4 024 2
Finlandia 5 226 3
Dania 5 401 4
Austra 8 105 5
Szwecja 8 991 6
Belgia 10 416 7
Portugalia 10 524 8
Grecja 11 015 9
Holandia 16 275 10
Polska 38 180 11
Hiszpania 43 768 12
Włochy 57 537 13
Wielka Brytania 59 561 14
Francja 60 044 15
Niemcy 82 561 16
Przykład I
Rangowanie ze względu na drugą cechę - Emisję zanieczyszczeń.
Kraj Emisja zanieczyszczeń powietrza CO2
(w mln ton)
Ranga
Luksemburg 12,1 1
Irlandia 47,7 2
Dania 50,5 3
Szwecja 51,5 4
Finlandia 56,7 5
Portugalia 68,7 6
Austra 79,5 7
Grecja 110,5 8
Belgia 123,5 9
Holandia 175,9 10
Polska 317,7 11
Hiszpania 368,3 12
Francja 415,7 13
Włochy 488 14
Wielka Brytania 555,6 15
Niemcy 876,8 16
Przykład I
Obliczenie różnic między rangami
Kraj
Liczba ludności
(w tys.)
Emisja zanieczyszczeń powietrza CO2
(w mln ton) Rangi X Rangi Y Różnice rang Kwadraty różnic rang
Luksemburg 454 12,1 1 1 0 0
Irlandia 4 024 47,7 2 2 0 0
Finlandia 5 226 56,7 3 5 -2 4
Dania 5 401 50,5 4 3 1 1
Austra 8 105 79,5 5 7 -2 4
Szwecja 8 991 51,5 6 4 2 4
Belgia 10 416 123,5 7 9 -2 4
Portugalia 10 524 68,7 8 6 2 4
Grecja 11 015 110,5 9 8 1 1
Holandia 16 275 175,9 10 10 0 0
Polska 38 180 317,7 11 11 0 0
Hiszpania 43 768 368,3 12 12 0 0
Włochy 57 537 488 13 14 -1 1
Wielka Brytania 59 561 555,6 14 15 -1 1
Francja 60 044 415,7 15 13 2 4
Niemcy 82 561 876,8 16 16 0 0
Razem — — — — — 28
xi yi di di2
Przykład I
xi yi di di2
Przystępujemy do obliczenia współczynnika korelacji rang Spearmana.
N = 16, ∑N
i=1
di2 = 28,
rs = 1 − 6 ⋅ ∑N
i=1 di2
N(N2 − 1) = 1 − 6 ⋅ 28
16 ⋅ (162 − 1) = 1 − 0,041 = 0,959.
Przykład I
xi
Otrzymany wynik współczynnika rang 0,959 wskazuje na dodatnią i silną zależność między emisją zanieczyszczeń powietrza dwutlenkiem węgla a liczbą ludności w starych krajach Unii Europejskiej i w Polsce w 2004 roku.
Emisja CO2 (w mln ton) 7 185,6 364,2 542,8 721,4 900
Liczba ludności (w tys.)
0 20000 40000 60000 80000
Przykład II
Za pomocą współczynnika rang ustalimy zależność między czasem poświęconym na naukę języka obcego a poziomem znajomości tego języka
Uczeń Czas poświęcony
dziennie na naukę (w godz.)
Poziom znajomości języka obcego
Katarzyna Beksa 5 biegły
Przemysław Bełkot 4 dobry
Paweł Dentka 3 dobry
Michalina Drzwi-Okno 3 przeciętny
Franciszek Głąb 2 przeciętny
Jacek Kolosalny 1 słaby
Leokadia Masełko 4 biegły
Rafał Nieuważny 4 biegły
Józef Piszpan 1 przeciętny
Zyglinda Żyłka 2 przeciętny
Przykład II
Rangowanie dla cechy pierwszej — czas poświęcony nauce.
Nr Uczeń Czas poświęcony
dziennie na naukę (w godz.)
Poziom znajomości
języka obcego Rangi X
1 Jacek Kolosalny 1 słaby 1,5
2 Józef Piszpan 1 przeciętny 1,5
3 Franciszek Głąb 2 przeciętny 3,5
4 Zyglinda Żyłka 2 przeciętny 3,5
5 Paweł Dentka 3 dobry 5,5
6 Michalina Drzwi-Okno 3 przeciętny 5,5
7 Przemysław Bełkot 4 dobry 8
8 Leokadia Masełko 4 biegły 8
9 Rafał Nieuważny 4 biegły 8
10 Katarzyna Beksa 5 biegły 10
Przykład II
Rangowanie dla cechy drugiej — poziom znajomości języka.
Nr Uczeń
Czas poświęcony dziennie na
naukę (w godz.)
Poziom znajomości
języka obcego Rangi X Rangi Y
1 Jacek Kolosalny 1 słaby 1,5 1
2 Józef Piszpan 1 przeciętny 1,5 3,5
3 Franciszek Głąb 2 przeciętny 3,5 3,5
4 Zyglinda Żyłka 2 przeciętny 3,5 3,5
5 Michalina Drzwi-Okno 3 przeciętny 5,5 3,5
6 Paweł Dentka 3 dobry 5,5 6,5
7 Przemysław Bełkot 4 dobry 8 6,5
8 Leokadia Masełko 4 biegły 8 9
9 Rafał Nieuważny 4 biegły 8 9
10 Katarzyna Beksa 5 biegły 10 9
Przykład II
Obliczanie różnic rang i ich kwadratów:
Nr Uczeń Czas poświęcony
dziennie na naukę (w godz.)
Poziom znajomości
języka obcego Rangi X Rangi Y
1 Jacek Kolosalny 1 słaby 1,5 1 0,5 0,25
2 Józef Piszpan 1 przeciętny 1,5 3,5 -2 4
3 Franciszek Głąb 2 przeciętny 3,5 3,5 0 0
4 Zyglinda Żyłka 2 przeciętny 3,5 3,5 0 0
5 Michalina Drzwi-
Okno 3 przeciętny 5,5 3,5 2 4
6 Paweł Dentka 3 dobry 5,5 6,5 -1 1
7 Przemysław Bełkot 4 dobry 8 6,5 1,5 2,25
8 Leokadia Masełko 4 biegły 8 9 -1 1
9 Rafał Nieuważny 4 biegły 8 9 -1 1
10 Katarzyna Beksa 5 biegły 10 9 1 1
Razem — — — — — 14,5
di di2
rs = 1 − 6 ⋅ ∑N
i=1 di2
N(N2 − 1) = 1 − 6 ⋅ 14,5
10 ⋅ (102 − 1) = 1 − 0,09 = 0,91.
Przykład II
Wartość współczynnika rang Speramana równa 0,91 wskazuje na dodatnią silną zależność między ilością godzin
poświęconych dziennie na naukę języka obcego a poziomem znajomości tego języka. Oznacza to, że osoba poświęcająca dziennie więcej czasu na opanowanie języka obcego osiąga na ogół lepsze rezultaty w tym względzie.
Rangi dla cechy Y
0 2 4 6 8 10
Rangi dla cechy X
1 2 3 4 5 6 7 8 9 10
Miary korelacji dla danych pogrupowanych w tablicy
Poprzednie rozdziały poświęcone były wykrywaniu korelacji w sytuacji, gdy materiał statystyczny był zawarty w szeregu korelacyjnym. Jednakże, przy dużej liczebności badanej
zbiorowości szereg korelacyjny nie jest dogodną formą opisu zależności, gdyż zawiera zbyt wiele szczegółowych informacji.
W celu uzyskania bardziej syntetycznego obrazu, konieczny jest podział jednostek na grupy według dwóch zmiennych (cech) jednocześnie. W efekcie otrzymujemy tablicę
korelacyjną, zwaną też tablicą współzależności.
Schemat tablicy korelacyjnej
Warianty zmiennej niezależnej
Warianty zmiennej zależnej
…
…
…
. . . . .
. . . . .
. . . . .
…
…
xi x1 x2
xl
y1 y2 yk
yj
n11 n21
n12 n1k
n2k n22
nl1 nl2 nlk
n∙j = ∑l
i=1
nij n∙1 n∙2 n∙k
ni∙ = ∑k
j=1
nij
n1∙
n2∙
nl∙
N
N - ogólna liczba jednostek,
ni∙ - liczebności brzegowe cechy X, n∙j - liczebności brzegowe cechy Y .
nij - liczebności warunkowe odpowiadające:
i-temu wariantowi cechy X j-temu wariantowi cechy Y
Miary korelacji dla danych pogrupowanych w tablicy
Tablica korelacyjna składa się z l rozkładów warunkowych cechy Y (dla każdego xi):
⋮
Miary korelacji dla danych pogrupowanych w tablicy
i z k rozkładów cechy X (dla każdego yi):
⋯
Miary korelacji dla danych pogrupowanych w tablicy
oraz z dwóch rozkładów brzegowych: cechy X i cechy Y:
Miary korelacji dla danych pogrupowanych w tablicy
Bardzo ważne w analizie korelacji są rozkłady warunkowe.
Jeśli między cechami nie ma zależności, to rozkłady warunkowe y nie zależą od X i tym samym średnie warunkowe (grupowe) Y będą niezależne od X.
y(x1)| pod warunkiem, że X = x1 y(x2)| pod warunkiem, że X = x2
y(xl)| pod warunkiem, że X = xl średnie grupowe:
⋮
Miary korelacji dla danych pogrupowanych w tablicy
Jeśli natomiast wraz ze wzrostem wartości cechy X rosną
średnie grupowe cechy Y, to mamy do czynienia z zależnością dodatnią. W przypadku przeciwnym istnieje zależność
ujemna.
Obserwacja rozkładów warunkowych, a w szczególności
średnich grupowych, to jedna z metod wykrywania zależności dwóch cech w tablicy korelacyjnej. Do innych metod
pozwalających na wykrycie zależności tak zaprezentowanych danych należą: analiza wykresów rozrzutu punktów
empirycznych oraz analiza liczebności w tablicy korelacyjnej.
Analiza wykresu rozrzutu punktów empirycznych
Cena diamentu (w dolarach)
-1000 1000 3000 5000 7000 9000 11000 13000 15000 17000 19000
Waga diamentu (w caratach)
0,1 0,4 0,7 1 1,3 1,6
Analiza liczebności w tablicy korelacyjnej
Jeżeli w każdym polu tablicy są jednakowe liczebności nij, to między cechami nie istnieje zależność. Gdy liczebności
układają się wzdłuż przekątnej biegnącej od prawego górnego do lewego dolnego rogu tablicy wówczas można przypuszczać, że zależność istnieje, jest prostoliniowa i ma charakter
ujemny. Rozkład liczebności warunkowych wzdłuż drugiej przekątnej oznacza korelację dodatnią, również liniową.
Analiza liczebności w tablicy korelacyjnej
Im mniej pasażerów zabieramy tym szybciej jedziemy?
Liczba pasazerów
Prędkość samochodu
45 — 55 55 — 65 65 — 75 75 — 85 85 — 95
0 0 1 1 1 0
1 1 3 3 0 1
2 1 2 3 1 0
3 2 3 0 0 0
4 0 2 0 0 0
xi
yj
Miary korelacji dla
pogrupowanych danych
Istnieje kilka miar korelacji dwóch cech pogrupowanych w tablicy korelacyjnej i tablicy kontyngencji. Wybór właściwej
miary uzależniony jest od: rodzaju cech statystycznych, kształtu zależności między badanymi cechami, wielkości tablicy
korelacyjnej lub tablicy kontyngencji (liczby kolumn i wierszy).
Szerokie zastosowanie mają następujące miary:
•
Stosunek korelacji, eyx,•
Współczynnik C-Pearsona, C,•
Współczynnik Q-Yule’a, Q.Stosunek korelacji
Oparty jest na obserwacji, że przy braku korelacji wszystkie średnie grupowe cechy Y są jednakowe i równe średniej
ogólnej cechy Y. Jest on relacją zróżnicowania średnich
grupowych w stosunku do ogólnego zróżnicowania wartości cechy Y.
eyx = Sy(x) Sy ,
y - średnia ogólna cechy Y,
Sy - odchylenie standardowe cechy Y,
Sy(x) - odchylenie standardowe średnich grupowych: y(x1), …, y(xl) .
Stosunek korelacji
Z powyższego wzoru wynika, że obliczenia dotyczą tylko zmiennej Y, a zmienna X służy tylko do ustalenia grup
wartości zmiennej Y. Zatem cecha X może być mierzalna lub niemierzalna.
y = 1 N
k
∑j=1
yjn∙j = 1 N
l
∑i=1 k
∑j=1
yjnij, Sy = 1 N
k
∑j=1
(yj − y)2n∙j ,
y(xi) = 1 ni∙
k
∑j=1
yjnij, Sy(x) = 1 N
l
∑i=1
(y(xi) − y)2ni∙ .
Stosunek korelacji
Stosunek korelacji zawiera się w przedziale od 0 do 1:
0 ⩽ eyx ⩽ 1.
Przy braku korelacji
eyx = 0.
Im jego wartość jest bliższa 1, tym korelacja jest silniejsza.
Własności stosunku korelacji
•
Stosunek korelacji nie jest miarą symetryczną, tzn. exy nie jest równe eyx, nawet gdy obie cechy X i Y są mierzalne i można obliczyć oba te współczynniki.•
Jeżeli w powyższym przypadku obliczymy współczynnik korelacji Pearsona, to|rxy | ⩽ eyx,
A równość występuje tylko w przypadku zależności liniowej.
Własności stosunku korelacji
•
Stosunek korelacji może być obliczony również dlazależności nieliniowej, ale cecha Y musi być mierzalna, np.
Miejsce zamieszkania
X
Ocena z matematyki na maturze Y
Ogółem
3 4 5
Wieś 25 6 2 33
Małe miasto 5 38 1 44
Duże miasto 3 6 14 23
Ogółem 33 50 17 100
Przykład I — Obie cechy mierzalne
Wylosowano 100 jednoosobowych gospodarstw domowych i zbadano je pod względem wysokości miesięcznych dochodów w zł oraz procentowego udziału wydatków na żywność w
wydatkach ogółem.
Miesięczne dochody w zł
X
Procentowy udział wydatków na żywność,
Y Ogółem
30 — 32 32 — 34 34 — 36
800 — 1200 — 1 18 19
1200 — 1600 3 55 2 60
1600 — 2000 19 2 — 21
Ogółem 22 58 20 100
Przykład I — Obie cechy mierzalne
Miesięczne dochody w zł
X
Procentowy udział wydatków na żywność,
Y Ogółem
30 — 32 32 — 34 34 — 36
800 — 1200 — 1 18 19
1200 — 1600 3 55 2 60
1600 — 2000 19 2 — 21
22 58 20 100
31 33 35 —
682 1914 700 3296
y = 1 N
k
∑j=1
y∘jn∙j = 3296
100 = 32,96 %
n∙j y∘j
n∙jy∘j
Przykład I — Obie cechy mierzalne
Miesięczne dochody w zł
X
Procentowy udział wydatków na żywność,
Y Ogółem
30 — 32 32 — 34 34 — 36
800 — 1200 — 1 18 19
1200 — 1600 3 55 2 60
1600 — 2000 19 2 — 21
22 58 20 100
31 33 35 —
682 1914 700 3296
3,8416 0,0016 4,1616 —
84,52 0,09 83,23 167,84
n∙j y∘j
n∙jy∘j (y∘j − y)2 n∙j(y∘j − y)2
Przykład I — Obie cechy mierzalne
Sy = 1 N
k
∑j=1
(y∘j − y)2n∙j = 167,84
100 = 1,3
Przykład I — Obie cechy mierzalne
Miesięczne dochody w zł
X
Proc. udział wyd. Y
Razem 30 — 32 32 — 34 34 — 36
800 — 1200
— 1 18 19
34,89 19 71,1209
31 33 35 —
0 33 630 663
1200 — 1600
3 55 2 60
32,97 60 0,0027
31 33 35 —
93 1815 70 1978
1600 — 2000
19 2 — 21
31,19 21 65,7555
31 33 35 —
589 66 0 655
Ogółem — — — — — 100 136,88
n1j y∘j
n1jy∘j
y(xi)
n2j y∘j
n2jy∘j n3j
y∘j
n3jy∘j
(y(xi) − y)2 ⋅ ni∙
ni∙
Sy(x) = 1N
l
∑i=1
(y(xi) − y)2ni∙ = 136,88100 = 1,17
Sy(x) = 1,17,
eyx = Sy(x)
Sy = 1,17
1,3 = 0,9.
Sy = 1,3, Podstawiając odpowiednie wartości:
otrzymujemy, że stosunek korelacji jest równy
Uzyskany wynik mówi o silnej zależności udziału wydatków na żywność w wydatkach ogółem od dochodów badanych gospodarstw jednoosobowych, a malejące średnie grupowe potwierdzają znaną w ekonomii zależność — prawo Engla.
Przykład I — Obie cechy mierzalne
Średnie grupowe cechy Y
30 31 32 33 34 35
Środki klas dla cechy X
1000 1160 1320 1480 1640 1800
Przykład I — Obie cechy mierzalne
Przykład II — Cecha X niemierzalna
W 2008 roku przeprowadzono badanie w grupie 100
studentów I roku prawa, mające na celu potwierdzenie zależności między miejscem zamieszkania a oceną z
matematyki uzyskaną na maturze.
Miejsce zamieszkania
X
Ocena z matematyki na maturze Y
Ogółem
3 4 5
Wieś 25 6 2 33
Małe miasto 5 38 1 44
Duże miasto 3 6 14 23
Ogółem 33 50 17 100
Miejsce zamieszkania
X
Ocena z matematyki na maturze Y
Ogółem
3 4 5
Wieś 25 6 2 33
Małe miasto 5 38 1 44
Duże miasto 3 6 14 23
33 50 17 100
99 200 85 384
0,7056 0,0256 1,3456 —
23,2848 1,28 22,8752 47,44
n∙j n∙jyj (yj − y)2 n∙j(yj − y)2
y = 1 N
k
∑j=1
yjn∙j = 384
100 = 3,84 Sy = 1 N
k
∑j=1
(yj − y)2n∙j = 47,44
100 = 0,69
Przykład II — Cecha X niemierzalna
Miejsce zamieszkania
X
Ocena z matematyki na maturze Y
3 4 5
Wieś 25 6 2 33 109 3,30 9,52
Małe miasto 5 38 1 44 172 3,91 0,21
Duże miasto 3 6 14 23 103 4,48 9,37
Ogółem 33 50 17 100 384 — 19,09
ni∙ ∑3
j=1
nijyj y(xi) (y(xi) − y)2 ⋅ ni∙
Sy(x) = 1 N
l
∑i=1
(y(xi) − y)2ni∙ = 19,09
100 = 0,44
Przykład II — Cecha X niemierzalna
Sy(x) = 0,44,
eyx = Sy(x)
Sy = 0,44
0,69 = 0,64.
Sy = 0,69, Podstawiając odpowiednie wartości:
otrzymujemy, że stosunek korelacji jest równy
Uzyskany wynik mówi o umiarkowanej zależności między miejscem zamieszkania a oceną uzyskaną na maturze z
matematyki. Rosnące średnie grupowe świadczą o korelacji
dodatniej: im większe miejsce zamieszkania tym wyższa ocena.
Przykład II — Cecha X niemierzalna
Tablica kontyngencji
W przypadku, gdy obie cechy X i Y są niemierzalne zamiast tablicy korelacyjnej używa się określenia tablica kontyngencji lub tablica kontyngencyjna.
Miarą wykorzystywaną do określenia związku między cechami niemierzalnymi jest najczęściej współczynnik współzależności C-Pearsona:
C = χ2
χ2 + N ,
gdzie χ2 to wartość statystyki χ2 (chi-kwadrat).
Tablica kontyngencji
Wartość statystyki chi-kwadrat wyznaczamy na podstawie danych z tablicy kontyngencji według następującego wzoru
χ2 = ∑l
i=1
k
∑j=1
(nij − ̂nij)2
̂nij ,
nij - liczebności warunkowe (empiryczne),
gdzie
gdyby cechy były niezależne:
̂nij - liczebności teoretyczne, czyli takie, które wystąpiłyby,
̂nij = ni∙ ⋅ n∙j N .
Współczynnik C-Pearsona
Współczynnik C-Pearsona
C = χ2 χ2 + N
oblicza się dla przypadku cech jakościowych (niemierzalnych) oraz tablic wielopolowych, czyli tablic większych niż 2 x 2.
Miara ta zawiera się w przedziale od 0 do 1. Wartości współczynnika bliskie 0 oznaczają słabą, a wartości współczynnika bliskie 1 — silną współzależność cech.
Skorygowany współczynnik C-Pearsona
Ponieważ poziom współczynnik C-Pearsona zależy od rozmiaru tablicy, aby móc porównywać współczynniki pochodzące z tablic różnej wielkości, proponuje się tzw.
skorygowany współczynnik C-Pearsona:
Cskor = C ⋅ C*
C* − 1 ,
gdzie
C* = min(l, k),
l - liczba wierszy tablicy kontyngencji, k - liczba kolumn tablicy kontyngencji.
Przykład
W pewnej szkole języka angielskiego nauczano trzema
metodami: tradycyjną (A), Callana (B), relaksacyjną (C).
Pod koniec kursu przeprowadzono egzamin i otrzymano następujące wyniki:
Wyniki X
Metoda nauczania, Y
Razem
A B C
Pozytywne 30 80 50 160
Negatywne 10 60 20 90
Razem 40 140 70 250
Ustalimy siłę zależności między tymi cechami niemierzalnymi.
Przykład
Wyniki X
Metoda nauczania, Y
Razem
A B C
Pozytywne Negatywne
Razem
n11 = 30 n21 = 10 n∙1 = 40
n12 = 80 n22 = 60 n∙2 = 140
n13 = 50 n23 = 20
n∙3 = 70 N = 250 n1∙ = 160
n2∙ = 90
Liczebności teoretyczne:
̂n11 = n1∙ ⋅ n∙1
N = 160 ⋅ 40
250 = 25,6 12̂n = n1∙ ⋅ n∙2
N = 160 ⋅ 140
250 = 89,6 13̂n = n1∙ ⋅ n∙3
N = 160 ⋅ 70
250 = 44,8
̂n21 = n2∙ ⋅ n∙1
N = 90 ⋅ 40
250 = 14,4 22̂n = n2∙ ⋅ n∙2
N = 90 ⋅ 140250 = 50,4 23̂n = n2∙ ⋅ n∙3
N = 90 ⋅ 70250 = 25,3
Przykład
30 25,6 4,4 19,36 0,76
80 89,6 -9,6 92,16 1,03
50 44,8 5,2 27,04 0,60
10 14,4 -4,4 19,36 1,34
60 50,4 9,6 92,16 1,83
20 25,3 -5,3 28,09 1,11
Razem — — — 6,67
nij iĵn nij − ̂nij (nij − ̂nij)2 (nij − ̂nij)2
̂nij
χ2 = (nij − ̂nij)2
̂nij = 6,67 C = χ2
χ2 + N = 6,67
6,67 + 250 = 0,16
Przykład
C = χ2
χ2 + N = 6,67
6,67 + 250 = 0,16
Wartość współczynnika C-Pearsona jest niska i bliska zeru, gdyż C = 0,16. Współzależność między wynikami kursu
językowego a metodą nauczania języka angielskiego jest
bardzo słaba. Można zatem przypuszczać, że wszystkie trzy metody nauczania dają podobne wyniki.