Analiza współzależności dwóch cech II

(1)

Analiza współzależności

dwóch cech II

(2)

Dopasowanie funkcji regresji do danych empirycznych

Po znalezieniu równania funkcji regresji należy zbadać, na ile nasze oszacowanie pokrywa się z rzeczywistością. W tym celu badamy dopasowanie funkcji regresji do danych

empirycznych.

Do oceny dopasowania prostej regresji do punktów

empirycznych wykorzystuje się tak zwane reszty, które stanowią różnicę między rzeczywistymi i teoretycznymi (wyliczonymi z równania prostej) wartościami zmiennej zależnej. Oznaczamy je jako

e_i = y_i − ̂y_i .

(3)

Dopasowanie funkcji regresji do danych empirycznych

Funkcja regresji jest poprawnie oszacowana, jeśli wartości reszt są niewielkie i mają charakter przypadkowy.

W oparciu o reszty wyznacza się następujące miary dopasowania modelu do danych empirycznych:

•

Średni błąd szacunku (średni błąd resztowy lub odchylenie standardowe składnika resztowego):

S_e =

∑N

i=1 (y_i − ̂y_i)²

N − 2 =

∑N

i=1 e_i² N − 2 .

(4)

Średni błąd szacunku

Określa on, o ile przeciętnie różnią się wartości zmiennej zależnej wyznaczone na podstawie funkcji regresji od jej wartości empirycznych. Im mniejszy jest błąd, tym lepsze dopasowanie funkcji regresji do danych rzeczywistych (tym mniej mylić się będziemy szacując wartość zmiennej zależnej na podstawie funkcji regresji).

(5)

Współczynnik determinacji

•

Jest to najważniejsza miara dopasowania funkcji regresji do

danych empirycznych. Przyjmuje on wartość z przedziału od 0 do 1, przy czym im większa jego wartość, tym lepsze

dopasowanie funkcji. Określa on, ile % zmienności cechy Y

zostało wyjaśnione przy pomocy oszacowanej funkcji regresji (ile

% tej zmienności wynika z czynników uwzględnionych w równaniu regresji). W przypadku prostej regresji liniowej wiadomo, że

R² = 1 −

∑N

i=1 (y_i − ̂y_i)²

∑N

i=1 (y_i − y)² .

R² = (r_xy)² .

(6)

Współczynnik determinacji

N

∑i=1

(y_i − y)² − zmienność całkowita

N

∑i=1

(y_i − ̂y_i)² − zmienność pozostała

N

∑i=1

( ̂y_i − y_i)² − zmienność wyjaśniona

N

∑i=1

(y_i − y)² = ∑^N

i=1

( ̂y_i − y_i)² + ∑^N

i=1

(y_i − ̂y_i)²

(7)

Przykład

Zbadamy dopasowanie oszacowanej funkcji regresji do danych empirycznych. Obliczenia należy zacząć od wyznaczenia

teoretycznych wartości zmiennej zależnej wyznaczonych przez funkcję regresji, a następnie obliczamy reszty.

Numer

pracownika Staż pracy (w latach) Wydajność pracy (w szt./h)

1 1 10

2 2 11

3 3 12

4 4 14

5 5 15

6 5 15

7 6 16

8 7 18

9 8 19

10 9 20

̂y = 8,5 + 1,3 ⋅ x .

(8)

Przykład

Staż pracy

(w latach) Wydajność pracy (w szt./h)

1 10 9,8 0,2 0,04

2 11 11,1 -0,1 0,01

3 12 12,4 -0,4 0,16

4 14 13,7 0,3 0,09

5 15 15 0,0 0,00

6 16 16,3 -0,3 0,09

7 18 17,6 0,4 0,16

8 19 18,9 0,1 0,01

9 20 20,2 -0,2 0,04

Razem — — 0,60

x_i y_i _îy = 8,5 + 1,3 ⋅ x_i e_i = y_i − ̂y_i e_i² = (y_i − ̂y_i)²

N = 10, S_e =

∑N i=1 e_i²

N − 2 = 0,6

10 − 2 = 0,27.

(9)

Przykład

S_e =

∑N

i=1 e_i²

N − 2 = 0,6

10 − 2 = 0,27.

Oznacza to, że wyznaczając wydajność pracy pracowników na podstawie oszacowanej funkcji regresji mylimy się średnio o ± 0,27 sztuk/h. Innymi słowy, teoretyczna (obliczona na podstawie funkcji regresji) wydajność pracy poszczególnych pracowników różni się od wydajności rzeczywistej o ± 0,27 sztuk na godzinę.

(10)

Przykład

1 10 9,8 0,2 0,04 25

2 11 11,1 -0,1 0,01 16

3 12 12,4 -0,4 0,16 9

4 14 13,7 0,3 0,09 1

5 15 15 0,0 0,00 0

6 16 16,3 -0,3 0,09 1

7 18 17,6 0,4 0,16 9

8 19 18,9 0,1 0,01 16

9 20 20,2 -0,2 0,04 25

Razem 150 — — 0,60 102

x_i y_i _îy = 8,5 + 1,3 ⋅ x_i e_i² = (y_i − ̂y_i)²

N = 10, y = 150

10 = 15, R² = 1 −

∑N

i=1 (y_i − ̂y_i)²

∑N

i=1 (y_i − y)² = 1 − 0,6

102 = 0,9941.

e_i = y_i − ̂y_i (y_i − y)²

(11)

Przykład

R² = 0,9941.

Otrzymano wartość współczynnika determinacji bliską 1, a więc dopasowanie funkcji regresji do danych empirycznych jest bardzo dobre. Zmienność wydajności pracy została

wyjaśniona przez badaną regresję aż w 99,41%.

Wydajność pracy

7 10 13 16 19 22

Staż pracy

0 1 2 3 4 5 6 7 8 9

y = 1,3x + 8,5

R² = 0,9941

(12)

Wykorzystanie funkcji regresji

Właściwie wyspecyﬁkowana, tzn. poprawna merytorycznie i dobrze dopasowana do danych empirycznych funkcja regresji może posłużyć do przewidywania wartości jednej zmiennej przy znanym poziomie drugiej. Warunkiem jest jednak, aby relacje między zmiennymi nie uległy znacznym zmianom, np.

pod wpływem nieprzewidzianych, losowych okoliczności.

Ponieważ jednak funkcja regresji z jedną zmienną niezależną stanowi bardzo mocne uproszczenie rzeczywistości, również prognozy dokonywane są nieco „na wyrost”.

(13)

Przykład

Na podstawie oszacowanej funkcji regresji z poprzedniego przykładu:

̂y = 8,5 + 1,3 ⋅ x

przewidzimy jakiej wydajności można się spodziewać po pracowniku o stażu dwunastoletnim.

Interesuje nas, jaką wydajność może osiągnąć pracownik ze stażem

x^P = 12

Prognozę tę wyznaczymy podstawiając powyższą wartość do równania regresji.

(14)

Przykład

Otrzymujemy:

̂y = 8,5 + 1,3 ⋅ x^P = 8,5 + 1,3 ⋅ 12 = 24,1 szt./h .

Oznacza to, że po pracowniku z dwunastoletnim stażem można się spodziewać, że w ciągu godziny wyprodukuje średnio 24,1 sztuk wyrobu. Nasze szacunki są obarczone

pewnym błędem, który przyjmujemy na poziomie średniego błędu szacunku. Zatem uwzględniając wartość błędu, do

otrzymanego wyniku dodamy i odejmiemy 0,27 szt./h;

uzyskujemy w ten sposób przedział liczbowy (23,83; 24,37).

Urealniając ten wynik, możemy zatem przypuszczać, że

pracownik z 12-letnim stażem wyprodukuje od 23 do 25 szt.

wyrobu w ciągu godziny.

(15)

Współczynnik korelacji rang Spearmana

Służy on do badania zależności dwóch cech przedstawionych w szeregu korelacyjnym. Cechy te mogą być mierzalne lub niemierzalne ale porządkowe. Liczba badanych jednostek powinna być nieduża (poniżej 30).

Przypuśćmy, że badamy N jednostek analizując dwie cechy.

Elementy te można można więc uporządkować ze względu na obie cechy. Poszczególnym uporządkowanym wariantom cechy nadajemy kolejne numery, które określa się mianem rang, a

procedurę nadawania rang — rangowaniem.

(16)

Rangowanie

Poszczególnym uporządkowanym wariantom cechy

przyporządkowujemy kolejne liczby naturalne. W sytuacji, gdy kilka jednostek badania ma takie same warianty cechy, rangi ustalane są wówczas jako średnia arytmetyczna z

kolejnych pozycji na jakich znalazły się jednostki badania posiadające dany wariant cechy, np.

Nr jednostki Wariant cechy Ranga

1 podstawowe 1

2 zawodowe 2

3 średnie 4

Średnia z 3, 4, 5

4 średnie 4

5 średnie 4

6 wyższe 6,5 Średnia z 6, 7

7 wyższe 6,5

(17)

Współczynnik korelacji rang Spearmana

Współczynnik korelacji rang Spearmana wyznacza się na podstawie następującego wzoru

gdzie di oznaczają różnice między rangami odpowiadających sobie wartości xi i yi tzn. rangami cech X i Y dla

poszczególnych jednostek badania.

r_s = 1 − 6 ∑^N

i=1 d_i² N(N² − 1) ,

(18)

Współczynnik korelacji rang Spearmana

Współczynnik korelacji rang Spearmana przyjmuje wartości z przedziału od -1 do 1. Im wartość tego miernika jest bliższa -1, tym silniejsza ujemna korelacja między badanymi

cechami, z kolei — im bliższa 1, tym silniejsza korelacja

dodatnia. Wartości bliskie zeru wskazują na słabą zależność.

Współczynnik ten jest symetryczny, to znaczy zależność Y od X jest taka sama jak zależność X od Y.

Sposób wyznaczania współczynnika rang zaprezentujemy dla dwóch sytuacji, w których zalecane jest jego użycie: dla obu cech mierzalnych oraz w sytuacji, gdy jedna z cech jest

niemierzalna, ale której warianty dają się uporządkować.

(19)

Przykład I

Za pomocą współczynnika rang ustalimy zależność między emisją zanieczyszczeń powietrza CO2 a liczbą ludności w starych krajach Unii Europejskiej i w Polsce w 2004 roku.

Kraj Liczba ludności

(w tys.) Emisja zanieczyszczeń powietrza CO2

(w mln ton)

Austra 8 105 79,5

Belgia 10 416 123,5

Dania 5 401 50,5

Finlandia 5 226 56,7

Francja 60 044 415,7

Grecja 11 015 110,5

Hiszpania 43 768 368,3

Irlandia 4 024 47,7

Luksemburg 454 12,1

Holandia 16 275 175,9

Niemcy 82 561 876,8

Portugalia 10 524 68,7

Szwecja 8 991 51,5

Wielka

Brytania 59 561 555,6

Włochy 57 537 488

Polska 38 180 317,7

(20)

Przykład I

Rangowanie ze względu na pierwszą cechę - Liczbę ludności.

Kraj Liczba ludności

(w tys.) Ranga

Luksemburg 454 1

Irlandia 4 024 2

Finlandia 5 226 3

Dania 5 401 4

Austra 8 105 5

Szwecja 8 991 6

Belgia 10 416 7

Portugalia 10 524 8

Grecja 11 015 9

Holandia 16 275 10

Polska 38 180 11

Hiszpania 43 768 12

Włochy 57 537 13

Wielka Brytania 59 561 14

Francja 60 044 15

Niemcy 82 561 16

(21)

Przykład I

Rangowanie ze względu na drugą cechę - Emisję zanieczyszczeń.

Kraj Emisja zanieczyszczeń powietrza CO2

(w mln ton)

Ranga

Luksemburg 12,1 1

Irlandia 47,7 2

Dania 50,5 3

Szwecja 51,5 4

Finlandia 56,7 5

Portugalia 68,7 6

Austra 79,5 7

Grecja 110,5 8

Belgia 123,5 9

Holandia 175,9 10

Polska 317,7 11

Hiszpania 368,3 12

Francja 415,7 13

Włochy 488 14

Wielka Brytania 555,6 15

Niemcy 876,8 16

(22)

Przykład I

Obliczenie różnic między rangami

Kraj

Liczba ludności

(w tys.)

Emisja zanieczyszczeń powietrza CO2

(w mln ton) Rangi X Rangi Y Różnice rang Kwadraty różnic rang

Luksemburg 454 12,1 1 1 0 0

Irlandia 4 024 47,7 2 2 0 0

Finlandia 5 226 56,7 3 5 -2 4

Dania 5 401 50,5 4 3 1 1

Austra 8 105 79,5 5 7 -2 4

Szwecja 8 991 51,5 6 4 2 4

Belgia 10 416 123,5 7 9 -2 4

Portugalia 10 524 68,7 8 6 2 4

Grecja 11 015 110,5 9 8 1 1

Holandia 16 275 175,9 10 10 0 0

Polska 38 180 317,7 11 11 0 0

Hiszpania 43 768 368,3 12 12 0 0

Włochy 57 537 488 13 14 -1 1

Wielka Brytania 59 561 555,6 14 15 -1 1

Francja 60 044 415,7 15 13 2 4

Niemcy 82 561 876,8 16 16 0 0

Razem — — — — — 28

x_i y_i d_i d_i²

(23)

Przykład I

x_i y_i d_i d_i²

Przystępujemy do obliczenia współczynnika korelacji rang Spearmana.

N = 16, ∑^N

i=1

d_i² = 28,

r_s = 1 − 6 ⋅ ∑^N

i=1 d_i²

N(N² − 1) = 1 − 6 ⋅ 28

16 ⋅ (16² − 1) = 1 − 0,041 = 0,959.

(24)

Przykład I

x_i

Otrzymany wynik współczynnika rang 0,959 wskazuje na dodatnią i silną zależność między emisją zanieczyszczeń powietrza dwutlenkiem węgla a liczbą ludności w starych krajach Unii Europejskiej i w Polsce w 2004 roku.

Emisja CO2 (w mln ton) 7 185,6 364,2 542,8 721,4 900

Liczba ludności (w tys.)

0 20000 40000 60000 80000

(25)

Przykład II

Za pomocą współczynnika rang ustalimy zależność między czasem poświęconym na naukę języka obcego a poziomem znajomości tego języka

Uczeń Czas poświęcony

dziennie na naukę (w godz.)

Poziom znajomości języka obcego

Katarzyna Beksa 5 biegły

Przemysław Bełkot 4 dobry

Paweł Dentka 3 dobry

Michalina Drzwi-Okno 3 przeciętny

Franciszek Głąb 2 przeciętny

Jacek Kolosalny 1 słaby

Leokadia Masełko 4 biegły

Rafał Nieuważny 4 biegły

Józef Piszpan 1 przeciętny

Zyglinda Żyłka 2 przeciętny

(26)

Przykład II

Rangowanie dla cechy pierwszej — czas poświęcony nauce.

Nr Uczeń Czas poświęcony

Poziom znajomości

języka obcego Rangi X

1 Jacek Kolosalny 1 słaby 1,5

2 Józef Piszpan 1 przeciętny 1,5

3 Franciszek Głąb 2 przeciętny 3,5

4 Zyglinda Żyłka 2 przeciętny 3,5

5 Paweł Dentka 3 dobry 5,5

6 Michalina Drzwi-Okno 3 przeciętny 5,5

7 Przemysław Bełkot 4 dobry 8

8 Leokadia Masełko 4 biegły 8

9 Rafał Nieuważny 4 biegły 8

10 Katarzyna Beksa 5 biegły 10

(27)

Przykład II

Rangowanie dla cechy drugiej — poziom znajomości języka.

Nr Uczeń

Czas poświęcony dziennie na

naukę (w godz.)

języka obcego Rangi X Rangi Y

1 Jacek Kolosalny 1 słaby 1,5 1

2 Józef Piszpan 1 przeciętny 1,5 3,5

3 Franciszek Głąb 2 przeciętny 3,5 3,5

4 Zyglinda Żyłka 2 przeciętny 3,5 3,5

5 Michalina Drzwi-Okno 3 przeciętny 5,5 3,5

6 Paweł Dentka 3 dobry 5,5 6,5

7 Przemysław Bełkot 4 dobry 8 6,5

8 Leokadia Masełko 4 biegły 8 9

9 Rafał Nieuważny 4 biegły 8 9

10 Katarzyna Beksa 5 biegły 10 9

(28)

Przykład II

Obliczanie różnic rang i ich kwadratów:

Nr Uczeń Czas poświęcony

języka obcego Rangi X Rangi Y

1 Jacek Kolosalny 1 słaby 1,5 1 0,5 0,25

2 Józef Piszpan 1 przeciętny 1,5 3,5 -2 4

3 Franciszek Głąb 2 przeciętny 3,5 3,5 0 0

4 Zyglinda Żyłka 2 przeciętny 3,5 3,5 0 0

5 Michalina Drzwi-

Okno 3 przeciętny 5,5 3,5 2 4

6 Paweł Dentka 3 dobry 5,5 6,5 -1 1

7 Przemysław Bełkot 4 dobry 8 6,5 1,5 2,25

8 Leokadia Masełko 4 biegły 8 9 -1 1

9 Rafał Nieuważny 4 biegły 8 9 -1 1

10 Katarzyna Beksa 5 biegły 10 9 1 1

Razem — — — — — 14,5

d_i d_i²

r_s = 1 − 6 ⋅ ∑^N

i=1 d_i²

N(N² − 1) = 1 − 6 ⋅ 14,5

10 ⋅ (10² − 1) = 1 − 0,09 = 0,91.

(29)

Przykład II

Wartość współczynnika rang Speramana równa 0,91 wskazuje na dodatnią silną zależność między ilością godzin

poświęconych dziennie na naukę języka obcego a poziomem znajomości tego języka. Oznacza to, że osoba poświęcająca dziennie więcej czasu na opanowanie języka obcego osiąga na ogół lepsze rezultaty w tym względzie.

Rangi dla cechy Y

0 2 4 6 8 10

Rangi dla cechy X

1 2 3 4 5 6 7 8 9 10

(30)

Miary korelacji dla danych pogrupowanych w tablicy

Poprzednie rozdziały poświęcone były wykrywaniu korelacji w sytuacji, gdy materiał statystyczny był zawarty w szeregu korelacyjnym. Jednakże, przy dużej liczebności badanej

zbiorowości szereg korelacyjny nie jest dogodną formą opisu zależności, gdyż zawiera zbyt wiele szczegółowych informacji.

W celu uzyskania bardziej syntetycznego obrazu, konieczny jest podział jednostek na grupy według dwóch zmiennych (cech) jednocześnie. W efekcie otrzymujemy tablicę

korelacyjną, zwaną też tablicą współzależności.

(31)

Schemat tablicy korelacyjnej

Warianty zmiennej niezależnej

Warianty zmiennej zależnej

…

. . . . .

…

x_i x₁ x₂

x_l

y₁ y₂ y_k

y_j

n₁₁ n₂₁

n₁₂ n_1k

n_2k n₂₂

n_l1 n_l2 n_lk

n_∙j = ∑^l

i=1

n_ij n_∙1 n_∙2 n_∙k

n_i∙ = ∑^k

j=1

n_ij

n_1∙

n_2∙

n_l∙

N

N - ogólna liczba jednostek,

n_i∙ - liczebności brzegowe cechy X, n_∙j - liczebności brzegowe cechy Y .

n_ij - liczebności warunkowe odpowiadające:

i-temu wariantowi cechy X j-temu wariantowi cechy Y

(32)

Miary korelacji dla danych pogrupowanych w tablicy

Tablica korelacyjna składa się z l rozkładów warunkowych cechy Y (dla każdego xi):

⋮

(33)

Miary korelacji dla danych pogrupowanych w tablicy

i z k rozkładów cechy X (dla każdego yi):

⋯

(34)

Miary korelacji dla danych pogrupowanych w tablicy

oraz z dwóch rozkładów brzegowych: cechy X i cechy Y:

(35)

Miary korelacji dla danych pogrupowanych w tablicy

Bardzo ważne w analizie korelacji są rozkłady warunkowe.

Jeśli między cechami nie ma zależności, to rozkłady warunkowe y nie zależą od X i tym samym średnie warunkowe (grupowe) Y będą niezależne od X.

y(x₁)| pod warunkiem, że X = x₁ y(x₂)| pod warunkiem, że X = x₂

y(x_l)| pod warunkiem, że X = x_l średnie grupowe:

⋮

(36)

Miary korelacji dla danych pogrupowanych w tablicy

Jeśli natomiast wraz ze wzrostem wartości cechy X rosną

średnie grupowe cechy Y, to mamy do czynienia z zależnością dodatnią. W przypadku przeciwnym istnieje zależność

ujemna.

Obserwacja rozkładów warunkowych, a w szczególności

średnich grupowych, to jedna z metod wykrywania zależności dwóch cech w tablicy korelacyjnej. Do innych metod

pozwalających na wykrycie zależności tak zaprezentowanych danych należą: analiza wykresów rozrzutu punktów

empirycznych oraz analiza liczebności w tablicy korelacyjnej.

(37)

Analiza wykresu rozrzutu punktów empirycznych

Cena diamentu (w dolarach)

-1000 1000 3000 5000 7000 9000 11000 13000 15000 17000 19000

Waga diamentu (w caratach)

0,1 0,4 0,7 1 1,3 1,6

(38)

Analiza liczebności w tablicy korelacyjnej

Jeżeli w każdym polu tablicy są jednakowe liczebności nij, to między cechami nie istnieje zależność. Gdy liczebności

układają się wzdłuż przekątnej biegnącej od prawego górnego do lewego dolnego rogu tablicy wówczas można przypuszczać, że zależność istnieje, jest prostoliniowa i ma charakter

ujemny. Rozkład liczebności warunkowych wzdłuż drugiej przekątnej oznacza korelację dodatnią, również liniową.

(39)

Analiza liczebności w tablicy korelacyjnej

Im mniej pasażerów zabieramy tym szybciej jedziemy?

Liczba pasazerów

Prędkość samochodu

45 — 55 55 — 65 65 — 75 75 — 85 85 — 95

0 0 1 1 1 0

1 1 3 3 0 1

2 1 2 3 1 0

3 2 3 0 0 0

4 0 2 0 0 0

x_i

y_j

(40)

Miary korelacji dla

pogrupowanych danych

Istnieje kilka miar korelacji dwóch cech pogrupowanych w tablicy korelacyjnej i tablicy kontyngencji. Wybór właściwej

miary uzależniony jest od: rodzaju cech statystycznych, kształtu zależności między badanymi cechami, wielkości tablicy

korelacyjnej lub tablicy kontyngencji (liczby kolumn i wierszy).

Szerokie zastosowanie mają następujące miary:

•

Stosunek korelacji, eyx,

•

Współczynnik C-Pearsona, C,

•

Współczynnik Q-Yule’a, Q.

(41)

Stosunek korelacji

Oparty jest na obserwacji, że przy braku korelacji wszystkie średnie grupowe cechy Y są jednakowe i równe średniej

ogólnej cechy Y. Jest on relacją zróżnicowania średnich

grupowych w stosunku do ogólnego zróżnicowania wartości cechy Y.

e_yx = S_y(x) S_y ,

y - średnia ogólna cechy Y,

S_y - odchylenie standardowe cechy Y,

S_y(x) - odchylenie standardowe średnich grupowych: y(x₁), …, y(x_l) .

(42)

Stosunek korelacji

Z powyższego wzoru wynika, że obliczenia dotyczą tylko zmiennej Y, a zmienna X służy tylko do ustalenia grup

wartości zmiennej Y. Zatem cecha X może być mierzalna lub niemierzalna.

y = 1 N

k

∑j=1

y_jn_∙j = 1 N

l

∑i=1 k

∑j=1

y_jn_ij, S_y = 1 N

k

∑j=1

(y_j − y)²n_∙j ,

y(x_i) = 1 n_i∙

k

∑j=1

y_jn_ij, S_y(x) = 1 N

l

∑i=1

(y(x_i) − y)²n_i∙ .

(43)

Stosunek korelacji

Stosunek korelacji zawiera się w przedziale od 0 do 1:

0 ⩽ e_yx ⩽ 1.

Przy braku korelacji

e_yx = 0.

Im jego wartość jest bliższa 1, tym korelacja jest silniejsza.

(44)

Własności stosunku korelacji

•

Stosunek korelacji nie jest miarą symetryczną, tzn. exy nie jest równe eyx, nawet gdy obie cechy X i Y są mierzalne i można obliczyć oba te współczynniki.

•

Jeżeli w powyższym przypadku obliczymy współczynnik korelacji Pearsona, to

|r_xy | ⩽ e_yx,

A równość występuje tylko w przypadku zależności liniowej.

(45)

Własności stosunku korelacji

•

Stosunek korelacji może być obliczony również dla

zależności nieliniowej, ale cecha Y musi być mierzalna, np.

Miejsce zamieszkania

X

Ocena z matematyki na maturze Y

Ogółem

3 4 5

Wieś 25 6 2 33

Małe miasto 5 38 1 44

Duże miasto 3 6 14 23

Ogółem 33 50 17 100

(46)

Przykład I — Obie cechy mierzalne

Wylosowano 100 jednoosobowych gospodarstw domowych i zbadano je pod względem wysokości miesięcznych dochodów w zł oraz procentowego udziału wydatków na żywność w

wydatkach ogółem.

Miesięczne dochody w zł

X

Procentowy udział wydatków na żywność,

Y Ogółem

30 — 32 32 — 34 34 — 36

800 — 1200 — 1 18 19

1200 — 1600 3 55 2 60

1600 — 2000 19 2 — 21

Ogółem 22 58 20 100

(47)

Przykład I — Obie cechy mierzalne

X

Y Ogółem

30 — 32 32 — 34 34 — 36

800 — 1200 — 1 18 19

1200 — 1600 3 55 2 60

1600 — 2000 19 2 — 21

22 58 20 100

31 33 35 —

682 1914 700 3296

y = 1 N

k

∑j=1

y∘_jn_∙j = 3296

100 = 32,96 %

n_∙j y∘_j

n_∙jy^∘_j

(48)

Przykład I — Obie cechy mierzalne

X

Y Ogółem

30 — 32 32 — 34 34 — 36

800 — 1200 — 1 18 19

1200 — 1600 3 55 2 60

1600 — 2000 19 2 — 21

22 58 20 100

31 33 35 —

682 1914 700 3296

3,8416 0,0016 4,1616 —

84,52 0,09 83,23 167,84

n_∙j y∘_j

n_∙jy^∘_j (y^∘_j − y)² n_∙j(y^∘_j − y)²

(49)

Przykład I — Obie cechy mierzalne

S_y = 1 N

k

∑j=1

(y^∘_j − y)²n_∙j = 167,84

100 = 1,3

(50)

Przykład I — Obie cechy mierzalne

X

Proc. udział wyd. Y

Razem 30 — 32 32 — 34 34 — 36

800 — 1200

— 1 18 19

34,89 19 71,1209

31 33 35 —

0 33 630 663

1200 — 1600

3 55 2 60

32,97 60 0,0027

31 33 35 —

93 1815 70 1978

1600 — 2000

19 2 — 21

31,19 21 65,7555

31 33 35 —

589 66 0 655

Ogółem — — — — — 100 136,88

n_1j y∘_j

n_1jy^∘_j

y(x_i)

n_2j y∘_j

n_2jy^∘_j n_3j

y∘_j

n_3jy^∘_j

(y(x_i) − y)² ⋅ n_i∙

n_i∙

S_y(x) = 1N

l

∑i=1

(y(x_i) − y)²n_i∙ = 136,88100 = 1,17

(51)

S_y(x) = 1,17,

e_yx = S_y(x)

S_y = 1,17

1,3 = 0,9.

S_y = 1,3, Podstawiając odpowiednie wartości:

otrzymujemy, że stosunek korelacji jest równy

Uzyskany wynik mówi o silnej zależności udziału wydatków na żywność w wydatkach ogółem od dochodów badanych gospodarstw jednoosobowych, a malejące średnie grupowe potwierdzają znaną w ekonomii zależność — prawo Engla.

Przykład I — Obie cechy mierzalne

(52)

Średnie grupowe cechy Y

30 31 32 33 34 35

Środki klas dla cechy X

1000 1160 1320 1480 1640 1800

Przykład I — Obie cechy mierzalne

(53)

Przykład II — Cecha X niemierzalna

W 2008 roku przeprowadzono badanie w grupie 100

studentów I roku prawa, mające na celu potwierdzenie zależności między miejscem zamieszkania a oceną z

matematyki uzyskaną na maturze.

X

Ogółem

3 4 5

Wieś 25 6 2 33

Ogółem 33 50 17 100

(54)

X

Ogółem

3 4 5

Wieś 25 6 2 33

33 50 17 100

99 200 85 384

0,7056 0,0256 1,3456 —

23,2848 1,28 22,8752 47,44

n_∙j n_∙jy_j (y_j − y)² n_∙j(y_j − y)²

y = 1 N

k

∑j=1

y_jn_∙j = 384

100 = 3,84 S_y = 1 N

k

∑j=1

(y_j − y)²n_∙j = 47,44

100 = 0,69

Przykład II — Cecha X niemierzalna

(55)

X

Ocena z matematyki na maturze Y

3 4 5

Wieś 25 6 2 33 109 3,30 9,52

Małe miasto 5 38 1 44 172 3,91 0,21

Duże miasto 3 6 14 23 103 4,48 9,37

Ogółem 33 50 17 100 384 — 19,09

n_i∙ ∑³

j=1

n_ijy_j _y(x_i_{) (y(x}_i_{) − y)}² _{⋅ n}_i∙

S_y(x) = 1 N

l

∑i=1

(y(x_i) − y)²n_i∙ = 19,09

100 = 0,44

Przykład II — Cecha X niemierzalna

(56)

S_y(x) = 0,44,

e_yx = S_y(x)

S_y = 0,44

0,69 = 0,64.

S_y = 0,69, Podstawiając odpowiednie wartości:

otrzymujemy, że stosunek korelacji jest równy

Uzyskany wynik mówi o umiarkowanej zależności między miejscem zamieszkania a oceną uzyskaną na maturze z

matematyki. Rosnące średnie grupowe świadczą o korelacji

dodatniej: im większe miejsce zamieszkania tym wyższa ocena.

Przykład II — Cecha X niemierzalna

(57)

Tablica kontyngencji

W przypadku, gdy obie cechy X i Y są niemierzalne zamiast tablicy korelacyjnej używa się określenia tablica kontyngencji lub tablica kontyngencyjna.

Miarą wykorzystywaną do określenia związku między cechami niemierzalnymi jest najczęściej współczynnik współzależności C-Pearsona:

C = χ²

χ² + N ,

gdzie χ² to wartość statystyki χ² (chi-kwadrat).

(58)

Tablica kontyngencji

Wartość statystyki chi-kwadrat wyznaczamy na podstawie danych z tablicy kontyngencji według następującego wzoru

χ² = ∑^l

i=1

k

∑j=1

(n^ij − ̂n_ij)²

̂nij ,

n_ij - liczebności warunkowe (empiryczne),

gdzie

gdyby cechy były niezależne:

̂nij - liczebności teoretyczne, czyli takie, które wystąpiłyby,

̂nij = n_i∙ ⋅ n_∙j N .

(59)

Współczynnik C-Pearsona

Współczynnik C-Pearsona

C = χ² χ² + N

oblicza się dla przypadku cech jakościowych (niemierzalnych) oraz tablic wielopolowych, czyli tablic większych niż 2 x 2.

Miara ta zawiera się w przedziale od 0 do 1. Wartości współczynnika bliskie 0 oznaczają słabą, a wartości współczynnika bliskie 1 — silną współzależność cech.

(60)

Skorygowany współczynnik C-Pearsona

Ponieważ poziom współczynnik C-Pearsona zależy od rozmiaru tablicy, aby móc porównywać współczynniki pochodzące z tablic różnej wielkości, proponuje się tzw.

skorygowany współczynnik C-Pearsona:

C_skor = C ⋅ C*

C* − 1 ,

gdzie

C* = min(l, k),

l - liczba wierszy tablicy kontyngencji, k - liczba kolumn tablicy kontyngencji.

(61)

Przykład

W pewnej szkole języka angielskiego nauczano trzema

metodami: tradycyjną (A), Callana (B), relaksacyjną (C).

Pod koniec kursu przeprowadzono egzamin i otrzymano następujące wyniki:

Wyniki X

Metoda nauczania, Y

Razem

A B C

Pozytywne 30 80 50 160

Negatywne 10 60 20 90

Razem 40 140 70 250

Ustalimy siłę zależności między tymi cechami niemierzalnymi.

(62)

Przykład

Wyniki X

Metoda nauczania, Y

Razem

A B C

Pozytywne Negatywne

Razem

n₁₁ = 30 n₂₁ = 10 n_∙1 = 40

n₁₂ = 80 n₂₂ = 60 n_∙2 = 140

n₁₃ = 50 n₂₃ = 20

n_∙3 = 70 N = 250 n_1∙ = 160

n_2∙ = 90

Liczebności teoretyczne:

̂n11 = n_1∙ ⋅ n_∙1

N = 160 ⋅ 40

250 = 25,6 ₁₂̂n = n_1∙ ⋅ n_∙2

N = 160 ⋅ 140

250 = 89,6 ₁₃̂n = n_1∙ ⋅ n_∙3

N = 160 ⋅ 70

250 = 44,8

̂n21 = n_2∙ ⋅ n_∙1

N = 90 ⋅ 40

250 = 14,4 ₂₂̂n = n_2∙ ⋅ n_∙2

N = 90 ⋅ 140250 = 50,4 ₂₃̂n = n_2∙ ⋅ n_∙3

N = 90 ⋅ 70250 = 25,3

(63)

Przykład

30 25,6 4,4 19,36 0,76

80 89,6 -9,6 92,16 1,03

50 44,8 5,2 27,04 0,60

10 14,4 -4,4 19,36 1,34

60 50,4 9,6 92,16 1,83

20 25,3 -5,3 28,09 1,11

Razem — — — 6,67

n_ij _iĵn n_ij − ̂n_ij (n_ij − ̂n_ij)² (n_ij − ̂n_ij)²

̂nij

χ² = (n_ij − ̂n_ij)²

̂nij = 6,67 C = χ²

χ² + N = 6,67

6,67 + 250 = 0,16

(64)

Przykład

C = χ²

χ² + N = 6,67

6,67 + 250 = 0,16

Wartość współczynnika C-Pearsona jest niska i bliska zeru, gdyż C = 0,16. Współzależność między wynikami kursu

językowego a metodą nauczania języka angielskiego jest

bardzo słaba. Można zatem przypuszczać, że wszystkie trzy metody nauczania dają podobne wyniki.