Statystyka Opisowa 2014 część 2
Katarzyna Lubnauer
Literatura:
1. „Statystyka w Zarządzaniu” ‚ Admir D. Aczel
2. „Statystyka Opisowa od Podstaw” ‚ Ewa Wasilewska 3. „Statystyka” , Lucjan Kowalski.
4. „Statystyka opisowa”, Mieczysław Sobczyk
Są trzy rodzaje kłamstw: kłamstwa,
przeklęte kłamstwa i statystyki.
Naszym celem jest odpowiedź na 4 pytania:
• Czy między badanymi cechami występuje współzależność.
• Jaki jest kształt zależności (liniowa, nieliniowa).
• Jaka jest jej siła.
• Jaki jest jej kierunek.
Badanie zależności między dwiema cechami – analiza korelacji.
Badając różnego rodzaju zjawiska, np. społeczne, ekonomiczne, psychologiczne, przyrodnicze itp. stwierdzamy, ze często jedno z nich jest uwarunkowane
działaniem innych zjawisk. Zastanawiamy się nad charakterystyką tej zależności.
Np.
Czy cena lodów ma wpływ na ich sprzedaż?
Czy temperatura powietrza ma wpływ na sprzedaż lodów?
Czy cena samochodów ma wpływ na cenę lodów?
Głupi ludzie, nie zawsze pozorna zależność oznacza przyczynę i skutek.
Szeregi dwucechowe szczegółowe – szereg korelacyjny
Wiek żony X, Wiek męża Y,
19 19
20 24
21 22
23 23
24 26
27 26
28 30
30 34
33 32
35 37
xi yi
Otrzymujemy więc zbiór par postaci:
( , x y i i )
gdzie:
1,...,
i n
Prezentacja graficzna szeregów dwucechowych, diagram korelacyjny:
0 100 200 300 400 500 600 700 800 900 1000
0 2 4 6 8 10
1 1
3 26
3 30
4 66
5 124
6 220
7 345
7 350
8 490
9 880
x
iy
iPrezentacja graficzna szeregów dwucechowych, diagram korelacyjny:
1 880
3 490
3 350
4 345
5 220
6 124
7 66
7 30
8 26
9 1
xi yi
0 100 200 300 400 500 600 700 800 900 1000
0 2 4 6 8 10
Szeregi dwucechowe rozdzielcze
x1
x2
x3
x4
x5
y1 y2 y3 y4 n11 n12
n21 n22 n23 n32
n42
n52
n24
n31
n41
n51
n33
n23
n43
n53 n54 n44
n34
n14
Gdzie warianty cechy X, zaś warianty cechy Y oraz liczebność pary:
xi yj nij
x y
i,
j
Przykład: Niech X czas nauki studentów do testu ze SO wyrażony w godzinach, zaś Y ocena z testu. Przyjmujemy, że do testu podeszło 100 studentów
8 4 3 1
7 5 5 3
4 6 6 4
3 5 8 7
1 4 7 9
1 3
x
2 5
x
3 7
x
4 9
x
5 11
x
1 2
y y2 3 y3 4 y4 5
Do dalszych analiz potrzebne nam będą liczebności brzegowe:
x1
x2
x3
x4
x5
y1 y2 y3 y4 n11 n12
n21 n22 n23
n32
n42
n52
n24
n31
n41
n51
n33
n13
n43
n53 n54 n44
n34
n14 n1 n2
n3
n4
n5
n1 n2 n3 n4
i ij
,
j ijj i
n
n n
n
8 4 3 1 16
7 5 5 3 20
4 6 6 4 20
3 5 8 7 23
1 4 7 9 21
23 24 29 24 100
1 3
x
2 5
x
3 7
x
4 9
x
5 11
x
1 2
y y2 3 y3 4 y4 5
n
in
jPrzykład: Niech X czas nauki studentów do testu ze SO wyrażony w godzinach, zaś Y ocena z testu. Przyjmujemy, że do testu podeszło 100 studentów, szukamy liczebności brzegowych.
Wyróżniamy dwa rodzaje zależności między cechami są to:
• Zależność funkcyjna – polegająca na tym, że zmiana wartości cechy X powoduje zmianę wartości cechy Y
• Zależność statystyczna – polegająca na tym, że jednej wartości cechy X przypada kilka wartości cechy Y
Przykład: X podatek, Y cena, można się spodziewać zależności Y = aX+a
Przykład: X wiek dziecka w miesiącach, Y waga dzieci
Wiek w miesiącach X Waga w kg Y
1 3,8
4,8 5,2
2 4,9
5,9 6,4
3 6,0
7,2
7,4 0
1 2 3 4 5 6 7 8
0 1 2 3 4
Potrzebujemy miary, która pomogłaby wyrazić siłę zależności w sposób liczbowy.
W celu badania zależności między zmiennymi korzystamy ze
współczynnika korelacji Pearsona
zdefiniowany wzorem:
cov ,
X Y
r X Y
s s
cov(X,Y) w zależności od postaci w jakiej mamy dane liczy się z różnych wzorów.
Dla szeregu szczegółowego (zależność podejrzewana o charakter funkcyjny) na policzenie kowariancji i odchylenia stosujemy wzory:
cov ,
1n
i i
i
x x y y
X Y n
2 1
2 1
1 ,
1
n
X i
i n
Y i
i
s x x
n
s y y
n
X Y
1 1
3 26
3 30
4 66
5 124
6 220
7 345
7 350
8 490
9 880
Wg Excela
X Y
1 1
3 26
3 30
4 66
5 124
6 220
7 345
7 350
8 490
9 880
cov ,
0,8917
X Y
r X Y
s s
X Y
1 880
3 490
3 350
4 345
5 220
6 124
7 66
7 30
8 26
9 1
cov ,
0, 9365
X Y
r X Y
s s
Wiek w miesiącach X Waga w kg Y
1 3,8
4,8 5,2
2 4,9
5,9 6,4
3 6,0
7,2 7,4
0 1 2 3 4 5 6 7 8
0 1 2 3 4
cov ,
0,8347
X Y
r X Y
s s
Dla szeregu rozdzielczego (zależność podejrzewana o charakter funkcyjny) na policzenie kowariancji stosujemy wzór:
8 4 3 1 16
7 5 5 3 20
4 6 6 4 20
3 5 8 7 23
1 4 7 9 21
23 24 29 24 100
1 3
x
2 5
x
3 7
x
4 9
x
5 11
x
1 2
y y2 3 y3 4 y4 5
n
in
1 1
cov ,
m k
ij i j
j i
n x x y y
X Y n
2 1
2
1
1 ,
1
k
X i i
i m
Y j j
i
s n x x
n
s n y y
n
0, 4321
r
Interpretacja współczynnika korelacji:
r - Współczynnik korelacji Pearsona jest miarą symetryczną. Oznacza to, że jest taki sam niezależnie, czy badamy zależność X od Y, czy odwrotnie.
1 r 1
Odpowiada na następujące pytania:
• Czy między badanymi cechami występuje współzależność
• Jaki jest kształt zależności (liniowa, nieliniowa)
1
r
oznacza zależność liniowąJeśli jest bliski, lub równy zero to przyjmuje się, że między zmiennymi nie ma zależności.
• Jaka jest jej siła
0,0.2
r
bardzo słaby związek 0.2, 0.4
r
słaby związek 0.4, 0.6
r
umiarkowany związek 0.6,0.8
r
silny związek 0.8,1.0
r
bardzo silny związek• Jaki jest jej kierunek
0 r
0 r
korelacja ujemna, wzrost jednej zmiennej powodował spadek drugiej korelacja dodatnia, wraz ze wzrostem jednej zmiennej wzrasta druga
Przykładowe diagramy z podaną wartością korelacji Pearsona
Współczynnik korelacji rang Spearmana
Współczynnik rang Spearmana
jest miarą statystyczną służącą do badania zależności, korelacji między dwiema cechami populacji, którystosujemy gdy:
• Mamy do czynienia z sytuacją, gdy jedna z cech jest jakościowa
(niemierzalna), ale dająca się uporządkować (porządkowa), a druga cecha jest mierzalna.
• Gdy mamy dwie jakościowe (niemierzalne), ale dające się uporządkować
• Gdy mamy dwie cechy mierzalne i niedużą liczebność próby, zaś współczynnik korelacji Pearsona zakłócają wartości odskakujące
Musimy najpierw zdefiniować pojęcie rangowania – czyli przypisywania wariantom cechy X, oraz cechy Y rang wynikających z kolejności w
uporządkowanym szeregu szczegółowym.
Rangowanie odbywa się po uporządkowaniu wariantów cechy od najmniejszej do największej, następnie przypisujemy każdemu wariantowi numer, który zajmuje w ciągu. Jeśli kilka wariantów jest równe to rangą jest średnią arytmetyczną kolejnych numerów przypadających na ten wariant.
Przykład:
2,4; 3,5; 3,5; 5; 2,4; 2,4; 3,5; 4; 5; 2,4
Uporządkowane kolejno z przypisanymi rangami wyglądają tak, gdzie :
X kolejność Rangi
2,4 1-4 2,5
2,4 1-4 2,5
2,4 1-4 2,5
2,4 1-4 2,5
3,5 5-7 6
3,5 5-7 6
3,5 5-7 6
4 8 8
5 9-10 9,5
5 9-10 9,5
xi
r xi
x
ir
oznacza rangę wariantu:
x i
Jeżeli teraz mamy dwie cechy odpowiednio X i Y mające warianty:
i , i
x y
przypisujemy im odpowiednio rangi:
i
,
ix y
r r
To współczynnik rang Spearmana liczymy ze wzoru
2 1 2
6
1 ( 1)
i
i i
n
i
s i x y
d
r gdzie d r r
n n
Uwaga, dla różnic rang zawsze zachodzi związek:
1
0
n
i i
d
Ponadto współczynnik
1 r s 1
I co za tym idzie:
s 1
r
Przykład
Badamy zależność między wykształceniem, a dniami urlopu w czasie roku:
X Y
podstawowe 24
średnie 18
zasadnicze zawodowe 17 wyższe magisterskie 10 wyższe licencjackie 9
podstawowe 22
zasadnicze zawodowe 15 wyższe licencjackie 8
podstawowe 23
wyższe magisterskie 7
Musimy teraz przypisać rangi, w tym celu najpierw porządkujemy warianty:
Warianty Rangi
podstawowe 2
średnie 6
zasadnicze zawodowe 4,5 wyższe magisterskie 9,5 wyższe licencjackie 7,5
podstawowe 2
zasadnicze zawodowe 4,5 wyższe licencjackie 7,5
podstawowe 2
wyższe magisterskie 9,5
Warianty Numery
podstawowe 1-3
podstawowe 1-3
podstawowe 1-3
zasadnicze zawodowe 4-5 zasadnicze zawodowe 4-5
średnie 6
wyższe licencjackie 7-8 wyższe licencjackie 7-8 wyższe magisterskie 9-10 wyższe magisterskie 9-10
Teraz przypisujemy wariantom rangi, zgodnie ze średnią
arytmetyczną numerów.
Najpierw wyznaczymy rangi dla cechy jakościowej, porządkowej jaką jest wykształcenie.
Musimy teraz przypisać rangi, w tym celu najpierw porządkujemy warianty:
Warianty Rangi
24 10
18 7
17 6
10 4
9 3
22 8
15 5
8 2
23 9
7 1
Warianty Numery
7 1
8 2
9 3
10 4
15 5
17 6
18 7
22 8
23 9
24 10
Teraz przypisujemy wariantom rangi, zgodnie ze średnią
arytmetyczną numerów.
Teraz wyznaczymy rangi dla cechy ilościowej, jaką jest liczba dni wolnych.
Cecha X Rangi cechy X Cecha Y Rangi cechy Y Różnica rang Kwadrat różnicy rang
podstawowe 2 24 10 -8 64
średnie 6 18 7 -1 1
zasadnicze zawodowe 4,5 17 6 -1,5 2,25
wyższe magisterskie 9,5 10 4 5,5 30,25
wyższe licencjackie 7,5 9 3 4,5 20,25
podstawowe 2 22 8 -6 36
zasadnicze zawodowe 4,5 15 5 -0,5 0,25
wyższe licencjackie 7,5 8 2 5,5 30,25
podstawowe 2 23 9 -7 49
wyższe magisterskie 9,5 7 1 8,5 72,25
suma 0 305,5
xi yi
xi
r ryi
d
id
i22 1 2
6
1 0,85152
( 1)
i
n
i s