• Nie Znaleziono Wyników

2014 część 2

N/A
N/A
Protected

Academic year: 2021

Share "2014 część 2"

Copied!
32
0
0

Pełen tekst

(1)

Statystyka Opisowa 2014 część 2

Katarzyna Lubnauer

(2)

Literatura:

1. „Statystyka w Zarządzaniu” ‚ Admir D. Aczel

2. „Statystyka Opisowa od Podstaw” ‚ Ewa Wasilewska 3. „Statystyka” , Lucjan Kowalski.

4. „Statystyka opisowa”, Mieczysław Sobczyk

Są trzy rodzaje kłamstw: kłamstwa,

przeklęte kłamstwa i statystyki.

(3)

Naszym celem jest odpowiedź na 4 pytania:

• Czy między badanymi cechami występuje współzależność.

• Jaki jest kształt zależności (liniowa, nieliniowa).

• Jaka jest jej siła.

• Jaki jest jej kierunek.

Badanie zależności między dwiema cechami – analiza korelacji.

Badając różnego rodzaju zjawiska, np. społeczne, ekonomiczne, psychologiczne, przyrodnicze itp. stwierdzamy, ze często jedno z nich jest uwarunkowane

działaniem innych zjawisk. Zastanawiamy się nad charakterystyką tej zależności.

Np.

Czy cena lodów ma wpływ na ich sprzedaż?

Czy temperatura powietrza ma wpływ na sprzedaż lodów?

Czy cena samochodów ma wpływ na cenę lodów?

(4)

Głupi ludzie, nie zawsze pozorna zależność oznacza przyczynę i skutek.

(5)
(6)

Szeregi dwucechowe szczegółowe – szereg korelacyjny

Wiek żony X, Wiek męża Y,

19 19

20 24

21 22

23 23

24 26

27 26

28 30

30 34

33 32

35 37

xi yi

Otrzymujemy więc zbiór par postaci:

( , x y i i )

gdzie:

1,...,

in

(7)

Prezentacja graficzna szeregów dwucechowych, diagram korelacyjny:

0 100 200 300 400 500 600 700 800 900 1000

0 2 4 6 8 10

1 1

3 26

3 30

4 66

5 124

6 220

7 345

7 350

8 490

9 880

x

i

y

i

(8)

Prezentacja graficzna szeregów dwucechowych, diagram korelacyjny:

1 880

3 490

3 350

4 345

5 220

6 124

7 66

7 30

8 26

9 1

xi yi

0 100 200 300 400 500 600 700 800 900 1000

0 2 4 6 8 10

(9)

Szeregi dwucechowe rozdzielcze

x1

x2

x3

x4

x5

y1 y2 y3 y4 n11 n12

n21 n22 n23 n32

n42

n52

n24

n31

n41

n51

n33

n23

n43

n53 n54 n44

n34

n14

Gdzie warianty cechy X, zaś warianty cechy Y oraz liczebność pary:

xi yj nij

x y

i

,

j

(10)

Przykład: Niech X czas nauki studentów do testu ze SO wyrażony w godzinach, zaś Y ocena z testu. Przyjmujemy, że do testu podeszło 100 studentów

8 4 3 1

7 5 5 3

4 6 6 4

3 5 8 7

1 4 7 9

1 3

x

2 5

x

3 7

x

4 9

x

5 11

x

1 2

yy2  3 y3  4 y4  5

(11)

Do dalszych analiz potrzebne nam będą liczebności brzegowe:

x1

x2

x3

x4

x5

y1 y2 y3 y4 n11 n12

n21 n22 n23

n32

n42

n52

n24

n31

n41

n51

n33

n13

n43

n53 n54 n44

n34

n14 n1 n2

n3

n4

n5

n1 n2 n3 n4

i ij

,

j ij

j i

n

  n n

  n

(12)

8 4 3 1 16

7 5 5 3 20

4 6 6 4 20

3 5 8 7 23

1 4 7 9 21

23 24 29 24 100

1 3

x

2 5

x

3 7

x

4 9

x

5 11

x

1 2

yy2  3 y3  4 y4  5

n

i

n

j

Przykład: Niech X czas nauki studentów do testu ze SO wyrażony w godzinach, zaś Y ocena z testu. Przyjmujemy, że do testu podeszło 100 studentów, szukamy liczebności brzegowych.

(13)

Wyróżniamy dwa rodzaje zależności między cechami są to:

• Zależność funkcyjna – polegająca na tym, że zmiana wartości cechy X powoduje zmianę wartości cechy Y

• Zależność statystyczna – polegająca na tym, że jednej wartości cechy X przypada kilka wartości cechy Y

Przykład: X podatek, Y cena, można się spodziewać zależności Y = aX+a

Przykład: X wiek dziecka w miesiącach, Y waga dzieci

Wiek w miesiącach X Waga w kg Y

1 3,8

4,8 5,2

2 4,9

5,9 6,4

3 6,0

7,2

7,4 0

1 2 3 4 5 6 7 8

0 1 2 3 4

(14)
(15)

Potrzebujemy miary, która pomogłaby wyrazić siłę zależności w sposób liczbowy.

W celu badania zależności między zmiennymi korzystamy ze

współczynnika korelacji Pearsona

zdefiniowany wzorem:

 

cov ,

X Y

r X Y

s s

cov(X,Y) w zależności od postaci w jakiej mamy dane liczy się z różnych wzorów.

(16)

Dla szeregu szczegółowego (zależność podejrzewana o charakter funkcyjny) na policzenie kowariancji i odchylenia stosujemy wzory:

    

cov ,

1

n

i i

i

x x y y

X Y n

 

 

 

 

2 1

2 1

1 ,

1

n

X i

i n

Y i

i

s x x

n

s y y

n

 

 

X Y

1 1

3 26

3 30

4 66

5 124

6 220

7 345

7 350

8 490

9 880

Wg Excela

(17)

X Y

1 1

3 26

3 30

4 66

5 124

6 220

7 345

7 350

8 490

9 880

 

cov ,

0,8917

X Y

r X Y

s s

(18)

X Y

1 880

3 490

3 350

4 345

5 220

6 124

7 66

7 30

8 26

9 1

 

cov ,

0, 9365

X Y

r X Y

s s

 

(19)

Wiek w miesiącach X Waga w kg Y

1 3,8

4,8 5,2

2 4,9

5,9 6,4

3 6,0

7,2 7,4

0 1 2 3 4 5 6 7 8

0 1 2 3 4

 

cov ,

0,8347

X Y

r X Y

s s

(20)

Dla szeregu rozdzielczego (zależność podejrzewana o charakter funkcyjny) na policzenie kowariancji stosujemy wzór:

8 4 3 1 16

7 5 5 3 20

4 6 6 4 20

3 5 8 7 23

1 4 7 9 21

23 24 29 24 100

1 3

x

2 5

x

3 7

x

4 9

x

5 11

x

1 2

yy2  3 y3  4 y4  5

n

i

n

     

1 1

cov ,

m k

ij i j

j i

n x x y y

X Y n

 

 

 

 

2 1

2

1

1 ,

1

k

X i i

i m

Y j j

i

s n x x

n

s n y y

n

 

 

0, 4321

r

(21)

Interpretacja współczynnika korelacji:

r - Współczynnik korelacji Pearsona jest miarą symetryczną. Oznacza to, że jest taki sam niezależnie, czy badamy zależność X od Y, czy odwrotnie.

1 r 1

  

Odpowiada na następujące pytania:

• Czy między badanymi cechami występuje współzależność

• Jaki jest kształt zależności (liniowa, nieliniowa)

1

r

oznacza zależność liniową

Jeśli jest bliski, lub równy zero to przyjmuje się, że między zmiennymi nie ma zależności.

(22)

• Jaka jest jej siła

0,0.2

r

bardzo słaby związek

0.2, 0.4

r

słaby związek

0.4, 0.6

r

umiarkowany związek

0.6,0.8

r

silny związek

0.8,1.0

r

bardzo silny związek

• Jaki jest jej kierunek

0 r

0 r

korelacja ujemna, wzrost jednej zmiennej powodował spadek drugiej korelacja dodatnia, wraz ze wzrostem jednej zmiennej wzrasta druga

(23)

Przykładowe diagramy z podaną wartością korelacji Pearsona

(24)

Współczynnik korelacji rang Spearmana

Współczynnik rang Spearmana

jest miarą statystyczną służącą do badania zależności, korelacji między dwiema cechami populacji, który

stosujemy gdy:

• Mamy do czynienia z sytuacją, gdy jedna z cech jest jakościowa

(niemierzalna), ale dająca się uporządkować (porządkowa), a druga cecha jest mierzalna.

• Gdy mamy dwie jakościowe (niemierzalne), ale dające się uporządkować

• Gdy mamy dwie cechy mierzalne i niedużą liczebność próby, zaś współczynnik korelacji Pearsona zakłócają wartości odskakujące

Musimy najpierw zdefiniować pojęcie rangowania – czyli przypisywania wariantom cechy X, oraz cechy Y rang wynikających z kolejności w

uporządkowanym szeregu szczegółowym.

(25)

Rangowanie odbywa się po uporządkowaniu wariantów cechy od najmniejszej do największej, następnie przypisujemy każdemu wariantowi numer, który zajmuje w ciągu. Jeśli kilka wariantów jest równe to rangą jest średnią arytmetyczną kolejnych numerów przypadających na ten wariant.

Przykład:

2,4; 3,5; 3,5; 5; 2,4; 2,4; 3,5; 4; 5; 2,4

Uporządkowane kolejno z przypisanymi rangami wyglądają tak, gdzie :

X kolejność Rangi

2,4 1-4 2,5

2,4 1-4 2,5

2,4 1-4 2,5

2,4 1-4 2,5

3,5 5-7 6

3,5 5-7 6

3,5 5-7 6

4 8 8

5 9-10 9,5

5 9-10 9,5

xi

r xi

x

i

r

oznacza rangę wariantu:

x i

(26)

Jeżeli teraz mamy dwie cechy odpowiednio X i Y mające warianty:

i , i

x y

przypisujemy im odpowiednio rangi:

i

,

i

x y

r r

To współczynnik rang Spearmana liczymy ze wzoru

2 1 2

6

1 ( 1)

i

i i

n

i

s i x y

d

r gdzie d r r

n n

 

 

(27)

Uwaga, dla różnic rang zawsze zachodzi związek:

1

0

n

i i

d

 

Ponadto współczynnik

1 r s 1

  

I co za tym idzie:

s 1

r

(28)

Przykład

Badamy zależność między wykształceniem, a dniami urlopu w czasie roku:

X Y

podstawowe 24

średnie 18

zasadnicze zawodowe 17 wyższe magisterskie 10 wyższe licencjackie 9

podstawowe 22

zasadnicze zawodowe 15 wyższe licencjackie 8

podstawowe 23

wyższe magisterskie 7

(29)

Musimy teraz przypisać rangi, w tym celu najpierw porządkujemy warianty:

Warianty Rangi

podstawowe 2

średnie 6

zasadnicze zawodowe 4,5 wyższe magisterskie 9,5 wyższe licencjackie 7,5

podstawowe 2

zasadnicze zawodowe 4,5 wyższe licencjackie 7,5

podstawowe 2

wyższe magisterskie 9,5

Warianty Numery

podstawowe 1-3

podstawowe 1-3

podstawowe 1-3

zasadnicze zawodowe 4-5 zasadnicze zawodowe 4-5

średnie 6

wyższe licencjackie 7-8 wyższe licencjackie 7-8 wyższe magisterskie 9-10 wyższe magisterskie 9-10

Teraz przypisujemy wariantom rangi, zgodnie ze średnią

arytmetyczną numerów.

Najpierw wyznaczymy rangi dla cechy jakościowej, porządkowej jaką jest wykształcenie.

(30)

Musimy teraz przypisać rangi, w tym celu najpierw porządkujemy warianty:

Warianty Rangi

24 10

18 7

17 6

10 4

9 3

22 8

15 5

8 2

23 9

7 1

Warianty Numery

7 1

8 2

9 3

10 4

15 5

17 6

18 7

22 8

23 9

24 10

Teraz przypisujemy wariantom rangi, zgodnie ze średnią

arytmetyczną numerów.

Teraz wyznaczymy rangi dla cechy ilościowej, jaką jest liczba dni wolnych.

(31)

Cecha X Rangi cechy X Cecha Y Rangi cechy Y Różnica rang Kwadrat różnicy rang

podstawowe 2 24 10 -8 64

średnie 6 18 7 -1 1

zasadnicze zawodowe 4,5 17 6 -1,5 2,25

wyższe magisterskie 9,5 10 4 5,5 30,25

wyższe licencjackie 7,5 9 3 4,5 20,25

podstawowe 2 22 8 -6 36

zasadnicze zawodowe 4,5 15 5 -0,5 0,25

wyższe licencjackie 7,5 8 2 5,5 30,25

podstawowe 2 23 9 -7 49

wyższe magisterskie 9,5 7 1 8,5 72,25

suma 0 305,5

xi yi

xi

r ryi

d

i

d

i2

2 1 2

6

1 0,85152

( 1)

i

n

i s

d

r n n

 

 

(32)

Japończycy jedzą bardzo mało tłuszczu i cierpią na mniej ataków serca niż Brytyjczycy czy Amerykanie.

Z drugiej strony, Francuzi jedzą dużo tłuszczu, a także cierpią na mniej ataków serca niż Brytyjczycy czy Amerykanie.

Japończycy piją bardzo mało czerwonego wina i cierpią na mniej ataków serca niż Brytyjczycy czy Amerykanie.

Włosi piją nadmierne ilości czerwonego wina, a także cierpią na mniej ataków serca niż Brytyjczycy czy Amerykanie.

Wnioski: Jedz i pij co chcesz. To mówienie po angielsku, że cię

zabije.

Cytaty

Powiązane dokumenty

a) Obliczyć brakujący parametr, jeśli wiadomo, że średnia waga noworodka w próbie wyniosła 116.2 uncji, a średnia średniej liczby wypalanych papierosów wśród matek to

Oblicz współczynnik korelacji liniowej Pearsona R i R 2 pomiędzy ilością zużytego oleju a liczbą przejechanych kilometrów.. W komórce odpowiadającej wartości

Mianowicie jest to twierdzenie mówiące , że pole deltoidu wpisanego w koło jest równe iloczynowi długości dwóch jego przeciwległych boków.. Twierdzenie

Przykładowe rozwiązania zadań

W wyniku odpowiedniego przekształcenia współczynnika korelacji Pearsona dla przypadku pary szeregów szczegółowych, o obserwacjach w postaci ciągów liczb naturalnych, uzyskuje

[r]

Największy łużycki so- rabista, doskonale znany i nauce polskiej, jest już uczonym doby nowej: Arnośt Muka (1854—1932). Vasmera, jest ojcem łużyckiej geografii lingwistycznej.

Następ- nie program oceniany jest przez zespół pod kątem szczegółowych wymagań odnoszących się do jakości programu jako całości oraz poszczególnych etapów jego