Statystyka opisowa w 7-8-9-2012

(1)

1

KORELACJA I REGRESJA.

K

ORELACJA

X , Y - cechy badane równocześnie.

Dane statystyczne zapisujemy w szeregu statystycznym dwóch cech

xi x1 x2 ... xn

(2)

2

lub w tablicy korelacyjnej. Y X y1 y2 ... yl ni. x1 n11 n12 ... n1l n1. x2 n21 n22 ... n2l n2. .... .... .... .... .... ... x_k n_k1 n_k2 ... n_kl n_k. n.j n.1 n.2 ... n.l n gdzie

x1,x2, .... ,xk - warianty lub środki klas dla cechy X,

y1,y2, .... ,yl - warianty lub środki klas dla cechy Y,

n.j - sumy liczebności kolumn,

(3)

3

Wstępnie siłę i kształt zależności między cechami możemy ocenić na podstawie diagramu korelacyjnego:

korelacja liniowa dodatnia korelacja liniowa ujemna

korelacja krzywoliniowa brak korelacji

Y Y X X Y Y X X

(4)

4

Siłę zależności między cechami mierzymy

współczynnikiem korelacji liniowej Pearsona

r

X Y

S S

_X _Y

=

cov ( , )

Uwaga.

(5)

5 gdzie

(

)(

)

y

x

n

i

x

i

y

i

n

i

y

i

y

x

i

x

n

Y

X

−

∑

=

∑

=

−

=

1

1 )

,

(

cov

lub (gdy dane w tablicy korelacyjnej)

(

)

(

)

y x ij n k i l j xi y j n ij n k i l j xi x y j y n Y X − ∑ = ∑= = = ∑ = ∑= − − = 1 1 1 1 1 1 ) , ( cov

jest kowariancją między cechami X i Y

(kowariancja też mierzy siłę zależności między cechami, jej znak określa kierunek zależności lecz jest wielkością nieunormowaną)

(6)

6

(

)

( )

2 1 2 1 2

1

1 x

x

n

x

n

s

n i i n i i X

=

∑

−

=

∑

−

= =

(

)

( )

2 1 2 1 2

1

1 y

y

n

y

n

S

n i i n i i Y

=

∑

−

=

∑

−

= =

(7)

7

lub (gdy dane w tablicy korelacyjnej)

(

)

( )

2 1 . 2 1 2 .

1

1 x

n

x

n

x

n

s

k i i i k i i i X

=

∑

−

=

∑

−

= =

(

)

( )

2 1 . 2 1 2 . 1 1 y n y n y y n n s l j j i l j i j Y =

∑

− =

∑

− = =

(8)

8

Uwaga:

a)

∑

(

x

i

−

x

)(

y

i

−

y

)

=

∑

x

i

y

i

−

n

x

y

b)

∑

(

x

i

−

x

)

=

∑

x

i

−

n x

( )

(9)

9

Karl Pearson (1857 - 1936), angielski matematyk,

(10)

10

Jeśli r > 0 to mówimy, że cechy są skorelowane

dodatnio (wzrostowi cechy X towarzyszy wzrost

cechy Y),

Jeśli r < 0 to mówimy, że cechy są skorelowane

ujemnie,(wzrostowi cechy X towarzyszy spadek

cechy Y),

Jeśli r = 0 to mówimy, że cechy są

nieskorelowane, (zmiany wartości cechy X nie

(11)

11

Jeśli0 < <r 0 3, to mówimy, że cechy są skorelowane słabo,

Jeśli

0 3

,

≤ <

r

0 5

,

to mówimy, że cechy są skorelowane średnio,

Jeśli

0 5

,

≤ <

r

0 7

,

to mówimy, że cechy są skorelowane mocno,

Jeśli 0 7, ≤ r to mówimy, że cechy są skorelowane bardzo mocno.

(12)

12

Interpretując powyższy współczynnik korelacji należy pamiętać, że jego wartość bliska zera nie zawsze oznacza brak zależności a jedynie brak zależności liniowej. W tym przypadku należy

skorzystać z wykresu lub skorzystać z innych miar zależności np. policzyć tzw. stosunki korelacyjne.

Wartość współczynnika korelacji zależy od

zakresu zmienności badanych cech, podobnie jak

średnia arytmetyczna podlega wpływom skrajnych wartości.

(13)

13

Przykład

Badano

zależność

wartości

zużytych

surowców (w tys. zł.) Y od wielkości

produkcji (tys. szt.) X w 6-ciu zakładach

produkcyjnych.

xt 1 2 1,5 1 3 0,5

y_t 2 5 4 4 7 2

Wyznaczamy wartość współczynnika korelacji.

(14)

14

Obliczenia wykonamy w tabeli

i x y i xi − x yi − y (xi −x)(yi −y) (x x)2 i − 2 ) (y_i − y 1 2 1,5 1 3 0,5 2 5 4 4 7 2 -0,5 0,5 0 -0,5 1,5 -1 -2 1 0 0 3 -2 1 0,5 0 0 4,5 2 0,25 0,25 0 0,25 2,25 1 4 1 0 0 9 4 9 24 0 0 8 4 18 x = =9 y = = 6 1 5 24 6 4 , ; _;r = 8 = 4 18 0 9428,

zatem związek pomiędzy wartością zużytych surowców a wielkością produkcji jest bardzo silny (korelacja dodatnia).

(15)

15

Przykład.

Badano zależność liczby błędów na stronie maszynopisu Y od stażu pracy X (podano środek przedziału stażu pracy) w grupie 50 sekretarek. Y X 0 1 2 3 ni. 4 5 10 15 12 10 10 20 10 5 15 28 5 5 10 n_.j 5 15 20 10 50

(16)

16 7 , 1 50 85 50 10 3 ... 15 1 5 0 ; 2 , 15 50 760 50 10 28 ... 10 12 15 4 = = ⋅ + + ⋅ + ⋅ = = = ⋅ + + ⋅ + ⋅ = y x

(17)

17 S_X2 2 2 2 2 2 4 15 12 10 28 10 50 15 2 15520 50 15 2 79 36 = ⋅ + ⋅ + +... ⋅ − , = − , = , S_Y2 2 2 2 2 2 0 5 1 15 3 10 50 1 7 185 50 1 7 0 81 = ⋅ + ⋅ + + ⋅... − , = − , = ,

(18)

18

cov(X Y, ) = ⋅ ⋅ + ⋅ ⋅ +4 2 5 4 3 10 12 2 10⋅ ⋅ ...+ ⋅ ⋅ −28 1 5 , ⋅ , = − , 50 15 2 1 7 7 04

(19)

19

r = −7 04 = −

79 36 0 81 0 878

,

, , ,

zatem związek pomiędzy stażem a ilością błędów jest bardzo silny (korelacja ujemna).

(20)

20

Siłę zależności możemy również mierzyć

współczynnikiem korelacji rang Spearmana:

Obserwacje numerujemy od najmniejszej do

największej (nadajemy rangi). Jeśli dane powtarzają się to przypisujemy im jednakowe rangi równe średniej arytmetycznej z kolejnych numerów.

Q

d

n

i

= −

−

∑

1

6

2 3

(21)

21

Charles Edward Spearman (1863 - 1945)

(22)

22

Współczynnik ten stosujemy w przypadku małej liczby danych lub w przypadku cech niemierzalnych, których wartości można uporządkować.

W przypadku cech niemierzalnych można mierzyć siłę zależności współczynnikiem Cramera lub Czuprowa (definicja będzie podana przy teście niezależności chi kwadrat).

(23)

23

Przykład.

Dwóch członków komisji przetargowej A i B oceniało nadesłane oferty. Członek A oceniał jakość ofert opisowo natomiast członek B przydzielał im punkty od 0 do 100.

Oferta Ocena A Ocena B Ranga

oceny A Ranga oceny B di di 2 I mniej niż przeciętna 50 II słaba 45 III dobra 25 IV przeciętna 30 V bardzo dobra 25 VI bardzo słaba 42 VII przeciętna 40 Razem x x

(24)

24

oceny A Ranga oceny B di di 2 I mniej niż przeciętna 50 3 7 II słaba 45 2 6 III dobra 25 6 1,5 IV przeciętna 30 4,5 3 V bardzo dobra 25 7 1,5 VI bardzo słaba 42 1 5 VII przeciętna 40 4,5 4 Razem x x x x

(25)

25

oceny A Ranga oceny B di di 2 I mniej niż przeciętna 50 3 7 -4 16 II słaba 45 2 6 -4 16 III dobra 25 6 1,5 4,5 20,25 IV przeciętna 30 4,5 3 1,5 2,25 V bardzo dobra 25 7 1,5 5,5 30,25 VI bardzo słaba 42 1 5 -4 16 VII przeciętna 40 4,5 4 0,5 0,25 Razem x x x x 0 101 Q = − ⋅ − = − 1 6 101 73 7 0 8,

Wynika stąd zupełny brak zgodności ocen obu członków komisji (bardzo silna korelacja ujemna).

(26)

26

REGRESJA LINIOWA

Regresja to kształt zależności między badanymi cechami. Interesuje nas najprostsza zależność w postaci funkcji liniowej.

Wyznaczymy prostą

X

b

Y

ˆ

=

₀

+

₁

(27)

27

Y

- zmienna objaśniana, yi - wartości

(obserwacje) zmiennej Y; i =1,...,n- numer

obserwacji,

X _{- zmienna objaśniająca,} xi- wartości

zmiennej X,

1 0, b

b - parametry strukturalne (ich wartość

wyznacza się na podstawie obserwacji

) ,

(28)

28

Aby wyznaczyć wartość parametrów strukturalnych b0, b1 na podstawie próby stosujemy

metodę najmniejszych kwadratów (MNK).

MNK polega na wyznaczeniu takich

1 0

, b

b

aby dla danych obserwacji (xi, yi) suma kwadratów odchyleń zaobserwowanych wartości

i

y _{od wartości} Yˆ = b₀ +b₁X _{była minimalna, tzn.}

(29)

29

$

Y= b0 +b1X

(prosta regresji z próby)

xi yi ei • • • • • i yˆ i i i y y e = − ˆ

(30)

30

∑

= = =

−

=

−

=

n i i i n i i i n i i

x

b

y

e

b

S

1 2 1 0 1 2 1 2 1 0

)

(

)

ˆ

(

)

,

(

(*)

i i i y y

e = − ˆ _{nazywamy resztami modelu regresji}

Uwaga.

0

1

=

∑

= n i i

e

Należy wyznaczyć prostą regresji tak aby suma pól kwadratów była minimalna.

(31)

31

Obliczając pochodne cząstkowe funkcji (*) i przyrównując do zera otrzymujemy

(układ równań normalnych)

0 2 ) )( ( 2 0 2 ) 1 )( ( 2 1 1 0 1 2 1 1 1 0 1 1 0 1 1 1 1 0 0 =       − − − = − − − = ∂ ∂ =       − − − = − − − = ∂ ∂

∑

= = = = = = = n i n i i n i i n i i i i i i n i n i i n i i i i x b x b x y x x b b y b S nb x b y x b b y b S

(32)

32

rozwiązując otrzymany układ równań otrzymamy wzory na przybliżone wartości parametrów strukturalnych

( )

(

)(

)

(

)

2 2 2 2 1 1 2 2 1

)

,

cov(

)

(

X X Y i i i i n i i n i i i i i i

S

Y

X

r

S

x

y

x

y

x

y

x

n

y

x

y

x

n

b

=

−

=

−

=

−

=

∑

x

b

y

b

₀

=

−

₁

(33)

33 Prostą

X

b

Y

ˆ

=

₀

+

₁

(34)

34

Miary dopasowania. Wariancja resztowa:

Wariancja resztowa to uśrednienie pól kwadratów zbudowanych na resztach

i odzwierciedla stopień dopasowania prostej regresji do danych statystycznych.

(35)

35

Niech, e_i = −y_i y$_i _{, gdzie} $y_i = b₀ + b x₁ _i _wtedy

S

e

n

e i i n 2 2 1

2 =

−

=

∑

czyli

( )

2 2 1 0 2 2

1

2

Y i i i i e

S

r

n

y

x

b

y

b

y

S

−

=

−

=

∑

2 e e S

S = _{oznacza średnie (standardowe)}

(36)

36

Dopasowanie modelu do danych empirycznych można oceniać odchyleniem standardowym reszt lecz jest to miara bezwzględna i nieunormowana, dlatego do porównań lepsze są miary względne lub unormowane.

(37)

37

Najprostszą względną miarą dopasowania jest

współczynnik zmienności resztowej:

%

100 Y

S

V

_e

=

e

Współczynnik ten informuje jaką część średniej wartości badanego zjawiska stanowi odchylenie standardowe reszt.

Mniejsze wartości tego współczynnika wskazują na lepsze dopasowanie modelu do danych

(38)

38

Wprowadzamy oznaczenia:

Całkowita suma kwadratów (zmienność całkowita): CSK =

∑

(y_i − y)2

Wyjaśniona suma kwadratów (zmienność wyjaśniona): WSK =

∑

(yˆ_i − y)2

Niewyjaśniona suma kwadratów (zmienność przypadkowa): NSK =

∑

ei2 i i b b x y gdzie: ˆ = ₀ + ₁ Zmienność przypadkowa Zmienność całkowita Zmienność wyjaśniona modelem regresji xi yi y

}

• • • • • • • •

{

(39)

39 Własność:

∑

(yi − y)2= 2 ) ˆ (y_i − y

∑

₊

∑

2 i

e

Czyli CSK = WSK + NSK

(40)

40

Miarą dopasowania modelu do rzeczywistości

(wartości zaobserwowanych) jest również współczynnik determinacji R 2 Współczynnik determinacji:

CSK

WSK

R

2

=

R2 ∈ 0, 1

współczynnik ten określa jaka część całkowitej zmienności zmiennej objaśnianej została wyjaśniona przez model regresji liniowej.

(41)

41

( )

(

)

( )

2 2 2 2 2 2 1 2 2 2 1 0 2 2 2 2 2

)

,

(

cov

)

(

1 )

(

)

ˆ

(

r

S

Y

X

y

n

y

x

n

y

x

b

y

n

y

n

y

x

b

y

b

y

e

y

R

Y X i i i i i i i i i i i

=

−

=

−

+

=

−

=

−

=

∑

(42)

42

Przykład

Badano zależności kosztów całkowitych (w tys. zł.) Y od wielkości produkcji (tys. szt.) X w 6-ciu zakładach produkcyjnych.

xi 4 8 6 4 12 2

yi 2 5 4 4 7 2

Dla Yˆ = b0 + b1x wyznaczamy przybliżone wartości

(43)

43

Obliczenia wykonamy w tabeli

i x y _i (x_i −x)(y_i −y) 2 ) (x_i −x (y_i −y)2 4 8 6 4 12 2 2 5 4 4 7 2 36 24

(44)

44 i x y i (xi −x)(yi −y) 2 ) (x_i −x (y_i −y)2 4 8 6 4 12 2 2 5 4 4 7 2 4 2 0 0 18 8 4 4 0 4 36 16 4 1 0 0 9 4 36 24 32 64 18

(45)

45 4 6 24 ; 6 6 36 = = = = y x _; 1 6 * 5 , 0 4 ; 5 , 0 64 32 0 1 = = b = − = b

zatem związek pomiędzy kosztami całkowitymi a wielkością produkcji wyraża się zależnością liniową w postaci

X

Y

ˆ

=

1 +

0 ,

5

Współczynnik determinacji 89 , 0 18 16 2 = = R

należy oczekiwać, że rozpatrywany model wyjaśnia 89% całkowitej zmienności badanego zjawiska.

(46)

46

Standardowe błędy oszacowania parametrów strukturalnych. X e i e

S

n

S

x

S

b

S

=

−

=

∑

2 1

)

(

)

(

( )

2 2 2 2 1 2 1 2 2 0

1 )

(

1 )

(

)

(

)

(

X e X i i i e

S

x

n

S

x

S

b

S

x

n

b

S

x

n

x

S

b

S

+

⋅

=

+

⋅

=

⋅

=

−

=

∑

Stosujemy niekiedy zapis

)

(

ˆ

)) ( ( 1 )) ( ( 0 1 0 e b S b S

S

X

b

Y

=

+

±

± ±

(47)

47

Uwaga.

W celu dokładniejszego zbadania kształtu zależności między cechami można wykonać wykresy empirycznych linii

regresji.

Są to łamane wyznaczone przez średnie warunkowe:

j k i ij i j n n x x . 1

∑

= =

(tzn. obliczamy średnią wartość X przy ustalonej wartości yj)

. 1 i l j ij j i

n

y

∑

=

(tzn. obliczamy średnią wartość Y przy ustalonej wartości xi)

Regresja Y względem X

(

x

1

,

y

1

) (

;

x

2

,

y

2

)

;

...;

(

x

k

,

y

k

)

Regresja X względem Y

(

x

1

,

y

1

) (

;

x

2

,

y

2

)

;

...;

(

x

l

,

y

l

)

Łamane te przecinają się w punkcie

( )

x, y . Im bliżej siebie są położone tym silniejszy jest związek miedzy cechami.

(48)

48

Przykład.

Badano zależność wartości sprzedaży Y (mln zł) od wydatków na reklamę X (tys. zł) w grupie 100 firm.

Y X 3-5 5-7 7-9 9-11 11-13 13-15 ni. 50-100 10 13 23 100-150 10 27 11 48 150-200 1 9 8 2 20 200-250 4 5 9 n.j 10 23 28 20 12 7 100

44 ,

8

100

844 ;

5 ,

132

100 13250

=

y

x

Zestawienie średnich warunkowych:

Wykres empirycznych linii regresji.

7 5 4 7 5 5 , 1 9 6 , 7 6 1 2 5 8 1 2 6 , 8 8 1 7 5 1 1 , 1 1 4 7 , 5 1 0 2 2 5 1 3 , 1 1 9 1 , 7 1 2 2 1 0 , 7 1 4 (x j , y j ) (x j , y j ) Linie regresji 0 2 4 6 8 10 12 14 16 0 50 100 150 200 250 Wartości cechy X W a rt o ś c i c e c h y Y Regresja Y w zględem X Regresja X w zględem Y

(49)

49

W przypadku gdy wykres danych w układzie współrzędnych wskazuje na brak zależności liniowej możemy próbować dobrać funkcję nieliniową do opisu zależności między cechami. Równość wariancyjna.

)

(

)

(

)

(

2 2 2

y

S

y

S

y

S

=

_i

+

_i gdzie ) ( 2 y S _{- wariancja cechy Y} ) ( 2 i y S _{- wariancja międzygrupowa} ( ) n n y y y S k i i i i

∑

= − = 1 . 2 2 ) (

mierzy zróżnicowanie cechy Y wywołane oddziaływaniem cechy X. Jest to wariancja średnich warunkowych Y(X = xi).

) ( 2 y S_i _{- wariancja wewnątrzgrupowa} n n y s y S k i i i i

∑

= = 1 . 2 2 ) ( ) (

mierzy zróżnicowanie cechy Y wywołane oddziaływaniem czynników poza cechą X. Jest to średnia ważona rozkładów warunkowych Y(X = xi).

(50)

50 Stosunek korelacyjny

)

(

)

(

y

S

y

S

e

_yx

=

i

mierzy siłę zależności cechy Y względem cechy X. Analogicznie stosunek korelacyjny

)

(

)

(

x

S

x

S

e

_xy

=

i

mierzy siłę zależności cechy X względem cechy Y. Stosunki korelacyjne pokazują siłę związku, lecz nie informują o jego kierunku.

Przyjmują wartości z przedziału [0, 1]. Wartości e_yx i e_xy są na ogół różne. Różnica między kwadratem stosunku

korelacyjnego a kwadratem współczynnika korelacji Pearsona (zwany wskaźnikiem krzywoliniowości) mierzy stopień krzywoliniowości regresji: 2 2 r e m_yx = _yx − _{zmiennej Y względem X,} 2 2 r e m_xy = _xy − _{zmiennej X względem Y,}

Niekiedy przyjmuje się, że jeśli wskaźnik krzywoliniowości jest nie większy niż 0,2 to wpływ jednej cechy na drugą jest liniowy i można stosować regresję liniową, w przeciwnym przypadku lepiej stosować regresję nieliniową.

(51)

51

Prognoza. Prognoza punktowa

τ

_{- moment (okres prognozy)}

τ

x

_{- wartość cechy X w okresie prognozy}

τ τ

b

x

(52)

52 Standardowy błąd prognozy

(

)

(

)

2 1 1 2 1 2 1 2 1 2 2 2 1 1 1       − − + + = − − + + =

∑

= = = = = n i i n i i n i i n i i e n i i e x x n x x nx x S x x x x n S S τ τ τ τ

(53)

53

Uwaga 1) Sτ > Se

(54)

54 błąd względny prognozy:

%

100

* τ τ τ

δ

y

S

=

(55)

55

Model tendencji rozwojowej

Gdy X jest zmienną czasową xi = t (t = 1, 2, ..., n) tzn. model regresji ma postać

t

b

Y

ˆ

=

₀

+

₁

wówczas taki model nazywamy modelem

tendencji rozwojowej lub modelem trendu liniowego.

(56)

56

Wtedy korzystając z własności:

(*) ₂ ) 1 ( 1 + =

∑

= n n t n t , 6 ) 1 2 )( 1 ( 1 2 = + +

∑

= n n n t n t , 2 1 + = n t

∑

( )

₋ 2 ₌

∑

₂ ₋

( )

2 t n t t t

(57)

57 mamy

( )

(

)

1 (

12 )

1 (

)

(

12

2 2 2 2 1

−

=

−

=

−

=

∑ ∑

∑

∑ ∑

∑ ∑∑

n

y

t

ty

n

y

t

n

y

t

ty

n

b

t t t t t

(58)

58

2

1

1 1 0

+

−

=

−

=

y

b

t

y

b

n

b

(59)

59

Wariancja resztowa

Niech ei = −yi y$i , (gdzie

y

ˆ

i

=

b

0

+

b

1

t

) to reszty modelu, wtedy

2 1 2 2 − =

∑

= n e s n i i e czyli ₂ 1 1 1 0 1 2 2 − − − =

∑

=

∑

=

∑

= n ty b y b y s n t t n t t n t t e 2 e e

s

=

_{oznacza średnie (standardowe)}

(60)

60

Dopasowanie modelu do danych empirycznych oceniamy też współczynnikiem determinacji

( )

(

₂

( )

2

)

2 1 2 2 2 1 0 2 2 2 2 2

)

(

1 )

(

)

ˆ

(

r

y

n

y

t

n

ty

b

y

n

y

n

ty

b

y

b

y

e

y

R

t t t t i i i i i

=

−

=

−

+

=

−

=

−

=

∑

(61)

61

Prognoza dla modelu trendu

Niech

t

τ – okres prognozy.

Prognoza punktowa

y

τ* to przewidywana wartość cechy Y w okresie

t

τ .

τ τ

b

t

(62)

62

Standardowy błąd prognozy punktowej

(

)

( )

2 1 1 2 1 2 1 2 1 2 2

2

1

1 











−

+

=

−

+

=

∑

= = = = = n t n t n t n t e n t e

t

n

t

nt

t

s

t

n

s

τ τ τ τ

(63)

63

Wzór ten można uprościć korzystając z własności (*). n n t n t n s n n n n n n n t nt n n n s s e e − − + + + + = = + − + + + − + + + + = 2 2 2 2 2 2 12 1 12 ) 1 2 ( 2 1 4 ) 1 ( 6 ) 1 2 )( 1 ( 2 ) 1 ( 2 6 ) 1 2 )( 1 ( 1 τ τ τ τ τ

(64)

64

Zatem należy traktować wartość prognozy jako

τ τ

s

y

*

±

Jakość prognozy punktowej możemy ocenić względnym błędem prognozy punktowej

%

100

*

⋅

=

τ τ

δ

y

s

punkt

(65)

65

Przykład

Y – wielkość sprzedaży (tys. szt.).

Dane z kolejnych półroczy 2003-2008:

105, 115, 118, 129, 128, 130, 139, 141, 146,

156, 160, 164.

Wyznaczyć prognozę na pierwsze półrocze 2010 roku i ocenić jej dokładność.

(66)

(67)

67

t

y

t

ty

t 2 t y

1 105

2 115

3 118

4 129

5 128

6 130

7 139

8 141

9 146

10 156

11 160

12 164

(68)

68

t

y

t

ty

t 2 t y

1

105

105 11025

2

115

230 13225

3

118

354 13924

4

129

516 16641

5

128

640 16384

6

130

780 16900

7

139

973 19321

8

141 1128

19881

9

146 1314

21316

10

156 1560

24336

11

160 1760

25600

12

164 1968

26896

78 1631 11328 225449

(69)

69

tśr

6,5

yśr 135,9167

b1

5,08042

b0

102,8939

Se^2 7,799184

Se

2,792702

tt

15 yt* 179,1002

St

3,662272

d

_pkt

2,04%

(70)