Statystyka matematyczna w6-2011

(1)

1

STATYSTYKA MATEMATYCZNA

WYKŁAD 6

Wnioskowanie statystyczne dla

korelacji i regresji.

(2)

2 Analiza korelacji

Założenie: zmienna losowa dwuwymiarowa (X, Y) ma rozkład normalny o współczynniku korelacji ρ.

(3)

3

X, Y – cechy badane równocześnie.

Xi X1 X2 ... Xn

Yi Y1 Y2 ... Yn

(4)

4

(

)(

)

(

)

∑

(

)

∑

−

⋅

−

=

⋅

=

2 2

1

1 )

,

(

Y

n

X

n

Y

X

n

S

Y

X

Cov

R

i i i i Y X

(5)

5

Uwaga:

a)

∑

(

x

i

−

x

)(

y

i

−

y

)

=

∑

x

i

y

i

−

n

x

y

b)

∑

(

x

i

−

x

)

=

∑

x

i

−

n x

( )

(6)

6

( )

2 ₂

( )

2 2

1

1 Y

Y

n

X

n

Y

X

Y

X

n

R

i i i i

−

⋅

−

=

∑

(7)

7

Estymator R jest estymatorem zgodnym i asymptotycznie nieobciążonym współczynnika korelacji ρ.

Estymator ten ma asymptotycznie rozkład normalny

      ₋ n N 2 1 , ρ

(8)

8 Uwaga. n 1 1+R U = ln 2 1-R ≈ 1 1+ρ 1 N ln , 2 1-ρ _n-3      , n ≥ 20). Jeśli ρ = 0, to n ₂ R U = n-2 1-R ma rozkład Tn–2 .

(9)

9

Zatem przedział ufności dla współczynnika korelacji ρρρρ (próba bardzo liczna) ma postać:

n

R

u

R

n

R

u

R

2 2

1 ;

1 −

+

−

_α _α

R – współczynnik korelacji z próby, n – liczebność próby,

1 – α – poziom ufności,

(10)

10

Dla małych prób (n ≥ 20_{) przedział ufności dla}

współczynnika korelacji ρρρρ ma postać:

2A

2B

2A

2B

e

1 e

1 ;

e

1 e

1 −

−

+

, gdzie u 1 1 R A ln 2 1 R n 3 α + = − − ₋ , u 1 1 R B ln 2 1 R n 3 α + = + − −

(11)

11

Weryfikacja hipotez dotyczących współczynnika korelacji.

Zakładamy, że cecha (X,Y) ma rozkład normalny, n ≥ 20.

Wysuwamy dwie hipotezy:

(

0

)

0 ρ = ρ

H _,H₁_{- jedną z trzech poniższych hipotez.}

Rozpatrujemy statystykę i zbiór krytyczny wg tabeli:

H₁ Statystyka U Zbiór krytyczny Odczyt k

0 ρ ρ ≠ K = −∞ − > ∪ < +∞( ; k k; ) Φ( )k =1−α/2 0 ρ ρ > 0 0 1+ρ 1 1+R 1 ln - ln n-3 2 1-R 2 1-ρ       K =< +∞k; ) Φ( )k =1−α 0 ρ ρ < K= −∞ − >( ; k Φ( )k =1−α Decyzje: Jeśli U_n ∈K _{to H}₀_{odrzucamy ,}

(12)

12

Przykład.

Badano zależność między wydatkami na reklamę a wysokością sprzedaży.

Dla próby 40 elementowej otrzymano r = 0,812. Sprawdzimy na poziomie istotności 0,05 hipotezy:

(

0,85

)

0 ρ =

(13)

13

Rozwiązanie.

Wartość statystyki wynosi

u = -0,816.

Zbiór krytyczny ma postać

)

;

96 ,

1

96 ,

1 ;

(

−∞

−

>

∪

<

+∞

=

K

(14)

14

B adanie istotności współczynnika korelacji Wysuwamy dwie hipotezy:

(

0

)

0 ρ =

H _{(brak korelacji pomiędzy zmiennymi),}

1

H _{– jedną z trzech poniższych hipotez.}

Rozpatrujemy statystykę i zbiór krytyczny wg tabeli:

H₁ Statystyka U Zbiór krytyczny Odczyt k

0 ≠ ρ K =(−∞;−k >∪<k;+∞) P

(

T_{n 2}₋ >k

)

=α 0 > ρ ₁− 2 n −2 R R ) ;+∞ =< k K P

(

T_n₋₂ >k

)

= 2α 0 < ρ K = (−∞;−k > P

(

T_n₋₂ > k

)

= 2α Decyzje: Jeśli u_n∈K_{to H}₀_odrzucamy,

(15)

15

Wnioskowanie dla współczynników regresji

Niech

y

=

β

0

+

β

1

x

będzie prostą regresji,

a

x

b

y

ˆ

=

₀

+

₁

_{prostą regresji wyznaczoną na}

(16)

16

Współczynniki

b0, b1

prostej regresji wyznaczamy

stosując metodę najmniejszych kwadratów (MNK).

Chcemy wyznaczyć minimum funkcji:

(*)

∑

= = = − − = = − = = n i i i n i i i n i i x b b y y y e b b S 1 2 1 0 1 2 1 2 1 0 ) ( ) ˆ ( ) , (

gdzie

ei = yi − yˆi

nazywamy resztami modelu

regresji.

Uwaga.

0

1

=

∑

= n i i

e

(17)

17

MNK:

Należy wyznaczyć prostą regresji tak aby suma pól

kwadratów była minimalna.

(18)

18

**Obliczając pochodne cząstkowe funkcji (*)**

i przyrównując je do zera otrzymujemy układ

równań normalnych:

0 2 ) )( ( 2 0 2 ) 1 )( ( 2 1 0 1 2 1 1 1 1 0 1 0 1 1 1 1 1 0 0 =       − − − = = − − − = ∂ ∂ =       − − − = = − − − = ∂ ∂

∑

= = = = = = = n i i n i i n i i i n i i i i n i i n i i n i i i x b x b x y x x b b y b S nb x b y x b b y b S

(19)

19

Rozwiązując otrzymany układ równań otrzymamy

wzory na przybliżone wartości współczynników

( )

(

)(

)

( )

2 2 2 2 2 2 1 ) , cov( X X Y i i i i i i i i i i i i s Y X r s s x n x y x n y x x x y y x x x x n y x y x n b = = − − = = − − − = − − =

∑

∑ ∑

∑

x

b

y

b

₀

=

−

₁

(20)

20

Wariancja resztowa:

Wariancja resztowa to średnia z pól kwadratów

zbudowanych na resztach odzwierciedlająca stopień

dopasowania prostej regresji do danych

statystycznych.

Niech

e_i = −y_i y_$_i

_,

_gdzie

_$y_i = b₀ +b x₁ _i

_wtedy

2

1 2 2

−

=

∑

=

n

e

s

n i i e _czyli 2 1 1 1 0 1 2 2 − − − =

∑

=

∑

=

∑

= n y x b y b y s n i i i n i i n i i e

( )

2

1

2 2 2

−

=

n

r

ns

s

Y e 2 e e s

s =

_{oznacza średnie (standardowe) odchylenie}

od prostej regresji.

(21)

21

Współczynnik determinacji

( )

(

)

( )

2 2 2 2 2 2 1 2 2 2 1 0 2 2 2 2 2 ) , ( cov ) ( 1 ) ( ) ˆ ( r S S Y X y n y y x n y x b y n y y n y x b y b y y e y y y y R Y X i i i i i i i i i i i = = − − = = − − + = = − − = − − =

∑

Uwaga:

R2 ∈ 0, 1

(22)

22

Standardowe błędy oszacowania współczynników

prostej regresji.

2 1

)

(

)

(

x

s

b

s

i e

−

=

∑

2 2 1 2 1 2 2 0 ( ) ( ) 1 ) ( ) ( ) ( x s b s x n b s x x n x s b s _i _X i i e + ⋅ = ⋅ = − =

∑

(23)

23

Stosujemy niekiedy zapis

X

b

Y

b s b s ( ( )) 1 )) ( ( 0 1 0

ˆ

± ±

+

=

lub

)

(

ˆ

)) ( ( 1 )) ( ( 0 1 0 e b s b s

s

X

b

Y

=

+

±

± ±

(24)

24

Przedziały ufności dla

ββββ

i

, i = 0, 1;

dla poziomu ufności 1 –

α

mamy:

)

(

);

(

_i _i _i i i

b

u

α

S

b

u

α

S

b

β

∈

−

+

gdzie

u

α

odczytujemy z tablicy rozkładu Studenta:

(

T ₋ > u_α

)

=α

P _{n 2}

_.

S(b

i

) – standardowe błędy współczynników prostej

regresji.

(25)

25

Weryfikacja hipotez dla

ββββ

_i

, i = 0, 1;

dla poziomu istotności

α

rozpatrujemy test dla

poszczególnych parametrów

β

i

, i = 0, 1.

Wysuwamy dwie hipotezy:

(

)

H₀ β_i = β_i0

_,

H₁

_{– jedną z trzech poniższych}

hipotez.

(26)

26

Rozpatrujemy statystykę i zbiór krytyczny wg tabeli:

1

H

_{Statystyka Zbiór krytyczny}

_{Odczyt k}

0 i i β β ≠ K =(−∞;−k >∪< k;+∞) P(Tn 2− >k)=α 0 i i β β > ) ( 0 i i i n b S b U = −

β

K =< k;+∞) P(T_n₋₂ >k)=2α 0 i i β β < K = (−∞;−k > P(Tn−2 >k)=2α

Decyzje:

Jeśli

un ∈ K

to H

₀

odrzucamy ,

(27)

27

Uwaga

Jeśli badamy istotność parametru

β

i

to przyjmujemy

β

i

0

0 =

_tzn.

H

₀

(

β

_i

=

0 )

W modelach regresji pożądane jest odrzucenie

hipotezy

H

0

(

β

1

=

0 )

.

Przykład

Z populacji dla której (X, Y) ma rozkład normalny

pobrano próbę 100 elementową i obliczono, że

prosta regresji z próby ma postać:

(0,1)

0,4

(0,5)

1,35

–

X

Y

=

Na poziomie istotności 0,05 sprawdź istotność

współczynnika

β

1

.

(28)

28

Rozpatrujemy hipotezy

H₀

(

β₁ = 0

)

H₁

(

β₁ < 0

)

Wartość statystyki wynosi u = – 4.,

Zbiór krytyczny ma postać

K

=

(

−∞

;

−

1 ,

66 >

.

Ponieważ obliczona wartość statystyki należy do

zbioru

krytycznego

to

odrzucamy

hipotezę

(

₁

0 )

0

β

=

H

_{, zatem wynik testu nie podważa}

(29)

29

Prognoza punktowa to przewidywana wartość

zmiennej Y odpowiadająca wartości

x

τ zmiennej X.

τ

)

b

x

(

(30)

30

Standardowy błąd prognozy

(

)

(

)

2 1 1 2 1 2 1 2 1 2 2

2

1

1 











−

+

=

−

+

=

∑

= = = = = n i i n i i n i i n i i e n i i e

x

n

x

nx

x

S

x

n

S

τ τ τ τ

(31)

31

błąd względny prognozy punktowej:

% 100 * τ τ τ

δ

y S =

(32)

32

Prognoza przedziałowa dla poz. ufności 1 –

α

.

τ α τ α

τ

u

S

y

u

S

y

*

(

)

−

;

*

(

)

+

u

_α

_{odczytujemy z tablicy rozkładu Studenta:}

(

T ₋ > u_α

)

=

α

(33)

33

Badanie liniowości funkcji regresji - test serii.

Badamy populację ze względu na dwie cechy X i Y. Losujemy próbę n - elementową (xi, yi).

Na podstawie tej próby chcemy sprawdzić czy funkcja regresji jest liniowa.

Prostym testem do weryfikacji tej własności jest test serii.

Niech y = b₀ +b₁x_{będzie prostą regresji wyznaczoną na}

podstawie próby metodą najmniejszych kwadratów. Elementom próby przypisujemy symbol a lub b:

a - gdy yi >b0 +b1xi, (punkt leży nad prostą)

b - gdy yi <b0 +b1xi (punkt leży pod prostą)

(elementów dla których zachodzi równość nie rozpatrujemy).

(34)

34 Rozpatrujemy hipotezy

H0(funkcja regresji jest liniowa),

H1(funkcja regresji nie jest liniowa),

Stosujemy statystykę:

Un = liczba serii

Zbiór krytyczny:

K = (0; k>

gdzie k odczytujemy z tablicy dla poziomu istotności α i liczb n1 oraz n2 ,

gdzie n1 - liczba symboli a, n2 - liczba symboli b,

Decyzje:

Jeśli U_n ∈K to H₀odrzucamy ,

(35)

35 Przykład.

Badano zależność między wynikami testów z dwóch przedmiotów przeprowadzonymi w pewnej uczelni. Dla próby 12 wylosowanych studentów otrzymano następujące liczby punktów:

X 16 20 22 24 33 47 55 70 77 82 90 94

Y 25 34 60 83 92 104 110 124 133 150 145 170

Prosta regresji z próby ma postać Y = 2x + 5.

Sprawdzimy na poziomie istotności 0,05 hipotezę że zależność między tymi cechami jest liniowa.

(36)

36 Rozwiązanie.

Otrzymamy następujący ciąg symboli:

b, b, a, a, a, a, b, b, b, b, b, b Liczba serii wynosi u = 3

Z tablic rozkładu serii odczytujemy K = (0; 3>

Ponieważ u∈K_{to odrzucamy hipotezę H}_{0 ,}_zatem

możemy sądzić, że zależność między wynikami testów nie jest liniowa.