• Nie Znaleziono Wyników

Statystyka matematyczna w6-2011

N/A
N/A
Protected

Academic year: 2021

Share "Statystyka matematyczna w6-2011"

Copied!
36
0
0

Pełen tekst

(1)

1

STATYSTYKA MATEMATYCZNA

WYKŁAD 6

Wnioskowanie statystyczne dla

korelacji i regresji.

(2)

2 Analiza korelacji

Założenie: zmienna losowa dwuwymiarowa (X, Y) ma rozkład normalny o współczynniku korelacji ρ.

(3)

3

X, Y – cechy badane równocześnie.

Xi X1 X2 ... Xn

Yi Y1 Y2 ... Yn

(4)

4

(

)(

)

(

)

(

)

=

=

=

2 2

1

1

1

)

,

(

Y

Y

n

X

X

n

Y

Y

X

X

n

S

S

Y

X

Cov

R

i i i i Y X

(5)

5

Uwaga:

a)

(

x

i

x

)(

y

i

y

)

=

x

i

y

i

n

x

y

b)

(

x

i

x

)

=

x

i

n x

( )

(6)

6

( )

2 2

( )

2 2

1

1

1

Y

Y

n

X

X

n

Y

X

Y

X

n

R

i i i i

=

(7)

7

Estymator R jest estymatorem zgodnym i asymptotycznie nieobciążonym współczynnika korelacji ρ.

Estymator ten ma asymptotycznie rozkład normalny

      n N 2 1 , ρ

(8)

8 Uwaga. n 1 1+R U = ln 2 1-R ≈ 1 1+ρ 1 N ln , 2 1-ρ n-3      , n ≥ 20). Jeśli ρ = 0, to n 2 R U = n-2 1-R ma rozkład Tn–2 .

(9)

9

Zatem przedział ufności dla współczynnika korelacji ρρρρ (próba bardzo liczna) ma postać:

n

R

u

R

n

R

u

R

2 2

1

;

1

+

α α

R – współczynnik korelacji z próby, n – liczebność próby,

1 – α – poziom ufności,

(10)

10

Dla małych prób (n ≥ 20) przedział ufności dla

współczynnika korelacji ρρρρ ma postać:

2A

2B

2A

2B

e

1

e

1

;

e

1

e

1

+

+

, gdzie u 1 1 R A ln 2 1 R n 3 α + = − − , u 1 1 R B ln 2 1 R n 3 α + = + − −

(11)

11

Weryfikacja hipotez dotyczących współczynnika korelacji.

Zakładamy, że cecha (X,Y) ma rozkład normalny, n ≥ 20.

Wysuwamy dwie hipotezy:

(

0

)

0 ρ = ρ

H , H1 - jedną z trzech poniższych hipotez.

Rozpatrujemy statystykę i zbiór krytyczny wg tabeli:

H1 Statystyka U Zbiór krytyczny Odczyt k

0 ρ ρ ≠ K = −∞ − > ∪ < +∞( ; k k; ) Φ( )k =1−α/2 0 ρ ρ > 0 0 1+ρ 1 1+R 1 ln - ln n-3 2 1-R 2 1-ρ       K =< +∞k; ) Φ( )k =1−α 0 ρ ρ < K= −∞ − >( ; k Φ( )k =1−α Decyzje: Jeśli UnK to H0 odrzucamy ,

(12)

12

Przykład.

Badano zależność między wydatkami na reklamę a wysokością sprzedaży.

Dla próby 40 elementowej otrzymano r = 0,812. Sprawdzimy na poziomie istotności 0,05 hipotezy:

(

0,85

)

0 ρ =

(13)

13

Rozwiązanie.

Wartość statystyki wynosi

u = -0,816.

Zbiór krytyczny ma postać

)

;

96

,

1

96

,

1

;

(

−∞

>

<

+∞

=

K

(14)

14

B adanie istotności współczynnika korelacji Wysuwamy dwie hipotezy:

(

0

)

0 ρ =

H (brak korelacji pomiędzy zmiennymi),

1

H – jedną z trzech poniższych hipotez.

Rozpatrujemy statystykę i zbiór krytyczny wg tabeli:

H1 Statystyka U Zbiór krytyczny Odczyt k

0 ≠ ρ K =(−∞;−k >∪<k;+∞) P

(

Tn 2 >k

)

=α 0 > ρ 1− 2 n −2 R R ) ;+∞ =< k K P

(

Tn2 >k

)

= 2α 0 < ρ K = (−∞;−k > P

(

Tn2 > k

)

= 2α Decyzje: Jeśli unK to H0 odrzucamy,

(15)

15

Wnioskowanie dla współczynników regresji

Niech

y

=

β

0

+

β

1

x

będzie prostą regresji,

a

x

b

b

y

ˆ

=

0

+

1

prostą regresji wyznaczoną na

(16)

16

Współczynniki

b0, b1

prostej regresji wyznaczamy

stosując metodę najmniejszych kwadratów (MNK).

Chcemy wyznaczyć minimum funkcji:

(*)

= = = − − = = − = = n i i i n i i i n i i x b b y y y e b b S 1 2 1 0 1 2 1 2 1 0 ) ( ) ˆ ( ) , (

gdzie

ei = yiyˆi

nazywamy resztami modelu

regresji.

Uwaga.

0

1

=

= n i i

e

(17)

17

MNK:

Należy wyznaczyć prostą regresji tak aby suma pól

kwadratów była minimalna.

(18)

18

Obliczając pochodne cząstkowe funkcji (*)

i przyrównując je do zera otrzymujemy układ

równań normalnych:

0 2 ) )( ( 2 0 2 ) 1 )( ( 2 1 0 1 2 1 1 1 1 0 1 0 1 1 1 1 1 0 0 =       − − − = = − − − = ∂ ∂ =       − − − = = − − − = ∂ ∂

= = = = = = = n i i n i i n i i i n i i i i n i i n i i n i i i x b x b x y x x b b y b S nb x b y x b b y b S

(19)

19

Rozwiązując otrzymany układ równań otrzymamy

wzory na przybliżone wartości współczynników

( )

(

(

)(

)

)

( )

2 2 2 2 2 2 1 ) , cov( X X Y i i i i i i i i i i i i s Y X r s s x n x y x n y x x x y y x x x x n y x y x n b = = − − = = − − − = − − =

∑ ∑

x

b

y

b

0

=

1

(20)

20

Wariancja resztowa:

Wariancja resztowa to średnia z pól kwadratów

zbudowanych na resztach odzwierciedlająca stopień

dopasowania prostej regresji do danych

statystycznych.

Niech

ei = −yi y$i

,

gdzie

$yi = b0 +b x1 i

wtedy

2

1 2 2

=

=

n

e

s

n i i e czyli 2 1 1 1 0 1 2 2 − − − =

=

=

= n y x b y b y s n i i i n i i n i i e

( )

2

1

2 2 2

=

n

r

ns

s

Y e 2 e e s

s =

oznacza średnie (standardowe) odchylenie

od prostej regresji.

(21)

21

Współczynnik determinacji

( )

(

)

( )

2 2 2 2 2 2 1 2 2 2 1 0 2 2 2 2 2 ) , ( cov ) ( 1 ) ( ) ˆ ( r S S Y X y n y y x n y x b y n y y n y x b y b y y e y y y y R Y X i i i i i i i i i i i = = − − = = − − + = = − − = − − =

Uwaga:

R2 ∈ 0, 1

(22)

22

Standardowe błędy oszacowania współczynników

prostej regresji.

2 1

)

(

)

(

x

x

s

b

s

i e

=

2 2 1 2 1 2 2 0 ( ) ( ) 1 ) ( ) ( ) ( x s b s x n b s x x n x s b s i X i i e + ⋅ = ⋅ = − =

(23)

23

Stosujemy niekiedy zapis

X

b

b

Y

b s b s ( ( )) 1 )) ( ( 0 1 0

ˆ

± ±

+

=

lub

)

(

ˆ

)) ( ( 1 )) ( ( 0 1 0 e b s b s

s

X

b

b

Y

=

+

±

± ±

(24)

24

Przedziały ufności dla

ββββ

i

, i = 0, 1;

dla poziomu ufności 1 –

α

mamy:

)

(

);

(

i i i i i

b

u

α

S

b

b

u

α

S

b

β

+

gdzie

u

α

odczytujemy z tablicy rozkładu Studenta:

(

T > uα

)

P n 2

.

S(b

i

) – standardowe błędy współczynników prostej

regresji.

(25)

25

Weryfikacja hipotez dla

ββββ

i

, i = 0, 1;

dla poziomu istotności

α

rozpatrujemy test dla

poszczególnych parametrów

β

i

, i = 0, 1.

Wysuwamy dwie hipotezy:

(

)

H0 βi = βi0

,

H1

– jedną z trzech poniższych

hipotez.

(26)

26

Rozpatrujemy statystykę i zbiór krytyczny wg tabeli:

1

H

Statystyka Zbiór krytyczny

Odczyt k

0 i i β β ≠ K =(−∞;−k >∪< k;+∞) P(Tn 2− >k)=α 0 i i β β > ) ( 0 i i i n b S b U = −

β

K =< k;+∞) P(Tn2 >k)=2α 0 i i β β < K = (−∞;−k > P(Tn−2 >k)=2α

Decyzje:

Jeśli

unK

to H

0

odrzucamy ,

(27)

27

Uwaga

Jeśli badamy istotność parametru

β

i

to przyjmujemy

β

i

0

0

=

tzn.

H

0

(

β

i

=

0

)

W modelach regresji pożądane jest odrzucenie

hipotezy

H

0

(

β

1

=

0

)

.

Przykład

Z populacji dla której (X, Y) ma rozkład normalny

pobrano próbę 100 elementową i obliczono, że

prosta regresji z próby ma postać:

(0,1)

0,4

(0,5)

1,35

X

Y

=

Na poziomie istotności 0,05 sprawdź istotność

współczynnika

β

1

.

(28)

28

Rozpatrujemy hipotezy

H0

(

β1 = 0

)

H1

(

β1 < 0

)

Wartość statystyki wynosi u = – 4.,

Zbiór krytyczny ma postać

K

=

(

−∞

;

1

,

66

>

.

Ponieważ obliczona wartość statystyki należy do

zbioru

krytycznego

to

odrzucamy

hipotezę

(

1

0

)

0

β

=

H

, zatem wynik testu nie podważa

(29)

29

Prognoza punktowa to przewidywana wartość

zmiennej Y odpowiadająca wartości

x

τ zmiennej X.

τ

τ

)

b

b

x

(

(30)

30

Standardowy błąd prognozy

(

)

(

)

2 1 1 2 1 2 1 2 1 2 2

2

1

1

1

+

+

=

=

+

+

=

= = = = = n i i n i i n i i n i i e n i i e

x

x

n

x

x

nx

x

S

x

x

x

x

n

S

S

τ τ τ τ

(31)

31

błąd względny prognozy punktowej:

% 100 * τ τ τ

δ

y S =

(32)

32

Prognoza przedziałowa dla poz. ufności 1 –

α

.

τ α τ α

τ

τ

u

S

y

u

S

y

*

(

)

;

*

(

)

+

u

α

odczytujemy z tablicy rozkładu Studenta:

(

T > uα

)

=

α

(33)

33

Badanie liniowości funkcji regresji - test serii.

Badamy populację ze względu na dwie cechy X i Y. Losujemy próbę n - elementową (xi, yi).

Na podstawie tej próby chcemy sprawdzić czy funkcja regresji jest liniowa.

Prostym testem do weryfikacji tej własności jest test serii.

Niech y = b0 +b1x będzie prostą regresji wyznaczoną na

podstawie próby metodą najmniejszych kwadratów. Elementom próby przypisujemy symbol a lub b:

a - gdy yi >b0 +b1xi, (punkt leży nad prostą)

b - gdy yi <b0 +b1xi (punkt leży pod prostą)

(elementów dla których zachodzi równość nie rozpatrujemy).

(34)

34 Rozpatrujemy hipotezy

H0(funkcja regresji jest liniowa),

H1(funkcja regresji nie jest liniowa),

Stosujemy statystykę:

Un = liczba serii

Zbiór krytyczny:

K = (0; k>

gdzie k odczytujemy z tablicy dla poziomu istotności α i liczb n1 oraz n2 ,

gdzie n1 - liczba symboli a, n2 - liczba symboli b,

Decyzje:

Jeśli UnK to H0 odrzucamy ,

(35)

35 Przykład.

Badano zależność między wynikami testów z dwóch przedmiotów przeprowadzonymi w pewnej uczelni. Dla próby 12 wylosowanych studentów otrzymano następujące liczby punktów:

X 16 20 22 24 33 47 55 70 77 82 90 94

Y 25 34 60 83 92 104 110 124 133 150 145 170

Prosta regresji z próby ma postać Y = 2x + 5.

Sprawdzimy na poziomie istotności 0,05 hipotezę że zależność między tymi cechami jest liniowa.

(36)

36 Rozwiązanie.

Otrzymamy następujący ciąg symboli:

b, b, a, a, a, a, b, b, b, b, b, b Liczba serii wynosi u = 3

Z tablic rozkładu serii odczytujemy K = (0; 3>

Ponieważ uK to odrzucamy hipotezę H0 , zatem

możemy sądzić, że zależność między wynikami testów nie jest liniowa.

Cytaty

Powiązane dokumenty

Naszym zadaniem jest, na podstawie badanej próbki, orzec o właściwości całej populacji; tutaj konkretnie jest to nieznana wartość oczekiwana.. Aby móc w ogóle rozwiązać to

Metody momentów i kwantyli (wszystkie podane tu zadania należy rozwiązać tymi dwoma metodami)..

Informacja Fishera, asymptotyczna normalność

Procedura, która na podstawie konkretnych obserwacji (tj.. Test statystyczny formalnie – cd.. Test statystyczny formalnie – cd. statystyki testowej) oraz liczby c (tzw..

Stosowany zwł. dla próbek o liczebności do 30, kiedy jest lepszy niż test zgodności chi- kwadrat.. Test zgodności chi-kwadrat – postać testu. Ogólna

(nieznanych) parametrach opisujemy przy pomocy rozkładów prawdopodobieństwa, przy czym dodatkowa wiedza może wpływać na nasz

Estymator Bayesowski przy zadanej funkcji straty.. przedział

Posługując się testem nieparametrycznym dla par wiązanych sprawdzić czy istnieje wpływ nawożenia leku na zmianę zawartości chlorofilu na poziomie istotności 5%.