1
STATYSTYKA MATEMATYCZNA
WYKŁAD 6
Wnioskowanie statystyczne dla
korelacji i regresji.
2 Analiza korelacji
Założenie: zmienna losowa dwuwymiarowa (X, Y) ma rozkład normalny o współczynniku korelacji ρ.
3
X, Y – cechy badane równocześnie.
Xi X1 X2 ... Xn
Yi Y1 Y2 ... Yn
4
(
)(
)
(
)
∑
(
)
∑
∑
−
⋅
−
−
−
=
=
⋅
=
2 21
1
1
)
,
(
Y
Y
n
X
X
n
Y
Y
X
X
n
S
S
Y
X
Cov
R
i i i i Y X5
Uwaga:
a)
∑
(
x
i
−
x
)(
y
i
−
y
)
=
∑
x
i
y
i
−
n
x
y
b)
∑
(
x
i−
x
)
=
∑
x
i−
n x
( )
6
( )
2 2( )
2 21
1
1
Y
Y
n
X
X
n
Y
X
Y
X
n
R
i i i i−
⋅
−
−
=
∑
∑
∑
7
Estymator R jest estymatorem zgodnym i asymptotycznie nieobciążonym współczynnika korelacji ρ.
Estymator ten ma asymptotycznie rozkład normalny
− n N 2 1 , ρ
8 Uwaga. n 1 1+R U = ln 2 1-R ≈ 1 1+ρ 1 N ln , 2 1-ρ n-3 , n ≥ 20). Jeśli ρ = 0, to n 2 R U = n-2 1-R ma rozkład Tn–2 .
9
Zatem przedział ufności dla współczynnika korelacji ρρρρ (próba bardzo liczna) ma postać:
n
R
u
R
n
R
u
R
2 21
;
1
−
+
−
−
α αR – współczynnik korelacji z próby, n – liczebność próby,
1 – α – poziom ufności,
10
Dla małych prób (n ≥ 20) przedział ufności dla
współczynnika korelacji ρρρρ ma postać:
2A
2B
2A
2B
e
1
e
1
;
e
1
e
1
−
−
+
+
, gdzie u 1 1 R A ln 2 1 R n 3 α + = − − − , u 1 1 R B ln 2 1 R n 3 α + = + − −11
Weryfikacja hipotez dotyczących współczynnika korelacji.
Zakładamy, że cecha (X,Y) ma rozkład normalny, n ≥ 20.
Wysuwamy dwie hipotezy:
(
0)
0 ρ = ρ
H , H1 - jedną z trzech poniższych hipotez.
Rozpatrujemy statystykę i zbiór krytyczny wg tabeli:
H1 Statystyka U Zbiór krytyczny Odczyt k
0 ρ ρ ≠ K = −∞ − > ∪ < +∞( ; k k; ) Φ( )k =1−α/2 0 ρ ρ > 0 0 1+ρ 1 1+R 1 ln - ln n-3 2 1-R 2 1-ρ K =< +∞k; ) Φ( )k =1−α 0 ρ ρ < K= −∞ − >( ; k Φ( )k =1−α Decyzje: Jeśli Un ∈K to H0 odrzucamy ,
12
Przykład.
Badano zależność między wydatkami na reklamę a wysokością sprzedaży.
Dla próby 40 elementowej otrzymano r = 0,812. Sprawdzimy na poziomie istotności 0,05 hipotezy:
(
0,85)
0 ρ =
13
Rozwiązanie.
Wartość statystyki wynosi
u = -0,816.
Zbiór krytyczny ma postać
)
;
96
,
1
96
,
1
;
(
−∞
−
>
∪
<
+∞
=
K
14
B adanie istotności współczynnika korelacji Wysuwamy dwie hipotezy:
(
0)
0 ρ =
H (brak korelacji pomiędzy zmiennymi),
1
H – jedną z trzech poniższych hipotez.
Rozpatrujemy statystykę i zbiór krytyczny wg tabeli:
H1 Statystyka U Zbiór krytyczny Odczyt k
0 ≠ ρ K =(−∞;−k >∪<k;+∞) P
(
Tn 2− >k)
=α 0 > ρ 1− 2 n −2 R R ) ;+∞ =< k K P(
Tn−2 >k)
= 2α 0 < ρ K = (−∞;−k > P(
Tn−2 > k)
= 2α Decyzje: Jeśli un∈K to H0 odrzucamy,15
Wnioskowanie dla współczynników regresji
Niech
y
=
β
0+
β
1x
będzie prostą regresji,
a
x
b
b
y
ˆ
=
0+
1prostą regresji wyznaczoną na
16
Współczynniki
b0, b1prostej regresji wyznaczamy
stosując metodę najmniejszych kwadratów (MNK).
Chcemy wyznaczyć minimum funkcji:
(*)
∑
∑
∑
= = = − − = = − = = n i i i n i i i n i i x b b y y y e b b S 1 2 1 0 1 2 1 2 1 0 ) ( ) ˆ ( ) , (gdzie
ei = yi − yˆinazywamy resztami modelu
regresji.
Uwaga.
0
1=
∑
= n i ie
17
MNK:
Należy wyznaczyć prostą regresji tak aby suma pól
kwadratów była minimalna.
18
Obliczając pochodne cząstkowe funkcji (*)
i przyrównując je do zera otrzymujemy układ
równań normalnych:
0 2 ) )( ( 2 0 2 ) 1 )( ( 2 1 0 1 2 1 1 1 1 0 1 0 1 1 1 1 1 0 0 = − − − = = − − − = ∂ ∂ = − − − = = − − − = ∂ ∂∑
∑
∑
∑
∑
∑
∑
= = = = = = = n i i n i i n i i i n i i i i n i i n i i n i i i x b x b x y x x b b y b S nb x b y x b b y b S19
Rozwiązując otrzymany układ równań otrzymamy
wzory na przybliżone wartości współczynników
( )
(
(
)(
)
)
( )
2 2 2 2 2 2 1 ) , cov( X X Y i i i i i i i i i i i i s Y X r s s x n x y x n y x x x y y x x x x n y x y x n b = = − − = = − − − = − − =∑
∑
∑
∑
∑
∑
∑ ∑
∑
x
b
y
b
0=
−
120
Wariancja resztowa:
Wariancja resztowa to średnia z pól kwadratów
zbudowanych na resztach odzwierciedlająca stopień
dopasowania prostej regresji do danych
statystycznych.
Niech
ei = −yi y$i,
gdzie
$yi = b0 +b x1 iwtedy
2
1 2 2−
=
∑
=n
e
s
n i i e czyli 2 1 1 1 0 1 2 2 − − − =∑
=∑
=∑
= n y x b y b y s n i i i n i i n i i e( )
2
1
2 2 2−
−
=
n
r
ns
s
Y e 2 e e ss =
oznacza średnie (standardowe) odchylenie
od prostej regresji.
21
Współczynnik determinacji
( )
(
)
( )
2 2 2 2 2 2 1 2 2 2 1 0 2 2 2 2 2 ) , ( cov ) ( 1 ) ( ) ˆ ( r S S Y X y n y y x n y x b y n y y n y x b y b y y e y y y y R Y X i i i i i i i i i i i = = − − = = − − + = = − − = − − =∑
∑
∑
∑
∑
∑
∑
∑
∑
Uwaga:
R2 ∈ 0, 122
Standardowe błędy oszacowania współczynników
prostej regresji.
2 1)
(
)
(
x
x
s
b
s
i e−
=
∑
2 2 1 2 1 2 2 0 ( ) ( ) 1 ) ( ) ( ) ( x s b s x n b s x x n x s b s i X i i e + ⋅ = ⋅ = − =∑
∑
∑
23
Stosujemy niekiedy zapis
X
b
b
Y
b s b s ( ( )) 1 )) ( ( 0 1 0ˆ
± ±+
=
lub
)
(
ˆ
)) ( ( 1 )) ( ( 0 1 0 e b s b ss
X
b
b
Y
=
+
±
± ±24
Przedziały ufności dla
ββββ
i, i = 0, 1;
dla poziomu ufności 1 –
α
mamy:
)
(
);
(
i i i i ib
u
αS
b
b
u
αS
b
β
∈
−
+
gdzie
u
αodczytujemy z tablicy rozkładu Studenta:
(
T − > uα)
=αP n 2
.
S(b
i) – standardowe błędy współczynników prostej
regresji.
25
Weryfikacja hipotez dla
ββββ
i, i = 0, 1;
dla poziomu istotności
α
rozpatrujemy test dla
poszczególnych parametrów
β
i, i = 0, 1.
Wysuwamy dwie hipotezy:
(
)
H0 βi = βi0
,
H1– jedną z trzech poniższych
hipotez.
26
Rozpatrujemy statystykę i zbiór krytyczny wg tabeli:
1
H
Statystyka Zbiór krytyczny
Odczyt k
0 i i β β ≠ K =(−∞;−k >∪< k;+∞) P(Tn 2− >k)=α 0 i i β β > ) ( 0 i i i n b S b U = −
β
K =< k;+∞) P(Tn−2 >k)=2α 0 i i β β < K = (−∞;−k > P(Tn−2 >k)=2αDecyzje:
Jeśli
un ∈ Kto H
0odrzucamy ,
27
Uwaga
Jeśli badamy istotność parametru
β
ito przyjmujemy
β
i0
0
=
tzn.
H
0(
β
i=
0
)
W modelach regresji pożądane jest odrzucenie
hipotezy
H
0(
β
1=
0
)
.
Przykład
Z populacji dla której (X, Y) ma rozkład normalny
pobrano próbę 100 elementową i obliczono, że
prosta regresji z próby ma postać:
(0,1)
0,4
(0,5)
1,35
–
X
Y
=
Na poziomie istotności 0,05 sprawdź istotność
współczynnika
β
1.
28
Rozpatrujemy hipotezy
H0(
β1 = 0)
H1(
β1 < 0)
Wartość statystyki wynosi u = – 4.,
Zbiór krytyczny ma postać
K
=
(
−∞
;
−
1
,
66
>
.
Ponieważ obliczona wartość statystyki należy do
zbioru
krytycznego
to
odrzucamy
hipotezę
(
10
)
0
β
=
H
, zatem wynik testu nie podważa
29
Prognoza punktowa to przewidywana wartość
zmiennej Y odpowiadająca wartościx
τ zmiennej X.τ
τ
)
b
b
x
(
30
Standardowy błąd prognozy
(
)
(
)
2 1 1 2 1 2 1 2 1 2 22
1
1
1
−
−
+
+
=
=
−
−
+
+
=
∑
∑
∑
∑
∑
= = = = = n i i n i i n i i n i i e n i i ex
x
n
x
x
nx
x
S
x
x
x
x
n
S
S
τ τ τ τ31
błąd względny prognozy punktowej:
% 100 * τ τ τδ
y S =32
Prognoza przedziałowa dla poz. ufności 1 –
α
.
τ α τ α
τ
τ
u
S
y
u
S
y
*(
)
−
;
*(
)
+
u
αodczytujemy z tablicy rozkładu Studenta:
(
T − > uα)
=α
33
Badanie liniowości funkcji regresji - test serii.
Badamy populację ze względu na dwie cechy X i Y. Losujemy próbę n - elementową (xi, yi).
Na podstawie tej próby chcemy sprawdzić czy funkcja regresji jest liniowa.
Prostym testem do weryfikacji tej własności jest test serii.
Niech y = b0 +b1x będzie prostą regresji wyznaczoną na
podstawie próby metodą najmniejszych kwadratów. Elementom próby przypisujemy symbol a lub b:
a - gdy yi >b0 +b1xi, (punkt leży nad prostą)
b - gdy yi <b0 +b1xi (punkt leży pod prostą)
(elementów dla których zachodzi równość nie rozpatrujemy).
34 Rozpatrujemy hipotezy
H0(funkcja regresji jest liniowa),
H1(funkcja regresji nie jest liniowa),
Stosujemy statystykę:
Un = liczba serii
Zbiór krytyczny:
K = (0; k>
gdzie k odczytujemy z tablicy dla poziomu istotności α i liczb n1 oraz n2 ,
gdzie n1 - liczba symboli a, n2 - liczba symboli b,
Decyzje:
Jeśli Un ∈K to H0 odrzucamy ,
35 Przykład.
Badano zależność między wynikami testów z dwóch przedmiotów przeprowadzonymi w pewnej uczelni. Dla próby 12 wylosowanych studentów otrzymano następujące liczby punktów:
X 16 20 22 24 33 47 55 70 77 82 90 94
Y 25 34 60 83 92 104 110 124 133 150 145 170
Prosta regresji z próby ma postać Y = 2x + 5.
Sprawdzimy na poziomie istotności 0,05 hipotezę że zależność między tymi cechami jest liniowa.
36 Rozwiązanie.
Otrzymamy następujący ciąg symboli:
b, b, a, a, a, a, b, b, b, b, b, b Liczba serii wynosi u = 3
Z tablic rozkładu serii odczytujemy K = (0; 3>
Ponieważ u∈K to odrzucamy hipotezę H0 , zatem
możemy sądzić, że zależność między wynikami testów nie jest liniowa.