ANALIZA ZALEŻNOŚCI DWÓCH ZMIENNYCH.
REGRESJA LINIOWA.
I. Współczynnik korelacji próbkowej
Niech (x1,y1),(x2,y2),...,(xn,yn) będzie próbką cechy dwuwymiarowej H0: 1 ,10.
Będziemy badali zależność Y od X.
X = zmienna niezależna ( zmienna objaśniająca ), Y = zmienna zależna ( zmienna objaśniana ),
Wykres rozproszenia – graficzne przedstawienie próbki w postaci punktów na płaszczyźnie Oxy.
Przykład. Wyniki kolokwium i egzaminu końcowego
Definicja. Niech (X1,Y1),(X2,Y2),...,(Xn,Yn) będzie próbą losową. Współczynnikiem korelacji z próby losowej nazywamy zmienną losową
n
i Y
i X i
S Y Y S
X X R n
1 1
1 ,
gdzie X i SX oznaczają średnią i odchylenie standardowe dla X1,X2,...,Xn, a Y i SY oznaczają średnią i odchylenie standardowe dla Y1,Y2,...,Yn.
( np. n
i Yi
Y n
1
1 , n
i i
Y Y Y
S n
1
2
2 ( )
1
1 , SY SY2 )
Współczynnikiem korelacji próbkowej nazywamy wartość R obliczoną dla próbki (x1,y1),(x2,y2),...,(xn,yn):
n
i Y
i X i
s y y s
x x r n
1 1
1
Własności współczynnika korelacji próbkowej :
1. 1r1.
2. Jeśli r 1, to wszystkie punkty wykresu rozproszenia leżą na prostej o dodatnim współczynniku
kierunkowym, tzn. istnieje dodatnia zależność liniowa między zmiennymi x i y próbki.
3. Jeśli r 1, to wszystkie punkty wykresu rozproszenia leżą na prostej o ujemnym współczynniku
kierunkowym, tzn. istnieje ujemna zależność liniowa między zmiennymi x i y próbki.
4. Wartości r bliskie –1 lub 1 wskazują, że wykres rozproszenia jest skupiony wokół prostej.
II. Prosta regresji. Metoda najmniejszych kwadratów.
Problem: w jaki sposób dopasować „najlepiej” do wykresu rozproszenia, tzn. do (x1,y1),(x2,y2),...,(xn,yn), linię prostą ?
Niech yb0 b1x, x, będzie równaniem prostej
„dopasowanej” do punktów (xi, yi), i 1,...,n, wykresu rozproszenia.
( b1 = współczynnik kierunkowy, b0 = wyraz wolny ) Wówczas yi b0 b1xi = przybliżenie wartości yi na
podstawie zmiennej niezależnej xi uzyskane z zależności liniowej.
Błąd oszacowania yi yi nazywamy wartością resztową lub rezyduum.
Miarą dopasowania prostej do próbki (punktów wykresu rozproszenia ) jest
suma kwadratów błędów ( rezyduów ):
n
i yi yi
b b S
1 1 2
0, ) ( )
( = n
i yi b bxi
1
1 2
0 ))
(
( .
Prostą dla której S(b0,b1) osiąga wartość minimalną nazywamy prostą regresji lub też prostą wyznaczoną metodą najmniejszych kwadratów.
Współczynniki prostej regresji b0, b1 wyznaczamy z warunku koniecznego minimum funkcji S(b0,b1), tzn.
przyrównując do zera obie pochodne cząstkowe.
Rozwiązując ten układ 2 równań liniowych otrzymujemy:
n
i i
n
i i i
x x
y y x b
1
2 1 1
) (
) (
n
i i
n
i i i
x x
y y x x
1
2 1
) (
) )(
(
=
=
n
i i
n
i i i
x x
y x x
1
2 1
) (
) (
, (1)
n i
n
i i
i b x
n y b
1 1 1
0 1( )
= yb1x, (2) gdzie n
i xi
x n
1
1 , n
i yi
y n
1
1 .
Wartość y b0b1x nazywamy wartością przewidywaną zmiennej objaśnianej (zależnej) przy pomocy prostej regresji na podstawie zmiennej objaśniającej
( niezależnej ) x.
Określimy współczynnik determinacji.
Ocena „dobroci” dopasowania prostej regresji ?
n
i yi y
SST
1
)2
( = całkowita suma kwadratów ( Total Sum of Squares ) ( miara zmienności samych y1,..., yn).
n
i yi yi
SSE
1
)2
( = suma kwadratów błędów ( Error Sum of Squares ),
n
i yi y
SSR
1
)2
( = regresyjna ( modelowa ) suma
kwadratów ( Regression ( Model ) Sum of Squares
( miara zmienności y1,..., yn). Można pokazać:
n
i i
n
i i
n
i i
i y y y y y
y
1
2 1
2 1
2 ( ) ( )
)
( .
SST = SSE + SSR
SST SSE SST
SSR 1 = współczynnik determinacji.
Im mniejsze SSE tym wykres rozproszenia skupiony bardziej wokół prostej regresji.
Współczynnik determinacji jest miarą stopnia
dopasowania prostej regresji do wykresu rozproszenia ( ocenia jakość tego dopasowania ), określa stopień, w jakim zależność liniowa między zmienną objaśnianą a objaśniającą wyjaśnia zmienność wykresu rozproszenia.
Wartość współczynnika determinacji jest ściśle związana z wartością współczynnika korelacji próbkowej.
Stwierdzenie.
SST r2 SSR
n
i i
n
i i
y y
y y
1
2 1
2
) (
)
( = zmienność wyjaśniona
przez model/zmienność całkowita Przykład. – wydruk z pakietu SAS.
( prosta regresji, SSR,SSE,r2 )
III. Model zależności liniowej (model regresji liniowej) Załóżmy, że próbka (x1,y1),...,(xn,yn) jest realizacją próby losowej (x1,Y1),...,(xn,Yn), gdzie
i i
i x
Y 01 , i 1,...,n,
oraz 1,2,...,n są niezależnymi zmiennymi losowymi o wartości średniej 0 i wariancji 2, a znane liczby
xn
x ,...,1 nie wszystkie są jednakowe.
Prostą y 0 1x nazywamy prostą regresji
współczynnik0 = wyraz wolny prostej regresji
współczynnik1 = współczynnik kierunkowy prostej regresji zmienne losowe 1,2,...,n = losowe błędy w modelu wariancja 2 = wariancja błędów w modelu
Własności zmiennej losowej Yi, i 1,...,n,
) (Yi
E E(0 1xi)E(i) = 0 1xi.
Var(Yi) = Var(01xi i) = Var(i)2
Założenia:
(i) Obserwujemy wartości zmiennych Y ,...,1 Yn. (ii) x ,...,1 xn są znane
(iii) 0,1,2 są nieznanymi parametrami modelu
Cel eksperymentu – wnioskowanie na temat parametrów modelu
Naturalne estymatory 0,1 otrzymujemy metodą najmniejszych kwadratów, wstawiając we wzorach (1), (2) zmienne losowe Yi zamiast ich wartości yi, i 1,...,n,
b0
= Y b1x,
n
i i
n
i i i
x x
Y Y x x b
1
2 1 1
) (
) )(
(
=
n
i i
n
i i i
x x
Y x x
1
2 1
) (
) (
.
Własności estymatorów b0, b1 :
Twierdzenie.
(i) E(b0)0, E(b1) 1, (ii) Var(b0) =
n
i xi x
x n
1
2 2 2
) (
1 , (3)
Var
n
i xi x
b
1
2 2
1 ( )
)
(
, (4)
(iii) Jeśli i ~ N(0,), i = 1,..,n, to
b0
, b1 mają rozkłady normalne o wartościach średnich i wariancjach określonych w (i) i (ii).
Estymator 2:
Definicja. Błędem średniokwadratowym S2 nazywamy estymator wariancji 2 określony następująco
2 ) (
1
2 2
n
Y Y S
n
i i i
= nSSE2.
Liczbę n2 nazywamy liczbą stopni swobody rezyduów.
Stwierdzenie. S2 jest nieobciążonym estymatorem 2, tzn.
2 2) (S
E .
S2
S = estymator .
Wniosek. (i) Nieobciążonym estymatorem Var(b0) jest
n
i xi x
x S n
b SE
1
2 2 2
0 2
) ( )] 1
(
[
) (b0 SE
=
n
i xi x
x S n
1
2 2
) (
1 nazywamy błędem
standardowym estymatora b0, gdyż na mocy (3) SE(b0)
= estymator b0 = Var(b0)
(ii) Nieobciążonym estymatorem Var(b1) jest
n
i xi x
b S SE
1
2 2 2
1
) (
)]
( [
) (b1 SE
=
n
i xi x
S
1
)2
( nazywamy błędem standardowym estymatora b1, gdyż na mocy (4) SE(b1) = estymator b1
= Var(b1).
Twierdzenie. Jeśli i ~ N(0,), i = 1,..,n, to
(i) ~ ( , ( ) )
1 1 2 1
n
i xi x
N
b
,
bSE1(b11) ~ tn2,
(ii) ~ ( , 1 ( ) )
1
2 2 0
0
n
i xi x
x N n
b , skąd:
bSE0 (b00) ~ tn2.
Przedział ufności na poziomie ufności 1 dla współczynnika 1:
[b1t1/2,n2SE(b1),b1t1/2,n2SE(b1)]
Przedział ufności na poziomie ufności 1 dla współczynnika 0 :
[b0t1/2,n2SE(b0),b0t1/2,n2SE(b0)]
Testowanie hipotezy o wartości współczynnika 0 (A) H0: 0 0,0,
gdzie 0,0 jest ustaloną liczbą.
Statystyka testowa
) ( 0
0 , 0 0
b SE
T b
= (b00,0)/(
n
i xi x
x S n
1
2 2
) (
1 )
Jeśli H0 prawdziwa, to T ~tn2. (a) H0: 0 0,0 , H1: 0 0,0.
Obszar krytyczny C = {t:t t1/2,n2}.
(b) H0: 0 0,0 , H1: 0 0,0.
Obszar krytyczny C = {t:t t1,n2}. (c) H0: 0 0,0 , H1: 0 0,0
Obszar krytyczny C = {t:t t1,n2}.
Testowanie hipotezy o wartości współczynnika 1 (B) H0: 1 1,0,
gdzie 1,0 jest ustaloną liczbą.
Statystyka testowa
) ( 1
0 , 1 1
b SE
T b
=
S
x x
b n
i i
1
0 2 , 1
1 ) ( )
(
Jeśli H0 prawdziwa, to T ~tn2. (a) H0: 1 1,0 , H1: 1 1,0.
Obszar krytyczny C = {t:t t1/2,n2}.
(b) H0: 1 1,0 , H1: 1 1,0.
Obszar krytyczny C = {t:t t1,n2}.
(c) H0: 1 1,0 , H1: 1 1,0.
Obszar krytyczny C = {t:t t1,n2}.
(C) H0:10, H1:10 Statystyka testowa
) 2 /(
1 /
n SSE F SSR
Jeśli H0 prawdziwa, to F ma rozkład F Snedecora o 1, n-2 stopniach swobody.
n
i i
n
i i
n
i i
i Y Y Y Y Y
Y
1
2 1
2 1
2 ( ) ( )
)
(
. SST = SSE + SSR n-1 = n-2 + 1
(Liczby stopni swobody SSx = liczba niezależnych zmiennych zmniejszona o liczbę ograniczeń występujących w określeniu SSx).
i i
i x
Y 0 1 , i 1,...,n,
Obszar krytyczny testu: C {Fobl:Fobl f1,1,n2}. Zauważmy, że F T2, stąd test jest szczególnym przypadkiem testu z (B) gdy 1,0 0
Przykład. Zanotowano miesięczne wydatki na reklamę ( w 10000 złotych ) pewnego artykułu oraz miesięczne dochody ze sprzedaży artykułu ( w 100000 zł ) :
Miesiąc i : 1 2 3 4 5 Reklama xi : 5 6 7 8 9 Dochód yi : 4,5 6,5 8,4 7,6 8,4
x= 7,0 y = 7,08 sX = 1,58 sY = 1,64
Współczynnik korelacji próbkowej:
n
i Y
i X i
s y y s
x x r n
1 1
1 = 0,858
Dopasowana prosta regresji: y = b0 + b1x
b1 =
n
i i
n
i i i
x x
y y x x
1
2 1
) (
) )(
(
= 0,89
b0 = yb1x = 7,08 - 0,89 x 7 = 0,85
Przewidywany dochód ze sprzedaży przy wydatku na reklamę x = 10 (x 10000 zł ) wynosi
x b b y 0 1
= 0,85 + 0,89 x 10 = 9,75 ( x 100000 zł ).
Plot of Fitted Model
reklama
dochod
5 6 7 8 9
4,5
5,5
6,5
7,5
8,5
n
i yi y
SST
1
)2
( = 10,748
n
i yi yi
SSE
1
)2
( = 2,827
n
i yi y
SSR
1
)2
( = 7,921
R2 = SSTSSR 1SSTSSE = współczynnik determinacji.
R2 = 0,737
Zmienność dochodu w prawie 74% wyjaśniona przez zmienność wydatków ma reklamę.
Zmienność wydatków na reklamę w 74% określa zmienność dochodu.
Założenie: model liniowy zależności dochodu od wydatków na reklamę
i i
i x
Y 01
0 ,1
1
0 :
H
Prognoza wartości Y na podstawie x0.
Obserwowane Y ,...,1 Yn.
i i
i x
Y 0 1 , i 1,...,n.
Nieobserwowane Y(x0)0 x1 00, (5)
Analysis of Variance
--- Source Sum of Squares Df Mean Square F-Ratio P-Value --- Model SSR 7,921 1 7,921 8,41 0,0625 Residual SSE 2,827 3 0,942333
--- Total SST 10,748 4
Correlation Coefficient = r = 0,858472 R-squared = 73,6974 percent
R-squared (adjusted for d.f.) = 64,9299 percent Standard Error of Est. = 0,970739
gdzie 1,2,...,n,0 są niezależnymi zmiennymi losowymi o rozkładach N(0,).
Zadania:
(a) ocena ( estymacja ) wartości średniej Y(x0) =
)]
( [Y x0
E zmiennej objaśnianej w sytuacji, gdy zmienna
objaśniająca x jest równa x0.
(b) przewidywanie ( prognoza ) wartości Y(x0).
(a) Obliczając wartość średnią obu stron (5) mamy:
) (x0
Y = E(0 1x0)E(0) = 0 1x0. Stąd naturalnym oszacowaniem Y(x0) jest
) (x0
Y = Y(x0)b0b1x0.
0 1 0 0 1 0
0)] ( )
(
[Y x E b bx x
E = Y(x0) (6)
Zatem Y(x0) jest nieobciążonym estymatorem Y(x0).
2 ) (x0 Y
= Var(b 0 b1x0) = Var(Y b1(x0x)).
Można pokazać, że b ,1 Y są nieskorelowane, stąd
2(x0) Y
=
n
i i
Y b
x x
x x x n
x
1
2 2 2 0
2 2 0 2
) (
) ( ) 1
( 1
(7)
Błąd standardowy estymatora Y(x0) definiujemy jako
) (x0
SEY =
n
i xi x
x x S n
1
2 0 2
) (
) 1 (
.
Twierdzenie. Estymator Y(x0) wartości średniej Y(x0) zmiennej objaśnianej Y dla wartości zmiennej objaśniającej x0 ma rozkład normalny o wartości średniej i wariancji postaci (6) i (7), odpowiednio.
Ponadto,
2 )
( ) (
0) ~
(
0
0
n x
Y x
Y t
SE x Y
.
Wniosek. Przedział ufności na poziomie ufności 1 dla Y(x0) 01x0 ma krańce
) 2 (
, 2 / 1
0) 0
(x t n SEY x
Y
.