Przykład. Wyniki kolokwium i egzaminu końcowegoDefinicja. Niech

(1)

ANALIZA ZALEŻNOŚCI DWÓCH ZMIENNYCH.

REGRESJA LINIOWA.

I. Współczynnik korelacji próbkowej

Niech ⁽^x¹^,^y¹^),⁽^x²^,^y²^),...,⁽^xⁿ^,^yⁿ⁾ będzie próbką cechy dwuwymiarowej ^H⁰^:^{ }¹ ^^,1⁰.

Będziemy badali zależność Y od X.

X = zmienna niezależna ( zmienna objaśniająca ), Y = zmienna zależna ( zmienna objaśniana ),

Wykres rozproszenia – graficzne przedstawienie próbki w postaci punktów na płaszczyźnie Oxy.

Przykład. Wyniki kolokwium i egzaminu końcowego

Definicja. Niech ⁽^X¹^,^Y¹^),⁽^X²^,^Y²^),...,⁽^Xⁿ^,^Yⁿ⁾ będzie próbą losową. Współczynnikiem korelacji z próby losowej nazywamy zmienną losową

 

 



 



 



 

 

 n

i Y

i X i

S Y Y S

X X R n

1 1

1 ,

gdzie ^X i ^S^X oznaczają średnią i odchylenie standardowe dla ^X¹^,^X²^,...,^Xⁿ, a ^Y i ^S^Y oznaczają średnią i odchylenie standardowe dla ^Y¹^,^Y²^,...,^Yⁿ.

(2)

( np. ^ ^_ⁿ

i Yi

Y n

1

1 , ^ _ ^_ⁿ ^

i i

Y Y Y

S n

1

2

2 ( )

1

1 , ^S^Y ^ ^S^Y² )

Współczynnikiem korelacji próbkowej nazywamy wartość R obliczoną dla próbki ⁽^x¹^,^y¹^),⁽^x²^,^y²^),...,⁽^xⁿ^,^yⁿ⁾:

 

 



 



 



 

 

 n

i Y

i X i

s y y s

x x r n

1 1

1

Własności współczynnika korelacji próbkowej :

1. ^¹^^r^¹.

2. Jeśli ^r ^¹, to wszystkie punkty wykresu rozproszenia leżą na prostej o dodatnim współczynniku

kierunkowym, tzn. istnieje dodatnia zależność liniowa między zmiennymi x i y próbki.

3. Jeśli ^r ^^¹, to wszystkie punkty wykresu rozproszenia leżą na prostej o ujemnym współczynniku

kierunkowym, tzn. istnieje ujemna zależność liniowa między zmiennymi x i y próbki.

4. Wartości r bliskie –1 lub 1 wskazują, że wykres rozproszenia jest skupiony wokół prostej.

II. Prosta regresji. Metoda najmniejszych kwadratów.

(3)

Problem: w jaki sposób dopasować „najlepiej” do wykresu rozproszenia, tzn. do ⁽^x¹^,^y¹^),⁽^x²^,^y²^),...,⁽^xⁿ^,^yⁿ⁾, linię prostą ?

Niech ^y^^b⁰ ^^b¹^x, ^^^^x^^, będzie równaniem prostej

„dopasowanej” do punktów ⁽^xⁱ^, ^yⁱ⁾, ⁱ ^¹^,...,ⁿ^, wykresu rozproszenia.

( ^b¹ = współczynnik kierunkowy, ^b⁰ = wyraz wolny ) Wówczas ^y^ⁱ ^^b⁰ ^^b¹^xⁱ = przybliżenie wartości ^yⁱ na

podstawie zmiennej niezależnej ^xⁱ uzyskane z zależności liniowej.

Błąd oszacowania ^yⁱ ^ ^y^ⁱ nazywamy wartością resztową lub rezyduum.

Miarą dopasowania prostej do próbki (punktów wykresu rozproszenia ) jest

suma kwadratów błędów ( rezyduów ):

 

  n

i yi yi

b b S

1 1 2

0, ) ( )

(  = ^_ⁿ ^ ^

i yi b bxi

1

1 2

0 ))

(

( .

Prostą dla której ^S⁽^b⁰^,^b¹⁾ osiąga wartość minimalną nazywamy prostą regresji lub też prostą wyznaczoną metodą najmniejszych kwadratów.

Współczynniki prostej regresji ^b⁰^{, b}¹ wyznaczamy z warunku koniecznego minimum funkcji ^S⁽^b⁰^,^b¹⁾, tzn.

przyrównując do zera obie pochodne cząstkowe.

Rozwiązując ten układ 2 równań liniowych otrzymujemy:

(4)



 



 n

i i

n

i i i

x x

y y x b

1

2 1 1

) (

 

  



 n

i i

n

i i i

x x

y y x x

1

2 1

) (

) )(

(

=

 



 n

i i

n

i i i

x x

y x x

1

2 1

) (

, (1)

  

  

n i

n

i i

i b x

n y b

1 1 1

0 1( )

= ^y^^b¹^x, (2) gdzie ^ ^_ⁿ

i xi

x n

1

1 , ^ ^_ⁿ

i yi

y n

1

1 .

Wartość ^y ^^b⁰^^b¹^x nazywamy wartością przewidywaną zmiennej objaśnianej (zależnej) przy pomocy prostej regresji na podstawie zmiennej objaśniającej

( niezależnej ) x.

Określimy współczynnik determinacji.

Ocena „dobroci” dopasowania prostej regresji ?

 

  n

i yi y

SST

1

)2

( = całkowita suma kwadratów ( Total Sum of Squares ) ( miara zmienności samych ^y¹^,..., ^yⁿ⁾.

 

  n

i yi yi

SSE

1

)2

(  = suma kwadratów błędów ( Error Sum of Squares ),

 

  n

i yi y

SSR

1

)2

(  = regresyjna ( modelowa ) suma

(5)

kwadratów ( Regression ( Model ) Sum of Squares

( miara zmienności ^y^¹^,..., ^y^ⁿ⁾. Można pokazać:

 

     



 

n

i i

n

i i

n

i i

i y y y y y

y

1

2 1

2 ( ) ( )

)

(   .

^SST = ^SSE + ^SSR

SST SSE SST

SSR  1 = współczynnik determinacji.

Im mniejsze SSE tym wykres rozproszenia skupiony bardziej wokół prostej regresji.

Współczynnik determinacji jest miarą stopnia

dopasowania prostej regresji do wykresu rozproszenia ( ocenia jakość tego dopasowania ), określa stopień, w jakim zależność liniowa między zmienną objaśnianą a objaśniającą wyjaśnia zmienność wykresu rozproszenia.

Wartość współczynnika determinacji jest ściśle związana z wartością współczynnika korelacji próbkowej.

Stwierdzenie.



 SST r² SSR

 



 n

i i

n

i i

y y

1

2 1

2

) (

)

(  = zmienność wyjaśniona

przez model/zmienność całkowita Przykład. – wydruk z pakietu SAS.

(6)

( prosta regresji, ^SSR^,^SSE^,^r² )

III. Model zależności liniowej (model regresji liniowej) Załóżmy, że próbka ⁽^x¹^,^y¹^),...,⁽^xⁿ^,^yⁿ⁾ jest realizacją próby losowej ⁽^x¹^,^Y¹^),...,⁽^xⁿ^,^Yⁿ⁾, gdzie

i i

i x

Y ₀₁  , ⁱ ^¹^,...,ⁿ,

oraz ^¹^,^²^,...,^ⁿ są niezależnymi zmiennymi losowymi o wartości średniej 0 i wariancji ^², a znane liczby

xn

x ,...,₁ nie wszystkie są jednakowe.

Prostą ^y^^{ }⁰ ^¹^x nazywamy prostą regresji

współczynnik^⁰ = wyraz wolny prostej regresji

współczynnik^¹ = współczynnik kierunkowy prostej regresji zmienne losowe ^¹^,^²^,...,^ⁿ = losowe błędy w modelu wariancja ^² = wariancja błędów w modelu

Własności zmiennej losowej ^Yⁱ, ⁱ ^¹^,...,ⁿ,

 ) (Y_i

E E(₀ ₁x_i)E(_i) = ^{ }⁰ ^¹^xⁱ.

Var(^Yⁱ⁾ = Var⁽^⁰^^¹^xⁱ ^^ⁱ⁾ = Var(^ⁱ⁾^^²

(7)

Założenia:

(i) Obserwujemy wartości zmiennych ^{Y ,...,}¹ ^Yⁿ. (ii) ^{x ,...,}¹ ^xⁿ są znane

(iii) ^⁰^,^¹^,^² są nieznanymi parametrami modelu

Cel eksperymentu – wnioskowanie na temat parametrów modelu

Naturalne estymatory ^⁰^,^¹ otrzymujemy metodą najmniejszych kwadratów, wstawiając we wzorach (1), (2) zmienne losowe ^Yⁱ zamiast ich wartości ^yⁱ, ⁱ ^¹^,...,ⁿ,

b0

= ^Y ^^b^¹^x,

 

  



 n

i i

n

i i i

x x

Y Y x x b

1

2 1 1

) (

) )(

 (

=  

 



 n

i i

n

i i i

x x

Y x x

1

2 1

) (

.

Własności estymatorów ^b^⁰, ^b^¹ :

Twierdzenie.

(i) ^E⁽^b^⁰⁾^^⁰, ^E⁽^b^¹⁾^ ^¹, (ii) Var(^b^⁰⁾ =













 



 n

i xi x

x n

1

2 2 2

) (

 1 , (3)

(8)

Var ^ _ _

 n

i xi x

b

1

2 2

1 ( )

)

( 

, (4)

(iii) Jeśli ^ⁱ ^~ ^N⁽⁰^,^⁾, i = 1,..,n, to

b0

, ^b^¹ mają rozkłady normalne o wartościach średnich i wariancjach określonych w (i) i (ii).

Estymator ^²:

Definicja. Błędem średniokwadratowym ^S² nazywamy estymator wariancji ^² określony następująco

2 ) (

1

2 2



 

 ^ n

Y Y S

n

i i i

= _n^SSE_₂.

Liczbę ⁿ^² nazywamy liczbą stopni swobody rezyduów.

Stwierdzenie. ^S² jest nieobciążonym estymatorem ^², tzn.

2 2) (S 

E .

S2

S = estymator ^ .

Wniosek. (i) Nieobciążonym estymatorem Var(^b^⁰⁾ jest













 





 n

i xi x

x S n

b SE

1

2 2 2

0 2

) ( )] 1

(

[ 

(9)

) (b₀ SE 

= ^ _ _

 n

i xi x

x S n

1

2 2

) (

1 nazywamy błędem

standardowym estymatora ^b^⁰, gdyż na mocy (3) ^SE⁽^b^⁰⁾

= estymator ^^b^⁰ = ^Var⁽^b^⁰⁾

(ii) Nieobciążonym estymatorem Var(^b^¹⁾ jest

 



 n

i xi x

b S SE

1

2 2 2

1

) (

)]

( [ 

) (b₁ SE 

= _ _

 n

i xi x

S

1

)2

( nazywamy błędem standardowym estymatora ^b^¹, gdyż na mocy (4) ^SE⁽^b^¹⁾ = estymator ^^b^¹

= ^Var⁽^b^¹⁾.

Twierdzenie. Jeśli ^ⁱ ^~ ^N⁽⁰^,^⁾, i = 1,..,n, to

(i) ^~ ⁽ ^, ₍ ₎ ⁾

1 1 2 1

 

 n

i xi x

N

b^  

,

^b_SE^¹^₍_b^^₁¹₎ ~ ^tⁿ^²,

(10)

(ii) ^~ ⁽ ^, ¹ ₍ ₎ ⁾

1

2 2 0

0  



 n

i xi x

x N n

b^   , skąd:

^b_SE^⁰ ^₍_b^^₀⁰₎ ~ ^tⁿ^².

Przedział ufności na poziomie ufności ¹^^ dla współczynnika ^¹:

[^b^¹^^t¹^^/²^,ⁿ^²^^SE⁽^b^¹^),^b^¹^^t¹^^/²^,ⁿ^²^^SE⁽^b^¹⁾]

Przedział ufności na poziomie ufności ¹^^ dla współczynnika ^⁰ :

[^b^⁰^^t¹^^/²^,ⁿ^²^^SE⁽^b^⁰^),^b^⁰^^t¹^^/²^,ⁿ^²^^SE⁽^b^⁰⁾]

Testowanie hipotezy o wartości współczynnika ^⁰ (A) ^H⁰^:^{ }⁰ ^⁰^,⁰,

gdzie ^⁰^,⁰ jest ustaloną liczbą.

(11)

Statystyka testowa

) ( ₀

0 , 0 0

b SE

T b 

 

 = ⁽^b^⁰^^⁰^,⁰⁾/( ^ _ _

 n

i xi x

x S n

1

2 2

) (

1 )

Jeśli ^H⁰ prawdziwa, to T ^~^tⁿ^². (a) ^H⁰^:^{ }⁰ ^⁰^,⁰ , ^H¹^:^{ }⁰ ^⁰^,⁰.

Obszar krytyczny C = ^{^t^:^t ^^t¹^^^/²^,ⁿ^²^}.

(b) ^H⁰^:^{ }⁰ ^⁰^,⁰ , ^H¹^:^{ }⁰ ^⁰^,⁰.

Obszar krytyczny C = ^{^t^:^t ^^t¹^^^,ⁿ^²^}. (c) ^H⁰^:^{ }⁰ ^⁰^,⁰ , ^H¹^:^{ }⁰ ^⁰^,⁰

Obszar krytyczny C = ^{^t^:^t ^^^t¹^^^,ⁿ^²^}.

Testowanie hipotezy o wartości współczynnika ^¹ (B) ^H⁰^:^{ }¹ ^¹^,⁰,

gdzie ^¹^,⁰ jest ustaloną liczbą.

Statystyka testowa

) ( ₁

0 , 1 1

b SE

T b 

 

 =

S

x x

b ⁿ

i i 

 1

0 2 , 1

1 ) ( )

(^ 

(12)

Jeśli ^H⁰ prawdziwa, to T ^~^tⁿ^². (a) ^H⁰^:^{ }¹ ^¹^,⁰ , ^H¹^:^{ }¹ ^¹^,⁰.

Obszar krytyczny C = ^{^t^:^t ^^t¹^^^/²^,ⁿ^²^}.

(b) ^H⁰^:^{ }¹ ^¹^,⁰ , ^H¹^:^{ }¹ ^¹^,⁰.

Obszar krytyczny C = ^{^t^:^t ^^t¹^^^,ⁿ^²^}.

(c) ^H⁰^:^{ }¹ ^¹^,⁰ , ^H¹^:^{ }¹ ^¹^,⁰.

Obszar krytyczny C = ^{^t^:^t ^^^t¹^^^,ⁿ^²^}.

(C) ^H⁰^:^¹^⁰, ^H¹^:^¹^⁰ Statystyka testowa

) 2 /(

1 /

 

n SSE F SSR

Jeśli ^H⁰ prawdziwa, to F ma rozkład F Snedecora o 1, n-2 stopniach swobody.

 

     



 

n

i i

n

i i

n

i i

i Y Y Y Y Y

Y

1

2 1

2 ( ) ( )

)

(  

. SST = SSE + SSR n-1 = n-2 + 1

(13)

(Liczby stopni swobody SSx = liczba niezależnych zmiennych zmniejszona o liczbę ograniczeń występujących w określeniu SSx).

i i

i x

Y  ₀ ₁  , ⁱ ^¹^,...,ⁿ,

Obszar krytyczny testu: ^C ^^{^F^obl^:^F^obl ^ ^f¹^^^,¹^,ⁿ^²^}. Zauważmy, że ^F ^^T², stąd test jest szczególnym przypadkiem testu z (B) gdy ^¹^,⁰ ^⁰

Przykład. Zanotowano miesięczne wydatki na reklamę ( w 10000 złotych ) pewnego artykułu oraz miesięczne dochody ze sprzedaży artykułu ( w 100000 zł ) :

Miesiąc i : 1 2 3 4 5 Reklama xi : 5 6 7 8 9 Dochód yi : 4,5 6,5 8,4 7,6 8,4

x= 7,0 ^y = 7,08 sX = 1,58 sY = 1,64

Współczynnik korelacji próbkowej:

(14)

 



 



 



 



 

 

 n

i Y

i X i

s y y s

x x r n

1 1

1 = 0,858

Dopasowana prosta regresji: y = b0 + b1x

b1 =

 

  



 n

i i

n

i i i

x x

y y x x

1

2 1

) (

) )(

(

= 0,89

b0 = ^y^^b¹^x = 7,08 - 0,89 x 7 = 0,85

Przewidywany dochód ze sprzedaży przy wydatku na reklamę x = 10 (x 10000 zł ) wynosi

x b b y ₀  ₁

 = 0,85 + 0,89 x 10 = 9,75 ( x 100000 zł ).

Plot of Fitted Model

reklama

dochod

5 6 7 8 9

4,5

5,5

6,5

7,5

8,5

(15)

 

  n

i yi y

SST

1

)2

( = 10,748





 ⁿ

i yi yi

SSE

1

)2

(  = 2,827

 

  n

i yi y

SSR

1

)2

(  = 7,921

R² = _SST^SSR ^{ 1}^_SST^SSE = współczynnik determinacji.

R² = 0,737

Zmienność dochodu w prawie 74% wyjaśniona przez zmienność wydatków ma reklamę.

Zmienność wydatków na reklamę w 74% określa zmienność dochodu.

Założenie: model liniowy zależności dochodu od wydatków na reklamę

i i

i x

Y ₀₁ 

0 ,1

1 0 :   

H

(16)

Prognoza wartości ^Y na podstawie ^x⁰.

Obserwowane ^{Y ,...,}¹ ^Yⁿ.

i i

i x

Y  ₀ ₁  , ⁱ ^¹^,...,ⁿ.

Nieobserwowane ^Y⁽^x⁰⁾^^⁰^{ x}^¹ ⁰^^⁰, (5)

Analysis of Variance

--- Source Sum of Squares Df Mean Square F-Ratio P-Value --- Model SSR 7,921 1 7,921 8,41 0,0625 Residual SSE 2,827 3 0,942333

--- Total SST 10,748 4

Correlation Coefficient = r = 0,858472 R-squared = 73,6974 percent

R-squared (adjusted for d.f.) = 64,9299 percent Standard Error of Est. = 0,970739

(17)

gdzie ^¹^,^²^,...,^ⁿ^,^⁰ są niezależnymi zmiennymi losowymi o rozkładach ^N⁽⁰^,^⁾.

Zadania:

(a) ocena ( estymacja ) wartości średniej ^^Y⁽^x⁰⁾ =

)]

( [Y x₀

E zmiennej objaśnianej w sytuacji, gdy zmienna

objaśniająca ^x jest równa ^x⁰.

(b) przewidywanie ( prognoza ) wartości ^Y⁽^x⁰⁾.

(a) Obliczając wartość średnią obu stron (5) mamy:

) (x₀

Y = ^E⁽^⁰ ^^¹^x⁰⁾^^E⁽^⁰⁾ = ^{ }⁰ ^¹^x⁰. Stąd naturalnym oszacowaniem ^^Y⁽^x⁰⁾ jest

) (x₀

^Y = ^Y^⁽^x⁰⁾^^b^⁰^^b^¹^x⁰.

0 1 0 0 1 0

0)] ( )

(

[Y x E b bx x

E         = ^^Y⁽^x⁰⁾ (6)

Zatem ^Y^⁽^x⁰⁾ jest nieobciążonym estymatorem ^^Y⁽^x⁰⁾.

(18)

2 ) (x₀ Y

 = Var(^b^{ }⁰ ^b^¹^x⁰) = Var(^Y ^{ }^b¹⁽^x⁰^^x⁾).

Można pokazać, że ^{b ,}^¹ ^Y są nieskorelowane, stąd

2(x₀) Y

 =













 

 







 n

i i

Y b

x x

x x x n

x

1

2 2 2 0

2 2 0 2

) (

) ( ) 1

(  1 

 ^ (7)

Błąd standardowy estymatora ^Y^⁽^x⁰⁾ definiujemy jako

) (x₀

SEY^ = ^ _ ^_

 n

i xi x

x x S n

1

2 0 2

) (

) 1 (

.

Twierdzenie. Estymator ^Y^⁽^x⁰⁾ wartości średniej ^^Y⁽^x⁰⁾ zmiennej objaśnianej Y dla wartości zmiennej objaśniającej ^x⁰ ma rozkład normalny o wartości średniej i wariancji postaci (6) i (7), odpowiednio.

Ponadto,

2 )

( ) (

0) ~

(

0

0 



n x

Y x

Y t

SE x Y



 

.

Wniosek. Przedział ufności na poziomie ufności ¹^^ dla ^^Y⁽^x⁰⁾ ^^⁰^^¹^x⁰ ma krańce

) 2 (

, 2 / 1

0) ₀

(x t _n SE_Y _x

Y  ^

  .