• Nie Znaleziono Wyników

Przykład. Wyniki kolokwium i egzaminu końcowegoDefinicja. Niech

N/A
N/A
Protected

Academic year: 2021

Share "Przykład. Wyniki kolokwium i egzaminu końcowegoDefinicja. Niech"

Copied!
1
0
0

Pełen tekst

(1)

ANALIZA ZALEŻNOŚCI DWÓCH ZMIENNYCH.

REGRESJA LINIOWA.

I. Współczynnik korelacji próbkowej

Niech (x1,y1),(x2,y2),...,(xn,yn) będzie próbką cechy dwuwymiarowej H0: 1 ,10.

Będziemy badali zależność Y od X.

X = zmienna niezależna ( zmienna objaśniająca ), Y = zmienna zależna ( zmienna objaśniana ),

Wykres rozproszenia – graficzne przedstawienie próbki w postaci punktów na płaszczyźnie Oxy.

Przykład. Wyniki kolokwium i egzaminu końcowego

Definicja. Niech (X1,Y1),(X2,Y2),...,(Xn,Yn) będzie próbą losową. Współczynnikiem korelacji z próby losowej nazywamy zmienną losową





 



n

i Y

i X i

S Y Y S

X X R n

1 1

1 ,

gdzie X i SX oznaczają średnią i odchylenie standardowe dla X1,X2,...,Xn, a Y i SY oznaczają średnią i odchylenie standardowe dla Y1,Y2,...,Yn.

(2)

( np. n

i Yi

Y n

1

1 , n

i i

Y Y Y

S n

1

2

2 ( )

1

1 , SY SY2 )

Współczynnikiem korelacji próbkowej nazywamy wartość R obliczoną dla próbki (x1,y1),(x2,y2),...,(xn,yn):





 



 

n

i Y

i X i

s y y s

x x r n

1 1

1

Własności współczynnika korelacji próbkowej :

1. 1r1.

2. Jeśli r 1, to wszystkie punkty wykresu rozproszenia leżą na prostej o dodatnim współczynniku

kierunkowym, tzn. istnieje dodatnia zależność liniowa między zmiennymi x i y próbki.

3. Jeśli r 1, to wszystkie punkty wykresu rozproszenia leżą na prostej o ujemnym współczynniku

kierunkowym, tzn. istnieje ujemna zależność liniowa między zmiennymi x i y próbki.

4. Wartości r bliskie –1 lub 1 wskazują, że wykres rozproszenia jest skupiony wokół prostej.

II. Prosta regresji. Metoda najmniejszych kwadratów.

(3)

Problem: w jaki sposób dopasować „najlepiej” do wykresu rozproszenia, tzn. do (x1,y1),(x2,y2),...,(xn,yn), linię prostą ?

Niech yb0 b1x, x, będzie równaniem prostej

„dopasowanej” do punktów (xi, yi), i 1,...,n, wykresu rozproszenia.

( b1 = współczynnik kierunkowy, b0 = wyraz wolny ) Wówczas yi b0 b1xi = przybliżenie wartości yi na

podstawie zmiennej niezależnej xi uzyskane z zależności liniowej.

Błąd oszacowania yi yi nazywamy wartością resztową lub rezyduum.

Miarą dopasowania prostej do próbki (punktów wykresu rozproszenia ) jest

suma kwadratów błędów ( rezyduów ):

n

i yi yi

b b S

1 1 2

0, ) ( )

( = n

i yi b bxi

1

1 2

0 ))

(

( .

Prostą dla której S(b0,b1) osiąga wartość minimalną nazywamy prostą regresji lub też prostą wyznaczoną metodą najmniejszych kwadratów.

Współczynniki prostej regresji b0, b1 wyznaczamy z warunku koniecznego minimum funkcji S(b0,b1), tzn.

przyrównując do zera obie pochodne cząstkowe.

Rozwiązując ten układ 2 równań liniowych otrzymujemy:

(4)

n

i i

n

i i i

x x

y y x b

1

2 1 1

) (

) (

n

i i

n

i i i

x x

y y x x

1

2 1

) (

) )(

(

=

=

n

i i

n

i i i

x x

y x x

1

2 1

) (

) (

, (1)

n i

n

i i

i b x

n y b

1 1 1

0 1( )

= yb1x, (2) gdzie n

i xi

x n

1

1 , n

i yi

y n

1

1 .

Wartość y b0b1x nazywamy wartością przewidywaną zmiennej objaśnianej (zależnej) przy pomocy prostej regresji na podstawie zmiennej objaśniającej

( niezależnej ) x.

Określimy współczynnik determinacji.

Ocena „dobroci” dopasowania prostej regresji ?

n

i yi y

SST

1

)2

( = całkowita suma kwadratów ( Total Sum of Squares ) ( miara zmienności samych y1,..., yn).

n

i yi yi

SSE

1

)2

( = suma kwadratów błędów ( Error Sum of Squares ),

n

i yi y

SSR

1

)2

(  = regresyjna ( modelowa ) suma

(5)

kwadratów ( Regression ( Model ) Sum of Squares

( miara zmienności y1,..., yn). Można pokazać:

n

i i

n

i i

n

i i

i y y y y y

y

1

2 1

2 1

2 ( ) ( )

)

( .

SST = SSE + SSR

SST SSE SST

SSR  1 = współczynnik determinacji.

Im mniejsze SSE tym wykres rozproszenia skupiony bardziej wokół prostej regresji.

Współczynnik determinacji jest miarą stopnia

dopasowania prostej regresji do wykresu rozproszenia ( ocenia jakość tego dopasowania ), określa stopień, w jakim zależność liniowa między zmienną objaśnianą a objaśniającą wyjaśnia zmienność wykresu rozproszenia.

Wartość współczynnika determinacji jest ściśle związana z wartością współczynnika korelacji próbkowej.

Stwierdzenie.

SST r2 SSR

n

i i

n

i i

y y

y y

1

2 1

2

) (

)

(  = zmienność wyjaśniona

przez model/zmienność całkowita Przykład. – wydruk z pakietu SAS.

(6)

( prosta regresji, SSR,SSE,r2 )

III. Model zależności liniowej (model regresji liniowej) Załóżmy, że próbka (x1,y1),...,(xn,yn) jest realizacją próby losowej (x1,Y1),...,(xn,Yn), gdzie

i i

i x

Y 01 , i 1,...,n,

oraz 1,2,...,n są niezależnymi zmiennymi losowymi o wartości średniej 0 i wariancji 2, a znane liczby

xn

x ,...,1 nie wszystkie są jednakowe.

Prostą y 0 1x nazywamy prostą regresji

współczynnik0 = wyraz wolny prostej regresji

współczynnik1 = współczynnik kierunkowy prostej regresji zmienne losowe 1,2,...,n = losowe błędy w modelu wariancja 2 = wariancja błędów w modelu

Własności zmiennej losowej Yi, i 1,...,n,

) (Yi

E E(0 1xi)E(i) =  0 1xi.

Var(Yi) = Var(01xi i) = Var(i)2

(7)

Założenia:

(i) Obserwujemy wartości zmiennych Y ,...,1 Yn. (ii) x ,...,1 xn są znane

(iii) 0,1,2 są nieznanymi parametrami modelu

Cel eksperymentu – wnioskowanie na temat parametrów modelu

Naturalne estymatory 0,1 otrzymujemy metodą najmniejszych kwadratów, wstawiając we wzorach (1), (2) zmienne losowe Yi zamiast ich wartości yi, i 1,...,n,

b0

= Y b1x,

n

i i

n

i i i

x x

Y Y x x b

1

2 1 1

) (

) )(

(

=

n

i i

n

i i i

x x

Y x x

1

2 1

) (

) (

.

Własności estymatorów b0, b1 :

Twierdzenie.

(i) E(b0)0, E(b1) 1, (ii) Var(b0) =

n

i xi x

x n

1

2 2 2

) (

1 , (3)

(8)

Var

n

i xi x

b

1

2 2

1 ( )

)

(

, (4)

(iii) Jeśli i ~ N(0,), i = 1,..,n, to

b0

, b1 mają rozkłady normalne o wartościach średnich i wariancjach określonych w (i) i (ii).

Estymator 2:

Definicja. Błędem średniokwadratowym S2 nazywamy estymator wariancji 2 określony następująco

2 ) (

1

2 2

n

Y Y S

n

i i i

= nSSE2.

Liczbę n2 nazywamy liczbą stopni swobody rezyduów.

Stwierdzenie. S2 jest nieobciążonym estymatorem 2, tzn.

2 2) (S

E .

S2

S = estymator .

Wniosek. (i) Nieobciążonym estymatorem Var(b0) jest

n

i xi x

x S n

b SE

1

2 2 2

0 2

) ( )] 1

(

[

(9)

) (b0 SE

=

n

i xi x

x S n

1

2 2

) (

1 nazywamy błędem

standardowym estymatora b0, gdyż na mocy (3) SE(b0)

= estymator b0 = Var(b0)

(ii) Nieobciążonym estymatorem Var(b1) jest

n

i xi x

b S SE

1

2 2 2

1

) (

)]

( [

) (b1 SE

=

n

i xi x

S

1

)2

( nazywamy błędem standardowym estymatora b1, gdyż na mocy (4) SE(b1) = estymator b1

= Var(b1).

Twierdzenie. Jeśli i ~ N(0,), i = 1,..,n, to

(i) ~ ( , ( ) )

1 1 2 1

n

i xi x

N

b

,

bSE1(b11) ~ tn2,

(10)

(ii) ~ ( , 1 ( ) )

1

2 2 0

0

n

i xi x

x N n

b , skąd:

bSE0 (b00) ~ tn2.

Przedział ufności na poziomie ufności 1 dla współczynnika 1:

[b1t1/2,n2SE(b1),b1t1/2,n2SE(b1)]

Przedział ufności na poziomie ufności 1 dla współczynnika 0 :

[b0t1/2,n2SE(b0),b0t1/2,n2SE(b0)]

Testowanie hipotezy o wartości współczynnika 0 (A) H0: 0 0,0,

gdzie 0,0 jest ustaloną liczbą.

(11)

Statystyka testowa

) ( 0

0 , 0 0

b SE

T b

= (b00,0)/(

n

i xi x

x S n

1

2 2

) (

1 )

Jeśli H0 prawdziwa, to T ~tn2. (a) H0: 0 0,0 , H1: 0 0,0.

Obszar krytyczny C = {t:t t1/2,n2}.

(b) H0: 0 0,0 , H1: 0 0,0.

Obszar krytyczny C = {t:t t1,n2}. (c) H0: 0 0,0 , H1: 0 0,0

Obszar krytyczny C = {t:t t1,n2}.

Testowanie hipotezy o wartości współczynnika 1 (B) H0: 1 1,0,

gdzie 1,0 jest ustaloną liczbą.

Statystyka testowa

) ( 1

0 , 1 1

b SE

T b

=

S

x x

b n

i i

1

0 2 , 1

1 ) ( )

(

(12)

Jeśli H0 prawdziwa, to T ~tn2. (a) H0: 1 1,0 , H1: 1 1,0.

Obszar krytyczny C = {t:t t1/2,n2}.

(b) H0: 1 1,0 , H1: 1 1,0.

Obszar krytyczny C = {t:t t1,n2}.

(c) H0: 1 1,0 , H1: 1 1,0.

Obszar krytyczny C = {t:t t1,n2}.

(C) H0:10, H1:10 Statystyka testowa

) 2 /(

1 /

n SSE F SSR

Jeśli H0 prawdziwa, to F ma rozkład F Snedecora o 1, n-2 stopniach swobody.

n

i i

n

i i

n

i i

i Y Y Y Y Y

Y

1

2 1

2 1

2 ( ) ( )

)

(

. SST = SSE + SSR n-1 = n-2 + 1

(13)

(Liczby stopni swobody SSx = liczba niezależnych zmiennych zmniejszona o liczbę ograniczeń występujących w określeniu SSx).

i i

i x

Y 0 1 , i 1,...,n,

Obszar krytyczny testu: C {Fobl:Fobl f1,1,n2}. Zauważmy, że F T2, stąd test jest szczególnym przypadkiem testu z (B) gdy 1,0 0

Przykład. Zanotowano miesięczne wydatki na reklamę ( w 10000 złotych ) pewnego artykułu oraz miesięczne dochody ze sprzedaży artykułu ( w 100000 zł ) :

Miesiąc i : 1 2 3 4 5 Reklama xi : 5 6 7 8 9 Dochód yi : 4,5 6,5 8,4 7,6 8,4

x= 7,0 y = 7,08 sX = 1,58 sY = 1,64

Współczynnik korelacji próbkowej:

(14)





 



 

n

i Y

i X i

s y y s

x x r n

1 1

1 = 0,858

Dopasowana prosta regresji: y = b0 + b1x

b1 =

n

i i

n

i i i

x x

y y x x

1

2 1

) (

) )(

(

= 0,89

b0 = yb1x = 7,08 - 0,89 x 7 = 0,85

Przewidywany dochód ze sprzedaży przy wydatku na reklamę x = 10 (x 10000 zł ) wynosi

x b b y 0 1

= 0,85 + 0,89 x 10 = 9,75 ( x 100000 zł ).

Plot of Fitted Model

reklama

dochod

5 6 7 8 9

4,5

5,5

6,5

7,5

8,5

(15)

n

i yi y

SST

1

)2

( = 10,748

n

i yi yi

SSE

1

)2

( = 2,827

n

i yi y

SSR

1

)2

(  = 7,921

R2 = SSTSSR  1SSTSSE = współczynnik determinacji.

R2 = 0,737

Zmienność dochodu w prawie 74% wyjaśniona przez zmienność wydatków ma reklamę.

Zmienność wydatków na reklamę w 74% określa zmienność dochodu.

Założenie: model liniowy zależności dochodu od wydatków na reklamę

i i

i x

Y 01

0 ,1

1

0 :   

H

(16)

Prognoza wartości Y na podstawie x0.

Obserwowane Y ,...,1 Yn.

i i

i x

Y 0 1 , i 1,...,n.

Nieobserwowane Y(x0)0 x1 00, (5)

Analysis of Variance

--- Source Sum of Squares Df Mean Square F-Ratio P-Value --- Model SSR 7,921 1 7,921 8,41 0,0625 Residual SSE 2,827 3 0,942333

--- Total SST 10,748 4

Correlation Coefficient = r = 0,858472 R-squared = 73,6974 percent

R-squared (adjusted for d.f.) = 64,9299 percent Standard Error of Est. = 0,970739

(17)

gdzie 1,2,...,n,0 są niezależnymi zmiennymi losowymi o rozkładach N(0,).

Zadania:

(a) ocena ( estymacja ) wartości średniej Y(x0) =

)]

( [Y x0

E zmiennej objaśnianej w sytuacji, gdy zmienna

objaśniająca x jest równa x0.

(b) przewidywanie ( prognoza ) wartości Y(x0).

(a) Obliczając wartość średnią obu stron (5) mamy:

) (x0

Y = E(0 1x0)E(0) =  0 1x0. Stąd naturalnym oszacowaniem Y(x0) jest

) (x0

Y = Y(x0)b0b1x0.

0 1 0 0 1 0

0)] ( )

(

[Y x E b bx x

E = Y(x0) (6)

Zatem Y(x0) jest nieobciążonym estymatorem Y(x0).

(18)

2 ) (x0 Y

= Var(b 0 b1x0) = Var(Y  b1(x0x)).

Można pokazać, że b ,1 Y są nieskorelowane, stąd

2(x0) Y

=

n

i i

Y b

x x

x x x n

x

1

2 2 2 0

2 2 0 2

) (

) ( ) 1

( 1

(7)

Błąd standardowy estymatora Y(x0) definiujemy jako

) (x0

SEY =

n

i xi x

x x S n

1

2 0 2

) (

) 1 (

.

Twierdzenie. Estymator Y(x0) wartości średniej Y(x0) zmiennej objaśnianej Y dla wartości zmiennej objaśniającej x0 ma rozkład normalny o wartości średniej i wariancji postaci (6) i (7), odpowiednio.

Ponadto,

2 )

( ) (

0) ~

(

0

0

n x

Y x

Y t

SE x Y

.

Wniosek. Przedział ufności na poziomie ufności 1 dla Y(x0) 01x0 ma krańce

) 2 (

, 2 / 1

0) 0

(x t n SEY x

Y

 .

Cytaty

Powiązane dokumenty

Niepraktykowaną we wcześniejszych latach legalną formą przeby- wania na toruńskim poligonie stały się regularne wycieczki organizo- wane przez różne towarzystwa

Kwartalnik Naukowy Towarzystwa Uniwersyteckiego FIDES ET RATIO, 10, 89-101.. Inwentarz osobowoïci NEO-PI-R

Wskazują one, że agregacje terytoriów mogą być efek- tem wykorzystywania przez osobniki innych osobników jako wskaźników jakości siedlisk w procesie

Następnie obliczono różnicę pomiędzy wartościami zmian w barwie głosu rozmówców w obrębie każdej pary i w ten sposób uzyskano wartość dopasowania

schemat sieci ulicznej Starego Miasta z sygnaturami liczbowymi i obrazko­ wymi, lokalizującymi najważniejsze obiekty zabytkowe i placówki szeroko ro­ zumianej

Dezintegracja państwa przejawia się w relacjach między różnymi ogniwa-.. mirządu, relacjach między partiami oraz wewnątrz poszczególnych

Artykuł umieszczony jest w kolekcji cyfrowej bazhum.muzhp.pl, gromadzącej zawartość polskich czasopism humanistycznych i społecznych, tworzonej przez Muzeum Historii Polski

Próbując rozwiązać powyższe sprzeczności Szaraszenidze zaproponow ał zupełnie inną interpre­ tację zwrotów gurušjgemé ά-Χ, uniezależniającą je od następującej po