Stanisław Cichocki Natalia Nehrebecka

(1)

Stanisław Cichocki Natalia Nehrebecka

Wykład 4

1

(2)



1. Własności hiperpłaszczyzny regresji



2. Dobroć dopasowania równania regresji. Współczynnik determinacji R

²

◦ Dekompozycja wariancji zmiennej zależnej

◦ Współczynnik determinacji R²

(3)



1. Własności hiperpłaszczyzny regresji



2. Dobroć dopasowania równania regresji. Współczynnik determinacji R

²

(4)

0 ˆ '

. 2

0 '

. 1



 e y

e X



Dodatkowo dla modelu ze stałą:

y y

e

N

i

. ˆ 4

0 .

3

1



 



(5)



1. Własności hiperpłaszczyzny regresji



2. Dobroć dopasowania równania regresji. Współczynnik determinacji R

²

(6)



Dobroć dopasowania równania regresji (do danych

empirycznych) wyrażona jest przez tak zwany współczynnik determinacji liniowej oznaczany przez R

²

.



Współczynnik ten określa jaka część zmienności zmiennej objaśnianej jest wyjaśniona łącznie przez zmienność wszystkich zmiennych objaśniających .



Jedną z miar zmienności zmiennej jest WARIANCJA.

XK

X ₂,

y

(7)

Wariancje zmiennej zależnej można przedstawić

jako dekompozycje (podział) na część wyjaśnioną przez model i na część niewyjaśnioną przez model.

Dekompozycja wariancji jest możliwa JEDYNIE dla modelu ze stałą

y

TSS

RSS ESS

(8)



Całkowita suma kwadratów:

Zmienność całkowitą zmiennej objaśnianej y , oznaczaną w literaturze

angielskim skrótem TSS (Total Sum of Squares), mierzymy za pomocą sumy kwadratów odchyleń obserwacji zmiennej objaśnianej od średniej:

TSS y

_i

y

i



n







⁽ ⁾

1

2

(9)



Wyjaśniona suma kwadratów:

Jeśli model zawiera stałą, to całkowitą sumę kwadratów możemy

zdekomponować na dwa składniki, na wyjaśnioną (równaniem regresji) sumę kwadratów, oznaczaną przez ESS (Explained Sum of Squares)

2 1

ˆ ˆ

( )

n

i i

ESS y y



   

(10)



Resztowa suma kwadratów:

 i resztową (niewyjaśnioną) sumę kwadratów, oznaczaną przez RSS (Residual Sum of Squares).

RSS e

_i

i



n



 ² 1

(11)

R wyjasniona suma kwadratów calkowita suma kwadratów

ESS TSS

y y y y

RSS TSS

i i

n

i i

n

2 1

2

1

2

   1



 





(  )

( )

1 0  R ² 

Dla

modelu ze stałą

(12)

Total 70533.7398 31846 2.21483828 Root MSE = 1.3265 Adj R-squared = 0.2056 Residual 56033.0789 31845 1.75955657 R-squared = 0.2056 Model 14500.6608 1 14500.6608 Prob > F = 0.0000 F( 1, 31845) = 8241.09 Source SS df MS Number of obs = 31847

Model: wydatki

i

  

1



2

dochod

i

 

i

ESS

RSS

TSS ² 14500, 66 56033, 08

1 0, 205

70533, 74 70533, 74

R    

(13)

y

X R²=0 RSS

TSS

y

X R²=0,90

TSS ESS y

X R²=0,50 ESS

TSS

RSS ^R^S

S

np. jeśli na przykład R² = 0,7 to możemy powiedzieć, że 70% zmienności zmiennej objaśnianej y jest wyjaśnione przez łączną zmienność wszystkich zmiennych

objaśniających, a 30% zmienności jest niewyjaśnione (jest zmiennością resztową).

(14)

 R²jest WYŁĄCZNIE statystyką opisową i nie należy jej stosować do porównywania modeli.

 Przy szacowaniu kilku modeli dla danej zmiennej zależnej z różną liczbą zmiennych objaśniających na podstawie identycznego zbioru danych, korzystanie ze współczynnika determinacji R² dla wyboru modelu lepiej dopasowanego do danych empirycznych staje się problematyczne.

 Gdy bowiem dodajemy do równania kolejne zmienne objaśniające to zawsze wzrasta R².

%

2

5

2

1

  

 wiek R

placa

_i

 

_i



_i

%

2

7

3 2

1

   

 wiek plec R

placa

_i

 

_i



_i



_i

(15)

Dziękuję za uwagę

15

Stanisław Cichocki Natalia Nehrebecka

1. Własności hiperpłaszczyzny regresji

2. Dobroć dopasowania równania regresji. Współczynnik determinacji R

1. Własności hiperpłaszczyzny regresji

2. Dobroć dopasowania równania regresji. Współczynnik determinacji R

0 ˆ '

. 2

0 '

. 1



 e y

e X

Dodatkowo dla modelu ze stałą:

y y

e

. ˆ 4

0 .

3



 

1. Własności hiperpłaszczyzny regresji

2. Dobroć dopasowania równania regresji. Współczynnik determinacji R

Dobroć dopasowania równania regresji (do danych

empirycznych) wyrażona jest przez tak zwany współczynnik determinacji liniowej oznaczany przez R

.

Współczynnik ten określa jaka część zmienności zmiennej objaśnianej jest wyjaśniona łącznie przez zmienność wszystkich zmiennych objaśniających .

Jedną z miar zmienności zmiennej jest WARIANCJA.

y

Wariancje zmiennej zależnej można przedstawić

jako dekompozycje (podział) na część wyjaśnioną przez model i na część niewyjaśnioną przez model.

Dekompozycja wariancji jest możliwa JEDYNIE dla modelu ze stałą

y

Całkowita suma kwadratów:

TSS y

y







( )

Wyjaśniona suma kwadratów:

ˆ ˆ

( )

ESS y y

   

Resztowa suma kwadratów:

RSS e





R wyjasniona suma kwadratów calkowita suma kwadratów

ESS TSS

y y y y

RSS TSS

   1





 





(  )

( )

1 0  R 2 

Model: wydatki

  



dochod

 

%

5

  

 wiek R

placa

 



%

7

   

 wiek plec R

placa

 



⁽ ⁾

1 0  R ² 