• Nie Znaleziono Wyników

Oznaczmy H = X X T X −1 X T , a przez e = y − y wektor reszt z regresji b próbkowej. Wtedy

N/A
N/A
Protected

Academic year: 2021

Share "Oznaczmy H = X X T X −1 X T , a przez e = y − y wektor reszt z regresji b próbkowej. Wtedy"

Copied!
5
0
0

Pełen tekst

(1)

Niech y = Xβ + u, Eu = 0, V u = σ 2 I, X ∈ M (n, p + 1) . Uwaga! W macierzy planu X pierwsza kolumna składa się z samych jedynek, a p + 1 jest liczbą współczynników regresji dla p zmiennych. Warunek najmniejszych kwadratów ky − Xβk 2 daje estymator b parametru β postaci

b =  X T X  −1 X T y Wtedy

y = Xb = X b  X T X  −1 X T y

Oznaczmy H = X  X T X  −1 X T , a przez e = y − y wektor reszt z regresji b próbkowej. Wtedy

y = Xβ + u, y = Xb + e

y = Hy, e = (I − H) y b

Własność 1

HX = X, H1 n = 1 n , (I − H) X = 0 H = H T , H 2 = H, (I − H) 2 = I − H Dowód

H T =



X  X T X  −1 X T

 T

= X  X T X  −1 X T = H,

H 2 = X  X T X  −1  X T X   X T X  −1 X T = X  X T X  −1 X T = H, (I − H) 2 = I − H − H + H 2 = I − H

H jest więc operatorem rzutu prostopadłego na płaszczyznę regresji prób- kowej, I − H operatorem rzutu prostopadłego na płaszczyznę błędu próbko- wego.

Własność 2

Reszty u od regresji populacji są niezależne ( V u = σ 2 I), natomiast reszty e od regresji próbkowej są zależne, V e = σ 2 (I − H).

Dowód

(2)

Ee = E (I − H) y = (I − H) Ey = (I − H) Xβ (I − H) X = 0 ⇒ Ee = 0

V e = Eee T = E (I − H) yy T (I − H) = (I − H) Eyy T (I − H) , Eyy T = E (Xβ + u) (Xβ + u) T = Xββ T X T + Euu T = Xββ T X T + σ 2 I, (I − H) Eyy T = ((I − H) X) ββ T X T + σ 2 (I − H) = σ 2 (I − H) ,

V e = σ 2 (I − H) (I − H) = σ 2 (I − H)

Będzie dowód, że n 1 ¬ h ii ¬ 1. Gdy h ii = 1 to V e i = 0 a więc z prawdo- podobieństwem 1 reszta e i = 0.

Definicja

Resztą standaryzowaną nazywamy wielkość r i = e i

s

1 − h ii , gdzie s jest estymatorem σ.

Z faktu, że HX = X wynika, że H1 n = 1 n . Wtedy

y = 1

n 1 T n y = 1

n 1 T n Hy = 1

n 1 T n y = b y b i trójkąt o bokach y, y, y1 b n jest trójkątem prostokątnym.

Stąd dla każdego y zachodzą nierówności

0 ¬ k y − y1 b n k 2 ¬ ky − y1 n k 2 Mamy

k y − y1 b n k 2 = k yk b 2 − 2y1 T n y + ky1 b n k 2

= kHyk 2 − 2ny y + n (y) b 2

= y T Hy − n (y) 2

ky − y1 n k 2 = kyk 2 − 2y1 T n y + ky1 n k 2

= kyk 2 − n (y) 2

(3)

kyk 2 ­ y T Hy ­ n (y) 2

Kładąc y T = [0, 0, ..., 0, 1, 0, ..., 0] z jedynką na i-tym miejscu otrzymamy

1

n ¬ h ii ¬ 1,

X

i

h ii = T r (H) = T r



X  X T X  −1 X T



= T r

 

X T X  −1 X T X



= T r (I)

= p + 1

Współczynnik h ii opisuje wpływ i-tej oberwacji na regresję, gdyż

y b i = X

j

h ij y j = h ii y i + X

j6=i

h ij y j

n

X

j=1

h 2 ij =  HH T 

ii =  H 2 

ii = h ii

X

j6=i

h 2 ij = h ii (1 − h ii ) ,

X

j6=i

h 2 ij ¬ 1 4

Dla h ii ­ 1 2 duże wartości h ii oznaczają małe wartości h ij

Przyjmiemy, że wartość h ii jest duża, gdy

h ii > 2 1 n

X

i

h ii = 2 (p + 1) n

Ocenimy teraz jakie modyfikacje w oszacowaniu równania regresji spowo- duje usunięcie jednej, i-tej obserwacji.

Oznaczmy przez X (i) macierz X po usunięciu i-tego wiersza (X (i) M (n − 1, p + 1)), zaś przez y (i) n − 1 - wymiarowy wektor y po usunięciu i-tego wiersza.

Niech b (i) oznacza p+1- wymiarowy wektor estymatorów współczynników

regresji, zaś y d (i) oznacza n - wymiarowy wektor wartości regresji, gdy z danych

usunięto i-tą obserwację.

(4)

Wtedy

y d (i) = Xb (i) ,

b (i) =  X (i) T X (i)  −1 X (i) T y (i)

Zauważmy, że X (i) T y (i) = X T y − X i T y i , gdzie X i jest i-tym wierszem ma- cierzy X.

b (i) =  X (i) T X (i)  −1 X (i) T y (i) =  X (i) T X (i)  −1  X T y − X i T y i



Skorzystamy ze wzoru [Madansky, 140]

 X (i) T X (i)  −1 =  X T X  −1 +

 X T X  −1 X i T X i  X T X  −1 1 − h ii

 X (i) T X (i)  −1 X T y =  X T X  −1 X T y +

 X T X  −1 X i T X i  X T X  −1 X T y

1 − h ii =

= b +

 X T X  −1 X i T y b i 1 − h ii gdyż y b i = X i

 X T X  −1 X T y

 X (i) T X (i)  −1 X i T y i =  X T X  −1 X i T y i +

 X T X  −1 X i T X i  X T X  −1 X i T y i 1 − h ii

=

=  X T X  −1 X i T y i +

 X T X  −1 X i T h ii y i 1 − h ii =

=  X T X  −1 X i T y i 1 + h ii 1 − h ii

!

=

 X T X  −1 X i T y i

1 − h ii

gdyż h ii = X i  X T X  −1 X i T Stąd

b (i) = b +

 X T X  −1 X i T y b i 1 − h ii

 X T X  −1 X i T y i 1 − h ii =

= b − e i  X T X  −1 X i T

1 − h ii

(5)

y d (i) = Xb (i) = X

b − e i  X T X  −1 X i T 1 − h ii

 =

= y − b e i X  X T X  −1 X i T

1 − h ii = y − b sr i X  X T X  −1 X i T

1 − h ii

Odległością Cooka nazywamy liczbę

D i =

b y − y d (i) 2

s 2 (p + 1)

Odległość Cooka ocenia skutki usunięcia i-tej obserwacji. Jest standaryzo- waną średnią odległością pomiędzy wartościami regresji przed i po usunięciu i-tej obserwacji.

D i =

b y − y d (i) 2

s 2 (p + 1) =

sr

i

X ( X

T

X )

−1

X

iT

1−h

ii

2

s 2 (p + 1) = s 2 r i 2

X  X T X  −1 X i T

2

s 2 (p + 1) (1 − h ii ) ,

X  X T X  −1 X i T

2

= X i

 X T X  −1 X T X  X T X  −1 X i T = X i

 X T X  −1 X i T = h ii ,

D i = s 2 r i 2 h ii

s 2 (p + 1) (1 − h ii ) = r i 2 h ii

(p + 1) (1 − h ii )

Pierwszy składnik iloczynu odpowiada za odchylenia od regresji, zaś drugi

- za wielkość wpływu

Cytaty

Powiązane dokumenty

Metoda rozwiązywania równania różniczkowego cząstkowego po- legająca na sprowadzeniu równania do postaci kanonicznej a następnie na rozwiązaniu równania w sposób

[r]

[r]

[r]

Udowodnił niemożliwość rozwiązania równania algebraicznego stopnia wyższego niż cztery przez pierwiastniki, prowadził badania w dziedzinie teorii szeregów i całek

Niech F oznacza liczbę losowań, w których wyciągnięto monetę fałszywą, K-liczbę

dr Krzysztof Żyjewski MiBM; S-I 0 .inż... dr Krzysztof Żyjewski MiBM; S-I

Tak jak w przypadku równa« liniowych tak i dla ich ukªadów je»eli f (t) = ~0 ~ (czyli mamy posta¢ (1)) to taki ukªad b¦dziemy nazywa¢ jednorodnym, w przeciwnym przypadku mówimy