Zadanie 1: Estymator wariancji składnika losowego
Pierwszym krokiem do uzyskania interesującego nas estymatora jest wyprowadzenie zależności pomię- dzy resztami a składnikiem losowym. Użycie reszt wydaje się intuicyjne, ponieważ są oszacowaniami składników losowych.
Podstawowa macierz idempotentna
Reszty z regresji y na X są z definicji równe e = y − X ˆβ. Podstawiając za ˆβ wzór uzyskamy:
e = y − X ˆβ = y − X(XTX)−1XTy = (I − X(XTX)−1XT)y = Mxy Macierz Mx nazywana jest podstawową macierzą idempotentną:
MxMx= [I − X(XTX)−1XT][I − X(XTX)−1XT]
= I − X(XTX)−1XT − X(XTX)−1XT + X(XTX)−1XTX(XTX)−1XT W ostatnim składniku sumy dostrzegamy (XTX)−1(XTX) = I.
MxMx= I − X(XTX)−1XT = Mx
.
Macierz Mx jest również symetryczna:
MxT = IT − [X(XTX)−1XT]T = I − X(XTX)−1XT. Dodatkowo wiersze i kolumny tej macierzy są ortogonalne do kolumn macierzy X:
MxX = [I − X(XTX)−1XT]X = X − X = 0.
Podstawowa macierz idempotentna przekształca y w reszty. Co więcej, macierz ta przekształca wektor składników losowych ε w wektor reszt (wykorzystamy informację, że MxX = 0):
e = Mxy = Mx(X ˆβ + ε) = MxX ˆβ + Mxε = Mxε
Mając związek pomiędy składnikiem losowym a resztami, możemy się zająć relacją pomiędzy wariancją składnika losowego a wariancją reszt.
Nieobciążony estymator σ2
Korzystamy z założeń KMRL E(ε) = 0. Reszty są oszacowaniami składników losowych, średnia arytmetyczna jest oszacowaniem średniej. W modelu ze stałą suma reszt jest równa zero. Możemy założyć, że wartość oczekiwana reszty jest równa zero. Do obliczenia wariancji reszt będzie potrzebne obliczenie wartości oczekiwanej sumy kwadratów reszt.
Skorzystamy z zależności pomiędzy wektorem składników losowych ε a wektorem reszt, aby opisać sumę kwadratów reszt.
eTe = εTMxTMxε = εTMxε.
1
Suma kwadratów reszt jest skalarem. Dla dalszych obliczeń skorzystamy ze sztuczki: będziemy korzystać z praw działań na śladzie macierzy (tr). Ślad skalara jest równy temu skalarowi, dlatego:
eTe = tr(eTe) = tr(εTMxε).
Kolejną pożyteczną własnością śladu jest, że ślad iloczynu dwóch macierzy jest równy śladowi iloczynu tych macierzy przemnożonych w odwrotnej kolejności:
tr(εTMxε) = tr(εT(Mxε)) = tr(MxεεT).
Operator śladu może zostać przeniesiony przed wartość oczekiwaną:
E(eTe) = E(tr(MxεεT)) = tr(MxE(εεT)).
Z kolei E(εεT) = σ2I, korzystamy tutaj z założenia KMRL o homoskedastyczności składnika loso- wego (stałości wariancji).
Pozostaje pytanie, czemu jest równe tr(Mx). Ponownie skorzystamy z właściwości śladu, która po- zwala zmieniać kolejność mnożenia jego argumentów (N to liczba obserwacji, a k to liczba parametrów do oszacowania w modelu).
tr(Mx) = tr(IN xN) − tr(X(XTX)−1XT)
= tr(IN xN) − tr((XTX)−1XTX)
= tr(IN xN) − tr(Ikxk) = N − k.
Dzięki temu wiemy już, czemu jest równa wartość oczekiwana sumy kwadratów reszt:
E(eTe) = σ2(N − k) .
Dzieląc obie strony przez N − k:
σ2 = E( eTe N − k).
Nieobciążony estymator σ2 często jest oznaczany jako s2:
s2= eTe N − k.
Proszę zwrócić uwagę, że otrzymany wzór różni się od wzoru na wariancję empiryczną. Estymator nieobciążony wariancji składnika losowego otrzymujemy dopiero po zastosowaniu poprawki związanej z utratą k stopni swobody – z tego powodu w mianowniku znajduje się N − k a nie N .
2