Estymacja największej wiarogodności w modelu Gaussa-Markowa i kryteria informacyjne

(1)

Estymacja największej wiarogodności w modelu Gaussa-Markowa i kryteria informacyjne

Przypomnienie: gęstość wielowymiarowego rozkładu normalnego o wektorze wartości oczekiwanych µ i nieosobliwej macierzy kowariancji Σ zadana jest wzorem:

f (x) = 1

pdet(Σ) · (2π)ⁿ e⁻¹²^(x−µ)⁰^Σ⁻¹^(x−µ), x ∈ Rⁿ. Dany jest model liniowy Gaussa-Markowa Y = Xβ + ε, w którym

Y =





 Y₁ Y2

...

Yn







, X =







x₁₀ x₁₁ . . . x_1,k−1 x20 x21 . . . x2,k−1

. . . . xn0 xn1 . . . xn,k−1





 , β =





 β₀ β1

...

βk−1





 , ε =





 ε₁ ε2

...

εn





 .

X jest macierzą deterministyczną i rz(X) = k < n. ε1, ε2, . . . , εd są niezależnymi zmiennymi losowymi o rozkładzie N (0, σ²). W takim razie ε ∼ N (0, σ²I), a co za tym idzie Y ∼ N (Xβ, σ²I). Poszukujemy estymatorów metody największej wiarogodności parametrów β (wektor) i σ².

Gęstość wektora losowego Y ma postać:

f (y) = 1

pdet(σ²I) · (2π)ⁿ e⁻¹²^(y−Xβ)⁰^(σ²^I)⁻¹^(y−Xβ)= 1

pσ²ⁿ· (2π)ⁿ e⁻^2σ2¹ ^(y−Xβ)⁰^(y−Xβ). Niech

L(β, σ²) = log f (Y ) = −n

2 log σ²−n

2log(2π) − 1

2σ²(Y − Xβ)⁰(Y − Xβ).

Niech S(β) =Pd

i=1(Y_i− β₀x_i0− β₁x_i1− . . . − β_k−1x_i,k−1)²= (Y − Xβ)⁰(Y − Xβ). W takim razie L(β, σ²) = −n

2log σ²−n

2log(2π) − 1 2σ²S(β).

Niech S⁰(β) oznacza gradient funkcji S a S⁰⁰(β) oznacza macierz drugich pochodnych funkcji S. Przypo- mnijmy, że S⁰(β) = −2XY + 2X⁰Xβ i S⁰⁰(β) = 2X⁰X. W takim razie

∂

∂βL(β, σ²) = ∂L

∂β0

, ∂L

∂β1

, . . . , ∂L

∂βk−1

⁰

= − 1

2σ²S⁰(β) = 1

σ²(XY − X⁰Xβ)

∂

∂σ²L(β, σ²) = − n 2σ² + 1

2σ⁴S(β).

W związku z tym

∂

∂βL(β, σ²) = 0 ⇔ β = (X⁰X)⁻¹XY

∂

∂σ²L(β, σ²) = 0 ⇔ σ²= 1

nS(β) = 1

n||Y − Xβ||².

Wobec powyższego kandydaci na estymatory metody największej wiarogodności mają postać:

β = (Xˆ ⁰X)⁻¹XY, σˆ²= 1

n||Y − X ˆβ||²= 1

n||Y − ˆY ||².

Należy jeszcze sprawdzić, czy w punkcie ( ˆβ, ˆσ²) = ( ˆβ0, ˆβ1, . . . , ˆβk−1, ˆσ²) funkcja L osiąga maksimum globalne. W tym celu wyznaczymy macierz drugich pochodnych tej funkcji. Ma ona postać:







∂²

∂β²L(β, σ²) ∂²

∂σ²∂βL(β, σ²)

∂²

∂σ²∂βL(β, σ²)

| {z }

k

∂²

∂(σ²)²L(β, σ²)

| {z }

1







=







− 1

2σ²S⁰⁰(β) − 1

σ⁴(XY − X⁰Xβ)

− 1

σ⁴(XY − X⁰Xβ)⁰ n 2σ⁴− 1

σ⁶S(β)







1

(2)

Należy sprawdzić, czy macierz owa w punkcie ( ˆβ, ˆσ²) jest ściśle ujemnie określona. Zauważmy, że S( ˆβ) = nˆσ² i XY − X⁰X ˆβ = XY − X⁰X(X⁰X)⁻¹X⁰Y = XY − XY = 0. W takim razie







∂²

∂β²L( ˆβ, ˆσ²) ∂²

∂σ²∂βL( ˆβ, ˆσ²)

∂²

∂σ²∂βL( ˆβ, ˆσ²) ∂²

∂(σ²)²L( ˆβ, ˆσ²)







=







−1 ˆ

σ²X⁰X 0

0 − n

2ˆσ⁴





 .

Ustalmy t = (t₀, t₁, . . . , t_k−1, t_k)⁰ ∈ R^k+1 takie że t 6= 0. Niech t_−k= (t₀, t₁, . . . , t_k−1)⁰.

t⁰







∂²

∂β²L( ˆβ, ˆσ²) ∂²

∂σ²∂βL( ˆβ, ˆσ²)

∂²

∂σ²∂βL( ˆβ, ˆσ²) ∂²

∂(σ²)²L( ˆβ, ˆσ²)





 t =

t⁰_−k tk







− 1 ˆ

σ²X⁰X 0

0 − n

2ˆσ⁴











 t_−k

tk







=

= t⁰_−k·

−1 ˆ σ²X⁰X

· t−k+ tk·

− n 2σˆ⁴

· tk = − 1 ˆ

σ² · t⁰_−kX⁰Xt−k− n 2ˆσ² · t²_k=

= − 1 ˆ

σ² · (X · t_−k)⁰(X · t_−k) − n

2ˆσ²· t²_k = − 1 ˆ

σ² · ||X · t_−k||²− n 2ˆσ² · t²_k

Ponieważ rz(X) = k < n, więc X · t−k 6= 0, a zatem ||X · t−k||² > 0. W takim razie wartość formy kwadratowej powyżej jest ujemna. Oznacza to, że ta forma kwadratowa jest ściśle ujemnie określona.

Wobec tego w punkcie ( ˆβ, ˆσ²) funkcja L osiąga maksimum lokalne. Jest to jedyny punkt krytyczny funkcji L, a zatem jest to maksimum globalne. W związku z tym ˆβ i ˆσ² są odpowiednio estymatorami metody największej wiarogodności parametrów β i σ².

Estymator metody największej wiarogodności wektora parametrów β jest estymatorem metody naj- mniejszych kwadratów tegoż parametru. Jest więc estymatorem nieobciążonym.

Estymator metody największej wiarogodności parametru σ² różni się od estymatora dotychczas po- znanego, toteż od tego momentu przyjmijmy następujące oznaczenia (L od likelihood – wiarogodność):

ˆ

σ²= ||Y − ˆY ||²

n − k , σˆ_L² = ||Y − ˆY ||²

n .

Wiemy, że E ˆσ²= σ², a zatem E ˆσ²_L=_n−kⁿ E ˆσ²=_n−kⁿ σ². Estymator metody największej wiarogodności parametru σ²nie jest więc estymatorem nieobciążonym.

Przyjmijmy następujące oznaczenie: ˆL = sup_β∈Rk,σ²>0L(β, σ²). Zgodnie z definicją estymatora naj- większej wiarogodności ˆL = L( ˆβ, ˆσ²_L). Wobec tego

L = −ˆ n

2log ˆσ²_L−n

2 log(2π) − 1

2ˆσ²S( ˆβ) = −n

2 log||Y − ˆY ||²

n −n

2log(2π) − n 2. Definicja 1. Kryterium informacyjnym Akaike nazywamy wyrażenie AIC = −2 ˆL + 2k.

Definicja 2. Bayesowskim kryterium informacyjnym (lub kryterium informacyjnym Schwartza) nazy- wamy wyrażenie BIC = −2 ˆL + k log n.

Zgodnie z powyższymi definicjami

AIC = n log||Y − ˆY ||²

n + n log(2π) + n + 2k, BIC = n log||Y − ˆY ||²

n + n log(2π) + n + k log n.

Ponieważ jednak n log(2π) + n nie zależy od doboru zmiennych, więc najczęściej przyjmuje się dla uprosz- czenia, że

AIC = n log||Y − ˆY ||²

n + 2k, BIC = n log||Y − ˆY ||²

n + k log n.

W zależności od tego, do czego ma służyć model i jakie są zależności między zmiennymi, inne kry- terium wyboru modelu okaże się dobre. Jeżeli pożądane są dobre właściwości predykcyjne, odpowiednie

2

(3)

jest kryterium AIC, które wybiera duże modele, ale o dobrych właściwościach predykcyjnych. Jeżeli szu- kamy modelu opisującego prawdziwą zależność, często stosowane jest kryterium BIC, które jest zgodne (czyli asymptotycznie z prawdopodobieństwem 1 wybiera dobry model), ale wybiera mniej zmiennych niż AIC (Przemysław Biecek, Analiza danych z programem R. Modele liniowe z efektami stałymi, losowymi i mieszanymi, Wydawnictwo Naukowe PWN, Warszawa 2011, str. 122).

Korzystanie z kryteriów informacyjnych wymusza zachowanie założeń modelu Gaussa-Markowa, w szcze- gólności założenia o normalności błędów, gdyż kryteria informacyjne oparte są na maksymalizacji funkcji wiarogodności a ta zależy od łącznego rozkładu błędów.

Dobór zmiennych za pomocą kryteriów informacyjnych w R realizuje funkcja step. Jeśli pozosta- wimy domyślą wartość argumentu k=2, będziemy się posługiwali AIC, jeśli zaś przyjmiemy k=log(n), to będziemy się posługiwali kryterium BIC. W argumencie object umieszczamy model początkowy. W argumencie scope podajemy listę zmiennych-kandydatek do włączenia do modelu. Wartością argumentu scope możemy także uczynić listę składającą się z dwóch elementów: lower i upper będących odpowiednio najuboższym i najbogatszym modelem, jaki chcemy rozważać. Argument direction określa kierunek przeszukiwania modeli.

Aby wykonać jedną z czterech procedur krokowych dotąd poznanych, należy postępować w sposób następujący:

jeśli jako wartość argumentu object przyjmiemy model tylko z wyrazem wolnym (tzn. lm(Y~1)), jako wartość argumentu scope tyldę i prawą stronę formuły definiującej model pełny, a ponadto direction="forward", to zostanie przeprowadzona selekcja postępująca,

jeśli jako wartość argumentu object przyjmiemy model pełny, to zostanie przeprowadzona elimi- nacja wsteczna (automatycznie zostanie przyjęte direction="backward"),

jeśli jako wartość argumentu object przyjmiemy model tylko z wyrazem wolnym (tzn. lm(Y~1)), jako wartość argumentu scope tyldę i prawą stronę formuły definiującej model pełny, a ponadto direction="both", to zostanie przeprowadzona regresja krokowa postępująca,

jeśli jako wartość argumentu object przyjmiemy model pełny a ponadto direction="both", to zostanie przeprowadzona regresja krokowa wsteczna.

Należy zaznaczyć, że regresja krokowa postępująca i regresja krokowa wsteczna zostaną przeprowadzone z drobną różnicą w stosunku do tego, co zostało uprzednio powiedziane.

Transformacje Boxa-Coxa

Brak normalności błędów (ε) może przybrać postać złego dobrania skali, w której dokonywane są po- miary. Jeśli realizacje Y1, Y2, . . . , Yn są dodatnie, to rozwiązaniem tego problemu może być odpowied- nie przekształcenie zmiennej zależnej. Popularną rodziną przekształceń stosowanych w takich sytuacjach są transformacje Boxa-Coxa:

Z^(λ)=











Z^λ− 1

λ , λ 6= 0 log Z, λ = 0

Wybór λ może być dokonany za pomocą metody największej wiarogodności. Przebiega on zwykle w następujących krokach:

wybiera się pewien zbiór Λ = {λ0, λ₁, . . . , λ_l}, najczęściej o elementach postaci λi= λ₀+ i∆λ,

za pomocą każdego λ ∈ Λ dokonuje się transformacji Boxa-Coxa zmiennej zależnej, otrzymując Y^(λ)= (Y₁^(λ), Y₂^(λ), . . . , Yn^(λ))⁰, a następnie metodą największej wiarogodności dokonuje się estymacji parametrów w modelu Gaussa-Markowa Y^(λ) = Xβ + ε. Następnie oblicza się maksimum funkcji wiarogodności dla tego modelu, co oznaczamy jako ˆL^(λ),

wybiera się λ takie że ˆL^(λ) = max{ ˆL^(λ⁰⁾, ˆL^(λ¹⁾, . . . , ˆL^(λ^l⁾}.

Warto zwrócić uwagę na to, że dla λ > 1 transformacje Boxa-Coxa są funkcjami wypukłymi, podczas gdy dla λ < 1 transformacje Boxa-Coxa są funkcjami wklęsłymi.

Obliczenia pozwalające na dokonanie wyboru wartości parametru λ w R realizuje funkcja boxcox z pakietu MASS.

3