• Nie Znaleziono Wyników

Estymacja największej wiarogodności w modelu Gaussa-Markowa i kryteria informacyjne

N/A
N/A
Protected

Academic year: 2021

Share "Estymacja największej wiarogodności w modelu Gaussa-Markowa i kryteria informacyjne"

Copied!
3
0
0

Pełen tekst

(1)

Estymacja największej wiarogodności w modelu Gaussa-Markowa i kryteria informacyjne

Przypomnienie: gęstość wielowymiarowego rozkładu normalnego o wektorze wartości oczekiwanych µ i nieosobliwej macierzy kowariancji Σ zadana jest wzorem:

f (x) = 1

pdet(Σ) · (2π)n e12(x−µ)0Σ−1(x−µ), x ∈ Rn. Dany jest model liniowy Gaussa-Markowa Y = Xβ + ε, w którym

Y =

 Y1 Y2

...

Yn

, X =

x10 x11 . . . x1,k−1 x20 x21 . . . x2,k−1

. . . . xn0 xn1 . . . xn,k−1

 , β =

 β0 β1

...

βk−1

 , ε =

 ε1 ε2

...

εn

 .

X jest macierzą deterministyczną i rz(X) = k < n. ε1, ε2, . . . , εd są niezależnymi zmiennymi losowymi o rozkładzie N (0, σ2). W takim razie ε ∼ N (0, σ2I), a co za tym idzie Y ∼ N (Xβ, σ2I). Poszukujemy estymatorów metody największej wiarogodności parametrów β (wektor) i σ2.

Gęstość wektora losowego Y ma postać:

f (y) = 1

pdet(σ2I) · (2π)n e12(y−Xβ)02I)−1(y−Xβ)= 1

2n· (2π)n e2σ21 (y−Xβ)0(y−Xβ). Niech

L(β, σ2) = log f (Y ) = −n

2 log σ2−n

2log(2π) − 1

2(Y − Xβ)0(Y − Xβ).

Niech S(β) =Pd

i=1(Yi− β0xi0− β1xi1− . . . − βk−1xi,k−1)2= (Y − Xβ)0(Y − Xβ). W takim razie L(β, σ2) = −n

2log σ2−n

2log(2π) − 1 2σ2S(β).

Niech S0(β) oznacza gradient funkcji S a S00(β) oznacza macierz drugich pochodnych funkcji S. Przypo- mnijmy, że S0(β) = −2XY + 2X0Xβ i S00(β) = 2X0X. W takim razie

∂βL(β, σ2) = ∂L

∂β0

, ∂L

∂β1

, . . . , ∂L

∂βk−1

0

= − 1

2S0(β) = 1

σ2(XY − X0Xβ)

∂σ2L(β, σ2) = − n 2σ2 + 1

4S(β).

W związku z tym

∂βL(β, σ2) = 0 ⇔ β = (X0X)−1XY

∂σ2L(β, σ2) = 0 ⇔ σ2= 1

nS(β) = 1

n||Y − Xβ||2.

Wobec powyższego kandydaci na estymatory metody największej wiarogodności mają postać:

β = (Xˆ 0X)−1XY, σˆ2= 1

n||Y − X ˆβ||2= 1

n||Y − ˆY ||2.

Należy jeszcze sprawdzić, czy w punkcie ( ˆβ, ˆσ2) = ( ˆβ0, ˆβ1, . . . , ˆβk−1, ˆσ2) funkcja L osiąga maksimum globalne. W tym celu wyznaczymy macierz drugich pochodnych tej funkcji. Ma ona postać:

2

∂β2L(β, σ2) ∂2

∂σ2∂βL(β, σ2)

2

∂σ2∂βL(β, σ2)

| {z }

k

2

∂(σ2)2L(β, σ2)

| {z }

1

=

− 1

2S00(β) − 1

σ4(XY − X0Xβ)

− 1

σ4(XY − X0Xβ)0 n 2σ4− 1

σ6S(β)

1

(2)

Należy sprawdzić, czy macierz owa w punkcie ( ˆβ, ˆσ2) jest ściśle ujemnie określona. Zauważmy, że S( ˆβ) = nˆσ2 i XY − X0X ˆβ = XY − X0X(X0X)−1X0Y = XY − XY = 0. W takim razie

2

∂β2L( ˆβ, ˆσ2) ∂2

∂σ2∂βL( ˆβ, ˆσ2)

2

∂σ2∂βL( ˆβ, ˆσ2) ∂2

∂(σ2)2L( ˆβ, ˆσ2)

=

−1 ˆ

σ2X0X 0

0 − n

2ˆσ4

 .

Ustalmy t = (t0, t1, . . . , tk−1, tk)0 ∈ Rk+1 takie że t 6= 0. Niech t−k= (t0, t1, . . . , tk−1)0.

t0

2

∂β2L( ˆβ, ˆσ2) ∂2

∂σ2∂βL( ˆβ, ˆσ2)

2

∂σ2∂βL( ˆβ, ˆσ2) ∂2

∂(σ2)2L( ˆβ, ˆσ2)

 t =



t0−k tk



− 1 ˆ

σ2X0X 0

0 − n

2ˆσ4

 t−k

tk

=

= t0−k·



−1 ˆ σ2X0X



· t−k+ tk·



− n 2σˆ4



· tk = − 1 ˆ

σ2 · t0−kX0Xt−k− n 2ˆσ2 · t2k=

= − 1 ˆ

σ2 · (X · t−k)0(X · t−k) − n

2ˆσ2· t2k = − 1 ˆ

σ2 · ||X · t−k||2− n 2ˆσ2 · t2k

Ponieważ rz(X) = k < n, więc X · t−k 6= 0, a zatem ||X · t−k||2 > 0. W takim razie wartość formy kwadratowej powyżej jest ujemna. Oznacza to, że ta forma kwadratowa jest ściśle ujemnie określona.

Wobec tego w punkcie ( ˆβ, ˆσ2) funkcja L osiąga maksimum lokalne. Jest to jedyny punkt krytyczny funkcji L, a zatem jest to maksimum globalne. W związku z tym ˆβ i ˆσ2 są odpowiednio estymatorami metody największej wiarogodności parametrów β i σ2.

Estymator metody największej wiarogodności wektora parametrów β jest estymatorem metody naj- mniejszych kwadratów tegoż parametru. Jest więc estymatorem nieobciążonym.

Estymator metody największej wiarogodności parametru σ2 różni się od estymatora dotychczas po- znanego, toteż od tego momentu przyjmijmy następujące oznaczenia (L od likelihood – wiarogodność):

ˆ

σ2= ||Y − ˆY ||2

n − k , σˆL2 = ||Y − ˆY ||2

n .

Wiemy, że E ˆσ2= σ2, a zatem E ˆσ2L=n−kn E ˆσ2=n−kn σ2. Estymator metody największej wiarogodności parametru σ2nie jest więc estymatorem nieobciążonym.

Przyjmijmy następujące oznaczenie: ˆL = supβ∈Rk2>0L(β, σ2). Zgodnie z definicją estymatora naj- większej wiarogodności ˆL = L( ˆβ, ˆσ2L). Wobec tego

L = −ˆ n

2log ˆσ2L−n

2 log(2π) − 1

2ˆσ2S( ˆβ) = −n

2 log||Y − ˆY ||2

n −n

2log(2π) − n 2. Definicja 1. Kryterium informacyjnym Akaike nazywamy wyrażenie AIC = −2 ˆL + 2k.

Definicja 2. Bayesowskim kryterium informacyjnym (lub kryterium informacyjnym Schwartza) nazy- wamy wyrażenie BIC = −2 ˆL + k log n.

Zgodnie z powyższymi definicjami

AIC = n log||Y − ˆY ||2

n + n log(2π) + n + 2k, BIC = n log||Y − ˆY ||2

n + n log(2π) + n + k log n.

Ponieważ jednak n log(2π) + n nie zależy od doboru zmiennych, więc najczęściej przyjmuje się dla uprosz- czenia, że

AIC = n log||Y − ˆY ||2

n + 2k, BIC = n log||Y − ˆY ||2

n + k log n.

W zależności od tego, do czego ma służyć model i jakie są zależności między zmiennymi, inne kry- terium wyboru modelu okaże się dobre. Jeżeli pożądane są dobre właściwości predykcyjne, odpowiednie

2

(3)

jest kryterium AIC, które wybiera duże modele, ale o dobrych właściwościach predykcyjnych. Jeżeli szu- kamy modelu opisującego prawdziwą zależność, często stosowane jest kryterium BIC, które jest zgodne (czyli asymptotycznie z prawdopodobieństwem 1 wybiera dobry model), ale wybiera mniej zmiennych niż AIC (Przemysław Biecek, Analiza danych z programem R. Modele liniowe z efektami stałymi, losowymi i mieszanymi, Wydawnictwo Naukowe PWN, Warszawa 2011, str. 122).

Korzystanie z kryteriów informacyjnych wymusza zachowanie założeń modelu Gaussa-Markowa, w szcze- gólności założenia o normalności błędów, gdyż kryteria informacyjne oparte są na maksymalizacji funkcji wiarogodności a ta zależy od łącznego rozkładu błędów.

Dobór zmiennych za pomocą kryteriów informacyjnych w R realizuje funkcja step. Jeśli pozosta- wimy domyślą wartość argumentu k=2, będziemy się posługiwali AIC, jeśli zaś przyjmiemy k=log(n), to będziemy się posługiwali kryterium BIC. W argumencie object umieszczamy model początkowy. W ar- gumencie scope podajemy listę zmiennych-kandydatek do włączenia do modelu. Wartością argumentu scope możemy także uczynić listę składającą się z dwóch elementów: lower i upper będących odpowied- nio najuboższym i najbogatszym modelem, jaki chcemy rozważać. Argument direction określa kierunek przeszukiwania modeli.

Aby wykonać jedną z czterech procedur krokowych dotąd poznanych, należy postępować w sposób następujący:

ˆ jeśli jako wartość argumentu object przyjmiemy model tylko z wyrazem wolnym (tzn. lm(Y~1)), jako wartość argumentu scope tyldę i prawą stronę formuły definiującej model pełny, a ponadto direction="forward", to zostanie przeprowadzona selekcja postępująca,

ˆ jeśli jako wartość argumentu object przyjmiemy model pełny, to zostanie przeprowadzona elimi- nacja wsteczna (automatycznie zostanie przyjęte direction="backward"),

ˆ jeśli jako wartość argumentu object przyjmiemy model tylko z wyrazem wolnym (tzn. lm(Y~1)), jako wartość argumentu scope tyldę i prawą stronę formuły definiującej model pełny, a ponadto direction="both", to zostanie przeprowadzona regresja krokowa postępująca,

ˆ jeśli jako wartość argumentu object przyjmiemy model pełny a ponadto direction="both", to zostanie przeprowadzona regresja krokowa wsteczna.

Należy zaznaczyć, że regresja krokowa postępująca i regresja krokowa wsteczna zostaną przeprowadzone z drobną różnicą w stosunku do tego, co zostało uprzednio powiedziane.

Transformacje Boxa-Coxa

Brak normalności błędów (ε) może przybrać postać złego dobrania skali, w której dokonywane są po- miary. Jeśli realizacje Y1, Y2, . . . , Yn są dodatnie, to rozwiązaniem tego problemu może być odpowied- nie przekształcenie zmiennej zależnej. Popularną rodziną przekształceń stosowanych w takich sytuacjach są transformacje Boxa-Coxa:

Z(λ)=





Zλ− 1

λ , λ 6= 0 log Z, λ = 0

Wybór λ może być dokonany za pomocą metody największej wiarogodności. Przebiega on zwykle w następujących krokach:

ˆ wybiera się pewien zbiór Λ = {λ0, λ1, . . . , λl}, najczęściej o elementach postaci λi= λ0+ i∆λ,

ˆ za pomocą każdego λ ∈ Λ dokonuje się transformacji Boxa-Coxa zmiennej zależnej, otrzymując Y(λ)= (Y1(λ), Y2(λ), . . . , Yn(λ))0, a następnie metodą największej wiarogodności dokonuje się estymacji parametrów w modelu Gaussa-Markowa Y(λ) = Xβ + ε. Następnie oblicza się maksimum funkcji wiarogodności dla tego modelu, co oznaczamy jako ˆL(λ),

ˆ wybiera się λ takie że ˆL(λ) = max{ ˆL0), ˆL1), . . . , ˆLl)}.

Warto zwrócić uwagę na to, że dla λ > 1 transformacje Boxa-Coxa są funkcjami wypukłymi, podczas gdy dla λ < 1 transformacje Boxa-Coxa są funkcjami wklęsłymi.

Obliczenia pozwalające na dokonanie wyboru wartości parametru λ w R realizuje funkcja boxcox z pakietu MASS.

3

Cytaty

Powiązane dokumenty

Jednak dopiero w 2002 roku udało się zidentyfikować receptory smakowe odpowiedzialne za jego odczuwanie i umami oficjalnie dołączył do grona smaków podstawowych.. Z

Jest ono redagowane prawie w takim samym stopniu przez nas jak i przez naszych Czytelników - Autorów.. Wybieramy bowiem do druku to, co do redakcji dociera i zyskuje

, n zaś funkcją wiążącą jest funkcja kwantylowa standardowego rozkładu normalnego (tzn.. , n, nazywamy

- dopóki nie mamy właściwej skali trudno jest usunać obserwacje odstające - może we właściwej skali te dane się symetryzują. - do chunka można dodać opcję warning=FALSE

Zastanów się i zapisz w zeszycie odpowiedź na pytanie: Czym dla Ciebie jest słowo Boże?. Pomódl się słowami

lf;pt;att o'It''- K'r'I{', jlou', BlrrHl'tlql,xrrit Eandjtpu B.M.- K.T.r{., Aorl., Bissl.rur,rcuri uaqiou ,anr,gufr riatlilria,ll'uuri arpapurtfi ylrini:pcpr&#34;rer

onrce, BnKoptrcTaHgr{ r npoueci npoQeciftnoi -niArorosKl'I ruafiEynrix irureuepia'neAaroris aBroTpaHcnoprHofo npo$i.nro Mo.4erroBaHHt rexnolori.nrrx npoqecie cnpl'Ijle

Dla chętnych- można przesłać nagrany filmik z ćwiczeń domowych, albo