• Nie Znaleziono Wyników

Rozdział 3. Modelowanie wielopoziomowe

3.4. Estymacja parametrów modelu

Jak wspomniano w podrozdziale 3.2, do szacowania parametrów modelu stosuje się zapis przedstawiony przy pomocy równania (3.1) w postaci macierzowej. W podrozdziałach 3.2 oraz 3.3 opisano formę, jaką przyjmują składniki równania (3.1), w kolejnych etapach rozszerzania modelu wielopoziomowego, zarówno klasycznego jak i z dwoma kryteriami grupowania,. Chociaż modele te różniły się pod względem strategii ich budowy, parametry modelu szacowane są dokładnie w taki sam sposób dla obu przypadków (por. Bates, 2010).

W celu estymacji współczynników modelu wielopoziomowego najczęściej stosuje się metodę największej wiarogodności (ML maximum likelihood) bądź resztową metodę największej wiarogodności (REML lub RML restricted/residual maximum likelihood). W rzeciwieństwie do klasycznego modelu regresji liniowej, estymatory resztowej największej wiarogodności, w przypadku modeli wielopoziomowych mogą być obciążone. Uważa się jednak, że obciążenie to w większości wypadków jest mniejsze, niż przy zastosowaniu metody największej wiarogodności (por. Biecek, 2011). Z drugiej strony, estymatory parametrów szacowane przy pomocy resztowej metody największej wiarogodności, pomimo takiej nazwy, nie charakteryzują się największą wiarogodnością. Ponadto modele szacowane tą metodą nie mogą być traktowane jako rozwinięcia modeli „uboższych”, jeżeli modyfikacja dotyczyła części stałej modelu, zatem nie można ich porównywać przy pomocy testu ilorazu wiarogodności (por. Frątczak i in., 2009; Bates, 2010; Hox, 2010; Biecek, 2011). Jest tak dlatego, że estymatory REML obliczane są po przeniesieniu części stałej modelu na lewą stronę równia (3.1). W związku z tym przy każdej modyfikacji części stałej modelu, zmienia się część objaśniana modelu, Zatem kolejne modele nie mogą być traktowane jako rozszerzenia wcześniejszych. Ponadto

109

w literaturze podaje się, że wpływ wyboru metody ML lub REML na otrzymane oszacowania dla modeli wielopoziomowych jest mniejszy niż się powszechnie uważa (por. Bates, 2010; Hox, 2010; Kreft, de Leeuw, 1998). W związku z powyższymi uwagami w następnym, czwartym rozdziale prezentowanej pracy wykorzystano, przy konstruowaniu modeli metodę największej wiarogodności (ML).

Ponadto w dostępnym oprogramowaniu estymacja parametrów modelu, zarówno w przypadku klasycznej jak i resztowej metody największej wiarogodności, przeprowadzona może zostać przy pomocy różnych algorytmów. Niektóre z nich to algorytm Newtona-Raphsona (wykorzystywana w programie SAS, por. Wolfinger, Tobias, Sall, 1994) oraz metoda z wykorzystaniem operacji na macierzach rzadkich (w pakiecie lme4 programu R, por. Bates, 2010). W prezentowanej pracy obliczenia wykonane zostały przy pomocy pakietu lme4 programu R. W dalszej części tego podrozdziału opisano algorytm szacowania parametrów modelu stosowany w tym pakiecie.

ESTYMATORY NAJWIĘKSZEJ WIAROGODNOŚCI

Rozważmy ogólny wielopoziomowy model liniowy opisany równaniem (3.1). Jak zauważono wcześniej, przy pomocy tego równania zapisać można dowolny model wielopoziomowy, zarówno klasyczny jak i z dwoma kryteriami grupowania. Ponieważ estymacja parametrów modelu przebiegać będzie dla poszczególnych elementów tego zapisu, został on powtórzony, ponadto określone zostały wymiary poszczególnych składowych

m = no + pq + r , (3.1)

gdzie:

Y – wektor zmiennej objaśnianej o wymiarze n,

X – macierz zmiennych objaśniających dla efektów stałych modelu

o wymiarze n x p,

β – wektor współczynników kierunkowych o wymiarze p,

Z – macierz zmiennych objaśniających dla efektów losowych modelu

o wymiarze n x q,

e – wektor efektów losowych o wymiarze q, s~N†vw; x) ,

r – składnik resztowy modelu o wymiarze n, y~NÓvw; σ{Ô) .

Należy zwrócić uwagę, że n, podobnie jak w poprzednich podrozdziałach, określa liczbę jednostek pierwszego poziomu, jednak p i q są odpowiednio wymiarami macierzy

110

efektów stałych oraz losowych. Nie można utożsamiać ich z liczbą zmiennych objaśniających czy liczbą poziomów modelu. W podrozdziałach 3.2 oraz 3.3 przedstawiono te wymiary dla modeli opisywanych w kolejnych etapach.

W równaniu (3.1) znane są wartości: wektora zmiennej objaśnianej Y (tylko z próby uczącej), macierzy zmiennych objaśniających dla efektów stałych X oraz macierzy Z. Celem rozważań jest estymacja wektora β oraz macierzy kowariancji wektora efektów losowych e, czyli x. Parametry te oszacowane zostaną przy pomocy metody największej

wiarogodności.

W pierwszej kolejności, przeanalizowana zostanie postać macierzy kowariancji x.

Załóżmy, że omawiany model charakteryzuje się strukturą P poziomową. Ponadto ze względu na kolejne poziomy uwzględnia się ki (dla i=1,…,P) efektów losowych (wliczając w to efekt losowy wyrazu wolnego oraz współczynników kierunkowych przy zmiennych z niższych poziomów). Tak więc dla każdego poziomu należy oszacować ki wartości wariancji oraz kix(ki-1)/2 kowariancji, czyli w sumie kix(ki+1)/2 wartości w macierzy kowariancji, związanych z danym poziomem. Ponieważ, na każdym poziomie jest określona liczba jednostek, z których efekty losowe dla każdej z nich charakteryzują się takim samym rozkładem normalnym, opisane powyżej wartości pojawiają się w macierzy x tyle razy, z ilu jednostek składa się dany poziom (dwukrotnie

więcej w przypadku kowariancji). Ponieważ zakłada się, że nie występują korelacje losowe pomiędzy efektami losowymi z różnych poziomów, pozostałe wartości macierzy

x są zerami. Tak więc, przy optymalnej kolejności kolumn w macierzy Z (którą przyjąć

można bez straty ogólności, a która w procedurze lmer uzyskiwana jest przy pomocy prostej transformacji), macierz x jest macierzą blokową diagonalną, wokół diagonali

której pojawiają się kolejno macierze kowariancji z kolejnych poziomów, każda tyle razy, ile jednostek określonych jest na danym poziomie. Zatem przy potencjalnie dużej liczbie elementów macierzy x (q2

), w celu jednoznacznego jej określenia konieczne jest oszacowanie relatywnie małej liczby jej elementów ∑ R£ vR+ 1)/2

e . Wektor tych

parametrów oznaczać będziemy θ. W związku z tym również macierz kowariancji x

powinna być oznaczana jako xÕ.

O zmiennej objaśnianej zakłada się, że ma rozkład normalny, zatem jeżeli przyjąć konkretną wartość wektora efektów losowych, e, zmienna objaśniana charakteryzuje się następującym warunkowym rozkładem normalnym:

111

vÖ|q)~×vno + pq; σ{Ô) . (3.25)

Z kolei wektor efektów losowych charakteryzuje się następującym rozkładem normalnym:

s~N†vw; xÕ) . (3.26)

O macierzy xÕ, jako o macierzy kowariancji, wiadomo, że jest macierzą symetryczną, ponadto jest dodatnio półokreślona, tzn:

Û∈ÜÝ/^‡_ÙÚxÕÙ ≥ w .

Niech macierz ÞÕ będzie macierzą trójkątną dolną, spełniającą warunek:

xÕ = σÞÕÞÕÚ . (3.27)

Wiadomo, że macierz spełniająca powyższy warunek istnieje, ponieważ macierz xÕ jest

macierzą symetryczną.

Następnie wektor efektów losowych e przedstawiony zostaje jako:

q = ÞÕß . (3.28)

Łatwo można wykazać, że wektor u charakteryzuje się następującym rozkładem normalnym:

ß~à4w; σ{á5 . (3.29)

Jednocześnie równanie (3.1) oraz rozkład warunkowy zmiennej objaśnianej zapisać można:

m = no + pÞÕß + r , (3.30)

vÖ|ß)~×vno + pÞÕß; σ{Ô) . (3.31) W wyniku powyższego zapisu, obiektem zainteresowania stała się macierz ÞÕ zamiast

macierzy xÕ oraz wektor u zamiast wektora e. Zamiana taka jest korzystna ze względu

na prostszy rozkład wektora u.

Aby zastosować metodę największej wiarogodności konieczna jest znajomość rozkładu łącznego wektorów u oraz y, w celu wyznaczenia funkcji wiarogodności opisanej wzorem:

âvSÕ, o, ã|ÖäÛå) = æ çÜÝ è,éQê . (3.32) Korzystając z twierdzenia Bayesa, odpowiednią gęstość warunkową można zapisać w postaci:

112

Ponieważ znane są rozkłady vÖ|ß) oraz ß (por. odpowiednio wzory (3.31) oraz (3.29)),

w celu wyznaczenia gęstości łącznej wyznaczane są odpowiednie gęstości (por. Krzyśko, 2009): çSé|è = v2ë)¯ì{Ô|¯ @íG î−vÖ − no − pÞÕß){Ô)¯vÖ − no − pÞÕß)ï = v2ë)¯ì)¯ì@íG î−vÖ − no − pÞÕß)vÖ − no − pÞÕß)ï = v2ëσ)¯ì@íG î−vÖ − no − pÞÕß)vÖ − no − pÞÕß)ï , (3.34) çß = v2ë)¯Ý{Ô|¯Ý@íG î−ß{á5¯ßï = v2ë)¯Ý)¯Ý@íG î−ßßï = v2ëσ)¯Ý@íG î−ßßï . (3.35) Podstawiając tak wyznaczone gęstości do równania (3.33) wyznaczono gęstość łączną jako:

çß,Ö = v2ëσ)¯ìñÝ @íG ò−ÎvÖ − no − pÞÕß)vÖ − no − pÞÕß) + ßßÐó. (3.36)

Niech ßô będzie wartością wektora u maksymalizującą powyższą funkcję gęstości łącznej.

Ponadto niech ÖäÛå oznacza wektor wartości (stały), które zmienna objaśniana przyjmuje w próbie.

ßô = LPõ maxßçSß|Övß|ÖäÛå) = LPõ maxßçß,Övß, ÖäÛå) = LPõ maxßçSÖ|ßäÛå|ß)çßvß).

(3.37) Powyższa równość jest prawdziwa, ponieważ jest wartością funkcji w punkcie, a więc çéäÛå) jest stałą.

Następnie wyznaczany jest logarytm naturalny łącznej gęstości pomnożony przez (-2):

−2 ln çß,Övß, ÖäÛå) = −2 ln öv2ëσ)¯ìñÝ @íG ò−ÎvÖ − no − pÞÕß)vÖ − no − pÞÕß) + ßßÐó÷ = v) + ˜) lnv2ëσ) +ðvvÖ − no − pÞÕß)vÖ − no − pÞÕß) +

ßß) . (3.38)

Ponieważ logarytm naturalny jest funkcją rosnącą w swojej dziedzinie, powyższa funkcja jest malejąca. W związku z tym argument, dla którego funkcja çè,é osiąga maksimum, to ten sam argument, dla którego funkcja −2 ln çè,é osiąga minimum. Ponadto we wzorze (3.38) od u zależy wyłącznie drugi składnik sumy, a dokładnie druga część iloczynu wchodzącego w jego skład. W związku z tym równanie (3.37) można przekształcić do postaci:

113

ßô = LPõ minßvvÖ − no − pÞÕß)vÖ − no − pÞÕß) + ßß) . (3.39) W powyższym wzorze wyrażenie, z którego szukane jest minimum, nazywane jest sumą kwadratów reszt z karą (PRSS penalized residual sum of squares) ). Z kolei wartość u, dla którego to minimum jest uzyskiwane, metodą najmniejszych kwadratów z karą (PLS penalized least squares solution) (por. Bates, 2013c).

Niech:

PÕ,o = minßvvÖ − no + pÞÕß)vÖ − no + pÞÕß) + ßß) (3.40)

PÕ= minß,ovvÖ − no + pÞÕß)vÖ − no + pÞÕß) + ßß) (3.41) Obydwa powyższe minima wyznaczone mogą zostać bez użycia procedury iteracyjnej. Ponadto wartość wektora o (zależna od parametru ø) dla której osiągane jest minimum

(3.40) oznaczana będzie dalej jako oùÕ.

W celu rozwiązania równania (3.39) minimalizowaną sumę przedstawić można jako:

ßô = LPõ minßîÖ − no − pÞÕß ß ï  îÖ − no − pÞÕß ß ï = LPõ minßúûîÖ − now ï − ûü Õ ý þßþûîÖ − now ï − ûü Õ ý þßþ . (3.42) Dla tak zapisanego problemy rozwiązanie znaleźć można przy pomocy klasycznej metody najmniejszych kwadratów. Jest to wartość spełniająca następujące równanie:

ûpÞü Õ ý þûpÞü Õ ý þ ßô = ûpÞü Õ ý þîÖ − now ï , 4vpÞÕ)ÚÕ+ üý5ßô = pÞÕvÖ − no) , ÕÚpÚÕ+ üý5ßô = pÞÕvÖ − no) ßô = 4ÞÕÚpÚÕ+ üý5¯ÕvÖ − no). (3.43) Rozwiązanie tego równania nie jest oczywiście wyznaczane przez obliczanie macierzy odwrotnej, ale przy pomocy metody Choleskiego. Tak więc, przy pomocy dekompozycji Choleskiego dla macierzy rzadkich wyznaczana jest macierz trójkątna dolna

Õ spełniająca warunek:

114 Podstawiając (3.44) do wzoru (3.43) otrzymujemy:

ÕÕÚßô = pÞÕvÖ − no) . (3.45) Przy pomocy metody Choleskiego możliwe jest rozwiązanie powyższego równania. Następnie rozwiązanie to podstawione zostanie do równania (3.40):

PÕ,o = vÖ − no + pÞÕßô)vÖ − no + pÞÕßô) + ßôßô . (3.46) Ponadto dla dowolnego u prawdziwa jest równość:

vÖ − no + pÞÕß)vÖ − no + pÞÕß) + ßß = PÕ,o + ¦ÕÚvß − ßô)§¦ÕÚvß − ßô)§ .

(3.47) Podstawiając powyższe równanie do równania (3.36) otrzymujemy:

çè,é = v2ëσ)¯ìñÝ @íG −ûPÕ,o + ¦ÕÚvß − ßô)§¦ÕÚvß − ßô)§þ÷ . (3.48) Na potrzeby dalszych rozważań zdefiniowano następującą zmienną pomocniczą z:

I =ÕÚv߯ßô)

 . (3.49)

Tak zdefiniowana zmienna ma następującą własność:

 = ÕÚ

 =|Õ|

 . (3.50)

W tym momencie możliwe jest wyznaczenie wiarogodności:

âvSÕ, o, ã|ÖÙ ) = æ çÜÝ è,éQß = = æ v2ëσÜÝ )¯ìñÝ @íG −ûPÕ,o + ¦ÕÚvß − ßô)§¦ÕÚvß − ßô)§þ÷Qß == v2ëσ)¯ì@íG − Õ,o ð æ v2ë)ÜÝ ¯Ý@íG −¦ÕÚvß − ßô)§¦ÕÚvß − ßô)§÷|Õ| |Õ| ð = I = Úv߯ßô)   =|Õ|   = v2ëσ)¯ì@íG − Õ,o ð |Õ|¯æ v2ë)ÜÝ ¯Ý@íG ¦−C§Q = = v2ëσ)¯ì@íG − Õ,o ð |Õ|¯1 = v2ëσ)¯ì@íG − Õ,o ð |Õ|¯ (3.51) Podwojony logarytm naturalny wiarogodności nazywany jest dewiacją i oznaczany:

QvSÕ, o, ã|ÖÙ ) = −2 ln âvSÕ, o, ã|ÖÙ ) = ) lnv2ëσ) + 2 ln|Õ| + Õ,o

115

Estymatorami największej wiarogodności nazywamy te oszacowania parametrów, które minimalizują powyższą dewiację. Niech oùÕ oznacza tę wartość o, która

minimalizuje sumę kwadratów reszt z karą (PRSS) (por. Bates, 2010) dla ustalonego Õ

oraz niech PÕ oznacza sumę kwadratów reszt z karą dla o = oùÕ. Wtedy:

QvSÕ, ã|ÖÙ ) = ) lnv2ëσ) + 2 ln|Õ| + Õ

ð . (3.53)

Ponadto niech σÕ będzie wartością σ, która minimalizuje dewiację dla ustalonego PÕ. Wtedy σÕ = Õ

× oraz:

QvSÕ|ÖÙ ) = ) ln ¦ Õ

× § + 2 ln|Õ| + ) = 2 ln|Õ| + ) ¦1 + ln ¦ Õ

× §§ . (3.54) W celu wyznaczenia ßô oraz oùÕ zastosować można następujący zapis:

û ßô Õþ = LPõ minß,oîÖ − pÞÕß − no ß ï  îÖ − pÞÕß − no ß ï = LPõ minßúûîÖwï − ûüýÕ nwþ îoïþß  ûîÖwï − ûüýÕ nwþ îßoïþ . (3.55) Zgodnie z metodą najmniejszych kwadratów rozwiązaniem powyższego problemu są oszacowania spełniające następujący warunek:

ûü Õ n ý ûü Õ n ý wþ ûoùßôÕþ = ûüýÕ n îÖwï , (3.56)

co na drodze elementarnych przekształceń daje:

ÕÚpÚÕ+ üý ÞÕÚpÚn nÚÕ nÚn  û ßôÕþ = ÞÕÚpÚÖ nÚÖ  , û ßô Õþ = ÞÕÚpÚÕ+ üý ÞÕÚpÚn nÚÕ nÚn  ¯ÕÚpÚÖ nÚÖ . (3.57)

Podobnie jak wcześniej, rozwiązanie powyższego problemu znalezione zostaje przy pomocy metody Choleskiego. Przeprowadzana zostaje następująca dekompozycja Choleskiego (dla macierzy rzadkich):

ÕÚpÚÕ+ üý ÞÕÚpÚn

nÚÕ nÚn  = û pnÕ wnþ Õ

Ú pnÚ w nÚ .

116

W powyższym zapisie Õ, tak jak wcześniej, oznacza trójkątną dolną macierz

wyznaczoną przy pomocy dekompozycji Choleskiego spełniającą warunek określony wzorem (3.44). Macierze pn oraz n są odpowiednio wymiaru pxq oraz pxp spełniają poniższe warunki:

ÕpnÚ = ÞÕÚpÚn (3.58)

oraz

nnÚ = nÚn − pnpnÚ . (3.59) Oszacowania parametrów równania (3.57) wyznaczone zostaną więc przy pomocy metody Choleskiego na podstawie równania:

û Õ w

pn nþ Õ

Ú pnÚ

w nÚ û ßôÕþ = ÞÕnÚÚpÖÚÖ . (3.60) Powyższe macierze uzyskane z dekompozycji Choleskiego zostały zapisane w formie blokowej, ponieważ jeden z wyznaczonych bloków posłuży w dalszych rozważaniach do wyznaczenia estymatorów resztowej metody największej wiarogodności.

ESTYMATORY RESZTOWEJ METODY NAJWIĘKSZEJ WIAROGODNOŚCI Funkcję resztowej największej wiarogodności zapisać można:

âÜvSÕ, ã|ÖÙ ) = æ âvSÕ, o, ã|ÖÜ Ù )Qo . (3.61) Resztowa dewiacja wyznaczana jest zatem jako:

QÜvSÕ, ã|ÖÙ ) = −2 ln âÜvSÕ, ã|ÖÙ ) = −2 ln æ âvSÕ, o, ã|ÖÜ Ù )Qo . (3.62) Sformułować można następującą równość:

PÕ,o = PÕ+ ¦nÚ4o − oùÕ¦nÚ4o − oùÕ5§ . (3.63) Podstawiając równanie (3.51) do równania (3.61), resztową wiarogodność można przedstawić jako:

âÜvSÕ, ã|ÖÙ ) = æ v2ëσ)¯ì@íG − Õ,o

ð |Õ|¯Qo

Ü . (3.64)

117 âÜvSÕ, ã|ÖÙ ) = æ v2ëσ)¯ì@íG − Õ.¦nÚ4o¯oùÕ5§C¦nÚ4o¯oùÕ5§ ð  |Õ|¯Qo Ü = @íG ¦− Õ ð§ v2ëσ)¯ì± |Õ|¯æ v2ëσ)¯@íG −¦nÚ4o¯oùÕ C ¦nÚ4o¯oùÕ5§ ð |n| |n|oð‚ Ü = I = nÚ4o¯oùÕ5  o =|n| ð‚  = @íG ¦− Õ ð§ v2ëσ)¯ì± |Õ|¯|n|¯æ v2ëσÜ )¯@íG ¦−C§ Q = @íG ¦− Õ ð§ v2ëσ)¯ì± |Õ|¯|n|¯. (3.65) Zatem resztowa dewiacja wynosi:

QÜvSÕ, ã|ÖÙ ) = −2 ln ¦@íG ¦− Õ

ð§ v2ëσ)¯ì± |Õ|¯|n|¯§ = v) − G& lnv2ëσ& + 2 lnv|Õ||n|& + Õ

ð . (3.66)

Estymatorem resztowej największej wiarogodności parametru ã jest σÕ = Õ ׯ¤. Zatem: QÜvSÕ|ÖÙ & = v) − G& ln ¦ Õ ׯ¤§ + 2 lnv|Õ||n|& + ) − G = =

2

lnv|Õ||n|& + v) − G& ¦1 + ln ¦ Õ ׯ¤§§ . (3.67)

Oszacowanie parametru Õ, Õù wyznaczane jest jako wartość minimalizująca resztową

dewiację, zaś oszacowaniem ã jest σÕù

. Jako estymator o przyjmuje się oùÕù, gdzie oùÕ

jest estymatorem wyznaczonym metodą największej wiarogodności dla danego Õ.