• Nie Znaleziono Wyników

Rozdział 3. Modelowanie wielopoziomowe

3.5. Kryteria oceny dopasowania modelu

o =|n| ð‚  = @íG ¦− Õ ð§ v2ëσ)¯ì± |Õ|¯|n|¯æ v2ëσÜ )¯@íG ¦−C§ Q = @íG ¦− Õ ð§ v2ëσ)¯ì± |Õ|¯|n|¯. (3.65) Zatem resztowa dewiacja wynosi:

QÜvSÕ, ã|ÖÙ ) = −2 ln ¦@íG ¦− Õ

ð§ v2ëσ)¯ì± |Õ|¯|n|¯§ = v) − G& lnv2ëσ& + 2 lnv|Õ||n|& + Õ

ð . (3.66)

Estymatorem resztowej największej wiarogodności parametru ã jest σÕ = Õ ׯ¤. Zatem: QÜvSÕ|ÖÙ & = v) − G& ln ¦ Õ ׯ¤§ + 2 lnv|Õ||n|& + ) − G = =

2

lnv|Õ||n|& + v) − G& ¦1 + ln ¦ Õ ׯ¤§§ . (3.67)

Oszacowanie parametru Õ, Õù wyznaczane jest jako wartość minimalizująca resztową

dewiację, zaś oszacowaniem ã jest σÕù

. Jako estymator o przyjmuje się oùÕù, gdzie oùÕ

jest estymatorem wyznaczonym metodą największej wiarogodności dla danego Õ.

3.5. Kryteria oceny dopasowania modelu

Jak wspominano w podrozdziałach 3.2 oraz 3.3, podczas wprowadzania do modelu kolejnych parametrów należy każdorazowo weryfikować zasadność takiego postępowania, aby nie komplikować modelu jeżeli nie poprawia to w istotnym stopniu jakości jego dopasowania. Bates (2010) nazywa to zasadą oszczędności i powołuje się przy tym na znane stwierdzenie Alberta Einsteina: „Wszystko powinno być wykonane tak prosto, jak to możliwe, ale nie prościej”. Nadmierne rozszerzanie zbioru szacowanych parametrów nie tylko utrudnia interpretację wyników oraz wydłuża czas obliczeń (nawet do wielu dni), ale może uniemożliwić oszacowanie tych parametrów. Na przykład

118

uwzględnienie korelacji pomiędzy efektami losowymi w sytuacji, gdy jest ona zbliżona do zera może powodować brak zbieżności algorytmu, a więc brak jakichkolwiek oszacowań. Z drugiej strony jest oczywiste, że należy uwzględnić te zależności, które umożliwiają poprawę precyzji późniejszych szacunków.

W związku z powyższym, niezmiernie ważną kwestią jest ocena poprawy dopasowania modelu po każdym rozszerzeniu. W tym celu posłużyć można się omówioną w poprzednim podrozdziale funkcją wiarogodności i porównać wiarogodności obu modeli (lub resztowe wiarogodności, jeżeli parametry oszacowano metodą REML). Im bardziej zwiększy się wiarogodność modelu (lub jej logarytm naturalny, podawany przez większość programów), tym większa poprawa. W celu oceny, czy określona poprawa modelu jest istotna statystycznie zastosować można test ilorazu wiarogodności. TEST ILORAZU WIAROGODNOŚCI 

Przy pomocy testu χ porównuje się jakość dopasowania dwóch różnych modeli: modelu A oraz jego rozszerzenia B. O modelach tych zakładamy, że model B, jako rozszerzenie A,

jest lepiej dopasowany do danych empirycznych. W przypadku szacowania parametrów metodą największej wiarogodności (ML), test ten przeprowadzony może zostać po dowolnym rozszerzeniu modelu. Jednak w przypadku resztowej metody największej wiarogodności (REML) można go stosować tylko wówczas, jeżeli dodano parametr bądź parametry w losowej części modelu. W przeciwnym wypadku, czyli kiedy dokonano zmian w części stałej, zmienia się wyrażenie będące częścią objaśnianą w tej metodzie, zatem rozszerzonego modelu nie można traktować jako rozwinięcia modelu bazowego. Weryfikacja tej hipotezy sprowadza się do sprawdzenia, czy różnica w jakości obu modeli jest statystycznie istotna (por. Lin, 1997; Goldstein, 2003, Krzyśko, 2009). Tak więc hipoteza zerowa zakłada, że model B nie jest istotnie lepszy od modelu A. Natomiast hipoteza alternatywna głosi, że wiarogodność modelu B jest statystycznie istotnie wyższa niż wiarogodność modelu A (por. wzór (3.68)). Odrzucenie hipotezy zerowej świadczy o tym, że warto rozszerzyć model A do modelu B i przyjąć model B jako obowiązujący w dalszych analizach. W przypadku braku podstaw do odrzucenia hipotezy zerowej nie należy wprowadzać rozważanej zmiany do modelu A i pozostawić go obowiązującym w dalszych rozważaniach.

119 Układ hipotez:

H‡: σÀ = σÒ

H: σÀ > σÒS , (3.68)

gdzie:

σÀ – odchylenie standardowe składnika losowego modelu A,

σÒ – odchylenie standardowe składnika losowego modelu B.

W celu weryfikacji hipotezy zerowej stosuje się statystykę testową o następującej postaci:

χ = 2 ∗ lnLÒ− 2 ∗ lnLÀ , (3.69) gdzie:

LÀ - supremum funkcji wiarogodności w modelu A,

LÒ - supremum funkcji wiarogodności w modelu B.

Można wykazać, że tak wyznaczona statystyka, przy prawdziwości hipotezy zerowej ma rozkład χ, z liczbą stopni swobody obliczaną jako różnica pomiędzy liczbą parametrów szacowanych w modelu B a liczbą parametrów szacowaną w modelu A:

| !vpÒ− pÀ) , (3.70) gdzie:

pÀ - liczba parametrów szacowanych w modelu A,

pÒ - liczba parametrów szacowanych w modelu B.

Należy pamiętać, że na liczbę szacowanych elementów składa się suma długości wektora współczynników części stałej modelu o, długość wektora Õ, w skład którego wchodzą

wszystkie wariancje i kowariancje efektów losowych wchodzące w skład macierzy kowariancji efektów losowych oraz jeden parametr odpowiadający wariancji składnika resztowego, σ.

Obszar krytyczny, służący do weryfikacji powyższej hipotezy zerowej, jest więc następującej postaci:

B = ÆY: χ = 2 ∗ lnLÒ− 2 ∗ lnLÀ > χv1 − α; pÒ− pÀ)Ç , (3.71) gdzie:

- przyjęty poziom istotności,

χva; b) - wartość kwantyla rozkładu χ z b stopniami swobody z prawdopodobieństwa a.

W sytuacji, gdy statystyka testowa przyjmuje wartość należącą do obszaru krytycznego, hipotezę zerową odrzucamy na korzyść hipotezy alternatywnej. Oznacza to, że model B

120

charakteryzuje się istotnie lepszym od modelu A dopasowaniem do danych empirycznych.

KRYTERIA INFORMACJNE

Oprócz testu ilorazu wiarogodności, oceny poprawy modelu dokonać można w oparciu o liczne kryteria informacyjne. Są to charakterystyki modelu obliczane na podstawie jego wiarogodności oraz liczby szacowanych parametrów. Można je stosować zarówno w przypadku szacowania parametrów metodą największej wiarogodności jak i resztowej metody największej wiarogodności. Poniżej przedstawiono dwa najpopularniejsze kryteria informacyjne.

Kryterium informacyjne Akaike’a

Pierwszym z kryteriów opartych na funkcji wiarogodności jest kryterium informacyjne Akaike’a (AIC) (por. wzór (3.72)).

AIC = −2 ∗ lnvL& + 2 ∗ p , (3.72) gdzie:

– maksymalna wartość funkcji wiarogodności modelu, - liczba szacowanych w modelu parametrów.

Wysoka wartość funkcji wiarogodności informuje o dobrym dopasowaniu modelu. Ponieważ nadmierny wzrost liczby szacowanych parametrów uznawany jest za niekorzystny, kryterium AIC uwzględnia fakt, iż zbyt ich duża liczba obniża wartość modelu. Model z minimalną wartością AIC jest uznawany, według tego kryterium, za najlepiej dopasowany do danych (por. Sakamoto, Ishiguro, Kitagawa, 1986).

Bayesowskie kryterium informacyjne

Kolejnym kryterium pozwalającym ocenić jakość dopasowania modelu jest Bayesowskie kryterium informacyjne (BIC). Wartość jaką przyjmuje współczynnik BIC wyznacza się zgodnie ze wzorem (3.73) (por. Schwarz, 1978).

BIC = −2 ∗ lnvL& + lnvn& ∗ p , (3.73) gdzie:

– maksymalna wartość funkcji wiarogodności modelu, - liczba obserwacji w próbie (z pierwszego poziomu),

121

- liczba szacowanych w modelu parametrów.

Porównując kryterium BIC z AIC, można stwierdzić, że podobnie jak poprzednio uwzględnia ono dodatni wpływ wysokiej wartości funkcji wiarogodności modelu oraz ujemne oddziaływanie zbyt dużej liczby szacowanych parametrów. Jednak znaczenie liczby szacowanych parametrów uzależniono od liczebności próby. Uznano je za istotniejsze, gdy próba jest liczna, a za mniej istotne, gdy próba jest mała, co związane jest z czasem obliczeń. Ponieważ lnv7,4& ≈ 2, dla sytuacji gdy liczebność próby jest

większa bądź równa 8, kryterium BIC bardziej surowo „karze” model za zwiększoną liczbę szacowanych parametrów niż AIC. Oczywiście, tak jak w przypadku kryterium AIC, za najlepszy uznawany jest model o najmniejszym współczynniku BIC. Kryterium BIC jest znane również jako SBC (Kryterium Bayesowskie Schwarza).

122