Testy zgodności typu chi-kwadrat dla hipotezy złożonej

(1)

Anita Małoń (Wrocław)

Dagmara Ziółkowska (Wrocław)

Testy zgodności typu chi-kwadrat dla hipotezy złożonej

Streszczenie. Przeniesienie klasycznego testu zgodności chi-kwadrat na przypadek hipotezy złożonej rodzi szereg problemów związanych z estymacją nieznanych parametrów.

Jeden ze sposobów ich wyeliminowania zaproponowali Dzhaparidze i Nikulin. Ważną za- letą ich pomysłu jest możliwość użycia dość dowolnych estymatorów. Celem tego arty- kułu jest popularyzacja wspomnianego rozwiązania i przedstawienie pełnego, a równocze- śnie elementarnego dowodu o rozkładzie asymptotycznym statystyki testowej. Dodatkowo w pracy zostanie pokazane, że prezentowany test jest elementem ogólnej klasy testów wynikowych, co przemawia za jego dobrymi własnościami. Ponadto zostanie przedstawiony przykład implementacji testu dla testowania zgodności w rodzinie z parametrami przesu- nięcia i skali.

Słowa kluczowe: test chi-kwadrat, hipoteza złożona, √

n-zgodny estymator, statystyka Dzhaparidze-Nikulina, test wynikowy.

1. Wstęp. Jednym z zagadnień wnioskowania statystycznego, które czę- sto wykorzystuje się w praktyce, jest testowanie zgodności rozkładu obser- wowanego z pewnąparametrycznąrodzinąrozkładów. Stosuje się go w takich naukach jak: medycyna, ekonomia, bankowość, ﬁnanse oraz w wielu innych. Jest ono istotne, gdy potrzebujemy sprawdzić założenia dotyczące rozkładu pewnych danych. Dla przykładu, aby móc, przy pomocy uprosz- czonego wzoru na VaR (popularna miara ryzyka), obliczyć ryzykowność in- westycji w akcje jakiejś ﬁrmy musimy wiedzieć, że stopy zwrotu z tych akcji mająrozkład normalny. Aby to stwierdzić używa się testów zgodności.

Najstarszym, a równocześnie najbardziej popularnym testem zgodno- ści jest test chi-kwadrat Pearsona. Jego konstrukcja opiera się na podziale przestrzeni próby na rozłączne klasy oraz porównaniu empirycznych i teoretycznych liczebności w tychże klasach. Określenie liczebności teoretycznych wiąże się z koniecznością estymacji nieznanych parametrów proponowanej rodziny. Jednąz metod estymacji, zachowującej klasycznąpostać statystyki Pearsona, zaproponował Fisher w 1924 roku. Jednakże prowadzi ona do istotnych trudności w jawnym wyznaczaniu estymatorów i jest uciążliwa

[109]

(2)

w praktyce. Natomiast próby pewnych uproszczeń w metodzie Fishera mogą prowadzić do błędnych wniosków. Tymczasem Dzhaparidze i Nikulin (1974) rozwinęli pomysł Fishera i zaproponowali rozwiązanie atrakcyjne dla prak- tyka.

W tym artykule chcemy przybliżyć i spopularyzować podejście Dzhapa- ridze–Nikulina. W rozdziałach 2, 3 przedstawimy pełny i elementarny dowód twierdzenia o rozkładzie asymptotycznym statystyki testowej (twierdzenie 1) oraz wykażemy, że twierdzenie Fishera jest jego szczególnym przypadkiem.

Te rozdziały sąkluczowe i zawierająistotę rozwią zania Dzhaparidze–Ni- kulina. Następne stanowiąuzupełnienie głównego nurtu naszych rozważań i mogąbyć czytane w dowolnej kolejności bądź w ogóle opuszczone. W rozdziale 4 pokażemy, że test Dzhaparidze–Nikulina należy do ogólnej klasy testów wynikowych (ang. score tests), co tłumaczy m.in. dobre własności tych testów. Natomiast w rozdziale 5 wyprowadzimy wygodnądo obliczeń postać statystyki testowej dla rodziny z parametrem przesunięcia i skali.

2. Model,założenia i główne twierdzenie. Niech X

₁

, X

₂

, . . . , X

_n

będąniezależnymi zmiennymi losowymi o jednakowym rozkładzie P przyj- mującymi wartości w pewnej przestrzeni mierzalnej ( X , F) oraz niech

P

⁰

= {P

β

: β = [β

₁

, β

₂

, . . . , β

_q

]

^T

∈ Γ}

będzie rodzinąrozkładów prawdopodobieństwa na ( X , F), gdzie Γ jest otwartym podzbiorem przestrzeni R

^q

, a •

^T

oznacza transpozycję.

Rozważmy weryﬁkację prawdziwości hipotezy H

₀⁰

orzekającej, że rozkład P należy do rodziny P

⁰

przy nieznanej wartości parametru β. Naśladując podejście Pearsona, prowadzące do konstrukcji statystyki testowej poprzez kategoryzację danych, rozważmy pewien ustalony podział przestrzeni X na rozłączne, mierzalne podzbiory A

₁

, A

₂

, . . . , A

_m

, gdzie m > q + 1. Oznaczmy p

_j

(β) = P

_β

(X

₁

∈ A

j

), j = 1, 2, . . . , m, oraz p(β) = [p

₁

(β), p

₂

(β), . . . , p

_m

(β)]

^T

odpowiadający im wektor prawdopodobieństw. Oczywiście, jeśli β ∈ Γ, to zachodzi

(1)

m j=1

p

_j

(β) = 1.

Niech

P =

p(β) = [p

₁

(β), p

₂

(β), . . . , p

_m

(β)]

^T

: β ∈ Γ

oznacza rodzinę wektorów prawdopodobieństw wyznaczonych przez rodzinę

P

⁰

i wybór podzbiorów A

₁

, A

₂

, . . . , A

_m

. Analogicznie przyjmijmy, że

p

_j

= P (X

₁

∈ A

j

), j = 1, 2, . . . , m, oraz p = [p

₁

, p

₂

, . . . , p

_m

]

^T

oznacza wektor

prawdopodobieństw nieznanego rozkładu P, z którego pochodząobserwacje.

(3)

W omawianym podejściu testowanie H

⁰₀

zastępuje się weryﬁkacjąhipotezy H

0

: p ∈ P przeciwko H

1

: p / ∈ P.

Oznaczmy przez N = [N

₁

, N

₂

, . . . , N

_m

]

^T

wektor liczebności empirycznych, gdzie N

_j

jest liczbąobserwacji należą cych do zbioru A

_j

dla j = 1, 2, . . . , m, tzn. N

_j

= card{i : X

_i

∈ A

_j

, i = 1, 2, . . . , n}. Zauważmy, że

_m

j=1

N

_j

= n.

Klasyczna statystyka Pearsona ma postać

(2) S = ¯

m j=1

N

_j

− np

j

( ¯ β)

₂

np

_j

( ¯ β) ,

gdzie ¯ β jest pewnym estymatorem nieznanego parametru β. Fisher (1924) udowodnił, że wybór estymatora ¯ β ma wpływ na rozkład asymptotyczny statystyki ¯ S. Wykazał też, że jeśli β jest estymatorem największej wiaro- godności po zgrupowaniu danych, to odpowiadająca mu statystyka S dana wzorem (2) ma rozkład asymptotyczny chi-kwadrat z m − q − 1 stopniami swobody. Dzhaparidze i Nikulin (1974), kosztem bardziej skomplikowanej postaci statystyki, zaproponowali ogólniejsze podejście opierające się na dość dowolnym estymatorze parametru β. Poniżej przedstawimy szczegółowo roz- wiązanie Dzhaparidze–Nikulina wykorzystując algebraiczne metody po czę- ści oparte na pomyśle Raynera i Besta (1989).

Do dalszych rozważań załóżmy, że rodzina P spełnia pewne warunki regularności. Wyrazimy je w języku wektora p(β). Załóżmy więc, że wektor p(β) spełnia dla każdego β ∈ Γ następujące warunki:

(A) p

_j

(β) > 0 dla j = 1, 2, . . . , m;

(B) ∂p

_j

(β)

∂β

_u

, j = 1, 2, . . . , m, u = 1, 2, . . . , q, istniejąi sąciągłe ze względu na β;

(C) macierz B = B(β) =

1 p

_j

(β)

∂p

_j

(β)

∂β

_u

q×m

jest rzędu q.

Przez D = D(β) = diag[p

_j

(β)] oznaczmy macierz diagonalną, w której na głównej przekątnej znajdują się prawdopodobieństwa p

_j

(β) dla każdego j = 1, 2, . . . , m, oraz przez I

_k

macierz jednostkowąrzędu k. Z kolei niech 1 oznacza m-wymiarowy wektor kolumnowy składający się z samych jedynek.

Przy tak wprowadzonych oznaczeniach łatwo zauważyć, że różniczkując względem β obie strony (1), otrzymujemy relację

(3) BD

^−1/2

p(β) = BD

^−1/2

D1 = 0.

Jest oczywiste, że estymator ¯ β nie może być całkiem dowolny i również

powinien mieć odpowiednio „dobre” własności. Poniższa deﬁnicja precyzuje

(4)

własność estymatora, która jest stosunkowo prosta do sprawdzenia i jest spełniona dla bardzo obszernej klasy estymatorów.

Definicja 1. Mówimy, że β = T (X

₁

, X

₂

, . . . , X

_n

) jest √

n-zgodnym estymatorem parametru β, jeśli dla każdego β ∈ Γ cią g { √

n( β − β)} jest ograniczony według prawdopodobieństwa P

_β

, czyli

∀β ∈ Γ ∀η > 0 ∃M = M(β, η) > 0 ∃n

0

= n

₀

(β, η) ∀n ≥ n

0

P

_β

√

n β − β > M) ≤ η, gdzie · oznacza normę euklidesowąw R

^q

.

Poniższe twierdzenie stanowi główny wynik artykułu i zawiera istotę po- dejścia Dzhaparidze-Nikulina.

Twierdzenie 1. Niech β będzie √

n-zgodnym estymatorem parametru β, oraz niech spełnione będą założenia (A), (B), (C). Ponadto niech p = p( β), D = D( β), B = B( β) będą estymatorami odpowiednich wielkości. Wtedy przy prawdziwości hipotezy H

0

statystyka

(4) S =

N √ − np n

_T

D

⁻¹

− D

^−1/2

B

^T

B B

^T

₋₁

B D

^−1/2

N √ − np n

ma asymptotyczny rozkład chi-kwadrat z m − 1 − q stopniami swobody.

Statystyka S dana wzorem (4) jest nazywana statystykąDzhaparidze- Nikulina i może być użyta jako statystyka testowa hipotezy H

₀

. Jej zaletą jest to, że dopuszcza użycie dowolnego √

n-zgodnego estymatora, nie wyma- gając ograniczenia się do estymatorów szczególnej postaci, takich jak esty- matory największej wiarogodności czy największej wiarogodności po zgrupowaniu danych.

Dzhaparidze i Nikulin w pracy z 1974 roku podali dowód tezy twierdzenia 1, tj. zbieżności S do rozkładu chi-kwadrat. Przyjęli oni jednak założenia typu Cramera, znacznie mocniejsze od warunków (A), (B), (C). Podobne twierdzenie znajduje się również w książce Greenwood i Nikulina (1996). Do- wód przedstawiony przez nich polega na użyciu rozwinięcia Taylora i rozwa- żaniach analitycznych związanych z szacowaniem reszty i wymianą β na β.

Natomiast dowód, który przedstawimy w następnym rozdziale stosuje metody algebraiczne i jest bardziej elementarny.

3. Dowód twierdzenia 1. Zanim przystąpimy do właściwego dowodu twierdzenia 1 przedstawimy kilka pomocniczych lematów oraz twierdzenie 2.

Dla u = 1, 2, . . . , q, β ∈ Γ, rozważmy wektory

∂log p(β)

∂β

_u

=

∂log p

₁

(β)

∂β

_u

, ∂log p

₂

(β)

∂β

_u

, . . . , ∂log p

_m

(β)

∂β

_u

_T

.

(5)

Macierz utworzona z wektorów ∂log p(β)

∂β

₁

T

, ∂log p(β)

∂β

₂

T

, . . . , ∂log p(β)

∂β

_q

T

jest postaci BD

^−1/2

. Zatem dzięki założeniom (A) i (C) ma rzą d q. Oznacza to, że powyższy układ wektorów jest dla każdego β liniowo niezależny w R

^m

. Dla każdego ustalonego β ∈ Γ rozważmy iloczyn skalarny w przestrzeni R

^m

określony wzorem v

^T₁

D(β)v

₂

dla v

₁

, v

₂

∈ R

^m

. Z (3) wynika, że

∂log p(β)

^T

∂β

_u

D(β)1 = 0 dla u = 1, 2, . . . , q, czyli że wektory ∂log p(β)

∂β

_u

sąor- togonalne do wektora 1 w rozpatrywanym iloczynie skalarnym. Wybierzmy teraz m − 1 − q wektorów w

1

(β), w

₂

(β), . . . , w

_m−1−q

(β) przestrzeni R

^m

, które sąortonormalne w powyższym iloczynie skalarnym, a ponadto sąor- togonalne do wektora 1 oraz do każdego z wektorów ∂log p(β)

∂β

_u

. W ten sposób stanowiąone uzupełnienie układu wektorów

1, ∂log p(β)

∂β

₁

, ∂log p(β)

∂β

₂

, . . . , ∂log p(β)

∂β

_q

do bazy przestrzeni R

^m

. Oczywiste jest to, że wybór wektorów w

₁

(β), w

₂

(β), . . . , w

_m−1−q

(β) nie jest jednoznaczny. Niech W = W(β) będzie macierzą wymiaru (m−1−q)×m, w której w

_i

(β)

^T

, i = 1, 2, . . . , m−1−q, są kolejnymi wierszami. Ze sposobu określenia wektorów w

₁

(β), w

₂

(β), . . . , w

_m−1−q

(β) wynika szereg własności macierzy W(β), które zebrane sąw poniższym le- macie.

Lemat 1. Dla każdego β ∈ Γ spełnione są następujące relacje:

WDW

^T

= I

_m−1−q

, (5)

WD1 = Wp(β) = 0, (6)

WD

^1/2

B

^T

= WD

BD

^−1/2

_T

= 0.

(7)

Sposób doboru macierzy W oraz pomysł dowodu poniższego lematu 2 został zaczerpnięty z książki Raynera i Besta (1989), rozdz. 7. Lemat ten stanowić będzie istotny krok w dowodzie twierdzenia 2.

Lemat 2. Macierz W

^T

W daje się wyrazić w postaci : (8) W

^T

W = D

⁻¹

− D

^−1/2

B

^T

BB

^T

₋₁

BD

^−1/2

− 11

^T

.

Dowód. Dla każdego β rozważmy macierz W

^∗

= W

^∗

(β) wymiaru m ×m danąw postaci blokowej

W

^∗

=



 W

1

^T

BB

^T

_−1/2

BD

^−1/2



 .

(6)

Wówczas korzystając z lematu 1 oraz z relacji (3) mamy W

^∗

DW

^∗^T

=



 W

1

^T

BB

^T

_−1/2

BD

^−1/2



 D W

^T

1 D

^−1/2

B

^T

BB

^T

_−1/2

=



 

WDW

^T

WD1 WD

^1/2

B

^T

BB

^T

_−1/2

1

^T

D1 1

^T

D

^1/2

B

^T

BB

^T

_−1/2

BB

^T

_−1/2

BD

^−1/2

DD

^−1/2

B

^T

BB

^T

_−1/2



 = I

m

.

W macierzy z ostatniej linii powyższych równości, ze względu na jej symetrię, zostały pominięte elementy pod przekątną. Z powyższej relacji wynika, że macierz W

^∗

jest nieosobliwa, a D =

W

^∗

₋₁

W

^∗^T

₋₁

. Stąd D

⁻¹

= W

^∗^T

W

^∗

=

W

^T

1 D

^−1/2

B

^T

BB

^T

_−1/2



 W

1

^T

BB

^T

_−1/2

BD

^−1/2





= W

^T

W + 11

^T

+ D

^−1/2

B

^T

BB

^T

₋₁

BD

^−1/2

.

To kończy dowód.

Zanim przedstawimy twierdzenie 2, udowodnimy jeszcze jeden lemat.

Lemat 3. Dla każdego β ∈ Γ wektor losowy N − np(β) √

n spełnia warunki : N − np(β) √

n

_T

1 = 0, (9)

E

_β

N − np(β) √ n

= 0, (10)

E

_β

N − np(β) √ n

_T

= D − p(β)p(β)

^T

, (11)

gdzie E

_β

oznacza wartość oczekiwaną względem rozkładu P

_β

. Dowód. Mamy

N − np(β) √ n

_T

1 = 1

√ n

N

^T

1 − np(β)

^T

1 = 1

√ n





^m

j=1

N

_j

− n

m j=1

p

_j

(β)



 = 0,

co dowodzi (9).

(7)

Dla dowodu (10) i (11) zapiszmy wektor N − np(β) √

n jako sumę niezależ- nych wektorów losowych o tym samym rozkładzie

N − np(β) √

n = 1

√ n

n i=1



 



1

_A₁

(X

_i

) − p

1

(β) 1

_A₂

(X

_i

) − p

₂

(β)

.. .

1

_A_m

(X

_i

) − p

_m

(β)



 

 ,

gdzie 1

_A

( ·) jest funkcjącharakterystycznązbioru A.

Ponieważ E

_β

1

_A_j

(X

_i

) = p

_j

(β) dla wszystkich i, j, to własność (10) jest spełniona. Z kolei z niezależności zmiennych X

₁

, X

₂

, . . . , X

_n

mamy

E

_β

N − np(β) √ n

_T

rs

=

= E

_β

(1

_A_r

(X

₁

) − p

r

(β)) (1

_A_s

(X

₁

) − p

s

(β)) = p

_r

(β)δ

_rs

− p

r

(β)p

_s

(β), gdzie δ

_rs

jest deltąKroneckera, a [ •]

rs

oznacza rs-ty element macierzy •. To

dowodzi równości (11).

Udowodnimy teraz pomocnicze twierdzenie 2, które będzie punktem wyj- ścia do dowodu twierdzenia 1.

Twierdzenie 2. Jeśli spełnione są założenia (A), (B), (C), s. 111, to przy prawdziwości H

0

statystyka testowa

(12) S =

N − np(β) √ n

_T

D

⁻¹

− D

^−1/2

B

^T

BB

^T

₋₁

BD

^−1/2

N − np(β) √ n

ma asymptotyczny rozkład chi-kwadrat z m − 1 − q stopniami swobody.

Dowód. Korzystając z lematu 3 oraz z wielowymiarowego centralnego twierdzenia granicznego (por. Billingsley 1987, str. 383) otrzymujemy

N − np(β) √ n

−→ N

D

0 , D − p(β)p(β)

^T

względem rozkładu P

_β

. W konsekwencji mamy

W

N − np(β) √ n

−→ N

D

0 , W[D − p(β)p(β)

^T

]W

^T

względem rozkładu P

_β

. Z lematu 1 dostajemy

W

D − p(β)p(β)

^T

W

^T

= WDW

^T

− Wp(β)p(β)

^T

W

^T

= I

_m−1−q

, więc

W

N − np(β) √ n

−→ N

D

0 , I

_m−1−q

(8)

względem rozkładu P

_β

. Kwadrat normy euklidesowej jest funkcjąciągłą , więc statystyka testowa

N − np(β) √ n

T

W

^T

W

N − np(β) √ n

ma rozkład asymptotyczny chi-kwadrat z m − 1 − q stopniami swobody względem P

_β

. Dzięki postaci macierzy W

^T

W danej wzorem (8) oraz z wła-

sności (9) otrzymujemy (12).

Udowodnione powyżej lematy i twierdzenie pozwalajądowieść prawdzi- wości twierdzenia 1.

Dowód twierdzenia 1. Niech β będzie √

n-zgodnym estymatorem parametru β oraz niech p = p( β). Korzystając z twierdzenia o różniczce mamy

p

_j

( β) = p

_j

(β) + ∂p

_j

(β)

∂β

T

( β − β) + r

jn

(β), gdzie r

_jn

(β)

|| β − β||

Pβ

−→ 0.

Zapisując powyższe równanie macierzowo i mnożąc obustronnie przez √ n dostajemy

(13) √

n(p − p(β)) = D

^1/2

B

^T

√

n( β − β) + √ nr

_n

, gdzie r

_n

= [r

_1n

(β), r

_2n

(β), . . . , r

_mn

(β)]

^T

.

Podstawiając do statystyki S, danej wzorem (12) estymator p

_j

( β) otrzymujemy statystykę S

^∗

postaci:

S

^∗

=

N √ − np n

_T

Q

N √ − np n

= S −

N − np(β) √ n

_T

Q √

n ( p − p(β))

− √

n (p − p(β))

^T

Q

N − np(β) √

n − √

n (p − p(β))

, gdzie Q = D

⁻¹

− D

^−1/2

B

^T

BB

^T

₋₁

BD

^−1/2

.

Oznaczmy drugi składnik powyższej sumy jako S

₁

, a trzeci jako S

₂

. Rozważmy najpierw S

₂

. Korzystając z (13) mamy

S

₂

= √ n

β − β

_T

BD

^−1/2

− BD

^−1/2

N − np(β) √

n − √

n ( p − p(β))

+ √ nr

^T_n

Q

N − np(β) √

n − √

n (p − p(β))

.

Zauważmy, że w powyższej sumie pierwszy składnik zeruje się. Z deﬁnicji

√ n-zgodnego estymatora otrzymujemy, że wektor √

n ( p − p(β)) jest ogra-

niczony według prawdopodobieństwa P

_β

. Podobnie z dowodu twierdzenia 2

(9)

mamy, że N − np(β) √

n jest ograniczony według prawdopodobieństwa P

_β

. Ponieważ wyrażenie Q jest stałe i zachodzi √

nr

_n

= √

n|| β − β|| r

_n

|| β − β||

P_β

−→ 0, to dostajemy S

2 P_β

−→ 0. Analogicznie dowodzimy, że S

1 P_β

−→ 0. W re- zultacie otrzymujemy S

^∗

− S −→ 0.

^P^β

Niech teraz D = D( β), B = B( β). Z ciągłości funkcji p

_j

(β), ∂p

_j

(β)

∂β oraz ze zgodności β otrzymujemy, że D, B sąestymatorami zgodnymi macierzy D i B odpowiednio. Podstawiając je do S

^∗

dostajemy statystykę

S =

N √ − np n

_T

D

⁻¹

− D

^−1/2

B

^T

B B

^T

₋₁

B D

^−1/2

N √ − np n

. Niech

∆ = D

⁻¹

− D

^−1/2

B

^T

B B

^T

B D

^−1/2

− D

⁻¹

+ D

^−1/2

B

^T

BB

^T

BD

^−1/2

. Z ciągłości operacji na macierzach wynika, że ∆ −→ 0. Stąd i z ograniczenia

^P^β

według P

_β

wektora N √ − np

n wynika S − S

^∗

=

N √ − np n

_T

∆

N √ − np n

−→ 0.

Pβ

Zatem S − S = S − S

^∗

+

S

^∗

− S

_P

−→ 0. Ponieważ z twierdzenia 2

β

wynika, że S −→ χ

^D ²_m−1−q

względem P

_β

, gdzie χ

²_m−1−q

jest zmiennąlosową o rozkładzie chi-kwadrat z m −1−q stopniami swobody, to teza twierdzenia 1

została wykazana.

Z twierdzenia 1 wynika następujący wniosek.

Wniosek 1. Załóżmy, że wektor prawdopodobieństw p(β) spełnia (A), (B), (C). Niech β będzie pewnym √

n-zgodnym estymatorem parametru β i niech p = p( β), D = D( β), B = B( β) będą estymatorami odpowiednich wielkości. Jeśli

(14) B D

^−1/2

N = 0,

to przy prawdziwości H

0

statystyka

(15) S =

N √ − np n

_T

D

⁻¹

N √ − np n

ma asymptotyczny rozkład chi-kwadrat z m − 1 − q stopniami swobody.

(10)

Dowód. Z (3) i (14) wynika, że

D

^−1/2

B

^T

B B

^T

₋₁

B D

^−1/2

N √ − np n

= 0.

Dzięki temu statystyka Dzhaparidze–Nikulina dana wzorem (4) redukuje się

do postaci (15).

Mówimy, że estymator β parametru β jest estymatorem największej wia- rogodności po zgrupowaniu danych, jeśli maksymalizuje logarytm funkcji wiarogodności po zgrupowaniu danych, tj. l(β) = const+

_m

j=1

N

_j

log p

_j

(β).

Zauważmy, że prawdziwy jest następujący lemat.

Lemat 4. Jeśli (A), (B) są spełnione oraz estymator największej wiaro- godności po zgrupowaniu danych β parametru β istnieje, to

(16) B D

^−1/2

N = 0,

gdzie B = B( β), D = D( β).

Dowód. Niech l(β) = const+

_m

j=1

N

_j

log p

_j

(β) będzie logarytmem funkcji wiarogodności po zgrupowaniu danych. Wtedy dzięki założeniom (A) i (B)

0 =

∂l

β

∂β

_u

=

m j=1

N

_j

∂log p

_j

( β)

∂β

_u

=

m j=1

N

_j

p

_j

( β)

⁻¹

∂p

_j

( β)

∂β

_u

=

m j=1

N

_j

p

_j

( β)

^−1/2

p

_j

( β)

^−1/2

∂p

_j

( β)

∂β

_u

dla u = 1, 2, . . . , q. Powyższa relacja w zapisie macierzowym oznacza rów-

ność (16).

Z powyższego wniosku oraz lematu wynika, że przy pewnych założeniach statystyki Pearsona i Dzhaparidze–Nikulina sąsobie równe. Co więcej dzięki wnioskowi widzimy, że aby móc zastosować statystykę danąwzorem (15) nie jest konieczne wyznaczanie estymatora największej wiarogodności po zgrupowaniu danych, ale wystarczy by √ n−zgodny estymator miał wła- sność (14). Jest to łatwiejsze do sprawdzenia niż warunki istnienia estymatora β.

4. S jako statystyka wynikowa. Ten i następny rozdział mającharak- ter uzupełniający w stosunku do trzech poprzednich i mogą być pominięte.

Jednakowoż stanowiąone interesujące i ważne dopełnienie dotychczasowych rozważań.

W tym rozdziale pokażemy, iż statystyka Dzhaparidze–Nikulina dana

wzorem (4) znajduje uzasadnienie w teorii testów wynikowych. Dla odpo-

(11)

wiednio zdeﬁniowanego problemu testowania S można zidentyﬁkować jako statystykę wynikową(ang. score statistic). Podobne twierdzenie można zna- leźć w książce Raynera i Besta (1989), jednak ich dowód zawiera błędy i jest dość zagmatwany.

Teorię oraz niezbędne pojęcia dotyczące statystyk wynikowych można znaleźć na przykład w książkach Cox i Hinkley (1974) oraz Sen i Singer (1993).

Zanurzmy badanąrodzinę P w pewnej szerszej rodzinie parametrycznej wektorów prawdopodobieństw

Π =

π(θ, β) = [π

₁

(θ, β), π

₂

(θ, β), . . . , π

_m

(θ, β)]: θ ∈ R

^m−1−q

, β ∈ Γ , gdzie Γ jest otwartym podzbiorem przestrzeni R

^q

. Dla j = 1, . . . , m (17) π

_j

= π

_j

(θ, β) = C(θ, β) exp {

m−1−q

i=1

θ

_i

w

_ij

(β) }p

j

(β),

gdzie C(θ, β) jest stałą normującą, θ = [θ

₁

, θ

₂

, . . . , θ

_m−1−q

]

^T

jest wektorem parametrów rzeczywistych, β = [β

₁

, β

₂

, . . . , β

_q

]

^T

wektorem parametrów zakłócających, a w

_ij

(β) dla i = 1, . . . , m − 1 − q oraz j = 1, . . . , m są elementami macierzy W = W(β) zdeﬁniowanej w rozdziale 3 przed sfor- mułowaniem lematu 1. Załóżmy ponadto, że dla wszystkich i, j, u oraz θ ∈ R

^m−1−q

, β ∈ Γ istniejąpochodne ∂w

_ij

(β)

∂β

_u

.

Przypuśćmy, że niezależne obserwacje X

₁

, X

₂

, . . . , X

_n

mająpo zgrupowaniu wektor prawdopodobieństw p należący do rodziny Π. Wtedy testowanie H

0

: p ∈ P jest równoważne z testowaniem hipotezy parametrycznej H

^∗₀

: θ = 0, β ∈ Γ, dla której β jest parametrem zakłócającym. Oznaczmy przez l(θ, β) logarytm funkcji wiarogodności po zgrupowaniu danych, gdzie θ ∈ R

^m−1−q

, β ∈ Γ. Funkcja ta wyraża się wzorem

l(θ, β) = const +

m j=1

N

_j

log π

_j

(θ, β).

Dla skrócenia zapisu będziemy pisać l zamiast l(θ, β).

Zanim wyznaczymy statystykę wynikowądla testowania H

^∗₀

w rodzinie Π, udowodnimy pomocniczy lemat.

Lemat 5. Prawdziwe są następujące relacje:

(18)

m j=1

∂π

_j

(θ, β)

∂θ

_r

= 0 ∀r = 1, 2, . . . , m − 1 − q, (19)

m j=1

∂π

_j

(θ, β)

∂β

_u

= 0 ∀u = 1, 2, . . . , q,

(12)

(20) ∂log C(θ, β)

∂θ

_r

= −

m j=1

w

_rj

(β)π

_j

(θ, β) ∀r = 1, 2, . . . , m − 1 − q,

(21) ∂log C(θ, β)

∂β

_u

θ=0

= 0 ∀u = 1, 2, . . . , q.

Dowód. Z oczywistej relacji

_m

j=1

π

_j

(θ, β) = 1 wynika dowód równo- ści (18) i (19). W celu pokazania własności (20) zlogarytmujmy obustronnie (17), otrzymując

log π

_j

(θ, β) = log C(θ, β) +

m−1−q

i=1

θ

_i

w

_ij

(β) + log p

_j

(β).

Następnie różniczkując obustronnie to wyrażenie względem θ

_r

, otrzymamy (22) ∂π

_j

(θ, β)

∂θ

_r

= π

_j

(θ, β)

∂log C(θ, β)

∂θ

_r

+ w

_rj

(β)

. Sumując względem j oraz wykorzystując relację (18), dostajemy

0 = ∂log C(θ, β)

∂θ

_r

+

m j=1

w

_rj

(β)π

_j

(θ, β) co dowodzi (20).

Dowód (21) wynika wprost z faktu, że C(θ, β) = 1 dla każdego β ∈ Γ

oraz θ = 0.

Twierdzenie 3. Niech β będzie √

n-zgodnym estymatorem parametru β oraz niech będą spełnione założenia (A), (B ), (C ). Wtedy statystyka wynikowa dla testowania H

₀^∗

: θ = 0, β ∈ Γ, przeciw H

^∗₁

: θ = 0, β ∈ Γ, w rodzinie Π, jest postaci (4 ), czyli

S =

N √ − np n

_T

D

⁻¹

− D

^−1/2

B

^T

B B

^T

₋₁

B D

^−1/2

N √ − np n

, gdzie p = p( β), Σ = Σ( β), B = B( β), D = D( β) są estymatorami odpowiednich wielkości.

Dowód. W celu wyznaczenia wektora wynikowego dla rodziny Π zróż- niczkujmy l względem θ

_r

i korzystając z (20) i (22), otrzymamy

∂l

∂θ

_r

=

m j=1

N

_j

∂ log C(θ, β)

∂θ

_r

+ w

_rj

(β)

=

m j=1

w

_rj

(β) (N

_j

− nπ

j

(θ, β)) .

Jeśli H

^∗₀

jest prawdziwa, tzn. π

_j

(θ, β) = p

_j

(β), to powyższa równość w za-

(13)

pisie macierzowym przyjmuje postać

˙l

_θ

= ∂l

∂θ

θ=0

= W(N − np(β)).

Różniczkowanie l względem β

_u

w punkcie θ = 0 oraz korzystając z (19), (21), dostajemy

∂l

∂β

_u

θ=0

=

m j=1

∂ log p

_j

(β)

∂β

_u

N

_j

=

m j=1

1 p

_j

(β)

∂p

_j

(β)

∂β

_u

(N

_j

− np

j

(β)).

W zapisie macierzowym daje to

˙l

_β

= ∂l

∂β

θ=0

= BD

^−1/2

(N − np(β)) . A zatem wektor wynikowy ma następującą postać (23) ˙l =

(N − np(β))

^T

W

^T

(N − np(β))

^T

D

^−1/2

B

^T

_T

. Niech

K =

K

_θθ

K

_θβ

K

_βθ

K

_ββ

będzie macierząkowariancji, w postaci blokowej, unormowanego wektora wynikowego 1

√ n

˙l

_θ

, ˙l

_β

_T

, dla testowania H

^∗₀

w rodzinie Π. Korzystając z wzorów (3), (5), (6), (7), i (11), otrzymujemy

K

_θθ

= 1 n Cov

_β

˙l

_θ

, ˙l

_θ

= WDW

^T

− Wpp

^T

W

^T

= I

_m−1−q

; K

_θβ

= 1

n Cov

_β

˙l

_θ

, ˙l

_β

= W

D − pp

^T

D

^−1/2

B

^T

= WD

^1/2

B

^T

= 0;

K

_ββ

= 1 n Cov

_β

˙l

_β

, ˙l

_β

= BD

^−1/2

DD

^−1/2

B

^T

− BD

^−1/2

pp

^T

D

^−1/2

B

^T

= BB

^T

,

gdzie Cov

_β

oznacza kowariancję względem rozkładu P

_β

. Zatem unormowana efektywna funkcja wynikowa ma postać

l

^∗

= 1

√ n

˙l

_θ

− K

θβ

K

⁻¹_ββ

˙l

_β

= 1

√ n ˙l

_θ

= W N − np(β) √

n .

Z kolei macierz kowariancji wektora l

^∗

wyraża się wzorem Σ = K

_θθ

− K

θβ

K

⁻¹_ββ

K

_βθ

= I

_m−1−q

.

Ogólna postać statystyki wynikowej to S(β) = l

^∗T

Σ

⁻¹

l

^∗

wyliczona w punk-

(14)

cie β. W naszym przypadku otrzymujemy S(β) =

N − np(β) √ n

_T

W

^T

W

N − np(β) √ n

.

Korzystając z postaci macierzy W

^T

W danej wzorem (8) oraz z własno- ści (9), otrzymujemy

S(β) =

N − np(β) √ n

_T

D

⁻¹

− D

^−1/2

B

^T

BB

^T

₋₁

BD

^−1/2

N − np(β) √ n

. A zatem

S( β) = S =

N √ − np n

_T

D

⁻¹

− D

^−1/2

B

^T

B B

^T

₋₁

B D

^−1/2

N √ − np n

, co pokrywa się z postacią(4) i kończy dowód. Powyższe twierdzenie pokazuje, że statystyka testowa Dzhaparidze–Ni- kulina wpisuje się w teorię testów wynikowych. Dzięki temu możemy wnio- skować, że test oparty na niej jest lokalnie asymptotycznie optymalny dla alternatyw pochodzących z rodziny Π.

5. Przykład. Dla zilustrowania praktycznego zastosowania testu chi- kwadrat opartego na statystyce danej wzorem (4) rozważmy typowe zagad- nienie testowania zgodności w rodzinie z parametrami przesunięcia i skali, obejmujące w szczególności problem testowania normalności.

Niech f

₀

będzie gęstościąprawdopodobieństwa, dodatniąna R, a F

₀

odpowiadającą jej dystrybuantą. Rozważmy rodzinę rozkładów

P

⁰

=

!

P

_µ,σ

: dP

_µ,σ

dx = 1

σ f

₀

x − µ σ

, µ ∈ R, σ ∈ R

⁺

"

i testowanie hipotezy H

⁰₀

: P ∈ P

⁰

. W tym przypadku parametr zakłócający β jest dwuwymiarowy i ma postać β = [µ, σ]

^T

∈ Γ = R × (0, ∞). Przyj- mijmy, że podzbiory A

₁

, A

₂

, . . . , A

_m

, m > 3, sąwyznaczone przez przedziały ( −∞, a

1

], (a

₁

, a

₂

], . . . , (a

_m−1

, ∞), gdzie a

1

< a

₂

< . . . < a

_m−1

. Wówczas, utrzymując oznaczenia z rozdziałów 2, 3, mamy

(24) p

_j

(µ, σ) = F

₀

a

_j

− µ σ

− F

0

a

_j−1

− µ σ

, j = 2, 3, . . . , m − 1 oraz

(25) p

₁

(µ, σ) = F

₀

a

₁

− µ σ

, p

_m

(µ, σ) = 1 − F

0

a

_m−1

− µ σ

.

(15)

W konsekwencji dla j = 2, 3, . . . , m − 1 otrzymujemy

∂p

_j

(µ, σ)

∂µ = − 1 σ

# f

₀

a

_j

− µ σ

− f

0

a

_j−1

− µ σ

$ ,

∂p

_j

(µ, σ)

∂σ = − 1 σ

# a

_j

− µ σ f

₀

a

_j

− µ σ

− a

_j−1

− µ σ f

₀

a

_j−1

− µ σ

$ , oraz

∂p

₁

(µ, σ)

∂µ = − 1 σ f

₀

a

₁

− µ σ

,

∂p

_m

(µ, σ)

∂µ = − 1 σ

#

−f

0

a

_m−1

− µ σ

$ ,

∂p

₁

(µ, σ)

∂σ = − 1 σ

# a

₁

− µ σ f

₀

a

₁

− µ σ

$ ,

∂p

_m

(µ, σ)

∂σ = − 1 σ

#

− a

_m−1

− µ σ f

₀

a

_m−1

− µ σ

$ . Niech X

₁

, X

₂

, . . . , X

_n

będzie próbą, natomiast µ, σ ustalonymi √

n-zgodnymi estymatorami parametrów µ, σ w rodzinie P

⁰

. Ponadto niech N = [N

₁

, N

₂

, . . . , N

_m

]

^T

będzie wektorem liczebności empirycznych w przyjętych klasach. Dla uproszczenia przyjmijmy b

_j

= a

_j

− µ

σ (j = 1, 2, . . . , m −1) oraz p

j

= p

_j

( µ, σ) (j = 1, 2, . . . , m). Zdeﬁniujmy również następujące wektory w przestrzeni R

^m

:

u =

N

₁

− np

1

n p

1

, N

₂

− np

2

n p

2

, . . . , N

_m

− np

m

n p

m

_T

= D

^−1/2

N √ − np n

, (26)

v =

f

₀

(b

₁

)

p

1

, f

₀

(b

₂

) − f

0

(b

₁

) p

2

, . . . , −f

0

(b

_m−1

) p

m

_T

, (27)

w =

b

₁

f

₀

(b

₁

)

p

₁

, b

₂

f

₀

(b

₂

) − b

1

f

₀

(b

₁

)

p

₂

, . . . , −b

m−1

f

₀

(b

_m−1

) p

m

_T

. (28)

Wówczas macierz B, wymiaru 2 × m, ma postać B = − 1 σ

# v w

$

. Stąd dostajemy

( B B

^T

)

⁻¹

= σ

²

v

²

w

²

− (v

^T

w)

²

# w

²

−v

^T

w

−v

^T

w v

²

$ ,

gdzie · oznacza normę euklidesowąw R

^m

. Ponadto mamy, że B D

^−1/2

N √ − np

n =

# u

^T

v u

^T

w

$

. A zatem ostatecznie statystyka S dana wzo-

(16)

rem (4) daje się zapisać w następującej, wygodnej do obliczeń, postaci (29) S = u

²

− v

²

(w

^T

u)

²

+ w

²

(v

^T

u)

²

− 2(v

^T

w)(v

^T

u)(w

^T

u)

v

²

w

²

− (v

^T

w)

²

. Zauważmy, że u

²

ma tę samąpostać co klasyczna statystyka Pearsona dana wzorem (2).

Powyższy artykuł powstał na podstawie naszej pracy magisterskiej napi- sanej pod opiekądr hab. T. Inglota, któremu jesteśmy bardzo wdzięczne za wsparcie, liczne dyskusje oraz inspirujące komentarze. Serdecznie dzię- kujemy również prof. dr hab. T. Ledwinie za cenne uwagi oraz za pomoc w uzyskaniu niektórych potrzebnych artykułów.

Literatura cytowana

[1] P. Billingsley (1987), Prawdopodobieństwo i miara, PWN, Warszawa.

[2] D. R. Cox, D. V. Hinkley (1974), Theoretical Statistics, Chapman and Hall, London.

[3] K. O. Dzhaparidze, M. S. Nikulin (1974), On a modiﬁcation of the standard statistic of Pearson, Theor. Prob. Appl., 19, 851–853.

[4] R. A. Fisher (1924), The conditions under which χ

²

measures the discrepancy be- tween observation and hypothesis, J. R. Statist. Soc. 87, 442–450.

[5] P.E. Greenwood, M.S. Nikulin (1996), A Guide to Chi-Squared Testing, Wiley, New York.

[6] K. Pearson (1900), On the criterion that a given system of deviation from the pro- bable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling, Phil. Mag. 50(5), 157–172.

[7] J. C. W. Rayner, D. J. Best (1989), Smooth Tests of Goodness of Fit, Oxford Univ.

Press, New York.

[8] P. K. Sen, J. M. Singer (1993), Large Sample Methods in Statistics, Chapman and Hall, New York.

Anita Małoń

Uniwersytet Wrocławski

pl. Uniwersytecki 1, 50-137 Wrocław E-Mail: anita.malon@onet.eu

Dagmara Ziółkowska Uniwersytet Wrocławski

pl. Uniwersytecki 1, 50-137 Wrocław

E-Mail: dagmara.ziolkowska@wp.pl

(17)

Chi-square type goodness of fit tests for composite hypothesis

Abstract. Adapting the classical Pearson’s chi-square goodness-of-ﬁt test for testing composite hypotheses brings serious problems with estimation of unknown parameters. An in- teresting solution which eliminates them was proposed by Dzhaparidze and Nikulin. The most important advantage of their solution is a possibility of using arbitrary estimators satisfying only a natural and weak condition. The aim of the present article is to popu- larize this solution. We provide a complete, short and, what is more elementary proof of the main theorem on asymptotic distribution of the test statistic. In addition, we prove that the constructed test belongs to a general class of score tests what advocates for its good properties. Finally, as an example, we give a typical implementation of the test to testing in location and scale family.

Key words: Chi-square test, composite hypothesis, √

n-consistent estimator, Dzhapa- ridze–Nikulina statistic, score test.

(wpłynęło 14 stycznia 2007 r.)

Testy zgodności typu chi-kwadrat dla hipotezy złożonej

Anita Małoń (Wrocław)

Dagmara Ziółkowska (Wrocław)