ROCZNIKI POLSKIEGO TOWARZYSTWA MATEMATYCZNEGO Seria III: MATEMATYKA STOSOWANA XI (1977)
HENRYK MIKOS (Lublin)
Weryfikacja hipotez w nieortogonalnej potrójnej klasyfikacji
krzyżowej
przy
użyciuoperatorów rzutowych*
(Praca przyjęta do druku 27.8.1975)
1. Wstęp. Obliczenia związane z weryfikacją hipotez w przypadku danych nie- ortogonalnych podlegających klasyfikacji krzyżowej są zwykle kłopotliwe. Dokładne
metody opracowywania takich danych eksperymentalnych wymagają odwracania wielu macierzy (por. Federer i Zelen [2]), obliczania macierzy uogólnionych odwrot- nych (por. Vuagnat [5]), bądź znalezienia operatorów rzutu ortogonalnego (por.
Seber [4]). W ostatniej z wymienionych metod traktuje się próbę losową jako element przestrzeni wektorowej. Obliczenia związane z weryfikacją hipotez w modelach liniowych sprowadzają się wtedy do znalezienia rzutów ortogonalnych wektora obserwacji na odpowiednie podprzestrzenie przestrzeni prób. Yamamoto i Fujikoshi [7] zastosowali metodę operatorów rzutowych do nieortogonalnej podwójnej klasy- fikacji krzyżowej. W niniejszej pracy uogólniono wyniki Yamamoto i Fujikoshi na przypadek potrójnej klasyfikacji krzyżowej.
2. Model ogólny. Rozważmy klasyfikację krzyżową trzech czynników A, Bi C odpowiednio o poziomach a, bi c. Niech Ytikm oznaczam-tą obserwację w (i,j, k)-tej podklasie, to jest, przy i-tym poziomie czynnika A,j-tym poziomie czynnika Bik-tym poziomie czynnika C. Niech ponadto niik oznacza liczbę obserwacji w (i,j, k)-tej podklasie.
Załóżmy, że nij. > O, n.ik > O, ni.k > O oraz że istnieją podklasy, w których niik ;?; 2. Kropka wstawiona w miejsce wskaźnika oznacza, jak zwykle, sumowanie po tym wskaźniku.
Na przykład,
* Praca wykonana w ramach problemu węzłowego 06.1.l koordynowanego przez Instytut Matematyczny PAN.
[59]
Model matematyczny klasyfikacji potrójnej można napisać w postaci (2.1)
gdzie 'Y/tik oznacza średnią w populacji w (i ,j, k)-tej podklasie, a etikm - błąd ekspery- mentalny związany z obserwacją Ytikm. Zakładamy, że błędy eksperymentalne są
niezależnymi zmiennymi losowymi o rozkładach normalnych ze średnimi zero i tą samą wariancją
a;.
Niech(2.2) 'Y/tik = µ+at+ af
+
af+
ajB+
afkc+
tXfkc+
aj~c,gdzie µ oznacza średnią ogólną, at, af, af - efekty główne czynników A, B i C odpowiednio, af/, a1f, a1f - efekty interakcji dwuczynnikowych, a aj~c - efekt interakcji trójczynnikowej.
Dla uzyskania jednoznaczności podziału (2.2) załóżmy, że składniki spełniają
dodatkowe warunki. Niech Wtik oznaczają nieujemne wagi związane ze średnimi 'fJtik i niech
(2.3)
2:w
i 1 •• af =O, Lw.j.a1 =O,j
~i AB k" h
Li
wij. aii=
O dla wszyst 1c j,i
).w,. a-1-fl =O
~ J. l} dla wszystkich i, j
Lw.jka1f =O dla wszystkich k,
I
j w.jkafkc =O dla wszystkich j,k
L wt.kaik -AC -o dla wszystkich k,
4=
i wi.katr =o dla wszystkich i,L
. Wtjk aijk ABC = 0 dla wszystkich j, k,L
I Wijk aijk ABC = o dla wszystkich i, k,4=
j w tikaj~c
= O dla wszystkich i, j,przy czym w1j. > O, w.jk > O, wi.k > O.
Zależności (2.2) i (2.3) mają następujący zapis macierzowy:
(2.4)
Weryfikacja hipotez
gdzie
(2.5) A = [Jabc' la®Jbc' Ja®lb®Jc, Jab®fc, lab®Jc, Ja®fbc' la®Jb®fc, labc], fJ
=
[1'}111' 1'7112' „.' 'l'JabcJ',61
Wielkości a są wektorami zawierającymi odpowiednie efekty, np. aA = [at,
„., CX:J'.
Wektorem nazywamy macierz jednokolumnową, której elementami są współrzędne
wektora, a n-wymiarową przestrzeń euklidesową wektorów typu n x 1 oznaczamy symbolem En. Ponadto „®" oznacza iloczyn kro-neckerowski macierzy, znak' -
transpozycję macierzy, Jn - wektor złożony z n jedynek, a In - macierz jednostkową
n x n. H jest macierzą mającą wzdłuż głównej przekątnej macierze HM, HA, Hn, He, HAn, H8c, HAc, HAnc, a pozostałe elementy równe zero, gdzie HM jest macierzą
jednoelementową o elemencie równym zero,
(2.6)
Dw oznacza tu macierz typu abc x abc mającą na głównej przekątnej wagi
W111' W112, •.. , W abc' a poza przekątną zera.
TWIERDZENIE 2.1. Układ równań (2.4) jest zgodny, to znaczy dla każdego wektora fJ E Eabc oraz każdego układu wag { wiid istnieje wektor
fJ
spełniający układ równań(2.4).
Do wód. Dla wykazania zgodności układu wystarczy dowieść, że
(2.7) R[A']nR[H'] =O,
to znaczy, że podprzestrzenie rozpięte na wierszach macierzy A i wierszach macierzy H są rozłączne (por. Yamamoto i Fujikoshi [6]). Przypuśćmy, że istnieje niezerowy wektor ~ E R[A']nR[H']. Jeśli tak, to istnieją wektory u= [u111 , u112 ,
„.,
UabcJ'v = [vA, v8 , Vc, v~8, v~c, V~c, v~8cJ', gdzie
5 Matematyka Stosowana XI
V~c = (q1' q2, ... , qc, r1, r2, ... , ra],
V~BC
=
(s11, S12' ... , Sbo 111, 112' ... , fuc' Z11' Z12, ... , Zab], takie że~ = A'u = H'v.
Po wymnożeniu otrzymujemy stąd następujące równości:
(*) u ...
= o,
ui .. = vAwi.., U.j. = VBW.j., u .. k = VcW .. b (**) uii. = (mi+ni)wij., u.ik = (ok+Pi)w.jb ui.k = (qk+ri)w1.b (***)gdzie i = 1 , ... , a, j = 1 , ... , b, k = 1 , ... , c.
Jeżeli wszystkie wiik =O, to~ = O i koniec dowodu.
Załóżmy więc, że w ... > O. Wtedy z uwagi na (*) otrzymujemy u ... = vA w ... , u ... = v8 w ... , u ... = vcw .. „ a stąd v A = O, 'l-'8 = O, vc = O, a co za tym idzie, ui.. = O, u.j. = O, u .. k = O. Podobnie postępując z zależnościami ('~*) i (***)można wykazać, że uu. = O, u.jk
=
O oraz ui.k = O, a następnie, że uiik = O dla każdego i, j, k. Rów-ności te oznaczają, że ~ = O, a to kończy dowód.
TWIERDZENIE 2.2. Układ wag { wiid daje jednoznaczne rozwiązanie równania (2.4) wtedy i tylko wtedy, gdy
(2.8) rząd Dw[Ja®lbc' la®Jb®lc, lab®Jc] = ab+bc+ac-a-b-c+ 1.
D o w ó d. Układ wag { wiid daje jednoznaczne rozwiązanie równania (2.4) wtedy i tylko wtedy, gdy rząd[A', H'] = I +a+b+c+ab+bc+ac+abc. Z (2.7) oraz (2.3) wynika, że rząd[A', H'] = abc+2a+2b+2c+rząd[DwH~8c]. Stąd teza twierdzenia.
W dalszych rozważaniach przyjmujemy, że efekty µ, cxA, IJ.B, ac, rxA8, cx8c, cxAc, i 1J.A8c zdefiniowane są przez zależności (2.2), (2.3) oraz (2.8).
Niech y będzie wektorem, którego współrzędnymi są kolejne obserwacje
Y1111, )' 1112 , ... , Yabcnabc' a e - wektorem, którego współrzędnymis ą błędy etikm ustawione w tej samej kolejności jak obserwacje. Wtedy model (2.1) z warunkami (2.2), (2.4) i (2.8) można zapisać w następującej postaci:
G: y = (}
+
e, (} E Q c En, e ,..._, N[O, a; In].Przestrzeń Q określona jest następująco:
(2.9) gdzie
X= [Jn, XA, XB, Xe, XAB' XBc, XAc, XABcl·
Dla zapisania macierzy X w po5taci wyraźnej przyporządkujmy obserwacjom Y 1111, Y 1i12, · · · , Yabcnabc kolejne numery 1, 2, ... , n, a (i, j, k)-tej kombinacji pozio-
Weryfikacja hipotez 63 mów czynników A, B, C przyporządkujmy jeden numer reprezentowany przez
wskaźnik q obliczony według wzoru:
q
=
(i-l)bc+ (j- l)c+k:Macierz XABC jest macierzą typu n x abc o elementach Yvą, przy czym _ J 1, jeżeli v-ta obserwacja należy do q-tej podklasy, Yvą -
l
O, w przeciwnym przypadku,natomiast
X A = XABe(la®Jbc), XB = XABe(Ja®lb®Jc), Xe = XABc(Jab®fc), (2.10) XAB = XABe(Iab®Jc), XBc = XABc(Ja®lbc), XAc = XABc(la®Jb®lc).
Łatwo wykazać, że ze wzorów (2.10) wynikają następujące relacje:
(2.11) XA = XAB(Ia®Jb), XB = XBc(lb®Jc), XB
=
XAB(Ja®lb), Xe= XBc(Jb®lc),XA = XAc(la®Jc), Xe = XAc(Ja®lc).
W potrójnej klasyfikacji krzyżowej interesuje nas zwykle weryfikacja hipotez postaci:
Ht: rxt =O, t =ABC, AB, BC, AC, A, B, C, M
przeciwko założeniom ogólnym G. Dla uproszczenia zapisu hipotez przyjęto, że
µ
=
(/.,M. Hipotezy H1 można zapisać podobnie jak założenia G w sposób następujący:
gdzie
wt= {fJ E E„: ()
= xn1t,
Ht*Pr =o}.Macierz Xt* powstaje z macierzy X przez usunięcie macierzy Xt. Wektor
Pr
powstaje z wektorap
przez usunięcie wektora (/.,t, a macierz Ht* powstaje z H przez usunięcie wierszy i kolumn odpowiadających usuniętemu wektorowi lit.Jak wiadomo (por. Seber [4]), funkcją testową opartą na ilorazie wiarogodności weryfikującą hipotezę Ht przeciwko założeniom G jest funkcja
F
=
ll(P.o-Pwt)Yli2 :ll(J„-Pa)Yll
2 'r-qt n-r
gdzie r jest wymiarem przestrzeni Q, a qt - wymiarem przestrzeni wt. Wielkość
ll(Pa-Pa>tYll
2=
y'(P.o-Pw)Y nazywa się sumą kwadratów dla hipotezy H0 all(J„-P.o)Yll
2 = y'(I„-P.o)Y-sumą kwadratów dla błędu. Funkcja F ma przy założeniach G niecentralny rozkład Fr-ąi. n-r,<5' gdzie ~ = (a;)-1 fJ'(P.o-Pw,)fJ.
TWIERDZENIE 2.3. Wybór wag { wiid nie ma wpływu na funkcję testową weryfiku-
jącą hipotezę lfABC·
Do wód. Analogicznie jak w twierdzeniu 2.1 można wykazać, że
R[X']nR[H'] =O, R[Xi~cJnR[Hi~cJ =O.
Oznacza to, że (por. Yamamoto i Fujikoshi [6])
Q
=
R[X], WABC=
R[X1Bcl·Z uwagi na (2.11)
R[X]
=
R[XABcL a R[X.hc]=
R[XAB' XBc, XAc].W ten sposób przestrzenie Q i wA 8c określone są przez podmacierze macierzy X, których postać nie zależy od wyboru wag {wud·
Pozostałe przestrzenie wt nie dadzą się określić w tak prosty sposób jak Qi wA 8c, gdyż dla żadnej z nich nie jest spełniony warunek analogiczny do warunku (2. 7).
Dlatego też przestrzenie te są zależne od wyboru wag { wud, a wzory określające
je dla dowolnych wag są skomplikowane. Zajmijmy się na początek przestrzenią
WAB:
WAB = {8 E En: 8 = X~ttJ~i, H~~/l~t = O}+
+
{ll E En: 8 = XABCCXABl' HABCaABC =O}, gdzie X'.:.ii powstaje z X18 przez usunięcie X ABC, a /l~i i H~~ określone są analo- gicznie.Łatwo wykazać, że R([X~U)nR([HA8]') = O. Stąd oraz z (2.11) otrzymujemy
gdzie (por. Yamamoto i Fujikoshi [6]) (2.12)
Tabela 1
Analiza wariancji dla nieortogonalnej potrójnej klasyłikacji krzyżowej w przypadku dowolnych wag W1Jk
•--H_z~-~
0- 0 ~-ez-aa
_______ s_t_op_n_i_e _s_w_o_b_od_y ______ I _____~~=~ k~-a-dr~~~-w
____ _H,rnc: ocABC =O vABc= f-(ab+bc+ac- -a-b-c+ 1) HAB: OCAB
=o
HBc: OCBc =O HAc: OCAc =O HA: OCA
=o
H/j: OCB
=o
He: OCc =O HM: µ
=o
Błąd
'VAB = f-r[XBc, XAc, Q]
VBc = f-r[XAB• XAc, Q]
VAc = f-r[XAB, XBc, Q]
VA= f-r[XBc, QAB. QAc, Q]
VB = f-rfXAc, QAB. QBc, Q]
Vc = 1--r[XAB, QBc. QAc, Q]
VM = f-r[QA, QB, Qc, QAB•
QBc, QAc, Q,]
'Ve = n-f
SSAB = y'(P[XABc1-P[XBc, XAc, Q])y SSBc = y'(P[X.4Bc1-P[XAB, XAc, Q])y SSAc = y'(P[XABc]-P[XAH, XBc, Q])y SSA = y'(P[XABc1-P[XBc, QAB, QAc, Q])y SSB = y'(P[XABcl-P[XAc, QAB• QBc, Q])y SSc = y'(P[XABc]-P[XAB, QBc, QAc, Q])y SSM = y'(P[XABc1-P[Q, QA, QB, Qc,
QAB, QBc, QAc])y SSe = y'(l- P[XABcDY Uwag a. Literą f oznaczono w tabeli liczbę niepustych podklas (i,j, k), a symbolem r[X]-rząd macierzy X
Weryfikacja hipotez 65 zaś S'
=
A'(l-P[B]), A'=
P[X~Bc]H~Bc, B'=
(I-P[X~Bc])H~BC· W przypadku gdy wszystkie niik są większe od zera, macierz XABC jest pełnego rzędu, a P[X~Bc]=
= labc· Wtedy (2.12')
W analogiczny sposób można wykazać, że
wBc = R[XAB' XAc, Q], wAc = R[XAB' XBc, Q], wA = R[XBc, QAB' QAc, Q],
we= R[XAB' QBc, QAc, Q],
wB
=
R[XAc, QAB' QBc, Q],wM = R[QA, QB, Qc, QAB' QBc, QAc, Q], gdzie macierze QA, QB, Qc, QAB, QBc, QAc są zdefiniowane analogicznie jak macierz Q we wzorze (2.12').
W oparciu o powyższe rozważania otrzymujemy tabelę analizy wariancji dla przypadku dowolnych wag { wiid (tabela 1).
3. Wagi proporcjonalne do liczebności w podklasach. Analiza wariancji dla modelu (2.9) i hipotez Ht upraszcza się znacznie w przypadku, gdy, dla każdego i, j, k, wiik = pniib gdzie p jest dowolną stałą większą od zera. Ponieważ wtedy Dw =
= pX~BcXABc, macierze Ht przyjmą z uwagi na wzory (2.10) następującą postać:
(3.1)
[ X~] rX~cl
HAc
=
X~ X Ac, H~Bc=
X~c XABC.XAB_
Macierze A i B ze wzoru (2.12) dadzą się teraz określić znacznie prościej:
A' = P[XABclXABc[XBc, XAc, XAB] = XABc[XBc, X4c, XAB], natomiast B jest macierzą złożoną z samych zer. Stąd
Q
=
P[XABc]-P[XABc(X~BcXABc)-XABc[XBc, XAc, XAB]=
=
P[XABc]-P[XBc, XAc, XAB].Podobnie można wykazać, że (3.2)
QAB
=
P[XAB]-P[XA, XB], QAc=
P[XAc]-P[XA, Xe],QB = P[XB]-P[Jn],
QBc = P[XBc]-P[X8 , Xe], QA = P[XA]- P[Jn], Qc = P[Xc]-P[Jn].
Z uwagi na to
PWAB
=
P[XBc, XAc, Q]=
P[XBc, XAc]+P[(I-P[XBc, XAc])Q]=
= P[XBc, XAc]+P[(l-P[XBc, XAc])([XABc]-P[XAB' XBc, XAc]) =
=
P[XABc]-P[XAB' XBc, XAc]+P[XBc, X,te].W podobny sposób można otrzymać wzory określające pozostałe operatory. Osta- teczne wyniki przedstawione są w tabeli 2 zawierającej analizę wariancji w przypadku wag proporcjonalnych do liczebności w podklasach.
Tabela 2
Analiza wariancji w przypadku wag proporcjonalnych do liczebności w podklasach Hipoteza
zerowa Stopnie swobody Sumy kwadratów
HABc: ocABC =O I i•abc = f-(ab+ be+ ac-a- SSABC = y'(P[XABc]-P[XAB• XBc, XAcDY -b-c+l)
HAB: iXAB =O vAB = ab-a-b+ 1 HBc: OCBc =O vBc = bc-b-c+ 1 HAc: ocAc =O vAc = ac-a-c+1 HA: ocA = O vA = a-1 HB: OCB
=
o VB = b-1 He: etc = O Vc = c-1HM:µ=O VM=1
- - - 1
Błąd Ve = n-J
SSAB = y'(P[XAB• XBc, XAc]-P[XBc, XAcDY SSBc = y'(P[XAB, XBc, XAc]-P[XAB, XAcDY SSAc = y'(P[XAB• XBc, XAc]-P[XAB• XBc])y SSA = y'(P[XA, XB, Xc]-P[XB, Xc])y SSB = y'(P[XA, XB, Xc]-P[XA, Xc])y SSc = y'(P[XA, X8 , Xc]-P[XA, XB])y SSM = y'(P[J„]y)
SSe = y'(l-P[XABcDY Uwag a. Jak poprzednio, f oznacza liczbę niepustych podklas.
Dla znalezienia sum kwadratów niezbędnych dla weryfikacji postawionych hipotez, niezbędna jest znajomość kwadratów długości rzutów wektora y na odpo- wiednie podprzestrzenie przestrzeni En. Znalezienie kwadratu długości rzutu wektora y na przestrzenie R[Jn] i R[XAncl jest proste, gdyż (por. Mikos [3])
f 2
"--, y. 'k
y' P[XABc]Y
= ) -- 4
1.1.k llijk 11 -gdzie sumowanie przebiega po tych podklasach (i,j, k), dla których
Dla znalezienia kwadratów długości rzutów wektora y na pozostałe podprze- strzenie należy skorzystać z metody iteracyjnej dla przypadku sumy dwóch i trzech podprzestrzeni o bazach ortogonalnych (por. Corsten [I]). Obliczenia sprowadzają się do wielokrotnego obliczania średnich ważonych i mogą być wykonane nawet przy użyciu kalkulatorów biurowych. Szczegółowe wzory zostaną opublikowane osobno.
Weryfikacja hipotez 67
Literatura cytowana
{1] L. C. A. C or s te n, Vectors, a tool in statistical regression theory, Meded. Landbouwho- geschool Wageningen 58 (1958), str. 1-92.
[21 W. T. Federer and M. Ze Ie n, Analysis of multifactor classifications with unequal numbers of observations, Biometrics 22 (1966), str. 525-552.
[3] H. M i kos, Operatory rzutowe w analizie wariancji, Trzecie Coli. Metodo!. z Agro-Biometrii,
Wrocław 1973, str. 78-142.
{4] G. A. F. Se ber, The linear hypothesis, London 1966.
[5] P. V u agnat, Analysis of variance of a non-orthogonal three-factor experiments using a com- puter, Institute of Statistics Mimeo Series 803, University of North Carolina, 1973.
[6] S. Yamamoto, and Y. Fuj ikos h 1, The linear hypothesis and contstraints, J. Sci.
Hiroshima Univ. A-1. 31 (1967), str. 211-219.
[7] - - Two-way classification designs with unequal cell frequencies, ibidem A-1. 32 (1968), str.
357-370.