Uogólnienie statystyki X² w wielowymiarowej analizie statystycznej

(1)

A C T A U N I V E R S I T A T I S L O D Z I E N S I S FOLIA OECONOMICA 117, 1992

Lechosław S tę p ie ń » UOGÓLNIENIE STATYSTYKI X 2

N WIELOWYMIAROWE J ANALIZIE STATYSTYCZNEJ

1. Uwaal wstępne

W t e o r i i s t a t y s t y k i oraz w J e j zastosowaniach bardzo ważną r o l ę odgrywa X 2 . Z nazwą tą wiąże s i ę na ogół t r z y różne t e r miny :

- rozkład X 2 , o

- s t a t y s t y k a X. , a więc zmienna losowa p o s ia d a ją c a rozkład X 2 .

2

- t e s t X , Jako metoda sprawdzenia h ip o tez y zgodności r o z kładów lub n ie z a le ż n o ś c i zmiennych, w y ko rz ys tu ją ca jako

spraw-2

dzlan s t a t y s t y k ę X o r o z k ła d z ie ch i-k w a d ra t.

2

Rozkład X z o s t a ł po raz pierwszy zn a le zio n y przez H e 1- m e r t a w 1876 r . [ 5 ] , a n astęp n ie n i e z a le ż n i e przez P e a r s o n a w 1900 г. Г б ]. T e o ria dotycząca rozkładu X 2 oraz

kon-2

s t r u k c j i s t a t y s t y k p od legających rozkładowi X j e s t na ogół o- pracowana w sposób wyczerpujący. Znaleźć j ą można niemal we wszy s t k i c h znaczących p u b lik a c ja c h z zakresu rachunku prawdopodobień stwa i s t a t y s t y k i matematycznej. Nie j e s t celem n in ie j s z e g o a r t y k u łu j e j p o w ie la n ie .

R o z p a tru ją c natom iast problem w e r y f i k a c j i h ipotez nieparame-o

try cz n y ch przy w ykorzystaniu s t a t y s t y k i (sp raw d z ia n u ) X , wy różniamy t r z y rod zaje testów i s t o t n o ś c i :

o - t e s t zgodności X ,

* Dr, adiunkt w I n s t y t u c i e Eko no m etrii i S t á t y s t y k i UL.

(2)

o

- t e s t X , jako t e s t jednorodności p rób ,

2 i

- t e s t n ie z a le ż n o ś c i X .

2

Pie rw szy z nich - t e s t zgodności X - s łu ż y sprawdzeniu czy ba dana cecha ma ok reślony rozkład (np. rozk ła d normalny, dwumiano wy . . . ) . Owuwariantową - przy znajomości lub nieznajom ości p a ra metrów rozkładu - k o n s tru k c ję tego t e s t u zn aleźć można m. i n , w

[ 2 ] , [ 7 ] .

Drugi rod zaj testów X - t e s t jednorodności prób s łu ż y spraw dzeniu h ip o t e z y , że s prób j e s t pobrane z t e j samej p o p u l a c j i , tzn. że są pod tym względem jednorodne.

Trz ec i r o d z a j, to t e s t y n ie z a le ż n o ś c i X . Ic h omówienie bę d zie m. i n . tematem n in ie js z e g o opracowania. Zajmiemy s ię s zcz e g ó l n ie problemem badania n ie z a le ż n o ś c i cech w wielowymiarowej a- n a l i z i e s t a t y s t y c z n e j .

2. Test n ie z a le ż n o ś c i w dwuwymiarowej t a b l i c y kontvnoencv 1ne1

W e r y f i k a c j ę h ip otez y o n ie z a le ż n o ś c i cech w dwuwymiarowej t a b l i c y ko ntyng encyjn ej przeprowadza s i ę na podstawie t e s t u

nieza-o

le ż n o ś c i X . W l i t e r a t u r z e t e s t ten omawiany J e s t na ogół d la jednego t y l k o przypadku - nieznanych rozkładów brzegowych o-raz OTy Należy Jednak, ja k p o tw ie rd z a ją to rozważania zawarte w

E»3. ro zró ż n ić dwa p rzypadki:

- prawdopodobieństwa te o re tyc z n e 51 ^ oraz 7\ ^ w rozkładach brzegowych są znane,

- prawdopodobieństwa te o re ty c z n e w rozkładach brzegowych są n ie z n a n e .

W pierwszym przypadku sumaryczną rozbieżność pomiędzy c z ę s t o ściam i zaobserwowanymi 1 c z ęs to śc ia m i oczekiwanymi mierzymy za po mocą s t a t y s t y k i

Г S , G7 -.2

(1 ) » ’ . И ч - 4 ,

i s 1 j = l n . . J l i j

(3)

Wyodrębnić tu możemy dwa s k ła d n ik i: 4

9 vr

(H

j

- П

5i j)

( 2)

x

\ . 2

‘ -n

у

■

1-1 " . . J l l . z lic z b ą sto p n i swobody r - l oraz

o x—» ( u i * Л 5i i )

(3)

x l

■ X —^

J —

j - i * . i

z lic z b ą sto p n i swobody з - 1.

M ierzą one rozbieżność pomiędzy zaobserwowanymi i

oczekiwany-2 2

mi cz ę sto ścia m i brzegowymi. Za pomocą s t a t y s t y k Х д oraz X g zwe ryfik o w a ć można h ip o tez ę zgodności d la rozkładów brzegowych.

Po-o 9 9

m n ie jsz a ją c w artość X daną wzorem (1 ) о X д oraz X ß o t r z y mujemy o d ch y le n ie od n ie z a le ż n o ś c i [ 9 ] :

( * )

x 2B . x 2 - x 2 : * 2 .

ť

. ^ 2 ( П п ~ n i . a . i ~ n . i ^ i . * n . . ,Jii . I J i . i )2 i » i j =i n . . ^ i . ^ . j

Aby u s t a l i ć lic z b ę sto p n i swobody wykorzystamy ogólne t w ie r dzenie ( L 9 j , s. 203). T w ie rd z e n ie . J e ż e l i Q * Qj + Q2 , Q ~ X 2 ( a ) , X 2 (b ) oraz 2 Q J e s t nieujem ne to Q2~ X (a - b )* . 9 Ponieważ s ta t y s t y k a X ma rs - I s to p n i swobody, s t a t y s t y k i 2 2

Хд, X B odpowiednio r - l , s - 1 s to p n i swobody, w ięc s t a t y sty k a Х д В ma na mocy ro zsz erzo n e j w e r s ji tego tw ie rd z e n ia

( r s - 1) - ( r - 1) - ( s - 1) * ( r - l ) ( s - 1) sto p n i swobody.

* 2

Zap is Q ~ X ( a ) oznacza, że zmienna losowa Q ma rozkład 2

(4)

S t a t y s t y k a ( 4 ) może wobec tepo s łu ż y ć jako sprawdzian przy w e r y f i k a c j i hipotezy o n ie z a le ż n o ś c i cech przy znanych rozkładach brzegowych.

Orugi przypadek to badanie n ie z a le ż n o ś c i przy nieznanych ro z kładach brzegowych. Trzeba j e oszacować s to s u ją c estymatory n a j w ię ksze j wiarygodności:

У о I л n 1

* i . = 7777 oraz 51 ^ = K . '

А л

Dowód na to , że U ^ , gr j są estymatorami n a jw ię k s z e j w ia r y godności przeprowadzony j e s t m. in . w ( [з ] , s. 474).

2

Uwzględniając te oszacowania otrzymamy wzór na X w n a s t ę p u ją c e j p o s t a c i:

r 3 (n -

, £ , « t n i j n ;

<5> X Š • ľ S — ň ; ’ n ■

i = l j » l - - Г --Д

Ponieważ z próby wyznaczyliśmy r + s - 2 param etry, przeto о s t a t y s t y k a (5 ) ma rozklad X o ( r s - 1) - ( r + s - 2) * ( r - l ) ( s - 1) s to p niach swobody. 2 3. Test n ie z a le ż n o ś c i X. w t a b l ic a c h kontynnencyjnyoh trójwymiarowych

W n ie k tó ry c h badaniach s ta t y s t y c z n y c h , s zcz eg ó lnie z zakresu nauk społecznych czy p rzyro d niczych, badacza i n t e r e s u j e czy i s t n i e j e łączna współzależność trzech cech s ta t y s t y c z n y c h А, В, С - mających odpowiednio r , s, t wariantów. Należy wówczas zwery fikować hipotezę o n ie z a le ż n o ś c i między trzema cechami s t a t y s t y cznymi .

Podobnie jak w przypadku badania n ie z a le ż n o ś c i dwóch cech s t a tys tyc z n y c h , należy wyróżnić dwie s y t u a c je :

(5)

- brzegowe rozk ła d y ÜI ^ , Oi !J11 k oraz 91 ^ , Я ^ , Я k są znane,

- brzegowe rozk ła d y n ie są znane.

2

Rozpatrzmy pierwszą z n ic h . S t a t y s t y k a X m ierzącą sumary czną rozbieżność między c z ę s to ś c ia m i zaobserwowanymi i c z ę s t o ściam i oczekiwanymi ma p o s ta ć :

(6)

x2 - t t í

I --Mk ~

i » l j * l k « l n . . . ^ i . . j . ^ . ,k

S t a t y s t y k a ta ma rozkład chi-kw adrat z l i c z b ą s to p n i swobody r s t

- 1.

Wyodrębnimy t u t a j t r z y s k ł a d n i k i , k tó re a n a lo g ic z n ie Ja k we wzorze ( 4 ) są n a s tę p u ją c e : ( 7 ) x j 0 - £ £ (П Ц - - " n - . 71. j . ~ n . j . a i i . . * n . . . q i i . . <Jl. j . )2 I>1 n . . . ^ i . . ^ . j . z l i c z b ą sto p n i swobody ( r - l ) ( s - 1). ( 8 ) Х д С 3 £ £» ( n l . k ' ni . . !n . . k ' п . . к Ш 1 .. + n . . . ^ l . . ^ . . k )2 r * l k * l n . . . ^ i . . ^ . .k z l i c z b ą sto p n i swobody ( r - 1) ( t - l ) . 2 . v * V » ( n . J k ' n . j . ^ . . k ' H . i k ^ . J . + n . . . J . ^ . . k )2 ( ? ) * B C 2.* L . — * ,Ł- — * k » l n . . , . j . . .k z l i c z b ą sto p ni swobody ( s - 1) ( t - 1 ). Wyodrębnimy również s k ł a d n i k i : d o ) y 1 ° Z ( n i " ' n ---J l l -->2 1 = 1 n . . , T| i . . z l i c z b ą sto p n i swobody r - l .

(6)

(

11 )

z l i c z b ą sto p n i swobody s - 1. ,

(

1 2

)

'k=l - n 7\ . ) 2 i » t »______ i t f t к z l i c z b ą sto p ni swobody t - 1.

Mierzą one ro zb ież n o śc i pomiędzy zaobserwowanymi i oczekiw a nymi c z ę s to ś c ia m i brzegowymi zawartymi odpowiednio w t a b l i c a c h

względu na cechy А, В, C.

Odejmując ( 7 ) , ( 8 ) , ( 9 ) , ( 1 0 ) , ( 1 1 ) , (1 2 ) od ( 6 ) , o t r z y mujemy :

( r s t - 1) - ( r - 1) ( s - 1) - ( r - 1) ( t - 1) - ( s - 1) ( t 1) -- ( r -- 1) -- ( s -- 1) -- ( t -- 1) = ( r -- 1) (a -- 1) ( t -- 1) sto p ni swobody. Może ona s łu ż y ć do testow ania n ie z a le ż n o ś c i między trzema zmien nymi ł ą c z n i e , gdy znane są w p o p u l a c j i rozk ła d y brzegowe.

Przypuśćmy ob ecn ie, że te o re ty c z n e rozkład y brzegowe n ie są znane. Oszacujemy j e metodą n a jw ię k s z e j wiarygodności - podobnie ja k w przypadku t a b l i c kontyngencyjnych dwuwymiarowych:

brzegowych А x B, A x C , B x C oraz w rozkładach brzegowych ze

(1 3 )

O • S t a t y s t y k a X ma:

2

(7)

r s t • ( n i j k

<U)

X2 -

x

Z Z

_* _{П л П} _к i = l Ml

I

j l l j

SL

...:!:* n • • • z lic z b ą s to p n i swobody równą ( r - l ) ( s - l ) ( t - 1 ). 2 4. Test n ie z a le ż n o ś c i %

w t a b lic a c h k o n tvno en cyInvch m-wymiarowvch

o

Rozważania d otyczące te s tu n ie z a le ż n o ś c i X d la t a b l i c kon- tyn g en cyjn ych trójw ym iarow ych u o g ó ln ić można na m-wymiarowe t a b l i c e k o n tyn g en cyjn e. Podobnie ja k m iało to m ie jsce w dwu- i t r ó j wymiarowych t a b lic a c h k o n ty n g e n cy jn ych , w yró żn ić można dwa p rz y padki d otyczące ro z kładów brzegowych,

o

S ta t y s t y k a X w przypadku, gdy ro z k ła d y brzegowe są znane p rz y b ie ra p o sta ć;

,

i*

а

(,5 )

Л

k l * l k2» l km=l

к £ г Л

nTik

k2 km

г lic z b ą s to p n i swobody równą r^ , r 2 , r m - 1.

S t a t y s t y k ą (1 5 ) n a le ż y , a n a lo g ic z n ie ja k (1 3 ) pom niejszyć o

w a rto ś c i X 2 d la rozkładów brzegowych odpowiednio m - 1, m ~ |2 ,

, , , , 2, 1 - wymiarowych. Otrzymamy o s t a te c z n ie :

cu) x

l

a

A =

x2 Ysxj ♦

s Xj

♦

... +

* 1 * 2 » / ” ' йт

V i i

1 ]> 2

11i 2

+

X

_—*

*2

_{Л. i}

o

i / r 4 * 2 ... * • 1 2 ... m

(8)

gdzieś A * A j , . . . , Am| j .A ^ ° A \ l j -® ■* *'*■• ®|* ^ = A \ (A^ u A j ^ ) , i p i j ^ ^ l » * * * * ^ ^ * к iA* i j ! A \ u A, j к * 2, >•■, т-1. V 2 ... l k p-l *p S t a t y s t y k a Х д д д ma : (r^ - l X r j - 1) . . . ( г т - 1) sto p n i swobody.

Gdy rozkłady brzegowe n ie są znane szacujemy J e według wzorów:

П. Пi n.

TT

c _ L Ł

í

B

2l

Í

- _ ü i

J l i 2 ■ — ... J , l „ - » ■ 2

S t a t y s t y k a X przyjmuje wówczas postaói

• Л, \ 2

X2

( n

_{_}

W

_..

X )

Г 1 ^ _m-l ' H " • X I n, n, ... n i i * 1 i »1 *1 *2 ' i mm nm-l z l i c z b ą sto p n i swobody (c , - l ) ( r 2 - 1 ), . . . , ( r m - 1). 5. P rzy kła d

Zaproponowane w poprzednich punktach rozważania te o re ty c z n e za stosujemy obecnie do przykładu empirycznego. W tró jw ym iaro w ej t a b l i c y ko ntyng encyjn ej 2 x 2 x 2 ( t a b l . i ) zawarte są dane z bada nia przeprowadzonego w, określonym s z p i t a l u k lin ic z n y m w L o d z i. Ba daniem o b ję to 74 chorych poddanych o p e r a c j i . Stan zdrowia przed

(9)

o p e ra c ją (cech a A) i tuż po o p e r a c ji (c e c h a B ) oceniano w punk tach od 9 do 10. I * wyższa lic z b a punktów, tym g o rsz y , zgodnie z oceną wystawioną przez le k a r z y , s ta n zdrow ia p a c je n ta . T rz e c ia c e cha (C ) oznacza wynik o p e r a c ji (pozytyw ny bądź n eg atyw n y), przy czyw negatywny wynik n ie k o n ie c z n ie oznacza zgon p a c je n ta podczas lub tuż po o p e r a c ji (zgon n a s t ą p ił t y lk o w jednym p rzyp ad ku ).

T a b l i c a 1 Stan zdrowia przed o p e ra c ją , tuż po o p e r a c ji

i wynik o p e r a c ji pacjentów pewnego s z p it a la k lin ic z n e g o w Lodzi

A В С Ogółem C1 C2 B 1 - 25 25 A1 co _CM -5 5 nl . k - 30 30 B 1 1 24 25 A2 B 2 6 13 19 n2.k 7 37 44 B 1 1 49 50 B2 6 18 24 n . . k 7 67 74 Ź r ó d ł o : O b lic z e n ia własne.

Dla uproszczenia zapisu w t a b l i c y w yspecyfikujem y symbole na dane cechom i ic h poszczególnym wariantom:

(10)

A - ocena stanu zdrowia p a c je n ta przed o p e ra c ją (w p u nktach), A^ - mniej niż 5 punktów, Aj punktów lub w i ę c e j ; .

0 - ocena stanu zdrowia p a c je n ta w c z a s i e o p e r a c j i (w punk t a c h ) , - 0 punktów, B2 - w ię c e j n iż 0 punktów;

С - wynik o p e r a c j i , Cj - pozytywny, C2 - negatywny.

Aby ro z s trz y g n ą ć , czy i s t n i e j e w spółzależność między rozpa trywanymi trzema cechami w p o p u l a c j i g e n e ra l n e j operowanych pa cjentów tego s z p i t a l a stawiamy hipotezę zerową o n i e z a le ż n o ś c i cech А, В, C, wobec hip otezy a l t e r n a t y w n e j , że cechy są zależne.

Obliczona zgodnie ze wzorem (14) wartość s t a t y s t y k i X.2 wynosi

o

24,392. Porównując tę wartość z X ^ odczytanymi z t a b l i c d la oc = 0,005 oraz d la o( = 0,001 i dla jednego s to p n ia swobody o- trzymujemy odpowiednio 7,079 i 10,020. Ponieważ X 2 > X # , na poziomach i s t o t n o ś c i 0,005 i 0,001, h ip o tez ę o- ł ą c z n e j n i e z a l e ż ności cech А, В, С należy o d rz u c ić . Są one zatem za le ż ne .

6. Podsumowanie

Przeprowadzona w opracowaniu a n a l i z a s t a t y s t y k i \ 2 d o t y c z y ła głównie j e j zastosowania do badania n ie z a le ż n o ś c i w t a b l i c a c h kontyngencyjnych dwu- i trójwymiarowych z uogólnieniem na wielowy- . '.arową a n a l i z ę s t a t y s t y c z n ą . J e s t to , ja k nam s i ę w ydaje, zagad n ie n ie dość i s t o t n e , szcz eg ó lnie w naukach r o l n i c z y c h , społecznych i medycznych, bowiem tam często badacz ma do c z y n i e n i a z łącznym d z iałan ie m k i l k u cech n ie m ie rz a ln y c h .

B ra liś m y pod uwagę je d y n ie przypadki " c z y s t e " - znanych lub nieznanych rozkładów brzegowych. W p ra k ty c e mogą mieć m ie js c e s y t u a c je "m ieszane". Już dla dwuwymiarowej t a b l i c y k o n ty n g e n c y jn ej rozpatrujemy w n ie k tó ry c h badaniach przypadek jednego brzegu u s t a lonego, a drugiego nieznanego. Problem jesz czo b a r d z i e j s i ę kom p l i k u j e , gdy przechodzimy do w ię ksze j l i c z b y wymiarów (w t a b l i c y kon tyn g e n c y jn e j trójw ym iarow ej j e s t już łą c z n i e 0 przypadków). Mo że to być jednak przedmiotem innych opracowań.

(11)

L i t e r a t u r a [ l j В 1 a 1 o o k H. M. (1 97 5): S t a t y s t y k a d la socjologów , PWN, Warszawa. [2] C r a m e r H. (1 9 5 8 ): Metody matematyczne w s t a t y s t y c e , PWN, Warszawa. W F i s z M. (1 96 7): Rachunek prawdopodobieństwa i s t a t y s t y ka matematyczna, PWN, Warszawa.

[4] G ó r a l s k i A, (1 97 4): Metody opisu i wnioskowania s ta t y s t y c z n e g o w p s y c h o l o g i i , PWN, Warszawa.

[5] H e l m e r t F. R. (1976): Über d ie W a h r s c h e i n l i c k k e i t von Potenzsummen der B eo b a chtun g sfe hle r e t c . , z . f . Math. U. P h y s . , 21.

[6] P e a r s o n K. (1 90 0): On the C r i t e r i o n t h a t a Given System of D e v ia t io n s from tho Prob a b le e t c . , P h i l . Mag., V, 50. [73 0 k t a b a W. (1977): Elementy s t a t y s t y k i matematycznej i metodyka d o ś w ia d c z a ln ic tw a , PWN, Warszawa. [0] K e n d a l l M. G ., S t u a r t A. (1 96 3): The Advanc ed Theory of S t a t i s t i c s , London. [ 9] R a o R. С. (1 98 2): Modele l i n i o w e s t a t y s t y k i matematycz n e j , PWN, Warszawa. [10] Y u l e G. U. , K e n d a l l M. G. (1 9 6 6 ): Wstęp do t e o r i i s t a t y s t y k i , PWN, Warszawa. Lechosław S tę p ie ń

GENERALIZATION OF STATISTIC X 2 IN MULTIDIMENSIONAL STATISTICAL ANALYSIS

G e n e r a l i z a t i o n of s t a t i s t i c X 2 has been performed in the a r t i c l e and then the s t a t i s t i c has been a p p lie d to s o l v i n g p ro blems con cern ing the m u ltid im e n s io n a l s t a t i s t i c a l a n a l y s i s .

Independency t e s t X 2 has been examined and i t s a p p l i c a t i o n has been i l l u s t r a t e d by an e m p i r i c a l example d e riv e d from medical r e s e a rc h .