• Nie Znaleziono Wyników

n. Test dla testowania hipotezy o równowadze Hardy'ego-Weinberga

N/A
N/A
Protected

Academic year: 2021

Share "n. Test dla testowania hipotezy o równowadze Hardy'ego-Weinberga"

Copied!
7
0
0

Pełen tekst

(1)

ROCZNIKI POLSKIEGO TOWARZYSTW A MATEMATYCZNEGO Seria III: MATEMATYKA STOSOWANA XV (1979)

STANISŁAW GNOT, HENRYK MATEJ, TEOFIL SzuLGA (Wrocław)

Test dokładny dla testowania hipotezy o równowadze Hardy'ego-Weinberga

(Praca

przyjęta

do druku 4.04.1978)

1. Podstawowe pojęcia i definicje w genetyce. Informacja genetyczna żywych organizmów zapisana jest w materiale genetycznym zawartym w jądrze komórki.

Nosicielem tej informacji jest kwas dezoksyrybonukleinowy (DNA), związek che- miczny w formie długich nici, zbudowany z jednostek zwanych nukleotydami. Sek- wencja nukleotydów stanowi kod informacyjny. W jądrze materiał genetyczny podzielony jest na specyficzne zbiory zwane chromosomami. W komórkach czło­

wieka chromosomy są tworami parzystymi, przy czym liczba par jest stała i wynosi 23.

W tej liczbie mieści się 22 pary chromosomów nie związanych z płcią oraz jedna para chromosomów płciowych. Parzystość chromosomów wynika z połączenia się

dwu rodzicielskich komórek zwanych gametami.

Jednostką funkcjonalną materiału genetycznego jest gen. Jest to niewielki od- cinek DNA, a jego miejsce (pozycja) w chromosomie nazywa się locusem. Geny

związane z danym miejscem mogą występować w różnych postaciach (allelach).

Ze względu na parzystość chromosomów pojęcie „locus" obejmuje dwa identyczne miejsca na parze chromosomów. Wynika z tego, że osobnik określony jest przez

parę genów w jednym locus. Osobnik posiadający dwa identyczne allele w danym locus nazywa się homozygotą, natomiast osobnik, u którego allele są różne, nazywa się heterozygotą. Całkowite genetyczne ukonstytuowanie organizmu określa jego genotyp.

Termin genotyp używany jest także w odniesieniu do większej liczby loci. Produktem

aktywności genotypu cechy osobnicze, nazywane fenotypem. Jeżeli u heterozy- goty produkty obu alleli ujawniają się w fenotypie, mówimy o kodominacji. Jeżeli

natomiast ujawni się tylko produkt jednego allelu, gen taki nazywamy dominującym,

a gen nieujawniony - genem recesywnym. Rozpatrzmy dla przykładu jeden locus w chromosomie z allelami A 1 i A 2 • W tym przypadku możliwymi genotypami są:

A 1 XA 1 , A 1 XAi., A 2 XA 2 • Jeżeli gen A 2 jest genem recesywnym, wówczas geno- typy A 1 XA.

1

i A

1

XA 2 określają taki sam fenotyp. W wielu układach genetycznych liczba możliwych alleli jest większa od 2.

Rozważmy jedno miejsce w chromosomie u indywiduów tworzących pewną populację n. Przypuśćmy, że w locus tym mogą pojawić się allele A 1 , A 2 , ••• , Am.

[99]

(2)

Niech Gii będzie genotypem powstałym przez połączenie gamet z allelami Ai oraz Aj (Gii = Gji). Oznaczmy przez Pij częstość (frakcję) genotypu G 1 j w badanej popu- lacji (pij = Pji, Pii > O). Parametry

(1) ti = Pii+(l/2) L Pii, i= 1, 2, ... , m,

i

"#j

nazywamy częstościami genów A

1,

A 2 , ••. ,Am, odpowiednio. Struktura genetyczna badanej populacji może być opisywana zarówno w terminach częstości genotypów, jak też częstości genów. Związek pomiędzy częstościami genów i genotypów dany wzorem (1) wygodnie przedstawić jest w formie macierzowej. Niech A będzie ma-

cierzą częstości genotypowych określoną w następujący sposób:

A = (1/2)P21 P22 (1/2)P2m [

P11 (1/2)P12 ... (l/2)P1ml

. . . .

. . .

. . .

(l/2)Pmt (l/2)Pm2 ··· Pmm

Macierz A jest macierzą symetryczną o elementach sumujących się do jedności, tzn.

l'Al = 1,

gdzie 1 jest wektorem kolumną, złożonym z samych jedynek. Wektor częstości genów t = (t

1 ,

1

2 , ••• ,

tm)' wyraża się wzorem:

t =Al.

W dalszym ciągu rozważać będziemy populacje, w których spełnione są na-

stępujące założenia:

a) w populacji nie występują czynniki oddziaływające na jej strukturę gene-

tyczną, takie jak: mutacja; selekcja, migracja,

b) populacja . zawiera jednakową liczbę osobników męskich i żeńskich,

c) rozkład częstości genotypów (genów), męskich i żeńskich jest taki sam, d) poszczególne generacje populacji nie zachodzą na siebie,

e) każdy z dwóch genów może pojawić się w wyprodukowanej przez osobnika gamecie z prawdopodobieństwem 1/2 (jest to tzw. pierwsze prawo Mendla).

Przyjęte założenia umożliwiają badanie dynamicznej i statystycznej struktury populacji przy pomocy modeli matematycznych. Warto zaznaczyć, że drobne od-

stępstwa od większości z tych założeń nie wpływają zasadniczo na zmianę rozwa-

żan~ch modeli.

2. Losowa asocjacja gamet. Prawo Hardy'ego-Weinberga. Mówimy, że w popu- lacji n z wektorem częstości genów t spełnione jest założenie losowej asocjacji gamet,

jeżeli częstości genotypów w pierwszej generacji n

1

spełniają warunki:

p ii = 2t

i

ti, i = j, i = 1, 2, ... , m, Pii = tl, i= 1, 2, ... , m, lub w notacji macierzowej

A

1

= tt' = All'A.

(3)

Test

dokładny

dla hipotezy Hardy'ego-Weinberga 101 Tutaj A i A

1

są macierzami częstości genotypów w populacji n i n

1 ,

odpowiednio.

Rozważmy pewną wyjściową populację n 0 z macierzą częstości genotypów A 0

i z wektorem częstości genów t

0

= A

0

1. Załóżmy, że w populacji n

0

założenie

losowej asocjacji gamet jest spełnione, tzn. w pierwszej generacji n

1

macierz częstości

genotypów jest postaci

A1 = t 0 t~ = A

0

1l'A

0 •

Wektorem częstości genów w populacji n 1 jest t1 = A1 1 = tot~l =to, a macierzą częstości genotypów w drugiej generacji n

2

jest

A 2 =t1t~=A1.

W konsekwencji otrzymujemy następujące wnioski:

(i) w populacji z losową asocjacją gamet wektor częstości genów t jest w każdej generacji taki sam jak w populacji wyjściowej (jest to tzw. prawo równowagi Har- dy'ego-Weinberga),

(ii) w populacji założenie losowej asocjacji gamet jest spełnione wtedy i tylko wtedy, gdy macierz A częstości genotypów spełnia warunek:

(2) A= tt' = All'A.

Wiele problemów rozważanych w genetyce populacyjnej rozwiązywanych jest przy założeniu losowej asocjacji gamet. Testowanie tej hipotezy opiera się zazwyczaj na statystyce x

2

Pearsona, jednakże w przypadkach niewielkiej liczby obserwacji test x 2 powinien być zastąpiony testem dokładnym. w pracy podany jest opis jedno- stajnie najmocniejszego testu nieobciążonego dla modeli genetycznych z dwoma allelami. Test konstruuje się na podstawie ogólnej teorii testowania hipotez liniowych dla rodzin rozkładów wykładniczych rozwiniętej przez Birnbauma [l], Lehmanna [3], Truaxa [5], Truaxa i Matthesa [4]. Podany jest też przykład zastosowania tego testu dla układu MN grup krwi.

3. Postać kanoniczna hipotezy liniowej dla rodziny wykładniczej rozkładów prawdo-

podobieństwa. Rozważmy rodzinę wykładniczą rozkładów prawdopodobieństwa

wektora losowego X = ( X

1 ,

X

2 , ••• ,

Xk )' postaci:

k

(3) fe(x) = W(9)H(x)exp { L Oixi} = W(6)H(x)exp{9'x}, 9 E Q,

i=l

względem pewnej a-skończonej miaryµ. Tutaj 9'x jest iloczynem skalarnym wekto- rów 6 i x, Q jest tzw. naturalną przestrzenią parametrów, tzn.

Q = {ee alk: ~ exp{6'x}dµ (x) <oo},

!!"

a f!l jest przestrzenią realizacji wektora losowego x. Niech Q

0

będzie r-wymiarową podprzestrzenią liniową przestrzeni rJ4k (O < r ~ k). Rozważmy hipotezę liniową

H:6eQ

0

nQ.

(4)

Niech p 1 , p 2 , ••• ,Pr będzie bazą w przestrzeni Q

0 ,

a Pr+ 1 , Pr+ 2 , ••• , Pk niech będzie uzupełnieniem bazy w !lo do bazy w rJtk. Każdy wektor e E Q można w sposób

jednoznaczny przedstawić w postaci:

k

6=.L:e;Pi·

i=l

Niech Ę = (e 1 , e 2 , ••. , ed będzie wektorem współczynników kombinacji i=l L k ~;p;

i niech P będzie macierzą, której kolumnami wektory p;, i= 1, 2, ... , k. Wówczas 6 = P'Ę oraz Ę = P' -

1

e.

Rozważmy wektor losowy T = PX. Na mocy (3) rozkład prawdopodobieństwa

wektora T jest postaci:

Ke(t) = W(P'Ę)H(P-

1

t)exp{Ę't}.

Ponieważ dla 6 e Q 0 er+

i

= er+

2

= ... = ek = O, hipoteza H przyjmuje nastę­

pującą postać kanoniczną:

H: er+

1

= er+ z = ... = ek = O.

W przypadku, gdy r = k- 1, tzn. gdy hipoteza H dotyczy tylko jednego parametru i jest postaci :

H: e1c =O,

rozwiązaniem problemu testowania H jest jednostajnie najmocniejszy test nie-

obciążony, który jest określony za pomocą następującej funkcji krytycznej:

gdy tk > C

1

lub l1c < Cz, gdy 1" = ej, i = 1, 2, gdy C 1 < t1c < Cz,

z funkcjami ci i i'i zależnymi od t 1, 11' ... , '"-1 i wyznaczonymi z warunków:

Eek=o[<p(T1clt1, Iz, ... , l1c-1)l =et oraz

Eek= 0 [T1c<p(T1clt 1 , t 2 , ••• , t1c_ 1 )] = etEet= 0 (T1clt 1 , t 2 , ••• , t1c_ 1 )

(por. Lehmann [2]). Aby wyznaczyć funkcje C; i f'i, konieczna jest znajomość wa- runkowego rozkładu prawdopodobieństwa Tt. przy warunkach T1 = t 1, T

2

=

= t2, ... , T1c-1 = t1c- 1 oraz przy prawdziwości hipotezy H: e1c = O.

7. Testowanie hipotezy o równowadze Hardy'ego-Weinberga dla układu z dwoma

allelami. Rozważmy układ genetyczny z dwoma allelami A1 i A 2 • Niech Kii będzie

częstością osobników powstałych przez połączenie gamety męskiej A; z gametą

żeńskąAi, i,j = 1, 2. Przytychoznaczeniachp 11 =Ku ,p 12 = Ku+K21 iP22 = Kn

są częstościami genotypów G 11 , G 12 i G

22

odpowiednio. Rozkład prawdopodo-

(5)

Test

dokładny

dla hipotezy Hardy'ego-Weinberga 103 bieństwa liczby X;i osobników powstałych przez połączenie gamety męskiej A;

z żeńską Ai w próbie n elementowej jest rozkładem wielomianowym postaci:

(n!/x11 ! X12 ! X21 ! X22 !) · gf\ 1 gf~ 2 gli 1 g1~ 2 , L i,; Xij = n, I i

,j

g;i = I.

W przypadku chromosomów nie związanych z płcią naturalnym wydaje się założenie

g

12

= g21 lub (co jest równoważne) p

12

= 2g12 .

Przy tym założeniu zgodnie ze wzorem (2) założenie losowej asocjacji gamet jest

spełnione wtedy i tylko wtedy, gdy macierz częstości genotypów A= [g11 gi2]

g21 g22.

jest macierzą rzędu jeden lub, co jest równoważne, wtedy i tylko wtedy, gdy wy- znacznik macierzy A jest równy zeru. Hipoteza o losowej asocjacji gamet przyjmuje zatem postać:

H: gug22 = gi2·

Przyjmując oznaczenia 0 1 = ln(g

11

/g 12 ), () 2 = ln(g22 /g 12 ) otrzymujemy:

H: 0 1 +0 2 = O,

a rozkład prawdopodobieństwa wektora losowego X= (X 11 , X 12, X 21 , X 22 )' przyj- muje postać:

H(x)g~1exp(x1101 +x 22 02).

Bazą w przestrzeni Q

0

= { (01, 02)': 01 +0

2

= O} jest wektor p 1 = (1, -1)', który wraz z wektorem p2 = (1, O)' tworzy bazę w 9t 2 • Przyjmując

[1 -1]

p = 1 o'

Rozkład prawdopodobieństwa wektora T = (T1, T

2 }'

jest postaci:

W(Ę)H(t)exp{;1 t1 +;2t2 }, gdzie Ę = P' - 1(()

1 ,

O 2 )'. Ponieważ

p•-1 = [~ -:],

mamy: ;t = -0 2 = ln(g 12 /g 22 ), ; 2 = 01 +0 2 = ln(g 11 g22 /gi 2 ), a hipoteza H przyjmuje następującą postać kanoniczną:

H: e 2 =O.

Jednostajnie najmocmeJszym testem nieobciążonym dla testowania H, zgodnie z rozważaniami rozdziału poprzedniego, jest

gdy t2 < C 1 (t 1) lub t 2 > C 2(t1), gdy t 2 = C; (ti), i = 1, 2,

gdy C1 (t1) < 12 < C2 (ti).

(6)

Ponieważ X11 -X22 = ti i X11 +X22 = n, zmienna losowa T2 = X 11 może przyj-

mować wartości z przedziału (n

0 ,

ni), gdzie n 0 = max{O, ti} i ni= [(n+t

1

)/2].

Funkcje Ci i y; wyznacza się z warunków:

~

2

L Prh= 0 {T2 = t2IT1 = ti}+ Lr;Pr~ 2 =o{T2 = C;IT1 = ti}+

t2=no i=l

n1

+ I Pr;

2

=o{T2 = t2 IT1 = t1} = ex,

t2=C2

C1 2

L 12Pr;

2

= 0 {T2 = t2IT1 = ti}+ Ly;l2Pr;

2

=o{T2 = C;IT1 =li}+

t2=no i=l

n1 n1

+ L t2Pr;

2

=o{T2 = 12 ITi = t1} = a L l2Pr;2=o {T2 = l2IT1 = 11 }.

t2=C2 t2=no

W celu znalezienia warunkowego rozkładu prawdopodobieństwa zmiennej loso- wej T

2

przy warunku T1 = li i przy założeniu losowej asocjacji gamet, zauważmy, że:

Pr{T2 = t 2 IT1 = li}= Pr{X11 = 12, X11 -X 22 = ti}/Pr{X11-X22 = li}=

111

= Pr{X11 = 12, X 22 = 12 -1 1 }/ L Pr{X

11

= 12, X22 = t2-t1 }.

t2=no

Łączny rozkład prawdopodobieństwa zmiennych X11 i X 22 jest rozkładem wielo- mianowym postaci:

Pr{X11 = t2,X22 = 12-11} = [n!/t 2 !(t 2 -t 1 )!(n-212+li)!]g~

2

1 g~ 2 2 -' 1 (2g12)"-

2

'

2

+'

1

=

= g~2(g12 /g22)'12n-2t2+t1H,1 (l2)e'2, gdzie

H,1 (t2) = n!/12!(/2-11)!(n-2t2+1i)! oraz e = gug22/gf2·

Z powyższych rozważań wynika, że

n1

Pr{T2 = t2 ITi = ti} = (I/4)'

2

H,1(12)r/

2 /

t2=no L (1/4)'

2

H,1 {t2)e'

2

Przy założeniu losowej asocjacji gamet e = I rozkład warunkowy zmiennej T2 przy warunku Ti = I

2

przyjmuje następującą postać:

111

(4) Pr{T2 = t

2

1Ti = ti} = (1/4)'

2

H,

1

(t2)/ l2=no L (1/4)'

2

H,

1

(t2)·

Przykład. Rozważmy układ MN grup krwi. Przypuśćmy, że w 60-elementowej próbie zaobserwowano następujące liczebności poszczególnych fenotypów: MM-24, MN-26, NN-10. Zgodnie z oznaczeniami przyjętymi w rozdziale 4 mamy: X11 =

= 24, X 12 +X 2 i = 26, X 22 = 10, Ti = 14, n 0 = 14 i ni = 37. Rozkładem warun-

(7)

Test dokładny dla hi'potezy Hardy'ego-Weinberga 105 kowym prawdopodobieństwa zmiennej losowej T 2 = X 11 , obliczonym przy warun- kach T

1

= 14 i e = 1 na mocy wzoru (4) jest:

12 14 15 16 17 18 19 20 21 22

Pr{T2 = t2 IT 1 = 14} .ooo .ooo .ooo .001 .008 .029 .075 .144 .202 23 24 25 26 27 28 29 30 31 .212 .167 .099 .044 .014 .003 .001 .ooo .ooo

32 33 34 35 36 37

.ooo .ooo .ooo .ooo .ooo .ooo

Przyjmując poziom istotności a.= .05 znajdujemy C 1 = 19, C 2 = 26. Ponieważ

zaobserwowana wartość T

2

= 24 zawarta jest w przedziale (C 1 , C 2 ), nie ma pod- staw, aby odrzucić hipotezę H.

Prace cytowane

[1] A. B i r nb a u m, Characterizations of complete classes of tests of some multiparametric hypotheses, with app/ications to likelihood ratio tests, Ann Statist. 25 (1954), str. 21-36.

[2] E. L. Lehman n, Testing Statistical Hypotheses, John Wiley, New York 1959.

[3] - Significance /evel and power, Ann. Statist. 29 (1959), str. 1167-1176.

[4] T. K. Matt hes, D. R. Tr u a x, Tests of composite hypotheses for multivariate expo- nential family, Ann. Statist. 38 (1967), str. 681-697.

[5] D. R. Tr u a x, Multidecision problems for the multivariate exponential fami/y, Stanford

Technical Report, No 32 (1955).

Cytaty

Powiązane dokumenty

W tabeli PRACOWNICY NR_W jest funkcjonalnie zależny od NAZWA_W, który nie jest kluczem głównym. Z atrybutów tych tworzy się nową

Zbadać, w jakim kole jest zbieżny szereg MacLaurina funkcji tgh z.. Znaleźć kilka pierwszych

Samoocena: dzieci odnoszą się do tego, jak się czuły w czasie tego zajęcia, co było łatwe, a co trudne, jak czuje się nasz niepełnosprawny przyjaciel, wykonując zadania dla

Opis przebiegu zajęć: nauczyciel czyta fragment książki Agaty Battek Wycieczka do jaskini – ilustruje tekst. Dzieci ostatecznie dochodzą do wniosku, że bohaterami książki

[r]

[r]

 Jaki będzie wektor udziałów grupy krwi dla osobników z następnego pokolenia, dla którego jednym z rodziców jest ktoś

Pokaż, jak używając raz tej maszynerii Oskar może jednak odszyfrować c podając do odszyfrowania losowy