ROCZNIKI POLSKIEGO TOWARZYSTW A MATEMATYCZNEGO Seria III: MATEMATYKA STOSOWANA XV (1979)
STANISŁAW GNOT, HENRYK MATEJ, TEOFIL SzuLGA (Wrocław)
Test dokładny dla testowania hipotezy o równowadze Hardy'ego-Weinberga
(Praca
przyjętado druku 4.04.1978)
1. Podstawowe pojęcia i definicje w genetyce. Informacja genetyczna żywych organizmów zapisana jest w materiale genetycznym zawartym w jądrze komórki.
Nosicielem tej informacji jest kwas dezoksyrybonukleinowy (DNA), związek che- miczny w formie długich nici, zbudowany z jednostek zwanych nukleotydami. Sek- wencja nukleotydów stanowi kod informacyjny. W jądrze materiał genetyczny podzielony jest na specyficzne zbiory zwane chromosomami. W komórkach czło
wieka chromosomy są tworami parzystymi, przy czym liczba par jest stała i wynosi 23.
W tej liczbie mieści się 22 pary chromosomów nie związanych z płcią oraz jedna para chromosomów płciowych. Parzystość chromosomów wynika z połączenia się
dwu rodzicielskich komórek zwanych gametami.
Jednostką funkcjonalną materiału genetycznego jest gen. Jest to niewielki od- cinek DNA, a jego miejsce (pozycja) w chromosomie nazywa się locusem. Geny
związane z danym miejscem mogą występować w różnych postaciach (allelach).
Ze względu na parzystość chromosomów pojęcie „locus" obejmuje dwa identyczne miejsca na parze chromosomów. Wynika z tego, że osobnik określony jest przez
parę genów w jednym locus. Osobnik posiadający dwa identyczne allele w danym locus nazywa się homozygotą, natomiast osobnik, u którego allele są różne, nazywa się heterozygotą. Całkowite genetyczne ukonstytuowanie organizmu określa jego genotyp.
Termin genotyp używany jest także w odniesieniu do większej liczby loci. Produktem
aktywności genotypu są cechy osobnicze, nazywane fenotypem. Jeżeli u heterozy- goty produkty obu alleli ujawniają się w fenotypie, mówimy o kodominacji. Jeżeli
natomiast ujawni się tylko produkt jednego allelu, gen taki nazywamy dominującym,
a gen nieujawniony - genem recesywnym. Rozpatrzmy dla przykładu jeden locus w chromosomie z allelami A 1 i A 2 • W tym przypadku możliwymi genotypami są:
A 1 XA 1 , A 1 XAi., A 2 XA 2 • Jeżeli gen A 2 jest genem recesywnym, wówczas geno- typy A 1 XA.
1i A
1XA 2 określają taki sam fenotyp. W wielu układach genetycznych liczba możliwych alleli jest większa od 2.
Rozważmy jedno miejsce w chromosomie u indywiduów tworzących pewną populację n. Przypuśćmy, że w locus tym mogą pojawić się allele A 1 , A 2 , ••• , Am.
[99]
Niech Gii będzie genotypem powstałym przez połączenie gamet z allelami Ai oraz Aj (Gii = Gji). Oznaczmy przez Pij częstość (frakcję) genotypu G 1 j w badanej popu- lacji (pij = Pji, Pii > O). Parametry
(1) ti = Pii+(l/2) L Pii, i= 1, 2, ... , m,
i
"#jnazywamy częstościami genów A
1,A 2 , ••. ,Am, odpowiednio. Struktura genetyczna badanej populacji może być opisywana zarówno w terminach częstości genotypów, jak też częstości genów. Związek pomiędzy częstościami genów i genotypów dany wzorem (1) wygodnie przedstawić jest w formie macierzowej. Niech A będzie ma-
cierzą częstości genotypowych określoną w następujący sposób:
A = (1/2)P21 P22 (1/2)P2m [
P11 (1/2)P12 ... (l/2)P1ml
. . . .
. . .
. . .
(l/2)Pmt (l/2)Pm2 ··· Pmm
Macierz A jest macierzą symetryczną o elementach sumujących się do jedności, tzn.
l'Al = 1,
gdzie 1 jest wektorem kolumną, złożonym z samych jedynek. Wektor częstości genów t = (t
1 ,1
2 , ••• ,tm)' wyraża się wzorem:
t =Al.
W dalszym ciągu rozważać będziemy populacje, w których spełnione są na-
stępujące założenia:
a) w populacji nie występują czynniki oddziaływające na jej strukturę gene-
tyczną, takie jak: mutacja; selekcja, migracja,
b) populacja . zawiera jednakową liczbę osobników męskich i żeńskich,
c) rozkład częstości genotypów (genów), męskich i żeńskich jest taki sam, d) poszczególne generacje populacji nie zachodzą na siebie,
e) każdy z dwóch genów może pojawić się w wyprodukowanej przez osobnika gamecie z prawdopodobieństwem 1/2 (jest to tzw. pierwsze prawo Mendla).
Przyjęte założenia umożliwiają badanie dynamicznej i statystycznej struktury populacji przy pomocy modeli matematycznych. Warto zaznaczyć, że drobne od-
stępstwa od większości z tych założeń nie wpływają zasadniczo na zmianę rozwa-
żan~ch modeli.
2. Losowa asocjacja gamet. Prawo Hardy'ego-Weinberga. Mówimy, że w popu- lacji n z wektorem częstości genów t spełnione jest założenie losowej asocjacji gamet,
jeżeli częstości genotypów w pierwszej generacji n
1spełniają warunki:
p ii = 2t
iti, i = j, i = 1, 2, ... , m, Pii = tl, i= 1, 2, ... , m, lub w notacji macierzowej
A
1= tt' = All'A.
Test
dokładnydla hipotezy Hardy'ego-Weinberga 101 Tutaj A i A
1są macierzami częstości genotypów w populacji n i n
1 ,odpowiednio.
Rozważmy pewną wyjściową populację n 0 z macierzą częstości genotypów A 0
i z wektorem częstości genów t
0= A
01. Załóżmy, że w populacji n
0założenie
losowej asocjacji gamet jest spełnione, tzn. w pierwszej generacji n
1macierz częstości
genotypów jest postaci
A1 = t 0 t~ = A
01l'A
0 •Wektorem częstości genów w populacji n 1 jest t1 = A1 1 = tot~l =to, a macierzą częstości genotypów w drugiej generacji n
2jest
A 2 =t1t~=A1.
W konsekwencji otrzymujemy następujące wnioski:
(i) w populacji z losową asocjacją gamet wektor częstości genów t jest w każdej generacji taki sam jak w populacji wyjściowej (jest to tzw. prawo równowagi Har- dy'ego-Weinberga),
(ii) w populacji założenie losowej asocjacji gamet jest spełnione wtedy i tylko wtedy, gdy macierz A częstości genotypów spełnia warunek:
(2) A= tt' = All'A.
Wiele problemów rozważanych w genetyce populacyjnej rozwiązywanych jest przy założeniu losowej asocjacji gamet. Testowanie tej hipotezy opiera się zazwyczaj na statystyce x
2Pearsona, jednakże w przypadkach niewielkiej liczby obserwacji test x 2 powinien być zastąpiony testem dokładnym. w pracy podany jest opis jedno- stajnie najmocniejszego testu nieobciążonego dla modeli genetycznych z dwoma allelami. Test konstruuje się na podstawie ogólnej teorii testowania hipotez liniowych dla rodzin rozkładów wykładniczych rozwiniętej przez Birnbauma [l], Lehmanna [3], Truaxa [5], Truaxa i Matthesa [4]. Podany jest też przykład zastosowania tego testu dla układu MN grup krwi.
3. Postać kanoniczna hipotezy liniowej dla rodziny wykładniczej rozkładów prawdo-
podobieństwa. Rozważmy rodzinę wykładniczą rozkładów prawdopodobieństwa
wektora losowego X = ( X
1 ,X
2 , ••• ,Xk )' postaci:
k
(3) fe(x) = W(9)H(x)exp { L Oixi} = W(6)H(x)exp{9'x}, 9 E Q,
i=l
względem pewnej a-skończonej miaryµ. Tutaj 9'x jest iloczynem skalarnym wekto- rów 6 i x, Q jest tzw. naturalną przestrzenią parametrów, tzn.
Q = {ee alk: ~ exp{6'x}dµ (x) <oo},
!!"
a f!l jest przestrzenią realizacji wektora losowego x. Niech Q
0będzie r-wymiarową podprzestrzenią liniową przestrzeni rJ4k (O < r ~ k). Rozważmy hipotezę liniową
H:6eQ
0nQ.
Niech p 1 , p 2 , ••• ,Pr będzie bazą w przestrzeni Q
0 ,a Pr+ 1 , Pr+ 2 , ••• , Pk niech będzie uzupełnieniem bazy w !lo do bazy w rJtk. Każdy wektor e E Q można w sposób
jednoznaczny przedstawić w postaci:
k
6=.L:e;Pi·
i=l
Niech Ę = (e 1 , e 2 , ••. , ed będzie wektorem współczynników kombinacji i=l L k ~;p;
i niech P będzie macierzą, której kolumnami są wektory p;, i= 1, 2, ... , k. Wówczas 6 = P'Ę oraz Ę = P' -
1e.
Rozważmy wektor losowy T = PX. Na mocy (3) rozkład prawdopodobieństwa
wektora T jest postaci:
Ke(t) = W(P'Ę)H(P-
1t)exp{Ę't}.
Ponieważ dla 6 e Q 0 er+
i= er+
2= ... = ek = O, hipoteza H przyjmuje nastę
pującą postać kanoniczną:
H: er+
1= er+ z = ... = ek = O.
W przypadku, gdy r = k- 1, tzn. gdy hipoteza H dotyczy tylko jednego parametru i jest postaci :
H: e1c =O,
rozwiązaniem problemu testowania H jest jednostajnie najmocniejszy test nie-
obciążony, który jest określony za pomocą następującej funkcji krytycznej:
gdy tk > C
1lub l1c < Cz, gdy 1" = ej, i = 1, 2, gdy C 1 < t1c < Cz,
z funkcjami ci i i'i zależnymi od t 1, 11' ... , '"-1 i wyznaczonymi z warunków:
Eek=o[<p(T1clt1, Iz, ... , l1c-1)l =et oraz
Eek= 0 [T1c<p(T1clt 1 , t 2 , ••• , t1c_ 1 )] = etEet= 0 (T1clt 1 , t 2 , ••• , t1c_ 1 )
(por. Lehmann [2]). Aby wyznaczyć funkcje C; i f'i, konieczna jest znajomość wa- runkowego rozkładu prawdopodobieństwa Tt. przy warunkach T1 = t 1, T
2=
= t2, ... , T1c-1 = t1c- 1 oraz przy prawdziwości hipotezy H: e1c = O.
7. Testowanie hipotezy o równowadze Hardy'ego-Weinberga dla układu z dwoma
allelami. Rozważmy układ genetyczny z dwoma allelami A1 i A 2 • Niech Kii będzie
częstością osobników powstałych przez połączenie gamety męskiej A; z gametą
żeńskąAi, i,j = 1, 2. Przytychoznaczeniachp 11 =Ku ,p 12 = Ku+K21 iP22 = Kn
są częstościami genotypów G 11 , G 12 i G
22odpowiednio. Rozkład prawdopodo-
Test
dokładnydla hipotezy Hardy'ego-Weinberga 103 bieństwa liczby X;i osobników powstałych przez połączenie gamety męskiej A;
z żeńską Ai w próbie n elementowej jest rozkładem wielomianowym postaci:
(n!/x11 ! X12 ! X21 ! X22 !) · gf\ 1 gf~ 2 gli 1 g1~ 2 , L i,; Xij = n, I i
,jg;i = I.
W przypadku chromosomów nie związanych z płcią naturalnym wydaje się założenie
g
12= g21 lub (co jest równoważne) p
12= 2g12 .
Przy tym założeniu zgodnie ze wzorem (2) założenie losowej asocjacji gamet jest
spełnione wtedy i tylko wtedy, gdy macierz częstości genotypów A= [g11 gi2]
g21 g22.
jest macierzą rzędu jeden lub, co jest równoważne, wtedy i tylko wtedy, gdy wy- znacznik macierzy A jest równy zeru. Hipoteza o losowej asocjacji gamet przyjmuje zatem postać:
H: gug22 = gi2·
Przyjmując oznaczenia 0 1 = ln(g
11/g 12 ), () 2 = ln(g22 /g 12 ) otrzymujemy:
H: 0 1 +0 2 = O,
a rozkład prawdopodobieństwa wektora losowego X= (X 11 , X 12, X 21 , X 22 )' przyj- muje postać:
H(x)g~1exp(x1101 +x 22 02).
Bazą w przestrzeni Q
0= { (01, 02)': 01 +0
2= O} jest wektor p 1 = (1, -1)', który wraz z wektorem p2 = (1, O)' tworzy bazę w 9t 2 • Przyjmując
[1 -1]
p = 1 o'
Rozkład prawdopodobieństwa wektora T = (T1, T
2 }'jest postaci:
W(Ę)H(t)exp{;1 t1 +;2t2 }, gdzie Ę = P' - 1(()
1 ,O 2 )'. Ponieważ
p•-1 = [~ -:],
mamy: ;t = -0 2 = ln(g 12 /g 22 ), ; 2 = 01 +0 2 = ln(g 11 g22 /gi 2 ), a hipoteza H przyjmuje następującą postać kanoniczną:
H: e 2 =O.
Jednostajnie najmocmeJszym testem nieobciążonym dla testowania H, zgodnie z rozważaniami rozdziału poprzedniego, jest
gdy t2 < C 1 (t 1) lub t 2 > C 2(t1), gdy t 2 = C; (ti), i = 1, 2,
gdy C1 (t1) < 12 < C2 (ti).
Ponieważ X11 -X22 = ti i X11 +X22 = n, zmienna losowa T2 = X 11 może przyj-
mować wartości z przedziału (n
0 ,ni), gdzie n 0 = max{O, ti} i ni= [(n+t
1)/2].
Funkcje Ci i y; wyznacza się z warunków:
~
2
L Prh= 0 {T2 = t2IT1 = ti}+ Lr;Pr~ 2 =o{T2 = C;IT1 = ti}+
t2=no i=l
n1
+ I Pr;
2=o{T2 = t2 IT1 = t1} = ex,
t2=C2
C1 2
L 12Pr;
2= 0 {T2 = t2IT1 = ti}+ Ly;l2Pr;
2=o{T2 = C;IT1 =li}+
t2=no i=l
n1 n1
+ L t2Pr;
2=o{T2 = 12 ITi = t1} = a L l2Pr;2=o {T2 = l2IT1 = 11 }.
t2=C2 t2=no
W celu znalezienia warunkowego rozkładu prawdopodobieństwa zmiennej loso- wej T
2przy warunku T1 = li i przy założeniu losowej asocjacji gamet, zauważmy, że:
Pr{T2 = t 2 IT1 = li}= Pr{X11 = 12, X11 -X 22 = ti}/Pr{X11-X22 = li}=
111
= Pr{X11 = 12, X 22 = 12 -1 1 }/ L Pr{X
11= 12, X22 = t2-t1 }.
t2=no
Łączny rozkład prawdopodobieństwa zmiennych X11 i X 22 jest rozkładem wielo- mianowym postaci:
Pr{X11 = t2,X22 = 12-11} = [n!/t 2 !(t 2 -t 1 )!(n-212+li)!]g~
21 g~ 2 2 -' 1 (2g12)"-
2'
2+'
1=
= g~2(g12 /g22)'12n-2t2+t1H,1 (l2)e'2, gdzie
H,1 (t2) = n!/12!(/2-11)!(n-2t2+1i)! oraz e = gug22/gf2·
Z powyższych rozważań wynika, że
n1
Pr{T2 = t2 ITi = ti} = (I/4)'
2H,1(12)r/
2 /t2=no L (1/4)'
2H,1 {t2)e'
2•Przy założeniu losowej asocjacji gamet e = I rozkład warunkowy zmiennej T2 przy warunku Ti = I
2przyjmuje następującą postać:
111