Matematyka dla biologów — Zaj ˛ecia nr 10.
Kombinatoryka i rachunek prawdopodobie ´nstwa
Podstawy kombinatoryki: permutacje, wariacje, kombinacje
Co to jest ci ˛ag? -przypomnienie.
Niech X b ˛edzie zbiorem sko ´nczonym. Ci ˛agiem elementów ze zbioru X nazywamy funkcj ˛e okre´slon ˛a na dowolnym podzbiorze L zbioru liczb naturalnycho warto´sciach w X czyli ka˙zdej liczbie ze zbioru L przyporz ˛adkowany jest dokładnie jeden element zbioru X .
Dla podkre´slenia tego, ˙ze elementy ci ˛agu s ˛a uporz ˛adkowane ( bo s ˛a ponumerowane) nazywa si ˛e je wyrazami.
Je´sli funkcja okre´slaj ˛aca ci ˛ag jest ró˙znowarto´sciowa to wtedy wyrazy ci ˛agu s ˛a ró˙zne (nie powtarzaj ˛a si ˛e).
Rozró˙znienie -ci ˛ agi a podzbiory
Rozpatrzmy zbiór liter X = {a,b,c}. Oto wszystkie podzbiory dwuelementowe tego zbioru (pary nieuporz ˛adkowane)
{a,b} , {a,c} {b,c} a wszystkie ci ˛agi dwuwyrazowe elementów ze zbioru X (pary uporz ˛adkowane) to
(a,a) , (a,b) , (a,c) , (b,b) , (b,a) , (b,c) , (c,a) , (c,b) , (c,c) .
Wsród pyta ´n, które mo˙zna zada´c odno´snie ci ˛agów sko ´nczonych wybierzmy dwa;
1. Ile jest wszystkich ci ˛agów p-wyrazowych o wyrazach ze zbioru m-elementowego? Czyli przyjmuj ˛ac oznaczenie, ˙ze znaczek]L oznacza liczebno´s´c zbioru L mamy
]L =p, ]X =m. (Uwaga:wyrazy ci ˛agu mog ˛a si ˛e powtarza´c)
Odpowied´z. Jest ich tyle ile jest wszystkich funkcji okre´slonych na zbiorze p-elementowym o warto´sciach w zbiorze m elementowym czyli
mp =
p
z }| {
m·m· · . . .m gdy˙z pierwszy wyraz ci ˛agu mo˙zna wybra´c na m sposobów, drugi równie˙z na m sposobów i tak dalej na ka˙zdym spo´sród p
Wariacja bez powtórze ´n
2. Ile jest wszystkich ci ˛agów p wyrazowych ze zbioru m-elementowego gdy m p i takich, ˙ze wyrazy w ci ˛agu nie powtarzaj ˛a si ˛e?
Innymi słowy, ile jest funkcji ró˙znowarto´sciowych o dziedzinie
p-elementowej o warto´sciach ze zbioru m-elementowego. Ka˙zdy taki ci ˛ag nazywa si ˛e w kombinatoryce wariacj ˛a bez powtórze ´n.
Odpowied´z. Zbiór wszystkich ci ˛agów p wyrazowych i ró˙znowarto´sciowych ze zbioru m-elementowego (czyli wariacji bez powtórze ´n) ma
m· (m−1) · (m−2) · (m−3) · . . . (m− (p−1))ozn.= Vmp elementów, gdy˙z pierwszy wyraz ci ˛agu mo˙zna wybra´c na m sposobów, ale drugi, skoro nie mog ˛a si ˛e powtarza´c, ju˙z tylko na m−1 sposobów. Kolejny na m−2 sposobów i tak dalej p-ty wyraz mo˙ze by´c wybrany na m− (p−1)
Permutacje
W przypadku szczególnym gdy m=p, wariacj ˛e bez powtórze ´n nazywamy permutacj ˛ai wtedy
Vmm =1·2· . . . (m−1)mozn.= m!
Przykłady
Ile jest wszystkich mo˙zliwych ci ˛agów zasad azotowych w 10 elementowym fragmencie ła ´ncucha RNA?
Odpowied´z. Zbiór zasad azotowych UACG jest czteroelementowy. Na ka˙zdym miejscu ła ´ncucha RNA mo˙ze by´c dowolna spo´sród czterech zasad, a wi ˛ec wszystkich mo˙zliwych jest tyle ile ci ˛agów 10-wyrazowych o warto´sciach ze zbioru czteroelementowego czyli 410=1048576.
Ograniczmy si ˛e teraz do czteroelementowych fragmentów ła ´ncucha i zapytajmy ile jest 4-elementowych ła ´ncuchów, w których ˙zadne dwie zasady si ˛e nie powtarzaj ˛a. Jest ich oczywi´scie 1·2·3·4=4! =24.
Kombinacje
Kombinacja
k -elementow ˛a kombinacj ˛a ze zbioru n-elementowego nazywamy ka˙zdy k elementowy podzbiór tego zbioru. Liczb ˛e kombinacji k -elementowych ze zbioru n-elementowego , oznaczamy przez Cnk.
Udowodnimy, ˙ze
Cnk = (nk)ozn.= n! (n−k)!k!.
Symbol(nk)to tzw. symbol Newtona, który czytamy ”n po k ”.
Dowód:
Spróbujmy najpierw znale´z´c liczb ˛e wszystkich ci ˛agów k -wyrazowych o elementach ze zbioru n elementowego, nk , czyli liczb ˛e wszystkich wariacji k -wyrazowych ze zbioru n-elementowego. Pierwszy wyraz ci ˛agu mo˙zemy wybra´c na n sposobów drugi ju˙z tylko na n−1 sposobów i tak k -ty wyraz na n− (k −1)sposobów. Teraz pozostaje uwzgl ˛edni´c, ˙ze rozró˙zniali´smy ci ˛agi w których wyst ˛epuj ˛a te same elementy w ró˙znej kolejno´sci. Liczb ˛e wszystkich wariacji bez powtórze ´n musimy zmniejszy´c tyle razy ile jest permutacji k-wyrazowych. Wszystkich kombinacji jest zatem
n(n−1) · . . . (n− (k−1))
k! = n!
(n−k)!k!.
Słowem nazywa´c b ˛edziemy dowolny ci ˛ag liter (znaków) jakiego´s alfabetu.
Oto kilka pyta ´n, które mo˙zna postawi´c odno´snie liczby słów maj ˛acych okre´slone własno´sci.
1 Ile ró˙znych słów dziesi ˛ecioliterowych mo˙zna utworzy´c z dziesi ˛eciu ró˙znych liter tak aby litery nie powtarzały si ˛e w słowie?
2 Na ile sposobów mo˙zna wybra´c trójki (nie uporz ˛adkowane) niepowtarzaj ˛acych si ˛e liter spo´sród 10 znaków alfabetu?
3 Na ile sposobów mo˙zna wybra´c słowa trzyliterowe o
niepowtarzaj ˛acych si ˛e literach spo´sród 10 znaków alfabetu?
4 Ile słów trzyliterowych mo˙zna utworzy´c z 10 liter alfabetu?
W pierwszej chwili mo˙ze si ˛e wydawa´c, ˙ze trzy ostatnie pytania dotycz ˛a tego samego zagadnienia. Tak jednak nie jest. Spróbujmy wyrazi´c te pytania w j ˛ezyku matematyki. Pierwsze pytanie dotyczy w istocie liczby wszystkich ci ˛agów 10-wyrazowych i ró˙znowarto´sciowych lub u˙zywaj ˛ac specyficznej terminologii kombinatorycznej liczby wszystkich permutacji 10 wyrazowych. Jest ich
V1010=1·2·3· . . .7·8·9· ·10=10! =3 628800.
W drugim pytaniu chodzi o liczb ˛e wszystkich podzbiorów 3-elementowych zbioru 10-elementowego bez ustalenia jakiegokolwiek porz ˛adku ich wyst ˛epowania.
W naszym przypadku C103 :=103 = 10!
7!3! = 1·2·3· . . .7·8·9· ·10
(1·2·3· . . .7) ·2·3 = 8·9·10
6 =4·3·10=120. Powy˙zsze rozumowanie zawiera odpowied´z na pytanie trzecie. Słów
trzyliterowych o niepowtarzaj ˛acych si ˛e literach jest tyle ile jest wariacji trzywyrazowych bez powtórze ´n czyli V310=10·9·8=720.
W pytaniu czwartym chodzi za´s o liczb ˛e wszystkich ci ˛agów
trzywyrazowych o wyrazach ze zbioru 10-elementowego (litery mog ˛a si ˛e powtarza´c) czyli liczb ˛e wszystkich funkcji okre´slonych na zbiorze
trzyelementowym w zbiór 10-elementowy. Jest ich tyle ile jest wszystkich
Pary alleli na chromosomach
Przyjmijmy, ˙ze w pewnej populacji organizmów diploidalnych wyst ˛epuje n odmian danego genu czyli alleli. Najcz ˛e´sciej w szkolnych zadaniach spotykamy si ˛e z przypadkiem dwóch alleli. W ogólno´sci alleli mo˙ze by´c wi ˛ecej, jest tak na przykład u grzybów podstawczaków w genach odpowiedzialnych za rozmna˙zanie. Pojawia si ˛e pytanie
Ile jest par alleli jednego genu ulokowanych w odpowiadaj ˛acych sobie miejscach na chromosomach homologicznych, je ´sli wszystkich alleli danego genu jest n?
Odpowied´z. Zwró´cmy uwag ˛e, ˙ze z punktu widzenia klasycznych praw genetyki kolejno´s´c wyst ˛epowania alleli w parze nie ma znaczenia (podobnie do liczby oczek na ko´sciach domina). Wszystkich ci ˛agów dwuwyrazowych (par) o wyrazach ze zbioru n elementowego jest n2. I taka byłaby odpowied´z je´sli rozró˙znialiby´smy pary typu (A,a) i (a,A). By wyeliminowa´c te przypadki odejmiemy najpierw od n2liczb ˛e wszystkich par maj ˛acych te same alle na obu miejscach np. (A,A). Jest ich oczywi´scie n. Poniewa˙z ka˙zde dwie pary ró˙zni ˛ace si ˛e tylko kolejno´sci ˛a traktujemy jako jedn ˛a to jest ichn22−n. Do tej liczby trzeba tylko doda´c pary maj ˛ace te same alle na obu miejscach. Ostateczn ˛a odpowiedzi ˛a jest zatem
n2−n
2 +n= n(n+1)
2 =n+12 .
W znanym przypadku dwóch alleli mamy trzy ”genotypy”: AA, Aa, aa. Dla
Przewidywalne/nieprzewidywalne
Co to jest rachunek prawdopodobie ´nstwa?
Rachunek prawdopodobie ´nstwa to dziedzina matematyki zajmuj ˛aca si ˛e badaniem modeli zjawisk i procesów o przebiegu nie daj ˛acym si ˛e
przewidzie´c z całkowit ˛a pewno´sci ˛a. Takie zjawiska nazywamy zjawiskami losowymi. Nieprzewidywalny jest wynik rzutu monet ˛a lub ko´sci ˛a, wynik meczu piłkarskiego, znalezienie wadliwej ˙zarówki w´sród nowo
wyprodukowanych, wynik pomiaru wysoko´sci przypadkowo wybranego studenta a tak˙ze wyst ˛apienie mutacji genetycznej.
Rzut monet ˛a symetryczn ˛a
W pustym pokoju podrzucamy w gór ˛e symetryczn ˛a monet ˛e. Zanim moneta upadnie wyra˙zamy dwie opinie;
1) moneta spadnie na podłog ˛e
Chc ˛ac mimo wszystko znale´z´c jak ˛a´s reguł ˛e opisuj ˛ac ˛a wyniki rzutu monet ˛a i chc ˛ac uwolni´c si ˛e od konsekwencji oddziaływania wielkiej liczby
czynników wpływaj ˛acych na przebieg ka˙zdego rzutu z osobna nale˙zy wykona´c wielk ˛a liczb ˛e powtórze ´n i przeformułowa´c s ˛ad 1), który teraz brzmiałby nast ˛epuj ˛aco
1’) W trakcie 1000 rzutów t ˛a sam ˛a monet ˛a w tych samych warunkach liczba reszek które wypadn ˛a mie´sci si ˛e w przedziale [490,510].
Rachunek prawdopodobie ´nstwa umo˙zliwia okre ´slenie stopnia pewno ´sci z jakim mo˙zna uzna ´c, ˙ze s ˛ad 1’) przewiduje rezultat konkretnej serii rzutów.
Odpowiednikiem wyrzucenia reszki b ˛ad´z orła mo˙ze by´c wyst ˛apienie b ˛ad´z niewyst ˛apienie w ci ˛agu tysi ˛aca pokole ´n, mutacji genetycznej w ustalonej cz ˛e´sci ła ´ncucha DNA, w komórce generatywnej jakiego´s organizmu.
Wyst ˛apienie mutacji w ci ˛agu kolejnego miliona lat to jakby kolejny rzut monet ˛a itd.
Ró˙znica pomi ˛edzy tym przykładem i seri ˛a rzutów monet ˛a polega na tym,
˙ze w odró˙znieniu od tego ostatniego nie mo˙zemy powtarza´c wielokrotnie przebiegów ewolucji aby oszacowa´c prawdopodobie ´nstwo pojawienia si ˛e mutacji.
Trzy powody dla których biolog winien zna ´c podstawy rachunku prawdopodobie ´nstwa:
1 Podstawowym ´zródłem przypadkowej zmienno´sci w populacjach
organizmów dwupłciowych s ˛a dwa procesy towarzysz ˛ace mejozie, w trakcie pierwszego z nich nast ˛epuje wymiana cz ˛e´sci chromatyd chromosomów homologicznych pochodz ˛acych od obojga rodziców (crossing-over), w drugim dochodzi do losowego rozchodzenie si ˛e chromatyd do biegunów komórki. Oba procesy s ˛a od siebie niezale˙zne a ich rezultat nie jest przewidywalny o czym przekona´c mo˙ze si ˛e ka˙zdy kto ma rodze ´nstwo pochodz ˛ace od tej samej pary rodzicielskiej.
2 Drugim czynnikiem powoduj ˛acym przypadkow ˛a zmienno´s´c (a tak˙ze specjacj ˛e) jest wyst ˛epowanie mutacji genetycznych. Zarówno miejsce w genomie jaki moment w którym wyst ˛api, s ˛a zjawiskami losowymi.
3 Powy˙zsze czynniki losowe wydaj ˛a si ˛e by´c immanentn ˛a cech ˛a procesów naturalnych. Innej natury czynnikiem losowym, nieprzewidywalnym, jest
Przestrze ´n zdarze ´n elementarnych
W ka˙zdym z przytoczonych wy˙zej przykładów zjawisk losowych potrafimy sporz ˛adzi´c list ˛e wszystkich mo˙zliwych sytuacji, które mog ˛a si ˛e pojawi´c w taki sposób by ka˙zda z nich wykluczała pozostałe. Ka˙zda taka sytuacja nazywa si ˛e zdarzeniem elementarnym. Jest to poj ˛ecie pierwotne rachunku prawdopodobie ´nstwa tzn. nie definiuje si ˛e go w j ˛ezyku teorii, której dotyczy.
Wszystkie zdarzenia elementarne dotycz ˛ace wyników danego
do´swiadczenia losowego tworz ˛a zbiór zdarze ´n elementarnych.Je´sli zbiór zdarze ´n elementarnych jest zbiorem sko ´nczonym to zdarzeniem mo˙ze by´c dowolny podzbiór zbioru zdarze ´n elementarnych, a w przypadku gdy zbiór zdarze ´n elementarnych jest zbiorem niesko ´nczonym, trzeba wprowadzi´c dodatkowe warunki ograniczaj ˛ace, które musi spełnia´c podzbiór b ˛ed ˛acy
Przykłady przestrzeni zdarze ´n
dla do´swiadczenia polegaj ˛acego na jednokrotnym rzucie monet ˛a zbiór zdarze ´n elementarnych jest dwuelementowy
Ω1 = {0,R} gdzie 0 reprezentuje wyrzucenie orła a R reszki.
dla do´swiadczenia polegaj ˛acego na dwukrotnym rzucie monet ˛a zbiór zdarze ´n elementarnych jest czteroelementowy i składa si ˛e z
wszystkich mo˙zliwych serii wyników
Ω2 = {(0,R) , (0,0) , (R,R) , (R,0)} ,
w przypadku pojedy ´nczego rzutu ko´sci ˛a zbiór zdarze ´n elementarnych
Wszystkie operacje, które znamy z rachunku zbiorów maj ˛a swoje odpowiedniki w rachunku zdarze ´n.
Dla przykładu je´sliΩjest zbiorem zdarze ´n elementarnych i A ⊂ Ωto zbiór A¯ = Ω \A nazywamy zdarzeniem przeciwnym. Je´sli zachodzi zarówno zdarzenie A jaki zdarzenie B to takie zdarzenie nazywa si ˛e, podobnie jak w rachunku zbiorów, iloczynem (cz ˛e´sci ˛a wspóln ˛a) zdarze ´n A∩B i.t.d. W przypadku dwukrotnego rzutu monet ˛a je´sli przez A oznaczymy zdarzenie polegaj ˛ace na wyrzuceniu orła w pierwszym rzucie a przez B zdarzenie polegaj ˛ace na wyrzuceniu orła w drugim rzucie to zdarzenie polegaj ˛ace na wyrzuceniu orła w obu rzutach to
A ∩B = {(0,R) , (0,0)} ∩ {(0,0) , (R,0)} = {(0,0)} .
Prawdopodobie ´nstwo a cz ˛esto´s´c
Poj ˛ecie prawdopodobie ´nstwa jest uogólnieniem poj ˛ecia cz ˛esto´sci. Je´sli przy n-krotnym powtórzeniu danego do´swiadczenia zdarzenie A zachodzi nA razy to liczb ˛e cA =nA/n nazywamy cz ˛esto ´sci ˛a wyst ˛epowania zdarzenia A . Rozwa˙zmy dla przykładu sekwencj ˛e zasad nukleinowych w ła ´ncuchu DNA. Przypomnijmy, ˙ze ze wzgl ˛edu na podobie ´nstwo budowy cz ˛asteczek wyró˙znia si ˛e puryny: adenin ˛e ozn. A i guanin ˛e ozn. G oraz pyrymidyny cytozyn ˛e ozn. C i tymin ˛e ozn. T. Zasady A i T oraz G i C tworz ˛a pary komplementarne. W 12-wyrazowej sekwencji zasad
AGCTGGCGACTA
cz ˛esto´s´c wyst ˛epowania adeniny A wynosi 14 , cz ˛esto´s´c wyst ˛epowania guaniny G wynosi 1, a cz ˛esto´s´c wyst ˛epowania puryn wynosi 1 +1 = 7 .
Aksjomaty rachunku prawdopodobie ´nstwa
Przyjmuj ˛ac aksjomaty sformułowane przez Andrieja Kołmogorowa (1896-1945) mo˙zna uwolni´c si ˛e od ´zródłowego poj ˛ecia cz ˛esto´sci.
NiechΩb ˛edzie przestrzeni ˛a zdarze ´n elementarnych.
Prawdopodobie ´nstwo zdarzenia A oznaczamy przez P(A).
1 Dla dowolnego zdarzenia A ⊂ Ω , 0¬P(A) ¬1.
2 P(Ω) =1
3 Dla ka˙zdej pary rozł ˛acznych zdarze ´n A i B P(A∪B) =P(A) +P(B) .
Drugi aksjomat mówi, ˙ze zaj´scie którego´s ze zdarze ´n spo´sród wszystkich mo˙zliwych jest pewne tzn. ˙ze zbiórΩuwzgl ˛ednia wszystkie mo˙zliwe
W przypadku rzutu monet ˛a spadaj ˛ac ˛a na płask ˛a poziom ˛a powierzchni ˛e s ˛a tylko dwie mo˙zliwo´sci i po wykonaniu rzutu na pewno która´s z nich si ˛e zrealizuje czyli prawdopodobie ´nstwo tego, ˙ze wypadnie orzeł lub reszka równe jest 1. Z aksjomatów 2 i 3 wynika, ˙ze dla dowolnego zdarzenia A ⊂ Ω
P(A) +P(Ω \A) =1. (1)
A wi ˛ec jest pewne, ˙ze zdarzy si ˛e A lub zdarzy si ˛e zdarzenie przeciwne Ω \A.
W pełnej matematycznej teorii prawdopodobie ´nstwa uwzgl ˛edniaj ˛acej przypadek gdy zbiór Ω jest zbiorem niesko ´nczonym np. zbiorem liczb rzeczywistych, ostatni aksjomat jest niewystarczaj ˛acy i rozszerza si ˛e go tak˙ze na niesko ´nczone (przeliczalne) sumy zdarze ´n parami rozł ˛acznych. Konsekwencji tego nie b ˛edziemy dalej rozwa˙za´c ograniczaj ˛ac si ˛e na razie do przypadku
prawdopodobie ´nstwa dyskretnego tzn. sytuacji gdy zbiór Ω ma sko ´nczenie
Trzeba podkre´sli´c, ˙ze prawdopodobie ´nstwo jest funkcj ˛a okre´slon ˛a na zbiorze zdarze ´n, czyli podzbiorów zbioruΩi z tego powodu, bez
wcze´sniejszego ustalenia konwencji notacyjnej, zapis P(ω)dla okre´slenia prawdopodobie ´nstwa zdarzenia elementarnegoω ∈ Ωjest niepoprawny.
Powinno zapisa´c si ˛e P({ω})
W danym zbiorze zdarze ´n elementarnych prawdopodobie ´nstwo mo˙zna wprowadzi´c na wiele ró˙znych sposobów byle spełnione były aksjomaty.
Najprostsza sytuacja jest wtedy, gdy zdarzenia elementarne s ˛a jednakowo prawdopodobne. Rozpatrzmy n-elementow ˛a przestrze ´n zdarze ´n
elementarnych
Ω = {ω1, ω2, . . . , ωn} Wtedy dla ka˙zdego i ∈ {1, . . .n}mamy
P({ωi}) = 1 n.
Konsekwentnie je´sli jakie´s zdarzenie A ⊂ Ωma m elementów to P(A) = m
n .
W dwuelementowym zbiorze zdarze ´n elementarnychΩ0Rozn.= {0,R} mo˙zemy zada´c prawdopodobie ´nstwo P1przyjmuj ˛ac, ˙ze zdarzenia elementarne s ˛a jednakowo prawdopodobne
lub przyj ˛a´c, ˙ze
P2({0}) =0.499, P2({R}) =0.501.
Przestrze ´n probabilistyczna(Ω0R,P1)jest modelem probabilistycznym dla do´swiadczenia losowego polegaj ˛acego na jednokrotnym rzucie monet ˛a idealnie symetryczn ˛a.
Czy to jest dobry model przekona´c mo˙zna si ˛e tylko wykonuj ˛ac do´swiadczenia w postaci długiej serii powtórze ´n rzutu monet ˛a w tych samych warunkach.
Matematyczna teoria prawdopodobie ´nstwa nie zajmuje si ˛e w zasadzie tym czy dany model probabilistyczny dobrze opisuje przebieg konkretnego
do´swiadczenia. Dostarcza jedynie ogólnej teorii daj ˛acej podstawy do prowadzenia takich bada ´n i daje tak˙ze podstawy do bada ´n statystycznych.
Jednym z celów statystki jest oszacowanie na podstawie danych empirycznych prawdopodobie ´nstw ró˙znych zjawisk. Tak otrzymane prawdopodobie ´nstwa konkretyzuj ˛a model probabilistyczny. Po przeprowadzeniu dostatecznie wielu
1. Zadanie do zrobienia na zaj ˛eciach
1 Rozwa˙zmy zbiór zdarze ´n elementarnychΩmaj ˛acy n elementów. Ile jest zatem wszystkich mo˙zliwych zdarze ´n. Uzasadni´c, ˙ze jest ich tyle ile jest wszystkich funkcji ze zbioru n-elementowego w zbiór
dwuelementowy czyli ?
2 Korzystaj ˛ac z powy˙zszego uzasadni´c, ˙ze
2n =
n
X
k =0
(nk) .
2. Zadanie do zrobienia na zaj ˛eciach
Cztery mał˙ze ´nstwa chcemy usadzi´c na o´smiu krzesłach stoj ˛acych w szeregu. Na ile sposobów mo˙zna to zrobi´c,
1 nie bacz ˛ac kto koło kogo siedzi,
2 tak aby mał˙zonkowie siedzieli obok siebie,
3 tak aby m ˛e˙zowie siedzieli razem w jednej grupie obok siebie, a ˙zony w drugiej,
4 tak aby ˙zona siedziała obok swojego m ˛e˙za i jakiej´s innej ˙zony.