Wykład numer 6 z Rachunku Prawdopodobieństwa
Dwa uzupełnienia poprzedniego wykładu Kwartyle
Przypomnijmy, że mediana rozkładu zmiennej losowej X to taka liczba M , dla której P (X ¬ M) 12 oraz P (X M) 12. Mediana dzieli więc rozkład na dwie części, z których każda jest większa bądź równa 12. Analogicznie można podzielić rozkład na 4 części, z których każda jest większa bądź równa
1
4. Te punkty podziału to kwartyle (podobnie, kwartał to 1/4 część roku). Isnieją więc 3 kwartyle:
q1, q2 oraz q3. Formalna definicja jest nastepująca:
Definicja:
Liczba q1 jest pierwszym kwartylem rozkładu zmiennej X, jeżeli P (X ¬ q1) 14 oraz P (X q1) 34. Liczba q3 jest trzecim kwartylem rozkładu zmiennej X, jeżeli P (X ¬ q3) 34 oraz P (X q3) 14. Liczba q2 jest drugim kwartylem rozkładu zmiennej X, jeżeli P (X ¬ q2) 12 oraz P (X q1) 12, zatem drugi kwartyl to po prostu mediana,
Podobnie definiuje się kwantyle rzędu r∈ (0, 1), np. kwantyl rzędu 0, 2 to taka liczba k0,2, dla której P (X ¬ k0,2) 0, 1 oraz P (X k0,2) 0, 8.
Zadanie Oblicz piewszy kwartyl rozkładu wykładniczego z parametrem α = 1.
Rozwiązanie:
Dystrybuantą tego rozkładu jest funkcja FX(t) = 0 dla t ¬ 0 oraz FX(t) = 1− e−t dla t > 0, jest ona ciągła i ściśle rosnąca na (0, ∞), więc osiąga poziom 14 tylko w jednym punkcie. Aby obliczyć q1 musimy zatem rozwiązać równanie
1− e−q1 = 1
4, skąd q1 =− ln3
4 = ln4
3 ≈ 0, 287682.
Dwa rozkłady z niezwykle ważną własnością
Jak zauważyliśmy na poprzednim wykładzie, omawiając konsekwencje Prawa Wielkich Liczb, mo- neta „nie pamięta” wyników, jakie wypadły w poprzednich próbach (to chyba rozsądne założenie, dodatkowo zgadza się ono z obserwacjami rzeczywistych monet). Zobaczmy co na ten temat mówi teoria.
Czas oczekiwania na pierwszy sukces (np. pojawienie się orła po raz pierwszy przy rzutach symetry- czyną monetą) ma rozkład geometryczny z parametrem p = 12. Niech X będzie numerem rzutu, w którym wypadnie pierwszy orzeł. Wtedy P (X = n) = 21n, n = 1, 2, 3, ....
Dla liczb naturalnych n, m obliczmy prawdopodobieństwo warunkowe tego, że na pierwszego orła trzeba będzie czekać (licząc od początku rzutów) więcej niż n + m prób pod warunkem, że już wykonalismy n prób i orzeł się w nich nie pojawił:
P (X > n + m| X > n) = P ((X > n + m) i (X > n))
P (X > n) = P (X > n + m) P (X > n) =
∑∞
k=n+m+1 1 2k
∑∞
k=n+1 1 2k
= 1 2m, gdyż ∑∞k=n+m+121k = 2n+m1 , natomiast ∑∞k=n+121k = 21n.
Ale P (X > m) = ∑∞k=m+1 21k = 21m skąd wypływa wniosek, że gdy czekamy na pierwszego orła i już wykonaliśmy n prób, w których orzeł się nie pojawił, to cały proces czekania zaczyna sie od nowa! Skoro moneta „nie pamięta”, to tak rzeczywiście być powinno:
P (X > n + m| X > n) = P (X > m).
Taką własność rozkładu nazywamy „brakiem pamięci”.
Tak samo jest przy wykonywaniu dowolnych prób Bernoulliego z parametrem p ∈ (0, 1). Analogiczny rachunek jak powyżej, z liczbą 12 zastąpioną przez p, prowadzą do wniosku, że
P (X > n + m| X > n) = P (X > m)
dla zmiennej o rozkładzie geometrycznym z parametrem p ∈ (0, 1), zatem ten rozkład też ma wła- sność braku pamięci. Można udowodnić więcej:
Jeżeli zmienna X przyjmuje tylko wartości naturalne tzn. 1, 2, 3, .., i rozkład X ma własność braku pamięci, to X ma rozkład geometryczny z jakimś parametrem p∈ (0, 1).
Innymi słowy, jeśli czekamy na pojawienie się pewnego zdarzenia i może ono pojawić się tylko w momentach o numerach 1, 2, 3,... , a czas czekania ma własność braku pamięci, to ten czas musi mieć rozkład geometryczny.
A jeśli czekamy na czas pierwszej awarii jakiegoś urządzenia (ten czas może przyjmować dowolne wartości z półprostej (0, ∞)) i gdy ten czas ma własność braku pamięci, to jaki może mieć rozkład?
Okazuje się, że jedynym rozkładem skupionym na całej półprostej (0, ∞) o własności braku pamięci, jest rozkład wykładniczy z parametrem α > 0. Sprawdzenie, że ten rozkład ma własność
P (X > t + s| X > t) = P (X > s) dla wszystkich t, s > 0 pozostawiam jako (łatwe) zadanie.
Parametry rozkładów: wariancja
Rozważmy dwie zmienne losowe X oraz Y o rozkładach: X −1 1 pk 12 12
Y −10 10 pk 12 12
Jak łatwo obliczyć obie mają taką samą wartość oczekiwaną (czyli średnią): E(X) = (−1)·12+1·12 = 0, E(Y ) = (−10) ·12+ 10·12 = 0. Co już na pierwszy rzut oka różni te rozkłady? Zmienna X jest bardziej skupiona wokół swojej średniej (odchyla się od niej tylko o ±1), podczas gdy Y odchyla się od swojej średniej o ±10. Miarą rozrzutu wartości zmiennej od jej wartości średniej jest wariancja:
Definicja
Wariancją zmiennej losowej X nazywamy liczbę V ar(X) = E[(X − E(X))2], o ile ta wielkość jest skończona. Inne powszechnie stosowane oznaczenia wariancji to D2(X) lub σX2.
Wzory do obliczania wariancji:
a) Gdy zmienna X ma rozkład dyskretny i P (X = xn) = pn, n = 1, 2, ..., to V ar(X) =∑
n
(xn− E(X))2pn, o ile szereg jest zbieżny.
b) Gdy zmienna X ma rozkład o gęstości f (x), to V ar(X) =
∫ ∞
−∞(x− E(X))2f (x) dx, o ile całka jest zbieżna.
Wykorzystując wzory na E(X) możemy powyższe wzory zapisać w nieco innej postaci:
V ar(X) =∑
n
x2npn−
(∑
n
xnpn
)2
dla zmiennej o rozkładzie dyskretnym,
V ar(X) =
∫ ∞
−∞x2f (x) dx−(∫ ∞
−∞x f (x) dx
)2
dla zmiennej o rozkładzie z gęstościa f (x).
Wykorzystaliśmy tu poniższą własność wariancji, mianowicie, jeżeli zmienna X ma wariancję skoń- czoną, to
V ar(X) = E(X2)− (E(X))2.
Dwie inne i często używane własności wariancji są następujące: jeżeli X i Y mają skończone wariancje, a liczby a oraz b są rzeczywiste, to
1. V ar(aX) = a2V ar(X)
2. V ar(X + Y ) = V ar(X) + V ar(Y ), o ile zmienne X i Y są niezależne.
Jak rachunkowo sprawdzić niezależność zmiennych X i Y , dowiemy się z następnego wykładu.
Przykłady:
0. Zmienna stała, tzn. P (X = c) = 1 ma oczywiście średnią E(c) = c i wariancję zero: V ar(c) = E(c− c)2 = 0 (bo w ogóle nie odchyla się od swojej średniej). Zmienna stała to jedyny typ zmiennej o wariancji zerowej.
1. Niech P (X = a) = p, P (Y = b) = 1− p = q, wtedy E(X) = ap + bq, natomiast V ar(X) = a2p + b2q− (ap + bq)2, w szczególności, gdy P (X = 1) = p, P (X = 0) = 1− p = q, to E(X) = p, a V ar(X) = (1− p)2p + (0− p)2q = pq.
2. Jeżeli Sn ma rozkład Bernoulliego z parametrami n oraz p, to E(Sn) = np, więc
V ar(Sn) =
∑n k=0
(k− np)2
(n k
)
pk(1− p)n−k = ... = npq.
Tę skończoną sumę można obliczyć analitycznie (co wymaga niemal strony rachunków), ale my skorzy- stamy z własności wariancji oraz z faktu, z którego skorzystaliśmy przy obliczaniu E(Sn). Mianowicie, zmienna Sn ma taki sam rozkład jak suma niezależnych zmiennych losowych X1, X2, ..., Xn, każda o rozkładzie P (Xk = 1) = p, P (X = 0) = 1−p, skąd wynika, że wartości oczekiwane i wariancje zmien- nych Sn oraz X1+ ... + Xn są jednakowe. Z własności wariancji i faktu, że kolejne próby Bernoulliego są niezależne (zatem zmienne X1, X2, ..., Xn też są niezależne) mamy
V ar(Sn) = V ar(X1+ X2+ ... + Xn) = V ar(X1) + V ar(X2) + ... + V ar(Xn) = npq, bo, jak obliczyliśmy w poprzednim przykładzie, V ar(Xk) = pq dla k = 1, 2, ..., n.
3. Jeżeli X ma rozkład jednostajny na przedziale [a, b], to E(X) = a+b2 , więc
V ar(X) =
∫ b
a
(
x− a + b 2
)2
· 1
b− adx = (b− a)2 12 . 4. Gdy X ∼ N(m, σ2), to E(X) = m, zatem
V ar(X) =
∫ ∞
−∞(x− m)2· 1
√2πσe−(x−m)22σ2 dx = σ2,
co łatwo obliczyć, podstawiając w całce z = x−mσ , dz = σ dx i licząc otrzymaną całkę przez części:
z2e−z2/2 = z· ze−z2/2. Zauważamy, że pierwotną funkcji ze−z2/2 jest funkcja −e−z2/2 i korzystamy z faktu, że całka z gęstości po całej prostej jest równa 1.
Poznaliśmy więc znaczenie obu parametrów rozkładu normalnego N (m, σ2): liczba rzeczywista m to wartość średnia tego rozkładu, a liczba dodatnia σ2 to jego wariancja. To tłumaczy też wykorzysty- wanie σ2 na oznaczenie wariancji w przypadku innych rozkładów.
Przypuśćmy, że X oznacza wynik pomiaru pewnej długości w centymetrach. Wtedy E(X) wyraża się też w centymetrach, ale łatwo sprawdzić, korzystając ze wzorów na wariancję, że wariancja tych pomiarów będzie w centymetrach kwadratowych. Jest to nienaturalna jednostka, bo gdyby chodziło np. o wysokość zarobków, to ich wariancja byłaby w zł2! Aby uniknąć takich sytuacji, często zamiast
wariancji, używa się pierwiastka kwadratowego z wariancji, tę wielkość nazywa się dyspersją i oznacza σX:
σX =
√
V ar(X).
Ten ostatni wzór szczególnie łatwo zapamiętać, jeżeli wariancję oznaczamy symbolem σX2, wtedy oczy- wiście σX =
√
σ2X.
Rysunek powyżej przedstawia wykres prawdopodobieństw w schemacie Bernoulliego B(400,12). Gdy- by połączyć wierzchołki kolejnych słupków linią ciągłą, otrzymalibyśmy krzywą bardzo podobną do krzywej Gaussa, czyli wykresu rozkładu normalnego o pewnych parametrach m oraz σ2. Okazuje się, że to nie przypadek. W XVIII wieku udowodniono bowiem następujące twierdzenie:
Twierdzenie de Moivre’a – Laplace’a
Niech Sn oznacza liczbę sukcesów w schemacie Bernoulliego z parametrami n oraz p. Dla każdej pary
−∞ ¬ a < b ¬ ∞ zachodzi równość
nlim→∞P
(
a < Sn− np
√npq < b
)
=
∫ b
a
√1
2πe−x2/2dx = Φ(b)− Φ(a).
Zauważmy, że od Snodejmuje się wartość oczekiwaną E(Sn) = np i tę różnicę dzieli się przez pierwia- stek z wariancji Sn czyli przez
√
V ar(Sn) =√ npq.
Zbieżność w tym twierdzeniu jest dość szybka: w najgorszym możliwym przypadku wyrażenie P (S√nnpq−np < t) różni się od Φ(t) o mniej niż p√2+qnpq2. W związku z tym dla dużych wartości n przyjmuje się często przy- bliżenie
(∗) P
(
a < Sn− np
√npq < b
)
≈∫ b
a
√1
2πe−x2/2dx = Φ(b)− Φ(a).
Innymi słowy, dla dużych (a czasem i dla dość małych) wartości n rozkłady (a więc dystrybuanty) zmiennych S√n−npnpq oraz Z o rozkładzie N (0, 1) są bliskie. Oznacza to, że dystrybyanta rozkładu Sn jest bliska dystrybuancie rozkładu zmiennej√
npqX + np, czyli dystrybuancie rozkładu N (np, (√
npq)2).
To twierdzenie ma bardzo ważne konsekwencje zarówno w teorii, jak i w praktyce. O wnioskach dla teorii wspomnimy pod koniec tego wykładu, teraz pokażmy kilka zastosowań praktycznych. Polegają one na użyciu przybliżenia (∗) w przypadku dużych wartości n zamiast wartości dokładnej, trudnej do obliczenia. Oto przykłady:
Zadanie: Zamierzam wykonać 100 rzutów symetryczną monetą. Jakie jest prawdopodobieństwo zda- rzenia: liczba orłów będzie zawarta w przedziale [40, 60]?
Rozwiązanie: Jest to typowy przykład schematu Bernoulliego. Mam obliczyć P (40 ¬ S100 ¬ 60).
Oczywiście mogę podać wzór dokładny:
P (40¬ S100¬ 60) = ∑60
k=40
(100 k
) 1
2100 =???
Teraz można dość szybko obliczyć to za pomoca komputera, nie tak dawno temu było to niemożliwe.
Nawet dziś, analogiczne zadanie dla n = 10100 i przedziału [12 · 10100− 1050, 1210100+ 1050] przekra- cza możliwości superkomputerów. A im większe n, tym Twierdzenie de Moivre’a – Laplace’a daje dokładniejsze przybliżenia, a rachunki w zasadzie nie zwiększają swej długości wraz ze wzrostem n.
Zastosujemy przybliżenie (∗). W tym celu musimy sprowadzić nierówność 40 ¬ S100 ¬ 60 do postaci a < S√n−npnpq < b. W naszym zadaniu n = 100, natomiast p = q = 12, mamy więc
P (40¬ S100¬ 60) = P
40√ − 100 · 12
100· 12 · 12 ¬ S√100− 100 · 12
100· 12 ·12 ¬ 60√ − 100 · 12 100·12 · 12
≈ Φ( 10
√25)− Φ(−10√ 25).
Korzystamy z tablic funkcji Φ i odczytujemy, że szukane prawdopodobieństwo jest mniej więcej równe Φ(2)− Φ(−2) = 0, 977 − (1 − 0, 977) = 0, 954. Komputer łatwo dodaje liczby ze wzoru dokładnego, wynikiem jest 38219657665440688759455013113
39614081257132168796771975168 ≈ 0.9647997997822951840468565283, więc nasze przybliżenie różni się od wyniku dokładnego o około 0,01.
Pod koniec XIX udowodniono uogólnienie twierdzenia de Moivre’a–Laplace’a. Przypomnijmy, że liczbę sukcesów Sn można zapisać jako sumę niezależnych zmiennych X1, X2, ..., Xn, z których zmienna Xk przyjmuje wartość jeden, gdy w k-tej próbie osiągniemy sukces i zero, gdy porażkę, k = 1, 2, .., n.
Okazało się, że analogiczne twierdzenie można udowodnić dla dość ogólnych sum niezależnych zmien- nych losowych. Nazywamy je Centralnym Twierdzeniem Granicznym.
Centralne Twierdzenie Graniczne
Niech nieskończony ciąg zmiennych losowych X1, X2, ... ma następujące własności: zmienne są niezależ- ne i mają takie same rozkłady o średniej m i wariancji σ2. Wtedy dla wszystkich par−∞ ¬ a < b ¬ ∞ zachodzi równość
nlim→∞P
(
a < X1+ X2+ ... + X√ n− n · m
nσ < b
)
=
∫ b
a
√1
2πe−x2/2dx = Φ(b)− Φ(a).
I znów, jak w przypadku tw. de Moivre’a–Laplace’a mamy możliwość przybliżenia: dla dużych n (rzędu kilkuset, dla wielu rozkładów wystarcza nawet n rzędu kilkudziesięciu)
P
(
a < X1+ X2+ ... + X√ n− n · m
nσ < b
)
≈ Φ(b) − Φ(a),
czyli dystrybuanta rozkładu sumy X1 + X2 + .. + Xn dobrze przybliża się dystrybuantą rozkładu N (nm, (√
nσ)2).
W powyższym twierdzeniu warunkiem dość ograniczającym jest założenie, że wszystkie zmienne mają taki sam rozkład. Jednak twierdzenie to zostało uogólnione przez Lindeberga i Fellera ok. 100 lat temu na sumy zmiennych o różnych rozkładach, byle tylko ich wariancje były porównywalne. Stąd już wynika, że jeżeli na jakąś wielkość – na przykład na wynik pomaru – ma wpływ wiele przyczyn, które się sumują, to w przybliżeniu rozkład tej sumy jest normalny, a po odjęciu wartości średniej i podzieleniu wyniku przez pierwiastek z wariancji sumy składników, ma rozkład bliski N (0, 1). Zatem Centralne Twierdzenie Graniczne tłumaczy, dlaczego rozkład normalny jest „normalny”, tzn. występuje tak często w technice i w opisie zjawisk przyrodniczych. Ciekawy przykład zamieszczam w Dodatku na końcu tego wykładu.
Zadanie W kraju jest ok. 25 mln podatników. Załóżmy, że składając zeznanie podatkowe każdy podatnik myli się. Wartość błędu dla podatnika numer i wynosi Xi zł, przy czym E(Xi) = 0 (błąd nie wynika z nieuczciwości tylko z pomyłki, więc może być i na plus dla wypełniającego jak i na minus, a wartość średnia tego błędu jest równa zero), natomiast V ar(Xi) = σX2
i = 10 000 czyli σi = 100 zł.
Oblicz prawdopodobieństwo zdarzenia:
a) strata państwa na jednego podatnika przekroczy 1 grosz, b) strata państwa na jednego podatnika przekroczy 5 groszy.
Rozwiązanie:
a) Strata skarbu państwa przekroczy 1 grosz na podatnika czyli wyniesie więcej niż 0, 01· 25 000 000 = 250 000 zł. Ponieważ błąd Xi liczony jest z punktu widzenia podatnika (Xi = 100 oznacza, że osoba numer i zyskała 100 zł, czyli zapłaciła o 100 zł za mało, więc skarb państwa stracił na tym 100 zł), więc musimy obliczyć
P (X1+ ... + X25 000,000 > 250 000) = P
(
∞ > X1+ ... + X√ 25 000 000− 0
25 000 000· 100 > √ 250 000− 0 25 000 000· 100
)
≈
1− Φ(250 000
500 000) = 1− Φ(1/2) = 1 − 0, 69 = 0, 31.
a) Strata przekroczy 5 groszy na podatnika czyli 0, 05·25 000 000 = 1 250 000 zł. Analogiczny rachunek jak powyżej daje
P (X1+ ... + X25 000,000 > 1 250 000) = P
(
∞ > X1+ ... + X√ 25 000 000− 0
25 000 000· 100 > √1 250 000− 0 25 000 000· 100
)
≈
1− Φ(5) ≈= 1 − 0, 999999 = 0, 0000001.
Dodatek (nieobowiązujący, ale ciekawy, wyjaśnia pojęcie splotu dwóch funkcji)
W Centralnym Twierdzeniu Granicznym badamy zachowanie sumy n niezależnych zmiennych loso- wych. Rozważmy prostsze zadanie: Jak obliczyć rozkład sumy dwóch niezależnych zmiennych loso- wych? Oto dwa przykłady.
Przykład 1. Niech X ma rozkład Poissona z parametrem λ1, a Y niech ma rozkład Poissona z parametrem λ2, przy czym X i Y są niezależne. Wtedy rozkład sumy X + Y dany jest przez splot rozkładów i jest rozkładem Poissona z parametrem λ1 + λ2.
To dość łatwy rachunek: skoro X i Y mogą przyjąć tylko wartości 0, 1, 2, ..., to ich suma może przyjąć też tylko te wartości. Z niezależności tych zmiennych i ze wzoru dwumianowego Newtona na (a + b)n wynikają równości:
P (X +Y = n) =
∑n k=0
P (X = k, Y = n−k) =∑n
k=0
P (X = k)P (Y = n−k) = ∑n
k=0
λk1
k!e−λ1 λn2−k
(n− k)!e−λ2 =
e−λ1+λ2
∑n k=0
λk1λn2−k
k!(n− k)! = e−λ1+λ2 1 n!
∑n k=0
n!
k!(n− k)!λk1λn2−k = (λ1 + λ2)n
n! e−(λ1+λ2).
A jak to liczyć w przypadku rozkładów z gęstością? Niech X ma rozkład o gęstości f (x), a niezależna od niej zmienna Y ma rozkład o gęstości g(x). Wtedy suma X + Y ma rozkład o gęstości danej przez splot tych dwóch gęstosci:
(f ⋆ g)(x) =
∫ ∞
−∞f (x− y)g(y) dy.
Wyjaśnienie intuicyjne: rozumujemy podobnie jak w przykładzie 1. Jeśli suma X + Y przyjmuje wartości w (bardzo krótkim) przedziale (x − h, x + h), a Y przyjmuje wartości w przedziale (y −
h/2, y + h/2), to zmienna X MUSI przyjąć wartości w przedziale (x− y − h/2, x − y + h/2). I tak dla wszystkich wartości y, które może przyjąć zmienna Y .
Przykład 2. Komputer losuje liczby z przedziału (0, 1) z rozkładem jednostajnym (tzn. wylosowanie liczby z każdego przedzialiku (a, a + h) ⊂ (0, 1) ma takie samo prawdopodobieństwo, równe h.
Oznacza to, że gęstość f (x) = 1 dla x ∈ (0, 1) oraz f(x) = 0 poza tym przedziałem. Oto wykres tej gęstości:
Łatwo obliczyć, że E(X) = 12, natomiast V ar(X) =2X= 121.
Jaką gęstość ma suma X1 + X2 dwóch takich losowań, gdzie Xk to wynik k-tego losowania?
Rozkład sumy X1 + X2 dany jest przez splot (f ⋆ f )(x), który to splot jest różny od zera tylko na przedziale (0, 2), bo suma dwóch liczb z (0, 1) jest liczbą z (0, 2). Oto wykres tego splotu, linia zółta to gęstość przybliżenia rozkładem normalnym N (1, 122):
A gdy dodamy cztery takie zmienne losowe X1+ X2+ X3+ X4? Ich rozkład skupiony jest na przedziale (0, 4), a gęstość tego rozkładu dana jest przez splot (f ⋆ f ⋆ f ⋆ f )(x). Poniższy rysunek przedstawia wykres tego splotu (linia niebieska). Warto zauważyć, że jest on już dość podobny do krzywej Gaussa N (2, 124), zaznaczonej na zółto.
Dla 16 składników, tzn. dla sumy X1 + X2 + X3 + .. + X16, różnica pomiędzy gęstością dokładną (daną przez splot), a jej gaussowskim przybliżeniem jest już tak niewielka, że trudno ją zauważyć na
wykresie. Oznacza to, że przybliżenie rozkładu sumy X1+ X2+ X3+ .. + X16 rozkładem N (8, 1612) jest tak dobre, że trudno odróżnić jeden wykres od drugiego:
Wykres powyżej przdstawia różnicę pomiędzy krzywą Gaussa dla rozkładu N (8, 1612), a splotem 16 gęstości f (x). Jak widać, różnica pomiedzy wartościami obu funkcji jest nie większa nż 0,01.
Co ważne dla studentów Elektroniki: podobnie dodajemy sygnały — rozkład sumy dwóch sygnałów dany jest przez ich splot.