Ciągłe zmienne losowe
Badając strukturę populacji pod względem danej cechy
rysujemy często histogram częstości względnych. Najbardziej istotną cechą histogramu jest jego kształt, który często daje się zwięźle opisać za pomocą pewnej krzywej regularnej
(ciągłej) bliskiej niemu.
Rozpatrzmy histogram częstości względnych 1000 wyników pewnego pomiaru. Pola słupów są równe częstości względnej wpadnięcia pomiaru do odpowiedniego przedziału. Suma pól wszystkich słupków jest równa 1.
Ciągłe zmienne losowe
Ciągłe zmienne losowe
Ciągłe zmienne losowe
Zauważmy, że dla małej rozpiętości przedziału klasowego słupki histogramu są bardzo wąskie, a zmiany wysokości
przylegających do siebie słupków nieznaczne. Na skutek tego, po pominięciu pionowych słupków, histogram daje się bardzo dobrze opisać przez wyrysowaną krzywą ciągłą. Zachowuje
ona zasadnicze cechy histogramu: jej maksimum jest bliskie dominancie, a szybkość malenia przy oddalaniu się od
dominanty jest zbliżona do szybkości malenia częstości histogramu. Oczywiście, pole pod krzywą nad każdym
przedziałem histogramu powinno być bliskie odpowiedniej częstości; pole pod całą krzywą — równe 1.
Ciągłe zmienne losowe
Ciągłe zmienne losowe
Ciągłe zmienne losowe
Krzywą ciągłą przybliżającą histogram i taką, że całkowite pole znajdujące się pod nią wynosi 1 nazywamy krzywą lub funkcją gęstości (krótko gęstością). Często określa się ją jako wyidealizowany histogram, odpowiadający bardzo dużej
liczności próby i bardzo małej rozpiętości. Taki idealny histogram odpowiada rozkładowi prawdopodobieństwa
pewnej zmiennej losowej X. Ponieważ rozpiętość histogramu jest bardzo mała nie tracimy informacji, przechodząc od
rozkładu cechy w próbie do rozkładu prawdopodobieństwa zmiennej losowej X. Idealny histogram (gęstość) i rozkład prawdopodobieństwa zmiennej X są równoważne.
Ciągłe zmienne losowe
a b
Ciągłe zmienne losowe
Pole pod krzywą gęstości f nad każdym przedziałem [a, b]
nazywamy całką Riemanna i oznaczamy
∫
b
a f(t)dt .
Za pomocą tego pojęcia możemy precyzyjnie zdefiniować zmienną losową typu ciągłego.
Ciągłe zmienne losowe
Zmienną losową X nazywamy ciągłą zmienną losową, jeśli dla pewnej nieujemnej funkcji f i dowolnych liczb a i b takich, że
−∞ ⩽ a < b ⩽ + ∞ zachodzi równość
P(a ⩽ X ⩽ b) = ∫ab f(t)dt .
a b
Ciągłe zmienne losowe
Przyjmując w powyższej równości
a = − ∞, b = x
Otrzymujemy, że dystrybuanta zmiennej losowej X spełnia równość
F(x) = P(X ⩽ x) =
x
−∞∫
f(t)dt .
Funkcję f nazywamy gęstością zmiennej losowej X lub gęstością jej rozkładu prawdopodobieństwa.
Uwaga
Dla podstawowych wybranych rozkładów ciągłych nie trzeba liczyć całki, gdyż utworzono tablice wartości dystrybuanty.
Na przykład, dla standardowego rozkładu normalnego tak wygląda fragment tablicy
Tablica wartości dystrybuanty standaryzowanego rozkładu normalnego
x 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,50000 0,50399 0,50798 0,51197 0,51595 0,51994 0,52392 0,52790 0,53188 0,53586 0,1 0,53983 0,54380 0,54776 0,55172 0,55567 0,55962 0,56356 0,56749 0,57142 0,57535 0,2 0,57926 0,58317 0,58706 0,59095 0,59483 0,59871 0,60257 0,60642 0,61026 0,61409 0,3 0,61791 0,62172 0,62552 0,62930 0,63307 0,63683 0,64058 0,64431 0,64803 0,65173 0,4 0,65542 0,65910 0,66276 0,66640 0,67003 0,67364 0,67724 0,68082 0,68439 0,68793 0,5 0,69146 0,69497 0,69847 0,70194 0,70540 0,70884 0,71226 0,71566 0,71904 0,72240 0,6 0,72575 0,72907 0,73237 0,73565 0,73891 0,74215 0,74537 0,74857 0,75175 0,75490 0,7 0,75804 0,76115 0,76424 0,76730 0,77035 0,77337 0,77637 0,77935 0,78230 0,78524 0,8 0,78814 0,79103 0,79389 0,79673 0,79955 0,80234 0,80511 0,80785 0,81057 0,81327 0,9 0,81594 0,81859 0,82121 0,82381 0,82639 0,82894 0,83147 0,83398 0,83646 0,83891
Wartość dystrybuanty rozkładu normalnego odczytujemy w następujący sposób
F(0,46) = F(0,4 + 0,06) = 0,67724
Ciągłe zmienne losowe
Zauważmy, że postulat, żeby gęstość była nieujemna jest intuicyjnie oczywisty: gdyby funkcja f była ujemna na
pewnym przedziale, to wartość całki z tej funkcji po tym przedziale byłaby ujemna, co jest niemożliwe, gdyż
prawdopodobieństwo ma wartości nieujemne. Z powyższego wynika również, że
+∞
−∞∫
f(t)dt = P(−∞ ⩽ X ⩽ + ∞) = 1.
Tak więc krzywa gęstości powinna spełniać dwa warunki:
musi być nieujemna i pole pod nią musi wynosić 1.
Uwaga
Jeśli przyjmiemy w powyższy wzorze a = b, to dla dowolnej ciągłej zmiennej losowej X otrzymamy
P(X = a) = ∫aa f(t)dt = 0.
Tak więc prawdopodobieństwo przyjęcia pojedynczej wartości przez ciągłą zmienną losową jest równe 0. Stąd
P(a < X < b) = P(a < X ⩽ b) = P(a ⩽ X < b) =
= P(a ⩽ X ⩽ b) = F(b) − F(a) .
Własności
Jeśli gęstość f zmiennej losowej X jest funkcją ciągłą, to dla każdego x zachodzi równość
F′(x) = f(x) .
Zatem dystrybuanta ciągłej zmiennej losowej jest funkcją różniczkowalną, gdy jej gęstość jest funkcją ciągłą.
Wartość oczekiwana i wariancja ciągłej zmiennej losowej
Wartością oczekiwaną ciągłej zmiennej losowej X o gęstości f nazywamy liczbę
E(X) = μX =
+∞
−∞∫
tf(t)dt
Wariancję i odchylenie standardowe zdefiniowane są odpowiednio wzorami:
Var(X) = σX2 =
+∞
−∞∫
(t − μX)2 f(t)dt, SD(X) = Var(X) = σX .
Własności
Dla ciągłej zmiennej losowej X o gęstości f i dowolnej funkcji h określonej dla wszystkich liczb rzeczywistych funkcja h(X) jest również zmienną losową. Jej wartość oczekiwana jest
równa
E(h(X)) = μh(X) =
+∞
−∞∫
h(t)f(t)dt .
Z własności całki
Var(aX + b) = a2Var(X) . E(aX + b) = aE(X) + b,
Wybrane rozkłady zmiennych losowych typu ciągłego
Zmienna losowa jest najważniejszym elementem modelu opisującego eksperyment losowy. Zmienną losową można scharakteryzować za pomocą dystrybuanty lub funkcji
rozkładu prawdopodobieństwa. Dla zmiennych typy ciągłego najbardziej dogodnym sposobem opisu jest określenie funkcji gęstości jej rozkładu. Podamy pare przykładów zmiennych
losowych często stosowanych w praktyce.
Rozkład normalny
Zmienna losowa X ma rozkład normalny o parametrach 𝜇 i 𝝈, co w skrócie zapisujemy X ~ N(𝜇, 𝝈), jeśli jej funkcja gęstości ma następującą postać
f(x) = 1
σ 2π e−(x − μ)22σ2 , − ∞ < x < + ∞ przy czym 𝝈 > 0.
Poniżej przedstawiamy wykres funkcji gęstości tego rozkładu.
Rozkład normalny
μ
μ − σ μ + σ
Własności
Jeżeli zmienna losowa X ma rozkład normalny N(𝜇, 𝝈), to jej wartość oczekiwana jest równa 𝜇, a odchylenie standardowe równe 𝝈.
E(X) = μ, SD(X) = σ .
Ponadto dla dowolnej liczby niezerowej a i dowolnej liczby b zmienna losowa aX + b ma rozkład normalny.
Stąd zmienna Z określona wzorem Z = X − μ
σ ma rozkład normalny N(0, 1).
Własności
Powyższą operację nazywamy standaryzacją, a zmienną Z o rozkładnie normalnym N(0, 1) nazywamy zmienną o rozkła- dzie normalnym standardowym.
Z definicji wynika, że taka zmienna, a wartość oczekiwaną równą 0, a odchylenie standardowe 1.
Przy wyznaczaniu prawdopodobieństwa wykorzystujemy operację standaryzacji i używamy tablic zawierających
wartości dystrybuanty tej wyróżnionej zmiennej o rozkładzie normalnym standardowym.
Wielowymiarowe zmienne losowe
Niech S będzie zbiorem zdarzeń elementarnych danego doświadczenia losowego. Układ n zmiennych losowych
(X1, X2, …, Xn) : S → ℝn
przyporządkowujących każdemu zdarzeniu elementarnemu s z przestrzeni S układ n liczb
(x1, x2, …, xn) ∈ ℝn nazywamy zmienną losową n-wymiarową.
Wielowymiarowe zmienne losowe skokowe
Dwuwymiarowa zmienna losowa (X, Y)
jest typu skokowego, jeśli przyjmuje skończoną lub przeliczalną liczbę wartości
(xi, yi), i = 1,2,…
Funkcją prawdopodobieństwa takiej zmiennej losowej jest pij = P(X = xi, Y = yj), i, j = 1,2,…
Mówimy, że zmienne X i Y są niezależne, gdy
P(X = xi, Y = yj) = P(X = xi) ⋅ P(Y = yj), i, j = 1,2,…
Wielowymiarowe zmienne losowe ciągłe
Dwuwymiarowa zmienna losowa (X, Y)
jest typu ciągłego, jeśli zmienne X i Y są ciągłe
Funkcją gęstości takiej zmiennej losowej jest taka funkcja f, że f(t, u) ⩾ 0, t, u ∈ ℝ
oraz
P(a1 < X ⩽ b1, a2 < Y ⩽ b2) = ∫ab11 ∫
b2
a2 f(t, u)dtdu .
Wielowymiarowe zmienne losowe ciągłe
Mówimy, że zmienne X i Y są niezależne, gdy f(t, u) = f1(t) ⋅ f2(u),
gdzie f1 i f2 są funkcjami gęstości zmiennych X i Y.
Twierdzenia graniczne
Mają one ogromne znaczenie zarówno w teorii prawdopodo- bieństwa jak i w praktyce badań statystycznych. W
twierdzeniach tych rozpatruje się ciągi zmiennych losowych, powiedzmy (Xn), których rozkłady — gdy n dąży do
nieskończoności — mogą być zbieżne do pewnego rozkładu.
Jeśli takie zjawisko występuje, to taki rozkład nazywany jest rozkładem granicznym (asymptotycznym) ciągu zmiennych losowych (Xn). Mówi się wtedy, że zmienna losowa Xn ma graniczny rozkład o określonej postaci.
Twierdzenia graniczne
Twierdzenia graniczne formułują warunki, przy zachowaniu których dla ciągu zmiennych losowych istnieje rozkład
graniczny, oraz określają jaka jest postać tego rozkładu.
Odrębną klasę twierdzeń granicznych stanowią prawa
wielkich liczb, które dotyczą zbieżności ciągu zmiennych losowych do rozkładu jednopunktowego, tzn. rozkładu
zmiennej losowej stałej X = c, której funkcja prawdopodo- bieństwa opisana jest jedną równością
P(X = c) = 1.
Zbieżność stochastyczna
Mówimy, że ciąg zmiennych losowych (Xn) jest stochastycznie zbieżny do stałej c, jeśli dla dowolnej liczby 𝜀 > 0 spełniona jest zależność:
n→∞lim P(|Xn − c| < ε) = 1.
Oznacza to, że prawdopodobieństwo zdarzenia
|Xn − c| < ε
wzrasta do jedności, przy n dążącym do nieskończoności.
Prawo wielkich liczb Bernoulliego
Ciąg zmiennych losowych (Xn) o rozkładach P (Xn = k
n ) = (n
k) pkqn−k, k = 0,1,…, n
jest stochastycznie zbieżny do wartości parametru p (prawdo- podobieństwa sukcesu w jednej próbie Bernoulliego), tzn.
n→∞lim P(|Xn − p| < ε) = 1 dla dowolnej liczby 𝜀 > 0.
Prawo wielkich liczb Czebyszewa
Jeśli dla ciągu zmiennych losowych (Xn), z których każda ma skończoną wartość oczekiwaną i wariancję, jest spełniony
warunek:
n→∞lim Var(Xn) = 0, to
n→∞lim P(|Xn − E(Xn)| < ε) = 1, Co oznacza, że ciąg
(Xn − E(Xn))
jest stochastycznie zbieżny do zera: dla dostatecznie dużych n wartości zmiennej losowej Xn są bliskie wartości oczekiwanej.
Centralne twierdzenie
graniczne Lindeberga-Levy’ego
Jeśli (Xn) jest ciągiem niezależnych zmiennych losowych o identycznych rozkładach takich jak pewna zmienna X i
skończonej wariancji, to ciąg dystrybuant (Fn) zmiennych Tn =
∑n
i=1 Xi − nE(X) Var(X) n
jest zbieżny do dystrybuanty standaryzowanego rozkładu normalnego:
n→∞lim Fn(x) = 1 2π
x
−∞∫
e−t22 dt .
Wniosek I
Zmienna losowa Zn określona wzorem
Zn = X1 + X2 + … + Xn ma asymptotyczny rozkład normalny
N(nE(X), SD(X) n), czyli rozkład normalny z parametrami
μ = nE(X), σ = SD(X) n .
Wniosek II
Zmienna losowa Vn określona wzorem
Vn = X1 + X2 + … + Xn n
o wartości oczekiwanej 𝜇 i wariancji 𝝈/n zbiega przy n dążącym do nieskończoności do zmiennej o rozkładzie normalnym
N (μ, σ
n ) .
Przykład
W grupie studentów przeprowadzany jest test ze statystyki, w którym można uzyskać od 0 do 100 punktów. Liczba
punktów, jaką może otrzymać pojedynczy (k-ty) student, jest zmienną losową, którą oznaczać będziemy przez Xk.
Przyjmijmy, że rozkład niezależnych zmiennych losowych Xk
jest identyczny dla wszystkich studentów (chociaż postać tego rozkładu nie jest znana), przy czym
E(Xk) = 70, SD(Xk) = 20.
Czyli wartość oczekiwana wynosi 70 punktów z odchyleniem standardowym 20 punktów.
Przykład
Interesuje nas prawdopodobieństwo zdarzenia:
Przeciętna liczba punktów przypadających na jednego
studenta w 100-osobowej grupie zawiera się w przedziale od 65 do 70 punktów.
V100 = X1 + X2 + … + X100 100
Odpowiedź można sformułować na podstawie wniosku II z twierdzenia Lindeberga-Levy’ego, bowiem przeciętną liczbę punktów uzyskaną przez pojedynczego studenta określa
zmienna
Przykład
Zmienna ta, z własności wartości oczekiwanej i odchylenia standardowego ma następujące parametry:
μ = E(V100) = 70, σ = SD(V100) = 20
100 = 2.
Z wniosku II wynika, że zmienna V100 ma w przybliżeniu rozkład normalny właśnie z takimi parametrami. Niech F oznacza dystrybuantę standardowego rozkładu normalnego, której wartości są podane zawsze w tablicach statystycznych.
Korzystając z operacji standaryzacji obliczymy poszukiwane prawdopodobieństwo.
Przykład
P(65 < V100 < 70) = P ( 65 − 70
2 < V100 − 70
2 < 70 − 70
2 )
Zmienna
Z = V100 − 70 2
Ma rozkład normalny standardowy, więc P(65 < V100 < 70) = P (−2,5 < Z < 0)
= F(0) − F(−2,5) = 0,5 − (1 − F(2,5))
= 0,5 − (1 − 0,9918) = 0,4918