Ciągłe zmienne losowe

(1)

Ciągłe zmienne losowe

Badając strukturę populacji pod względem danej cechy

rysujemy często histogram częstości względnych. Najbardziej istotną cechą histogramu jest jego kształt, który często daje się zwięźle opisać za pomocą pewnej krzywej regularnej

(ciągłej) bliskiej niemu.

Rozpatrzmy histogram częstości względnych 1000 wyników pewnego pomiaru. Pola słupów są równe częstości względnej wpadnięcia pomiaru do odpowiedniego przedziału. Suma pól wszystkich słupków jest równa 1.

(2)

Ciągłe zmienne losowe

(3)

Ciągłe zmienne losowe

(4)

Ciągłe zmienne losowe

Zauważmy, że dla małej rozpiętości przedziału klasowego słupki histogramu są bardzo wąskie, a zmiany wysokości

przylegających do siebie słupków nieznaczne. Na skutek tego, po pominięciu pionowych słupków, histogram daje się bardzo dobrze opisać przez wyrysowaną krzywą ciągłą. Zachowuje

ona zasadnicze cechy histogramu: jej maksimum jest bliskie dominancie, a szybkość malenia przy oddalaniu się od

dominanty jest zbliżona do szybkości malenia częstości histogramu. Oczywiście, pole pod krzywą nad każdym

przedziałem histogramu powinno być bliskie odpowiedniej częstości; pole pod całą krzywą — równe 1.

(5)

Ciągłe zmienne losowe

(6)

Ciągłe zmienne losowe

(7)

Ciągłe zmienne losowe

Krzywą ciągłą przybliżającą histogram i taką, że całkowite pole znajdujące się pod nią wynosi 1 nazywamy krzywą lub funkcją gęstości (krótko gęstością). Często określa się ją jako wyidealizowany histogram, odpowiadający bardzo dużej

liczności próby i bardzo małej rozpiętości. Taki idealny histogram odpowiada rozkładowi prawdopodobieństwa

pewnej zmiennej losowej X. Ponieważ rozpiętość histogramu jest bardzo mała nie tracimy informacji, przechodząc od

rozkładu cechy w próbie do rozkładu prawdopodobieństwa zmiennej losowej X. Idealny histogram (gęstość) i rozkład prawdopodobieństwa zmiennej X są równoważne.

(8)

Ciągłe zmienne losowe

a b

(9)

Ciągłe zmienne losowe

Pole pod krzywą gęstości f nad każdym przedziałem [a, b]

nazywamy całką Riemanna i oznaczamy

∫

b

a f(t)dt .

Za pomocą tego pojęcia możemy precyzyjnie zdefiniować zmienną losową typu ciągłego.

(10)

Ciągłe zmienne losowe

Zmienną losową X nazywamy ciągłą zmienną losową, jeśli dla pewnej nieujemnej funkcji f i dowolnych liczb a i b takich, że

−∞ ⩽ a < b ⩽ + ∞ zachodzi równość

P(a ⩽ X ⩽ b) = ∫_a^b f(t)dt .

a b

(11)

Ciągłe zmienne losowe

Przyjmując w powyższej równości

a = − ∞, b = x

Otrzymujemy, że dystrybuanta zmiennej losowej X spełnia równość

F(x) = P(X ⩽ x) =

x

−∞∫

f(t)dt .

Funkcję f nazywamy gęstością zmiennej losowej X lub gęstością jej rozkładu prawdopodobieństwa.

(12)

Uwaga

Dla podstawowych wybranych rozkładów ciągłych nie trzeba liczyć całki, gdyż utworzono tablice wartości dystrybuanty.

Na przykład, dla standardowego rozkładu normalnego tak wygląda fragment tablicy

Tablica wartości dystrybuanty standaryzowanego rozkładu normalnego

x 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09

0,0 0,50000 0,50399 0,50798 0,51197 0,51595 0,51994 0,52392 0,52790 0,53188 0,53586 0,1 0,53983 0,54380 0,54776 0,55172 0,55567 0,55962 0,56356 0,56749 0,57142 0,57535 0,2 0,57926 0,58317 0,58706 0,59095 0,59483 0,59871 0,60257 0,60642 0,61026 0,61409 0,3 0,61791 0,62172 0,62552 0,62930 0,63307 0,63683 0,64058 0,64431 0,64803 0,65173 0,4 0,65542 0,65910 0,66276 0,66640 0,67003 0,67364 0,67724 0,68082 0,68439 0,68793 0,5 0,69146 0,69497 0,69847 0,70194 0,70540 0,70884 0,71226 0,71566 0,71904 0,72240 0,6 0,72575 0,72907 0,73237 0,73565 0,73891 0,74215 0,74537 0,74857 0,75175 0,75490 0,7 0,75804 0,76115 0,76424 0,76730 0,77035 0,77337 0,77637 0,77935 0,78230 0,78524 0,8 0,78814 0,79103 0,79389 0,79673 0,79955 0,80234 0,80511 0,80785 0,81057 0,81327 0,9 0,81594 0,81859 0,82121 0,82381 0,82639 0,82894 0,83147 0,83398 0,83646 0,83891

Wartość dystrybuanty rozkładu normalnego odczytujemy w następujący sposób

F(0,46) = F(0,4 + 0,06) = 0,67724

(13)

Ciągłe zmienne losowe

Zauważmy, że postulat, żeby gęstość była nieujemna jest intuicyjnie oczywisty: gdyby funkcja f była ujemna na

pewnym przedziale, to wartość całki z tej funkcji po tym przedziale byłaby ujemna, co jest niemożliwe, gdyż

prawdopodobieństwo ma wartości nieujemne. Z powyższego wynika również, że

+∞

−∞∫

f(t)dt = P(−∞ ⩽ X ⩽ + ∞) = 1.

Tak więc krzywa gęstości powinna spełniać dwa warunki:

musi być nieujemna i pole pod nią musi wynosić 1.

(14)

Uwaga

Jeśli przyjmiemy w powyższy wzorze a = b, to dla dowolnej ciągłej zmiennej losowej X otrzymamy

P(X = a) = ∫_a^a f(t)dt = 0.

Tak więc prawdopodobieństwo przyjęcia pojedynczej wartości przez ciągłą zmienną losową jest równe 0. Stąd

P(a < X < b) = P(a < X ⩽ b) = P(a ⩽ X < b) =

= P(a ⩽ X ⩽ b) = F(b) − F(a) .

(15)

Własności

Jeśli gęstość f zmiennej losowej X jest funkcją ciągłą, to dla każdego x zachodzi równość

F′(x) = f(x) .

Zatem dystrybuanta ciągłej zmiennej losowej jest funkcją różniczkowalną, gdy jej gęstość jest funkcją ciągłą.

(16)

Wartość oczekiwana i wariancja ciągłej zmiennej losowej

Wartością oczekiwaną ciągłej zmiennej losowej X o gęstości f nazywamy liczbę

E(X) = μ_X =

+∞

−∞∫

tf(t)dt

Wariancję i odchylenie standardowe zdefiniowane są odpowiednio wzorami:

Var(X) = σ_X² =

+∞

−∞∫

(t − μ_X)² f(t)dt, SD(X) = Var(X) = σ_X .

(17)

Własności

Dla ciągłej zmiennej losowej X o gęstości f i dowolnej funkcji h określonej dla wszystkich liczb rzeczywistych funkcja h(X) jest również zmienną losową. Jej wartość oczekiwana jest

równa

E(h(X)) = μh(X) =

+∞

−∞∫

h(t)f(t)dt .

Z własności całki

Var(aX + b) = a²Var(X) . E(aX + b) = aE(X) + b,

(18)

Wybrane rozkłady zmiennych losowych typu ciągłego

Zmienna losowa jest najważniejszym elementem modelu opisującego eksperyment losowy. Zmienną losową można scharakteryzować za pomocą dystrybuanty lub funkcji

rozkładu prawdopodobieństwa. Dla zmiennych typy ciągłego najbardziej dogodnym sposobem opisu jest określenie funkcji gęstości jej rozkładu. Podamy pare przykładów zmiennych

losowych często stosowanych w praktyce.

(19)

Rozkład normalny

Zmienna losowa X ma rozkład normalny o parametrach 𝜇 i 𝝈, co w skrócie zapisujemy X ～ N(𝜇, 𝝈), jeśli jej funkcja gęstości ma następującą postać

f(x) = 1

σ 2π e⁻^{(x − μ)2}^2σ2 , − ∞ < x < + ∞ przy czym 𝝈 > 0.

Poniżej przedstawiamy wykres funkcji gęstości tego rozkładu.

(20)

Rozkład normalny

μ

μ − σ μ + σ

(21)

Własności

Jeżeli zmienna losowa X ma rozkład normalny N(𝜇, 𝝈), to jej wartość oczekiwana jest równa 𝜇, a odchylenie standardowe równe 𝝈.

E(X) = μ, SD(X) = σ .

Ponadto dla dowolnej liczby niezerowej a i dowolnej liczby b zmienna losowa aX + b ma rozkład normalny.

Stąd zmienna Z określona wzorem Z = X − μ

σ ma rozkład normalny N(0, 1).

(22)

Własności

Powyższą operację nazywamy standaryzacją, a zmienną Z o rozkładnie normalnym N(0, 1) nazywamy zmienną o rozkła- dzie normalnym standardowym.

Z definicji wynika, że taka zmienna, a wartość oczekiwaną równą 0, a odchylenie standardowe 1.

Przy wyznaczaniu prawdopodobieństwa wykorzystujemy operację standaryzacji i używamy tablic zawierających

wartości dystrybuanty tej wyróżnionej zmiennej o rozkładzie normalnym standardowym.

(23)

Wielowymiarowe zmienne losowe

Niech S będzie zbiorem zdarzeń elementarnych danego doświadczenia losowego. Układ n zmiennych losowych

(X₁, X₂, …, X_n) : S → ℝⁿ

przyporządkowujących każdemu zdarzeniu elementarnemu s z przestrzeni S układ n liczb

(x₁, x₂, …, x_n) ∈ ℝⁿ nazywamy zmienną losową n-wymiarową.

(24)

Wielowymiarowe zmienne losowe skokowe

Dwuwymiarowa zmienna losowa (X, Y)

jest typu skokowego, jeśli przyjmuje skończoną lub przeliczalną liczbę wartości

(x_i, y_i), i = 1,2,…

Funkcją prawdopodobieństwa takiej zmiennej losowej jest p_ij = P(X = x_i, Y = y_j), i, j = 1,2,…

Mówimy, że zmienne X i Y są niezależne, gdy

P(X = x_i, Y = y_j) = P(X = x_i) ⋅ P(Y = y_j), i, j = 1,2,…

(25)

Wielowymiarowe zmienne losowe ciągłe

Dwuwymiarowa zmienna losowa (X, Y)

jest typu ciągłego, jeśli zmienne X i Y są ciągłe

Funkcją gęstości takiej zmiennej losowej jest taka funkcja f, że f(t, u) ⩾ 0, t, u ∈ ℝ

oraz

P(a₁ < X ⩽ b₁, a₂ < Y ⩽ b₂) = ∫_a^b₁¹ ∫

b₂

a₂ f(t, u)dtdu .

(26)

Wielowymiarowe zmienne losowe ciągłe

Mówimy, że zmienne X i Y są niezależne, gdy f(t, u) = f₁(t) ⋅ f₂(u),

gdzie f1 i f2 są funkcjami gęstości zmiennych X i Y.

(27)

Twierdzenia graniczne

Mają one ogromne znaczenie zarówno w teorii prawdopodo- bieństwa jak i w praktyce badań statystycznych. W

twierdzeniach tych rozpatruje się ciągi zmiennych losowych, powiedzmy (Xn), których rozkłady — gdy n dąży do

nieskończoności — mogą być zbieżne do pewnego rozkładu.

Jeśli takie zjawisko występuje, to taki rozkład nazywany jest rozkładem granicznym (asymptotycznym) ciągu zmiennych losowych (Xn). Mówi się wtedy, że zmienna losowa Xn ma graniczny rozkład o określonej postaci.

(28)

Twierdzenia graniczne

Twierdzenia graniczne formułują warunki, przy zachowaniu których dla ciągu zmiennych losowych istnieje rozkład

graniczny, oraz określają jaka jest postać tego rozkładu.

Odrębną klasę twierdzeń granicznych stanowią prawa

wielkich liczb, które dotyczą zbieżności ciągu zmiennych losowych do rozkładu jednopunktowego, tzn. rozkładu

zmiennej losowej stałej X = c, której funkcja prawdopodo- bieństwa opisana jest jedną równością

P(X = c) = 1.

(29)

Zbieżność stochastyczna

Mówimy, że ciąg zmiennych losowych (Xn) jest stochastycznie zbieżny do stałej c, jeśli dla dowolnej liczby 𝜀 > 0 spełniona jest zależność:

n→∞lim P(|Xn − c| < ε) = 1.

Oznacza to, że prawdopodobieństwo zdarzenia

|X_n − c| < ε

wzrasta do jedności, przy n dążącym do nieskończoności.

(30)

Prawo wielkich liczb Bernoulliego

Ciąg zmiennych losowych (Xn) o rozkładach P (Xⁿ = k

n ) = (n

k) p^kq^n−k, k = 0,1,…, n

jest stochastycznie zbieżny do wartości parametru p (prawdo- podobieństwa sukcesu w jednej próbie Bernoulliego), tzn.

n→∞lim P(|Xn − p| < ε) = 1 dla dowolnej liczby 𝜀 > 0.

(31)

Prawo wielkich liczb Czebyszewa

Jeśli dla ciągu zmiennych losowych (Xn), z których każda ma skończoną wartość oczekiwaną i wariancję, jest spełniony

warunek:

n→∞lim Var(X_n) = 0, to

n→∞lim P(|Xⁿ − E(X_n)| < ε) = 1, Co oznacza, że ciąg

(Xⁿ − E(X_n))

jest stochastycznie zbieżny do zera: dla dostatecznie dużych n wartości zmiennej losowej Xn są bliskie wartości oczekiwanej.

(32)

Centralne twierdzenie

graniczne Lindeberga-Levy’ego

Jeśli (Xn) jest ciągiem niezależnych zmiennych losowych o identycznych rozkładach takich jak pewna zmienna X i

skończonej wariancji, to ciąg dystrybuant (Fn) zmiennych T_n =

∑n

i=1 X_i − nE(X) Var(X) n

jest zbieżny do dystrybuanty standaryzowanego rozkładu normalnego:

n→∞lim F_n(x) = 1 2π

x

−∞∫

e⁻^t2² dt .

(33)

Wniosek I

Zmienna losowa Zn określona wzorem

Z_n = X₁ + X₂ + … + X_n ma asymptotyczny rozkład normalny

N(nE(X), SD(X) n), czyli rozkład normalny z parametrami

μ = nE(X), σ = SD(X) n .

(34)

Wniosek II

Zmienna losowa Vn określona wzorem

V_n = X₁ + X₂ + … + X_n n

o wartości oczekiwanej 𝜇 i wariancji 𝝈/n zbiega przy n dążącym do nieskończoności do zmiennej o rozkładzie normalnym

N (μ, σ

n ) .

(35)

Przykład

W grupie studentów przeprowadzany jest test ze statystyki, w którym można uzyskać od 0 do 100 punktów. Liczba

punktów, jaką może otrzymać pojedynczy (k-ty) student, jest zmienną losową, którą oznaczać będziemy przez Xk.

Przyjmijmy, że rozkład niezależnych zmiennych losowych Xk

jest identyczny dla wszystkich studentów (chociaż postać tego rozkładu nie jest znana), przy czym

E(X_k) = 70, SD(X_k) = 20.

Czyli wartość oczekiwana wynosi 70 punktów z odchyleniem standardowym 20 punktów.

(36)

Przykład

Interesuje nas prawdopodobieństwo zdarzenia:

Przeciętna liczba punktów przypadających na jednego

studenta w 100-osobowej grupie zawiera się w przedziale od 65 do 70 punktów.

V₁₀₀ = X₁ + X₂ + … + X₁₀₀ 100

Odpowiedź można sformułować na podstawie wniosku II z twierdzenia Lindeberga-Levy’ego, bowiem przeciętną liczbę punktów uzyskaną przez pojedynczego studenta określa

zmienna

(37)

Przykład

Zmienna ta, z własności wartości oczekiwanej i odchylenia standardowego ma następujące parametry:

μ = E(V₁₀₀) = 70, σ = SD(V₁₀₀) = 20

100 = 2.

Z wniosku II wynika, że zmienna V100 ma w przybliżeniu rozkład normalny właśnie z takimi parametrami. Niech F oznacza dystrybuantę standardowego rozkładu normalnego, której wartości są podane zawsze w tablicach statystycznych.

Korzystając z operacji standaryzacji obliczymy poszukiwane prawdopodobieństwo.

(38)

Przykład

P(65 < V₁₀₀ < 70) = P ( 65 − 70

2 < V₁₀₀ − 70

2 < 70 − 70

2 )

Zmienna

Z = V₁₀₀ − 70 2

Ma rozkład normalny standardowy, więc P(65 < V₁₀₀ < 70) = P (−2,5 < Z < 0)

= F(0) − F(−2,5) = 0,5 − (1 − F(2,5))

= 0,5 − (1 − 0,9918) = 0,4918