• Nie Znaleziono Wyników

Rozdział 4 NIEKTÓRE ROZKŁADY PRAWDOPODOBIEŃSTWA

N/A
N/A
Protected

Academic year: 2021

Share "Rozdział 4 NIEKTÓRE ROZKŁADY PRAWDOPODOBIEŃSTWA"

Copied!
25
0
0

Pełen tekst

(1)

Rozdział 4 NIEKTÓRE ROZKŁADY PRAWDOPODOBIEŃSTWA

W rozdziale niniejszym omówione są pokrótce niektóre rozkłady prawdopodobieństwa — albo często stosowane, albo też ważne z powodów teoretycznych. Podane funkcje rozkładu zawierają stałe zwane parametrami funkcji rozkładu. Liczba tych parametrów w praktycznych zastosowaniach nie przekracza trzech, a najczęściej mamy do czynienia z rozkładami dwuparametrowymi.

Większość funkcji rozkładu prawdopodobieństwa ma na tyle skomplikowaną postać matematyczną, że obliczanie potrzebnych prawdopodobieństw lub żądanych kwantyli (wartości zmiennej losowej dla zadanego prawdopodobieństwa niesiągnięcia) wymaga stosowania odpowiednich tablic lub komputera. Tablice takie, zawierające najczęściej używane rozkłady, można znaleźć praktycznie w każdym podręczniku dotyczącym statystyki matematycznej. Również w tej książce zawarte zostały tablice często używanych rozkładów (zob. Dodatek). Oprócz tego, w języku polskim istnieją obszerne tablice statystyczne Zielińskiego [34] i Zielińskich [35], które polecam również ze względu na zawarte w nich użyteczne praktycznie objaśnienia i komentarze – zarówno czysto matematyczne, jak i statystyczne.

4.1 ROZKŁADY DYSKRETNEJ ZMIENNEJ LOSOWEJ

Omówię tutaj pięć rozkładów: jednopunktowy, dwupunktowy, równomierny, dwumianowy i Poissona. Należy podkreślić (co nie zawsze jest widoczne z postaci podanej definicji, zwłaszcza w przypadku dyskretnych zmiennych losowych), że każdy rozkład prawdopodobieństwa jest określony na całej osi liczb rzeczywistych, tzn. że funkcja rozkładu dyskretnego pi=P(X=xi), dystrybuanta F(x)=P(X<x), funkcja prawdopodobieństwa przewyższenia p(x)=P(X≥x) czy funkcja gęstości rozkładu f(x) są określone dla każdego x∈R.

(2)

4.1.1 Rozkład jednopunktowy Rozkład ten nosi też inne nazwy:

zdegenerowany, niewłaściwy, Diraca.

Jest to rozkład bardzo szczególny, gdyż zmienna losowa X przyjmuje z niezero- wym prawdopodobieństwem tylko jedną wartość, liczbę rzeczywistą c (a każdą z pozostałych liczb rzeczywistych z zero- wym prawdopodobieństwem) (na rys. 4.1 c=0.27):

P( ) 1, 0,

x c X x

x c

 =

= =

 ≠ (4.1)

Dystrybuanta jest funkcją o jednym punkcie skokowym (zob. rys. 4.1):

( ) P( ) 0, 1,

x c

F x X x

x c

 ≤

= < =

 > (4.2)

Parametry rozkładu: brak.

Wartość oczekiwana i wariancja:

EX =c varX = 0 (4.3) Zerowa jest nie tylko wariancja ale również wszystkie momenty centralne

E(X −E )X n = 0 (4.4)

Natomiast momenty początkowe wyrażają się prostym wzorem

EXn =cn (4.5)

Kwantyle. Podwójna nierówność F(xp-)#p#F(xp+) definująca kwantyl ma w tym rozkładzie bardzo szczególne rozwiązanie pokazane w tabeli 4.1.

Tabela 4.1. Kwantyle w rozkładzie jednopunktowym

Rząd kwantyla p Wartość kwantyla xp

każda wartość z przedziału [0;1]@100% c

Rys. 4.1. Rozkład jednopunktowy zmiennej X i jego dystrybuanta

(3)

w jego wyniku zawsze dostajemy tę samą wartość c. Takie podejście – traktowanie stałej jako zmiennej – jest jednak wygodne i pożyteczne.

Ważna własność rozkładu jednopunktowego. Zachodzi też równoważność:

[

var(X)=0

]

[

rozkład zmiennej X jest jednopunktowy

]

Wynikanie w lewo (varX=0 ⇐ rozkład zmiennej X jest jednopunktowy) pozostawiam Czytelnikowi jako nietrudne ćwiczenie. Aby zrozumieć wynikanie w prawo (varX=0

⇒ rozkład zmiennej X jest jednopunktowy) wystarczy zauważyć, że stwierdzenie varX=0 oznacza na mocy definicji wariancji, że

( )

2

2

-

( E ) P( ) 0

var 0 lub

( E ) ( ) 0

i i

i

x X X x

X

x X f x dx

− ⋅ = =



= ⇔

 − ⋅ ⋅ =



(4.6)

Ponieważ w powyższym wzorze sumowanie lub całkowanie dotyczy wielkości nieujemnych, to suma lub całka w zeruje się wtedy i tylko wtedy, gdy zeruje się dla każdego xi wyrażenie (xi-EX)2 lub dla każdego x wyrażenie (x-EX)2 (wielkości P(X=xi) lub f(x) są dodatnie dla pewnych argumentów). Wynika stąd, że dla wszystkich xi

zachodzi xi = EX lub dla wszystkich x zachodzi x = EX. Jeśli EX nazwane zostanie c, to dowód wynikania w prawo jest zakończony.

Ważna rola rozkładu jednopunktowego. Rozkład jednopunktowy odgrywa bardzo ważną rolę w analizie zbieżności stochastycznej ciągu zmiennych losowych Xi, i=1,2,..., do stałej wartości. Zbieżność ta oznacza zwykłą zbieżność ciągu dystrybuant tych zmiennych do rozkładu jednopunktowego i jest wykorzystywana np. przy definicji zgodności estymatora, zob. rozdział 6.1.1?).

4.1.2 Rozkład dwupunktowy

Definicja. Rozkład dwupunktowy zmiennej losowej X oznacza taki rozkład, w którym zmienna przyjmuje z niezerowym prawdopodobieństwem dwie różne wartości a i b:

,

P( )

1 ,

p x a X x

p x b

 =

= =

− =

 (4.7)

(4)

i z zerowym prawdopodobieństwem wszyst- kie pozostałe wartości (tzn. inne niż a i b).

Dystrybuanta tego rozkładu ma dwa punkty skokowe (zob. rys. 4.2):

0,

( ) P( ) P( ) ,

1,

i

i x x

x a

F x X x X x p a x b

x b

<

 ≤

= < = = = < ≤

 >

(4.8) Parametry rozkładu: liczba 0<p<1.

Wartość oczekiwana i wariancja:

2

E ( 1 )

var ( )

ozn

X ap bq q p

X pq a b

= + = −

= − (4.9)

Oznaczenie q=1-p będzie jeszcze używane dalej w tekście, toteż warto je zapamiętać.

Jak pokazuje rys. 4.2, rozkład dwupunktowy jest rozkładem asymetrycznym, o asymetrii zależnej od wielkości parametru p: jeśli p<0.5 rozkład ma asymetrię ujemną, gdy p>0.5 – asymetrię dodatnią i jest symetryczny gdy p=0.5. Nietrudno pokazać, że współczynnik asymetrii CS wyraża się wzorem

3 3

3/ 2 3 2

2

E( E )

( )(2 1)

(D ) ( )

S

X X pq

C b a p

X pq b a

µ µ

= = − = = − −

(4.10)

Rozkład dwupunktowy jest bardzo często stosowanym modelem zjawisk dwusta- nowych, tj. takich zjawisk, które opisywane są przez doświadczenie losowe realizujące się tylko na dwa sposoby. Jeśli a=0, b=1, rozkład ten nazywany jest rozkładem binarnym lub zero-jedynkowym.

Przykład 4.1. Doświadczenie losowe polegające na jednokrotnym rzucie monetą jest opisy- wane rozkładem dwupunktowym najczęściej z parametrem p=0.5 (dlaczego?), a liczby a i b przypisywane wynikom orzeł i reszka, to najczęściej 0 i 1 (mogą być oczywiście dowolne, byle różne).

Przykład 4.2. Interesuje nas zdarzenie losowe A = (Qmax$x) polegające na przekroczeniu w danym miejscu przez przepływ maksymalny w roku, Qmax, zadanej wartości x m3/s. Jeśli utworzymy zmienną losową X o dwu wartościach 0 i 1 odpowiadających odpowiednio zajściu i niezajściu zdarzenia A, to zmienna ta podlega rozkładowi dwupunktowemu z nieznanym Rys. 4.2. Rozkład dwupunktowy zmiennej lo- sowej X i jego dystrybuanta (a=0.82, b=2.41)

(5)

(Jeśli w ciągu 100 lat obserwacji zdarzenie to zaszło 2 razy, to możemy powiedzieć – na podstawie częstościowej interpretacji prawdopodobieństwa – że p jest w przybliżeniu równe 2/100 = 0.02 = 2%).

W powyższych przykładach mamy do czynienia z sytuacją, gdy definiowanie zmiennej losowej jest absolutnie dowolne w tym sensie, że liczby będące wartościami zmiennej losowej nie mają żadnego sensu ilościowego – jest zupełnie nieważne jakie liczby przypiszemy możliwym wynikom doświadczenia losowego (byle były różne).

Kwantyle. Podwójna nierówność F(xp-)#p#F(xp+) definiująca kwantyl daje dla tego rozkładu tylko dwa kwantyle, jak pokazuje tabela 4.2.

Tabela 4.2. Kwantyle w rozkładzie dwupunktowym

rząd kwantyla p wartość kwantyla xp

każda wartość z przedziału [0;p)@100% a każda wartość z przedziału [p,1]@100% b

4.1.3 Rozkład równomierny

Definicja. Zmienna losowa X podle- ga rozkładowi równomiernemu (lub jed- nostajnemu) wtedy, gdy przyjmuje z nie- zerowym i identycznym prawdopodo- bieństwem n różnych wartości (x1<x2<

...< xn)

( i) 1, 1, 2,...,

P X x i n

= =n = (4.11)

Dystrybuanta tego rozkładu ma n punktów skokowych (rys. 4.3):

1

1

( ) P( )

0,

P( ) ,

1,

i

i k k

x x

n

F x X x

x x

X x k x x x

n

x x

+

<

= <

 ≤



= = = < ≤

 >

(4.12) Parametry rozkładu: liczba naturalna n>1 Wartość oczekiwana i wariancja:

Rys. 4.3. Rozkład równomierny zmiennej X i jego dystrybuanta dla n=10.

(6)

( )

1

2

1

E 1

var 1 E

n i i

n i i

X x

n

X x X

n

=

=

=

= −

(4.13)

Jest to jeden z najczęściej stosowanych rozkładów w statystyce matematycznej, gdyż najczęściej wyniki doświadczenia, np. wyniki pomiaru, przyjmujemy jako równoprawdopodobne. Asymetria tego rozkładu może być zarówno dodatnia (wartości x1,x2,...,xn grupują się po lewej stronie zakresu zmienności zmiennej X), jak i ujemna (grupowanie po prawej stronie). Asymetria zerowa (czyli symetria) jest możliwa, ale mało prawdopodobna (bo jest mało prawdopodobne, aby n liczb x1,x2,...,xn – nie wybranych specjalnie – dało zerowy współczynnik asymetrii.

Kwantyle. W rozkładzie równomiernym mamy n wartości kwantyli xp (tabela 4.3).

Tabela 4.3. Kwantyle w rozkładzie równomiernym.

rząd p kwantyla wartość kwantyla xp

każda wartość z przedziału [0;1/n)@100% x1

każda wartość z przedziału [1/n;2/n)@100% x2

... ...

każda wartość z przedziału [(n-1)/n; n/n]@100% xn

4.1.4 Rozkład dwumianowy

Definicja. Rozkład dwumianowy zmiennej losowej X – nazywany też rozkładem binomialnym lub Bernoullego – to taki rozkład, w którym zmienna losowa X przyj- muje z następującym niezerowym prawdopodobieństwem n+1 różnych wartości k: k

= 0,1,2,...,n (rys. 4.4)

P( ) n k(1 )n k

X k p p

k

 

= =  −

  (4.14)

Dystrybuanta tego rozkładu ma n+1 punktów skokowych (zob. rys. 4.5):

(7)

( ) P( ) P( ) k(1 )n k

k x k x

F x X x X k n p p

k

< <

= < = = =    −

∑ ∑

  (4.15)

Parametry rozkładu:

1) liczba naturalna n>0 2) liczba p: 0<p<1 Wartość oczekiwana i wariancja:

E

var (1 )

X np

X np p

=

= − (4.16)

Współczynnik asymetrii CS wyraża się wzorem

3 3

3/ 2 3

2

E( E ) 1 2

(D ) (1 )

S

X X p

C X np p

µ µ

− −

= = =

− (4.17)

Rys. 4.4. Rozkład dwumianowy zmiennej X dla różnych kombinacji parametrów (n,p). Kropką zaznaczono EX

(8)

Rys. 4.5. Dystrybuanta rozkładu dwumianowego zmiennej losowej X dla różnych kombinacji parametrów (n,p). Zaznaczono też prawdopodobieństwa pi = P(X-xi), i=1,2,...,n.

Schemat Bernoullego. Jeśli mamy ciąg n identycznych i niezależnych doświad- czeń losowych, a każde z nich realizuje się tylko na dwa sposoby dając w wyniku albo zdarzenie A (tzw. sukces) z prawdopodobieństwem P(A) = p, albo zdarzenie „nie A”

(}) (porażka, z prawdopodobieństwem P(}) = 1-p), to takie złożone doświadczenie nazywa się schematem Bernoullego, a liczba X sukcesów podlega rozkładowi dwu- mianowemu z parametrami n i p.

Rozkład częstości względnej. Taki sam rozkład ma zmienna losowa Y=X/n – względna częstość zachodzenia zdarzenia A w schemacie Bernoullego. Zachodzi bowiem oczywista równość

( ) n k(1 )n k

P Y k P X k p p

k n

 

 

= = = =  −

 

    (4.18)

Uwzględniając wzory (4.16) dostajemy, że wartość oczekiwana i wariancja zmiennej Y mają postać:

(9)

E E

(1 ) var var

Y X p

n

X p p

Y n n

 

=  =

 

  −

=  =

 

(4.19)

Twierdzenie Bernoullego. Wzory (4.16) są bardzo ważne dla statystyki mate- matycznej, gdyż opisany powyżej schemat Bernoullego znajduje zastosowanie przy szacowaniu prawdopodobieństw według interpretacji statystycznej (p. rozdz. 1.2.2), a wzory (4.19) uzasadniają w pewnym sensie tę metodę. Cramér [5] podaje twierdze- nie Bernoullego, które w zapisie matematycznym można przedstawić następująco:

( )

0lim P | | 0

n Y p

∈>

→∞ − >∈ = (4.20)

Jest to matematyczne uzasadnienie przekonania, że w miarę wzrostu liczby n danych (zwiększania się informacji) dokonana na tej podstawie ocena prawdopodobieństwa jest coraz dokładniejsza. Ilustracją tego twierdzenia jest przykład 1.12.

Graniczne twierdzenie de Moivre'a-Laplace'a. Z rozkładem dwumiano- wym wiąże się jeszcze jedno twierdzenie graniczne: tzw. twierdzenie de Moivre'a-La- place'a. Jeśli X jest zmienną o rozkładzie dwumianowym i pierwszych momentach , to zmienna standaryzowana

n

X np

Z npq

= − (4.21)

podlega według tego twierdzenia granicznemu rozkładowi normalnemu:

2/ 2

lim ( ) ( ) 1 2

z u

n F zn z e du

π

→∞ −∞

= Φ =

(4.22)

Fn(z) oznacza dystrybuantę zmiennej Zn, a M(z) – dystrybuantę rozkładu normalnego o średniej 0 i odchyleniu standardowym 1 (czyli N(0,1) według częstego sposobu oznaczania; p.4.2.2). Inaczej mówimy, że zmienna X posiada rozkład asymptotycznie normalny N(np, npq). PRZYKŁAD?/ ilustracja rysunkowa?

Oba powyższe twierdzenia odgrywają ważną rolę w statystyce.

4.1.5 Rozkład Poissona

Zmienna losowa X podlega rozkładowi Poissona, gdy może przyjąć jedną z nie- skończenie wiele różnych wartości k, k=0,1,2,...,n,..., z następującym prawdo- podobieństwem:

(10)

P( )

!

k

X k e

k λ λ

= = (4.23)

Rys. 4.6 ilustruje ten rozkład dla kilku wybranych wartości parametru λ.

Dystrybuanta tego rozkładu ma nieskończenie wiele punktów skokowych (zob. rys.

4.7):

( ) P( ) P( )

!

k

k x k x

F x X x X k e

k

λ λ

< <

= < =

= =

(4.24)

Parametr rozkładu: liczba 8>0 Wartość oczekiwana i wariancja:

E var

X X

λ λ

=

= (4.25)

Współczynnik asymetrii CS wyraża się wzorem 1 CS

= λ (4.26)

i jest – jak widać – dodatni, co oznacza, że prawdopodobieństwo jest skupione w lewej części zakresu zmienności zmiennej X lub inaczej, że rozkład Poissona ma długi prawy ogon.

Rys. 4.6. Rozkład Poissona P(X=x|λ) (4.23) dla kilku wartości λ. Kropką zazna- czono EX

(11)

Rys. 4.7. Dystrybuanta rozkładu Poissona dla takich samych wartości 8 jak na poprzednim rysunku. Kropką zaznaczono EX

Rozkład Poissona jako przybliżenie rozkładu dwumianowego. Dla dużych n rozkład Poissona staje się dobrym przybliżeniem rozkładu dwumianowego, gdyż zachodzi przybliżona równość

(1 ) , ( )

!

k

k n k

n p p e np

k k

λ λ

λ

  − ≈ =

   (4.27)

Różni autorzy podają różne kryteria zastosowania w praktyce wzoru (4.27). Na przykład, Krysicki i in. [16?] podają, że wzór ten można stosować, gdy n$50, p#0.1, np#10, natomiast Pacut [??] – gdy n$20 i p#0.1.

4.2 ROZKŁADY CIĄGŁEJ ZMIENNEJ LOSOWEJ

Podam tutaj informacje dotyczące rozkładów: prostokątnego, normalnego, log- normalnego, gamma i beta.

4.2.1 Rozkład prostokątny

Zmienna losowa X podlega rozkładowi prostokątnemu (lub: jednostajnemu, lub:

równomiernemu), jeśli jej funkcja gęstości ma postać:

1 [ , ],

( ; , )

0 [ , ]

P

x a b a b f x a b b a

x a b

 ∈ <

= −

 ∉

(4.28)

(rys. 4.8). Łatwo znaleźć dystrybuantę tego rozkładu:

(12)

0

( ; , ) P( ) ( ) [ , ]

1

x

P P

x a x a

F x a b X x f u du x a b

b a

x b

−∞

 <

 −

= < = = ∈

 −

 >

(4.29)

Przykładowy wykres dystrybuanty jest pokazany na rys. 4.8.

Parametry rozkładu: liczby rzeczywiste a,b; a<b

Wartość oczekiwana i wariancja:

2

E 2

( )

var 12

X a b

X b a

= +

= −

(4.30)

Jest to chyba najprostszy ciągły roz- kład prawdopodobieństwa. Współczyn- nik asymetrii CS=0 (rozkład jest syme- tryczny); wartość modalna (MoX) nie istnieje, mediana MeX jest średnią aryt- metyczną wartości a i b (a więc iden- tyczną z EX:

Me 2

X a b+

= (4.31)

Również kwantyle (stanowiące rozwiązanie równania F(xp;a,b)=p, p0[0,1]) są łatwe do obliczenia:

1 ( )

xp = + bap (4.32)

4.2.2 Rozkład normalny

Definicja. Funkcja gęstości rozkładu normalnego (lub: rozkładu Gaussa) zmien- nej losowej X wyraża się wzorem

Rys. 4.8. Funkcja gęstości i dystrybuanta rozkładu równomiernego zmiennej X skupionego na prze- dziale [a,b]=[1,4]

0.2 0.4 0.6 0.8 1 1.5

2 2.5 3 3.5 4 xp

p=PHX§xL Rys. 4.9. Zależność (4.32) w przypadku rozkładu równomiernego zmiennej X skupionego na przedziale [a,b]= [1,4]

(13)

Parametry rozkładu: liczby rzeczywis- te µ, σ; σ>0

Wartość oczekiwana i wariancja:

2

E var

X X

µ σ

=

= (4.34)

Ponieważ rozkład ten jest symetrycz- ny (zob. rys. 4.10), to wartość średnia, mediana i moda są identyczne:

EX =MeX =MoX =µ (4.35) Z symetrii tej wynika także, że

3 3

3/ 2 3

2

E( E ) (D ) 0

S

X X

C X

µ µ

= = − = (4.36)

Dystrybuanta FN(x;µ,σ) rozkładu nor- malnego nie daje się wyrazić elemen- tarnie (tzn. funkcja gęstości nie da się scałkować inaczej niż numerycznie):

2 ( ) /

2

( ; , ) P( ) ( ; , )

1 1 1 1

exp exp

2 2

2 2

x

N N

x x

F x X x f x dx

x dx u du

x

µ σ

µ σ µ σ

µ

σ π σ π

µ σ

−∞

−∞ −∞

′ ′

= < =

  ′ −    

= −    ′= − 

 − 

= Φ  

 

∫ ∫

(4.37)

dlatego konieczne jest skorzystanie z odpowiedniego programu komputerowego lub z tablic. Tablice rozkładu normalnego zawierają zwykle wartości dystrybuanty rozkładu standaryzowanego M(u), gdzie u jest zmienną standaryzowaną: u = (x-µ)/σ oraz, ewentualnie, kwantyle uΦ w tym rozkładzie. Sam rozkład oznaczany jest bardzo często symbolem N(µ,σ). Symbol ten jest skrótem równoważnika zdania: „rozkład normalny o parametrach µ iσ”. Rozkład standaryzowany zapisywany jest w tej symbolice jako N(0,1).

Rozkład normalny jest jednym z najważniejszych, jeśli nie najważniejszym, ze wszystkich stosowanych rozkładów prawdopodobieństwa.

Rys. 4.10. Funkcja gęstości i dystrybuanta rozkładu normalnego zmiennej X dla kilku wartości parametru σ (przyjęto µ=0)

(14)

1. Z własności matematycznych tego rozkładu. Jeśli próba losowa (tj. informacja o badanym rozkładzie pochodząca z doświadczenia, zob. rozdział 5.1) wzięta jest z rozkładu normalnego, to otrzymuje się w jawnej postaci rozkłady wielu interesujących funkcji próby (statystyk). Tak więc z matematycznego punktu widzenia wygodnie jest zakładać, że dana próba pochodzi z tego rozkładu.

2. Z praktyki. Wiele obserwowanych zmiennych losowych ma rozkład w przybliżeniu normalny. W szczególności powszechnie stosowana jest hipoteza o normalnym rozkładzie niepewności (błędów) pomiarowych.

3. Z tak zwanego centralnego twierdzenia granicznego. Jeśli niezależne zmienne losowe X1, X2, ... mają ten sam rozkład o parametrach EXi=µ i DXi=σ, i=1,2,..., to ciąg dystrybuant F1, F2, ... zmiennych losowych

1

1 n

i i n

n X Y

n µ σ

=

=

(4.38)

spełnia dla każdego rzeczywistego y następujący warunek

2

1 2

lim ( ) ( ) 2

y u

n F yn y e du

π

→∞ −∞

= Φ =

(4.39)

Przełożone na trochę inny język twierdzenie to (tzw. Lindeberga-Lévy'ego) oznacza, że jeśli próba losowa jest duża (tzn. tak liczna, że można zaniedbać różnicę pomiędzy Fn(y) a M(y)), to pomimo tego, iż pochodzi ona z rozkładu nawet w przybliżeniu nie będącego normalnym, wiele funkcji próby (np. średnia arytmetyczna) będzie miało rozkład w przybliżeniu normalny.

Prezentowane poprzednio twierdzenie de Moivre'a-Laplace'a (4.22) jest szcze- gólnym przypadkiem twierdzenia Lindeberga-Lévy'ego.

Twierdzenia graniczne i ich ważność. To twierdzenie i podobne (tzw. gra- niczne) twierdzenia mają duże znaczenie praktyczne, gdyż umożliwiają wyciąganie pewnych wniosków o rozkładach prawdopodobieństwa niektórych funkcji wielu zmiennych losowych w sytuacjach, gdy liczba zmiennych jest duża, a ich rozkład nie jest znany. Problemem jest odpowiedź na pytanie jak liczna musi być próba losowa, aby można było użyć takiego twierdzenia. Jedną z najczęściej wymienianych liczb jest 30, jakkolwiek odpowiedź na to pytanie zależy od konkretnego przypadku. I tak na przykład próbę o liczebności n=30 można traktować jako dużą w przypadku, gdy

(15)

dwojakiego rodzaju obliczeń (nie tylko dla rozkładu normalnego – dotyczy to każdego rozkładu prawdopodobieństwa):

Zadanie 1 – obliczanie prawdopodobieństwa: Dane są dwie liczby a<b i wiadomo, że zmienna losowa X podlega rozkładowi normalnemu N(µ,F) o znanych wartościach parametrów µ i σ. Obliczyć prawdopodobieństwo P(a<X<b):

P(a<X <b)= ?

Zadanie 2 – obliczanie kwantyli: Dana jest wartość prawdopodobieństwa nieprzekroczenia p, 0<p<1 i wiadomo, że zmienna losowa X podlega rozkładowi nor- malnemu N(µ,σ) o znanych wartościach parametrów µ i σ. Obliczyć wartość xp zmien- nej losowej X taką, że P(X<xp)=p. (Mówimy w skrócie: znaleźć kwantyl rzędu p (lub kwantyl p@100-procentowy) w rozkładzie normalnym N(µ,σ)).

P(X <?)= p

Zadania te można rozwiązać korzystając z komputera (np. wykorzystując jakiś arkusz kalkulacyjny, choćby MS Excel), albo – co nadal nie jest rzadkie – wykorzystując tabelę wartości dystrybuanty M(u) standaryzowanego rozkładu normalnego N(0,1) lub tabelę kwantyli uΦ w standaryzowanym rozkładzie normalnym. Tabele takie – odpowiednia tabela 1A i 1B – są zamieszczone w Dodatku A.

Rozwiązanie zadania 1. Z własności ciągłej zmiennej losowej mamy

P(a<X <b)=F b( )−F a( ) (4.40) gdzie F(x) oznacza dystrybuantę rozkładu normalnego N(µ,σ). Przejście pomiędzy F(x) a M(u) z tabeli 1A (czyli pomiędzy N(µ,σ) a N(0,1)) jest łatwe:

( ) ( )

( ) P( ) P X x P x

F x X x µ µ U u µ u

σ σ σ

− − −

   

= < =  < = < = Φ = Φ

    (4.41)

gdzie U jest standaryzowaną zmienną losową (czyli taką, że EU=0, varU=1):

U X µ

σ

= − (4.42)

Mamy więc ostatecznie dla rozkładu normalnego N(µ,σ)

( ) ( )

( ) N( ) N( ) b a

P a< X <b =F bF a = Φ u − Φ u (4.43) gdzie ua=(a-µ)/σ, ub=(b-µ)/σ.

Przykład 4.3. Obliczanie prawdopodobieństw w rozkładzie normalnym. Zmienna losowa X podlega rozkładowi N(5,2). Znaleźć P(3<X<6). Rozwiązanie: Zgodnie z wzorem

(16)

(3-5)/2 = -1. Pozostaje już teraz odczytanie z tablic wartości M(0.5) i M(-1). W tablicy 1A znajdujemy, że M(0.5) = 0.6915, brak jest natomiast wartości M(-1). W wielu publikowanych tablicach rozkładu N(0,1) drukowane są wyłącznie wartości M(u) dla u>0, gdyż ze względu na symetrię rozkładu N(0,1) względem zera zachodzi równość

M(-u) = 1 – M(u).

W naszym przypadku mamy więc M(-1) = 1 – M(1) = 1 – 0.8413 = 0.1587. Ostatecznie dostajemy: P(3<X<6) = M(0.5) – 1 + M(1) = 0.5328

Rozwiązanie zadania 2. Mamy znaleźć xp z równania F(xp)=p. Z równości (4.41) mamy, że F(xp) = M(up) stąd F(xp) = M(up) = p. Z tabeli 1B odczytujemy dla zadanej wartości p wartość standaryzowanego kwantyla up, a potem – korzystając z równości (4.42) – znajdujemy szukaną wartość kwantyla xp:

p p

x =µ σ+ u (4.44)

Przykład 4.4. Obliczanie kwantyla w rozkładzie normalnym. Znaleźć kwantyl x75% w rozkładzie N(4,2). Rozwiązanie. Φ(u75%) = 0.75. Z tabeli 1B znajdujemy, że u75% = 0.674. Ko- rzystając z równości dostajemy końcowy wynik xp = µ + σ@up = 4 + 2@0.674 = 5.348.

Przykład 4.5. Obliczanie kwantyla w rozkładzie normalnym. Znaleźć kwantyl x25% w rozkładzie N(4,2). Rozwiązanie. Φ(u25%) = 0.25. Niestety, w tabeli 1B są tylko wartości Φ(u)$0.5. Jednak z symetrii rozkładu normalnego N(0,1) wynika, że up = -u1-p. W naszym przypadku wzór ten oznacza, że u25% = -u75% = -0.674. Mamy więc dalej, że x25% = µ + σ@u25% = µ – σ@u75% = 4 – 2@0.674 = 2.652. (rysunek?)

4.2.3 Rozkład logarytmiczno-normalny

Definicja. Rozkład logarytmiczno-normalny (często w skrócie nazywany rozkła- dem log-normalnym) zmiennej losowej X ma funkcję gęstości (rys. 4.11):

1 1 ln 2

( ; , ) exp

2 2

LN

f x x

x µ σ µ

σ π σ

  −  

= −   

 

 

  (4.45)

Parametry rozkładu: liczby rzeczywiste µ, σ; σ>0 Wartość oczekiwana i wariancja:

( ) ( )

2

2 2

E exp

X σ2

µ 

=  + 

 

  (4.46)

(17)

MoX =eµ σ 2 (4.47)

Rozkład logarytmiczno-normalny jest rozkładem asymetrycznym o dodatnim współczynniku asymetrii:

( )

2 2

3 3

3/ 2 3

2

E( E )

1 2

S (D )

X X

C e e

X

σ σ

µ µ

= = − = − + (4.48)

Rozkład ten jest bardzo często stosowany w praktyce, głównie z dwu powodów.

Pierwszym z nich jest fakt, że wiele zmiennych spotykanych w przyrodzie, jak np.

natężenie przepływu rzecznego, wysokość opadu, czy inne, jest ograniczonych od dołu, a nie ograniczonych od góry i rozkład lognormalny w wielu takich przypadkach wykazuje często dobre dopasowanie. Drugim powodem jest to, że jeśli zmienna loso- wa X podlega temu rozkładowi, to zmienna Y = (lnX-µ)/σ podlega standaryzowane- mu rozkładowi normalnemu N(0,1), co ułatwia obliczenia. Łatwo bowiem zauważyć, że

Rys. 4.11. Funkcja gęstości i dystrybuanta rozkładu logarytmiczno-normalnego dla różnych kombinacji parametrów (µ,σ). Dystrybuanty przecinają się w jednym punkcie o odciętej MeX=eµ . Zwraca uwagę dalekie położenie EX dla (4).

(18)

2 (ln ) /

2

( ; , ) P( ) ( ; , )

1 1 ln 1 1 ln

exp exp

2 2

2 2

x

LN LN

x x

F x a b X x f x a b dx

x x

dx u du

x

µ µ σ µ

σ σ

σ π π

−∞

−∞ −∞

′ ′

= < =

  ′ −      − 

= ′ −    ′= −  = Φ 

∫ ∫

(4.49)

gdzie Φ(⋅) oznacza dystrybuantę standaryzowanego rozkładu normalnego N(0,1).

Mediana. Korzystając ze wzoru i definicji mediany dostajemy warunek na medianę MeX zmiennej X w rozkładzie log-normalnym.

ln Me 1

P( Me )

2

X X X µ

σ

 − 

< = Φ =

  (4.50)

Ponieważ dla u = 0 mamy M(u) = ½, więc po krótkich rachunkach otrzymujemy, że

MeX =eµ (4.51)

Wykorzystanie tablic standaryzowanego rozkładu normalnego do obliczania prawdopodobieństw i kwantyli rozkładu log-normalnego.

Jedyna różnica pomiędzy zadaniami 1 i 2 dla rozkładu normalnego z zadaniami 1 i 2 dla rozkładu log-normalnego polega na związku zmiennej standaryzowanej U ze zmienną X:

U ln X µ σ

= − (4.52)

i związku odwrotnego

X =eµ σ+ ⋅U (4.53)

Przykład 4.6. Obliczanie prawdopodobieństwa w rozkładzie lognormalnym.

Zmienna losowa X podlega rozkładowi lognormalnego o parametrach µ=1, σ=0.2. Znaleźć P(2<X<4). Rozwiązanie: Wykorzystując wzór (4.49) i tabelę 1A z Dodatku A dostajemy P(2<X<4) = Φ[(ln(4)-1)/0.2] – Φ[(ln(2)-1)/0.2] = Φ(1.9315) - Φ(-1.5343) ≅ Φ(1.93) – (1- Φ(1.53)) = 0.9732 – (1-0.9375) = 0.9732 – 0.0625 = 0.9108.

Przykład 4.7. Obliczanie kwantyla w rozkładzie lognormalnym. Znaleźć kwantyl x75% w rozkładzie lognormalnym o parametrach µ=1, σ=0.2. Rozwiązanie. Φ(u75%) = 0.75. Z tabeli 1B znajdujemy, że u75% = 0.674. Korzystając z równości (4.53) dostajemy końcowy wynik x75% = exp(µ+σ@u75%) = exp(1+0.2@0.674) = exp(1.1348) = 3.111.

(19)

wynika, że up = -u1-p, co w konsekwencji oznacza, że u25% = -u75% = -0.674. Mamy więc dalej, że x25% = exp(µ+σ@u25%) = exp(µ - σ@u75%) = exp(1 - 0.2@0.674) = exp(0.8652) = 2.376.

4.2.4 Rozkład gamma

Rozkład gamma (lub: Pearsona III typu) jest zdefiniowany następującą funkcją gęstości:

( ; , ) 1

( )

f x x e x

λ

λ α

α λ α

λ

Γ =

Γ (4.54)

Rys. 4.12. Funkcja gęstości i dystrybuanta rozkładu gamma dla kilku wartości parametru λ .

(zob. rys. 4.12 i rys. 4.13). Funkcja Γ(λ) nosi nazwę funkcji gamma Eulera i czasami mówi się, że jest to uogólniona silnia, gdyż prawdziwa jest równość

(z 1) z ( )z

Γ + = ⋅ Γ (4.55)

co oznacza, że dla dowolnej liczby naturalnej n mamy Γ (n+1) = n!

Parametry rozkładu: liczby rzeczywiste α>0, λ>0 Wartość oczekiwana i wariancja:

(20)

EX λ varX λ2

α α

= = (4.56)

Współczynnik asymetrii

3 3

3/ 2 3

2

E( E ) 2

S (D )

X X

C X

µ

µ λ

= = − = (4.57)

jest dodatni.

Wartość modalna

MoX λ 1 α

= − (4.58)

istnieje tylko dla λ>1.

Rozkład gamma nie daje się standaryzować tak jak rozkład normalny i – w odróż- nieniu od rozkładów poprzednich – jeden z parametrów (λ) pozostaje pod całką:

1 1

0 0 0

( ; , ) P( ) ( ; , ) ( )

( ) ( )

x x x

x t t

F x X x f x dx x e dx e dt

λ α λ

λ α

α λ α λ α

λ λ

Γ = < = Γ ′ ′= ′ ′=

Γ Γ

∫ ∫ ∫

(4.59)

gdzie t = αx′ (zob. rys. 4.13). Zachodzi więc równość ( ; , ) ( ;1, )

F xΓ α λ =FΓ αx λ (4.60)

pozwalająca na przygotowanie tablic wartości dystrybuanty F'(t,8) zależnych tylko od wartości u = αx oraz λ.

Przykład 4.9. Obliczanie prawdopodobieństwa w rozkładzie gamma. Zmienna losowa X podlega rozkładowi gamma o parametrach α=0.35 i λ=6. Znaleźć P(X<20). Roz- wiązanie. P(X<20) = FΓΓΓΓ (20; 0.35, 6) = F''''(7.0; 6) = ... (tu korzystamy z tablicy rozkładu (tabela 2, Dodatek A) ... = 0.7 = 70%.

Przykład 4.10. Obliczanie kwantyla w rozkładzie gamma. Zmienna losowa X podlega rozkładowi gamma o parametrach α=0.35 i λ=6. Znaleźć kwantyl x95% w tym rozkładzie.

Rozwiązanie. Korzystamy z tabeli 2 (Dodatek A ): u95%(λ=6) = 10.513, skąd mamy x95% = u95%/αααα = 10.513/0.35 = 30.037.

Pewne szczególne postacie rozkładu gamma noszą odrębne nazwy. I tak:

1. Gdy λ=1, to rozkład nazywa się rozkładem wykładniczym z parametrem α (rys.

4.12).

(21)

2. Gdy λ=n/2 i α=1/2, gdzie n jest liczbą naturalną, to rozkład taki zwany jest rozkładem χ2 (chi-kwadrat) z n stopniami swobody. Jest to rozkład bardzo ważny dla statystyki matematycznej.

4.2.5 Rozkład beta

Mówimy, że zmienna losowa X ma rozkład beta I rodzaju (lub: Pearsona, I typu), gdy jej funkcja gęstości ma postać:

1 1

1 (1 ) (0,1)

B( , ) ( ; , )

0 (0,1)

B

x x dla x

f x

dla x

α β

α β α β

 − ∈

=

 ∉

(4.61)

Funkcja B(",β) nosi nazwę funkcji beta Eulera i związana jest z funkcją gamma (Eulera) wzorem

( ) ( ) B( , )

( )

α β

α β α β

Γ Γ

= Γ + (4.62)

Rys. 4.13. Funkcja gęstości rozkładu beta zmiennej X dla różnych kombinacji parametrów α i β

(22)

Wartość oczekiwana i wariancja:

2

E

var ( ) ( 1)

X

X α α β

αβ

α β α β

= +

= + + +

(4.63)

Rys. 4.14. Dystrybuanta rozkładu beta zmiennej X dla różnych kombinacji parametrów α i ß

Jest to rozkład obustronnie ograniczony o dowolnej asymetrii, dlatego stał się w za- stosowaniach statystycznych jednym z głównych rozkładów zmiennych obustronnie ograniczonych. (Rozkład prostokątny jest szczególną postacią rozkładu beta).

Współczynnik asymetrii wyraża się wzorem

3 3

3/ 2 3

2

E( E ) 1

2( )

(D ) ( 2)

S

X X

C X

α β

µ β α

µ α β αβ

+ +

= = − = −

+ + (4.64)

Wartość modalna istnieje dla parametrów α>1 i β>1:

(23)

Niestety, wskutek swojej skomplikowanej postaci, nie jest możliwa standaryzacja tego rozkładu tak, aby ewentualne tablice wartości tego rozkładu były proste. Zamiast tego konstruowane są nomogramy (np. Zieliński R. i Zieliński W. [34]); można też wykorzystać niektóre arkusze kalkulacyjne.

4.3 DWUWYMIAROWY ROZKŁAD NORMALNY

Ze względu na swoje liczne zastosowania dwuwymiarowy rozkład normalny (albo: dwuwymiarowy rozkład Gaussa) odgrywa bardzo ważną rolę zarówno w ra- chunku prawdopodobieństwa, jak i w statystyce – wszędzie tam, gdzie rozpatrywana jest dwuwymiarowa zmienna losowa i jej charakterystyki. Jest to rozkład pięciopara- metrowy o funkcji gęstości

2

2 2

2 2

( , ; , , , , )

1 1

exp 2

2(1 )

2 1

N X X Y Y

X X Y Y

X X Y Y

X Y

f x y

x x x x

µ σ µ σ ρ

µ µ µ µ

ρ σ ρ σ σ σ

πσ σ ρ

=

  −  − −  −  

 

 

⋅ −   − ⋅ +  

−  

−      

(4.66)

Parametry rozkładu: liczby rzeczywiste µX,R, µY,R, σX>0, σY>0, ρ,[-1,1]

Wartości oczekiwane, wariancje i współczynnik korelacji:

2

2

E var E var

corr( , )

X

X

Y

Y

X X Y

Y X Y

µ σ µ

σ ρ

=

=

=

=

=

(4.67)

Izolinie funkcji gęstości dwuwymiarowego rozkładu normalnego są przedstawione na rys.

4.15.

Najważniejsze własności dwuwymiarowego rozkładu normalnego:

1. Rozkłady brzegowe są również rozkładami normalnymi:

1 1 2

( , , ) exp

2 2

X

X X X

X X

f x x µ

µ σ σ π σ

  −  

 

= ⋅ −   

 

 

  (4.68)

1 1 2

( , , ) exp

2 2

Y

Y Y Y

Y Y

f x x µ

µ σ σ π σ

  −  

 

= ⋅ −   

 

 

  (4.69)

Rys. 4.15. Izolinie funkcji gęstości dwuwy- miarowego rozkładu normalnego

(24)

Dowód powyższych równości jest dość długi, dlatego nie jest tutaj zamieszczony.

Można go znaleźć np. w podręczniku Fisza [11].

Niestety, nie jest prawdziwe twier- dzenie odwrotne, tzn. z tego, że brze- gowe rozkłady dwuwymiarowej zmien- nej losowej (X,Y), fX(x) i fY(y), są roz- kładami normalnymi, nie wynika, że łączny rozkład zmiennej (X,Y) jest też normalny. Jednakże w praktyce taką równoważność zakłada się często.

2. Jeśli zmienne losowe X i Y są niesko- relowane (tzn. ρ=0), to są niezależne (implikacja w drugą stronę jest zawsze prawdziwa).

Dowód tego twierdzenia jest bar- dzo łatwy: jeśli do wzoru podstawimy D

= 0, to otrzymamy

f(x,y;µXY,FX,FY,D) = fX(x;µX,FX)·fY(y; µY,FY)

3. Regresja I rodzaju jest regresją liniową. Oznacza to, że dla przypadku regresji Y względem X mamy:

2 2

E( | ) ( )

var( | ) (1 )

Y

X Y

X

Y

Y x x

Y x

ρσ µ µ

σ ρ σ

= − +

= −

(4.70)

Rys. 4.16 ilustruje przebieg linii regresji E(Y|x) oraz linii E(Y|x) ± D(Y|x) na tle izolinii funkcji gęstości rozkładu. Zwraca uwagę stałość wariancji warunkowej var(Y|x) – jej wartość jest niezależna o wartości zmiennej losowej X i z tego powodu jest równa wariancji resztowej Evar(Y|x).

4.4 PYTANIA I ZADANIA

1. Korzystając ze wzorów definicyjnych wyprowadzić równości (4.9) i (4.10).

2. Podać kilka przykładów doświadczenia losowego opisywanego rozkładem dwupunktowym.

3. Zmienna losowa o rozkładzie równomiernym (4.11) przyjmuje n=10 wartości

Rys. 4.16. Linia regresji E(Y|x) zmiennej Y względem X w dwuwymiarowym rozkładzie nor- malnym wraz z pasem o szerokości dwóch odchyleń resztowych D(Y|x)

(25)

4. Korzystając ze wzorów definicyjnych wyprowadzić równości (4.16) i (4.17).

5. Niech zmienna losowa X = Eni=1Xi, gdzie niezależne zmienne Xi, i=1,2,...,n, podle- gają zero-jedynkowemu rozkładowi P(Xi=1)=p, P(Xi=0)=q. Udowodnić, że EX = np, varX = npq.

6. Zmienna losowa X podlega rozkładowi prostokątnemu skupionemu na przedziale (1,3). Obliczyć a) P(1.5<X<2.3), b) kwantyl x75%.

7. Zmienna losowa X podlega rozkładowi N(25,5). Obliczyć a) P(0<X<10), b) kwantyl x25%, x75%.

Cytaty

Powiązane dokumenty

poprzednich) doświadczenie losowe, w którym możliwe są dwa wyniki umownie nazwane „sukces” i „porażka”.. (Wielokrotne rzuty kostką) n=30 razy

Drugi rodzaj tablic podaje dla różnych wartości parametru k takie liczby rzeczywiste χ 2 k,α , że prawdopodobieństwo przybrania przez zmienną losową wartości

Oblicz prawdopodobieństwa, że X odchyla się od swojej wartości oczekiwanej o nie więcej niż kolejno σ, 2σ i

Zakłada się, że prędkość pociągu na trasie Katowice – Zabrze można opisać rozkładem N(m.,10km/h). Zbadano prędkość 26 pociągów na tej trasie i otrzymano średnią

Na podstawie (25+K)-elementowej próby prostej oszacowano średni czas toczenia pewnego detalu na tokarce, który wynosił (26-K) min.. Odchylenie standardowe wynosi

Oszacować na podstawie przybliżenia Poissona, jakie jest prawdopodobieństwo, że wśród 1000 losowo wybranych ziaren znajduje się (1) co najwyżej 16 ziaren chwastów, (2) co najmniej

[Zagadnienie regresji liniowej.] Niech X, Y będą zmiennymi całkowalnymi w kwadracie.. Wyznacz współczynnik asymetrii dla

Podstawowe teoretyczne rozk lady prawdopodobie´ nstwa zmiennej losowej jednowymiarowej Typu