Funkcja gęstości w rozkładzie normalnym:

(1)

Statystyka i opracowanie danych – W4

Rozkład normalny

Parametry rozkładu zmiennej losowej Zmienne losowe wielowymiarowe

Dr Anna ADRIAN Paw B5, pok 407 adan@agh.edu.pl

(2)

Parametry rozkładu

N

(µ,σ),

µ - Wartość oczekiwana σ² - Wariancja

µ

σ

f(x)

Rozkład normalny – wykres funkcji gęstości i interpretacja

x

(3)

Funkcja gęstości w rozkładzie normalnym:

• jest symetryczna względem prostej x = µ

• w punkcie x = µ osiąga wartość maksymalną

• ramiona funkcji mają punkty przegięcia dla x = µ ^{- σ} oraz x = µ ^{+ σ}

Kształt funkcji gęstości zależy od wartości parametrów: µ ^{, σ :} - parametr µ decyduje o przesunięciu krzywej,

- parametr σ decyduje o „smukłości” krzywej.

Cechy charakterystyczne funkcji gęstości rozkładu normalnego

(4)

Jeżeli zmienna losowa ma rozkład normalny N(µ,σ) to:

- 68,3 % populacji mieści się w przedziale (

µµµµ

^{- σ;}

µµµµ

^{+ σ)}

µµµµ

^{- 2σ;}

µµµµ

^{+ 2σ)}

µµµµ

^{- 3σ;}

µµµµ

^{+ 3σ)}

Rozkład normalny

Reguła 3 sigma

(5)

Dla uproszczenia obliczeń prawdopodobieństwa P(a<X ≤ b) dla zmiennej losowej o rozkładzie normalnym, z wartością

oczekiwaną µ i odchyleniem standardowym σ, dokonuje się standaryzacji zmiennej losowej.

Prawdopodobieństwo w rozkładzie normalnym ( podobnie jak w każdym innym rozkładzie ciągłym) wyznaczane jest dla

wartości zmiennej losowej z określonego przedziału, P(a<X ≤ ^b)

Prawdopodobieństwo w rozkładzie normalnym

P(a<X ≤ b) = F(b)- F(a),

(6)

Zmienną X zastępuje się zmienną standaryzowaną U

σ

µ

= x − u

Standaryzacja polega na sprowadzeniu dowolnego rozkładu normalnego N(µ, σ), o danych parametrach µ i σ do rozkładu standaryzowanego (modelowego) o wartości oczekiwanej µ = 0 i odchyleniu standardowym σ = 1.

która ma rozkład N(0,1)

Rozkład normalny - standaryzacja

Wtedy otrzymujemy następujące zależności : f(x)→ϕ(u), F(x) →Φ(u), czyli:

) (

) ( )

(

σ

µ

Φ −

=

≤ x

x F x

X P

(7)

Własności dystrybuanty

standaryzowanego rozkładu normalnego

:

) ( )

(

) (

1 )

( 1

) (

) ( 1

) (

) ( )

( )

(

u u

U P

u u

U P

u U

P

u u

u U

P

u u

U P

x X

P x

F

Φ

=

−

>

Φ

−

=

≤

−

=

>

Φ

−

=

− Φ

=

−

≤

Φ

=

≤

=

≤

=

(8)

gdzie Φ(u) oznacza wartości dystrybuanty standaryzowanego rozkładu normalnego N(0,1) Wartości te znajdziemy w tablicach statystycznych



 



 −

Φ

−



 



 −

Φ

=

−

=

≤

<



 



 −

Φ

−



 



 −

Φ

=



 



 − < ≤ −

=



 



 − < − ≤ −

=

≤

<

σ µ σ

µ

σ µ σ

µ σ

µ

σ µ σ

µ σ

µ

a a b

F b

X a

P

a b

U b P a

b X

P a b

X a

P

) ( )

( )

(

) (

Obliczanie prawdopodobieństwa w rozkładzie normalnym

Obliczanie prawdopodobieństwa, że zmienna losowa X, o rozkładzie N (µ, σ), przyjmie wartości z przedziału (a, b)

(9)

Zadanie:

Wzrost kobiet w pewnej populacji ma rozkład normalny N(165,15). Oznacza to, iż zmienna losowa jaką jest

wzrost kobiet ma rozkład normalny ze średnią równą 165 cm odchyleniem standardowym równym 15 cm.

Jaki jest udział w populacji kobiet o wzroście:

a) do 160 cm,

b) w przedziale 165-170 cm, c) powyżej 175 cm

d) dokładnie 150 cm

(10)

Rozwiązanie:

a) do 160 cm

3707 ,

0 6293 ,

0 1 ) 33 , 0 ( 1

) 33 , 0 (

) 33 , 0 15 (

165 160

15 ) 165

160 (

=

−

= Φ

−

=

− Φ

=

−

≤

=

 

 



 − ≤ −

=

≤ X P U

P X

P

a) innym sposobem

3707 ,

0 6293

, 0 1 )

33 , 0 ( 1

) 33 , 0 (

15 165 ) 160

160 (

) 160 (

=

−

= Φ

−

=

− Φ

=

 

 



 −

Φ

=

≤ F

X

P

(11)

b) w przedziale 165-170 cm

c) powyżej 175 cm.

1293 ,

0 5

, 0 6293

, 0 )

0 ( )

33 , 0 ( )

33 , 0 0

(

15 165 170

15 165 15

165 ) 165

170 165

(

=

−

= Φ

− Φ

=

≤

<

=

 

 



 − < − ≤ −

=

≤

<

U P

P X X

P

251429 ,

0 748571

, 0 1

) 67 , 0 ( 1

) 67 , 0 (

1 ) 67 , 0 15 (

165 175

15 ) 165

175 (

=

−

= Φ

−

=

≤

−

=

>

=

 

 



 − > −

=

>

U P

U X P

P X

P

d) dokładnie 150 cm.

0 )

150 (

) 150 (

) 150 150

( )

150 ( X = = P ≤ X ≤ = F − F =

P

Rozwiązanie:

(12)

(13)

Parametry pozycyjne rozkładu zmiennej losowej Moda –Dominanta. Mediana.

• Modą Mo ( Dominantą Do) zmiennej losowej X nazywamy tę wartość zmiennej losowej, której odpowiada:

– Największe prawdopodobieństwo – w przypadku zmiennej dyskretnej

– Maksimum lokalne funkcji gęstości w przypadku zmiennej losowej ciągłej.

• Medianą Me zmiennej losowej X nazywamy wartość x, spełniającą nierówności

P(X≤x)≥0,5 i P (X ≥ x) ≥ 0,5

natomiast dla dystrybuanty mamy

0,5 ≤ F(x) ≤ 0,5+P(X=x) dla zmiennej dyskretnej

F(x)=0,5 dla zmiennej ciągłej

(14)

Symetria rozkładu zmiennej losowej

Zmienna losowa ma rozkład symetryczny jeśli istnieje taka wartość a, że:

– W przypadku zmiennej dyskretnej każdemu punktowi skokowemu x_i ≤ a odpowiada punkt x_j ≥ a, taki, że

P(X= x_i)= P(X= x_j) oraz a- x_i= x_j-a

– W przypadku zmiennej losowej ciągłej o funkcji gęstości f(x) : f(a-x)=f(a+x) dla każdego x w punktach ciągłości f(x).

Punkt a nosi nazwę środka symetrii, a prosta x=a jest osią symetrii rozkładu zmiennej losowej .

– Jeśli rozkład jest symetryczny, to środkiem symetrii jest wartość oczekiwana

– W rozkładzie symetrycznym wszystkie momenty centralne nieparzystego rzędu równe są zero

(15)

Asymetria rozkładu zmiennej losowej

• Zmienna losowa ma rozkład asymetryczny jeśli nie istnieje taka wartość a (taki punkt a), który spełnia warunki rozkładu symetrycznego.

• Ze względu na to, że w rozkładzie asymetrycznym momenty centralne rzędu nieparzystego są różne od zera, do określenia współczynnika asymetrii (skośności) rozkładu wykorzystuje się trzeci moment centralny µ₃, mianowicie

• Jeśli γ>0, asymetria rozkładu jest dodatnia prawostronna (wydłużenie w kierunku dużych wartości)

• Jeśli γ<0, asymetria rozkładu jest ujemna - lewostronna (wydłużenie w kierunku małych wartości)

)

3 (

3

X D

γ = µ

(16)

Wyznaczyć wskaźniki położenia zmiennej X:

wartość oczekiwaną, modę, medianę, kwantyl rzędu 0,75,

Dla zmiennej losowej, której funkcja gęstości dana jest wzorem



 





 

 + < <

=

mprzypadku wprzeciwny

x x x

f

0 1 3 0

2 )

(

²

E(X) = 7/12 Mo = 1

Me obliczę z równania F(Me) = 1/2; Me = 9/24 Q₃ ← F(Q₃ ) = 3/4 stąd Q₃

=

^41/64

(17)

Zmienna losowa wielowymiarowa

• Dana jest przestrzeń probabilistyczna (Ω, S, P)

i w tej przestrzeni n zmiennych losowych X₁,X₂,...,X_n Definicja

Uporządkowany układ n zmiennych losowych, oznaczony X= (X₁,X₂,...,X_n) nazywamy wektorem losowym lub

n -wymiarową zmienną losową, co oznacza, że każdemu zdarzeniu ω ∈ Ω przyporządkowano punkt przestrzeni euklidesowej Rⁿ

Funkcję P_X(A) = P({ω: X(ω) ∈A}) nazywamy rozkładem prawdopodobieństwa wektora losowego X, a jego

dystrybuanta jest określona wzorem F_X(x) = P(X₁<x₁,X₂<x₂,...,X_n<x_n)

(18)

Przykłady

• Badamy trzy cechy człowieka : – wiek , ω₁ ∈ [18,100] [lat]

– wzrost, ω₂ ∈ [140, 210][cm]

– waga, ω₃ ∈ [40,150][kg]

ω = (ω₁, ω₂, ω₃ ⁾∈ Ω

Zmienne losowe definiuję następująco:

X₁( ω)= ω₁ X₂( ω)= ω₂ ...

X_n ( ω)= ω_n

(19)

Tablicowa reprezentacja dwuwymiarowego rozkładu zmiennej losowej skokowej

Y=y₁ Y= y₂ Y= y₃ Y= y₄ Y= y₅ Y= y₆

Rozkład brzegowy zmiennej X

X= x₁ p₁₁ p₁₂ p₁₃ p_1.

X= x₂

p_2.

X= x₁

p_3.

Rozkład brzegowy zmiennej Y

p_.1 1

p₂₁

p₃₁

p₂₂ p₂₃ p₂₄ p₂₅ p₂₆

p₁₄ p₁₅ p₁₆

p_.3

p_.2 p_.4 p_.5 p_.6

... ... ... ... ...

(20)

Dwuwymiarowa zmienna losowa (para zmiennych) typu skokowego

• Def. Dwuwymiarowa zmienna losowa jest typu skokowego jeśli przyjmuje skończoną lub co najwyżej przeliczaną liczbę wartości (x₁,y_j), (i,j=1,2,…. ) odpowiednio z prawdopodobieństwami p_i,j

• Zachodzi przy tym warunek:

(*)

∑ ∑ =

i j

p

i j

1 ( ⁼ ^, ⁼ ) ⁽ ^, ⁼ ¹ ^, ² ^,... ⁾

= P X x Y y i j

p

_i _j _i _j

gdzie

Uwaga, w celu właściwej interpretacji wartości p _i,j , należy pamiętać, że zapis (X=x_i,Y=y_j) oznacza iloczyn zdarzeń X=x_i i Y=y_j

(21)

Niezależność zmiennych losowych typu skokowego

Para (X, Y) jest dwuwymiarową zmienną losową typu skokowego,

Zmienne X i Y nazywamy niezależnymi, jeśli dla każdej pary wartości (x_i, y_j) spełniony jest warunek:

P(X=x_i,Y=y_j)= P(X=x_i) *P(Y=y_j)

czyli

p_ij= p_i. * p._j

Oznacza to, że zmienne losowe X i Y są niezależne jeśli prawdopodobieństwa w łącznym rozkładzie tych zmiennych są równe iloczynowi odpowiednich

prawdopodobieństw ich rozkładów brzegowych.

) (

)

|

( _.

.

i i

j ij j

i p P X x

p y p

Y x X

P = = = = = =

) (

)

|

( _.

.

j j

i ij i

j p P Y y

p x p

X y

Y

P = = = = = =

Dla zmiennych niezależnych musi być spełniony warunek

:

oraz

(22)

Dystrybuantą dwuwymiarowej zmiennej losowej nazywamy funkcję rzeczywistą określoną wzorem:

• dla zmiennej losowej typu skokowego

Dystrybuanta dwuwymiarowej zmiennej losowej

( )

i _j y

y x x

p y

x F

j

i≤

∑

≤

= ∑ ,

( ) ( ) ( )

F x y P X x Y y f u v dudv

x y

, = ≤ , ≤ = ∫ ∫ ,

−∞ −∞

• dla zmiennej losowej typu ciągłego

(23)

• Funkcją gęstości dwuwymiarowej zmiennej losowej (X,Y) typu ciągłego nazywamy funkcję rzeczywistą określoną wzorem^:

Rozkład dwuwymiarowej zmiennej losowej typu ciągłego

( ) ( )

f x y P x X x x y Y y y

x y

, lim ,

= < < + < < +

→→

∆∆

∆ ∆

0 0

o następujących własnościach:

,

( )

f x y, ≥ 0 dla _x_, _y _∈ _R

,

( )

∫ ∫ =

− ∞ + ∞

f x , y d x d y 1

( ) ( )

∫ ∫ = < ≤ < ≤

x x

y y

f x y dx dy P x X x y Y y

1 2

1 2 1 2

, ,

(24)

(25)

Dwuwymiarowy rozkład normalny

Funkcja gęstości dwuwymiarowego rozkładu normalnego N(µ1,µ2,σ1,σ2,ρ)

(26)

( ) ( )

f x

₁

= ∫ f x y dy

−∞

+∞

, ; ^f

²

( ) ^y ⁼ ^∫ ^{f x y dx} ( )

−∞

+∞

,

Brzegowe funkcje gęstości

(27)

Warunkowe funkcje gęstości:

( ) ( )

f x y f x ( ) y

f y

/ ,

= ;

2

( ) ( )

f y x f x y ( )

/ f x ,

=

1

(28)

Niezależność dwuwymiarowych zmiennych losowych ciągłych

Zmienne losowe X i Y typu ciągłego są niezależne, jeśli dla dowolnej pary liczb rzeczywistych (x,y) zachodzi równość:

( ) ^x ^y ^f ( ) ( ) ^x ^f ^y

f , = ₁ ₂

(29)

Momenty zwykłe

dwuwymiarowej zmiennej losowej

( ) ( ) ( )

10 01

11

E XY E X E Y m m

m = = =

Momentem zwykłym rzędu kl, dwuwymiarowej zmiennej losowej (X, Y) nazywamy wyrażenie

( )

 

 

 ∑ ∑

=

= ∫ ∫

^∞

∞

−

∞

−

dxdy y

x f

y x

p y

x Y

X E

m

k l

i j l

j k

j i l i

k

kl

( , )

Na przykład

(30)

Parametry rozkładu dwuwymiarowej zmiennej losowej typu skokowego

Wartością oczekiwaną dwuwymiarowej zmiennej losowej typu skokowego nazywamy wyrażenie:

Wariancją dwuwymiarowej zmiennej losowej typu skokowego nazywamy wyrażenie:

( ) ( ) ( )

i j i j j

i

p y x Y

E X E Y

X

E , = = ∑ ∑

( ) ⁼ [ ⁻ ( ) ]

²

[ ⁻ ( ) ]

²

⁼

2

X , Y E X E X Y E Y

D

[

i

( ) ] [

j

( ) ]

i j j

i

p Y

E y

X E

x − ² − ²

∑

= ∑

(31)

Momenty centralne

dwuwymiarowej zmiennej losowej

Momentem centralnym rzędu k+l (k,l= 0,1,2,... ) dwuwymiarowego rozkładu zmiennej losowej (X,Y) nazywamy wyrażenie

( )

∞

∫ ∫

∞

−

∞

−

∑

=

−

=

dxdy y

x f

m y

m x

p m

y m

x

m Y

m X

E

l k

i j l j

k j i

i

l k

kl

) ,

( )

( ) (

) (

01 10

01

µ

10

Wzór dla zmiennej skokowej

Wzór dla zmiennej ciągłej

(32)

( ) [ ( ) ] [ ( ) ]

( X Y )

xy xy

Y E Y

X E

Y X

σ µ =

=

−

=

cov

11

, cov

) (

, cov

Parametry dwuwymiarowych zmiennych losowych Kowariancja

Def.

Kowariancją zmiennej losowej dwuwymiarowej (X,Y)

nazywamy wyrażenie:

(33)

Wzory na obliczanie kowariancji

dla zmiennej losowej ciągłej

[

i

( ) ] [

j

( ) ]

i j j

i

p Y

E y

X E

x Y

X , ) = ∑ ∑ − − cov(

(

^x ^m ^x

) (

^y ^m ^y

)

^f ^x ^dx ^dy

xy ^+∞

∫ ∫

∞

−

+∞

∞

−



 



 − −

= ( )

σ

(

^x ^x

)(

^y ^y

)

S n ⁿ _i

i i

xy = ∑ − −

=1

1

Jeśli zmienne X i Y są niezależne to cov(X,Y)=0,

Twierdzenie odwrotne w ogólności nie jest prawdziwe dla danych empirycznych

dla zmiennej losowej skokowej

(34)

Parametry dwuwymiarowych zmiennych losowych Parametry dwuwymiarowych zmiennych losowych

Wsp Wsp ó ó ł ł czynnik korelacji liniowej czynnik korelacji liniowej

20 02

11 µ µ

ρ = µ

) (

) ,

cov(

Y D

X D

Y

= X

ρ

(35)

Współczynnik korelacji liniowej

• Współczynnik korelacji opisuje siłę liniowego związku pomiędzy dwiema zmiennymi.

• Przyjmuje on wartości z przedziału domkniętego <-1; 1>.

• Wartość -1 oznacza występowanie doskonałej korelacji ujemnej (to znaczy sytuację, w której punkty leżą

dokładnie na prostej, skierowanej w dół), a wartość 1 oznacza doskonałą korelację dodatnią (punkty leżą

dokładnie na prostej, skierowanej w górę).

• Wartość 0 oznacza brak korelacji liniowej

(36)

Przykłady układów punktów przy różnych wartościach współczynnika korelacji liniowej

(37)

Analiza rozkładu łącznego –

zmiennej dwuwymiarowej (X,Y)

Y=

pęknięcie

Y=

zgorzelina

Y=

mat.pow

Y=

wżery

Y=

skaza

Y=

inne Rozkład zmiennej

X

X= duże 0.05 0.01 0.02 0.01 0.11 0.06 0.26

X=

średnie 0.1 0.03 0.06 0.02 0.09 0.03 0.33

X= małe 0.1 0.06 0.01 0.03 0.20 0.01 0.41

Rozkład zmiennej

Y

0.25 0.1 0.09 0.06 0.40 0.10 1

Rozkłady brzegowe zmiennych losowych Y i X

(38)

Analiza rozkładu łącznego – (JPD) zmiennej dwuwymiarowej (X,Y)

• Na podstawie tablicy JPD można obliczać prawdopodobieństwa dowolnych zdarzeń losowych (każde zdarzenie jest sumą zdarzeń elementarnych/atomowych)

• W wierszu j oraz kolumnie i tabeli JPD, znajduje się

prawdopodobieństwo zdarzenia atomowego polegającego na

jednoczesnym przyjęciu wartości y_i przez zmienną Y oraz wartości x_j przez zmienną X, np. P(X = średnia,Y= skaza) = 0.09.

• W ostatnim wierszu tabeli nr 1 zamieszczono rozkład zmiennej Y, który uzyskuje się w wyniku sumowania wartości pól w kolumnach,

• W ostatniej kolumnie zamieszczono rozkład zmiennej X, uzyskany w wyniku sumowania wartości pól w wierszach, są to rozkłady

brzegowe zmiennej (X,Y).

• Suma prawdopodobieństw wszystkich zdarzeń atomowych wynosi 1 (jest to warunek konieczny, wynikający z definicji rozkładu

prawdopodobieństw)

(39)

Zastosowania tablicowej reprezentacji JPD

• Prawdopodobieństwo zdarzenia polegającego na tym, że wylosowano wyrób ze skazą lub jakąkolwiek małą wadą (Y = skaza lub X = mała) można obliczyć z tabeli JPD dodając wszystkie wartości w kolumnie Y = skaza i wierszu X = mała, licząc zawartość pola na przecięciu kolumny „skaza” i wiersza „mała’ tylko jeden raz.

0.1 + 0.06 + 0.01 + 0.03 + 0.2 +0.01+ 0.09 + 0.11 = 0.61

• Wynik ten jest taki sam jak dla prawdopodobieństwa sumy zdarzeń (X ∪ Y), bo:

P (X ∪ Y) = P(X) + P(Y) – P(X ,Y)

= 0.41 + 0.4 - 0.2 = 0.61

(40)

Prawdopodobieństwo warunkowe Prawdopodobieństwo łączne

Prawdopodobieństwa warunkowe można obliczyć korzystając z tablicy JPD, np.

• P(pęknięcie/małe) = P(pęknięcie,małe) : P(małe)

= 0,1 : 0,41

= 0,244

• P(małe /pęknięcie) = P(pęknięcie,małe) :P(pęknięcie)

= 0,1: 0,25

= 0,4

• Prawdopodobieństwo łączne:

P(A,B) = P(A ∩ B)= P(A/B) * P(B)

(41)

Zadanie

• Dany jest rozkład zmiennej losowej (X,Y)

Y X

1 2 3

3 0,2 0,2 0

4 0,1 0,2 0,3

1. Znaleźć rozkłady brzegowe i obliczyć E(X) i D(X).

2. Wyznaczyć rozkład warunkowy P(X/Y=1) i obliczyć wartość oczekiwaną w tym rozkładzie.

3. O czym świadczy porównanie wyników E(X) i E(X/Y=1) ?

(42)

Zadanie 2

Dwuwymiarowa zmienna losowa (XY) posiada następujący rozkład:

x_i

y _j

0 1

1 0,1 0,1

4 0,1 0,2

7 0,0 0,5

Wyznaczyć momenty zwykłe rzędu pierwszego zmiennej losowej X oraz (X/Y=0).

Jaki wniosek wynika z porównania obliczonych wartości?

Wyznaczyć wartość oczekiwaną zmiennej losowej (XY)

Wiedząc, że E(Y)=0,8 obliczyć kowariancję w tym rozkładzie.

Czy jej wynik potwierdza wniosek z punktu a)?

Funkcja gęstości w rozkładzie normalnym:

N