Statystyka matematyczna w1-2015

(1)

1

STATYSTYKA MATEMATYCZNA

WYKŁAD 1

(2)

2

Statystyka to dyscyplina naukowa, której

zadaniem jest wykrywanie, analiza i opis

prawidłowości występujących w procesach

masowych.

(3)

3

Populacja to zbiorowość podlegająca

badaniu statystycznemu.

Aby populację określić jednoznacznie

charakteryzujemy ją pod względem:

– rzeczowym

– czasowym

(4)

4

Cecha to właściwość elementów populacji

ze względu na którą prowadzimy badanie

statystyczne.

Warianty to wartości cechy (cecha

(5)

5

Przykład

Populacja:

Studenci II semestru Wydziału Elektroniki

WAT, wg stanu na 1.03.2015.

Cechy:

 płeć,

 wzrost,

 kolor oczu,

 ocena na egzaminie z matematyki po

I semestrze,

 ulubiony tygodnik,

 wysokość miesięcznych dochodów,



czas poświęcony na naukę w tygodniu

poprzedzającym ostatnią sesję egzaminacyjną

.

(6)

6

Przykład

Populacja:

Samochody

osobowe

zarejestrowane

w Warszawie, wg stanu na 1.09.2015.

Cechy:

 kolor karoserii,

 przebieg,

 średnie zużycie paliwa na 100 km,

 marka,

(7)

7

(8)

8

Badanie statystyczne może być:

– pełne (obejmuje całą populację),

(9)

9

Próba powinna być reprezentatywna tzn. rozkład

wariantów badanej cechy w próbie powinien być

zbliżony do rozkładu w całej populacji.

(10)

10

George Gallup 1901-1984

Pionier w dziedzinie badania opinii publicznej.

Rozwinął technikę doboru grupy reprezentatywnej

(11)

11

Rok 1936 - wybory prezydenckie w USA.

Franklin Delano Roosvelt - Partia Demokratyczna,

Alf Landon - Partia Republikańska.

"Literary Digest" 10 mln ankiet (zwrot ok. 2mln),

- nieprawidłowa prognoza.

Gallup 4000 ankiet (w 1935 założył pierwszy na

świecie instytut badania opinii publicznej) -

prawidłowa prognoza.

Wyniki:

Roosvelt - 60,8%,

Landon - 36,5%.

(12)

12

Uwaga

Badania pełne nie zawsze są możliwe lub celowe

(badania niszczące, duża próba, wysokie koszty).

(13)

13

„Humor Polski” – lata 80-te

(14)

14

Liczebność próby.

Dla reprezentatywnej próby dorosłej liczebności

Polski zwykle 1000 – 1300 osób.

Jerzy Spława-Neyman (1894 - 1981)

polski i amerykański matematyk i statystyk.

Wprowadził pojęcie przedziału ufności.

(15)

15

ROZKŁADY PODSTAWOWYCH STATYSTYK

X – zmienna losowa – odpowiednik badanej cechy,

(X₁, X₂, ...,X_n) – próba losowa (zmienna losowa n wymiarowa,

X_i– niezależne zmienne losowe o takim samym

rozkładzie jak X (taką próbę nazywamy próbą prostą).

Jeśli x_i jest wartością zmiennej X_i (i = 1, 2, ..., n) to ciąg (x₁, x₂, ..., x_n) nazywamy realizacją próby (są to dane statystyczne).

(16)

16

Statystyka to praktycznie dowolna funkcja od próby

Y = g(X₁, X₂, ..., X_n)

Statystyka przekształca informację zawartą w próbie czyniąc prostszym wnioskowanie o rozkładzie cechy w populacji.

(17)

17

Statystyka jako funkcja od zmiennej losowej jest też zmienną losową i możemy mówić o jej rozkładzie.

Statystyka ma rozkład dokładny, jeśli jest spełniony dla każdego n.

Statystyka ma rozkład asymptotyczny, jeśli jest spełniony, gdy n dąży do nieskończoności.

(18)

18 Statystyki podstawowe: X X n X n i i n   



1 1 średnia z próby

Gdy Xi mają rozkład zerojedynkowy (1 – sukces, 0 – porażka)

to średnią możemy zapisać w postaci

n Y W  n

gdzie Yn jest liczbą sukcesów w próbie

Ten szczególny przypadek średniej nazywamy średnią częstością sukcesu.

(19)

19













n i n i n

X

n

S

1 2 2 2

1

wariancja z próby Uwaga.

 

2 1 2 2

1

n n i i

X

n

S













2 1 2

1

n n i n i n

X

S

n

S









odchylenie standardowe z próby

n n n

X

S

V



(20)

20













n i n i n

X

n

S

1 2 2 2

1

1 ˆ

ˆ

wariancja z próby – nieobciążona













n i i n

X

m

n

S

1 2 2 0 2 0

1

wariancja z próby dla danej wartości oczekiwanej m.

(21)

21 Uwaga 2 2

1 ˆ

n n

S

n

S





_n2

1 S

ˆ

_n2

n

S





zatem dla dużych n

2

2 ˆ

n

S

S 

(22)

22 Momenty zwykłe,



 _ik k X n

M 1 _{– moment rzędu k cechy X (M}₁₌ X_n _).

 

 _ik _il

kl X Y

n

M 1 – moment rzędu k, l jednocześnie

badanych cech (X, Y). Momenty centralne,      _i k k X X n

M~ 1 – moment rzędu k cechy X .

   

  

 _i k _i l

kl X X Y Y

n

M~ 1 – moment rzędu k, l jednocześnie

(23)

23

Rozkłady niektórych statystyk (n>1):

Jeśli cecha X ma rozkład N(m, ), to:

a)

statystyka

Xn

ma rozkład

N m, _n       

_,

b)

statystyka



1 

n

S

m

X

n n

ma rozkład Studenta

z n - 1 stopniami swobody,

c)

statystyka

2 2 0



n

nS

ma rozkład chi kwadrat

z n stopniami swobody,

d)

statystyka

2 2



n

nS

ma rozkład chi kwadrat

z n - 1 stopniami swobody,

d') statystyki

Xn

i S

n

2

są zmiennymi losowymi

niezależnymi (zachodzi też własność odwrotna),

(24)

24

Jeśli cecha X ma rozkład N(m₁, 1) a cecha Y ma

rozkład N(m₂, 2), (próby niezależne odpowiednio n1

i n₂ elementowe) to: e) statystyka X n1 Yn2 ma rozkład _          2 2 2 1 2 1 2 1 , n n m m N   _,

gdy X ma rozkład N(m, ), Y ma rozkład N(m, ), to

e’) statystyka ₁ ₂ 2 1 2 1 2 2 2 1 ) 2 ( 2 1 2 1 n n n n n n S n S n Y X n n n n     

ma rozkład

Studenta z

n1

+

n2

- 2 stopniami

swobody

, f) statystyka 2 2 2 2 1 2 ) ( ˆ ) ( ˆ 2 1   Y S X S n n ma rozkład Snedecora

F

n₁ n1, ₂1,

(25)

25

Ad. a) Zmienna losowa



  n i i n X n X 1 1 jako suma niezależnych zmiennych losowych o rozkładach normalnych pomnożona przez stałą ma rozkład normalny.

Obliczymy jej parametry korzystając z własności wartości oczekiwanej i wariancji.

 

n m m n m n X E n X n E X E n i n i i n i i n             



   1 1 1 1 1 1 1

 

  n n n n X D n X n D X D n i n i i n i i n 2 2 2 1 2 2 1 2 2 1 2 2 1 1 1 1                



   zatem D

 

Xn _n  

(26)

26

Ad. b) wykorzystamy a), d), d'),

Ponieważ ) 1 ( 1 2 2      n nS n m X n S m X n n n n   licznik ma rozkład N(0, 1) 2 2  n nS

ma rozkład chi kwadrat z n - 1 stopniami swobody,

Statystyki te są niezależne.

Zatem

(z definicji) statystyka

X _Sm n1

n n

ma

rozkład Studenta z n - 1 stopniami swobody,

(27)

27

Ad. a), d, d')

Niech (Y₁, Y₂, ...,Y_n) – próba losowa dla cechy o rozkładzie N(0, 1). Niech



  n i i Y n Y 1 1 i







   n i i Y Y K 1 2

Aby wykazać a), d, d') wystarczy pokazać, że te statystyki są niezależne i mają rozkłady:

Y

ma rozkład

N_0, 1_n _

K

ma rozkład chi kwadrat z n - 1 stopniami

swobody

bo X ma rozkład taki jak Y   a K

ma rozkład

2 2  n nS

(





K n m X m X n X X n S n i n i n i n i n 2 1 2 2 1 2 2 1                               



 

)

(28)

28

1. Określamy zmienne losowe



  n i i ki k c Y Z 1 , k = 1, ...., n

za pomocą ortonormalnej macierzy C = [c_ki]. Pierwszy wiersz ma jednakowe elementy równe

n

1

(taka macierz zawsze istnieje).

Zmienne Z_k mają rozkład normalny. 2. m_k = E(Z_k) = 0,

cov(Z_k, Z_j) = 0 dla k  j (z niezależności Y₁, Y₂, ...,Y_n

i ortogonalności C)

Zatem Z₁, Z₂, ...,Z_n są niezależne (funkcje mierzalne niezależnych zmiennych losowych są niezależne) o rozkładzie N(0, 1). 3. Skoro



    n i i n i i i Y n Y c Z 1 1 1 1 1 to Y  Z_n1 , zatem Y

ma

rozkład

N_0, 1_n _

4. Liniowe przekształcenie ortonormalne zachowuje

normę zatem



   n i i n i i Y Z 1 2 1 2 . Zatem



        n i i n i i n i i Z n n Z Z n Y Y n n K 2 2 2 1 1 2 2 1 2 1 1 1

co oznacza z definicji

rozkładu chi kwadrat

, że K

ma rozkład chi kwadrat z n - 1 stopniami swobody

. 5. Y

_{i K jako}

funkcje mierzalne niezależnych

(29)

29

Ad. e) Zmienna losowa Xn1 Yn2 jako różnica

niezależnych zmiennych losowych o rozkładach normalnych (punkt a)) ma rozkład normalny. Obliczymy jej parametry korzystając z własności wartości oczekiwanej i wariancji.

1 n

X

_{ma rozkład}         1 1 1, n m N  _, 2 n

Y

_{ma rozkład}         2 2 2, n m N  _,



X ₁ Y ₂



E



X ₁



E

 

Y ₂ m1 m2 E _n  _n  _n  _n  









 

2 2 2 1 2 1 2 2 2 2 1 2 1 n n Y D X D Y X D _n  _n  _n  _n     zatem





2 2 2 1 2 1 2 1 n n Y X D _n  _n 







.

(30)

30

Ad. f) korzystając z d) mamy

1 , 1 1 2 1 1 2 2 2 2 2 2 1 2 1 1 2 2 2 2 2 2 1 2 1 1 2 2 2 2 1 2 2 1 2 1 2 1 2 1 2 1 1 1 1 1 ) ( 1 1 ) ( 1 1 ) ( 1 ) ( 1 ) ( ˆ ) ( ˆ                   _n _n n n n n n n n n F Y n Y n Y S n n X S n n Y S n n X S n n Y S X S      

(31)

31

Uwaga.

1) Ciąg średnich z próby jest zbieżny (wg

prawdopodobieństwa) do wartości oczekiwanej

m rozpatrywanej cechy

(zakładamy, że EX = m istnieje),

2) Ciąg wariancji z próby jest zbieżny (wg

prawdopodobieństwa) do wariancji 

2

rozpatrywanej cechy

(zakładamy, że D

2

X = 

2

> 0 istnieje),

3) Gdy spełnione są założenia punktu 1) i 2) to

średnia ma dla dużych n w przybliżeniu rozkład

N m n ,       

(rozkład asymptotyczny)

W szczególności średnia częstość sukcesu

W  Y_nn

ma

rozkład asymptotyczny

       _ n p p p N , (1 )

_,

(32)

32

Uogólnienie

Jeśli cecha X ma momenty odpowiednio wysokiego rzędu to momenty te mają rozkłady asymptotyczne normalne.

Moment M_k ma asymptotyczny rozkład

        _ n m m m N k k k 2 2 , Moment Mk ~ ma asymptotyczny rozkład         _ _ _    n k k N k k k k k k 2 1 2 2 2 1 1 2 2 ,       

(33)

33

Przykład

Dochód miesięczny (zł) w pewnej populacji osób ma rozkład normalny N(1600; 300).

a) Jakie jest prawdopodobieństwo, że średni miesięczny dochód 25 osób z tej populacji wynosi mniej niż

1500 zł?

b) Jakie jest prawdopodobieństwo, że miesięczny

dochód osób z tej populacji wynosi mniej niż 1500 zł?

Rozwiązanie

a) X25 – średni miesięczny dochód 25 osób,



1600,60



25 300 , 1600 25 N N X           04745 , 0 95254 , 0 1 ) 67 , 1 ( 1 ) 67 , 1 ( 67 , 1 60 1600 1500 60 1600 ) 1500 ( 25 25                         P X PY X P

(34)

34

b) X – wysokość miesięcznego dochodu,

1600,300 N X    3707 , 0 6293 , 0 1 ) 33 , 0 ( 1 ) 33 , 0 ( 33 , 0 300 1600 1500 300 1600 ) 1500 (                         P X P Y X P j Wniosek

Rozkład średniej charakteryzuje się mniejszym

(35)

35

Przykład

Błędy pomiarów wykonywanych dalmierzem mają rozkład normalny o odchyleniu standardowym 0,1 m. Dokonano 15 pomiarów odległości tym dalmierzem. Jakie jest prawdopodobieństwo, że odchylenie standardowe z tych pomiarów będzie większe niż 0,07 m?

(36)

36 Rozwiązanie Statystyka: 2 2 1 , 0 15S

ma rozkład chi kwadrat z 15 – 1 = 14 stopniami swobody Zatem



7,35



0,91 1 , 0 0049 , 0 15 1 , 0 15 ) 0049 , 0 ( ) 07 , 0 ( 14 2 2 2 2             _      Y P S P S P S P

(37)

37

Przykład

X, Y dochody (setki zł) pracowników w firmach A i B.

Zakładamy, że X – N(23,4), Y – N(25, 3). Oblicz prawdopodobieństwo, że średni dochód 64

wylosowanych pracowników firmy A jest większy niż średni dochód 36 wylosowanych pracowników firmy B. Rozwiązanie Statystyka: X64 Y36 ma rozkład           36 3 64 4 , 25 23 2 2 N _, zatem  2,86 1 (2,86) 1 0,9979 0,002 1 36 9 64 16 ) 25 23 ( 36 9 64 16 ) 25 23 ( ) 0 ( ) ( 64 36 36 64 36 64                                    Y P Y X P Y X P Y X P

Zatem szansa, że średni dochód 64 wylosowanych pracowników firmy A jest większy niż średni dochód 36 wylosowanych pracowników firmy B jest znikomo mała.