• Nie Znaleziono Wyników

Statystyka matematyczna w1-2015

N/A
N/A
Protected

Academic year: 2021

Share "Statystyka matematyczna w1-2015"

Copied!
37
0
0

Pełen tekst

(1)

1

STATYSTYKA MATEMATYCZNA

WYKŁAD 1

(2)

2

Statystyka to dyscyplina naukowa, której

zadaniem jest wykrywanie, analiza i opis

prawidłowości występujących w procesach

masowych.

(3)

3

Populacja to zbiorowość podlegająca

badaniu statystycznemu.

Aby populację określić jednoznacznie

charakteryzujemy ją pod względem:

– rzeczowym

– czasowym

(4)

4

Cecha to właściwość elementów populacji

ze względu na którą prowadzimy badanie

statystyczne.

Warianty to wartości cechy (cecha

(5)

5

Przykład

Populacja:

Studenci II semestru Wydziału Elektroniki

WAT, wg stanu na 1.03.2015.

Cechy:

 płeć,

 wzrost,

 kolor oczu,

 ocena na egzaminie z matematyki po

I semestrze,

 ulubiony tygodnik,

 wysokość miesięcznych dochodów,

czas poświęcony na naukę w tygodniu

poprzedzającym ostatnią sesję egzaminacyjną

.

(6)

6

Przykład

Populacja:

Samochody

osobowe

zarejestrowane

w Warszawie, wg stanu na 1.09.2015.

Cechy:

 kolor karoserii,

 przebieg,

 średnie zużycie paliwa na 100 km,

 marka,

(7)

7

(8)

8

Badanie statystyczne może być:

– pełne (obejmuje całą populację),

(9)

9

Próba powinna być reprezentatywna tzn. rozkład

wariantów badanej cechy w próbie powinien być

zbliżony do rozkładu w całej populacji.

(10)

10

George Gallup 1901-1984

Pionier w dziedzinie badania opinii publicznej.

Rozwinął technikę doboru grupy reprezentatywnej

(11)

11

Rok 1936 - wybory prezydenckie w USA.

Franklin Delano Roosvelt - Partia Demokratyczna,

Alf Landon - Partia Republikańska.

"Literary Digest" 10 mln ankiet (zwrot ok. 2mln),

- nieprawidłowa prognoza.

Gallup 4000 ankiet (w 1935 założył pierwszy na

świecie instytut badania opinii publicznej) -

prawidłowa prognoza.

Wyniki:

Roosvelt - 60,8%,

Landon - 36,5%.

(12)

12

Uwaga

Badania pełne nie zawsze są możliwe lub celowe

(badania niszczące, duża próba, wysokie koszty).

(13)

13

„Humor Polski” – lata 80-te

(14)

14

Liczebność próby.

Dla reprezentatywnej próby dorosłej liczebności

Polski zwykle 1000 – 1300 osób.

Jerzy Spława-Neyman (1894 - 1981)

polski i amerykański matematyk i statystyk.

Wprowadził pojęcie przedziału ufności.

(15)

15

ROZKŁADY PODSTAWOWYCH STATYSTYK

X – zmienna losowa – odpowiednik badanej cechy,

(X1, X2, ...,Xn) – próba losowa (zmienna losowa n wymiarowa,

Xi – niezależne zmienne losowe o takim samym

rozkładzie jak X (taką próbę nazywamy próbą prostą).

Jeśli xi jest wartością zmiennej Xi (i = 1, 2, ..., n) to ciąg (x1, x2, ..., xn) nazywamy realizacją próby (są to dane statystyczne).

(16)

16

Statystyka to praktycznie dowolna funkcja od próby

Y = g(X1, X2, ..., Xn)

Statystyka przekształca informację zawartą w próbie czyniąc prostszym wnioskowanie o rozkładzie cechy w populacji.

(17)

17

Statystyka jako funkcja od zmiennej losowej jest też zmienną losową i możemy mówić o jej rozkładzie.

Statystyka ma rozkład dokładny, jeśli jest spełniony dla każdego n.

Statystyka ma rozkład asymptotyczny, jeśli jest spełniony, gdy n dąży do nieskończoności.

(18)

18 Statystyki podstawowe: X X n X n i i n   

1 1 średnia z próby

Gdy Xi mają rozkład zerojedynkowy (1 – sukces, 0 – porażka)

to średnią możemy zapisać w postaci

n Y Wn

gdzie Yn jest liczbą sukcesów w próbie

Ten szczególny przypadek średniej nazywamy średnią częstością sukcesu.

(19)

19

n i n i n

X

X

n

S

S

1 2 2 2

1

wariancja z próby Uwaga.

 

2 1 2 2

1

n n i i

X

X

n

S

2 1 2

1

n n i n i n

X

X

S

n

S

S

odchylenie standardowe z próby

n n n

X

S

V

V

(20)

20

n i n i n

X

X

n

S

S

1 2 2 2

1

1

ˆ

ˆ

wariancja z próby – nieobciążona

n i i n

X

m

n

S

S

1 2 2 0 2 0

1

wariancja z próby dla danej wartości oczekiwanej m.

(21)

21 Uwaga 2 2

1

ˆ

n n

S

n

n

S

n2

1

S

ˆ

n2

n

n

S

zatem dla dużych n

2

2

ˆ

n

n

S

S 

(22)

22 Momenty zwykłe,

ik k X n

M 1 – moment rzędu k cechy X (M1 = Xn ).

 

ik il

kl X Y

n

M 1 – moment rzędu k, l jednocześnie

badanych cech (X, Y). Momenty centralne,      i k k X X n

M~ 1 – moment rzędu k cechy X .

   

  

i k i l

kl X X Y Y

n

M~ 1 – moment rzędu k, l jednocześnie

(23)

23

Rozkłady niektórych statystyk (n>1):

Jeśli cecha X ma rozkład N(m, ), to:

a)

statystyka

Xn

ma rozkład

N m, n       

,

b)

statystyka

1

n

S

m

X

n n

ma rozkład Studenta

z n - 1 stopniami swobody,

c)

statystyka

2 2 0

n

nS

ma rozkład chi kwadrat

z n stopniami swobody,

d)

statystyka

2 2

n

nS

ma rozkład chi kwadrat

z n - 1 stopniami swobody,

d') statystyki

Xn

i S

n

2

są zmiennymi losowymi

niezależnymi (zachodzi też własność odwrotna),

(24)

24

Jeśli cecha X ma rozkład N(m1, 1) a cecha Y ma

rozkład N(m2, 2), (próby niezależne odpowiednio n1

i n2 elementowe) to: e) statystyka X n1 Yn2 ma rozkład          2 2 2 1 2 1 2 1 , n n m m N   ,

gdy X ma rozkład N(m, ), Y ma rozkład N(m, ), to

e’) statystyka 1 2 2 1 2 1 2 2 2 1 ) 2 ( 2 1 2 1 n n n n n n S n S n Y X n n n n     

ma rozkład

Studenta z

n1

+

n2

- 2 stopniami

swobody

, f) statystyka 2 2 2 2 1 2 ) ( ˆ ) ( ˆ 2 1   Y S X S n n ma rozkład Snedecora

F

n1 n1, 21,

(25)

25

Ad. a) Zmienna losowa

  n i i n X n X 1 1 jako suma niezależnych zmiennych losowych o rozkładach normalnych pomnożona przez stałą ma rozkład normalny.

Obliczymy jej parametry korzystając z własności wartości oczekiwanej i wariancji.

 

 

n m m n m n X E n X n E X E n i n i i n i i n             

   1 1 1 1 1 1 1

 

  n n n n X D n X n D X D n i n i i n i i n 2 2 2 1 2 2 1 2 2 1 2 2 1 1 1 1                

   zatem D

 

Xn n  

(26)

26

Ad. b) wykorzystamy a), d), d'),

Ponieważ ) 1 ( 1 2 2      n nS n m X n S m X n n n n   licznik ma rozkład N(0, 1) 2 2  n nS

ma rozkład chi kwadrat z n - 1 stopniami swobody,

Statystyki te są niezależne.

Zatem

(z definicji) statystyka

X Sm n1

n n

ma

rozkład Studenta z n - 1 stopniami swobody,

(27)

27

Ad. a), d, d')

Niech (Y1, Y2, ...,Yn) – próba losowa dla cechy o rozkładzie N(0, 1). Niech

  n i i Y n Y 1 1 i

   n i i Y Y K 1 2

Aby wykazać a), d, d') wystarczy pokazać, że te statystyki są niezależne i mają rozkłady:

Y

ma rozkład

N0, 1n

K

ma rozkład chi kwadrat z n - 1 stopniami

swobody

bo X ma rozkład taki jak Y   a K

ma rozkład

2 2  n nS

(

K n m X m X n X X n S n i n i n i n i n 2 1 2 2 1 2 2 1                               

 

)

(28)

28

1. Określamy zmienne losowe

  n i i ki k c Y Z 1 , k = 1, ...., n

za pomocą ortonormalnej macierzy C = [cki]. Pierwszy wiersz ma jednakowe elementy równe

n

1

(taka macierz zawsze istnieje).

Zmienne Zk mają rozkład normalny. 2. mk = E(Zk) = 0,

cov(Zk, Zj) = 0 dla k  j (z niezależności Y1, Y2, ...,Yn

i ortogonalności C)

Zatem Z1, Z2, ...,Zn są niezależne (funkcje mierzalne niezależnych zmiennych losowych są niezależne) o rozkładzie N(0, 1). 3. Skoro

    n i i n i i i Y n Y c Z 1 1 1 1 1 to YZn1 , zatem Y

ma

rozkład

N0, 1n

4. Liniowe przekształcenie ortonormalne zachowuje

normę zatem

   n i i n i i Y Z 1 2 1 2 . Zatem

        n i i n i i n i i Z n n Z Z n Y Y n n K 2 2 2 1 1 2 2 1 2 1 1 1

co oznacza z definicji

rozkładu chi kwadrat

, że K

ma rozkład chi kwadrat z n - 1 stopniami swobody

. 5. Y

i K jako

funkcje mierzalne niezależnych

(29)

29

Ad. e) Zmienna losowa Xn1 Yn2 jako różnica

niezależnych zmiennych losowych o rozkładach normalnych (punkt a)) ma rozkład normalny. Obliczymy jej parametry korzystając z własności wartości oczekiwanej i wariancji.

1 n

X

ma rozkład         1 1 1, n m N, 2 n

Y

ma rozkład         2 2 2, n m N,

X 1 Y 2

E

X 1

E

 

Y 2 m1 m2 E nnnn  

 

2 2 2 1 2 1 2 2 2 2 1 2 1 n n Y D X D Y X D nnnn     zatem

2 2 2 1 2 1 2 1 n n Y X D nn

.

(30)

30

Ad. f) korzystając z d) mamy

1 , 1 1 2 1 1 2 2 2 2 2 2 1 2 1 1 2 2 2 2 2 2 1 2 1 1 2 2 2 2 1 2 2 1 2 1 2 1 2 1 2 1 1 1 1 1 ) ( 1 1 ) ( 1 1 ) ( 1 ) ( 1 ) ( ˆ ) ( ˆ                   n n n n n n n n n n F Y n Y n Y S n n X S n n Y S n n X S n n Y S X S      

(31)

31

Uwaga.

1) Ciąg średnich z próby jest zbieżny (wg

prawdopodobieństwa) do wartości oczekiwanej

m rozpatrywanej cechy

(zakładamy, że EX = m istnieje),

2) Ciąg wariancji z próby jest zbieżny (wg

prawdopodobieństwa) do wariancji 

2

rozpatrywanej cechy

(zakładamy, że D

2

X = 

2

> 0 istnieje),

3) Gdy spełnione są założenia punktu 1) i 2) to

średnia ma dla dużych n w przybliżeniu rozkład

N m n ,       

(rozkład asymptotyczny)

W szczególności średnia częstość sukcesu

WYnn

ma

rozkład asymptotyczny

       n p p p N , (1 )

,

(32)

32

Uogólnienie

Jeśli cecha X ma momenty odpowiednio wysokiego rzędu to momenty te mają rozkłady asymptotyczne normalne.

Moment Mk ma asymptotyczny rozkład

        n m m m N k k k 2 2 , Moment Mk ~ ma asymptotyczny rozkład            n k k N k k k k k k 2 1 2 2 2 1 1 2 2 ,       

(33)

33

Przykład

Dochód miesięczny (zł) w pewnej populacji osób ma rozkład normalny N(1600; 300).

a) Jakie jest prawdopodobieństwo, że średni miesięczny dochód 25 osób z tej populacji wynosi mniej niż

1500 zł?

b) Jakie jest prawdopodobieństwo, że miesięczny

dochód osób z tej populacji wynosi mniej niż 1500 zł?

Rozwiązanie

a) X25 – średni miesięczny dochód 25 osób,

1600,60

25 300 , 1600 25 N N X           04745 , 0 95254 , 0 1 ) 67 , 1 ( 1 ) 67 , 1 ( 67 , 1 60 1600 1500 60 1600 ) 1500 ( 25 25                         P X PY X P

(34)

34

b) X – wysokość miesięcznego dochodu,

1600,300 N X    3707 , 0 6293 , 0 1 ) 33 , 0 ( 1 ) 33 , 0 ( 33 , 0 300 1600 1500 300 1600 ) 1500 (                         P X P Y X P j Wniosek

Rozkład średniej charakteryzuje się mniejszym

(35)

35

Przykład

Błędy pomiarów wykonywanych dalmierzem mają rozkład normalny o odchyleniu standardowym 0,1 m. Dokonano 15 pomiarów odległości tym dalmierzem. Jakie jest prawdopodobieństwo, że odchylenie standar- dowe z tych pomiarów będzie większe niż 0,07 m?

(36)

36 Rozwiązanie Statystyka: 2 2 1 , 0 15S

ma rozkład chi kwadrat z 15 – 1 = 14 stopniami swobody Zatem

7,35

0,91 1 , 0 0049 , 0 15 1 , 0 15 ) 0049 , 0 ( ) 07 , 0 ( 14 2 2 2 2                  Y P S P S P S P

(37)

37

Przykład

X, Y dochody (setki zł) pracowników w firmach A i B.

Zakładamy, że X – N(23,4), Y – N(25, 3). Oblicz prawdopodobieństwo, że średni dochód 64

wylosowanych pracowników firmy A jest większy niż średni dochód 36 wylosowanych pracowników firmy B. Rozwiązanie Statystyka: X64 Y36 ma rozkład           36 3 64 4 , 25 23 2 2 N , zatem  2,86 1 (2,86) 1 0,9979 0,002 1 36 9 64 16 ) 25 23 ( 36 9 64 16 ) 25 23 ( ) 0 ( ) ( 64 36 36 64 36 64                                    Y P Y X P Y X P Y X P

Zatem szansa, że średni dochód 64 wylosowanych pracowników firmy A jest większy niż średni dochód 36 wylosowanych pracowników firmy B jest znikomo mała.

Cytaty

Powiązane dokumenty

W przypadku jednej szóstki gracz otrzymuje nagrodę 20 zł, w przypadku dwóch szóstek – 40 zł, a trzech 80 zł.. Czy opłaca

Jaka jest odpowiedź, jeśli moneta jest asymetryczna i prawdopodobieństwo wyrzucenia orła wynosi p..

Mamy następującą strategię: Jeśli pierwszy wybrany automat nie wyda kawy (w pierwszej próbie), to zmieniamy go na drugi. Jeśli ten też nie wyda kawy, to zmieniamy wybór na trzeci

Jaka jest szansa, że przy losowym podziale 10 pączków między 4 osoby każda dostała?. (a)

W realiach współczesnej globalnej gospodarki konkuren- cyjność staje się jednym z ważniejszych wyznaczników i zarazem perspektyw oceny funkcjonowania przedsiębiorstwa na rynku,

Należy przy tym jednak zaznaczyć, że w każdej organizacji najważniejsi są ludzie i od nich głównie zależy, jak długo zajmie wprowadzenie potrzebnych zmian przyczyniają- cych

Niekiedy korzyœci te s¹ rozumiane w¹sko jako generowanie wartoœci i w konsekwencji mierzo- ne za pomoc¹ rentownoœci kapita³u, ekonomicznej wartoœci dodanej, wartoœci

 kwotę zmniejszającą zaliczkę na podatek 425,00 stosowaną w przypadku złożenia oświadczenia PIT-2 (bez złożenia oświadczenia PIT-2 kwota zaliczki będzie wyższa),.