1
STATYSTYKA MATEMATYCZNA
WYKŁAD 1
2
Statystyka to dyscyplina naukowa, której
zadaniem jest wykrywanie, analiza i opis
prawidłowości występujących w procesach
masowych.
3
Populacja to zbiorowość podlegająca
badaniu statystycznemu.
Aby populację określić jednoznacznie
charakteryzujemy ją pod względem:
– rzeczowym
– czasowym
4
Cecha to właściwość elementów populacji
ze względu na którą prowadzimy badanie
statystyczne.
Warianty to wartości cechy (cecha
5
Przykład
Populacja:
Studenci II semestru Wydziału Elektroniki
WAT, wg stanu na 1.03.2015.
Cechy:
płeć,
wzrost,
kolor oczu,
ocena na egzaminie z matematyki po
I semestrze,
ulubiony tygodnik,
wysokość miesięcznych dochodów,
czas poświęcony na naukę w tygodniu
poprzedzającym ostatnią sesję egzaminacyjną
.
6
Przykład
Populacja:
Samochody
osobowe
zarejestrowane
w Warszawie, wg stanu na 1.09.2015.
Cechy:
kolor karoserii,
przebieg,
średnie zużycie paliwa na 100 km,
marka,
7
8
Badanie statystyczne może być:
– pełne (obejmuje całą populację),
9
Próba powinna być reprezentatywna tzn. rozkład
wariantów badanej cechy w próbie powinien być
zbliżony do rozkładu w całej populacji.
10
George Gallup 1901-1984
Pionier w dziedzinie badania opinii publicznej.
Rozwinął technikę doboru grupy reprezentatywnej
11
Rok 1936 - wybory prezydenckie w USA.
Franklin Delano Roosvelt - Partia Demokratyczna,
Alf Landon - Partia Republikańska.
"Literary Digest" 10 mln ankiet (zwrot ok. 2mln),
- nieprawidłowa prognoza.
Gallup 4000 ankiet (w 1935 założył pierwszy na
świecie instytut badania opinii publicznej) -
prawidłowa prognoza.
Wyniki:
Roosvelt - 60,8%,
Landon - 36,5%.
12
Uwaga
Badania pełne nie zawsze są możliwe lub celowe
(badania niszczące, duża próba, wysokie koszty).
13
„Humor Polski” – lata 80-te
14
Liczebność próby.
Dla reprezentatywnej próby dorosłej liczebności
Polski zwykle 1000 – 1300 osób.
Jerzy Spława-Neyman (1894 - 1981)
polski i amerykański matematyk i statystyk.
Wprowadził pojęcie przedziału ufności.
15
ROZKŁADY PODSTAWOWYCH STATYSTYK
X – zmienna losowa – odpowiednik badanej cechy,
(X1, X2, ...,Xn) – próba losowa (zmienna losowa n wymiarowa,
Xi – niezależne zmienne losowe o takim samym
rozkładzie jak X (taką próbę nazywamy próbą prostą).
Jeśli xi jest wartością zmiennej Xi (i = 1, 2, ..., n) to ciąg (x1, x2, ..., xn) nazywamy realizacją próby (są to dane statystyczne).
16
Statystyka to praktycznie dowolna funkcja od próby
Y = g(X1, X2, ..., Xn)
Statystyka przekształca informację zawartą w próbie czyniąc prostszym wnioskowanie o rozkładzie cechy w populacji.
17
Statystyka jako funkcja od zmiennej losowej jest też zmienną losową i możemy mówić o jej rozkładzie.
Statystyka ma rozkład dokładny, jeśli jest spełniony dla każdego n.
Statystyka ma rozkład asymptotyczny, jeśli jest spełniony, gdy n dąży do nieskończoności.
18 Statystyki podstawowe: X X n X n i i n
1 1 średnia z próbyGdy Xi mają rozkład zerojedynkowy (1 – sukces, 0 – porażka)
to średnią możemy zapisać w postaci
n Y W n
gdzie Yn jest liczbą sukcesów w próbie
Ten szczególny przypadek średniej nazywamy średnią częstością sukcesu.
19
n i n i nX
X
n
S
S
1 2 2 21
wariancja z próby Uwaga.
2 1 2 21
n n i iX
X
n
S
2 1 21
n n i n i nX
X
S
n
S
S
odchylenie standardowe z próby
n n n
X
S
V
V
20
n i n i nX
X
n
S
S
1 2 2 21
1
ˆ
ˆ
wariancja z próby – nieobciążona
n i i nX
m
n
S
S
1 2 2 0 2 01
wariancja z próby dla danej wartości oczekiwanej m.
21 Uwaga 2 2
1
ˆ
n nS
n
n
S
n21
S
ˆ
n2n
n
S
zatem dla dużych n
2
2
ˆ
n
n
S
S
22 Momenty zwykłe,
ik k X nM 1 – moment rzędu k cechy X (M1 = Xn ).
ik il
kl X Y
n
M 1 – moment rzędu k, l jednocześnie
badanych cech (X, Y). Momenty centralne, i k k X X n
M~ 1 – moment rzędu k cechy X .
i k i l
kl X X Y Y
n
M~ 1 – moment rzędu k, l jednocześnie
23
Rozkłady niektórych statystyk (n>1):
Jeśli cecha X ma rozkład N(m, ), to:
a)
statystyka
Xnma rozkład
N m, n ,
b)statystyka
1
n
S
m
X
n nma rozkład Studenta
z n - 1 stopniami swobody,
c)statystyka
2 2 0
nnS
ma rozkład chi kwadrat
z n stopniami swobody,
d)statystyka
2 2
nnS
ma rozkład chi kwadrat
z n - 1 stopniami swobody,
d') statystyki
Xni S
n2
są zmiennymi losowymi
niezależnymi (zachodzi też własność odwrotna),
24
Jeśli cecha X ma rozkład N(m1, 1) a cecha Y ma
rozkład N(m2, 2), (próby niezależne odpowiednio n1
i n2 elementowe) to: e) statystyka X n1 Yn2 ma rozkład 2 2 2 1 2 1 2 1 , n n m m N ,
gdy X ma rozkład N(m, ), Y ma rozkład N(m, ), to
e’) statystyka 1 2 2 1 2 1 2 2 2 1 ) 2 ( 2 1 2 1 n n n n n n S n S n Y X n n n n
ma rozkład
Studenta z
n1+
n2- 2 stopniami
swobody
, f) statystyka 2 2 2 2 1 2 ) ( ˆ ) ( ˆ 2 1 Y S X S n n ma rozkład SnedecoraF
n1 n1, 21,25
Ad. a) Zmienna losowa
n i i n X n X 1 1 jako suma niezależnych zmiennych losowych o rozkładach normalnych pomnożona przez stałą ma rozkład normalny.
Obliczymy jej parametry korzystając z własności wartości oczekiwanej i wariancji.
n m m n m n X E n X n E X E n i n i i n i i n
1 1 1 1 1 1 1
n n n n X D n X n D X D n i n i i n i i n 2 2 2 1 2 2 1 2 2 1 2 2 1 1 1 1
zatem D
Xn n 26
Ad. b) wykorzystamy a), d), d'),
Ponieważ ) 1 ( 1 2 2 n nS n m X n S m X n n n n licznik ma rozkład N(0, 1) 2 2 n nS
ma rozkład chi kwadrat z n - 1 stopniami swobody,
Statystyki te są niezależne.
Zatem
(z definicji) statystyka
X Sm n1n n
ma
rozkład Studenta z n - 1 stopniami swobody,
27
Ad. a), d, d')
Niech (Y1, Y2, ...,Yn) – próba losowa dla cechy o rozkładzie N(0, 1). Niech
n i i Y n Y 1 1 i
n i i Y Y K 1 2Aby wykazać a), d, d') wystarczy pokazać, że te statystyki są niezależne i mają rozkłady:
Y
ma rozkład
N0, 1n K
ma rozkład chi kwadrat z n - 1 stopniami
swobody
bo X ma rozkład taki jak Y a K
ma rozkład
2 2 n nS(
K n m X m X n X X n S n i n i n i n i n 2 1 2 2 1 2 2 1
)
28
1. Określamy zmienne losowe
n i i ki k c Y Z 1 , k = 1, ...., nza pomocą ortonormalnej macierzy C = [cki]. Pierwszy wiersz ma jednakowe elementy równe
n
1
(taka macierz zawsze istnieje).
Zmienne Zk mają rozkład normalny. 2. mk = E(Zk) = 0,
cov(Zk, Zj) = 0 dla k j (z niezależności Y1, Y2, ...,Yn
i ortogonalności C)
Zatem Z1, Z2, ...,Zn są niezależne (funkcje mierzalne niezależnych zmiennych losowych są niezależne) o rozkładzie N(0, 1). 3. Skoro
n i i n i i i Y n Y c Z 1 1 1 1 1 to Y Zn1 , zatem Yma
rozkład
N0, 1n 4. Liniowe przekształcenie ortonormalne zachowuje
normę zatem
n i i n i i Y Z 1 2 1 2 . Zatem
n i i n i i n i i Z n n Z Z n Y Y n n K 2 2 2 1 1 2 2 1 2 1 1 1co oznacza z definicji
rozkładu chi kwadrat
, że Kma rozkład chi kwadrat z n - 1 stopniami swobody
. 5. Yi K jako
funkcje mierzalne niezależnych29
Ad. e) Zmienna losowa Xn1 Yn2 jako różnica
niezależnych zmiennych losowych o rozkładach normalnych (punkt a)) ma rozkład normalny. Obliczymy jej parametry korzystając z własności wartości oczekiwanej i wariancji.
1 n
X
ma rozkład 1 1 1, n m N , 2 nY
ma rozkład 2 2 2, n m N ,
X 1 Y 2
E
X 1
E
Y 2 m1 m2 E n n n n
2 2 2 1 2 1 2 2 2 2 1 2 1 n n Y D X D Y X D n n n n zatem
2 2 2 1 2 1 2 1 n n Y X D n n
.30
Ad. f) korzystając z d) mamy
1 , 1 1 2 1 1 2 2 2 2 2 2 1 2 1 1 2 2 2 2 2 2 1 2 1 1 2 2 2 2 1 2 2 1 2 1 2 1 2 1 2 1 1 1 1 1 ) ( 1 1 ) ( 1 1 ) ( 1 ) ( 1 ) ( ˆ ) ( ˆ n n n n n n n n n n F Y n Y n Y S n n X S n n Y S n n X S n n Y S X S
31
Uwaga.
1) Ciąg średnich z próby jest zbieżny (wg
prawdopodobieństwa) do wartości oczekiwanej
m rozpatrywanej cechy
(zakładamy, że EX = m istnieje),
2) Ciąg wariancji z próby jest zbieżny (wg
prawdopodobieństwa) do wariancji
2rozpatrywanej cechy
(zakładamy, że D
2X =
2> 0 istnieje),
3) Gdy spełnione są założenia punktu 1) i 2) to
średnia ma dla dużych n w przybliżeniu rozkład
N m n ,
(rozkład asymptotyczny)
W szczególności średnia częstość sukcesu
W Ynnma
rozkład asymptotyczny
n p p p N , (1 ),
32
Uogólnienie
Jeśli cecha X ma momenty odpowiednio wysokiego rzędu to momenty te mają rozkłady asymptotyczne normalne.
Moment Mk ma asymptotyczny rozkład
n m m m N k k k 2 2 , Moment Mk ~ ma asymptotyczny rozkład n k k N k k k k k k 2 1 2 2 2 1 1 2 2 ,
33
Przykład
Dochód miesięczny (zł) w pewnej populacji osób ma rozkład normalny N(1600; 300).
a) Jakie jest prawdopodobieństwo, że średni miesięczny dochód 25 osób z tej populacji wynosi mniej niż
1500 zł?
b) Jakie jest prawdopodobieństwo, że miesięczny
dochód osób z tej populacji wynosi mniej niż 1500 zł?
Rozwiązanie
a) X25 – średni miesięczny dochód 25 osób,
1600,60
25 300 , 1600 25 N N X 04745 , 0 95254 , 0 1 ) 67 , 1 ( 1 ) 67 , 1 ( 67 , 1 60 1600 1500 60 1600 ) 1500 ( 25 25 P X PY X P34
b) X – wysokość miesięcznego dochodu,
1600,300 N X 3707 , 0 6293 , 0 1 ) 33 , 0 ( 1 ) 33 , 0 ( 33 , 0 300 1600 1500 300 1600 ) 1500 ( P X P Y X P j Wniosek
Rozkład średniej charakteryzuje się mniejszym
35
Przykład
Błędy pomiarów wykonywanych dalmierzem mają rozkład normalny o odchyleniu standardowym 0,1 m. Dokonano 15 pomiarów odległości tym dalmierzem. Jakie jest prawdopodobieństwo, że odchylenie standar- dowe z tych pomiarów będzie większe niż 0,07 m?
36 Rozwiązanie Statystyka: 2 2 1 , 0 15S
ma rozkład chi kwadrat z 15 – 1 = 14 stopniami swobody Zatem
7,35
0,91 1 , 0 0049 , 0 15 1 , 0 15 ) 0049 , 0 ( ) 07 , 0 ( 14 2 2 2 2 Y P S P S P S P37
Przykład
X, Y dochody (setki zł) pracowników w firmach A i B.
Zakładamy, że X – N(23,4), Y – N(25, 3). Oblicz prawdopodobieństwo, że średni dochód 64
wylosowanych pracowników firmy A jest większy niż średni dochód 36 wylosowanych pracowników firmy B. Rozwiązanie Statystyka: X64 Y36 ma rozkład 36 3 64 4 , 25 23 2 2 N , zatem 2,86 1 (2,86) 1 0,9979 0,002 1 36 9 64 16 ) 25 23 ( 36 9 64 16 ) 25 23 ( ) 0 ( ) ( 64 36 36 64 36 64 Y P Y X P Y X P Y X P
Zatem szansa, że średni dochód 64 wylosowanych pracowników firmy A jest większy niż średni dochód 36 wylosowanych pracowników firmy B jest znikomo mała.