P
Podstawy wnioskowania statystycznego
Wojciech Zieliński
http:\\wojtek.zielinski.statystyka.info http:\\biostatystykanzc.wum.edu.pl
S S : nauka poświęcona metodom ba- dania (analizowania) zjawisk masowych; polega na systematyzowaniu obserwowanych cech ilościowych i jakościowych oraz przedstawianiu wyników w po- staci zestawień tabelarycznych, wykresów, itp.; po- sługuje się rachunkiem prawdopodobieństwa.
STATYSTYKA MATEMATYCZNA: dział matematyki stosowanej oparty na rachunku praw- dopodobieństwa; zajmuje się badaniem zbiorów na podstawie znajomości własności ich części.
Encyklopedia Popularna PWN, Warszawa 1982
BIOSTATYSTYKA (biometria): nauka z pogra- nicza biologii i statystyki, adaptacja metod staty- stycznych na potrzeby prac badawczych w dziedzinie biologii, związanych przede wszystkim z medycyną, genetyką, fizjologią, antropologią, ekologią i rolnic- twem.
.
.. . .. .. .. . .. .. .. .. .. .. .. .. .. .. .. .. .. .. . .. .. . .. .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. . .. .. . .. . .. .. . .. .. .. . .. .. .. .. .. .. . .. .. .. . .. .. . .. .. . .. . . .. . .. . . .. . . .. . . . .. . . . . .. . . . . . . . .. . . . . . . . . . . . . . . . . .. . . . . . . . .. . . . . .. . . . .. . . .. . . .. . .. . .. . .. . .. . .. .. . .. .. .. .. . .. .. .. .. . .. .. .. .. . .. .. . .. .. . .. . .. . .. . .. . .. .. .. . .. .. .. .. .. .. .. .. . .. .. . .. .. . .. .. .. .. .. .. .. .. .. .. .. .. . .. .. .. .. .. .. . .. .. .. . .. ..................................................................
.........
............................................................................................................
.. .. .. . .. .. .. . .. .. .. .. .. . .. .. .. .. .. .. .. . .. .. .. . .. .. .. . .. . .. . .. . .. .. . .. .. .. . .. .. .. .. . .. .. .. . .. . .. . .. . .. . .. . . . .. . . . .. . . . . . . .. . . . . . . . . . . . . . . .. . . . . . . .. . . . .. . . .. . . .. . .. . .. . .. .. . .. .. .. .. .. .. .. .. .. .. . .. .. . .. . .. . .. . .. . .. .. .. . .. .. . .. .. .. .. . .. .. . .. .. .. .. .. .. . .. .. .. .. .. .. . .. .. .. ...................................................
...................................................................................... ..
. .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. .. .. .. . .. .. .. . .. .. .. . .. . .. .. .. .. .. .. .. . .. .. .. .. .. .. .. .. . .. .. .. .
.......................................
.......................................... .. .. . .. .. . .. . .. .. . .. . .. .. . .. .. . .. . .. .. .
.. .. .. .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. .. .. .. . .. .. .. .. .. .. .. .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. . ...................................... . .. .. . .. .. .. .. .. .. .. .. . .. .. .. .. .. .. .. ..
Populacja
Próba
Wnioski o populacji
Wnioski z próby
F F F F F
5 2 4 1 5
27 29 12 8 33
M M M F F
8 8 6 6 8
40 52 33 38 22
M M F M M
9 10 7 11 9
35 73 30 50 67
M M F M M
14 12 8 14 11
68 75 40 64 69
F F M M M
9 8 11 10 15
54 40 51 55 66
Próba 1: 5 2 4 1 5 Średnia z próby: 3.40 Próba 2: 8 8 6 6 8 Średnia z próby: 7.20 Próba 3: 9 10 7 11 9 Średnia z próby: 9.20 Próba 4: 14 12 8 14 11 Średnia z próby: 11.80 Próba 5: 9 8 11 10 15 Średnia z próby: 10.60
Średnia populacji: 8.44
.. .. . .. .. .. .. .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. .. .. .. .. .............. .. .. .. .. .. .. .. .. ..
8.44
Pytania
Czy mając do dyspozycji tylko jedną próbę można ocenić na ile dobrze średnia z tej próby przybliża prawdziwą średnią?
Co zrobić, by być „pewniejszym” wyniku?
Zbiór obiektów z wyróżnioną cechą (cechami)
Próba
Wybrana część populacji podlegająca badaniu
Cecha
Wielkość losowa charakteryzująca obiekty danej po- pulacji
Cecha jakościowa
Cecha przyjmująca wartości nie będące liczbami (np.
kolor, płeć, smakowitość) Cecha (ilościowa) skokowa
Cecha przyjmująca pewne wartości liczbowe i nie przyjmująca wartości pośrednich (np. ilość bakterii, ilość pracowników, ilość pasażerów). Cechy te nazy- wane są również dyskretnymi.
Cecha (ilościowa) ciągła
Cecha przyjmująca wartości z pewnego przedziału liczbowego (np. wzrost, waga, plon)
wnioskowania statystycznego
Oceniamy parametr θ cechy na podstawie próby X1, X2, . . . , Xn. Niech ˆθ(X1, X2, . . . , Xn) będzie „ja- kąś” oceną parametru θ
Nieobciążoność
Jeżeli średnia wartość oceny ˆθ jest równa wartości parametru θ, to ocenę ˆθ nazywamy nieobciążoną
Minimalna wariancja
Z dwóch różnych nieobciążonych ocen ˆθ oraz ˆˆθ tego samego parametru θ za lepszą uznajemy tę, która
„średnio” przyjmuje wartości bliższe parametrowi θ
Minimalny błąd średniokwadratowy
Jeżeli ocena ˆθ nie jest nieobciążona, to wówczas jako miernik jakości stosuje się błąd średniokwadratowy.
Jest to „uśrednienie” obciążenia oraz wariancji
Zmienna losowa X ma rozkład D(p), jeżeli P{X = 1} = p = 1 − P {X = 0}
EX = p D2X = p(1− p)
Doświadczenie Bernoulliego
Wykonujemy dwuwynikowe doświadczenie. Wyniki nazywane są umownie sukces oraz porażka. Praw- dopodobieństwo sukcesu wynosi p (porażki: 1 − p).
Niech zmienną losową X będzie uzyskanie sukcesu.
Zmienna losowa X ma rozkład D(p).
Przykłady.
Płeć osoby.
Wadliwość produktu.
Zmienna losowa X ma rozkład B(n, p), jeżeli
Pn,p{X = k} = n k
pk(1 − p)n−k, k = 0, 1, . . . , n.
EX = np D2X = np(1 − p)
Schemat Bernoulliego
Zmienną losową o rozkładzie D(p) obserwujemy n krotnie w sposób niezależny. Niech zmienną losową X będzie ilość sukcesów.
Zmienna losowa X ma rozkład B(n, p).
Przykłady.
Ilość nasion, z których wzeszły rośliny.
Ilość wadliwych produktów.
„Popularność” danej osobistości publicznej.
Zmienna losowa X ma rozkład normalny N(µ, σ2) o wartości średniej µ i wariancji σ2, jeżeli jej funkcja gęstości wyraża się wzorem
fµ,σ2(x) = 1 σ√
2πe−12(x−µσ )2, −∞ < x < ∞.
EX = µ D2X = σ2.
Przykłady.
Błędy pomiarowe.
Ciężar ciała.
Zawartość białka w mięsie.
Standardowy rozkład normalny: N (0, 1) Dystrybuanta F (x) standardowego rozkładu normalnego (N(0, 1)) jest stablicowana.
F (x) = 1− F (−x)
B C D E G H I K C L M H N K O
µ = 0
µ = −1 µ = 1µ = 1
σ = 0.5 σ = 1.0 σ = 2.0
Q T U wo trzech sigm
P{|X − µ| < σ} = 0.68268 ≈ 0.68 P{|X − µ| < 2σ} = 0.95450 ≈ 0.95 P{|X − µ| < 3σ} = 0.99730 ≈ 0.997
µ
.. . .. .. .. . .. .. .. . .. .. .. . . .
.. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .
. .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. ..
←−−−−−−−−−−−−− 0.997 −−−−−−−−−−−−−→.
µ− 3σ µ + 3σ
.. .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. .. .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .............. .. .. .. .. .. .. .. .. ..
.. .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. .. .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. ................ .. .. .. .. .. .. .. .. .. .
.. .. .. . .. .. .. .. .. .. .. . .. .. .. . .. .. .. . .. .. .. .. .. .. .. . .. .. .. . .. .. .. . .. .. .. .. .. .. .. . .. .. .
. .. .. .. . .. .. .. .. .. .. .. . .. .. .. . .. .. .. . .. .. .. .. .. .. .. . .. .. .. . .. .. .. . .. .. .. .. .. .. .. . .. ..
←−−−−−−−− 0.95 −−−−−−−−→.
µ− 2σ µ + 2σ
.. .. .. .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .............. .. .. .. .. .. .. .. .. ..
.. .. .. .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. ................ .. .. .. .. .. .. .. .. .. .
.. .. .. . .. .. .. .. .. .. .. . .. .. .. . .. .. .
. .. .. .. . .. .. .. .. .. .. .. . .. .. .. . .. ..
←−− 0.68 −−→.
µ− σ µ + σ
.. .. .. .. .. . .. .. .. . .. .. .. . .. .. .. .. .. .. .. . .. .. .. . .. .. .. .. .. .. .. . .. .. .. . .................. .. .. .. .. .. .. .. .. ..
.. .. .. .. .. . .. .. .. . .. .. .. . .. .. .. .. .. .. .. . .. .. .. . .. .. .. .. .. .. .. . .. .. .. . .................. .. .. .. .. .. .. .. .. ..
rozkładu cechy
Estymujemy parametr θ rozkładu cechy X Próba: X1, X2, . . . , Xn
Estymator (punktowy) jest funkcją próby θ = ˆˆ θ(X1, X2, . . . , Xn)
przybliżającą wartość parametru θ
Przedział ufności (estymator przedziałowy) jest przedziałem o końcach zależnych od próby, który z pewnym z góry zadanym prawdopodobieństwem pokrywa nieznaną wartość parametru θ
P{θ ∈ (θ(X1, . . . , Xn), θ(X1, . . . , Xn))} = 1 − α
Poziom ufności: prawdopodobieństwo 1 − α Co wpływa na długość d przedziału ufności?
1. Liczność próby (n ր=⇒ d ց) 2. Poziom ufności (1 − α ր=⇒ d ր) 3. Wariancja cechy (σ2 ց=⇒ d ց)
Estymacja parametrów
Próba (prosta): X1, X2, . . . , Xn
Estymator średniej µ — średnia arytmetyczna X =¯ 1
n
n
X
i=1
Xi = X1+ · · · + Xn n
Estymator wariancji σ2 — wariancja próbkowa
S2 = 1 n− 1
n
X
i=1
(Xi − ¯X)2
Suma kwadratów odchyleń od średniej
varX =
n
X
i=1
(Xi − ¯X)2 =
n
X
i=1
Xi2− n ¯X2
Estymator odchylenia standardowego σ S = √
S2
o p q r dział ufności dla średniej Wariancja σ2 jest nieznana
Poziom ufności: 1 − α
X¯ − t(α; n − 1) S
√n , X + t(α; n¯ − 1) S
√n
t(α; n− 1): wartość krytyczna rozkładu t (Studenta) z ν stopniami swobody
Długość przedziału: d = 2t(α; n − 1) S
√n
Przedziały jednostronne
(−∞, X + t(2α; n¯ − 1) S
√n)
( ¯X − t(2α; n − 1) S
√n, ∞)
s t u v kład.
Na podstawie próby 1.1, 1.2, 0.8, 0.9, 1.2, 1.3, 1.0, 0.7, 0.8, 1.0 oszacować wartość średnią rozkładu ob- serwowanej cechy.
¯x = 1.1 + 1.2 + · · · + 1.0
10 = 1.0
varX = (1.1 − 1.0)2+ · · · + (1.0 − 1.0)2 = 0.36 s2 = 0.36
10 − 1 = 0.04, s =√
s2 = 0.2
Poziom ufności 1 − α = 0.95, czyli α = 0.05.
t(0.05; 9) = 2.2622 t(0.05; 9) s
√n = 2.2622 0.2
√10 = 0.14 (1 − 0.14, 1 + 0.14) = (0.86, 1.14)
Wniosek. Średnia wartość cechy jest jakąś liczbą z przedziału (0.86, 1.14). Zaufanie do tego wniosku wynosi 95%.
w x y z kład.
Oszacować przeciętną ilość punktów uzyskiwanych na klasówce.
n = 300 X
xi = 176.566 X
x2i = 107.845302
Populacja:
Słuchacze podstawowego kursu statystyki
Cecha X:
ilość punktów zdobytych na klasówce
Założenie:
cecha X ma rozkład normalny N(µ, σ2)
Zadanie: oszacować parametr µ Technika statystyczna:
przedział ufności dla średniej poziom ufności 1 − α = 0.95
{ | } ~ ~
¯x = 1 n
Xxi = 176.566
300 = 0.589 varX = X
x2i − 1 n
Xxi2
= 107.845302 − 176.5662
300 = 3.92679 s2 = 3.92679
300 − 1 = 0.01313, s = √
s2 = 0.11460 t(0.05; 299) ≈ 1.96
t(0.05; 299) s
√n = 1.960.11460
√300 = 0.01297 (0.589 − 0.013, 0.589 + 0.013) = (0.576, 0.602)
Odpowiedź: µ ∈ (0.576, 0.602)
Wniosek. Przeciętna liczba punktów zdobywana na klasówce jest liczbą z przedziału (0.576, 0.602). Za- ufanie do tego wniosku wynosi 95%.
dział ufności dla wariancji Średnia µ jest nieznana
Poziom ufności: 1 − α
varX χ2!α
2; n − 1 , varX χ2!
1 − α2; n − 1
"
χ2(α; n − 1) jest stablicowaną wartością krytyczną rozkładu chi–kwadrat z ν stopniami swobody.
Przedziały jednostronne
0, varX
χ2(α; n − 1)
varX
χ2(1 − α; n − 1), ∞
kład.
Na podstawie próby 1.1, 1.2, 0.8, 0.9, 1.2, 1.3, 1.0, 0.7, 0.8, 1.0 oszacować zróżnicowanie rozkładu ob- serwowanej cechy.
¯x = 1.1 + 1.2 + · · · + 1.0
10 = 1.0
varX = (1.1 − 1.0)2+ · · · + (1.0 − 1.0)2 = 0.36
s2 = 0.36
10 − 1 = 0.04, s =√
s2 = 0.2 Poziom ufności 1 − α = 0.95, czyli α = 0.05.
χ2α
2; n − 1
= χ2(0.025; 9) = 19.0228 χ2
1 − α
2; n − 1
= χ2(0.975; 9) = 2.7004
0.36
19.0228, 0.36 2.7004
= (0.019, 0.133)
Wniosek. Wariancja cechy jest jakąś liczbą z prze- działu (0.019, 0.133). Zaufanie do tego wniosku wy- nosi 95%.
dział ufności dla
odchylenia standardowego Średnia µ jest nieznana
Poziom ufności: 1 − α
s varX
χ2(α2; n − 1) ,
s varX
χ2(1 − α2; n − 1)
!
Przedziały jednostronne
0,
s varX
χ2(α; n − 1)
!
s varX
χ2(1 − α; n − 1),∞
!
. . . . Przykład (cd).
Przedział ufności dla odchylenia standardowego:
(√
0.019,√
0.133) = (0.136, 0.365)
kład.
Oszacować zróżnicowanie ilości punktów uzyskiwa- nych na klasówce.
n = 300 X
xi = 176.566 X
x2i = 107.845302
Populacja:
Słuchacze podstawowego kursu statystyki Cecha X:
ilość punktów zdobytych na klasówce
Założenie:
cecha X ma rozkład normalny N(µ, σ2) Zadanie: oszacować parametr σ
Technika statystyczna:
przedział ufności dla odchylenia standardowego poziom ufności 0.95
¯x = 0.589 varX = 3.92679 χ2 α
2; n − 1
= χ2(0.025; 299) = 348.79420 χ2
1 − α
2; n − 1
= χ2(0.975; 299) = 252.99251 r 3.92679
348.79420,
r 3.92679 252.99251
!
= (0.10610, 0.12458)
Odpowiedź: σ ∈ (0.10610, 0.12458)
Wniosek. Odchylenie standardowe liczby punktów zdobywanych na klasówce jest liczbą z przedziału (0.106, 0.125). Zaufanie do tego wniosku wynosi 95%.
Estymacja parametru
p — frakcja, wskaźnik struktury Próba: X1, . . . , Xn (Xi = 0 lub = 1) k = Pn
i=1Xi — ilość jedynek (sukcesów) Estymator punktowy:
ˆ p = k
n
Przedział ufności na poziomie ufności 1 − α
p1
1 − α
2; k, n − k
, 1 − p1
1 − α
2; n − k, k
Jednostronne przedziały ufności (p1(1 − α; k, n − k) , 1) (0, 1 − p1(1 − α; n − k, k))
ª « ¬ kład.
Wśród 20 zbadanych detali znaleziono dwa braki.
Ocenić na tej podstawie wadliwość produkcji.
Cecha X — jakość detalu (dobry, zły).
Sukces — detal wybrakowany Pytanie: p =?
n = 20, k = 2 =⇒ ˆp = 2/20 = 0.1 Poziom ufności 1 − α = 0.9, czyli α = 0.1
p1
1 − α
2; k, n − k
= p1(0.95; 2, 18) = 0.0123
p1
1 − α
2; n − k, k
= p1(0.95; 18, 2) = 0.6830 (0.0123, 1 − 0.6830) = (0.0123, 0.3170)
Wniosek. Wadliwość produkcji wyraża się liczbą z przedziału (1.23%, 31.70%). Zaufanie do wniosku wynosi 90%.
® ¯ ° ± bliżony przedział ufności
ˆ
p− u1−α/2
rp(1ˆ − ˆp)
n , ˆp + u1−α/2
rp(1ˆ − ˆp) n
!
uα jest kwantylem rzędu α rozkładu N(0, 1).
. . . . Przykład. (cd)
n = 200, k = 20 =⇒ ˆp = 20/200 = 0.1 Poziom ufności 1 − α = 0.9, czyli α = 0.1
u1−α/2 = u0.95 = 1.6449
0.1 − 1.6449
r0.1(1 − 0.1)
200 = 0.0651 0.1 + 1.6449
r0.1(1 − 0.1)
200 = 0.1349
Wniosek. Wadliwość produkcji wyraża się liczbą z przedziału (6.51%, 13.49%). Zaufanie do wniosku wynosi 90%.