• Nie Znaleziono Wyników

Podstawy wnioskowania statystycznego

N/A
N/A
Protected

Academic year: 2021

Share "Podstawy wnioskowania statystycznego"

Copied!
37
0
0

Pełen tekst

(1)

P                 

Podstawy wnioskowania statystycznego

Wojciech Zieliński

http:\\wojtek.zielinski.statystyka.info http:\\biostatystykanzc.wum.edu.pl

S S : nauka poświęcona metodom ba- dania (analizowania) zjawisk masowych; polega na systematyzowaniu obserwowanych cech ilościowych i jakościowych oraz przedstawianiu wyników w po- staci zestawień tabelarycznych, wykresów, itp.; po- sługuje się rachunkiem prawdopodobieństwa.

STATYSTYKA MATEMATYCZNA: dział matematyki stosowanej oparty na rachunku praw- dopodobieństwa; zajmuje się badaniem zbiorów na podstawie znajomości własności ich części.

Encyklopedia Popularna PWN, Warszawa 1982

BIOSTATYSTYKA (biometria): nauka z pogra- nicza biologii i statystyki, adaptacja metod staty- stycznych na potrzeby prac badawczych w dziedzinie biologii, związanych przede wszystkim z medycyną, genetyką, fizjologią, antropologią, ekologią i rolnic- twem.

(2)

.

.. . .. .. .. . .. .. .. .. .. .. .. .. .. .. .. .. .. .. . .. .. . .. .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. . .. .. . .. . .. .. . .. .. .. . .. .. .. .. .. .. . .. .. .. . .. .. . .. .. . .. . . .. . .. . . .. . . .. . . . .. . . . . .. . . . . . . . .. . . . . . . . . . . . . . . . . .. . . . . . . . .. . . . . .. . . . .. . . .. . . .. . .. . .. . .. . .. . .. .. . .. .. .. .. . .. .. .. .. . .. .. .. .. . .. .. . .. .. . .. . .. . .. . .. . .. .. .. . .. .. .. .. .. .. .. .. . .. .. . .. .. . .. .. .. .. .. .. .. .. .. .. .. .. . .. .. .. .. .. .. . .. .. .. . .. ..................................................................

.........

............................................................................................................

.. .. .. . .. .. .. . .. .. .. .. .. . .. .. .. .. .. .. .. . .. .. .. . .. .. .. . .. . .. . .. . .. .. . .. .. .. . .. .. .. .. . .. .. .. . .. . .. . .. . .. . .. . . . .. . . . .. . . . . . . .. . . . . . . . . . . . . . . .. . . . . . . .. . . . .. . . .. . . .. . .. . .. . .. .. . .. .. .. .. .. .. .. .. .. .. . .. .. . .. . .. . .. . .. . .. .. .. . .. .. . .. .. .. .. . .. .. . .. .. .. .. .. .. . .. .. .. .. .. .. . .. .. .. ...................................................

...................................................................................... ..

. .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. .. .. .. . .. .. .. . .. .. .. . .. . .. .. .. .. .. .. .. . .. .. .. .. .. .. .. .. . .. .. .. .

.......................................

.......................................... .. .. . .. .. . .. . .. .. . .. . .. .. . .. .. . .. . .. .. .

.. .. .. .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. .. .. .. . .. .. .. .. .. .. .. .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. . ...................................... . .. .. . .. .. .. .. .. .. .. .. . .. .. .. .. .. .. .. ..

Populacja

Próba

Wnioski o populacji

Wnioski z próby

F F F F F

5 2 4 1 5

27 29 12 8 33

M M M F F

8 8 6 6 8

40 52 33 38 22

M M F M M

9 10 7 11 9

35 73 30 50 67

M M F M M

14 12 8 14 11

68 75 40 64 69

F F M M M

9 8 11 10 15

54 40 51 55 66

Próba 1: 5 2 4 1 5 Średnia z próby: 3.40 Próba 2: 8 8 6 6 8 Średnia z próby: 7.20 Próba 3: 9 10 7 11 9 Średnia z próby: 9.20 Próba 4: 14 12 8 14 11 Średnia z próby: 11.80 Próba 5: 9 8 11 10 15 Średnia z próby: 10.60

Średnia populacji: 8.44

(3)



.. .. . .. .. .. .. .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. .. .. .. .. .............. .. .. .. .. .. .. .. .. ..

8.44

Pytania

Czy mając do dyspozycji tylko jedną próbę można ocenić na ile dobrze średnia z tej próby przybliża prawdziwą średnią?

Co zrobić, by być „pewniejszym” wyniku?

Zbiór obiektów z wyróżnioną cechą (cechami)

Próba

Wybrana część populacji podlegająca badaniu

Cecha

Wielkość losowa charakteryzująca obiekty danej po- pulacji

Cecha jakościowa

Cecha przyjmująca wartości nie będące liczbami (np.

kolor, płeć, smakowitość) Cecha (ilościowa) skokowa

Cecha przyjmująca pewne wartości liczbowe i nie przyjmująca wartości pośrednich (np. ilość bakterii, ilość pracowników, ilość pasażerów). Cechy te nazy- wane są również dyskretnymi.

Cecha (ilościowa) ciągła

Cecha przyjmująca wartości z pewnego przedziału liczbowego (np. wzrost, waga, plon)

(4)

wnioskowania statystycznego

Oceniamy parametr θ cechy na podstawie próby X1, X2, . . . , Xn. Niech ˆθ(X1, X2, . . . , Xn) będzie „ja- kąś” oceną parametru θ

Nieobciążoność

Jeżeli średnia wartość oceny ˆθ jest równa wartości parametru θ, to ocenę ˆθ nazywamy nieobciążoną

Minimalna wariancja

Z dwóch różnych nieobciążonych ocen ˆθ oraz ˆˆθ tego samego parametru θ za lepszą uznajemy tę, która

„średnio” przyjmuje wartości bliższe parametrowi θ

Minimalny błąd średniokwadratowy

Jeżeli ocena ˆθ nie jest nieobciążona, to wówczas jako miernik jakości stosuje się błąd średniokwadratowy.

Jest to „uśrednienie” obciążenia oraz wariancji

Zmienna losowa X ma rozkład D(p), jeżeli P{X = 1} = p = 1 − P {X = 0}

EX = p D2X = p(1− p)

Doświadczenie Bernoulliego

Wykonujemy dwuwynikowe doświadczenie. Wyniki nazywane są umownie sukces oraz porażka. Praw- dopodobieństwo sukcesu wynosi p (porażki: 1 − p).

Niech zmienną losową X będzie uzyskanie sukcesu.

Zmienna losowa X ma rozkład D(p).

Przykłady.

Płeć osoby.

Wadliwość produktu.

(5)

Zmienna losowa X ma rozkład B(n, p), jeżeli

Pn,p{X = k} = n k



pk(1 − p)n−k, k = 0, 1, . . . , n.

EX = np D2X = np(1 − p)

Schemat Bernoulliego

Zmienną losową o rozkładzie D(p) obserwujemy n krotnie w sposób niezależny. Niech zmienną losową X będzie ilość sukcesów.

Zmienna losowa X ma rozkład B(n, p).

Przykłady.

Ilość nasion, z których wzeszły rośliny.

Ilość wadliwych produktów.

„Popularność” danej osobistości publicznej.

Zmienna losowa X ma rozkład normalny N(µ, σ2) o wartości średniej µ i wariancji σ2, jeżeli jej funkcja gęstości wyraża się wzorem

fµ,σ2(x) = 1 σ√

2πe12(x−µσ )2, −∞ < x < ∞.

EX = µ D2X = σ2.

Przykłady.

Błędy pomiarowe.

Ciężar ciała.

Zawartość białka w mięsie.

Standardowy rozkład normalny: N (0, 1) Dystrybuanta F (x) standardowego rozkładu normalnego (N(0, 1)) jest stablicowana.

F (x) = 1− F (−x)

(6)

B C D E G H I K C L M H N K O

µ = 0

µ = −1 µ = 1µ = 1

σ = 0.5 σ = 1.0 σ = 2.0

Q T U wo trzech sigm

P{|X − µ| < σ} = 0.68268 ≈ 0.68 P{|X − µ| < 2σ} = 0.95450 ≈ 0.95 P{|X − µ| < 3σ} = 0.99730 ≈ 0.997

µ

.. . .. .. .. . .. .. .. . .. .. .. . . .

.. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .

. .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. ..

←−−−−−−−−−−−−− 0.997 −−−−−−−−−−−−−→.

µ− 3σ µ + 3σ

.. .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. .. .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .............. .. .. .. .. .. .. .. .. ..

.. .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. .. .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. ................ .. .. .. .. .. .. .. .. .. .

.. .. .. . .. .. .. .. .. .. .. . .. .. .. . .. .. .. . .. .. .. .. .. .. .. . .. .. .. . .. .. .. . .. .. .. .. .. .. .. . .. .. .

. .. .. .. . .. .. .. .. .. .. .. . .. .. .. . .. .. .. . .. .. .. .. .. .. .. . .. .. .. . .. .. .. . .. .. .. .. .. .. .. . .. ..

←−−−−−−−− 0.95 −−−−−−−−→.

µ− 2σ µ + 2σ

.. .. .. .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .............. .. .. .. .. .. .. .. .. ..

.. .. .. .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. ................ .. .. .. .. .. .. .. .. .. .

.. .. .. . .. .. .. .. .. .. .. . .. .. .. . .. .. .

. .. .. .. . .. .. .. .. .. .. .. . .. .. .. . .. ..

←−− 0.68 −−→.

µ− σ µ + σ

.. .. .. .. .. . .. .. .. . .. .. .. . .. .. .. .. .. .. .. . .. .. .. . .. .. .. .. .. .. .. . .. .. .. . .................. .. .. .. .. .. .. .. .. ..

.. .. .. .. .. . .. .. .. . .. .. .. . .. .. .. .. .. .. .. . .. .. .. . .. .. .. .. .. .. .. . .. .. .. . .................. .. .. .. .. .. .. .. .. ..

(7)

rozkładu cechy

Estymujemy parametr θ rozkładu cechy X Próba: X1, X2, . . . , Xn

Estymator (punktowy) jest funkcją próby θ = ˆˆ θ(X1, X2, . . . , Xn)

przybliżającą wartość parametru θ

Przedział ufności (estymator przedziałowy) jest przedziałem o końcach zależnych od próby, który z pewnym z góry zadanym prawdopodobieństwem pokrywa nieznaną wartość parametru θ

P{θ ∈ (θ(X1, . . . , Xn), θ(X1, . . . , Xn))} = 1 − α

Poziom ufności: prawdopodobieństwo 1 − α Co wpływa na długość d przedziału ufności?

1. Liczność próby (n ր=⇒ d ց) 2. Poziom ufności (1 − α ր=⇒ d ր) 3. Wariancja cechy (σ2 ց=⇒ d ց)

Estymacja parametrów

Próba (prosta): X1, X2, . . . , Xn

Estymator średniej µ — średnia arytmetyczna X =¯ 1

n

n

X

i=1

Xi = X1+ · · · + Xn n

Estymator wariancji σ2 — wariancja próbkowa

S2 = 1 n− 1

n

X

i=1

(Xi − ¯X)2

Suma kwadratów odchyleń od średniej

varX =

n

X

i=1

(Xi − ¯X)2 =

n

X

i=1

Xi2− n ¯X2

Estymator odchylenia standardowego σ S =

S2

(8)

o p q r dział ufności dla średniej Wariancja σ2 jest nieznana

Poziom ufności: 1 − α

X¯ − t(α; n − 1) S

√n , X + t(α; n¯ − 1) S

√n



t(α; n− 1): wartość krytyczna rozkładu t (Studenta) z ν stopniami swobody

Długość przedziału: d = 2t(α; n − 1) S

√n

Przedziały jednostronne

(−∞, X + t(2α; n¯ − 1) S

√n)

( ¯X − t(2α; n − 1) S

√n, ∞)

s t u v kład.

Na podstawie próby 1.1, 1.2, 0.8, 0.9, 1.2, 1.3, 1.0, 0.7, 0.8, 1.0 oszacować wartość średnią rozkładu ob- serwowanej cechy.

¯x = 1.1 + 1.2 + · · · + 1.0

10 = 1.0

varX = (1.1 − 1.0)2+ · · · + (1.0 − 1.0)2 = 0.36 s2 = 0.36

10 − 1 = 0.04, s =√

s2 = 0.2

Poziom ufności 1 − α = 0.95, czyli α = 0.05.

t(0.05; 9) = 2.2622 t(0.05; 9) s

√n = 2.2622 0.2

10 = 0.14 (1 − 0.14, 1 + 0.14) = (0.86, 1.14)

Wniosek. Średnia wartość cechy jest jakąś liczbą z przedziału (0.86, 1.14). Zaufanie do tego wniosku wynosi 95%.

(9)

w x y z kład.

Oszacować przeciętną ilość punktów uzyskiwanych na klasówce.

n = 300 X

xi = 176.566 X

x2i = 107.845302

Populacja:

Słuchacze podstawowego kursu statystyki

Cecha X:

ilość punktów zdobytych na klasówce

Założenie:

cecha X ma rozkład normalny N(µ, σ2)

Zadanie: oszacować parametr µ Technika statystyczna:

przedział ufności dla średniej poziom ufności 1 − α = 0.95

{ | } ~  €  ‚ ~ ƒ

¯x = 1 n

Xxi = 176.566

300 = 0.589 varX = X

x2i 1 n

Xxi2

= 107.845302 − 176.5662

300 = 3.92679 s2 = 3.92679

300 − 1 = 0.01313, s =

s2 = 0.11460 t(0.05; 299) ≈ 1.96

t(0.05; 299) s

√n = 1.960.11460

300 = 0.01297 (0.589 − 0.013, 0.589 + 0.013) = (0.576, 0.602)

Odpowiedź: µ ∈ (0.576, 0.602)

Wniosek. Przeciętna liczba punktów zdobywana na klasówce jest liczbą z przedziału (0.576, 0.602). Za- ufanie do tego wniosku wynosi 95%.

(10)

„ … † ‡ dział ufności dla wariancji Średnia µ jest nieznana

Poziom ufności: 1 − α

varX χ2!α

2; n − 1 , varX χ2!

1 − α2; n − 1

"

χ2(α; n − 1) jest stablicowaną wartością krytyczną rozkładu chi–kwadrat z ν stopniami swobody.

Przedziały jednostronne



0, varX

χ2(α; n − 1)



 varX

χ2(1 − α; n − 1),



ˆ ‰ Š ‹ kład.

Na podstawie próby 1.1, 1.2, 0.8, 0.9, 1.2, 1.3, 1.0, 0.7, 0.8, 1.0 oszacować zróżnicowanie rozkładu ob- serwowanej cechy.

¯x = 1.1 + 1.2 + · · · + 1.0

10 = 1.0

varX = (1.1 − 1.0)2+ · · · + (1.0 − 1.0)2 = 0.36

s2 = 0.36

10 − 1 = 0.04, s =√

s2 = 0.2 Poziom ufności 1 − α = 0.95, czyli α = 0.05.

χ2α

2; n − 1

= χ2(0.025; 9) = 19.0228 χ2

1 − α

2; n − 1

= χ2(0.975; 9) = 2.7004

 0.36

19.0228, 0.36 2.7004



= (0.019, 0.133)

Wniosek. Wariancja cechy jest jakąś liczbą z prze- działu (0.019, 0.133). Zaufanie do tego wniosku wy- nosi 95%.

(11)

Œ  Ž  dział ufności dla

odchylenia standardowego Średnia µ jest nieznana

Poziom ufności: 1 − α

s varX

χ2(α2; n − 1) ,

s varX

χ2(1 − α2; n − 1)

!

Przedziały jednostronne

0,

s varX

χ2(α; n − 1)

!

s varX

χ2(1 − α; n − 1),∞

!

. . . . Przykład (cd).

Przedział ufności dla odchylenia standardowego:

(

0.019,√

0.133) = (0.136, 0.365)

 ‘ ’ “ kład.

Oszacować zróżnicowanie ilości punktów uzyskiwa- nych na klasówce.

n = 300 X

xi = 176.566 X

x2i = 107.845302

Populacja:

Słuchacze podstawowego kursu statystyki Cecha X:

ilość punktów zdobytych na klasówce

Założenie:

cecha X ma rozkład normalny N(µ, σ2) Zadanie: oszacować parametr σ

Technika statystyczna:

przedział ufności dla odchylenia standardowego poziom ufności 0.95

(12)

¯x = 0.589 varX = 3.92679 χ2 α

2; n − 1

= χ2(0.025; 299) = 348.79420 χ2

1 − α

2; n − 1

= χ2(0.975; 299) = 252.99251 r 3.92679

348.79420,

r 3.92679 252.99251

!

= (0.10610, 0.12458)

Odpowiedź: σ ∈ (0.10610, 0.12458)

Wniosek. Odchylenie standardowe liczby punktów zdobywanych na klasówce jest liczbą z przedziału (0.106, 0.125). Zaufanie do tego wniosku wynosi 95%.

Estymacja parametru

p — frakcja, wskaźnik struktury Próba: X1, . . . , Xn (Xi = 0 lub = 1) k = Pn

i=1Xi — ilość jedynek (sukcesów) Estymator punktowy:

ˆ p = k

n

Przedział ufności na poziomie ufności 1 − α

p1

1 − α

2; k, n − k

, 1 − p1

1 − α

2; n − k, k

Jednostronne przedziały ufności (p1(1 − α; k, n − k) , 1) (0, 1 − p1(1 − α; n − k, k))

(13)

ª « ¬ ­ kład.

Wśród 20 zbadanych detali znaleziono dwa braki.

Ocenić na tej podstawie wadliwość produkcji.

Cecha X — jakość detalu (dobry, zły).

Sukces — detal wybrakowany Pytanie: p =?

n = 20, k = 2 =⇒ ˆp = 2/20 = 0.1 Poziom ufności 1 − α = 0.9, czyli α = 0.1

p1

1 − α

2; k, n − k

= p1(0.95; 2, 18) = 0.0123

p1

1 − α

2; n − k, k

= p1(0.95; 18, 2) = 0.6830 (0.0123, 1 − 0.6830) = (0.0123, 0.3170)

Wniosek. Wadliwość produkcji wyraża się liczbą z przedziału (1.23%, 31.70%). Zaufanie do wniosku wynosi 90%.

® ¯ ° ± bliżony przedział ufności

ˆ

p− u1−α/2

rp(1ˆ − ˆp)

n , ˆp + u1−α/2

rp(1ˆ − ˆp) n

!

uα jest kwantylem rzędu α rozkładu N(0, 1).

. . . . Przykład. (cd)

n = 200, k = 20 =⇒ ˆp = 20/200 = 0.1 Poziom ufności 1 − α = 0.9, czyli α = 0.1

u1−α/2 = u0.95 = 1.6449

0.1 − 1.6449

r0.1(1 − 0.1)

200 = 0.0651 0.1 + 1.6449

r0.1(1 − 0.1)

200 = 0.1349

Wniosek. Wadliwość produkcji wyraża się liczbą z przedziału (6.51%, 13.49%). Zaufanie do wniosku wynosi 90%.

Cytaty

Powiązane dokumenty

ZIEMNIAKI, typu Irga, Irys, konsumpcyjne, umyte, bulwy o jednolitym miąższu barwy kremowej, nie dopuszcza się ziemniaków zaparzonych, zwiędniętych, zapleśniałych, o

Wynajęt o lokal na czas nieozna czony nr 1 przy ul... Sien

[r]

[r]

2) osoby fizyczne, które prawomocnie skazano za przestępstwo popełnione w związku z postępowaniem o udzielenie zamówienia, przestępstwo przeciwko prawom osób

przeglądu Przeglad z wymiana oleju (z okresem zmiennym) Czynności

Płyn do codziennego mycia pomieszczeń i urządzeń sanitarnych o działaniu antybakteryjnym TENZI TopEfekt SANIT, 600ml. 60 100

Odbiorcami Pani/Pana danych osobowych będą wyłącznie podmioty uprawnione do uzyskania danych na podstawie prawa oraz usługobiorcy (jednostki i instytucje wojskowe, na