(1)STATYSTYKA OPISOWA I PROJEKTOWANIE EKSPERYMENTU dr in˙z Krzysztof Bry´s Poj¸ecia wst¸epne populacja - ca ly zbi´or badanych przedmiot´ow lub warto´sci

(1)

STATYSTYKA OPISOWA I PROJEKTOWANIE EKSPERYMENTU dr in˙z Krzysztof Bry´s

Poj¸ecia wst¸epne populacja - ca ly zbi´or badanych przedmiot´ow lub warto´sci.

próba - skończony podzbiór populacji podlegaj¸acy badaniu.

próba losowa - próba losowana (najcz¸e´sciej) zgodnie z rozk ladem równomiernym, tzn. wylosowanie ka˙zdej próby jest jednakowo prawdopodobne.

cechy: mierzalne, niemierzalne badana cecha = zmienna losowa X

Poszukiwany: rozk lad cechy w populacji = rozk lad zmiennej losowej X

pr´oba n-elementowa = ci¸ag n niezale˙znych zmiennych losowych (X₁, . . . , X_n) o jednakowym rozk ladzie (takim jak poszukiwany rozk lad zmiennej losowej X).

Etapy badania statystycznego

1) Przygotowanie (formatowanie) badania (okre´slenie celu, rodzaju, potrzebnych parametr´ow wej´sciowych badania).

2) Przeprowadzenie badania (wylosowanie pr´oby i okre´slenie warto´sci badanych cech w pr´obie).

3) Zebranie uzyskanych podczas badania danych.

4) Opis i wnioskowanie statystyczne (obliczenie parametr´ow, estymacja, weryfikacja hipotez).

5) Przedstawienie wynik´ow.

Szeregi statystyczne 1) Szereg wyliczaj¸acy uporz¸adkowany: (x1, x2, . . . , xn) przy czym x₁ ≤ x₂ ≤ . . . ≤ x_n.

2) Szereg rozdzielczy punktowy: (x₁, x₂, . . . , x_k), (n₁, n₂, . . . , n_k),

gdzie x1 < x2 < . . . < xk oraz dla ka˙zdego i = 1, 2, . . . , k: ni-liczba realizacji (obserwacji) warto´sci xi,

P_k

i=1n_i = n.

3) Szereg rozdzielczy przedzia lowy: (y₀; y₁ >, (y₁; y₂ >, . . . , (y_k−1; y_k), (n₁, n₂, . . . , n_k),

gdzie y0 < y1 < y2 < . . . < yk−1 < ykoraz dla ka˙zdego i = 1, 2, . . . , k: ni-liczba realizacji (obserwacji) warto´sci nale˙z¸acej do przedzia lu (y_i−1; y_i),^P^k_i=1n_i = n.

Wszystkie warto´sci nale˙z¸ace do przedzia lu (y_i−1; y_i >, i = 1, 2, . . . , k uto˙zsamia si¸e z jego ´srodkiem x_i. Regu ly wyznaczania liczby przedzia l´ow (klas): k ≈√

n, k ≤ 5 log n.

Parametry empiryczne Miary po lo˙zenia rozk ladu

1) ´Srednia z pr´oby x - dla szeregu wyliczaj¸acego:

x = 1 n

Xn i=1

x_i - dla szeregu rozdzielczego:

x = 1 n

Xk i=1

n_i· x_i

2) Dominanta (moda, warto´s´c modalna) D = punkt, w którym funkcja prawdopodobieństwa osi¸aga najwi¸eksz¸a warto´sć

(2)

- dla szeregu wyliczaj¸acego: najcz¸e´sciej wyst¸epuj¸aca warto´s´c,

- dla szeregu rozdzielczego punktowego: punkt, dla którego liczebno´sć (cz¸esto´sć) osi¸aga najwi¸eksz¸a warto´sć, - dla szeregu rozdzielczego przedzia lowego (wzór interpolacyjny):

D = x_0d+ n_d− n_d−1

(nd− nd−1) + (nd− nd+1) · h_d, gdzie

x0d - pocz¸atek przedzia lu zawieraj¸acego dominant¸e (przedzia lu o najwiekszej liczebno´sci), h_d - szeroko´sć przedzia lu zawieraj¸acego dominant¸e (przedzia lu o najwiekszej liczebno´sci), n_d - liczebno´sć przedzia lu zawieraj¸acego dominant¸e (najwieksza liczebno´sć),

nd−1 - liczebno´s´c przedzia lu poprzedzaj¸acego przedzia l zawieraj¸acy dominant¸e, n_d+1 - liczebno´s´c przedzia lu nast¸epnego po przedziale zawieraj¸acym dominant¸e.

3) Dystrybuanta empiryczna (cz¸esto´s´c skumulowana F_n(x) - dla szeregu wyliczaj¸acego:

F_n(x) = 1

n|{i : x_i < x, i = 1, . . . , n}|

- dla szeregu rozdzielczego:

F_n(x) = ^X

i:xi<x

n_i n 4) Kwantyl empiryczny rz¸edu p x_p,n:

(punkt w kt´orym dystrybuanta empiryczna po raz pierwszy osi¸aga warto´s´c niemniejsz¸a ni˙z p) - dla szeregu wyliczaj¸acego:

x_p,n = x_dnpe - dla szeregu rozdzielczego punktowego:

x_p,n = x_q gdzie q = min{r : p ≤

Xr i=1

n_i n}

- dla szeregu rozdzielczego przedzia lowego (wz´or interpolacyjny):

x_p,n = x_0p+ (np − ^X

xi<x0p

n_i) · h_p n_p, gdzie

x_0p - pocz¸atek przedzia lu zawieraj¸acego x_p,n (przedzia lu w kt´orym dystrybuanta empiryczna po raz pierwszy osi¸aga warto´s´c niemniejsz¸a ni˙z p),

h_p -szeroko´s´c przedzia lu zawieraj¸acego x_p,n, n_p -liczebno´s´c przedzia lu zawieraj¸acego x_p,n,

P

xi<x0pn_i- liczebno´s´c skumulowana dla przedzia lu poprzedzaj¸acego przedzia l zawieraj¸acy x_p,n(suma liczebno´sci przedzia l´ow poprzedzaj¸acych)

Mediana: Me = kwantyl rz¸edu ¹₂ Kwartyl dolny: Q₁ = kwantyl rz¸edu ¹₄ Kwartyl g´orny: Q3 = kwantyl rz¸edu ³₄.

Miary rozproszenia rozk ladu 5) Wariancja z pr´oby s² - dla szeregu wyliczaj¸acego:

s² = 1 n

Xn i=1

(x_i− x)²

(3)

- dla szeregu rozdzielczego:

s² = 1 n

Xk i=1

ni· (xi− x)² 6) Odchylenie standardowe z pr´oby s =√

s². 7) Wsp´o lczynnik zmienno´sci V = _x^s · 100%.

8) Rozst¸ep R = r´o˙znica mi¸edzy najwi¸eksz¸a i najmniejsz¸a warto´sci¸a w pr´obie.

9) Wsp´o lczynnik asymetrii A_s: - dla szeregu wyliczaj¸acego:

A_s = 1 s³ · (1

n

Xn i=1

(x_i− x)³) - dla szeregu rozdzielczego:

A_s = 1 s³ · (1

n

Xk i=1

n_i· (x_i− x)³) 10) Kurtoza (wsp´o lczynnik skupienia) A_s:

- dla szeregu wyliczaj¸acego:

K = 1 s⁴ · (1

n

Xn i=1

(xi− x)⁴) - dla szeregu rozdzielczego:

K = 1 s⁴ · (1

n

Xk i=1

n_i · (x_i− x)⁴) 11) Wsp´o lczynnik sko´sno´sci A₁:

A1 = x − D s

Estymacja punktowa

estymator parametru Θ - statystyka (funkcja próby), której warto´sć zale˙zy od rzeczywistej wielko´sci parametru Θ rozk ladu populacji.

estymacja punktowa - szacowanie nieznanej warto´sci parametru Θ na podstawie pr´oby; polega na wyznaczeniu z pr´oby warto´sci un estymatora Un parametru Θ i przyjmowaniu tej warto´sci za oszacowanie Θ.

Estymatory warto´sci oczekiwanej: ´srednia z pr´oby x, mediana z pr´oby x_0.5,n.

Estymatory wariancji: wariancja z pr´oby s², s²₁ = _n−1ⁿ s² (lepszy dla rozk ladu N(m, σ)).

Estymacja przedzia lowa

Przedzia lem ufno´sci dla parametru θ na poziomie ufno´sci 1 − α nazywamy przedzia l (θ₁, θ₂) spe lniaj¸acy warunki

a) θ₁, θ₂ s¸a funkcjami pr´oby, b) P (θ₁ < θ < θ₂) = 1 − α

Uwagi:

1) Przedzia l ufno´sci zmienia si¸e wraz z pr´ob¸a.

(4)

2) Nieznana warto´sć parametru mo˙ze być albo nie być w utworzonym przedziale ufno´sci.

3) Mozna stworzyć nieskończenie wiele przedzia lów ufno´sci na danym poziomie ufno´sci.

4) Cz¸esto´sć wyst¸epowania prób, dla których zbudowany przedzia l ufno´sci na poziomie ufno´sci 1 − α zawiera nieznan¸a warto´sć parametru θ wynosi w przybli˙zeniu 1 − α (dla ”du˙zej” liczby próbek).

Konstrukcja przedzia lu ufno´sci:

1) Wybieramy estymator U_n= U_n(θ), kt´orego rozk lad dok ladny lub asymptotyczny jest znany.

2) Dla danego α ∈ (0, 1) dobieramy liczby a, b tak aby P (a ≤ U_n ≤ b) = 1 − α. (najcz¸e´sciej dobieramy symetrycznie tzn. tak by P (Un< a) = P (Un> b) = ^α₂)

3) Je´sli nierówno´sć a ≤ U_n ≤ b da si¸e zast¸apić przez θ₁ ≤ θ ≤ θ₂, to przedzia l ufno´sci jest postaci: (θ₁, θ₂) Zagadnienie minimalnej liczno´sci próby

Niech ∆-maksymalny dopuszczalny b l¸ad oszacowania (maksymalny dopuszczalny promie´n przedzia lu ufno´sci).

- przy szacowaniu warto´sci oczekiwanej m

Korzystamy z Modelu 3 (zak ladaly, ze n ≥ 100): Promie´n przedzia lu ufno´sci=u₁₋^α₂σ/√

n ≤ ∆ a zatem n ≥ (u1−^α₂σ/∆)²

- przy szacowaniu wska´znika struktury p (prawdopodobie´nstwa sukcesu w schemacie Bernoul- liego)

Promie´n przedzia lu ufno´sci= u1−^α₂

r

Znn (1−^Zn_n )

n ≤ ∆ a zatem n ≥ ^(u^{1− α}²⁾

2·^Zn_n (1−^Zn_n )

∆² .

Przypuszczalna warto´s´c p:

p0 = ^Z_nⁿ jest wyznaczana z badania wst¸epnego (pilota˙zowego), szacowana na podstawie wynik´ow poprzednich bada´n lub przyjmuje si¸e p₀ = ¹₂.

Weryfikacja hipotez statystycznych za pomoc¸a test´ow istotno´sci.

hipoteza statystyczna- przypuszczenie dotycz¸ace nieznanego rozk ladu badanej cechy populacji.

hipoteza parametryczna- hipoteza statystyczna dotycz¸aca warto´sci parametru rozk ladu badanej cechy.

weryfikacja- odpowied´z na pytanie czy hipoteza statystyczna jest prawdziwa.

test statystyczny- regu la post¸epowania, kt´ora danej pr´obie przyporz¸adkowuje decyzj¸e przyj¸ecia lub odrzucenia badanej hipotezy

H0- hipoteza zerowa (podlega badaniu) H₁- hipoteza alternatywna

test istotno´sci- test statystyczny, w którym wnioskowanie odbywa si¸e przy za lo˙zeniu, ˙ze hipoteza H₀ jest prawdziwa. Pozwala jedynie odrzucić H0 (tzn. przyj¸ać H1).

W przypadku weryfikacji hipotez za pomoça testów istotno´sci wskazane jest stawianie jako H₀ hipotez co do których zachodzi podejrzenie o ich fa lszywo´sci!

Typy b l¸ed´ow pope lnianych przy weryfikacji hipotez:

b l¸ad 1-go rodzaju - odrzucenie prawdziwej hipotezy H0

b l¸ad 2-go rodzaju - przyj¸ecie fa lszywej hipotezy H₀

poziom istotno´sci α - prawdopodobie´nstwo pope lnienia b l¸edu 1-go rodzaju β - prawdopodobie´nstwo pope lnienia b l¸edu 2-go rodzaju

moc testu = 1 − β - prawdopodobie´nstwo odrzucenia fa lszywej hipotezy H₀.

(5)

Jedyny b l¸ad jaki mo˙zna pope lni´c weryfikuj¸ac hipotez¸e za pomoc¸a testu istotno´sci to b l¸ad 1-go rodzaju!

Zbi´or krytyczny W - zbi´or warto´sci taki, ˙ze przy za lo˙zeniu, ˙ze H₀ jest prawdziwa: P (u_n ∈ W ) = α, gdzie u_n-obliczona warto´s´c statystyki testowej

W praktyce α ∈< 0.01; 0.1 >.

Uwagi:

1) Przy za lo˙zeniu, ˙ze H₁ prawdziwa: P (u_n∈ W ) > α

2) Je´sli na poziomie istotno´sci α₁ odrzucamy H₀, to na poziomie α₂ < α₁ mo˙ze nie by´c podstaw do odrzucenia H0.

Algorytm weryfikacji hipotez za pomoc¸a testu istotno´sci:

1. Wybieramy model.

2. Obliczamy warto´s´c statystyki testowej u_n.

3. Budujemy zbi´or krytyczny W (w zale˙zno´sci od postaci H1).

4. Je´sli u_n ∈ W , to odrzucamy H₀ na poziomie istotno´sci α. W przeciwnym przypadku m´owimy, ˙ze nie ma podstaw do odrzucenia H₀.

krytyczny poziom istotno´sci α_k - poziom istotno´sci, przy kt´orym nast¸epuje zmiana decyzji weryfika- cyjnej:

je´sli α < α_k to m´owimy, ˙ze nie ma podstaw do odrzucenia H₀ na poziomie istotno´sci α je´sli α > α_k to odrzucamy H₀ na poziomie istotno´sci α.

Testy zgodno´sci

S lu˙z¸a do weryfikacji zgodno´sci pomi¸edzy rozk ladem zbioru warto´sci w próbie a pewnym teoretycznym rozk ladem prawdopodobieństwa o dystrybuancie F₀ (g¸esto´sci prawdopodobieństwa f₀).

Weryfikowana hipoteza ma posta´c:

H0 : F = F0 albo H0 : f = f0

przeciw

H₁ : F 6= F₀ albo H₁f 6= f₀,

gdzie F - nieznana dystrybuanta (f - nieznana g¸esto´s´c prawdopodobie´nstwa) zmiennej losowej X reprezen- tuj¸acej badan¸a cech¸e.

Test zgodno´sci chi-kwadrat Pearsona

Dzielimy zbi´or warto´sci danej pr´oby na roz l¸aczne przedzia ly I₁, . . . , I_k. Przy za lo˙zeniu, ˙ze hipoteza H₀ jest prawdziwa,

pj = P (X ∈ Ij) = F0(αj) − F0(αj−1), gdzie Ij = (αj−1; αj) dla j = 1, . . . , k.

Obliczamy warto´s´c statystyki testowej:

χ² =

Xk i=1

(n_j− np_j)² npj

,

gdzie nj jest liczb¸a obserwacji nale˙z¸acych do przedzia lu Ij, które zaobserwano w próbie, n = ^P^k_j=1nj jest liczb¸a wszystkich obserwacji w próbie, np_j nazywamy hipotetyczn¸a liczb¸a obserwacji z przedzia lu I_j (jest to liczba obserwacji, które powinny nale˙zeć do I_j gdyby H₀ by la prawdziwa).

Je´sli obliczona warto´s´c statystyki χ² nale˙zy do zbioru krytycznego W = (χ²(α, k − 1); +∞), to odrzucamy H₀ : F = F₀ i przyjmujemy H₁ : F 6= F₀. W przeciwnym przypadku m´owimy, ˙ze nie ma podstaw do odrzucenia H₀.