Prz kład adań stat st z h

(1)

1 PiMS

dr in˙z Krzysztof Bry´s Wyk lad 4

Statystyka - poj¸ecia wst¸epne populacja - ca ly zbi´or badanych przedmiot´ow lub warto´sci.

próba - skończony podzbiór populacji podlegaj¸acy badaniu.

próba losowa - próba losowana (najcz¸e´sciej) zgodnie z rozk ladem równomiernym, tzn. wylosowanie ka˙zdej próby jest jednakowo prawdopodobne.

cechy: mierzalne, niemierzalne badana cecha = zmienna losowa X

Poszukiwany: rozk lad cechy w populacji = rozk lad zmiennej losowej X

pr´oba n-elementowa = ci¸ag n niezale˙znych zmiennych losowych (X1, . . . , X_n) o jednakowym rozk ladzie (takim jak poszukiwany rozk lad zmiennej losowej X).

Etapy badania statystycznego

1) Przygotowanie (formatowanie) badania (okre´slenie celu, rodzaju, potrzebnych parametr´ow wej´sciowych badania).

2) Przeprowadzenie badania (wylosowanie pr´oby i okre´slenie warto´sci badanych cech w pr´obie).

3) Zebranie uzyskanych podczas badania danych.

4) Opis i wnioskowanie statystyczne (obliczenie parametr´ow, estymacja, weryﬁkacja hipotez).

5) Przedstawienie wynik´ow.

Szeregi statystyczne 1) Szereg wyliczaj¸acy uporz¸adkowany: (x1, x2, . . . , x_n) przy czym x1 ≤ x² ≤ . . . ≤ xⁿ.

2) Szereg rozdzielczy punktowy: (x1, x2, . . . , x_k), (n1, n2, . . . , n_k),

gdzie x1 < x2 < . . . < x_k oraz dla ka˙zdego i = 1, 2, . . . , k: ni-liczba realizacji (obserwacji) warto´sci xi,

P_k

i=1n_i = n.

3) Szereg rozdzielczy przedzia lowy: (y0; y1 >,(y1; y2 >, . . . ,(yk−1; yk), (n1, n2, . . . , n_k),

gdzie y0 < y1 < y2 < . . . < y_k−1 < y_koraz dla ka˙zdego i = 1, 2, . . . , k: ni-liczba realizacji (obserwacji) warto´sci nale˙z¸acej do przedzia lu (yi−1; yi),^P^k_i=1n_i = n.

Wszystkie warto´sci nale˙z¸ace do przedzia lu (yi−1; yi >, i = 1, 2, . . . , k uto˙zsamia si¸e z jego ´srodkiem xi. Regu ly wyznaczania liczby przedzia l´ow (klas): k ≈√

n, k ≤ 5 log n.

Parametry empiryczne Miary po lo˙zenia rozk ladu

1) ´Srednia z pr´oby x - dla szeregu wyliczaj¸acego:

x= 1 n

Xn

i=1

x_i - dla szeregu rozdzielczego:

x= 1 n

Xk

i=1

n_i· xⁱ

(2)

2 2) Dominanta (moda, warto´sć modalna) D = punkt, w którym funkcja prawdopodobieństwa osi¸aga najwi¸eksz¸a warto´sć

- dla szeregu wyliczaj¸acego: najcz¸e´sciej wyst¸epuj¸aca warto´s´c,

- dla szeregu rozdzielczego punktowego: punkt, dla którego liczebno´sć (cz¸esto´sć) osi¸aga najwi¸eksz¸a warto´sć, - dla szeregu rozdzielczego przedzia lowego (wzór interpolacyjny):

D= x0d+ n_d− n^d−1

(nd− nd−1) + (nd− n^d+1) · h^d, gdzie

x_0d - pocz¸atek przedzia lu zawieraj¸acego dominant¸e (przedzia lu o najwiekszej liczebno´sci), h_d - szeroko´sć przedzia lu zawieraj¸acego dominant¸e (przedzia lu o najwiekszej liczebno´sci), n_d - liczebno´sć przedzia lu zawieraj¸acego dominant¸e (najwieksza liczebno´sć),

n_d−1 - liczebno´s´c przedzia lu poprzedzaj¸acego przedzia l zawieraj¸acy dominant¸e, n_d+1 - liczebno´s´c przedzia lu nast¸epnego po przedziale zawieraj¸acym dominant¸e.

3) Dystrybuanta empiryczna (cz¸esto´s´c skumulowana Fn(x) - dla szeregu wyliczaj¸acego:

F_n(x) = 1

n|{i : xⁱ < x, i = 1, . . . , n}|

- dla szeregu rozdzielczego:

F_n(x) = ^X

i:x_i<x

n_i n 4) Kwantyl empiryczny rz¸edu p xp,n:

(punkt w kt´orym dystrybuanta empiryczna po raz pierwszy osi¸aga warto´s´c niemniejsz¸a ni˙z p) - dla szeregu wyliczaj¸acego:

x_p,n = x⌈np⌉

- dla szeregu rozdzielczego punktowego:

x_p,n = xq gdzie q = min{r : p ≤

Xr

i=1

n_i n} - dla szeregu rozdzielczego przedzia lowego (wz´or interpolacyjny):

x_p,n = x0p + (np − ^X

xi<x0p

n_i) · h_p n_p, gdzie

x0p - pocz¸atek przedzia lu zawieraj¸acego xp,n (przedzia lu w kt´orym dystrybuanta empiryczna po raz pierwszy osi¸aga warto´s´c niemniejsz¸a ni˙z p),

h_p -szeroko´s´c przedzia lu zawieraj¸acego xp,n, n_p -liczebno´s´c przedzia lu zawieraj¸acego xp,n,

P

xi<x0pn_i- liczebno´s´c skumulowana dla przedzia lu poprzedzaj¸acego przedzia l zawieraj¸acy xp,n(suma liczebno´sci przedzia l´ow poprzedzaj¸acych)

Mediana: Me = kwantyl rz¸edu ¹₂ Kwartyl dolny: Q1 = kwantyl rz¸edu ¹₄ Kwartyl g´orny: Q3 = kwantyl rz¸edu ³₄.

Miary rozproszenia rozk ladu 5) Wariancja z pr´oby s² - dla szeregu wyliczaj¸acego:

s² = 1 n

Xn

i=1

(xi− x)²

(3)

3 - dla szeregu rozdzielczego:

s² = 1 n

Xk

i=1

n_i· (xⁱ− x)² 6) Odchylenie standardowe z pr´oby s =√

s². 7) Wsp´o lczynnik zmienno´sci V = _x^s · 100%.

8) Rozst¸ep R = r´o˙znica mi¸edzy najwi¸eksz¸a i najmniejsz¸a warto´sci¸a w pr´obie.

9) Wsp´o lczynnik asymetrii As: - dla szeregu wyliczaj¸acego:

A_s = 1 s³ · (1

n

Xn

i=1

(xi− x)³) - dla szeregu rozdzielczego:

A_s = 1 s³ · (1

n

Xk

i=1

n_i· (xⁱ− x)³) 10) Kurtoza (wsp´o lczynnik skupienia) As:

- dla szeregu wyliczaj¸acego:

K = 1 s⁴ · (1

n

Xn

i=1

(xi− x)⁴) - dla szeregu rozdzielczego:

K = 1 s⁴ · (1

n

Xk

i=1

n_i · (xⁱ− x)⁴) 11) Wsp´o lczynnik sko´sno´sci A1:

A1 = x− D s

(4)

Cz zaj uje się stat st ka?

Statystyka zaj uje się e piry z y

poprzez doświad ze ia ada ie zjawisk losowy h i wy iąga ie w iosków

na podstawie otrzymanego ateriału statysty z ego .

(5)

Prz kład adań stat st z h

• Seria rzutów o etą w elu sprawdze ia zy o eta ie jest

„oszuka a” jest sy etry z a .

• Sprawdza ie jak długo oż a yć iegrze z y po jaki zasie a a się zde erwuje .

• So daże wy or ze

• Ankiety

• Pomiary

p. ierze ie odległoś i, te peratury, zasu

(6)

Populacja

Populacja to z iór wszystki h ada y h przed iotów lu wartoś i Przykłady popula ji

• Wszys y u z iowie a świe ie

• Wszyscy uczniowie w Polsce

• Wszys y u z iowie warszawski h szkół

• Wszys y u z iowie Li eu i . Wy yślo ego

• Wszys y u z iowie klasy w Li eu i . Wy yślo ego

(7)

Prz kład popula ji

• Kursy ak ji a giełdzie

• Wszystkie prawdziwki ros ą e w Lesie Ka a ki

• Wszystkie lasy w Polsce

• Wszystkie osoby w centrum handlowym

• Wszystkie sklepy w centrum handlowym

• Wszystkie ciastka w cukierni

• Wszyscy nauczyciele matematyki

• Wszystkie żółte sa o hody

(8)

Pró a

Pró a to podz iór popula ji

(9)

Wnioskowanie statystyczne

Wnioskowanie statystyczne to przeniesienie

uogól ie ie wiedzy zdo ytej dzięki pró ie a ałą popula ję.

Przykład: Jeśli wszystkie dzie i w odpowied io dużej pró ie są grze z e, to oż a w ioskować, że wszystkie dzie i a świe ie są grze z e.

Wy ik w ioskowa ia statysty z ego oże yć fałszywy

(10)

Metod w oru pró

• Do ór losowy – każdy ele e t popula ji wy iera y z jed akowy prawdopodo ieństwe

Pró a losowa - pró a wy ra a za po o ą do oru losowego

• Do ór grupowy – losowo wy iera e są ałe grupy ele e tów popula ji, p. rodzi y, klasy, szkoły

• Do ór elowy – etoda ielosowa polegają a a wy ra iu

określo y h ele e tów popula ji

(11)

Pró a repreze tat w a

Pró a repreze tat w a - pró a, w której rozkład struktura ada h e h jest z liżo do rozkładu w ałej popula ji

Prz kład: Jeśli wiado o, że ko iet sta owią , % ałej popula ji, to pró a repreze tat w a złożo a ze osó powi a składać się z ko iet i ęż z z

A w ioskowa ie stat st z e dawało popraw w ik pró a powi a

ć repreze tat w a

(12)

Cecha

Cecha to pew a właś iwość harakter zują a ele e t danej populacji

Prz kład e h harakter zują h ludzi:

wzrost, waga, płeć, współ z ik IQ, e h harakteru

Prz kład e h harakter zują h przed iot p. sa o hód :

waga, długość, szerokość, kolor, ateriał z którego w ko a o te przed iot

(13)

Rodzaje cech

Cechy mierzalne – określa e za po o ą li z , które oż a u ieś ić a se sow ej skali a se s li ze ie śred iej , p. wzrost, waga, długość, te peratura, iś ie ie,

Cecha binarna (zerojedynkowa) – e ha którą się a al o się jej ie a , p. rodzeństwo, ie grze z

Cechy niemierzalne – określa e zw kle za po o ą słów, p. kolor,

w kształ e ie

(14)

Badanie statystyczne

Badanie statystyczne polega a określe iu wartoś i

ada h e h w odpowied io do ra ej pró ie

i w iąg ię iu a podstawie otrz a h w ików

w iosków dot zą h ałej popula ji.

(15)

Etapy badania statystycznego

1. Przygotowanie badania określe ie elu, w ór sposo u przeprowadzenia badania)

2. Przeprowadzenie badania w ra ie pró i określe ie wartoś i ada h e h w pró ie

3. Zebranie i opracowanie uzyskanych danych (zestawienie, obliczenie wartoś i para etrów e pir z h, sporządze ie w kresów

4. Wnioskowanie statystyczne uogól ie ie zdo tej wiedz a popula ję, określe ie r z ka popeł ie ia łędu

5. Przedstawie ie w ików

(16)

Cz w iko ada ia stat st z ego oż a ufać ?

Oszukana moneta

• Jedna osoba wykonuje uczciwie badanie – rzu a razy o etą i otuje wy iki

• Druga oso a „oszukuje” –

ie rzu a o etą tylko wy yśla wy iki rzutów o etą

Czy zgad ie ie, które wy iki rzutów o etą są prawdziwe ?

(17)

Cz w iko ada ia stat st z ego oż a ufać ?

Oszukana moneta

• Jedna osoba wykonuje uczciwie badanie – rzu a razy o etą i otuje wy iki

• Druga oso a „oszukuje” –

ie rzu a o etą tylko wy yśla wy iki rzutów o etą

(R,R,O,R,R,O,R,O,O,R,O,R,R,O,O,R,R,O,R,O)

(18)

Cz w iko ada ia stat st z ego oż a ufać ?

Oszukana moneta

• Jedna osoba wykonuje uczciwie badanie – rzu a razy o etą i otuje wy iki

• Druga oso a „oszukuje” –

ie rzu a o etą tylko wy yśla wy iki rzutów o etą (R,R,O,R,R,O,R,O,O,R,O,R,R,O,O,R,R,O,R,O)

A i razu ie pojawiają się z rzędu a i reszki a i orły

(19)

Cz w iko ada ia stat st z ego oż a ufać ?

Oszukana moneta

• Jedna osoba wykonuje uczciwie badanie – rzu a razy o etą i otuje wy iki

• Druga oso a „oszukuje” –

ie rzu a o etą tylko wy yśla wy iki rzutów o etą (R,R,O,R,R,O,R,O,O,R,O,R,R,O,O,R,R,O,R,O)

A i razu ie pojawiają się z rzędu a i reszki a i orły

Moż a o li zyć używają ra hu ku prawdopodo ieństwa , że prawdopodo ieństwo takiego zdarze ia jest liskie zeru.

(mniejsze od 0.05)

(20)

Czy wynikom badania statystycznego oż a ufać ?

Oszukana moneta

• Jedna osoba wykonuje uczciwie badanie – rzu a razy o etą i otuje wy iki

• Druga oso a „oszukuje” –

ie rzu a o etą tylko wy yśla wy iki rzutów o etą (R,R,O,R,R,O,R,O,O,R,O,R,R,O,O,R,R,O,R,O)

A i razu ie pojawiają się z rzędu a i reszki a i orły

Moż a zate , z prawdopodo ieństwe popeł ie ia łędu ryzykie mniejszym od 0.05

twierdzić, że te szereg wyge erował OSZUST

(21)

Szereg statystyczny

Wartoś i ada ej e hy w pró ie z iera y w posta i szeregu

statystycznego

(22)

Rodzaje szeregów stat st z h

• Szereg w li zają 1 , x _2, …, x _n ) , np. (2,2,2,3,3,3,3,4,4,5)

• Szereg rozdzielczy punktowy

• Szereg rozdziel z przedziałow

Wartość x

_i

2 3 4 5

Li z a o serwa ji wartoś i

_i

n

_i

3 4 2 1

Przedział wartoś i <2;3) <3;5>

Li z a o serwa ji wartoś i z przedziału 3 7

(23)

Szereg rozdziel z przedziałow

Środek przedziału x

_i

2.5 4

Li z a o serwa ji wartoś i z przedziału n

_i

3 7 Przedział wartoś i <2;3) <3;5>

Li z a o serwa ji wartoś i z przedziału 3 7

A y poli zyć para etry e piry z e utożsa ia y każdą wartość ależą ą do da ego przedziału z jego repreze ta te

wskaza y przez eksperta al o ze środkie przedziału .

(24)

Parametry empiryczne

(25)

Parametry empiryczne

(26)

Parametry empiryczne

(27)

Parametry empiryczne

(28)

Parametry empiryczne

(29)

Parametry empiryczne

Czy s=20000 km, to duże czy małe odchylenie standardowe

pomiaru ?

(30)

Parametry empiryczne

(31)

Parametry empiryczne

(32)

Prz kład

W fabryce każdy z 1000 pracowników zarabia po 1000 (euro), a 1 pracownik (dyrektor) zarabia 1 000 000 (euro).

Ile wynoszą rednie zarobki w tej fabryce?

(33)

Prz kład

W fabryce każdy z 1000 pracowników zarabia po 1000 (euro), a 1 pracownik (dyrektor) zarabia 1 000 000 (euro).

Ile wynoszą rednie zarobki w tej fabryce?

(34)

Prz kład

W fabryce każdy z 1000 pracowników zarabia po 1000 (euro), a 1 pracownik (dyrektor) zarabia 1 000 000 (euro).

Ile wynoszą rednie zarobki w tej fabryce?

(35)

Parametry empiryczne

(36)

Prz kład d

W fabryce każdy z 1000 pracowników zarabia po 1000 (euro), a 1 pracownik (dyrektor) zarabia 1 000 000 (euro).

Ile wynoszą rednie zarobki w tej fabryce?

Policzmy medianę !!!

(37)

Prz kład d

W fabryce każdy z 1000 pracowników zarabia po 1000 (euro), a 1 pracownik (dyrektor) zarabia 1 000 000 (euro).

Ile wynoszą rednie zarobki w tej fabryce?

Policzmy medianę !!!

W szeregu wyliczającym jest 1001 obserwacji.

(38)

Prz kład d

W fabryce każdy z 1000 pracowników zarabia po 1000 (euro), a 1 pracownik (dyrektor) zarabia 1 000 000 (euro).

Ile wynoszą rednie zarobki w tej fabryce?

Policzmy medianę !!!

W szeregu wyliczającym jest 1001 obserwacji.

rodkowa ma numer 501

(39)

Prz kład d

W fabryce każdy z 1000 pracowników zarabia po 1000 (euro), a 1 pracownik (dyrektor) zarabia 1 000 000 (euro).

Ile wynoszą rednie zarobki w tej fabryce?

Policzmy medianę !!!

W szeregu wyliczającym jest 1001 obserwacji.

rodkowa ma numer 501

i wynosi 1000 (euro).

(40)

Prz kład d

W fabryce każdy z 1000 pracowników zarabia po 1000 (euro), a 1 pracownik (dyrektor) zarabia 1 000 000 (euro).

Ile wynoszą rednie zarobki w tej fabryce?

Policzmy medianę !!!

W szeregu wyliczającym jest 1001 obserwacji.

rodkowa ma numer 501 i wynosi 1000 (euro).

Zatem mediana Me = 1000 (euro)

(41)

Prz kład d

W fabryce każdy z 1000 pracowników zarabia po 1000 (euro), a 1 pracownik (dyrektor) zarabia 1 000 000 (euro).

Ile wynoszą rednie zarobki w tej fabryce?

rednie zarobki wynoszą około 2000 euro.

Mediana zarobków wynosi 1000 euro.

(42)

Prz kład d

W fabryce każdy z 1000 pracowników zarabia po 1000 (euro), a 1 pracownik (dyrektor) zarabia 1 000 000 (euro).

Ile wynoszą rednie zarobki w tej fabryce?

rednie zarobki wynoszą około 2000 euro.

Mediana zarobków wynosi 1000 euro.

Je li podamy tylko warto ć mediany, to każdy

z pracowników dowie się, że połowa pracowników zarabia

nie więcej od niego !!!!

(43)

Prz kład d

W fabryce każdy z 1000 pracowników zarabia po 1000 (euro), a 1 pracownik (dyrektor) zarabia 1 000 000 (euro).

Ile wynoszą rednie zarobki w tej fabryce?

rednie zarobki wynoszą około 2000 euro.

( zarabiam połowę redniej ) 

Mediana zarobków wynosi 1000 euro.

( połowa pracowników zarabia nie więcej niż ja ) ☺

(44)

Parametry empiryczne - interpretacja

Współ zy ik asy etrii A

s i współ zy ik skoś oś i A

1 są

iara i siły i kieru ku asy etrii rozkładu prawdopodo ieństwa.

Uwaga: P o ieważ są o li za e przy uży iu róż y h wzorów, to ogą dawać róż e zase wrę z wyglądają e a sprze z e wyniki.

I terpreta ja współ zy ika asy etrii/współ zy ika skoś oś i Wartość bliska 0 = rozkład symetryczny (lub prawie symetryczny) Wartość dodatnia = rozkład o asy etrii skoś oś i lewostro ej.

Wartość uje a = rozkład o asy etrii skoś oś i prawostro ej.

I wartość współ zy ika asy etrii/skoś oś i ardziej odległa od zera ty siła asy etrii lewo- lu prawostro ej rozkładu większa.

prawostronnej

lewostronnej

(45)

Rozkład symetryczny (np. rozkład normalny) charakteryzuje się tym, że rednia, dominanta i mediana są równe sobie.

W przypadku rozkładów prawie symetrycznych warto ci tych parametrów są zbliżone.

Rozkład asymetryczny lewostronnie charakteryzuje się tym, że rednia jest mniejsza od mediany,

a mediana jest mniejsza od dominanty.

W przypadku rozkładów asymetrycznych lewostronnie rednia może być uważana za

„niedoszacowaną” miarą rodka rozkładu (bo np.

aż 80% warto ci jest większych od redniej) Rozkład asymetryczny prawostronnie

charakteryzuje się tym, że rednia jest większa od mediany, a mediana jest większa od dominanty.

W przypadku rozkładów asymetrycznych

prawostronnie rednia może być uważana za

„przeszacowaną miarą rodka rozkładu (bo np. aż

80% warto ci jest mniejszych od redniej – patrz

rozkład zarobków w niektórych krajach)

(46)

Parametry empiryczne - interpretacja

Kurtoza K jest iarą ko e tra ji osiąga y h wartoś i wokół śred iej wartoś i o zekiwa ej , zyli ówią proś iej iarą spłasz ze ia wykresu rozkładu prawdopodo ieństwa.

K=3 wykres mezokurtyczny krzywa Gaussa zyli wykres rozkładu normalnego), ale nie tylko;

0<K<3 wykres platokurtyczny = spłasz zo y w stosunku do

krzywej Gaussa

K>3 wykres leptokurtyczny = wys ukły w stosu ku do krzywej

Gaussa

(47)

Ciekawostka - eksces

Uwaga: Często kurtozą nazywa się para etr rów y K-3 , który y ędzie y azywać ekscesem.

Po co taki parametr ?

Że y u ik ąć pytań dla zego dla rozkładu or al ego kurtoza wynosi akurat . Eks es jest rów y dla rozkładu or al ego i ikt ie pyta dlaczego.

Zwróć ie jednak uwagę, że K> a zate eks es ie oże osiąg ąć wartoś i iejszej lu rów ej -3.

Powered by TCPDF (www.tcpdf.org) Powered by TCPDF (www.tcpdf.org)