1 PiMS
dr in˙z Krzysztof Bry´s Wyk lad 4
Statystyka - poj¸ecia wst¸epne populacja - ca ly zbi´or badanych przedmiot´ow lub warto´sci.
pr´oba - sko´nczony podzbi´or populacji podlegaj¸acy badaniu.
pr´oba losowa - pr´oba losowana (najcz¸e´sciej) zgodnie z rozk ladem r´ownomiernym, tzn. wylosowanie ka˙zdej pr´oby jest jednakowo prawdopodobne.
cechy: mierzalne, niemierzalne badana cecha = zmienna losowa X
Poszukiwany: rozk lad cechy w populacji = rozk lad zmiennej losowej X
pr´oba n-elementowa = ci¸ag n niezale˙znych zmiennych losowych (X1, . . . , Xn) o jednakowym rozk ladzie (takim jak poszukiwany rozk lad zmiennej losowej X).
Etapy badania statystycznego
1) Przygotowanie (formatowanie) badania (okre´slenie celu, rodzaju, potrzebnych parametr´ow wej´sciowych badania).
2) Przeprowadzenie badania (wylosowanie pr´oby i okre´slenie warto´sci badanych cech w pr´obie).
3) Zebranie uzyskanych podczas badania danych.
4) Opis i wnioskowanie statystyczne (obliczenie parametr´ow, estymacja, weryfikacja hipotez).
5) Przedstawienie wynik´ow.
Szeregi statystyczne 1) Szereg wyliczaj¸acy uporz¸adkowany: (x1, x2, . . . , xn) przy czym x1 ≤ x2 ≤ . . . ≤ xn.
2) Szereg rozdzielczy punktowy: (x1, x2, . . . , xk), (n1, n2, . . . , nk),
gdzie x1 < x2 < . . . < xk oraz dla ka˙zdego i = 1, 2, . . . , k: ni-liczba realizacji (obserwacji) warto´sci xi,
Pk
i=1ni = n.
3) Szereg rozdzielczy przedzia lowy: (y0; y1 >,(y1; y2 >, . . . ,(yk−1; yk), (n1, n2, . . . , nk),
gdzie y0 < y1 < y2 < . . . < yk−1 < ykoraz dla ka˙zdego i = 1, 2, . . . , k: ni-liczba realizacji (obserwacji) warto´sci nale˙z¸acej do przedzia lu (yi−1; yi),Pki=1ni = n.
Wszystkie warto´sci nale˙z¸ace do przedzia lu (yi−1; yi >, i = 1, 2, . . . , k uto˙zsamia si¸e z jego ´srodkiem xi. Regu ly wyznaczania liczby przedzia l´ow (klas): k ≈√
n, k ≤ 5 log n.
Parametry empiryczne Miary po lo˙zenia rozk ladu
1) ´Srednia z pr´oby x - dla szeregu wyliczaj¸acego:
x= 1 n
Xn
i=1
xi - dla szeregu rozdzielczego:
x= 1 n
Xk
i=1
ni· xi
2 2) Dominanta (moda, warto´s´c modalna) D = punkt, w kt´orym funkcja prawdopodobie´nstwa osi¸aga najwi¸eksz¸a warto´s´c
- dla szeregu wyliczaj¸acego: najcz¸e´sciej wyst¸epuj¸aca warto´s´c,
- dla szeregu rozdzielczego punktowego: punkt, dla kt´orego liczebno´s´c (cz¸esto´s´c) osi¸aga najwi¸eksz¸a warto´s´c, - dla szeregu rozdzielczego przedzia lowego (wz´or interpolacyjny):
D= x0d+ nd− nd−1
(nd− nd−1) + (nd− nd+1) · hd, gdzie
x0d - pocz¸atek przedzia lu zawieraj¸acego dominant¸e (przedzia lu o najwiekszej liczebno´sci), hd - szeroko´s´c przedzia lu zawieraj¸acego dominant¸e (przedzia lu o najwiekszej liczebno´sci), nd - liczebno´s´c przedzia lu zawieraj¸acego dominant¸e (najwieksza liczebno´s´c),
nd−1 - liczebno´s´c przedzia lu poprzedzaj¸acego przedzia l zawieraj¸acy dominant¸e, nd+1 - liczebno´s´c przedzia lu nast¸epnego po przedziale zawieraj¸acym dominant¸e.
3) Dystrybuanta empiryczna (cz¸esto´s´c skumulowana Fn(x) - dla szeregu wyliczaj¸acego:
Fn(x) = 1
n|{i : xi < x, i = 1, . . . , n}|
- dla szeregu rozdzielczego:
Fn(x) = X
i:xi<x
ni n 4) Kwantyl empiryczny rz¸edu p xp,n:
(punkt w kt´orym dystrybuanta empiryczna po raz pierwszy osi¸aga warto´s´c niemniejsz¸a ni˙z p) - dla szeregu wyliczaj¸acego:
xp,n = x⌈np⌉
- dla szeregu rozdzielczego punktowego:
xp,n = xq gdzie q = min{r : p ≤
Xr
i=1
ni n} - dla szeregu rozdzielczego przedzia lowego (wz´or interpolacyjny):
xp,n = x0p + (np − X
xi<x0p
ni) · hp np, gdzie
x0p - pocz¸atek przedzia lu zawieraj¸acego xp,n (przedzia lu w kt´orym dystrybuanta empiryczna po raz pierwszy osi¸aga warto´s´c niemniejsz¸a ni˙z p),
hp -szeroko´s´c przedzia lu zawieraj¸acego xp,n, np -liczebno´s´c przedzia lu zawieraj¸acego xp,n,
P
xi<x0pni- liczebno´s´c skumulowana dla przedzia lu poprzedzaj¸acego przedzia l zawieraj¸acy xp,n(suma liczebno´sci przedzia l´ow poprzedzaj¸acych)
Mediana: Me = kwantyl rz¸edu 12 Kwartyl dolny: Q1 = kwantyl rz¸edu 14 Kwartyl g´orny: Q3 = kwantyl rz¸edu 34.
Miary rozproszenia rozk ladu 5) Wariancja z pr´oby s2 - dla szeregu wyliczaj¸acego:
s2 = 1 n
Xn
i=1
(xi− x)2
3 - dla szeregu rozdzielczego:
s2 = 1 n
Xk
i=1
ni· (xi− x)2 6) Odchylenie standardowe z pr´oby s =√
s2. 7) Wsp´o lczynnik zmienno´sci V = xs · 100%.
8) Rozst¸ep R = r´o˙znica mi¸edzy najwi¸eksz¸a i najmniejsz¸a warto´sci¸a w pr´obie.
9) Wsp´o lczynnik asymetrii As: - dla szeregu wyliczaj¸acego:
As = 1 s3 · (1
n
Xn
i=1
(xi− x)3) - dla szeregu rozdzielczego:
As = 1 s3 · (1
n
Xk
i=1
ni· (xi− x)3) 10) Kurtoza (wsp´o lczynnik skupienia) As:
- dla szeregu wyliczaj¸acego:
K = 1 s4 · (1
n
Xn
i=1
(xi− x)4) - dla szeregu rozdzielczego:
K = 1 s4 · (1
n
Xk
i=1
ni · (xi− x)4) 11) Wsp´o lczynnik sko´sno´sci A1:
A1 = x− D s
Cz zaj uje się stat st ka?
Statystyka zaj uje się e piry z y
poprzez doświad ze ia ada ie zjawisk losowy h i wy iąga ie w iosków
na podstawie otrzymanego ateriału statysty z ego .
Prz kład adań stat st z h
• Seria rzutów o etą w elu sprawdze ia zy o eta ie jest
„oszuka a” jest sy etry z a .
• Sprawdza ie jak długo oż a yć iegrze z y po jaki zasie a a się zde erwuje .
• So daże wy or ze
• Ankiety
• Pomiary
p. ierze ie odległoś i, te peratury, zasu
Populacja
Populacja to z iór wszystki h ada y h przed iotów lu wartoś i Przykłady popula ji
• Wszys y u z iowie a świe ie
• Wszyscy uczniowie w Polsce
• Wszys y u z iowie warszawski h szkół
• Wszys y u z iowie Li eu i . Wy yślo ego
• Wszys y u z iowie klasy w Li eu i . Wy yślo ego
Prz kład popula ji
• Kursy ak ji a giełdzie
• Wszystkie prawdziwki ros ą e w Lesie Ka a ki
• Wszystkie lasy w Polsce
• Wszystkie osoby w centrum handlowym
• Wszystkie sklepy w centrum handlowym
• Wszystkie ciastka w cukierni
• Wszyscy nauczyciele matematyki
• Wszystkie żółte sa o hody
Pró a
Pró a to podz iór popula ji
Wnioskowanie statystyczne
Wnioskowanie statystyczne to przeniesienie
uogól ie ie wiedzy zdo ytej dzięki pró ie a ałą popula ję.
Przykład: Jeśli wszystkie dzie i w odpowied io dużej pró ie są grze z e, to oż a w ioskować, że wszystkie dzie i a świe ie są grze z e.
Wy ik w ioskowa ia statysty z ego oże yć fałszywy
Metod w oru pró
• Do ór losowy – każdy ele e t popula ji wy iera y z jed akowy prawdopodo ieństwe
Pró a losowa - pró a wy ra a za po o ą do oru losowego
• Do ór grupowy – losowo wy iera e są ałe grupy ele e tów popula ji, p. rodzi y, klasy, szkoły
• Do ór elowy – etoda ielosowa polegają a a wy ra iu
określo y h ele e tów popula ji
Pró a repreze tat w a
Pró a repreze tat w a - pró a, w której rozkład struktura ada h e h jest z liżo do rozkładu w ałej popula ji
Prz kład: Jeśli wiado o, że ko iet sta owią , % ałej popula ji, to pró a repreze tat w a złożo a ze osó powi a składać się z ko iet i ęż z z
A w ioskowa ie stat st z e dawało popraw w ik pró a powi a
ć repreze tat w a
Cecha
Cecha to pew a właś iwość harakter zują a ele e t danej populacji
Prz kład e h harakter zują h ludzi:
wzrost, waga, płeć, współ z ik IQ, e h harakteru
Prz kład e h harakter zują h przed iot p. sa o hód :
waga, długość, szerokość, kolor, ateriał z którego w ko a o te przed iot
Rodzaje cech
Cechy mierzalne – określa e za po o ą li z , które oż a u ieś ić a se sow ej skali a se s li ze ie śred iej , p. wzrost, waga, długość, te peratura, iś ie ie,
Cecha binarna (zerojedynkowa) – e ha którą się a al o się jej ie a , p. rodzeństwo, ie grze z
Cechy niemierzalne – określa e zw kle za po o ą słów, p. kolor,
w kształ e ie
Badanie statystyczne
Badanie statystyczne polega a określe iu wartoś i
ada h e h w odpowied io do ra ej pró ie
i w iąg ię iu a podstawie otrz a h w ików
w iosków dot zą h ałej popula ji.
Etapy badania statystycznego
1. Przygotowanie badania określe ie elu, w ór sposo u przeprowadzenia badania)
2. Przeprowadzenie badania w ra ie pró i określe ie wartoś i ada h e h w pró ie
3. Zebranie i opracowanie uzyskanych danych (zestawienie, obliczenie wartoś i para etrów e pir z h, sporządze ie w kresów
4. Wnioskowanie statystyczne uogól ie ie zdo tej wiedz a popula ję, określe ie r z ka popeł ie ia łędu
5. Przedstawie ie w ików
Cz w iko ada ia stat st z ego oż a ufać ?
Oszukana moneta
• Jedna osoba wykonuje uczciwie badanie – rzu a razy o etą i otuje wy iki
• Druga oso a „oszukuje” –
ie rzu a o etą tylko wy yśla wy iki rzutów o etą
Czy zgad ie ie, które wy iki rzutów o etą są prawdziwe ?
Cz w iko ada ia stat st z ego oż a ufać ?
Oszukana moneta
• Jedna osoba wykonuje uczciwie badanie – rzu a razy o etą i otuje wy iki
• Druga oso a „oszukuje” –
ie rzu a o etą tylko wy yśla wy iki rzutów o etą
(R,R,O,R,R,O,R,O,O,R,O,R,R,O,O,R,R,O,R,O)
Cz w iko ada ia stat st z ego oż a ufać ?
Oszukana moneta
• Jedna osoba wykonuje uczciwie badanie – rzu a razy o etą i otuje wy iki
• Druga oso a „oszukuje” –
ie rzu a o etą tylko wy yśla wy iki rzutów o etą (R,R,O,R,R,O,R,O,O,R,O,R,R,O,O,R,R,O,R,O)
A i razu ie pojawiają się z rzędu a i reszki a i orły
Cz w iko ada ia stat st z ego oż a ufać ?
Oszukana moneta
• Jedna osoba wykonuje uczciwie badanie – rzu a razy o etą i otuje wy iki
• Druga oso a „oszukuje” –
ie rzu a o etą tylko wy yśla wy iki rzutów o etą (R,R,O,R,R,O,R,O,O,R,O,R,R,O,O,R,R,O,R,O)
A i razu ie pojawiają się z rzędu a i reszki a i orły
Moż a o li zyć używają ra hu ku prawdopodo ieństwa , że prawdopodo ieństwo takiego zdarze ia jest liskie zeru.
(mniejsze od 0.05)
Czy wynikom badania statystycznego oż a ufać ?
Oszukana moneta
• Jedna osoba wykonuje uczciwie badanie – rzu a razy o etą i otuje wy iki
• Druga oso a „oszukuje” –
ie rzu a o etą tylko wy yśla wy iki rzutów o etą (R,R,O,R,R,O,R,O,O,R,O,R,R,O,O,R,R,O,R,O)
A i razu ie pojawiają się z rzędu a i reszki a i orły
Moż a zate , z prawdopodo ieństwe popeł ie ia łędu ryzykie mniejszym od 0.05
twierdzić, że te szereg wyge erował OSZUST
Szereg statystyczny
Wartoś i ada ej e hy w pró ie z iera y w posta i szeregu
statystycznego
Rodzaje szeregów stat st z h
• Szereg w li zają 1 , x 2, …, x n ) , np. (2,2,2,3,3,3,3,4,4,5)
• Szereg rozdzielczy punktowy
• Szereg rozdziel z przedziałow
Wartość x
i2 3 4 5
Li z a o serwa ji wartoś i
in
i3 4 2 1
Przedział wartoś i <2;3) <3;5>
Li z a o serwa ji wartoś i z przedziału 3 7
Szereg rozdziel z przedziałow
Środek przedziału x
i2.5 4
Li z a o serwa ji wartoś i z przedziału n
i3 7 Przedział wartoś i <2;3) <3;5>
Li z a o serwa ji wartoś i z przedziału 3 7
A y poli zyć para etry e piry z e utożsa ia y każdą wartość ależą ą do da ego przedziału z jego repreze ta te
wskaza y przez eksperta al o ze środkie przedziału .
Parametry empiryczne
Parametry empiryczne
Parametry empiryczne
Parametry empiryczne
Parametry empiryczne
Parametry empiryczne
Czy s=20000 km, to duże czy małe odchylenie standardowe
pomiaru ?
Parametry empiryczne
Parametry empiryczne
Prz kład
W fabryce każdy z 1000 pracowników zarabia po 1000 (euro), a 1 pracownik (dyrektor) zarabia 1 000 000 (euro).
Ile wynoszą rednie zarobki w tej fabryce?
Prz kład
W fabryce każdy z 1000 pracowników zarabia po 1000 (euro), a 1 pracownik (dyrektor) zarabia 1 000 000 (euro).
Ile wynoszą rednie zarobki w tej fabryce?
Prz kład
W fabryce każdy z 1000 pracowników zarabia po 1000 (euro), a 1 pracownik (dyrektor) zarabia 1 000 000 (euro).
Ile wynoszą rednie zarobki w tej fabryce?
Parametry empiryczne
Prz kład d
W fabryce każdy z 1000 pracowników zarabia po 1000 (euro), a 1 pracownik (dyrektor) zarabia 1 000 000 (euro).
Ile wynoszą rednie zarobki w tej fabryce?
Policzmy medianę !!!
Prz kład d
W fabryce każdy z 1000 pracowników zarabia po 1000 (euro), a 1 pracownik (dyrektor) zarabia 1 000 000 (euro).
Ile wynoszą rednie zarobki w tej fabryce?
Policzmy medianę !!!
W szeregu wyliczającym jest 1001 obserwacji.
Prz kład d
W fabryce każdy z 1000 pracowników zarabia po 1000 (euro), a 1 pracownik (dyrektor) zarabia 1 000 000 (euro).
Ile wynoszą rednie zarobki w tej fabryce?
Policzmy medianę !!!
W szeregu wyliczającym jest 1001 obserwacji.
rodkowa ma numer 501
Prz kład d
W fabryce każdy z 1000 pracowników zarabia po 1000 (euro), a 1 pracownik (dyrektor) zarabia 1 000 000 (euro).
Ile wynoszą rednie zarobki w tej fabryce?
Policzmy medianę !!!
W szeregu wyliczającym jest 1001 obserwacji.
rodkowa ma numer 501
i wynosi 1000 (euro).
Prz kład d
W fabryce każdy z 1000 pracowników zarabia po 1000 (euro), a 1 pracownik (dyrektor) zarabia 1 000 000 (euro).
Ile wynoszą rednie zarobki w tej fabryce?
Policzmy medianę !!!
W szeregu wyliczającym jest 1001 obserwacji.
rodkowa ma numer 501 i wynosi 1000 (euro).
Zatem mediana Me = 1000 (euro)
Prz kład d
W fabryce każdy z 1000 pracowników zarabia po 1000 (euro), a 1 pracownik (dyrektor) zarabia 1 000 000 (euro).
Ile wynoszą rednie zarobki w tej fabryce?
rednie zarobki wynoszą około 2000 euro.
Mediana zarobków wynosi 1000 euro.
Prz kład d
W fabryce każdy z 1000 pracowników zarabia po 1000 (euro), a 1 pracownik (dyrektor) zarabia 1 000 000 (euro).
Ile wynoszą rednie zarobki w tej fabryce?
rednie zarobki wynoszą około 2000 euro.
Mediana zarobków wynosi 1000 euro.
Je li podamy tylko warto ć mediany, to każdy
z pracowników dowie się, że połowa pracowników zarabia
nie więcej od niego !!!!
Prz kład d
W fabryce każdy z 1000 pracowników zarabia po 1000 (euro), a 1 pracownik (dyrektor) zarabia 1 000 000 (euro).
Ile wynoszą rednie zarobki w tej fabryce?
rednie zarobki wynoszą około 2000 euro.
( zarabiam połowę redniej )
Mediana zarobków wynosi 1000 euro.
( połowa pracowników zarabia nie więcej niż ja ) ☺
Parametry empiryczne - interpretacja
Współ zy ik asy etrii A
s i współ zy ik skoś oś i A
1 są
iara i siły i kieru ku asy etrii rozkładu prawdopodo ieństwa.
Uwaga: P o ieważ są o li za e przy uży iu róż y h wzorów, to ogą dawać róż e zase wrę z wyglądają e a sprze z e wyniki.
I terpreta ja współ zy ika asy etrii/współ zy ika skoś oś i Wartość bliska 0 = rozkład symetryczny (lub prawie symetryczny) Wartość dodatnia = rozkład o asy etrii skoś oś i lewostro ej.
Wartość uje a = rozkład o asy etrii skoś oś i prawostro ej.
I wartość współ zy ika asy etrii/skoś oś i ardziej odległa od zera ty siła asy etrii lewo- lu prawostro ej rozkładu większa.
prawostronnej
lewostronnej
Rozkład symetryczny (np. rozkład normalny) charakteryzuje się tym, że rednia, dominanta i mediana są równe sobie.
W przypadku rozkładów prawie symetrycznych warto ci tych parametrów są zbliżone.
Rozkład asymetryczny lewostronnie charakteryzuje się tym, że rednia jest mniejsza od mediany,
a mediana jest mniejsza od dominanty.
W przypadku rozkładów asymetrycznych lewostronnie rednia może być uważana za
„niedoszacowaną” miarą rodka rozkładu (bo np.
aż 80% warto ci jest większych od redniej) Rozkład asymetryczny prawostronnie
charakteryzuje się tym, że rednia jest większa od mediany, a mediana jest większa od dominanty.
W przypadku rozkładów asymetrycznych
prawostronnie rednia może być uważana za
„przeszacowaną miarą rodka rozkładu (bo np. aż
80% warto ci jest mniejszych od redniej – patrz
rozkład zarobków w niektórych krajach)
Parametry empiryczne - interpretacja
Kurtoza K jest iarą ko e tra ji osiąga y h wartoś i wokół śred iej wartoś i o zekiwa ej , zyli ówią proś iej iarą spłasz ze ia wykresu rozkładu prawdopodo ieństwa.
K=3 wykres mezokurtyczny krzywa Gaussa zyli wykres rozkładu normalnego), ale nie tylko;
0<K<3 wykres platokurtyczny = spłasz zo y w stosunku do
krzywej Gaussa
K>3 wykres leptokurtyczny = wys ukły w stosu ku do krzywej
Gaussa
Ciekawostka - eksces
Uwaga: Często kurtozą nazywa się para etr rów y K-3 , który y ędzie y azywać ekscesem.
Po co taki parametr ?
Że y u ik ąć pytań dla zego dla rozkładu or al ego kurtoza wynosi akurat . Eks es jest rów y dla rozkładu or al ego i ikt ie pyta dlaczego.
Zwróć ie jednak uwagę, że K> a zate eks es ie oże osiąg ąć wartoś i iejszej lu rów ej -3.
Powered by TCPDF (www.tcpdf.org) Powered by TCPDF (www.tcpdf.org)