• Nie Znaleziono Wyników

Podstawy statystyki praktycznej

N/A
N/A
Protected

Academic year: 2022

Share "Podstawy statystyki praktycznej"

Copied!
33
0
0

Pełen tekst

(1)Podstawy statystyki praktycznej Wykßladowca: Tomasz Elsner Konsultacje (pok. 305): poniedziaßlek 1000 1100 oraz sroda 730 830 Zasady zaliczenia: laboratorium  rozliczone wszystkie sprawozdania + aktywnosc cwiczenia  dwa kolokwia na wykßladzie (20.04 i 8.06) + aktywnosc wykßlad  egzamin pisemny Literatura: D. Moore, G. McCabe, B. Craig, Introduction to the Practice of Statistics. listy zada« dost

(2) epne na stronie:. www.math.uni.wroc.pl/~elsner.

(3) Statystyka. Statystyka Statystyka to nauka zbierania i interpretowania danych. Dane Dane to zebrane informacje o rzeczywistych osobach, przedmiotach lub zdarzeniach. Dane to nie s

(4) a abstrakcyjne liczby, tylko liczby, kt ore maj

(5) a kontekst. Dane charakteryzuj

(6) a si

(7) e losow

(8) a zmiennosci

(9) a (chcemy odr oz nic sygnaßl od losowego szumu)..

(10) Zbieranie danych. Badanie pewnych parametr ow danej populacji spis powszechny (dane kompletne) probkowanie (dane cz

(11) esciowe, reprezentatywne) Badanie zale znosci mi

(12) edzy parametrami: obserwacja eksperyment.

(13) Przykßlady. Przykßlad 1 Przeprowadzamy sonda z (i badanie) losowo wybranej grupy os ob, by odpowiedziec na pytanie: Czy aktywnosc zyczna powoduje obni zenie poziomu cholesterolu? Eksperyment musi uwzgl

(14) edniac: r oz ny naturalny poziom cholesterolu u badanych ludzi, korelacj

(15) e mi

(16) edzy aktywnosci

(17) a zyczn

(18) a a zdrowym trybem z ycia (dieta, u zywki itp.), wpßlyw aktywnosci zycznej na inne czynniki (np. apetyt), problem obiektywnego oznaczenia aktywnosci zycznej..

(19) Przykßlady. Przykßlad 2 Eksperyment mikromacierzowy porownuje kom orki rakowe i normalne. Czy dwukrotnie wy zszy zaobserwowany poziom ekspresji genu dowodzi zwi

(20) azku aktywnosci genu z chorob

(21) a? Czy wykonano powt orzenie eksperymentu i czy wyniki w kolejnych powt orzeniach s

(22) a podobne? Ile powt orze« nale zy wykonac? Jak ustalic wartosc krytyczn

(23) a wzrostu poziomu ekspresji genu?.

(24) Przykßlady. Przykßlad 3 Pewien gen z yta o dw och allelach ma trzy genotypy  AA, Aa, aa. W ramach eksperymentu podzielono kßlosy z yta na odpowiednie trzy grupy i mierzono przeci

(25) etn

(26) a wydajnosc ka zdej grupy. Czy r oz nice w wydajnosci s

(27) a wystarczaj

(28) aco du ze, aby stwierdzic bliskosc genu odpowiadaj

(29) acego za wydajnosc?.

(30) Przykßlady. Przykßlad 4 Dziennikarz przytoczyßl badania m owi

(31) ace, z e 80% pieszych b

(32) ed

(33) acych oarami nocnych wypadk ow samochodowych nosißlo ciemne ubrania, a 20%  jasne ubrania. Wyci

(34) agn

(35) aßl z tego wniosek, z e w nocy bezpieczniej jest nosic jasne ubrania. Czy przeprowadzone badania upowa zniaj

(36) a do takiej konkluzji?.

(37) Przykßlady. Przykßlad 5 Reakcja owiec na bakterie w

(38) aglika  eksperyment Pasteura. Reakcja smierc prze zycie procent przetrwania. Szczepione 0 25 100%. Brak zmiennosci  silna konkluzja.. Nie szczepione 25 0 0%.

(39) Przykßlady Przykßlad 6 Rozwi oj raka w

(40) atroby u myszy. Wynik rak w

(41) atroby zdrowa razem procent przetrwania. Zaka zone bakteri

(42) a E.coli 8 5 13 62%. Wolne od zarazk ow 19 30 49 39%. Du za zmiennosc  sßlaba konkluzja. Jak du za musi byc pr oba, bysmy w oparciu o ni

(43) a mogli dowiesc wpßlywu czynnika na wynik eksperymentu?.

(44) Proces naukowy/statystyczny. 1. Pytanie naukowe. 2. Planowanie eksperymentu. 3. Eksperyment / zbieranie danych. 4. Analiza danych. 5. Wnioski statystyczne. 6. Wnioski naukowe.

(45) Populacja Populacja (population) Populacja do zbi or (ludzi, zwierz

(46) at, przedmiotow) podlegaj

(47) acy badaniu statystycznemu. Obserwacja (case) Obserwacja to element populacji, kt ory poddajemy badaniu (typowe oznaczenia: x , y , z lub dla wielokrotnych obserwacji x1 , x2 , . . . , xn ). Pr oba (sample) Pr oba to zbi or obserwacji. Pr oba powinna byc reprezentatywna dla populacji. Rozmiar pr oby to liczba obserwacji (typowe oznaczenia: n lub n1 , n2 )..

(48) Zmienne. Zmienna (variable) Zmienna to funkcja, kt orej dziedzin

(49) a jest zbior obserwacji, np. wysokosc, kolor, wyksztaßlcenie (typowe oznaczenia: X , Y , Z ). Etykieta (label) Etykieta, to specjalna zmienna, kt ora sßlu zy jedynie do rozr oz niania poszczeg olnych obserwacji, np. nr indeksu, nazwisko, nr klienta..

(50) Rodzaje zmiennych Zmienne jakosciowe (categorical variables) Zmienna jakosciowa przyporz

(51) adkowuje ka zd

(52) a obserwacj

(53) e do jednej z grup (kategorii). Zmienne jakosciowe dzielimy na: porz

(54) adkowe  kategorie s

(55) a uporz

(56) adkowane wedßlug nasilenia mierzonej cechy, np. nigdyrzadkoczasamicz

(57) estozawsze; nie porz

(58) adkowe, np. pßlec, kolor, system operacyjny komputera. Zmienne ilosciowe (quantitative variables) Zmienna ilosciowa ka zdej obserwacji przypisuje liczb

(59) e. Zmienne ilosciowe dzielimy na: ci

(60) agßle  wartosc mo ze byc dowoln

(61) a liczb

(62) a rzeczywist

(63) a z pewnego przedziaßlu, dyskretne  zmienna mo ze przyjmowac tylko niekt ore wartosci, np. liczby caßlkowite..

(64) Zmienne ilosciowe. Zmienne ilosciowe pozwalaj

(65) a na wykonywanie operacji arytmetycznych (np. wyliczanie sredniej). Czasami zmienne jakosciowe porz

(66) adkowe traktujemy jako zmienne ilosciowe (np. ankiety ewaluacyjne). Zmienne ilosciowe musz

(67) a miec podan

(68) a jednostk

(69) e..

(70) Zbi or danych. Zbi or danych musi r ownie z zawierac: informacje o caßlej populacji (np. klienci wybranego banku, studenci pewnego kierunku studiow, mieszka«cy Wrocßlawia), informacje o sposobie wyboru pr oby z populacji, informacje o sposobie zbierania danych, precyzyjn

(71) a denicj

(72) e zmiennych (np. pytania zadawane w ankiecie), denicje kategorii (dla zmiennych jakosciowych) lub jednostki (dla zmiennych ilosciowych)..

(73) Wnioskowanie statystyczne. Wnioskowanie statystyczne (statistical inference) Wnioskowanie statystyczne to wnioskowanie o populacji w oparciu o prob

(74) e..

(75) Prezentacja danych jakosciowych. 60 40 20. inne. Opera. Edge. IE. Safari. Firefox. Chrome. 0.

(76) Prezentacja danych ilosciowych 8 6 4. 220. 200. 180. 160. 140. 120. 100. 80. 0. 60. 2. 40. Cz

(77) estosc 1 4 7 8 8 3 2 1 0 2 36. 20. Serum CK 2039 4059 6079 8099 100119 120139 140159 160179 180199 200219 Suma.

(78) Histogram. Jak wybierac klasy? klasy musz

(79) a byc rozßla

(80) czne rozmiary (szerokosci) klas zwykle s

(81) a jednakowe u zywamy wygodnych (okr

(82) agßlych) granic klas u zywamy 515 klas dla umiarkowanych zbior ow danych (n ≤ 50) lub wi

(83) ecej, gdy pr oba jest du za Za maßla szerokosc klas  wykres postrz

(84) epiony, za du za  tracimy informacje Czasami rysujemy histogramy cz

(85) estosci wzgl

(86) ednej (cz

(87) estosc/n)  u zyteczne, gdy chcemy porownac kilka pr ob r oz nych rozmiarow..

(88) Prezentacja danych ilosciowych 8 6 4. 220. 200. 180. 160. 140. 120. 100. 80. 0. 60. 2. 40. Cz

(89) estosc 1 4 7 8 8 3 2 1 0 2 36. 20. Serum CK 2039 4059 6079 8099 100119 120139 140159 160179 180199 200219 Suma.

(90) Prezentacja danych ilosciowych 8 6 4. 220. 140. 120. 100. 80. 0. 60. 2. 40. Cz

(91) estosc 1 4 7 8 8 3 5 36. 20. Serum CK 2039 4059 6079 8099 100119 120139 140219 Suma.

(92) Prezentacja danych ilosciowych 8 6 4. 220. 140. 120. 100. 80. 0. 60. 2. 40. Cz

(93) estosc 1 4 7 8 8 3 5 36. 20. Serum CK 2039 4059 6079 8099 100119 120139 140219 Suma.

(94) Opis histogramu Ksztaßlt Histogram symetryczny, Histogram asymetryczny, skosny w lewo/prawo.  Srodek Moda (gßlowny wierzchoßlek): histogram jedno- / dwumodalny;  Srednia Mediana Rozrzut Rozst

(95) ep Rozst

(96) ep mi

(97) edzykwartylowy Odchylenie standardowe / wariancja Wsp oßlczynnik zmiennosci.

(98) Statystyka. Statystyka (statistic) Statystyka to funkcja proby. Przykßlady: minimum, maximum, srednia, mediana, kwartyle itp. Oznaczenia: Y¯ to funkcja (zmienna), y¯ to wartosc dla konkretnej proby.

(99)  Srednia i mediana  Srednia (mean)  Sredni

(100) a zbioru obserwacji x1 , . . . , xn nazywamy liczb

(101) e:. x¯ =. x1 + · · · + xn n. Mediana (median) Median

(102) a uporz

(103) adkowanego zbioru obserwacji x1 ≤ · · · ≤ xn nazywamy liczb

(104) e: ( xn+1/2 , gdy n nieparzyste M= 1 n n 2 (x 2 + x 2 +1 ), gdy n parzyste.

(105)  Srednia i mediana mediana jest odporna (niewra zliwa na obserwacje odstaj

(106) ace), srednia jest nieodporna (obserwacje odstaj

(107) ace maj

(108) a du zy wpßlyw), srednia jest lßatwiejsza do wyliczenia (do jej wyliczenia wystarczy znajomosc sumy zmiennych), mediana dzieli pole histogramu na poßlow

(109) e, srednia stanowi srodek ci

(110) ez kosci histogramu srednia jest cz

(111) esciej wykorzystywana do testowania i estymacji (choc obie miary poßlo zenia s

(112) a jednakowo wa zne) dla symetrycznego histogramu srednia i mediana s

(113) a zbli zone; dla histogramu skosnego w prawo srednia jest zwykle wi

(114) eksza ni z mediana,.

(115) Odpornosc. Przykßlad 1 Dane: 6.3 4.9 5.2  Srednia x¯ = 6.24. 9.1. 6.7. 8.4 4.1 5.9. 8.7. 3.1. Mediana M = 6.1 Przykßlad 2 (bßla

(116) d w zapisie danych) Dane: 6.3 4.9 52 9.1 6.7  Srednia x¯ = 10.92 Mediana M = 6.5. 8.4. 4.1. 5.9 8.7 3.1.

(117) Kwartyle. Kwartyl (quartile) Pierwszym kwartylem Q1 uporz

(118) adkowanego zbioru obserwacji x1 ≤ · · · ≤ xn nazywamy median

(119) e obserwacji le za

(120) cych na lewo od mediany zbioru. Trzecim kwartylem Q3 nazywamy median

(121) e obserwacji le za

(122) cych na prawo od mediany caßlego zbioru. Drugi kwartyl to mediana Q2 = M . Przykßlad 3.1 4.1 4.9 5.2 5.9 | 6.3 6.7 8.4 8.7 St

(123) ad: Q1 = 4.9 Q2 = M = 6.2 Q3 = 8.4.. 9.1.

(124) Wykres pudeßlkowy Poni zsze 5 liczb dzieli zbi or obserwacji na 4 rownoliczne cz

(125) esci:. min. Q1. M. Q3. max. Przedstawiamy to gracznie w postaci wykresu pudeßlkowego:. 1. 3. 4. 5. 6. 7. 8. 9.

(126) Obserwacje odstaj

(127) ace. Obserwacje odstaj

(128) ace mog

(129) a wynikac z bßle

(130) du w zapisie danych, bßle

(131) du maszyny, zmiany warunkow eksperymentu. Typowo jako obserwacje odstaj

(132) ace traktuje si

(133) e obserwacje nie mieszcz

(134) ace si

(135) e w przedziale:. [Q1 − 1.5 · IQR, Q3 + 1.5 · IQR].

(136) Miary rozrzutu. Miary rozrzutu sßlu za

(137) do szacowania zmiennosci danych. rozst

(138) ep (spread) = max − min (bardzo wra zliwy na obserwacje odstaj

(139) ace, nieprzydatny do testowania) rozst

(140) ep mi

(141) edzykwartylowy (interquartile range IQR) = Q3 − Q1 (rozst

(142) ep srodkowych 50% obserwacji) odchylenie standardowe (standard deviation SD) / wariancja (variance) wsp oßlczynnik zmiennosci (coecient of variation CV) =. σ µ.

(143) Pr obkowe odchylenie standardowe Odchylenie standardowe (standard deviation) Pr obkowym odchyleniem standardowym nazywamy liczb

(144) e: v u n uX (yi − y¯i )2 s=t n−1 i=1. Wariancja (variance) Pr obkow

(145) a wariancj

(146) a nazywamy liczb

(147) e: n X (yi − y¯i )2 s = n−1. 2. i=1.

(148) Nier ownosc Czebyszewa. Nier ownosc Czebyszewa Mniej ni z k12 wszystkich obserwacji znajduje si

(149) e w odlegßlosci wi

(150) ekszej ni z kσ od sredniej. Wniosek Przynajmniej 75% obserwacji le zy w odlegßlosci nie wi

(151) ekszej ni z 2σ od sredniej. Przynajmniej 89% obserwacji le zy w odlegßlosci nie wi

(152) ekszej ni z 3σ od sredniej..

(153)

Cytaty

Powiązane dokumenty

SD (standard deviation) — odchylenie standardowe; indeks masy mięśnia lewej komory stopniowo wzrasta w ciągu 2-letniego leczenia tyroksyną u kobiet chorych na raka tarczycy i wzrost

– tygodnie pobytu chorego w oddziale/weeks of the patient's stay in the ward, X – średnia/mean, SD – odchylenie standardowe/standard deviation, UCSN – uszkodzenie centralnego

kręgowo-podstawnego; LACI (lacunar infarct) — zawał lakunarny; SD (stan- dard deviation) — odchylenie standardowe; WFR (“Repty” Functional Index) — Wskaźnik

6. Wiadomo, ˙ze odchylenie standardowe wagi noworodk´ow wynosi 500 g. Jaki powinien by´c rozmiar pr´oby, ˙zeby standardowe odchylenie ´sredniej wagi noworodk´ow w pr´obie by

Wszystkie liczby powinny być drukowane z dokładnością do 6 cyfr znaczących, a kolumny powinny mieć jednakową szerokość taką, aby między dwiema kolejnymi liczbami w tym

Najlepszy jest typ regresji sześciennej, bo przez 4 punkty przechodzi dokładnie jedna linia, będąca wykresem wielomianu 3 stopnia (podobnie jak przez 3 niewspółliniowe

Trzy klasy A, B, C brały udział w sprawdzianie z matematyki. Klasa A liczy 30 uczniów i średnia liczba punktów uzyskanych ze sprawdzianu wynosi 40. Klasa B liczy 36 uczniów i

poznasz postać krzywej Gaussa i jej podstawowe własności, dowiesz się, jakie jest znaczenie parametrów krzywej,.. zrozumiesz, dlaczego odchylenie standardowe jest tak