ść liczebno

(1)

Rachunek Prawdopodobieństwa i statystyka W5: Wprowadzenie do statystycznej analizy danych

Dr Anna ADRIAN Paw B5, pok 407 adan@agh.edu.pl

(2)

Wprowadzenie

Podstawowe cele analizy zbiorów danych

• Uogólniony opis poszczególnych cech/zmiennych- statystyka opisowa; analiza struktury zbioru danych - rozkłady empiryczne zmiennej

• Odkrywanie i badanie zależności występujących pomiędzy zmiennymi

• Weryfikacja hipotez statystycznych

Narzędzia: metody statystyki matematycznej

pakiety statystyczne Statgraph, Statistica moduły statystyczne w arkuszach

kalkulacyjnych, bazach danych

(3)

Temat: Wstępna analiza danych

(4)

Na czym polega

Wstępna analiza danych:

– Ile danych:

• ile zmiennych (cech: Płeć, wykształcenie, staż, zarobki)

• ile przypadków (1255) – Jakie typy

• dane jakościowe (płeć, wykształcenie)

• dane ilościowe (staż pracy, płaca)

– Ile braków, jakie, jak je zastąpić

(5)

Statystyki opisowe

(6)

Statystyka Opisowa

Parametrami statystycznymi ( statystykami) nazywamy liczby umożliwiające sumaryczny opis zbiorowości.

Parametry te tak dokładnie charakteryzują zbiorowość, że mogą być wykorzystane do porównywania różnych zbiorowości.

Wyróżnia się następujące grupy parametrów statystycznych:

• Miary położenia (klasyczne i pozycyjne)

• Miary zmienności

• Miary asymetrii i koncentracji

(7)

Miary położenia

Średnie

– arytmetyczna, ważona – harmoniczna

– geometryczna

Moda- dominanta Kwantyle

– kwartyl pierwszy

– mediana (kwartyl drugi) – kwartyl trzeci

– decyl

– percentyl

(8)

Estymatory punktowe parametrów statystycznych

Obliczanie wartości średnich

∑

=

ⁿ

i

x

i

x n

1

1 ∑

∑

=

= _n

i

i n

i

i i

w w x

x

1 1

Średnia

arytmetyczna

Średnia ważona, gdzie wagi w

_i

>0

n n

g x x x

x = ₁ ₂ ...

Średnia

geometryczna

∑

=

= _n

i i

h

x x n

1

1 Średnia harmoniczna

(9)

Moda (dominanta)

m m

m

m m

o

o h

n n

n x n

M ( ₁ ) ( ₁ )

1 +

−

− − +

− + −

=

W rozkładach empirycznych określa się dominantę (modę), tj. najczęściej występującą wartość cechy

gdzie

x

₀

- dolna granicą przedziału w którym występuje moda, h

_m

- rozpiętość przedziału klasowego,

n

_m

, n

_m-1

, n

_m+1

- liczebności odpowiednio przedziału z modą,

poprzedniego i następnego

(10)

Graficzne wyznaczanie mody

histogram

0 5 10 15 20 25 30

6 12 18 24 35 36 42 48 54

w ie k

liczebność

Mo

(11)

Mediana –wzór interpolacyjny dla zmiennej ciągłej

 

 



 −

+

= ∑

⁻

= 1

2

1

m

i

i m

m

n n

n x h

Me

gdzie

x

_m

- dolna granica przedziału zawierającego medianę

h

_m

,n

_m

- odpowiednio rozpiętość i liczebność przedziału mediany Medianą rozkładu empirycznego Me nazywamy taką wartość cechy, że co najmniej połowa jednostek zbiorowości ma

wartość cechy nie większą niż Me i jednocześnie połowa jednostek ma wartość cechy nie mniejszą niż Me.

Czyli dystrybuanta empiryczna F

_n

(Me) ≥ 1/2

Dla zmiennej losowej ciągłej medianę oblicza się wg wzoru:

(12)

Mediana

25% wartości 25% wartości 25% wartości 25% wartości

Mediana

Q1 Q3

Rozstęp

Rozstęp kwartylowy

min max

Wzór Pearsona na relacje pomiędzy Mo, Me, oraz

dla rozkładów symetrycznych i umiarkowanie asymetrycznych

) (

3 x Me

Mo

x − = −

(13)

Kwantyle

• Kwantylem rzędu p, gdzie 0<p<1, w rozkładzie empirycznym nazywamy taką wartość zmiennej x_p, dla której, jako pierwszej , dystrybuanta empiryczna spełnia relację F(x_p) ≥ p,

• tzn., że prawdopodobieństwo przyjęcia przez zmienną wartości nie większych od x_p wynosi co najmniej p, a wartości nie

mniejszych x_p wynosi co najmniej 1-p

• Mediana - Kwantyl rzędu 1/2

• Kwartyl - Kwantyl rzędu k/4, gdzie k=1,..,3

• Decyl – Kwantyl rzędu k/10, gdzie k=1,...,9

• Percentyl – Kwantyl rzędu k/100, gdzie k=1,...,99;.

Percentyl jest wielkością określającą jaki procent obserwacji (wyników) znajduje się poniżej zadanej wartości x_p

(14)

Miary zmienności

• Miary zmienności dzielą się na miary klasyczne i pozycyjne.

• miary pozycyjne : rozstęp, odchylenie ćwiartkowe, współczynnik zmienności

• miary klasyczne: wariancja, odchylenie

standardowe, odchylenie przeciętne,

współczynnik zmienności

(15)

Odchylenie ćwiartkowe

• Kwartyle są wykorzystywane do określenia pozycyjnej miary zróżnicowania, nazywanej odchyleniem ćwiartkowym, którym jest

wielkość Q, określona wzorem

2

1 3 Q

Q = Q −

(16)

Miary zmienności

Rozstęp- najprostsza miara zmienności

R=x

_max

– x

_min

Odchylenie ćwiartkowe

Odchylenie przeciętne

Współczynnik zmienności

2

1

3

Q

Q = Q −

n x x

n

x x

x d x

n

i

i n

∑

=

−

− = +

+

=

¹

− L

¹

x

V

_d

= d

(17)

Klasyczne miary zmienności

2 1

2 1 ( )

x n x

s

n

i

i −

= ∑

=

Wariancja

Odchylenie standardowe

2 1

) 1 ∑ (

=

−

=

ⁿ

i

x

n x s

x V

_s

= s

Współczynnik zmienności - klasyczny

(18)

Miary skośności / asymetrii

Miarą stopnia i kierunku asymetrii jest klasyczny współczynnik asymetrii g, obliczany według wzoru:

gdzie

s jest odchyleniem standardowym

A

₃

jest trzecim momentem centralnym rozkładu empirycznego

3 3

s g = A

i r

i

x n

n x

A

³

1

3

1 ( )

∑

=

−

=

(19)

Miary skośności / asymetrii

Stwierdzono, że jedynie w przypadku bardzo

silnej asymetrii współczynnik A przekracza wartość 1

Niemianowany współczynnik asymetrii (skośności) A stosowany do porównań asymetrii wielu rozkładów

s

Mo A = x −

gdy:

A=0 rozkład symetryczny

A<0 asymetria lewostronna- wydłużone lewe ramie rozkładu

A<0 asymetria prawostronna wydłużone prawe ramie rozkładu

(20)

Cechy statystyczne i ich rodzaje

• Cechy, którymi wyróżniają się jednostki wchodzące

w skład zbiorowości, nazywa się cechami statystycznymi.

• Każda zbiorowość statystyczna ma dużo cech, wyboru cech dokonuje się na podstawie zakładanego celu badań. Należy wybierać takie

cechy, które stanowią istotną własność badanego zjawiska

• Typy cech

– cechy jakościowe – niemierzalne (np. kolor, sprawny-

niesprawny, ale jakościowymi mogą być też liczby np. nr piętra, )

– cechy ilościowe – mierzalne to takie, które dadzą się

wyrazić za pomocą jednostek miary w pewnej skali ( np.

wzrost [cm], waga [kg], udział[%]). Cecha mierzalna jest:

• ciągła, może przyjmować każdą wartość z określonego, skończonego przedziału liczbowego (np.odległość, ciężar, temperatura)

• dyskretna, skokowa przyjmuje wartości ze zbioru skończonego lub przeliczalnego (ilość wyrobów wadliwych, liczba

zatrudnionych w zawodzie).

(21)

Co to jest pomiar

• Pomiar jest procedurą przyporządkowywania liczb różnym wartościom zmiennej według ustalonej zasady.

• W naukach empirycznych analizowanie różnych cech staje się użyteczne wtedy gdy można mierzyć ich nasilenie

w różnych obiektach.

• Najprostszym przypadkiem pomiaru jest zliczanie.

• Typowym pomiarem jest pomiar długości ( odległości dwóch

punktów), polega on na policzeniu ile odcinków o znanej długości (1 cm, 1m, 1 cal) mieści się wzdłuż mierzonego przedmiotu

(odcinka)

• Jak mierzyć zmienne niemierzalne np. talent, agresję (liczba wulgaryzmów wypowiedzianych w jednostce czasu?),–

konstruujemy wskaźniki

(22)

Skale pomiaru

• Stanley Smith Stevens rozróżnił cztery skale pomiarowe:

– Najprostszym przykładem pomiaru jest klasyfikacja, czyli

nazywanie, dotyczy tylko zmiennych jakościowych, gdy brane pod uwagę kategorie są rozłączne, ponadto, gdy bierze się

pod uwagę wszystkie możliwe kategorie danej zmiennej, to podział jest wyczerpujący.

– Pomiar w skali porządkowej (rangowej) oznacza

uporządkowanie ze względu na nasilenie cechy. Tę skalę cechuje spójność ( jeśli x jest różny od y yo x<y lub x>y) i przechodniość (x<y i y<z to x<z)

– Przypisać jakiemuś pomiarowi rangę oznacza określenie jego miejsca w ustalonym porządku. Rangi oznaczają porządek a nie różnice pomiędzy kolejnymi pomiarami

(23)

Skale pomiaru cechy

• Skala nominalna –dotyczy cech jakościowych, operacją

pomiarową jest identyfikacja kategorii do której należy zaliczyć wynik, prowadzi do podziału zbioru na zbiory rozłączne ( np. samochody wg kolorów).

• Skala porządkowa – stosowana jest do badania cech których natężenie jest określane przez przymiotniki, pociąga za sobą porządkowanie lub uszeregowanie badanej zmiennej ( np. poniżej normy, w normie,

powyżej normy, albo za mały, mały, średni, duży, za duży)

• Skala równomierna (przedziałowa)-stosowania do pomiaru cech ilościowych, zakłada że zbiór wartości cechy składa się z liczb

rzeczywistych określona przez wskazanie stałej jednostki miary i relacji przyporządkowującej liczbę każdemu wynikowi obserwacji (czas

kalendarzowy, temperatura ^oC)

• Skala ilorazowa- posiada wszystkie właściwości skali przedziałowej ale pomiary wg tej skali charakteryzują się stałymi stosunkami i

bezwzględnym zerem, ma zastosowanie w fizyce, technice np.. czas jaki upłynął od chwili t₁do t₂

(24)

Dane jako wyniki badań

Wyniki obserwacji i pomiarów mogą być wyrażone w postaci:

– Tekstu (cechy jakościowe) – Liczb całkowitych

– Przedziałów liczbowych

Dane źródłowe zawierają się w:

– zbiorze,

– zbiorze uporządkowanym, zwanym szeregiem szczegółowym

– zbiorze podzielonym na klasy, zwanym szeregiem

rozdzielczym

(25)

Opracowanie materiału statystycznego Szeregi statystyczne

• Celem tych działań jest przejście od danych indywidualnych do danych zbiorowych.

• Materiał źródłowy należy odpowiednio posegregować

i policzyć, w wyniku otrzymuje się tzw. tablice robocze.

• Klasyfikacja danych musi być przeprowadzona:

– w sposób rozłączny, jednostki o określonych cechach muszą być jednoznacznie przydzielone do

poszczególnych klas

– W sposób zupełny, tzn. klasy muszą objąć wszystkie występujące cechy danej zbiorowość

• Technika zestawiania zależy od rodzaju skali pomiarowej

(26)

Szeregi statystyczne

szczegółowe rozdzielcze czasowe

Z cechą ilościową

skumulowane punktowe

przedziałowe

Z cechą jakościową

proste skumulowane proste

(27)

Szereg szczegółowy

• Badana cecha przyjmuje niewielką liczbę jednostek (mała grupa)

{x

₁

, .... ,x

_n}

• Wartości porządkuje się

– Rosnąco x

₁

< .... <x

_n

lub

– Malejąco x

₁

> .... >x

_n

(28)

Szereg czasowy,

dynamiczny, chronologiczny

Otrzymuje się w wyniku grupowania

• typologicznego (wyodrębniającego różne jakościowo cechy)

• wariancyjnego (porządkującego zbiorowość przez łączenie w klasy jednostek mających odpowiednie wartości cech)

• gdy podstawą grupowania jest zmiana

badanego zjawiska w czasie

(29)

Wykres dla szeregu typologicznego;

poziom wykształcenia

(30)

Kategoryzacja według dwóch zmiennych

Jaki jest stan wykształcenia kobiet i mężczyzn

(31)

Analiza zmian w czasie- budowa szeregu czasowego

Lata Liczba pa cje ntów

1993 21

1994 59

1995 97

1996 116

1997 262

1998 281

1999 315

2000 336

2001 497

2002 562

2003 1025

2004 1210

2005 1167

2006 1511

Wykres dla szeregu czasowego

Liczba pacjentów zarejestrowanych rocznie w przychodni uzależnień od komputera

0 200 400 600 800 1000 1200 1400 1600

1992 1994 1996 1998 2000 2002 2004 2006 2008

(32)

Szereg rozdzielczy

Przy budowie szeregu rozdzielczego wyróżnia się trzy etapy:

• Ustalenie liczby klas oraz wielkości przedziałów klasowych

• Przyporządkowanie danych przyjętym przedziałom klasowym

• Zliczanie liczby jednostek w każdej klasie

Liczba klas k zależy przede wszystkim od liczby obserwacji n

Stosowane bywają następujące wzory pomocne do

szacowania liczby przedziałów budowanego szeregu rozdzielczego:

k=1+3,322 log n lub

n

k =

(33)

Szereg rozdzielczy – uwagi praktyczne

• Każdy przedział klasowy ma dolną i górną granicę

• Różnice pomiędzy tymi granicami nazywa się rozpiętością (szerokością) przedziału klasowego.

• Przy równej rozpiętości przedziałów, liczebności są porównywalne.

• Częstość jest to iloraz liczby elementów zbioru

zakwalifikowanych do danej klasy przez liczbę wszystkich elementów zbioru

Uwaga:

Ostatecznie badacz podejmuje decyzje o wartościach granic, szerokości przedziałów klasowych i ich liczbie,

kierując się wiedzą merytoryczną o badanym zjawisku, Przykład:

W kartotekach pacjentów notowana jest data urodzenia, ta informacja pozwala zbadać cechę jaką jest ich wiek.

(34)

Szereg rozdzielczy prosty – analiza struktury wiekowej pacjentów

dolna górna

LP a b x

_i

n

_i

ni/n

1 3 9 6 3 0,03

2 9 15 12 12 0,11

3 15 21 18 16 0,15

4 21 27 24 18 0,17

5 27 33 30 26 0,25

6 33 39 36 17 0,16

7 39 45 42 8 0,08

8 45 51 48 4 0,04

9 51 57 54 1 0,01

Suma 105 1

Częstość Numer

klasy

Granice przedziałów

klasowych Środek przedziału

Liczność

klasy

(35)

Wykresy

histogram

0 5 10 15 20 25 30

6 12 18 24 35 36 42 48 54

w iek

liczebność

(36)

Histogram zmiennej płaca brutto

zmiana liczby klas

(37)

Zmiana dolnej wartości pierwszej klasy

Od zera Od minimum

(38)

Badania statystyczne - rodzaje

Badania pełne

obejmują wszystkie elementy populacji, np. na przeglądzie uzębienia danego pacjenta można określić dokładną liczbę zębów i ich stan

Badania częściowe – badania elementów próbki statystycznej, mają szerokie zastosowania i są:

• konieczne w przypadku populacji nieskończonej,

• stosowane w populacjach skończonych bardzo licznych

• stosowane w przypadkach badań niszczących

(39)

Populacja i próba statystyczna

Populacja jest to zbiór wszystkich elementów

reprezentujących analizowany problem (zjawisko).

Może być zbiorem skończonym, przeliczalnym lub nieprzeliczalnym.

Próba statystyczna – to podzbiór właściwy elementów z

badanej populacji

(40)

Losowy dobór próby polega na tym, że o fakcie

znalezienia się poszczególnych elementów populacji w próbie decyduje przypadek.

Jest to taki sposób wyboru przy którym spełnione są następujące dwa warunki;

• każda jednostka populacji ma dodatnie, znane prawdopodobieństwo znalezienia się w próbie

• istnieje możliwość ustalenia prawdopodobieństwa znalezienia się w próbie dla każdego zespołu

elementów populacji

Badania statystyczne – próby losowe

(41)

ść liczebno

Rachunek Prawdopodobieństwa i statystyka W5: Wprowadzenie do statystycznej analizy danych

Wprowadzenie

Temat: Wstępna analiza danych

Na czym polega

Wstępna analiza danych:

– Ile danych:

• ile zmiennych (cech: Płeć, wykształcenie, staż, zarobki)

• ile przypadków (1255) – Jakie typy

• dane jakościowe (płeć, wykształcenie)

• dane ilościowe (staż pracy, płaca)

– Ile braków, jakie, jak je zastąpić

Statystyki opisowe

Statystyka Opisowa

Parametrami statystycznymi ( statystykami) nazywamy liczby umożliwiające sumaryczny opis zbiorowości.

Parametry te tak dokładnie charakteryzują zbiorowość, że mogą być wykorzystane do porównywania różnych zbiorowości.

Wyróżnia się następujące grupy parametrów statystycznych:

• Miary położenia (klasyczne i pozycyjne)

• Miary zmienności

• Miary asymetrii i koncentracji

Miary położenia

Średnie

– arytmetyczna, ważona – harmoniczna

– geometryczna

Moda- dominanta Kwantyle

– kwartyl pierwszy

– mediana (kwartyl drugi) – kwartyl trzeci

– decyl

– percentyl

Estymatory punktowe parametrów statystycznych

Obliczanie wartości średnich

∑

=

x

x n

1

∑

∑

=

w w x

x

Średnia

arytmetyczna

Średnia ważona, gdzie wagi w

>0

n n

g x x x

x = 1 2 ...

Średnia

geometryczna

∑

=

= n

i i

h

x x n

1

1

Średnia harmoniczna

Moda (dominanta)

m m

m m

m

m m

o

o h

n n

n n

n x n

M ( 1 ) ( 1 )

1

+

−

− − +

− + −

=

W rozkładach empirycznych określa się dominantę (modę), tj. najczęściej występującą wartość cechy

gdzie

x

- dolna granicą przedziału w którym występuje moda, h

x = ₁ ₂ ...

= _n

M ( ₁ ) ( ₁ )