Materiały wspomagające wykład ze statystyki

(1)

Materiały wspomagające wykład ze statystyki

Maciej Wolny

(2)

T1: Zajęcia organizacyjne

Agenda 1. Program wykładu

2. Cel zajęć

3. Nabyte umiejętności 4. Literatura

5. Warunki zaliczenia

(3)

Program wykładu

T1: Zajęcia organizacyjne [1h]

T2: Przedmiot i zadania statystyki [2h]

T3: Metody analizy rozkładu cechy [4h]

T4: Badanie współzależności zjawisk [4h]

T5: Badanie dynamiki zjawisk [4h]

T6: Zmienne losowe i ich podstawowe rozkłady [3h]

T7: Rozkład normalny [2h]

T8: Twierdzenia graniczne [1h]

T9: Próba losowa i rozkłady statystyk z próby [2h]

T10: Estymatory i estymacja przedziałowa [3h]

T11: Hipotezy statystyczne i ich weryfikacja [4h]

(4)

Cel

Zaznajomienie z podstawowymi metodami procesu badania statystycznego

umożliwiającymi wykrywanie prawidłowości struktury, współzależności i dynamiki zjawisk

masowych oraz nauczenie wnioskowania

statystycznego

(5)

Umiejętności

• czytanie, przetwarzanie i przedstawianie danych statystycznych

• określanie i obliczanie charakterystyk badanych zbiorowości

• zastosowanie estymatorów

• weryfikacja hipotez parametrycznych i nieparametrycznych

• wnioskowanie na podstawie przeprowadzonych weryfikacji

• konstruowanie modeli regresji i ich zastosowanie w ekonomii

• prognozowanie na podstawie analizy dynamiki zjawisk

(6)

Literatura

[1] Ignatczyk W., Chromińska M., Statystyka. Teoria i zastosowanie, Wyd. WSB, Poznań 1999

[2] Ostasiewicz S., Rusnak Z., Siedlecka K.,

Statystyka. Elementy teorii i zadania, Wyd. AE we Wrocławiu, Wrocław 1999

[3] Sobczyk M., Statystyka, PWN, Warszawa 1997

(7)

Warunki zaliczenia

Egzamin 1. Pozytywna ocena z ćwiczeń

2. Egzamin pisemny

• 50% zadania

• 50% teoria 3. Ocena

• 60-68% dst

• 68-76% dst plus

• 76-84% db

• 84-92% db plus

• 92-100% bdb

(8)

T2: Przedmiot i zadania statystyki

Agenda 1. Definicja

2. Geneza

3. Podstawowe pojęcia i zagadnienia

4. Proces badania statystycznego

(9)

Definicja

Statystyka jest to nauka o metodach badania zjawisk masowych, nauka traktująca o metodach ilościowych badania prawidłowości zjawisk masowych

Zjawiska masowe to zjawiska, które występują często (np. zgony, urodzenia, małżeństwa, etc.)

(10)

Geneza

Statystyka – łac. status – państwo

Etapy rozwoju badania zjawisk masowych:

• do XVII w. – okres ewidencji i zliczania (dane, informacje)

• XVII – XVIII w. – opisywanie zbiorowości według wzorca podanego przez państwoznawców (wykrycie prawidłowości w zjawiskach masowych np. zgonach)

• od XVIII w. – wprowadzenie rachunku prawdopodobieństwa (rozwój metod statystycznych opartych na matematyce)

(11)

Podstawowe pojęcia (1)

Statystykę dzielimy na:

- opisową, która ukazuje metody gromadzenia, opracowania i prezentacji danych wraz z ich sumarycznym opisem, przy wykorzystaniu właściwych narzędzi statystycznych

- matematyczną zwaną wnioskowaniem statystycznym, która powstała na gruncie rachunku prawdopodobieństwa

„Statystyka” ma zasadniczo cztery znaczenia:

• metoda poznawania zjawisk masowych

• nauka badająca zjawiska masowe

• zbiór liczb charakteryzujący zbiorowość (np. statystyka ludności)

• parametr opisowy rozumiany jako pewna wielkość

charakterystyczna (np. średnia arytmetyczna, odchylenie standardowe)

(12)

Podstawowe pojęcia (2)

Przedmiot badania statystycznego

Zbiorowością statystyczną nazywamy zespół jednostek objętych

badaniem statystycznym, posiadających jedną lub kilka cech wspólnych (stałych) oraz wiele cech je różniących

Zbiorowość statystyczna, populacja, masa statystyczna

Zbiorowość jednorodna to zbiorowość, którą tworzą jednostki niezróżnicowane pod względem cechy stałej

Jednostka statystyczna to podstawowy element zbiorowości

statystycznej, który musi być jednoznacznie określony pod względem rzeczowym (kogo lub co badamy), czasowym (kiedy badamy) i

przestrzennym (gdzie, na jakim terytorium badamy)

(13)

Podstawowe pojęcia (3)

Cechami statystycznymi nazywamy własności jednostek statystycznych

stałe zmienne

rzeczowe

przestrzenne czasowe

rzeczowe

przestrzenne czasowe

ilościowe jakościowe

skokowe ciągłe

Źródło: [1]

(14)

Podstawowe pojęcia (4)

Źródło: [2]

Szereg statystyczny to dane (liczby) odpowiednio uporządkowane otrzymane w wyniku przeprowadzonego badania statystycznego

szczegółowy rozdzielczy czasowy

momentów okresów z cechą

niemierzalną (jakościową) z cechą

mierzalną (ilościową)

geograficzne inne przedziałowe

punktowe

skumulowane proste

(15)

Szereg szczegółowy

Uporządkowany ciąg wartości badanej cechy statystycznej

Np. wzrost [cm] w pewnej grupie studentów

159; 159,5; 160; 161; 161; 162; 162; 162,5; 162,5; 163; 163; 163;

163; 163,5; 163,5; 164; 165; 165; 167; 167;167,5; 168; 168; 168;

168,5; 169; 169; 169; 169; 169,5; 169,5; 170; 170; 170,5; 170,5;

170,5; 170,5; 171; 172; 172,5; 173; 174; 175; 176; 176; 176,5; 177;

177; 177; 178; 178,5; 179; 179; 179; 180; 180; 181; 181; 182

(16)

Szereg rozdzielczy punktowy

Szereg rozdzielczy stanowi zbiorowość statystyczną podzieloną na części (klasy) według określonej cechy z podaniem liczebności każdej z wyodrębnionych klas

x_i n_i

170 12

170,5 14

171 16

171,5 18

172 18

172,5 17

173 18

173,5 15

174 15

174,5 10

(17)

Szereg rozdzielczy przedziałowy

x_i n_i

156-160 2 160-164 10 164-168 12 168-172 12 172-176 20 176-180 22 180-184 15 184-188 10 188-192 4 192-196 1

n k ≈

n log 322

, 3 1

k ≈ +

166 x

i -

x

3 i

& =

&

np.

przedziału tego

-

środek

(18)

Prezentacja graficzna szeregów

Histogram jest to zbiór prostokątów, których podstawy, wyznaczone na osi odciętych, stanowią rozpiętości poszczególnych przedziałów klasowych, natomiast wysokości są określone na osi rzędnych przez liczebności odpowiadające przedziałom klasowym

Diagram jest łamaną powstałą przez połączenie punktów, których współrzędnymi są środki przedziałów klasowych i odpowiadające im liczebności

0 5 10 15 20 25

155 160 165 170 175 180 185 190 195

(19)

Proces badania statystycznego

Badanie statystyczne jest procesem złożonym obejmującym całokształt czynności badawczych zmierzających do poznania zjawisk masowych za pomocą metody statystycznej. Proces ten obejmuje:

• przygotowanie badania

• obserwację statystyczną

• opracowanie statystyczne

• analizę statystyczną

(20)

Przygotowanie badania

• sformułowanie problemu badawczego

• określenie i poznanie przedmiotu badania – celu i zakresu badania oraz postawienie hipotez roboczych, które będą weryfikowane

• wybór metody obserwacji (pełna lub częściowa)

• konstrukcja formularza statystycznego (układ pytań, odpowiednie części, koncepcja formularza)

(21)

Obserwacja statystyczna

Polega na uchwyceniu interesującego badacza zespołu cech (określonych w formularzu statystycznym)

Materiał pierwotny – materiał źródłowy otrzymany w toku specjalnego badania statystycznego

Materiał wtórny – materiał zebrany do innych celów wykorzystany przez badacza do swoich celów

(22)

Opracowanie statystyczne

• kontrola formalna i merytoryczna otrzymanego materiału

• przełożenie treści na liczby

• opracowanie schematów klasyfikacyjnych dla badanych cech

• tablice robocze i wynikowe

• prezentacja graficzna rezultatów badania

(23)

Analiza statystyczna

Wykrycie prawidłowości w badanej zbiorowości

- analiza struktury

- analiza współzależności - analiza dynamiki

- analiza przestrzenna

(24)

Podsumowanie

zjawiska masowe – prawidłowości

statystyka opisowa – statystyka matematyczna

szeregi statystyczne – szczegółowy, rozdzielczy punktowy, rozdzielczy przedziałowy

Szereg statystyczny – rozkład zmiennej, rozkład cechy (rozkład empiryczny zmiennej)

graficzna prezentacja wyników →→→→ różnorakie sposoby (np. wykresy kołowe)

proces badania statystycznego (przygotowanie badania,

obserwacja statystyczna, opracowanie statystyczne, analiza statystyczna)

(25)

Rozkład empiryczny zmiennej

Rozkładem empirycznym zmiennej nazywamy

przyporządkowanie kolejnym wartością zmiennej x_i odpowiadających im liczebności n_i

szereg statystyczny zmiennej = rozkład zmiennej

graficzne przedstawienie rozkładu

Powró t

(26)

T3: Metody analizy rozkładu cechy

Agenda 1. Miary położenia 2. Miary zmienności 3. Miary asymetrii

4. Miary koncentracji

(27)

Miary położenia

Źródło: [2]

średnia arytmetyczna

Miary położenia

klasyczne pozycyjne

średnia geometryczna średnia

harmoniczna

kwantyle dominanta

kwartyl pierwszy

kwartyl trzeci inne

mediana decyle

inne

(28)

Miary położenia (2)

Miary położenia dzielą się na:

•Miary przeciętne, które charakteryzują średni lub

typowy poziom wartości cechy, wartości wokół których skupiają się wszystkie pozostałe wartości analizowanej cechy

•Kwantyle zdefiniowane jako wartości cechy badanej zbiorowości przedstawionej w postaci szeregu

statystycznego, które dzielą zbiorowość na określone części pod względem liczby jednostek (części te

pozostają do siebie w określonych proporcjach)

(29)

Średnia arytmetyczna (1)

∑

=

+ = +

= +

ⁿ

1 i

i n

2

1

x

n 1 n

x ...

x x x

Dla szeregu szczegółowego:

∑

=

⋅

⋅ = +

+

⋅ +

= ⋅

^k

1 i

i i

k k

2 2

1

x n

n 1 n

n x

...

n x

n x x

Dla szeregu rozdzielczego punktowego:

∑

=

^k

1 i

n

i

n

(30)

Średnia arytmetyczna (2)

∑

=

⋅

⋅ = +

+

⋅ +

= ⋅

^k

1 i

i i

k k

2 2

1

x n

n 1 n

n x

...

n x

n

x x & & & &

Dla szeregu rozdzielczego przedziałowego:

∑

=

^k

1 i

n

i

n

(31)

Średnia arytmetyczna (3)

Własności

•Suma wartości cechy jest równa iloczynowi

średniej arytmetycznej i liczebności zbiorowości

•Średnia arytmetyczna spełnia warunek

•Suma odchyleń poszczególnych wartości cechy od średniej równa się zero

•Suma kwadratów odchyleń poszczególnych wartości cechy od średniej jest minimalna

∑

=

⋅ ⁿ

1 i

xi

x n

max

min x x

x ≤ ≤

∑

= ⋅

=

⋅ ^k

1 i

i

i n

x x

n

∑

=

−

=

−

k

1 i

i i

n

1 i

i

0 n

) x x

(

0 ) x x

(

∑

=

−

=

−

k

1 i

i 2 i

n

1 i

2 i

min n

) x x

(

min )

x x

(

(32)

Średnia harmoniczna

∑

=

_n

1

i i

H

x 1 x n

∑

=

_k

1

i i

i H

x n x n

Dla szeregu rozdzielczego punktowego:

∑

=

_k

1

i i

i H

x n x n

&

(33)

Średnia geometryczna

n n

1 i n i

n 2

1

G

x x ... x x

x ∏

=

⋅

=

Dla szeregu rozdzielczego:

n k

1 i

n i

n n

k n

2 n

1 G

i k

2

1

x ... x x

x

x ∏

=

⋅

=

n k

1 i

n i

n n

k n

2 n

1 G

i k

2

1

x ... x x

x

x ∏

=

⋅

= & & & &

(34)

Podsumowanie - Średnie klasyczne

• Średnia średnich

• Średnia harmoniczna jest stosowana, gdy wartości

cechy podane są w przeliczeniu na stałą jednostkę innej zmiennej, czyli w postaci wskaźników natężenia

(liczebności w szeregu są wyrażone w jednostkach licznika jednostek cechy) – np. x_i [kg/szt.] a n_i[kg], x_i [km/h] a n_i[km] lub x_i [l/m²] a n_i[l]

• Średnia geometryczna ma zastosowanie przy badaniu średniego tempa zmian zjawisk (zjawiska ujmowane są dynamicznie)

∑

=

⋅

=

^k

1 i

i i

n n x

x 1

(35)

Przykład (1)

W czteroosobowej rodzinie średnia miesięczna płaca wynosi 1300 zł. Jakie wynagrodzenie otrzymuje mama, jeżeli ojciec miesięcznie zarabia 1500 zł, syn 1300 zł, a córka 1200 zł?

Mama otrzymuje 1200 zł miesięcznie

Średni wiek w n-osobowej grupie uczniów wynosi 11 lat.

Najstarszy członek grupy ma 17 lat, a średnia wieku pozostałych wynosi 10 lat. Ilu uczniów liczy ta grupa?

Grupa liczy 7 osób

(36)

Przykład (2)

Oblicz średnią prędkość samochodu, jeśli wiadomo, że a) jechał 30 min. z prędkością 100 km/h oraz 45 min.

z prędkością 60 km/h?

B) jechał 50 km z prędkością 100 km/h i 45 km z prędkością 60 km/h?

Jakie średnie należy zastosować i dlaczego?

W obu przypadkach jechał z prędkością 76 km/h

(37)

Dominanta (1)

Dominanta (wartość najczęstsza, moda, modalna) – wartość cechy

statystycznej występująca najczęściej w danym rozkładzie empirycznym.

Wartość najczęściej występująca w szeregu statystycznym.

• w szeregach szczegółowych i rozdzielczych punktowych jest to wartość cechy, której odpowiada największa liczebność.

• w szeregach rozdzielczych przedziałowych oblicza się przybliżoną wartość ze wzoru interpolacyjnego (lub graficznie wyznacza się z histogramu)

(38)

Dominanta (2)

D 0 D

D D

D

D D

D

0

x

) n

n ( )

n n

(

n x n

D ⋅ ∆

− +

− + −

=

+

−

0 5 10 15 20 25

155 160 165 170 175 180 185 190 195

(39)

Kwantyle (1)

Kwantyle to wartości cechy badanej zbiorowości, które dzielą zbiorowość na określone części pod względem liczby jednostek

Kwartyl pierwszy dzieli zbiorowość na dwie części w ten sposób, że 25%

jednostek zbiorowości ma wartości nie wyższe niż kwartyl pierwszy, a 75% jednostek zbiorowości ma wartości nie niższe niż kwartyl pierwszy Kwartyl drugi (mediana, wartość środkowa) dzieli zbiorowość na dwie

części w ten sposób, że połowa jednostek zbiorowości ma wartości nie wyższe niż mediana, a połowa jednostek zbiorowości ma wartości nie niższe niż mediana

Kwartyl trzeci dzieli zbiorowość na dwie części w ten sposób, że 75%

jednostek zbiorowości ma wartości nie wyższe niż kwartyl pierwszy, a 25% jednostek zbiorowości ma wartości nie niższe niż kwartyl pierwszy

(40)



 



∈ +

= ∉

+ +

C np

) x

x 2 (

1 C np

x Q

1 np np

1 ] np [ p

Kwantyle (2)

Dla szeregu szczegółowego i rozdzielczego punktowego:

Q Q

i Q

p

x

n

n cum x np

Q = + −

⁻

⋅ ∆

3 2 1

Q Q

Me Q

Q

Q Q

) 1

; 0 ( p

4 3 2 1 4 1

≡

∈

(41)

Przykład (3)

Wzrost Klasa A Klasa B

158-161 3 2

161-164 5 3

164-167 8 6

167-170 15 8

170-173 6 15

173-176 3 6

Na podstawie poniższych danych porównaj średni wzrost w

obu klasach, wyznacz dominantę i kwartyle oraz odpowiedz na pytanie: „czy w klasie A jest więcej uczniów o wzroście

większym od przeciętnego?”. Odpowiedź uzasadnij

(42)

Wzrost Klasa A Klasa B środek n_1i x_i n_2i x_i cum n_1i cum n_2i

158-161 3 2 159,5 478,5 319 3 2

161-164 5 3 162,5 812,5 487,5 8 5

164-167 8 6 165,5 1324 993 16 11

167-170 15 8 168,5 2527,5 1348 31 19

170-173 6 15 171,5 1029 2572,5 37 34

173-176 3 6 174,5 523,5 1047 40 40

suma 40 40 6695 6767

średnia 167,375 169,175

Przykład (4)

(43)

W punkcie skupu makulatury studenci wykonali projekt ze statystyki badając pewną losowo wybraną próbę z populacji wagi oddawanej makulatury. Obliczono, że

mediana wynosi 12 kg i umiejscowiona jest w przedziale od 10 kg do 15 kg, którego liczebność wynosi 35. Jaka jest liczebność badanej próby, jeśli 30 osób z tej próby oddało makulaturę o wadzę mniejszej niż 10 kg?

Liczebność badanej próby wynosi 88

Przykład (5)

(44)

Miary zmienności

Źródło: [2]

współczynnik zmienności

wariancja i odchylenie standardowe

Miary zmienności

klasyczne pozycyjne

odchylenie przeciętne

współczynnik zmienności rozstęp

odchylenie ćwiartkowe

(45)

Klasyczne miary zmienności (1)

Wariancja jest to średnia arytmetyczna kwadratów odchyleń poszczególnych wartości od średniej arytmetycznej zbiorowości

∑

=

−

=

−

=

−

=

k

1 i

i 2 i

2

k

1 i

i 2 i

2

n

1 i

2 i

2

n ) x x

n ( s 1

n ) x x

n ( s 1

) x x

n ( s 1

&

2 2

2 x x

s = −

) x ( D , ,

s

²

σ

² ²

(46)

Klasyczne miary zmienności (2)

Odchylenie standardowe określa przeciętne zróżnicowanie poszczególnych wartości cechy od średniej arytmetycznej. O ile wartości cechy różnią się średnio od wartości średniej

s 2

s =

)

x

(

S

,

s σ

(47)

Klasyczne miary zmienności (3)

s x x

s

x − <

_typ

< +

Typowy obszar zmienności, który obejmuje około 2/3 jednostek zbiorowości:

Odchylenie przeciętne – o ile jednostki danej zbiorowości różnią się średnio względem wartości badanej cechy od średniej arytmetycznej:

∑

=

−

=

−

=

−

=

k

1 i

i i

k

1 i

i i

n

1 i

i

n

| x x

n | d 1

n

| x x

n | d 1

| x x

n | d 1

&

s

d ≤

(48)

Klasyczne miary zmienności (4)

Wariancja ogólna, która jest sumą wariancji wewnątrzgrupowej i międzygrupowej:

∑

=

−

=

⋅

=

+

=

k

1 i

i 2 i

2 m

k

1 i

i 2 i 2

w

2 m 2

w 2

n ) x x

n ( s 1

n n s

s 1

s s

s

Współczynnik zmienności:

% x 100

V d

% x 100

V s

d s

⋅

=

⋅

=

Równość wariancyjna

(49)

Pozycyjne miary zmienności (1)

Rozstęp:

min

max x

x

R = −

Odchylenie ćwiartkowe:

2 Q Q = Q ³ − ¹

Typowy obszar zmienności cechy:

Q Me

x Q

Me − < _typ < +

(50)

Pozycyjne miary zmienności (2)

Współczynnik zmienności I:

% Me 100

V _Q = Q ⋅

Współczynnik zmienności II:

% Q 100

Q

Q V Q

1 3

1 Q 3

,

Q

₁ ₃

⋅

+

= −

(51)

Przykład (6)

W dwóch przedsiębiorstwach przeprowadzono badanie

robotników pod względem stażu pracy w zakładzie. Otrzymano następujące dane:

Przedsiębiorstwo I średni staż 15 lat V = 20%

Przedsiębiorstwo II średni staż 10 lat V = 25%

Obliczyć średni staż, s i V dla całej zbiorowości pracowników wiedząc, że liczba robotników w przedsiębiorstwie I wynosiła 120 osób a w drugim 80 osób.

Średni staż 13 lat, s=3,73 roku, V=29%

(52)

Miary asymetrii (1)

Wzrost Klasa A Klasa B

158-161 3 2

161-164 8 3

164-167 15 6

167-170 6 8

170-173 5 15

173-176 3 6

0 5 10 15 20

1 2 3 4 5 6

0 5 10 15 20

1 2 3 4 5 6

asymetria prawostronna

asymetria lewostronna

x Me

D ≤ ≤ x ≤ Me ≤ D

D x

W

_sk

= −

Klasyczno-pozycyjny wskaźnik skośności:

) Q Me

( ) Me Q

(

W

_sp

=

₃

− − −

₁

Pozycyjny wskaźnik skośności:

(53)

Miary asymetrii (2)

d D A x

s D A x

d s

= −

Klasyczno-pozycyjny współczynnik asymetrii

(skośności):

Q 2

Me 2

Q Q

) Q Me

( )

Me Q

(

) Q Me

( ) Me Q

A (

³ ¹

1 3

Q

−

= +

− +

−

= −

Pozycyjny współczynnik asymetrii (skośności):

3 3

s A = m

Klasyczny współczynnik

asymetrii (skośności): Moment centralny trzeciego rzędu Moment centralny

rzędu r:

∑

=

⋅

−

=

−

=

k

1 i

i r i

r

n

1 i

r i

r

n ) x x

n ( m 1

) x x

n ( m 1

&

(54)

Miary koncentracji (1)

•koncentracja wartości cechy wokół średniej

•im większe zróżnicowanie, tym mniejsza koncentracja

•współczynnik skupienia (kurtoza):

s 3 ' m

K

s K m

4 4 4

4

−

=

0 5 10 15 20 25 30

1 2 3 4 5 6 7 8 9 10 11 12 13

0 1 2 3 4 5 6 7 8 9

1 2 3 4 5 6 7 8 9 10 11 12 13

Wykres wysmukły (leptokurtyczny)

Wykres spłaszczony (platokurtyczny)

0 '

K

3 K

>

0 '

K

3 K

<

(55)

Miary koncentracji (2)

•Krzywa koncentracji Lorenza

•Współczynnik koncentracji Lorenza

5000 b 5000

5000

K

_L

= a = −

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

brak koncentracji K_L=0

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

a

b

∑

i i

n cum n

skumulowane odsetki liczebności

∑

i i i i

n x

n cum x

skumulowane odsetki iloczynu

wartości cechy i liczebności

(56)

Przykład (7)

Uzupełnić dane dotyczące wzrostu (w cm) w dwóch klasach

Średnia 160

Typowy obszar zmienności

(157;165)

Współczynnik zmienności

Dominanta 160

Współczynnik asymetrii

-0,2

Wariancja 25

(155-165)

3,125%

161

16 2,484%

0,25

(57)

Podsumowanie - uzupełnienie

) Me x

( 3 D

x − = −

Wzór Pearsona:

skrajna silna

a umiarkowan słaba

A 9

, 0

9 , 0 A 7

, 0

7 , 0 A 3

, 0

3 , 0 A

<

≤

<

≤

<

≤

Siła asymetrii:

• najważniejsza jest interpretacja otrzymanych wyników – wszystkie obliczenia mają sens jedynie, gdy prowadzą do wniosków

• wszechstronna analiza opisowa polega na obliczeniu wszystkich adekwatnych miar wraz z prawidłową interpretacją otrzymanych wyników

• analiza opisowa populacji na podstawie próby opiera się na identycznych

zasadach z uwzględnieniem teorii estymacji

(58)

T4: Badanie współzależności zjawisk

Agenda 1. Wprowadzenie

2. Analiza korelacji

3. Analiza regresji

4. Podsumowanie

(59)

Korelacja (1)

Zależność korelacyjna (korelacja) polega na tym, że określonym wartościom jednej zmiennej odpowiadają ściśle określone średnie wartości drugiej zmiennej

Korelacja dodatnia - wzrostowi wartości jednej cechy odpowiada wzrost średnich wartości drugiej cechy

Korelacja ujemna - wzrostowi wartości jednej cechy odpowiada spadek średnich wartości drugiej cechy

Korelacja cech ilościowych – Korelacja cech jakościowych Korelacja liniowa – Korelacja nieliniowa

(60)

Korelacja (2)

Wzrokowa ocena korelacyjnego wykresu rozrzutu punktów empirycznych

0 5 10 15 20 25 30

0 2 4 6 8 10

korelacja liniowa dodatnia

0 5 10 15 20 25 30

0 2 4 6 8 10

korelacja liniowa ujemna

0 5 10 15 20 25 30

4 4,5 5 5,5 6 6,5 7 7,5

brak korelacji

0 5 10 15 20 25 30 35

0 2 4 6 8 10 12 14 16

korelacja krzywoliniowa

(61)

Korelacja (3)

Szereg szczegółowy:

i y x

1 y1 x1

2 y₂ x₂

... ... ...

n y_n x_n

Tablica korelacyjna:

y x

n₁₁ n₁₂ ... n_1j ... n_1s n_1.

n₂₁ n₂₂ ... n_2j ... n_2s n_2.

... ... ... ... ... ... ...

n_i1 n_i2 ... n_ij ... n_is n_i.

... ... ... ... ... ... ...

n_k1 n_k2 ... n_kj ... n_ks n_k.

n_.1 n_.2 ... n_.j ... n_.s n

...

y₁ y₂ ... n_i.

n_.j x_i ...

x_k

y_s ...

y_j

x₁ x₂

Rozkład brzegowy

Rozkład brzegowy Rozkład

warunkowy Rozkład warunkowy

(62)

Współczynnik korelacji liniowej Pearsona

Miara siły związku liniowego między cechami

y x

xy

s s

) xy r cov(

= ⋅

y x y

x )

xy

cov( = ⋅ − ⋅

∑

=

−

= n

1 i

2 i

n

1 i

2 i

n

1 i

i i

xy

) y y ( ) x x (

) y y )(

x x ( r

∑

∑∑

= ⋅

= =

−

= s

1 i

j 2 i

k

1 i

i 2 i

k

1 i

s

1 j

ij i

i xy

n ) y y ( n ) x x (

n ) y y )(

x x ( r

&

Dla tablicy korelacyjnej:

∑∑= = − −

= ^k

1 i

s

1 j

ij i

i x )( y y )n

x n (

) 1 xy

cov( & &

∑

=

−

= ⁿ

1 i

i

i x)( y y )

x n (

) 1 xy cov(

• symetryczny

(63)

Wartość współczynnika korelacji liniowej Pearsona

liniowa zależ ność

silna bardzo

liniowa zależ ność

znacz ąca

liniowa zależ ność

a umiarkowan

liniowa zależ ność

słaba

liniowego związku

brak

xy xy xy xy xy

r 9

, 0

9 , 0 r

7 , 0

7 , 0 r

4 , 0

4 , 0 r

2 , 0

2 , 0 r

≤

<

≤

<

≤

<

≤

<

1 r

1 ≤

_xy

≤

−

(64)

Przykład (1)

Czas pracy w godz.

1 2 3 4 5 6 7

Wydajność w szt./godz.

20 22 20 18 15 13 12

W fabryce zbadano, jak kształtuje się średnia wydajność pracowników w zależności od czasu nieprzerwanej pracy

Czy istnieje silna zależność między czasem pracy a wydajnością?

(65)

Przykład (2)

i X_i Y_i X_iY_i X² Y²

1 1 20 20 1 400

2 2 22 44 4 484

3 3 20 60 9 400

4 4 18 72 16 324

5 5 15 75 25 225

6 6 13 78 36 169

7 7 12 84 49 144

ΣΣΣ

Σ 28 120 433 140 2146

średnia 4 17,14 61,86 20 306,57

7 , 6 14

, 17 4

86 , 61 y

x y

x )

xy

cov( = ⋅ − ⋅ = − ⋅ = −

4 16

20 4

20 x

S_x² ⁼ ² ⁻

x

² ⁼ ⁻ ² ⁼ ⁻ ⁼

79 , 12 14

, 17 57

, 306 y

S_y² ⁼ ² ⁻

y

² ⁼ ⁻ ² ⁼

94 , 58 0

, 3 2

7 , 6 s

s

) xy r cov(

y x

xy = −

⋅

= −

= ⋅

(66)

Przykład (3)

Istnieje bardzo silna liniowa zależność korelacyjna między czasem pracy

a wydajnością

Zależność tą cechuje korelacja ujemna,

czyli im dłuższy czas pracy tym niższa

średnia wydajność pracy

(67)

Przykład (4)

Dana jest tablica korelacyjna stażu pracy (Y) pracowników

w pewnym zakładzie oraz liczby pobranych przez nich pożyczek (X) z kasy zapomogowo-pożyczkowej.

Liczba pożyczek

Staż pracy w latach

0 – 4 4 - 8 8 - 12

1 – 2 30 3 -

3 – 4 4 18 12

5 – 6 - 1 8

Obliczyć współczynnik korelacji między stażem pracy pracowników a liczbą pobranych pożyczek

(68)

Przykład (5)

0 – 4 4 - 8 8 - 12 ⁿⁱ ⁿix_i n_ix_i²

1 – 2 30 3 - ³³ ^49,5 ^74,25

3 – 4 4 18 12 ³⁴ ¹¹⁹ ^416,5

5 – 6 - 1 8 ⁹ ^49,5 ^272,25

nj ³⁴ ²² ²⁰ ⁷⁶ ²¹⁸ ⁷⁶³

n_jy_j ₆₈ ₁₃₂ ₂₀₀ ₄₀₀

n_jy_j² ₁₃₆ ₇₉₂ ₂₀₀₀ ₂₉₂₈

X Y

81 , 1 S

_x²

=

83 , 10 S

_y²

=

53 , 3 )

xy cov( =

80 ,

0 r

_xy

=