Materiały wspomagające wykład ze statystyki
Maciej Wolny
T1: Zajęcia organizacyjne
Agenda 1. Program wykładu
2. Cel zajęć
3. Nabyte umiejętności 4. Literatura
5. Warunki zaliczenia
Program wykładu
T1: Zajęcia organizacyjne [1h]
T2: Przedmiot i zadania statystyki [2h]
T3: Metody analizy rozkładu cechy [4h]
T4: Badanie współzależności zjawisk [4h]
T5: Badanie dynamiki zjawisk [4h]
T6: Zmienne losowe i ich podstawowe rozkłady [3h]
T7: Rozkład normalny [2h]
T8: Twierdzenia graniczne [1h]
T9: Próba losowa i rozkłady statystyk z próby [2h]
T10: Estymatory i estymacja przedziałowa [3h]
T11: Hipotezy statystyczne i ich weryfikacja [4h]
Cel
Zaznajomienie z podstawowymi metodami procesu badania statystycznego
umożliwiającymi wykrywanie prawidłowości struktury, współzależności i dynamiki zjawisk
masowych oraz nauczenie wnioskowania
statystycznego
Umiejętności
• czytanie, przetwarzanie i przedstawianie danych statystycznych
• określanie i obliczanie charakterystyk badanych zbiorowości
• zastosowanie estymatorów
• weryfikacja hipotez parametrycznych i nieparametrycznych
• wnioskowanie na podstawie przeprowadzonych weryfikacji
• konstruowanie modeli regresji i ich zastosowanie w ekonomii
• prognozowanie na podstawie analizy dynamiki zjawisk
Literatura
[1] Ignatczyk W., Chromińska M., Statystyka. Teoria i zastosowanie, Wyd. WSB, Poznań 1999
[2] Ostasiewicz S., Rusnak Z., Siedlecka K.,
Statystyka. Elementy teorii i zadania, Wyd. AE we Wrocławiu, Wrocław 1999
[3] Sobczyk M., Statystyka, PWN, Warszawa 1997
Warunki zaliczenia
Egzamin 1. Pozytywna ocena z ćwiczeń
2. Egzamin pisemny
• 50% zadania
• 50% teoria 3. Ocena
• 60-68% dst
• 68-76% dst plus
• 76-84% db
• 84-92% db plus
• 92-100% bdb
T2: Przedmiot i zadania statystyki
Agenda 1. Definicja
2. Geneza
3. Podstawowe pojęcia i zagadnienia
4. Proces badania statystycznego
Definicja
Statystyka jest to nauka o metodach badania zjawisk masowych, nauka traktująca o metodach ilościowych badania prawidłowości zjawisk masowych
Zjawiska masowe to zjawiska, które występują często (np. zgony, urodzenia, małżeństwa, etc.)
Geneza
Statystyka – łac. status – państwo
Etapy rozwoju badania zjawisk masowych:
• do XVII w. – okres ewidencji i zliczania (dane, informacje)
• XVII – XVIII w. – opisywanie zbiorowości według wzorca podanego przez państwoznawców (wykrycie prawidłowości w zjawiskach masowych np. zgonach)
• od XVIII w. – wprowadzenie rachunku prawdopodobieństwa (rozwój metod statystycznych opartych na matematyce)
Podstawowe pojęcia (1)
Statystykę dzielimy na:
- opisową, która ukazuje metody gromadzenia, opracowania i prezentacji danych wraz z ich sumarycznym opisem, przy wykorzystaniu właściwych narzędzi statystycznych
- matematyczną zwaną wnioskowaniem statystycznym, która powstała na gruncie rachunku prawdopodobieństwa
„Statystyka” ma zasadniczo cztery znaczenia:
• metoda poznawania zjawisk masowych
• nauka badająca zjawiska masowe
• zbiór liczb charakteryzujący zbiorowość (np. statystyka ludności)
• parametr opisowy rozumiany jako pewna wielkość
charakterystyczna (np. średnia arytmetyczna, odchylenie standardowe)
Podstawowe pojęcia (2)
Przedmiot badania statystycznego
Zbiorowością statystyczną nazywamy zespół jednostek objętych
badaniem statystycznym, posiadających jedną lub kilka cech wspólnych (stałych) oraz wiele cech je różniących
Zbiorowość statystyczna, populacja, masa statystyczna
Zbiorowość jednorodna to zbiorowość, którą tworzą jednostki niezróżnicowane pod względem cechy stałej
Jednostka statystyczna to podstawowy element zbiorowości
statystycznej, który musi być jednoznacznie określony pod względem rzeczowym (kogo lub co badamy), czasowym (kiedy badamy) i
przestrzennym (gdzie, na jakim terytorium badamy)
Podstawowe pojęcia (3)
Cechami statystycznymi nazywamy własności jednostek statystycznych
stałe zmienne
rzeczowe
przestrzenne czasowe
rzeczowe
przestrzenne czasowe
ilościowe jakościowe
skokowe ciągłe
Źródło: [1]
Podstawowe pojęcia (4)
Źródło: [2]
Szereg statystyczny to dane (liczby) odpowiednio uporządkowane otrzymane w wyniku przeprowadzonego badania statystycznego
szczegółowy rozdzielczy czasowy
momentów okresów z cechą
niemierzalną (jakościową) z cechą
mierzalną (ilościową)
geograficzne inne przedziałowe
punktowe
skumulowane proste
skumulowane proste
Szereg szczegółowy
Uporządkowany ciąg wartości badanej cechy statystycznej
Np. wzrost [cm] w pewnej grupie studentów
159; 159,5; 160; 161; 161; 162; 162; 162,5; 162,5; 163; 163; 163;
163; 163,5; 163,5; 164; 165; 165; 167; 167;167,5; 168; 168; 168;
168,5; 169; 169; 169; 169; 169,5; 169,5; 170; 170; 170,5; 170,5;
170,5; 170,5; 171; 172; 172,5; 173; 174; 175; 176; 176; 176,5; 177;
177; 177; 178; 178,5; 179; 179; 179; 180; 180; 181; 181; 182
Szereg rozdzielczy punktowy
Szereg rozdzielczy stanowi zbiorowość statystyczną podzieloną na części (klasy) według określonej cechy z podaniem liczebności każdej z wyodrębnionych klas
Np. wzrost [cm] w pewnej grupie studentów
xi ni
170 12
170,5 14
171 16
171,5 18
172 18
172,5 17
173 18
173,5 15
174 15
174,5 10
Szereg rozdzielczy przedziałowy
Np. wzrost [cm] w pewnej grupie studentów
xi ni
156-160 2 160-164 10 164-168 12 168-172 12 172-176 20 176-180 22 180-184 15 184-188 10 188-192 4 192-196 1
n k ≈
n log 322
, 3 1
k ≈ +
166 x
i -
x
3 i
& =
&
np.
przedziału tego
-
środek
Prezentacja graficzna szeregów
Histogram jest to zbiór prostokątów, których podstawy, wyznaczone na osi odciętych, stanowią rozpiętości poszczególnych przedziałów klasowych, natomiast wysokości są określone na osi rzędnych przez liczebności odpowiadające przedziałom klasowym
Diagram jest łamaną powstałą przez połączenie punktów, których współrzędnymi są środki przedziałów klasowych i odpowiadające im liczebności
0 5 10 15 20 25
155 160 165 170 175 180 185 190 195
Proces badania statystycznego
Badanie statystyczne jest procesem złożonym obejmującym całokształt czynności badawczych zmierzających do poznania zjawisk masowych za pomocą metody statystycznej. Proces ten obejmuje:
• przygotowanie badania
• obserwację statystyczną
• opracowanie statystyczne
• analizę statystyczną
Przygotowanie badania
• sformułowanie problemu badawczego
• określenie i poznanie przedmiotu badania – celu i zakresu badania oraz postawienie hipotez roboczych, które będą weryfikowane
• wybór metody obserwacji (pełna lub częściowa)
• konstrukcja formularza statystycznego (układ pytań, odpowiednie części, koncepcja formularza)
Obserwacja statystyczna
Polega na uchwyceniu interesującego badacza zespołu cech (określonych w formularzu statystycznym)
Materiał pierwotny – materiał źródłowy otrzymany w toku specjalnego badania statystycznego
Materiał wtórny – materiał zebrany do innych celów wykorzystany przez badacza do swoich celów
Opracowanie statystyczne
• kontrola formalna i merytoryczna otrzymanego materiału
• przełożenie treści na liczby
• opracowanie schematów klasyfikacyjnych dla badanych cech
• tablice robocze i wynikowe
• prezentacja graficzna rezultatów badania
Analiza statystyczna
Wykrycie prawidłowości w badanej zbiorowości
- analiza struktury
- analiza współzależności - analiza dynamiki
- analiza przestrzenna
Podsumowanie
zjawiska masowe – prawidłowości
statystyka opisowa – statystyka matematyczna
szeregi statystyczne – szczegółowy, rozdzielczy punktowy, rozdzielczy przedziałowy
Szereg statystyczny – rozkład zmiennej, rozkład cechy (rozkład empiryczny zmiennej)
graficzna prezentacja wyników →→→→ różnorakie sposoby (np. wykresy kołowe)
proces badania statystycznego (przygotowanie badania,
obserwacja statystyczna, opracowanie statystyczne, analiza statystyczna)
Rozkład empiryczny zmiennej
Rozkładem empirycznym zmiennej nazywamy
przyporządkowanie kolejnym wartością zmiennej xi odpowiadających im liczebności ni
szereg statystyczny zmiennej = rozkład zmiennej
graficzne przedstawienie rozkładu
Powró t
T3: Metody analizy rozkładu cechy
Agenda 1. Miary położenia 2. Miary zmienności 3. Miary asymetrii
4. Miary koncentracji
Miary położenia
Źródło: [2]
średnia arytmetyczna
Miary położenia
klasyczne pozycyjne
średnia geometryczna średnia
harmoniczna
kwantyle dominanta
kwartyl pierwszy
kwartyl trzeci inne
mediana decyle
inne
Miary położenia (2)
Miary położenia dzielą się na:
•Miary przeciętne, które charakteryzują średni lub
typowy poziom wartości cechy, wartości wokół których skupiają się wszystkie pozostałe wartości analizowanej cechy
•Kwantyle zdefiniowane jako wartości cechy badanej zbiorowości przedstawionej w postaci szeregu
statystycznego, które dzielą zbiorowość na określone części pod względem liczby jednostek (części te
pozostają do siebie w określonych proporcjach)
Średnia arytmetyczna (1)
∑
=+ = +
= +
n1 i
i n
2
1
x
n 1 n
x ...
x x x
Dla szeregu szczegółowego:
∑
=⋅
⋅ = +
+
⋅ +
= ⋅
k1 i
i i
k k
2 2
1
1
x n
n 1 n
n x
...
n x
n x x
Dla szeregu rozdzielczego punktowego:
∑
==
k1 i
n
in
Średnia arytmetyczna (2)
∑
=⋅
⋅ = +
+
⋅ +
= ⋅
k1 i
i i
k k
2 2
1
1
x n
n 1 n
n x
...
n x
n
x x & & & &
Dla szeregu rozdzielczego przedziałowego:
∑
==
k1 i
n
in
Średnia arytmetyczna (3)
Własności
•Suma wartości cechy jest równa iloczynowi
średniej arytmetycznej i liczebności zbiorowości
•Średnia arytmetyczna spełnia warunek
•Suma odchyleń poszczególnych wartości cechy od średniej równa się zero
•Suma kwadratów odchyleń poszczególnych wartości cechy od średniej jest minimalna
∑
==
⋅ n
1 i
xi
x n
max
min x x
x ≤ ≤
∑
= ⋅=
⋅ k
1 i
i
i n
x x
n
∑
∑
=
=
=
−
=
−
k
1 i
i i
n
1 i
i
0 n
) x x
(
0 ) x x
(
∑
∑
=
=
=
−
=
−
k
1 i
i 2 i
n
1 i
2 i
min n
) x x
(
min )
x x
(
Średnia harmoniczna
∑
==
n1
i i
H
x 1 x n
Dla szeregu szczegółowego:
∑
==
k1
i i
i H
x n x n
Dla szeregu rozdzielczego punktowego:
Dla szeregu rozdzielczego przedziałowego:
∑
==
k1
i i
i H
x n x n
&
Średnia geometryczna
n n
1 i n i
n 2
1
G
x x ... x x
x ∏
=
=
⋅
⋅
⋅
=
Dla szeregu szczegółowego:
Dla szeregu rozdzielczego:
n k
1 i
n i
n n
k n
2 n
1 G
i k
2
1
x ... x x
x
x ∏
=
=
⋅
⋅
⋅
=
n k
1 i
n i
n n
k n
2 n
1 G
i k
2
1
x ... x x
x
x ∏
=
=
⋅
⋅
⋅
= & & & &
Podsumowanie - Średnie klasyczne
• Średnia średnich
• Średnia harmoniczna jest stosowana, gdy wartości
cechy podane są w przeliczeniu na stałą jednostkę innej zmiennej, czyli w postaci wskaźników natężenia
(liczebności w szeregu są wyrażone w jednostkach licznika jednostek cechy) – np. xi [kg/szt.] a ni [kg], xi [km/h] a ni [km] lub xi [l/m2] a ni [l]
• Średnia geometryczna ma zastosowanie przy badaniu średniego tempa zmian zjawisk (zjawiska ujmowane są dynamicznie)
∑
=⋅
=
k1 i
i i
n n x
x 1
Przykład (1)
W czteroosobowej rodzinie średnia miesięczna płaca wynosi 1300 zł. Jakie wynagrodzenie otrzymuje mama, jeżeli ojciec miesięcznie zarabia 1500 zł, syn 1300 zł, a córka 1200 zł?
Mama otrzymuje 1200 zł miesięcznie
Średni wiek w n-osobowej grupie uczniów wynosi 11 lat.
Najstarszy członek grupy ma 17 lat, a średnia wieku pozostałych wynosi 10 lat. Ilu uczniów liczy ta grupa?
Grupa liczy 7 osób
Przykład (2)
Oblicz średnią prędkość samochodu, jeśli wiadomo, że a) jechał 30 min. z prędkością 100 km/h oraz 45 min.
z prędkością 60 km/h?
B) jechał 50 km z prędkością 100 km/h i 45 km z prędkością 60 km/h?
Jakie średnie należy zastosować i dlaczego?
W obu przypadkach jechał z prędkością 76 km/h
Dominanta (1)
Dominanta (wartość najczęstsza, moda, modalna) – wartość cechy
statystycznej występująca najczęściej w danym rozkładzie empirycznym.
Wartość najczęściej występująca w szeregu statystycznym.
• w szeregach szczegółowych i rozdzielczych punktowych jest to wartość cechy, której odpowiada największa liczebność.
• w szeregach rozdzielczych przedziałowych oblicza się przybliżoną wartość ze wzoru interpolacyjnego (lub graficznie wyznacza się z histogramu)
Dominanta (2)
D 0 D
D D
D
D D
D
0
x
) n
n ( )
n n
(
n x n
D ⋅ ∆
− +
− + −
=
+
−
−
0 5 10 15 20 25
155 160 165 170 175 180 185 190 195
Kwantyle (1)
Kwantyle to wartości cechy badanej zbiorowości, które dzielą zbiorowość na określone części pod względem liczby jednostek
Kwartyl pierwszy dzieli zbiorowość na dwie części w ten sposób, że 25%
jednostek zbiorowości ma wartości nie wyższe niż kwartyl pierwszy, a 75% jednostek zbiorowości ma wartości nie niższe niż kwartyl pierwszy Kwartyl drugi (mediana, wartość środkowa) dzieli zbiorowość na dwie
części w ten sposób, że połowa jednostek zbiorowości ma wartości nie wyższe niż mediana, a połowa jednostek zbiorowości ma wartości nie niższe niż mediana
Kwartyl trzeci dzieli zbiorowość na dwie części w ten sposób, że 75%
jednostek zbiorowości ma wartości nie wyższe niż kwartyl pierwszy, a 25% jednostek zbiorowości ma wartości nie niższe niż kwartyl pierwszy
∈ +
= ∉
+ +
C np
) x
x 2 (
1
C np
x Q
1 np np
1 ] np [ p
Kwantyle (2)
Dla szeregu szczegółowego i rozdzielczego punktowego:
Q Q
i Q
p
x
n
n cum x np
Q = + −
−⋅ ∆
Dla szeregu rozdzielczego przedziałowego:
3 2 1
Q Q
Me Q
Q
Q Q
) 1
; 0 ( p
4 3 2 1 4 1
≡
≡
≡
≡
∈
Przykład (3)
Wzrost Klasa A Klasa B
158-161 3 2
161-164 5 3
164-167 8 6
167-170 15 8
170-173 6 15
173-176 3 6
Na podstawie poniższych danych porównaj średni wzrost w
obu klasach, wyznacz dominantę i kwartyle oraz odpowiedz na pytanie: „czy w klasie A jest więcej uczniów o wzroście
większym od przeciętnego?”. Odpowiedź uzasadnij
Wzrost Klasa A Klasa B środek n1i xi n2i xi cum n1i cum n2i
158-161 3 2 159,5 478,5 319 3 2
161-164 5 3 162,5 812,5 487,5 8 5
164-167 8 6 165,5 1324 993 16 11
167-170 15 8 168,5 2527,5 1348 31 19
170-173 6 15 171,5 1029 2572,5 37 34
173-176 3 6 174,5 523,5 1047 40 40
suma 40 40 6695 6767
średnia 167,375 169,175
Przykład (4)
W punkcie skupu makulatury studenci wykonali projekt ze statystyki badając pewną losowo wybraną próbę z populacji wagi oddawanej makulatury. Obliczono, że
mediana wynosi 12 kg i umiejscowiona jest w przedziale od 10 kg do 15 kg, którego liczebność wynosi 35. Jaka jest liczebność badanej próby, jeśli 30 osób z tej próby oddało makulaturę o wadzę mniejszej niż 10 kg?
Liczebność badanej próby wynosi 88
Przykład (5)
Miary zmienności
Źródło: [2]
współczynnik zmienności
wariancja i odchylenie standardowe
Miary zmienności
klasyczne pozycyjne
odchylenie przeciętne
współczynnik zmienności rozstęp
odchylenie ćwiartkowe
Klasyczne miary zmienności (1)
Wariancja jest to średnia arytmetyczna kwadratów odchyleń poszczególnych wartości od średniej arytmetycznej zbiorowości
∑
∑
∑
=
=
=
−
=
−
=
−
=
k
1 i
i 2 i
2
k
1 i
i 2 i
2
n
1 i
2 i
2
n ) x x
n ( s 1
n ) x x
n ( s 1
) x x
n ( s 1
&
2 2
2 x x
s = −
) x ( D , ,
s
2σ
2 2Klasyczne miary zmienności (2)
Odchylenie standardowe określa przeciętne zróżnicowanie poszczególnych wartości cechy od średniej arytmetycznej. O ile wartości cechy różnią się średnio od wartości średniej
s 2
s =
)
x
(
S
,
,
s σ
Klasyczne miary zmienności (3)
s x x
s
x − <
typ< +
Typowy obszar zmienności, który obejmuje około 2/3 jednostek zbiorowości:
Odchylenie przeciętne – o ile jednostki danej zbiorowości różnią się średnio względem wartości badanej cechy od średniej arytmetycznej:
∑
∑
∑
=
=
=
−
=
−
=
−
=
k
1 i
i i
k
1 i
i i
n
1 i
i
n
| x x
n | d 1
n
| x x
n | d 1
| x x
n | d 1
&
s
d ≤
Klasyczne miary zmienności (4)
Wariancja ogólna, która jest sumą wariancji wewnątrzgrupowej i międzygrupowej:
∑
∑
=
=
−
=
⋅
=
+
=
k
1 i
i 2 i
2 m
k
1 i
i 2 i 2
w
2 m 2
w 2
n ) x x
n ( s 1
n n s
s 1
s s
s
Współczynnik zmienności:
% x 100
V d
% x 100
V s
d s
⋅
=
⋅
=
Równość wariancyjna
Pozycyjne miary zmienności (1)
Rozstęp:
min
max x
x
R = −
Odchylenie ćwiartkowe:
2
Q Q = Q 3 − 1
Typowy obszar zmienności cechy:
Q Me
x Q
Me − < typ < +
Pozycyjne miary zmienności (2)
Współczynnik zmienności I:
% Me 100
V Q = Q ⋅
Współczynnik zmienności II:
% Q 100
Q
Q V Q
1 3
1 Q 3
,
Q
1 3⋅
+
= −
Przykład (6)
W dwóch przedsiębiorstwach przeprowadzono badanie
robotników pod względem stażu pracy w zakładzie. Otrzymano następujące dane:
Przedsiębiorstwo I średni staż 15 lat V = 20%
Przedsiębiorstwo II średni staż 10 lat V = 25%
Obliczyć średni staż, s i V dla całej zbiorowości pracowników wiedząc, że liczba robotników w przedsiębiorstwie I wynosiła 120 osób a w drugim 80 osób.
Średni staż 13 lat, s=3,73 roku, V=29%
Miary asymetrii (1)
Wzrost Klasa A Klasa B
158-161 3 2
161-164 8 3
164-167 15 6
167-170 6 8
170-173 5 15
173-176 3 6
0 5 10 15 20
1 2 3 4 5 6
0 5 10 15 20
1 2 3 4 5 6
asymetria prawostronna
asymetria lewostronna
x Me
D ≤ ≤ x ≤ Me ≤ D
D x
W
sk= −
Klasyczno-pozycyjny wskaźnik skośności:
) Q Me
( ) Me Q
(
W
sp=
3− − −
1Pozycyjny wskaźnik skośności:
Miary asymetrii (2)
d D A x
s D A x
d s
= −
= −
Klasyczno-pozycyjny współczynnik asymetrii
(skośności):
Q 2
Me 2
Q Q
) Q Me
( )
Me Q
(
) Q Me
( ) Me Q
A (
3 11 3
1 3
Q
−
= +
− +
−
−
−
= −
Pozycyjny współczynnik asymetrii (skośności):
3 3
s A = m
Klasyczny współczynnik
asymetrii (skośności): Moment centralny trzeciego rzędu Moment centralny
rzędu r:
∑
∑
=
=
⋅
−
=
−
=
k
1 i
i r i
r
n
1 i
r i
r
n ) x x
n ( m 1
) x x
n ( m 1
&
Miary koncentracji (1)
•koncentracja wartości cechy wokół średniej
•im większe zróżnicowanie, tym mniejsza koncentracja
•współczynnik skupienia (kurtoza):
s 3 ' m
K
s K m
4 4 4
4
−
=
=
0 5 10 15 20 25 30
1 2 3 4 5 6 7 8 9 10 11 12 13
0 1 2 3 4 5 6 7 8 9
1 2 3 4 5 6 7 8 9 10 11 12 13
Wykres wysmukły (leptokurtyczny)
Wykres spłaszczony (platokurtyczny)
0 '
K
3 K
>
>
0 '
K
3 K
<
<
Miary koncentracji (2)
•Krzywa koncentracji Lorenza
•Współczynnik koncentracji Lorenza
5000 b 5000
5000
K
L= a = −
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
brak koncentracji KL=0
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
a
b
∑
i in cum n
skumulowane odsetki liczebności
∑
i i i in x
n cum x
skumulowane odsetki iloczynu
wartości cechy i liczebności
Przykład (7)
Uzupełnić dane dotyczące wzrostu (w cm) w dwóch klasach
Średnia 160
Typowy obszar zmienności
(157;165)
Współczynnik zmienności
Dominanta 160
Współczynnik asymetrii
-0,2
Wariancja 25
(155-165)
3,125%
161
161
16 2,484%
0,25
Podsumowanie - uzupełnienie
) Me x
( 3 D
x − = −
Wzór Pearsona:
skrajna silna
a umiarkowan słaba
A 9
, 0
9 , 0 A 7
, 0
7 , 0 A 3
, 0
3 , 0 A
<
≤
<
≤
<
≤
Siła asymetrii:
• najważniejsza jest interpretacja otrzymanych wyników – wszystkie obliczenia mają sens jedynie, gdy prowadzą do wniosków
• wszechstronna analiza opisowa polega na obliczeniu wszystkich adekwatnych miar wraz z prawidłową interpretacją otrzymanych wyników
• analiza opisowa populacji na podstawie próby opiera się na identycznych
zasadach z uwzględnieniem teorii estymacji
T4: Badanie współzależności zjawisk
Agenda 1. Wprowadzenie
2. Analiza korelacji
3. Analiza regresji
4. Podsumowanie
Korelacja (1)
Zależność korelacyjna (korelacja) polega na tym, że określonym wartościom jednej zmiennej odpowiadają ściśle określone średnie wartości drugiej zmiennej
Korelacja dodatnia - wzrostowi wartości jednej cechy odpowiada wzrost średnich wartości drugiej cechy
Korelacja ujemna - wzrostowi wartości jednej cechy odpowiada spadek średnich wartości drugiej cechy
Korelacja cech ilościowych – Korelacja cech jakościowych Korelacja liniowa – Korelacja nieliniowa
Korelacja (2)
Wzrokowa ocena korelacyjnego wykresu rozrzutu punktów empirycznych
0 5 10 15 20 25 30
0 2 4 6 8 10
korelacja liniowa dodatnia
0 5 10 15 20 25 30
0 2 4 6 8 10
korelacja liniowa ujemna
0 5 10 15 20 25 30
4 4,5 5 5,5 6 6,5 7 7,5
brak korelacji
0 5 10 15 20 25 30 35
0 2 4 6 8 10 12 14 16
korelacja krzywoliniowa
Korelacja (3)
Szereg szczegółowy:
i y x
1 y1 x1
2 y2 x2
... ... ...
n yn xn
Tablica korelacyjna:
y x
n11 n12 ... n1j ... n1s n1.
n21 n22 ... n2j ... n2s n2.
... ... ... ... ... ... ...
ni1 ni2 ... nij ... nis ni.
... ... ... ... ... ... ...
nk1 nk2 ... nkj ... nks nk.
n.1 n.2 ... n.j ... n.s n
...
y1 y2 ... ni.
n.j xi ...
xk
ys ...
yj
x1 x2
Rozkład brzegowy
Rozkład brzegowy Rozkład
warunkowy Rozkład warunkowy
Współczynnik korelacji liniowej Pearsona
Miara siły związku liniowego między cechami
y x
xy
s s
) xy r cov(
= ⋅
y x y
x )
xy
cov( = ⋅ − ⋅
∑
∑
∑
=
=
=
−
−
−
−
= n
1 i
2 i
n
1 i
2 i
n
1 i
i i
xy
) y y ( ) x x (
) y y )(
x x ( r
Dla szeregu szczegółowego:
∑
∑
∑∑
= ⋅
= ⋅
= =
−
−
−
−
= s
1 i
j 2 i
k
1 i
i 2 i
k
1 i
s
1 j
ij i
i xy
n ) y y ( n ) x x (
n ) y y )(
x x ( r
&
&
&
&
Dla tablicy korelacyjnej:
∑∑= = − −
= k
1 i
s
1 j
ij i
i x )( y y )n
x n (
) 1 xy
cov( & &
∑
=
−
−
= n
1 i
i
i x)( y y )
x n (
) 1 xy cov(
• symetryczny
Wartość współczynnika korelacji liniowej Pearsona
liniowa zależ ność
silna bardzo
liniowa zależ ność
znacz ąca
liniowa zależ ność
a umiarkowan
liniowa zależ ność
słaba
liniowego związku
brak
xy xy xy xy xy
r 9
, 0
9 , 0 r
7 , 0
7 , 0 r
4 , 0
4 , 0 r
2 , 0
2 , 0 r
≤
<
≤
<
≤
<
≤
<
1 r
1 ≤
xy≤
−
Przykład (1)
Czas pracy w godz.
1 2 3 4 5 6 7
Wydajność w szt./godz.
20 22 20 18 15 13 12
W fabryce zbadano, jak kształtuje się średnia wydajność pracowników w zależności od czasu nieprzerwanej pracy
Czy istnieje silna zależność między czasem pracy a wydajnością?
Przykład (2)
i Xi Yi XiYi X2 Y2
1 1 20 20 1 400
2 2 22 44 4 484
3 3 20 60 9 400
4 4 18 72 16 324
5 5 15 75 25 225
6 6 13 78 36 169
7 7 12 84 49 144
ΣΣΣ
Σ 28 120 433 140 2146
średnia 4 17,14 61,86 20 306,57
7 , 6 14
, 17 4
86 , 61 y
x y
x )
xy
cov( = ⋅ − ⋅ = − ⋅ = −
4 16
20 4
20 x
Sx2 = 2 −
x
2 = − 2 = − =79 , 12 14
, 17 57
, 306 y
Sy2 = 2 −
y
2 = − 2 =94 , 58 0
, 3 2
7 , 6 s
s
) xy r cov(
y x
xy = −
⋅
= −
= ⋅
Przykład (3)
Istnieje bardzo silna liniowa zależność korelacyjna między czasem pracy
a wydajnością
Zależność tą cechuje korelacja ujemna,
czyli im dłuższy czas pracy tym niższa
średnia wydajność pracy
Przykład (4)
Dana jest tablica korelacyjna stażu pracy (Y) pracowników
w pewnym zakładzie oraz liczby pobranych przez nich pożyczek (X) z kasy zapomogowo-pożyczkowej.
Liczba pożyczek
Staż pracy w latach
0 – 4 4 - 8 8 - 12
1 – 2 30 3 -
3 – 4 4 18 12
5 – 6 - 1 8
Obliczyć współczynnik korelacji między stażem pracy pracowników a liczbą pobranych pożyczek
Przykład (5)
0 – 4 4 - 8 8 - 12 ni nixi nixi2
1 – 2 30 3 - 33 49,5 74,25
3 – 4 4 18 12 34 119 416,5
5 – 6 - 1 8 9 49,5 272,25
nj 34 22 20 76 218 763
njyj 68 132 200 400
njyj2 136 792 2000 2928
X Y