3. ANALIZA WSPÓŁZALEŻNOŚCI ZJAWISK
3.2. Analiza korelacji
Analiza korelacji pozwala określić siłę zależności między zmiennymi, a w przy-padku zależności liniowej dwóch zmiennych – także kierunek tej zależności.
Siłę związku między zmiennymi określa się za pomocą szeregu miar, których wy-bór zależy od tego, czy zmienne mają charakter mierzalny, czy też niemierzalny.
W pierwszym przypadku można wykorzystać współczynnik korelacji liniowej Pearsona, natomiast w drugim m.in. skorygowany współczynnik kontyngencji,
współczynnik Czuprowa i współczynnik zbieżności V-Cramera. Schemat 3.1. Rodzaje korelacji dwóch zmiennych mierzalnych Źródło: Opracowanie własne.
3.2.1. Współczynnik korelacji liniowej Pearsona
Współczynnik korelacji Pearsona określa kierunek i siłę zależności dwóch zmien-nych mierzalzmien-nych. Przyjmuje on wartości z przedziału <–1; 1>, przy czym im jego wartość jest bliższa 1 lub –1, tym zależność jest silniejsza, a im bliższa 0, tym za-leżność jest słabsza.
) ( ) (
) )(
(
1n s x s y
y y x x r
n
i i i
xy
lub ( ) ( )
1
1 x s y
s
y x y n x
r
n
i i i
xy
,
3. ANALIZA WSPÓŁZALEŻNOŚCI ZJAWISK
3.1. Informacje ogólne
Jednostki tworzące zbiorowość statystyczną charakteryzowane są zazwyczaj za pomocą wielu cech zmiennych, które nierzadko pozostają ze sobą w pewnym związku. Określenie siły, kierunku oraz kształtu tego związku możliwe jest dzięki analizie współzależności zjawisk.
Zakres analizy współzależności zjawisk:
analiza korelacji,
analiza regresji.
3.2. Analiza korelacji
Analiza korelacji pozwala określić siłę zależności między zmiennymi, a w przy-padku zależności liniowej dwóch zmiennych – także kierunek tej zależności.
Siłę związku między zmiennymi określa się za pomocą szeregu miar, których wy-bór zależy od tego, czy zmienne mają charakter mierzalny, czy też niemierzalny.
W pierwszym przypadku można wykorzystać współczynnik korelacji liniowej Pearsona, natomiast w drugim m.in. skorygowany współczynnik kontyngencji,
współczynnik Czuprowa i współczynnik zbieżności V-Cramera. Schemat 3.1. Rodzaje korelacji dwóch zmiennych mierzalnych Źródło: Opracowanie własne.
3.2.1. Współczynnik korelacji liniowej Pearsona
Współczynnik korelacji Pearsona określa kierunek i siłę zależności dwóch zmien-nych mierzalzmien-nych. Przyjmuje on wartości z przedziału <–1; 1>, przy czym im jego wartość jest bliższa 1 lub –1, tym zależność jest silniejsza, a im bliższa 0, tym za-leżność jest słabsza.
) ( ) (
) )(
(
1n s x s y
y y x x r
n
i i i
xy
lub ( ) ( )
1
1x s y
s
y x y n x
r
n
i i i
xy
,
gdzie:
x – średnia arytmetyczna zmiennej x,
y – średnia arytmetyczna zmiennej y, n – liczba par obserwacji.
Współczynnik korelacji można wyznaczyć również na podstawie współczynników kierunkowych liniowej funkcji regresji15:
x Własności współczynnika korelacji liniowej Pearsona:
rxy 0 , gdy brak współzależności,
rxy 1, gdy zależność funkcyjna (korelacja doskonała),
1 rxy 0, gdy korelacja ujemna, tzn. wraz ze wzrostem wartości jednej zmiennej maleją wartości drugiej zmiennej, i odwrotnie,
0 rxy 1, gdy korelacja dodatnia, tzn. wraz ze wzrostem wartości jednej zmiennej rosną wartości drugiej zmiennej, i odwrotnie,
rxy 0,3, gdy korelacja niewyraźna,
0,3 rxy 0,5, gdy korelacja średnia,
rxy 0,5, gdy korelacja wyraźna.
15 Zob. szerzej: rozdz. 3.3.1. Metoda Najmniejszych Kwadratów (MNK).
3.2.2. Korelacja cech jakościowych
Siłę zależności między zmiennymi niemierzalnymi można określić za pomocą skorygowanego współczynnika kontyngencji, współczynnika Czuprowa lub współczynnika zbieżności V-Cramera, które w swej konstrukcji opierają się na teście niezależności chi-kwadrat16. Współczynniki te przyjmują wartości z prze-działu <0; 1>, przy czym ich wartość bliższa 1 oznacza, że zależność jest silniej-sza, natomiast wartość bliższa 0 informuje o słabszej zależności.
3.2.2.1. Skorygowany współczynnik kontyngencji
Cmax
r – liczba wierszy w tablicy wielodzielczej, k – liczba kolumn w tablicy wielodzielczej, n – liczebność próby,
nij – liczba jednostek na przecięciu i-tego wiersza i j-tej kolumny tablicy wielo-dzielczej (liczebność empiryczna),
nij – liczebność teoretyczna,
16 Przy obliczaniu testu niezależności chi-kwadrat należy oprzeć się na dostatecznie dużej pró-bie, oraz w taki sposób podzielić obszar wartości X i Y na grupy, aby w każdej kratce tablicy wie-lodzielczej znalazła się dostatecznie duża liczebność teoretyczna (≥5).
gdzie:
x – średnia arytmetyczna zmiennej x,
y – średnia arytmetyczna zmiennej y, n – liczba par obserwacji.
Współczynnik korelacji można wyznaczyć również na podstawie współczynników kierunkowych liniowej funkcji regresji15:
x Własności współczynnika korelacji liniowej Pearsona:
rxy 0, gdy brak współzależności,
rxy 1, gdy zależność funkcyjna (korelacja doskonała),
1 rxy 0, gdy korelacja ujemna, tzn. wraz ze wzrostem wartości jednej zmiennej maleją wartości drugiej zmiennej, i odwrotnie,
0 rxy 1, gdy korelacja dodatnia, tzn. wraz ze wzrostem wartości jednej zmiennej rosną wartości drugiej zmiennej, i odwrotnie,
rxy 0,3, gdy korelacja niewyraźna,
0,3 rxy 0,5, gdy korelacja średnia,
rxy 0,5, gdy korelacja wyraźna.
15 Zob. szerzej: rozdz. 3.3.1. Metoda Najmniejszych Kwadratów (MNK).
3.2.2. Korelacja cech jakościowych
Siłę zależności między zmiennymi niemierzalnymi można określić za pomocą skorygowanego współczynnika kontyngencji, współczynnika Czuprowa lub współczynnika zbieżności V-Cramera, które w swej konstrukcji opierają się na teście niezależności chi-kwadrat16. Współczynniki te przyjmują wartości z prze-działu <0; 1>, przy czym ich wartość bliższa 1 oznacza, że zależność jest silniej-sza, natomiast wartość bliższa 0 informuje o słabszej zależności.
3.2.2.1. Skorygowany współczynnik kontyngencji
Cmax
r – liczba wierszy w tablicy wielodzielczej, k – liczba kolumn w tablicy wielodzielczej, n – liczebność próby,
nij – liczba jednostek na przecięciu i-tego wiersza i j-tej kolumny tablicy wielo-dzielczej (liczebność empiryczna),
nij – liczebność teoretyczna,
16 Przy obliczaniu testu niezależności chi-kwadrat należy oprzeć się na dostatecznie dużej pró-bie, oraz w taki sposób podzielić obszar wartości X i Y na grupy, aby w każdej kratce tablicy wie-lodzielczej znalazła się dostatecznie duża liczebność teoretyczna (≥5).
n. – liczebność brzegowa liczona dla j-tej kolumny po wszystkich wier-szach.
3.2.2.2. Współczynnik Czuprowa
)
3.2.2.3. Współczynnik zbieżności V-Cramera