Analiza korelacji - ANALIZA WSPÓŁZALEŻNOŚCI ZJAWISK

3. ANALIZA WSPÓŁZALEŻNOŚCI ZJAWISK

3.2. Analiza korelacji

Analiza korelacji pozwala określić siłę zależności między zmiennymi, a w przy-padku zależności liniowej dwóch zmiennych – także kierunek tej zależności.

Siłę związku między zmiennymi określa się za pomocą szeregu miar, których wy-bór zależy od tego, czy zmienne mają charakter mierzalny, czy też niemierzalny.

W pierwszym przypadku można wykorzystać współczynnik korelacji liniowej Pearsona, natomiast w drugim m.in. skorygowany współczynnik kontyngencji,

współczynnik Czuprowa i współczynnik zbieżności V-Cramera. Schemat 3.1. Rodzaje korelacji dwóch zmiennych mierzalnych Źródło: Opracowanie własne.

3.2.1. Współczynnik korelacji liniowej Pearsona

Współczynnik korelacji Pearsona określa kierunek i siłę zależności dwóch zmien-nych mierzalzmien-nych. Przyjmuje on wartości z przedziału <–1; 1>, przy czym im jego wartość jest bliższa 1 lub –1, tym zależność jest silniejsza, a im bliższa 0, tym za-leżność jest słabsza.

) ( ) (

) )(

(

1n s x s y

y y x x r

i i i

xy  







 lub ( ) ( )

1 x s y

y x y n x

i i i

xy 









 ,

3. ANALIZA WSPÓŁZALEŻNOŚCI ZJAWISK

3.1. Informacje ogólne

Jednostki tworzące zbiorowość statystyczną charakteryzowane są zazwyczaj za pomocą wielu cech zmiennych, które nierzadko pozostają ze sobą w pewnym związku. Określenie siły, kierunku oraz kształtu tego związku możliwe jest dzięki analizie współzależności zjawisk.

Zakres analizy współzależności zjawisk:

 analiza korelacji,

 analiza regresji.

3.2. Analiza korelacji

Analiza korelacji pozwala określić siłę zależności między zmiennymi, a w przy-padku zależności liniowej dwóch zmiennych – także kierunek tej zależności.

Siłę związku między zmiennymi określa się za pomocą szeregu miar, których wy-bór zależy od tego, czy zmienne mają charakter mierzalny, czy też niemierzalny.

W pierwszym przypadku można wykorzystać współczynnik korelacji liniowej Pearsona, natomiast w drugim m.in. skorygowany współczynnik kontyngencji,

współczynnik Czuprowa i współczynnik zbieżności V-Cramera. Schemat 3.1. Rodzaje korelacji dwóch zmiennych mierzalnych Źródło: Opracowanie własne.

3.2.1. Współczynnik korelacji liniowej Pearsona

) ( ) (

) )(

(

1n s x s y

y y x x r

i i i

xy  







 lub ( ) ( )

1x s y

y x y n x

i i i

xy 









 ,

gdzie:

x – średnia arytmetyczna zmiennej x,

y – średnia arytmetyczna zmiennej y, n – liczba par obserwacji.

Współczynnik korelacji można wyznaczyć również na podstawie współczynników kierunkowych liniowej funkcji regresji¹⁵:

x Własności współczynnika korelacji liniowej Pearsona:

 rxy  0 , gdy brak współzależności,

 rxy  1, gdy zależność funkcyjna (korelacja doskonała),

 1 rxy  0, gdy korelacja ujemna, tzn. wraz ze wzrostem wartości jednej zmiennej maleją wartości drugiej zmiennej, i odwrotnie,

 0  rxy  1, gdy korelacja dodatnia, tzn. wraz ze wzrostem wartości jednej zmiennej rosną wartości drugiej zmiennej, i odwrotnie,

 r_xy  0,3, gdy korelacja niewyraźna,

 0,3 r_xy  0,5, gdy korelacja średnia,

 r_xy  ₀_,₅, gdy korelacja wyraźna.

15 Zob. szerzej: rozdz. 3.3.1. Metoda Najmniejszych Kwadratów (MNK).

3.2.2. Korelacja cech jakościowych

Siłę zależności między zmiennymi niemierzalnymi można określić za pomocą skorygowanego współczynnika kontyngencji, współczynnika Czuprowa lub współczynnika zbieżności V-Cramera, które w swej konstrukcji opierają się na teście niezależności chi-kwadrat¹⁶. Współczynniki te przyjmują wartości z prze-działu <0; 1>, przy czym ich wartość bliższa 1 oznacza, że zależność jest silniej-sza, natomiast wartość bliższa 0 informuje o słabszej zależności.

3.2.2.1. Skorygowany współczynnik kontyngencji

Cmax

r – liczba wierszy w tablicy wielodzielczej, k – liczba kolumn w tablicy wielodzielczej, n – liczebność próby,

nij – liczba jednostek na przecięciu i-tego wiersza i j-tej kolumny tablicy wielo-dzielczej (liczebność empiryczna),

n^ij – liczebność teoretyczna,

16 Przy obliczaniu testu niezależności chi-kwadrat należy oprzeć się na dostatecznie dużej pró-bie, oraz w taki sposób podzielić obszar wartości X i Y na grupy, aby w każdej kratce tablicy wie-lodzielczej znalazła się dostatecznie duża liczebność teoretyczna (≥5).

gdzie:

x – średnia arytmetyczna zmiennej x,

y – średnia arytmetyczna zmiennej y, n – liczba par obserwacji.

Współczynnik korelacji można wyznaczyć również na podstawie współczynników kierunkowych liniowej funkcji regresji¹⁵:

x Własności współczynnika korelacji liniowej Pearsona:

 rxy  0, gdy brak współzależności,

 rxy  1, gdy zależność funkcyjna (korelacja doskonała),

 1 rxy  0, gdy korelacja ujemna, tzn. wraz ze wzrostem wartości jednej zmiennej maleją wartości drugiej zmiennej, i odwrotnie,

 0  rxy  1, gdy korelacja dodatnia, tzn. wraz ze wzrostem wartości jednej zmiennej rosną wartości drugiej zmiennej, i odwrotnie,

 r_xy  0,3, gdy korelacja niewyraźna,

 0,3 r_xy  0,5, gdy korelacja średnia,

 r_xy  ₀_,₅, gdy korelacja wyraźna.

15 Zob. szerzej: rozdz. 3.3.1. Metoda Najmniejszych Kwadratów (MNK).

3.2.2. Korelacja cech jakościowych

3.2.2.1. Skorygowany współczynnik kontyngencji

Cmax

r – liczba wierszy w tablicy wielodzielczej, k – liczba kolumn w tablicy wielodzielczej, n – liczebność próby,

nij – liczba jednostek na przecięciu i-tego wiersza i j-tej kolumny tablicy wielo-dzielczej (liczebność empiryczna),

n^ij – liczebność teoretyczna,



n_. – liczebność brzegowa liczona dla j-tej kolumny po wszystkich wier-szach.

3.2.2.2. Współczynnik Czuprowa

)

3.2.2.3. Współczynnik zbieżności V-Cramera

g

W dokumencie STATYSTYKA OPISOWA Materiał (Stron 62-66)