„ANALIZA KORELACJI I REGRESJI”
Regresja (model regresyjny) jeśli między dwoma cechami występuje związek, to w następnym etapie buduje się model.
Współczynnik korelacji liniowej Pearsona.
r x y s x s y
cov( , ) ( ) * ( )
gdzie cov(x,y) to kowariancja - miara wspólzmienności:
cov( , )x y ( )( )
n xi x y y
i n
i
1
1
przyjmująca wartości z przedziału [-s(x)s(y); +s(x)s(y)]
Współczynnik korelacji mówi o sile i kierunku związku między zmiennymi. Przyjmuje wartości z przedziału r [-1;1]
Wartość współczynnika mówi o sile związku. Im jest bliższa zera tym słabszy związek im bliżej 1 lub -1 tym silniejszy. Wartość 1 oznacza idealny związek liniowy.
Znak współczynnika korelacji mówi o kierunku związku „+” oznacza związek dodatni, tj. wzrost (spadek) wartości jednej cechy powoduje wzrost (spadek) wartości drugiej. „ - ” kierunek ujemny, tj. wzrost (spadek) wartości cechy powoduje spadek (wzrost) wartości drugiej.
Przyjmuje się następujące oceny siły związku (pamiętając o odpowiedniej liczebności próby) do 0,3 słaba
od 0,3 do 0,5 średnia powyżej 0,5 wyraźna
Wykres rozrzutu (diagram korelacyjny)
wydatki na żywność
x x x x x
x x x
x
dochody miesięczne
Linia (model) regresji Y względem X (X Y)
y ax b y -teoretyczna wartość y
gdzie metodą najmniejszych kwadratów (MNK) można wyznaczyć wartość parametrów „a” i „b”
a
x x y y
x x
x y s x
i i
i n
i
( ) * ( )
( )
cov( , ) ( )
1
2
2
b y a x
Parametr „a” można także obliczyć korzystając ze wzoru:
a rs y
s x( ) ( )
Interpretacja parametrów prostej regresji.
a>0 jeśli „x” wzrośnie o 1 jednostkę, to „y” wzrośnie średnio o „a” jednostek.
A<0 jeśli „x” wzrośnie o 1 jednostkę, to „y” spadnie średnio o „a” jednostek.
Linia model regresji X względem Y (y x)
1
x cy d gdzie wartość parametrów można wyznaczyć:
c
x x y y
y y
x y s y
i i
i n
i i
n
( ) * ( )
( )
cov( , ) ( )
1
2 1
2
d x c y
Parametr „c” można także obliczyć korzystająć ze wzoru:
c r s x
s y( ) ( )
(r a c ) - muszą mieć taki sam znak
Pomiędzy współczynnikami prostych regresji „a” i „c” zachodzi związek:
r ac
Im proste regresji leżą bliżej siebie, tym silniejszy związek korelacji.
Nie ma związku
Dokładność funkcji regresji.
Ocenia dopasowanie modelu do danych empirycznych. Jej pomiar opiera się na obliczaniu reszt tj. różnic:
ui yi yi
yi -to wartość empiryczna cechy y
yi -to wartość teoretyczna obliczona na podstawie funkcji regresji Reszta określa niedokładność szacunku i-tej wartości cechy.
Syntetycznym miernikiem jakości modelu jest tzw. Wariancja resztowa:
S u y y
n
n n
i i
i
n i
i n
2
1
2 1
2 2
( ) ( )
Która ocenia rozproszenie wartości empirycznych wokół teoretycznych.
S(n) to odchylenie standartowe reszt, które mówi o tym jakie jest przeciętne odchylenie wartości empirycznych od wartości teoretycznych. Im bliższe jest 0 tym lepsza funkcja (model) regresji Dokładność lim regresji
y=ax+b
x x x x x x x x x xx x xx
Współczynnik zbierzności
2
2
2 100%
s n s y ( ) ( )*
przyjmuje wartości w przedziale [0,100%]. Ocenia w jakiej części zmiany cechy „y” nie są wyjaśnione zmianami cechy „x” Im bliżej 0 tym lepsza funkcja regresji (model)
Współczynnik determinacji:
2
R2 100% 2
Przyjmuje wartości z przedziału [0.100%] informuje o tym jaka część zmian cechy „y” jest wyjaśniona przez funkcję regresji (model). Im bliższa 100% tym lepszy model. Zachodzi zależność:
R2 2 100%
3