Statystyka i opracowanie danych Ćwiczenia 12
Izabela Olejarczyk - Wożeńska AGH, WIMiIP, KISIM
R EGRESJA WIELORAKA
Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).
Liniowy model regresji wielorakiej
𝑦 = 𝛽0 + 𝛽1𝑥1 + 𝛽2𝑥2 + . . + 𝛽𝑘𝑥𝑘 + 𝜀 gdzie:
𝛽 𝑗 – parametry modelu (współczynniki regresji) 𝜀 – składnik losowy
Parametry modelu szacuje się metodą najmniejszych kwadratów tj. tak, aby suma kwadratów zaobserwowanych odchyleń (reszt) od hiperpłaszczyzny regresji była najmniejsza.
𝑠 = ∑ 𝑠 𝑗 2 = ∑(𝑦 𝑗 − 𝑏 0 − 𝑏 1 𝑥 1𝑗 − ⋯ − 𝑏 𝑘 𝑥 𝑘𝑗 ) 2 = 𝑚𝑖𝑛
𝑗 𝑗
Aby model był jak najbardziej wiarygodny należy wprowadzić do modelu jak największą liczbę zmiennych niezależnych. W modelu powinny się znaleźć zmienne silnie skorelowane ze zmienną zależną i jednocześnie jak najsłabiej skorelowane między sobą.
Weryfikacja modelu:
1. liniowość modelu;
2. liczba obserwacji n musi być większa od liczby oszacowanych parametrów, tj. 𝑛 >
𝑘 + 1. (liczba 𝑛 powinna być wielokrotnie większa od liczby oszacowanych parametrów);
3. żadna ze zmiennych niezależnych nie jest kombinacją liniową innych zmiennych niezależnych czyli brak jest współliniowości (nadmiarowości);
4. Składnik losowy 𝜀 𝑖 ma wartość oczekiwaną równą zeru (𝐸(𝜀 𝑖 ) = 0 dla wszystkich 𝑖 = 1, 2, . . . , 𝑛);
5. wariancja składnika losowego (reszt 𝜀 𝑖 ) jest taka sama dla wszystkich obserwacji - Takie założenie nosi nazwę homoscedastyczności i mówi, że czynniki ujęte w modelu mają taką samą zmienność (rozrzut) niezależnie od numeru obserwacji.
6. brak autokorelacji reszt;
7. każdy ze składników losowych (reszty) ma rozkład normalny 𝑁(0, 𝜎) tj. średniej 0 i wariancji 𝜎 2 ;
Zadanie 1.
Dane z badań przeprowadzonych w 1996 roku przez Uniwersytet Warszawski i Akademię Ekonomiczną w Krakowie. Rozesłano ankiety do do 5000 pracowników wylosowanych przez GUS.
Ankiety zwróciło 1255 osób. Arkusz danych zawiera wybrane informacje o badanych osobach. (place.sta).
Zbuduj, zweryfikuj i zinterpretuj model regresji wielorakiej opisujący zależność płacy brutto od wieku i stażu pracy.
Zaprognozuj zarobki dla wieku 25 lat i doświadczenia 1 rok.
Rozwiązanie:
dla modelu regresji wielorakiej używamy:
--| Statystyka
--| Regresja wieloraka
Zadania:
1. liniowość modelu:
wykresy rozrzutu
WERYFIKACJA modelu – badanie istotności korelacji
model istotny statystycznie
zmienna zależna
istotność wyrazu wolnego
staż pracy istotny statystycznie wiek – istotny
statystycznie
oszacowany model regresji:
Płaca brutto = 342,28 + 14,9*Wiek – 10,6*Staż pracy ± 357,1
R 2 =0,11
2. liczba obserwacji n musi być większa od liczby oszacowanych parametrów, tj. 𝑛 >
𝑘 + 1. (liczba 𝑛 powinna być wielokrotnie większa od liczby oszacowanych parametrów);
𝑛 = 1218; 𝑘 = 3
3. żadna ze zmiennych niezależnych nie jest kombinacją liniową innych zmiennych niezależnych czyli brak jest współliniowości (nadmiarowości);
macierz korelacji
nadmiarowość (Statystyka->Regresja wieloraka->zakładka: Więcej->
Nadmiarowość)
prawy
przycisk
myszy
Im mniejsza jest tolerancja zmiennej tym bardziej nadmiarowy jest jej wkład w równanie regresji. Jeśli 𝑡𝑜𝑙𝑒𝑟𝑎𝑛𝑐𝑗𝑎 = 0 - nie można obliczyć współczynników równania regresji. Jeśli tolerancja dla zmiennej spada poniżej 0,1 to wówczas taki model regresji staje się mało przydatny.
wartość 𝑅 2 informuje nas, ile zmienności danej zmiennej jest wyjaśnione przez pozostałe zmienne. Im bliżej jedności, tym bardziej nadmiarowa jest zmienna 4. Składnik losowy 𝜀 𝑖 ma wartość oczekiwaną równą zeru (𝐸(𝜀 𝑖 ) = 0 dla wszystkich 𝑖 =
1, 2, . . . , 𝑛);
można utworzyć wykres normalności reszt (zakładka Reszty->Wykonaj analizę reszt-> Wykres normalności reszt)
Wykres normalności reszt
-1000 -500 0 500 1000 1500 2000 2500
Reszty -4
-3 -2 -1 0 1 2 3 4
Wartość normalna
5. wariancja składnika losowego (reszt 𝜀 𝑖 ) jest taka sama dla wszystkich obserwacji - Takie założenie nosi nazwę homoscedastyczności i mówi, że czynniki ujęte w modelu mają taką samą zmienność (rozrzut) niezależnie od numeru obserwacji.
Statystyka->Regresja wieloraka->Analiza reszt-> zakładka: Wykresy rozrzutu-
>Reszty względem przewidywanych/Kwadraty reszt względem przewidywanych
Założenie homoscedastyczności jest naruszone jeśli wartości reszt są bardziej zróżnicowane (rozrzucone) dla pewnych wartości przewidywanych niż dla innych lub kiedy wartości wariancji zdają się rosnąć wraz ze wzrostem wartości przewidywanej.
6. brak autokorelacji reszt;
𝐻 0 : 𝑎𝑢𝑡𝑜𝑘𝑜𝑟𝑒𝑙𝑎𝑐𝑗𝑎 = 0 𝐻 1 : 𝑎𝑢𝑡𝑜𝑘𝑜𝑟𝑒𝑙𝑎𝑐𝑗𝑎 ≠ 0
Statystyka->Regresja wieloraka->Analiza reszt-> zakładka: Więcej->
Statystyka Durbina - Watsona
7. każdy ze składników losowych (reszty) ma rozkład normalny 𝑁(0, 𝜎) tj. średniej 0 i wariancji 𝜎 2 ;
wykres normalności reszt (pkt. 4) Interpretacja modelu:
obie zmienne objaśniające są istotne w modelu (ich wpływ jest istotny)
dodatnie oddziaływanie wieku na płacę
b*: standaryzowany wskaźnik siły powiązania wskazuje, że wiek jest silniej związany z płacą niż staż pracy
Staż pracy (wbrew przewidywaniom) wpływa ujemnie na płacę, co oznacza, że w przypadku badanych pracowników – wraz z wiekiem płaca rośnie, ale liczba lat pracy spowalnia ten efekt
współczynnik determinacji (miara dopasowania modelu - wartość tego współczynnika mieści się w przedziale < 0; 1 >, gdzie 1 oznacza doskonałe dopasowanie modelu, 0 – zupełny bark dopasowania) 𝑅 2 = 0,11, czyli jedynie 11%
ogólnej zmienności PŁACY wyjaśnione jest przez model. Należy poszukiwać innych czynników wpływających na płacę.
Interpretacja graficzna:
Wykresy->Wykresy XYX 3W-> Wykresy powierzchniowe
Wykres powierzchniowy 3W Płaca brutto względem Wiek i Staż pracy place.sta 5v*1255c
Płaca brutto = 342,2797+14,8865*x-10,5938*y
> 1500 < 1100 < 600 < 100
1 0 2 0
3 0 4 0
5 0 6 0
7 0 8 0
Wiek
0 - 5 1 0 5 2 0 1 5 3 0 2 5 4 0 3 5 4 5
S t a ż pr a c y 0
500 1000 1500 2000 2500 3000 3500
Płaca brutto