• Nie Znaleziono Wyników

R EGRESJA WIELORAKA

N/A
N/A
Protected

Academic year: 2021

Share "R EGRESJA WIELORAKA"

Copied!
7
0
0

Pełen tekst

(1)

Statystyka i opracowanie danych Ćwiczenia 12

Izabela Olejarczyk - Wożeńska AGH, WIMiIP, KISIM

R EGRESJA WIELORAKA

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

Liniowy model regresji wielorakiej

𝑦 = 𝛽0 + 𝛽1𝑥1 + 𝛽2𝑥2 + . . + 𝛽𝑘𝑥𝑘 + 𝜀 gdzie:

𝛽 𝑗 – parametry modelu (współczynniki regresji) 𝜀 – składnik losowy

Parametry modelu szacuje się metodą najmniejszych kwadratów tj. tak, aby suma kwadratów zaobserwowanych odchyleń (reszt) od hiperpłaszczyzny regresji była najmniejsza.

𝑠 = ∑ 𝑠 𝑗 2 = ∑(𝑦 𝑗 − 𝑏 0 − 𝑏 1 𝑥 1𝑗 − ⋯ − 𝑏 𝑘 𝑥 𝑘𝑗 ) 2 = 𝑚𝑖𝑛

𝑗 𝑗

Aby model był jak najbardziej wiarygodny należy wprowadzić do modelu jak największą liczbę zmiennych niezależnych. W modelu powinny się znaleźć zmienne silnie skorelowane ze zmienną zależną i jednocześnie jak najsłabiej skorelowane między sobą.

Weryfikacja modelu:

1. liniowość modelu;

2. liczba obserwacji n musi być większa od liczby oszacowanych parametrów, tj. 𝑛 >

𝑘 + 1. (liczba 𝑛 powinna być wielokrotnie większa od liczby oszacowanych parametrów);

3. żadna ze zmiennych niezależnych nie jest kombinacją liniową innych zmiennych niezależnych czyli brak jest współliniowości (nadmiarowości);

4. Składnik losowy 𝜀 𝑖 ma wartość oczekiwaną równą zeru (𝐸(𝜀 𝑖 ) = 0 dla wszystkich 𝑖 = 1, 2, . . . , 𝑛);

5. wariancja składnika losowego (reszt 𝜀 𝑖 ) jest taka sama dla wszystkich obserwacji - Takie założenie nosi nazwę homoscedastyczności i mówi, że czynniki ujęte w modelu mają taką samą zmienność (rozrzut) niezależnie od numeru obserwacji.

6. brak autokorelacji reszt;

(2)

7. każdy ze składników losowych (reszty) ma rozkład normalny 𝑁(0, 𝜎) tj. średniej 0 i wariancji 𝜎 2 ;

Zadanie 1.

Dane z badań przeprowadzonych w 1996 roku przez Uniwersytet Warszawski i Akademię Ekonomiczną w Krakowie. Rozesłano ankiety do do 5000 pracowników wylosowanych przez GUS.

Ankiety zwróciło 1255 osób. Arkusz danych zawiera wybrane informacje o badanych osobach. (place.sta).

Zbuduj, zweryfikuj i zinterpretuj model regresji wielorakiej opisujący zależność płacy brutto od wieku i stażu pracy.

Zaprognozuj zarobki dla wieku 25 lat i doświadczenia 1 rok.

Rozwiązanie:

dla modelu regresji wielorakiej używamy:

--| Statystyka

--| Regresja wieloraka

Zadania:

(3)

1. liniowość modelu:

 wykresy rozrzutu

WERYFIKACJA modelu – badanie istotności korelacji

model istotny statystycznie

zmienna zależna

istotność wyrazu wolnego

staż pracy istotny statystycznie wiek – istotny

statystycznie

oszacowany model regresji:

Płaca brutto = 342,28 + 14,9*Wiek – 10,6*Staż pracy ± 357,1

R 2 =0,11

(4)

2. liczba obserwacji n musi być większa od liczby oszacowanych parametrów, tj. 𝑛 >

𝑘 + 1. (liczba 𝑛 powinna być wielokrotnie większa od liczby oszacowanych parametrów);

 𝑛 = 1218; 𝑘 = 3

3. żadna ze zmiennych niezależnych nie jest kombinacją liniową innych zmiennych niezależnych czyli brak jest współliniowości (nadmiarowości);

 macierz korelacji

 nadmiarowość (Statystyka->Regresja wieloraka->zakładka: Więcej->

Nadmiarowość)

prawy

przycisk

myszy

(5)

 Im mniejsza jest tolerancja zmiennej tym bardziej nadmiarowy jest jej wkład w równanie regresji. Jeśli 𝑡𝑜𝑙𝑒𝑟𝑎𝑛𝑐𝑗𝑎 = 0 - nie można obliczyć współczynników równania regresji. Jeśli tolerancja dla zmiennej spada poniżej 0,1 to wówczas taki model regresji staje się mało przydatny.

 wartość 𝑅 2 informuje nas, ile zmienności danej zmiennej jest wyjaśnione przez pozostałe zmienne. Im bliżej jedności, tym bardziej nadmiarowa jest zmienna 4. Składnik losowy 𝜀 𝑖 ma wartość oczekiwaną równą zeru (𝐸(𝜀 𝑖 ) = 0 dla wszystkich 𝑖 =

1, 2, . . . , 𝑛);

 można utworzyć wykres normalności reszt (zakładka Reszty->Wykonaj analizę reszt-> Wykres normalności reszt)

Wykres normalności reszt

-1000 -500 0 500 1000 1500 2000 2500

Reszty -4

-3 -2 -1 0 1 2 3 4

Wartość normalna

5. wariancja składnika losowego (reszt 𝜀 𝑖 ) jest taka sama dla wszystkich obserwacji - Takie założenie nosi nazwę homoscedastyczności i mówi, że czynniki ujęte w modelu mają taką samą zmienność (rozrzut) niezależnie od numeru obserwacji.

 Statystyka->Regresja wieloraka->Analiza reszt-> zakładka: Wykresy rozrzutu-

>Reszty względem przewidywanych/Kwadraty reszt względem przewidywanych

(6)

 Założenie homoscedastyczności jest naruszone jeśli wartości reszt są bardziej zróżnicowane (rozrzucone) dla pewnych wartości przewidywanych niż dla innych lub kiedy wartości wariancji zdają się rosnąć wraz ze wzrostem wartości przewidywanej.

6. brak autokorelacji reszt;

 𝐻 0 : 𝑎𝑢𝑡𝑜𝑘𝑜𝑟𝑒𝑙𝑎𝑐𝑗𝑎 = 0 𝐻 1 : 𝑎𝑢𝑡𝑜𝑘𝑜𝑟𝑒𝑙𝑎𝑐𝑗𝑎 ≠ 0

 Statystyka->Regresja wieloraka->Analiza reszt-> zakładka: Więcej->

Statystyka Durbina - Watsona

7. każdy ze składników losowych (reszty) ma rozkład normalny 𝑁(0, 𝜎) tj. średniej 0 i wariancji 𝜎 2 ;

 wykres normalności reszt (pkt. 4) Interpretacja modelu:

 obie zmienne objaśniające są istotne w modelu (ich wpływ jest istotny)

 dodatnie oddziaływanie wieku na płacę

b*: standaryzowany wskaźnik siły powiązania wskazuje, że wiek jest silniej związany z płacą niż staż pracy

 Staż pracy (wbrew przewidywaniom) wpływa ujemnie na płacę, co oznacza, że w przypadku badanych pracowników – wraz z wiekiem płaca rośnie, ale liczba lat pracy spowalnia ten efekt

 współczynnik determinacji (miara dopasowania modelu - wartość tego współczynnika mieści się w przedziale < 0; 1 >, gdzie 1 oznacza doskonałe dopasowanie modelu, 0 – zupełny bark dopasowania) 𝑅 2 = 0,11, czyli jedynie 11%

ogólnej zmienności PŁACY wyjaśnione jest przez model. Należy poszukiwać innych czynników wpływających na płacę.

Interpretacja graficzna:

 Wykresy->Wykresy XYX 3W-> Wykresy powierzchniowe

Wykres powierzchniowy 3W Płaca brutto względem Wiek i Staż pracy place.sta 5v*1255c

Płaca brutto = 342,2797+14,8865*x-10,5938*y

> 1500 < 1100 < 600 < 100

1 0 2 0

3 0 4 0

5 0 6 0

7 0 8 0

Wiek

0 - 5 1 0 5 2 0 1 5 3 0 2 5 4 0 3 5 4 5

S t a ż pr a c y 0

500 1000 1500 2000 2500 3000 3500

Płaca brutto

(7)

Prognoza zmiennej zależnej:

 Statystyka->Regresja wieloraka-> zakładka: Reszty, założenia, predykcja->Predykcja zmiennej zależnej

Zadanie 3

Pośrednik w handlu nieruchomościami jest zainteresowany oszacowaniem wpływu powierzchni budynku i jego odległości od centrum miasta na wartość budynku. Plik nieruchomości.sta zawiera informacje o dziewięciu losowo wybranych budynkach.

Zbuduj, zweryfikuj i zinterpretuj model regresji wielorakiej opisujący zależność wartości

budynku od jego powierzchni i odległości od centrum.

Cytaty

Powiązane dokumenty

Zauważmy, że dzięki postaci (9) kurtozy wielowymiarowego rozkładu normalnego uzyskujemy dwie istotne własności ekscesu wektora losowego speł- nione także w

Zbuduj model regresji liniowej do oceny wpływu czasu trwania szkolenia sprzedawców na uzyskiwane przez nich wyniki sprzedaży Zweryfikuj i zinterpretuj

Autorki kolejnych opracowań tej części omawianej pracy szczegółowo opisują etapy praktycznej nauki pracy socjalnej w Szkole Policealnej Pracowników Służb

Linia regresji wyraża najlepszą predykcję zmiennej zależnej (Y) przy danych zmiennych niezależnych (X).. Zazwyczaj mamy do czynienia z odchyleniami punktów pomiarowych od

Wbrew poglądowi Sądu Najwyższego nie widać podstaw do przyję­ cia, że treść ustawy o działalności ubezpieczeniowej z uwagi na wyszczególnienie dochodów

Przy tak znacznym zaangażowaniu się księżnej w przedsięwzięcie nie wydaje się możliwe, by przekład Szymańskiego mógł powstać bez bezpośrednich z nią

Podczas posiedzenia Komitetu Wspó³pracy Wojskowej 11 kwietnia dysku- towano o mo¿liwej reakcji na inwazjê Holandii lub Belgii przez Niemcy. Sze- fowie brytyjskiego Sztabu

Wspieranie badań i działalności marketingowej, służących identyfi ko- waniu i otwieraniu nowych rynków dla produktów i usług kreatyw- nych (produkty i usługi „kreatywne”