• Nie Znaleziono Wyników

M ODEL R EGRESJI LINIOWEJ R EGRESJA I KORELACJA

N/A
N/A
Protected

Academic year: 2021

Share "M ODEL R EGRESJI LINIOWEJ R EGRESJA I KORELACJA"

Copied!
12
0
0

Pełen tekst

(1)

Statystyka i opracowanie danych Ćwiczenia 5

Izabela Olejarczyk - Wożeńska AGH, WIMiIP, KISIM

R EGRESJA I KORELACJA M

ODEL REGRESJI LINIOWEJ

M

ODEL REGRESJI WIELORAKIEJ

M ODEL R EGRESJI LINIOWEJ Analiza regresji i korelacji

MODEL: oszacowanie modelu regresji, wykres rozrzutu Y = β

0

+ β

1

x + ε, r=?

Współczynniki regresji β

0

(oszacowana wartość wyrazu wolnego), β

1

(oszacowana wartość współczynnika regresji) można wyznaczyć korzystając z metody najmniejszych kwadratów.

ε – składnik losowy,

r – współczynnik korelacji liniowej Pearsona,

r

2

– współczynnik determinacji, przyjmujący wartości z przedziału [0,1], jest miarą stopnia w jakim model wyjaśnia kształtowanie się zmiennej Y. Im jego wartość jest bliższa 1, tym lepsze dopasowanie modelu do danych empirycznych

|r|=0 zmienne nie są skorelowane 0,0 ≤ |r| < 0,1 korelacja nikła

0,1 ≤ |r| < 0,3 korelacja słaba 0,3 ≤ |r| < 0,5 korelacja przeciętna 0,5 ≤ |r| < 0,7 korelacja wysoka

0,7 ≤ |r| < 0,9 korelacja bardzo wysoka 0,9 ≤ |r| < 1 korelacja prawie pełna

dla modelu liniowego regresji prostej używamy:

--| Statystyka

--| Statystyki podstawowe i tabele

--| Macierze korelacji

(2)

Zadanie 1.

Plik zad_11_gaz.sta zawiera dane do budowy modelu opisującego dzienne zużycie gazu w zależności od średniej temperatury dobowej, dobowej prędkości wiatru oraz dni wolnych.

Dane dotyczą jednego sezonu grzewczego w kilku miastach.

a. Sporządź macierz korelacji.

b. Sprawdź, czy ZUŻYCIE gazu jest skorelowane z PRĘDKOŚCIĄ WIATRU oraz faktem, czy dzień jest wolny czy pracujący;

c. narysuj wykres rozrzutu dla zmiennych ZUŻYCIE i ŚREDNIA TEMP.

DOBOWA;

d. Zbuduj model regresji liniowej do oceny wpływu średniej temperatury dobowej na zużycie gazu. Zweryfikuj i zinterpretuj otrzymany model;

ad. (a, b) Zadania:

korelacja

istotna

statystycznie

(3)

ad. (c) Wykres rozrzutu dla dwóch zmiennych:

(4)

ad. (d) Budowanie modelu regresji:

MODEL REGRESJI: Zużycie = 237,10 – 6,94 * Śr. temp; r = – 0,96; r

2

= 0,91; p=0,00

Weryfikacja:

H

0

: Współczynnik korelacji liniowej Pearsona r=0 H

1

: Współczynnik korelacji liniowej Pearsona r≠0

p = 0,00 < 0,05 skąd wniosek, że współczynnik korelacji liniowej istnieje i jest istotny statystycznie

WERYFIKACJA modelu – badanie istotności korelacji

(5)

Interpretacja i WNIOSKI:

– współczynnik korelacji: r = – 0,96

– korelacja istnieje (jest istotna statystycznie) – jest prawie pełna

– jest ujemna, co oznacza, że wraz ze spadkiem temperatury wzrasta zużycie gazu – współczynnik determinacji: r

2

= 0,91

– 91% zmienności zmiennej zużycia gazu wyjaśniono przez model regresji liniowej – przy temperaturze 0°C zużycie wynosi 237,1 (wyraz wolny)

– każdy spadek temperatury o 1°C oznacza wzrost zużycia gazu o 6,94 (współczynnik regresji)

Odpowiedź: Zużycie gazu skorelowane jest jedynie ze średnią temperaturą. Pozostałe zmienne: Prędkość wiatru i dni wolne nie wykazują korelacji ze zużyciem gazu. W obu przypadkach korelacja nie jest istotna statystycznie, p> 0,05 (podpowiedź: STATISTICA oznacza istotne statystycznie korelacje kolorem czerwonym).

Model regresji dla zużycia względem średniej temperatury:

MODEL REGRESJI: Zużycie = 237,10 – 6,94 * Śr. temp; r = – 0,96; r

2

= 0,91; p=0,00 INTERPRETACJA modelu i WNIOSKI:

· współczynnik korelacji: r

· istnieje korelacja? jeśli r=0, brak zależności liniowej

· jaki jest jej kierunek?

· jaki jest jej stopień?

· współczynnik determinacji: R2

· jaki procent zmienności zmiennej zależnej wyjaśniony jest przez model regresji liniowej?

· co możemy powiedzieć o tej zależności na podstawie wyrazu wolnego?

· co możemy powiedzieć na podstawie współczynnika regresji?

(6)

Zadanie 2.

Aby ocenić efektywność szkolenia sprzedawców, postanowiono przeprowadzić następujący eksperyment. Grupę wylosowanych 18 sprzedawców podzielono na 6 podgrup po 3 osoby. Pierwsza podgrupa była szkolona przez okres 5 dni, druga 10 dni, trzecia 15 dni itd. Następnie rejestrowano sprzedaż osiąganą przez każdego ze sprzedawców w ciągu miesiąca. Wyniki eksperymentu przedstawiono w pliku zad_11_sprzedawcy.sta

a. Zbuduj model regresji liniowej do oceny wpływu czasu trwania szkolenia sprzedawców na uzyskiwane przez nich wyniki sprzedaży Zweryfikuj i zinterpretuj otrzymany model.

b. Pan Nowak będzie szkolony przez okres 12 dni. Jakich wyników sprzedaży można się spodziewać po zakończeniu szkolenia?

Zadanie 3.

Zespół badawczy złożony ze studentów pewnego uniwersytetu postanowił sprawdzić, czy istnieje zależność pomiędzy ceną produktu sprzedawanego w różnych sieciach supermarketów a ilością oferowanych marek (rodzajów) tego produktu. Jako przykład pilotażowy wybrano wodę mineralną Dobra Woda. Badania przeprowadzono w 12 supermarketach obserwując w nich cenę tej wody mineralnej i liczbę rodzajów sprzedawanych wód mineralnych. Wyniki badań przedstawiono w pliku zad_11_ceny_oferta.sta. Zbuduj model regresji liniowej opisujący badaną zależność.

Zweryfikuj otrzymany model.

(7)

M ODEL R EGRESJI WIELORAKIEJ

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

Liniowy model regresji wielorakiej

𝑦 = 𝛽0 + 𝛽1𝑥1 + 𝛽2𝑥2 + . . + 𝛽𝑘𝑥𝑘 + 𝜀 gdzie:

𝛽

𝑗

– parametry modelu (współczynniki regresji) 𝜀 – składnik losowy

Weryfikacja modelu:

1. liniowość modelu;

2. liczba obserwacji n musi być większa od liczby oszacowanych parametrów, tj. 𝑛 >

𝑘 + 1. (liczba 𝑛 powinna być wielokrotnie większa od liczby oszacowanych parametrów);

3. żadna ze zmiennych niezależnych nie jest kombinacją liniową innych zmiennych niezależnych czyli brak jest współliniowości (nadmiarowości);

4. Składnik losowy 𝜀

𝑖

ma wartość oczekiwaną równą zeru (𝐸(𝜀

𝑖

) = 0 dla wszystkich 𝑖 = 1, 2, . . . , 𝑛);

5. wariancja składnika losowego (reszt 𝜀

𝑖

) jest taka sama dla wszystkich obserwacji - Takie założenie nosi nazwę homoscedastyczności i mówi, że czynniki ujęte w modelu mają taką samą zmienność (rozrzut) niezależnie od numeru obserwacji.

6. brak autokorelacji reszt;

7. każdy ze składników losowych (reszty) ma rozkład normalny 𝑁(0, 𝜎) tj. średniej 0 i wariancji 𝜎

2

;

Zadanie 1.

Dane z badań przeprowadzonych w 1996 roku przez Uniwersytet Warszawski i Akademię Ekonomiczną w Krakowie. Rozesłano ankiety do do 5000 pracowników wylosowanych przez GUS.

Ankiety zwróciło 1255 osób. Arkusz danych zawiera wybrane informacje o badanych osobach. (place.sta).

Zbuduj, zweryfikuj i zinterpretuj model regresji wielorakiej opisujący zależność płacy brutto od wieku i stażu pracy.

Zaprognozuj zarobki dla wieku 25 lat i doświadczenia 1 rok.

Zadania:

(8)

Rozwiązanie:

dla modelu regresji wielorakiej używamy:

--| Statystyka

--| Regresja wieloraka

model istotny statystycznie

zmienna zależna

istotność wyrazu wolnego

staż pracy istotny statystycznie wiek – istotny

statystycznie

(9)

1. liniowość modelu:

 wykresy rozrzutu

oszacowany model regresji:

Płaca brutto = 342,28 + 14,9*Wiek – 10,6*Staż pracy ± 357,1

R

2

=0,11

prawy

przycisk

myszy

(10)

2. liczba obserwacji n musi być większa od liczby oszacowanych parametrów, tj. 𝑛 >

𝑘 + 1. (liczba 𝑛 powinna być wielokrotnie większa od liczby oszacowanych parametrów);

 𝑛 = 1218; 𝑘 = 3

3. żadna ze zmiennych niezależnych nie jest kombinacją liniową innych zmiennych niezależnych czyli brak jest współliniowości (nadmiarowości);

 macierz korelacji

 nadmiarowość (Statystyka->Regresja wieloraka->zakładka: Więcej->

Nadmiarowość)

 Im mniejsza jest tolerancja zmiennej tym bardziej nadmiarowy jest jej wkład w równanie regresji. Jeśli 𝑡𝑜𝑙𝑒𝑟𝑎𝑛𝑐𝑗𝑎 = 0 - nie można obliczyć współczynników równania regresji. Jeśli tolerancja dla zmiennej spada poniżej 0,1 to wówczas taki model regresji staje się mało przydatny.

 wartość 𝑅

2

informuje nas, ile zmienności danej zmiennej jest wyjaśnione przez pozostałe zmienne. Im bliżej jedności, tym bardziej nadmiarowa jest zmienna 4. Składnik losowy 𝜀

𝑖

ma wartość oczekiwaną równą zeru (𝐸(𝜀

𝑖

) = 0 dla wszystkich 𝑖 =

1, 2, . . . , 𝑛);

 można utworzyć wykres normalności reszt (zakładka Reszty->Wykonaj analizę reszt-> Wykres normalności reszt)

Wykres normalności reszt

-1000 -500 0 500 1000 1500 2000 2500

Reszty -4

-3 -2 -1 0 1 2 3 4

Wartość normalna

(11)

5. wariancja składnika losowego (reszt 𝜀

𝑖

) jest taka sama dla wszystkich obserwacji - Takie założenie nosi nazwę homoscedastyczności i mówi, że czynniki ujęte w modelu mają taką samą zmienność (rozrzut) niezależnie od numeru obserwacji.

 Statystyka->Regresja wieloraka->Analiza reszt-> zakładka: Wykresy rozrzutu-

>Reszty względem przewidywanych/Kwadraty reszt względem przewidywanych

 Założenie homoscedastyczności jest naruszone jeśli wartości reszt są bardziej zróżnicowane (rozrzucone) dla pewnych wartości przewidywanych niż dla innych lub kiedy wartości wariancji zdają się rosnąć wraz ze wzrostem wartości przewidywanej.

6. brak autokorelacji reszt;

 𝐻

0

: 𝑎𝑢𝑡𝑜𝑘𝑜𝑟𝑒𝑙𝑎𝑐𝑗𝑎 = 0 𝐻

1

: 𝑎𝑢𝑡𝑜𝑘𝑜𝑟𝑒𝑙𝑎𝑐𝑗𝑎 ≠ 0

 Statystyka->Regresja wieloraka->Analiza reszt-> zakładka: Więcej->

Statystyka Durbina - Watsona

7. każdy ze składników losowych (reszty) ma rozkład normalny 𝑁(0, 𝜎) tj. średniej 0 i wariancji 𝜎

2

;

 wykres normalności reszt (pkt. 4) Interpretacja modelu:

 obie zmienne objaśniające są istotne w modelu (ich wpływ jest istotny)

 dodatnie oddziaływanie wieku na płacę

b*: standaryzowany wskaźnik siły powiązania wskazuje, że wiek jest silniej związany z płacą niż staż pracy

 Staż pracy (wbrew przewidywaniom) wpływa ujemnie na płacę, co oznacza, że w przypadku badanych pracowników – wraz z wiekiem płaca rośnie, ale liczba lat pracy spowalnia ten efekt

 współczynnik determinacji (miara dopasowania modelu - wartość tego współczynnika mieści się w przedziale < 0; 1 >, gdzie 1 oznacza doskonałe dopasowanie modelu, 0 – zupełny bark dopasowania) 𝑅

2

= 0,11, czyli jedynie 11%

ogólnej zmienności PŁACY wyjaśnione jest przez model. Należy poszukiwać innych

czynników wpływających na płacę.

(12)

Interpretacja graficzna:

 Wykresy->Wykresy XYX 3W-> Wykresy powierzchniowe

Wykres powierzchniowy 3W Płaca brutto względem Wiek i Staż pracy place.sta 5v*1255c

Płaca brutto = 342,2797+14,8865*x-10,5938*y

> 1500 < 1100 < 600 < 100

1 0 2 0

3 0 4 0

5 0 6 0

7 0 8 0

Wiek

0 - 5 1 0 5 2 0 1 5 3 0 2 5 4 0 3 5 4 5

S t a ż pr a c y 0

500 1000 1500 2000 2500 3000 3500

Płaca brutto

Prognoza zmiennej zależnej:

 Statystyka->Regresja wieloraka-> zakładka: Reszty, założenia, predykcja->Predykcja zmiennej zależnej

Zadanie 3

Pośrednik w handlu nieruchomościami jest zainteresowany oszacowaniem wpływu powierzchni budynku i jego odległości od centrum miasta na wartość budynku. Plik nieruchomości.sta zawiera informacje o dziewięciu losowo wybranych budynkach.

Zbuduj, zweryfikuj i zinterpretuj model regresji wielorakiej opisujący zależność wartości

budynku od jego powierzchni i odległości od centrum.

Cytaty

Powiązane dokumenty

Te szczególne przypadki zerowego obciążenia estymatorów (7), (8), (9) modelu (1) przy założeniach e) i d) oraz przyjętym modelu obiektywnej heteroscedastyczności nazywać

Im bardziej wartość współczynnika korelacji jest bliska wartości 1, tym większa (dodatnia) zależność liniowa między zmiennymi x i y.. Gdy współczynnik korelacji jest

And again it was G¨ odel, who at the time (1934) was in Princeton, who led Church and his students to take a broader view: his skepticism about Church’s thesis when first

Rozpatrując odpowiedzi reaktora na zmianę stężenia inhibitora można zaobserwować dobrą zgodność wyników doświadczalnych z rezultatami obliczeń w przypadku

Metodą różniczki zupełnej oszacować parametry strukturalne modelu plonów pszenicy (Y) w zależności od zużycia nawozów mineralnych.. Sprawdzić, czy w modelu tym

Zbuduj model regresji liniowej do oceny wpływu czasu trwania szkolenia sprzedawców na uzyskiwane przez nich wyniki sprzedaży Zweryfikuj i zinterpretuj

wariancja składnika losowego

wiadomość poczty elektronicznej może powstać w sieci LAN, następnie podróżować po kampusowej sieci szkieletowej, a następnie wyjść poprzez łącze WAN, aż dotrze do