Rachunek prawdopodobieństwa i statystyka W 11:
Analizy zależności pomiędzy zmiennymi losowymi – Model regresji wielokrotnej
Dr Anna ADRIAN Paw B5, pok 407 adan@agh.edu.pl
Model regresji liniowej
Model regresji liniowej prostej przyjmuje postać:
Y = E(Y/X=x) = β 0+ β1 x + ε
gdzie
• E(Y/X=x) oznacza wartość zmiennej Y oczekiwana przy warunku, że zmienna X przyjmie wartość x
• β 0, β1 są współczynnikami regresji liniowej,
• ε –oznacza składnik losowy (błąd).
Metoda Najmniejszych Kwadratów
( )
∑ − + =
−
∂ =
∂
i
i
i
b b x
b y
y 2 (
0 1) 0
0
( ˆ ) ( (
0 1) )
2min
2
= − + →
− ∑
∑
i
i i
i
i
i
y y b b x
y
Wyrażenie
Osiągnie min wtedy i tylko wtedy gdy
( )
∑
− + =−
∂ =
∂
i
i i
i y b b x
b x
y 2 ( 0 1 ) 0
1
Regresja wielomianowa dla n=2
( − ˆ )
2= ∑ ( −
0−
1−
2 2)
2→ min
∑
i
i i
i i
i
i
y y b b x b x
y
2 2 1
)
0ˆ f ( x b b x b x
y = = + +
Współczynniki b0, b1 i b2 wyznaczymy z układu trzech równań utworzonych z trzech pochodnych obliczonych
względem zmiennych b0 , b1 i b2 i przyrównanych do zera
Założenia modelu liniowego
• Estymatory b0 i b1 współczynników regresji β 0 β1 wyznaczone metodą najmniejszych kwadratów mają pożądane własności (efektywność, nieobciążoność) jeśli spełnione są warunki:
– Model jest liniowy względem parametrów, tzn. ∀ i: yi= β 0+ β1 xi
– Liczba obserwacji n musi większa lub równa liczbie szacowanych parametrów (współczynników regresji) – Składnik losowy ei ma wartość oczekiwaną równą zero
dla wszystkich i=1,..,n , tzn. E(ei) =0
– Wariancja składnika losowego ei (wariancja reszt) jest taka sama dla wszystkich obserwacji War (ei) =2σ dla wszystkich i=1,…,n
– Składniki losowe są nieskorelowane, czyli ei oraz ej są od siebie niezależne ∀ i ≠j i każdy ze składników
losowych ma rozkład normalny
Interpretacja wyników obliczeń dla
regresji liniowej
Weryfikacja modelu
• Najważniejsze etapy weryfikacji modelu to:
– weryfikacja merytoryczna – weryfikacja statystyczna
• W trakcie weryfikacji merytorycznej sprawdzamy zgodność wyników
uzyskanych z modelu z wiedzą teoretyczną
• Jeśli weryfikacja statystyczna wskazuje na niedopasowanie modelu, zwykle
potwierdza się to podczas weryfikacji mertorycznej
Weryfikacja statystyczna modelu
64385 ,
2 0
1 2
2 =
=
∑
−=
n e S
n
i i e
Średnie zużycie paliwa obliczane
z równania regresji różnią się od wartości empirycznych średnio biorąc o 0,64385 l
Obliczone estymatory współczynników regresji odchylają się od parametru b0= 3,830 421 o wartość Sb0= 0,450851, tj.o około 12 %
b1=0,002386 o wartość Sb1= 0,000311, tj. o około 13%
Można zweryfikować dopasowanie modelu na podstawie funkcji testowej t t= bi/Sbi , tb0= 8,495987 tb1= 7,668 242
Najbardziej popularną i miarodajną oceną dopasowania modelu do danych empirycznych jest współczynnik determinacji R2
0,450851 3,830421 0,117703 0,000311 0,002386 0,130344
Interpretacja współczynnika determinacji R
2∑
∑
∑
= = =+
−
=
−
ni
i i
i n
i i
n
i
e y
y y
y
1 2 2
1 2
1
ˆ ) (
) (
Można pokazać, że
Całkowita suma kwadratów - CSK
Wyjaśniona przez model suma kwadratów - WSK
Resztowa suma kwadratów RSK
Zmienność niewyjaśniona przez model
y
CSK
RSK WSK
y=b1x +b0
x
Interpretacja współczynnika determinacji R
2R2=0,7277 oznacza, że 72,77% ogólnej zmienności zmiennej zależnej, zużycia paliwa, jest objaśniona przez równanie regresji,
w którym zmienną objaśniającą jest pojemność silnika.
Uwagi: wspólczynnik determinacji w pewnych okolicznościach może dawać błędne wyjaśnieni zmienności Y, np:
– gdy n=2 wtedy zawsze R2=1
– gdy n jest niewiele większe od 2 lepiej stosować tzw poprawiony R2 poprawione R2, mówi jak dobrze byłoby dopasowane nasze równanie
do innej próby z tej samej populacji, zawsze jest mniejsze od R2 z próby.
– gdy w modelu nie uwzględniliśmy wyrazu wolnego tzn y=b1x – gdy model jest nieliniowy
– gdy zastosowano inną metodę niż MNK CSK WSK y
y
y y
R n
i
i n
i
i =
−
−
=
∑
∑
=
=
1
2 1
2 2
) (
ˆ ) (
Inne wskaźniki dopasowania modelu
• Współczynnik zmiennej zależnej względem zmiennej niezależnej beta
• Wyliczonych wartości współczynników regresji nie można
porównywać ze względu na inne jednostki miary. Normalizujemy równanie regresji i otrzymujemy
• Jeśli β = 0,853 oznacza to, że zmiana zmiennej niezależnej o jedno odchylenie standardowe powoduje zmianę wartości zależnej
zmiennej o 0,853 jej odchylenia standardowego.
• Zaletą tej interpretacji jest niezależność od jednostek miary
• Zauważmy, że β = 0,853070 = r (współczynnikowi korelacji liniowej.
i x
i y
i
e
s
x x
s
y
y − = β − +
Inne wskaźniki dopasowania modelu
• Obliczanie elastyczności Y względem X według wzoru
• Pokazuje o ile procent zmienia się wartość Y gdy wartość X zmieni się o 1%
• 0,002386 * 1385,917/7,138 = 0,463
• oznacza to, że w otoczeniu średnich zmiana pojemności silnika o 1% powoduje zmianę zużycia paliwa o około 0,5%
Y
b
1X
Weryfikacja hipotez
Należy zbadać
• istotność współczynnika kierunkowego ;Nieodrzucenie hipotezy o braku wpływu x na y świadczy o wadliwości modelu
• istotność współczynnika determinacji
• istotność liniowego związku pomiędzy analizowanymi zmiennymi
Regresja wieloraka
Regresja wieloraka
W celu wykonania wykresu należy
prawym przyciskiem myszy kliknąć w obrębie zmiennej x - średnia temperatura dobowa
Wykres rozrzutu z dopasowaną linią regresji
Regresja wielomianowa
Analiza zbioru danych
Odkrywanie i analiza zależności
Odkrywanie i analiza zależności
Interpretacja wykresów powierzchniowych
Macierz korelacji
Korelacje cząstkowe
) 1
)(
1
(
132 23223 13
12 3
.
12
r r
r r r r
−
−
= −
Związek korelacyjny pomiędzy zmiennymi X1 i X2, z wyłączeniem działania zmiennej X3
Gdy interesuje nas związek pomiędzy dwiema wybranymi zmiennymi przy wyłączeniu wpływu pozostałych zmiennych – liczymy współczynnik korelacji cząstkowej
Obliczanie współczynników korelacji w Statistica, gdy zmienna objaśniana jest jednowymiarowa, a zmiennych niezależnych, rozpatrywanych
indywidualnie, jest wiele
Macierz korelacji
Macierz korelacji
Korelacje cząstkowe
Wykluczono wpływ liczby ludności
Wykluczono wpływ liczby ludności, liczby miast i udziału ludności miejskiej