• Nie Znaleziono Wyników

Metoda Najmniejszych Kwadratów

N/A
N/A
Protected

Academic year: 2021

Share "Metoda Najmniejszych Kwadratów"

Copied!
31
0
0

Pełen tekst

(1)

Rachunek prawdopodobieństwa i statystyka W 11:

Analizy zależności pomiędzy zmiennymi losowymi – Model regresji wielokrotnej

Dr Anna ADRIAN Paw B5, pok 407 adan@agh.edu.pl

(2)

Model regresji liniowej

Model regresji liniowej prostej przyjmuje postać:

Y = E(Y/X=x) = β 0+ β1 x + ε

gdzie

• E(Y/X=x) oznacza wartość zmiennej Y oczekiwana przy warunku, że zmienna X przyjmie wartość x

• β 0, β1 są współczynnikami regresji liniowej,

• ε –oznacza składnik losowy (błąd).

(3)

Metoda Najmniejszych Kwadratów

( )

+ =

∂ =

i

i

i

b b x

b y

y 2 (

0 1

) 0

0

( ˆ ) ( (

0 1

) )

2

min

2

= − + →

− ∑

i

i i

i

i

i

y y b b x

y

Wyrażenie

Osiągnie min wtedy i tylko wtedy gdy

( )

+ =

∂ =

i

i i

i y b b x

b x

y 2 ( 0 1 ) 0

1

(4)

Regresja wielomianowa dla n=2

( ˆ )

2

= (

0

1

2 2

)

2

min

i

i i

i i

i

i

y y b b x b x

y

2 2 1

)

0

ˆ f ( x b b x b x

y = = + +

Współczynniki b0, b1 i b2 wyznaczymy z układu trzech równań utworzonych z trzech pochodnych obliczonych

względem zmiennych b0 , b1 i b2 i przyrównanych do zera

(5)

Założenia modelu liniowego

• Estymatory b0 i b1 współczynników regresji β 0 β1 wyznaczone metodą najmniejszych kwadratów mają pożądane własności (efektywność, nieobciążoność) jeśli spełnione są warunki:

– Model jest liniowy względem parametrów, tzn. i: yi= β 0+ β1 xi

– Liczba obserwacji n musi większa lub równa liczbie szacowanych parametrów (współczynników regresji) – Składnik losowy ei ma wartość oczekiwaną równą zero

dla wszystkich i=1,..,n , tzn. E(ei) =0

– Wariancja składnika losowego ei (wariancja reszt) jest taka sama dla wszystkich obserwacji War (ei) =2σ dla wszystkich i=1,…,n

– Składniki losowe są nieskorelowane, czyli ei oraz ej od siebie niezależne i ≠j i każdy ze składników

losowych ma rozkład normalny

(6)

Interpretacja wyników obliczeń dla

regresji liniowej

(7)

Weryfikacja modelu

• Najważniejsze etapy weryfikacji modelu to:

– weryfikacja merytoryczna – weryfikacja statystyczna

• W trakcie weryfikacji merytorycznej sprawdzamy zgodność wyników

uzyskanych z modelu z wiedzą teoretyczną

• Jeśli weryfikacja statystyczna wskazuje na niedopasowanie modelu, zwykle

potwierdza się to podczas weryfikacji mertorycznej

(8)

Weryfikacja statystyczna modelu

64385 ,

2 0

1 2

2 =

=

=

n e S

n

i i e

Średnie zużycie paliwa obliczane

z równania regresji różnią się od wartości empirycznych średnio biorąc o 0,64385 l

Obliczone estymatory współczynników regresji odchylają się od parametru b0= 3,830 421 o wartość Sb0= 0,450851, tj.o około 12 %

b1=0,002386 o wartość Sb1= 0,000311, tj. o około 13%

Można zweryfikować dopasowanie modelu na podstawie funkcji testowej t t= bi/Sbi , tb0= 8,495987 tb1= 7,668 242

Najbardziej popularną i miarodajną oceną dopasowania modelu do danych empirycznych jest współczynnik determinacji R2

0,450851 3,830421 0,117703 0,000311 0,002386 0,130344

(9)

Interpretacja współczynnika determinacji R

2

= = =

+

=

n

i

i i

i n

i i

n

i

e y

y y

y

1 2 2

1 2

1

ˆ ) (

) (

Można pokazać, że

Całkowita suma kwadratów - CSK

Wyjaśniona przez model suma kwadratów - WSK

Resztowa suma kwadratów RSK

Zmienność niewyjaśniona przez model

y

CSK

RSK WSK

y=b1x +b0

x

(10)

Interpretacja współczynnika determinacji R

2

R2=0,7277 oznacza, że 72,77% ogólnej zmienności zmiennej zależnej, zużycia paliwa, jest objaśniona przez równanie regresji,

w którym zmienną objaśniającą jest pojemność silnika.

Uwagi: wspólczynnik determinacji w pewnych okolicznościach może dawać błędne wyjaśnieni zmienności Y, np:

– gdy n=2 wtedy zawsze R2=1

– gdy n jest niewiele większe od 2 lepiej stosować tzw poprawiony R2 poprawione R2, mówi jak dobrze byłoby dopasowane nasze równanie

do innej próby z tej samej populacji, zawsze jest mniejsze od R2 z próby.

– gdy w modelu nie uwzględniliśmy wyrazu wolnego tzn y=b1x – gdy model jest nieliniowy

– gdy zastosowano inną metodę niż MNK CSK WSK y

y

y y

R n

i

i n

i

i =

=

=

=

1

2 1

2 2

) (

ˆ ) (

(11)

Inne wskaźniki dopasowania modelu

• Współczynnik zmiennej zależnej względem zmiennej niezależnej beta

• Wyliczonych wartości współczynników regresji nie można

porównywać ze względu na inne jednostki miary. Normalizujemy równanie regresji i otrzymujemy

• Jeśli β = 0,853 oznacza to, że zmiana zmiennej niezależnej o jedno odchylenie standardowe powoduje zmianę wartości zależnej

zmiennej o 0,853 jej odchylenia standardowego.

• Zaletą tej interpretacji jest niezależność od jednostek miary

• Zauważmy, że β = 0,853070 = r (współczynnikowi korelacji liniowej.

i x

i y

i

e

s

x x

s

y

y − = β − +

(12)

Inne wskaźniki dopasowania modelu

• Obliczanie elastyczności Y względem X według wzoru

• Pokazuje o ile procent zmienia się wartość Y gdy wartość X zmieni się o 1%

• 0,002386 * 1385,917/7,138 = 0,463

• oznacza to, że w otoczeniu średnich zmiana pojemności silnika o 1% powoduje zmianę zużycia paliwa o około 0,5%

Y

b

1

X

(13)

Weryfikacja hipotez

Należy zbadać

• istotność współczynnika kierunkowego ;Nieodrzucenie hipotezy o braku wpływu x na y świadczy o wadliwości modelu

• istotność współczynnika determinacji

• istotność liniowego związku pomiędzy analizowanymi zmiennymi

(14)

Regresja wieloraka

(15)

Regresja wieloraka

W celu wykonania wykresu należy

prawym przyciskiem myszy kliknąć w obrębie zmiennej x - średnia temperatura dobowa

(16)

Wykres rozrzutu z dopasowaną linią regresji

(17)
(18)

Regresja wielomianowa

(19)

Analiza zbioru danych

(20)

Odkrywanie i analiza zależności

(21)

Odkrywanie i analiza zależności

(22)

Interpretacja wykresów powierzchniowych

(23)

Macierz korelacji

(24)

Korelacje cząstkowe

) 1

)(

1

(

132 232

23 13

12 3

.

12

r r

r r r r

= −

Związek korelacyjny pomiędzy zmiennymi X1 i X2, z wyłączeniem działania zmiennej X3

Gdy interesuje nas związek pomiędzy dwiema wybranymi zmiennymi przy wyłączeniu wpływu pozostałych zmiennych – liczymy współczynnik korelacji cząstkowej

(25)

Obliczanie współczynników korelacji w Statistica, gdy zmienna objaśniana jest jednowymiarowa, a zmiennych niezależnych, rozpatrywanych

indywidualnie, jest wiele

(26)
(27)

Macierz korelacji

(28)

Macierz korelacji

(29)

Korelacje cząstkowe

(30)

Wykluczono wpływ liczby ludności

Wykluczono wpływ liczby ludności, liczby miast i udziału ludności miejskiej

(31)

Cytaty

Powiązane dokumenty

XX wieku liczba ludności Polski ustabilizowała się i wynosi trochę ponad 38 mln (źródło danych: GUS).. Przyrost naturalny

Ściągnij z bazy AMECO (http://ec.europa.eu/economy_finance/ameco/user/serie/SelectSerie.cfm) dane obejmujące nominalny PKB oraz liczbę ludności w Irlandii w latach

(Centralne twierdzenie graniczne dla ciągów niezależnych zmiennych losowych o jedna- kowym rozkładzie) Niech dany będzie ciąg niezależnych zmiennych losowych {Z n } o tym

Badając dokładność wyznaczonych prognoz w całym przedziale weryfika- cji dla horyzontu prognozy T = 10, można stwierdzić, iż dla większości bada- nych szeregów (EUR, ING, NKX,

Źródłem tych dodatkowych warunków mogą być na przykład jakieś właściwości parametrów wynikające z teorii opisującej badaną zależność (np. w naszym przypadku inten- sywność

W problemie estymacji parametrów w nieliniowych modelach regresji metodą najmniejszych kwadratów najczęściej wykorzystuje się metody Gaussa-Newtona i Levenberga-Marquardta oraz

Musimy umieć zapisać ogólną postać danej liczby na podstawie informacji o podzielności tej liczby.... podanych informacji i wykorzystać ten zapis do rozwiązania

Musimy umieć zapisać ogólną postać danej liczby na podstawie informacji o podzielności tej liczby.... podanych informacji i wykorzystać ten zapis do rozwiązania