• Nie Znaleziono Wyników

Regresja wieloraka

N/A
N/A
Protected

Academic year: 2021

Share "Regresja wieloraka"

Copied!
17
0
0

Pełen tekst

(1)

Regresja wieloraka

(2)

Regresja wieloraka

Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów.

Najprostszy przypadek - jedna zmienna zależna i jedna zmienna niezależna

(można zobrazować na wykresie rozrzutu)

(3)

Regresja wieloraka

Estymacja najmniejszych kwadratów:

Program tak dobierze równanie tej linii, że

suma kwadratów odległości punktów na

wykresie rozrzutu od linii regresji będzie

minimalna.

(4)

Równanie regresji

Linia prosta w przestrzeni dwuwymiarowej (na płaszczyźnie): Y=a+b*X

Stała- wyraz wolny, nachylenie- współczynnik regresji.

W przypadku wielowymiarowym (mamy do czynienia z więcej niż jedną zmienną niezależną) linia regresji nie może już być tak prosto przedstawiona wizualnie w przestrzeni dwuwymiarowej. Postać równania:

Y=a+b1*X1+b2*X2+...+bp*Xp

(5)

Równanie regresji

Y=a+b1*X1+b2*X2+...+bp*Xp

Współczynniki regresji (b) reprezentują niezależne wkłady każdej ze zmiennych niezależnych do

predykcji zmiennej zależnej.

(6)

Równanie regresji

Y=a+b1*X1+b2*X2+...+bp*Xp

Kierunek zależności od poszczególnej zmiennej ustala się na podstawie znaku wartości

współczynnika regresji (b).

Jeśli b ma wartość dodatnią- związek jest dodatni (wraz ze wzrostem zmiennej X rośnie wartość Y) Jeśli b jest ujemne- związek jest negatywny

b=0 - między zmiennymi nie ma zależności

(7)

Równanie regresji

Wartości przewidywane a wartości resztowe

Linia regresji wyraża najlepszą predykcję zmiennej zależnej (Y) przy danych zmiennych niezależnych (X).

Zazwyczaj mamy do czynienia z odchyleniami punktów pomiarowych od linii regresji

Wartość resztowa: odchylenie danego punktu na wykresie od linii regresji (czyli od jego wartości przewidywanej)

(8)

Równanie regresji

Wariancja resztowa a R2

Im mniejsza wariancja wartości resztowych wokół linii regresji w stosunku do zmienności ogólnej, tym lepsza jakość predykcji.

(9)

Równanie regresji

Wariancja resztowa a R2

Brak zależności pomiędzy zmiennymi X i Y -

stosunek zmienności resztowej Y do zmienności całkowitej równa się 1,0.

X i Y ściśle (w sensie zależności funkcyjnej) zależne od siebie- zmienność resztowa równa się 0 i taki

stosunek również 0,0.

Najczęściej: stosunek zmienności resztowej Y do zmienności całkowitej zawiera się gdzieś pomiędzy tymi wartościami ekstremalnymi.

(10)

Równanie regresji

Wariancja resztowa a R2

1 minus ten stosunek= R2 (współczynnik

determinacji)- wskaźnik jakości dopasowania modelu do danych

Bliski 1,0 wskazuje, że prawie cała zmienność zmiennej zależnej może być objaśniona przez zmienne niezależne włączone do modelu).

(11)

Równanie regresji

Wariancja resztowa a R2

1 minus ten stosunek= R2 (współczynnik

determinacji)- wskaźnik jakości dopasowania modelu do danych

Interpretacja: Gdyby wartość R2 wynosiła 0,4

wówczas wiadomo byłoby, że wariancja wartości Y wokół linii regresji wynosi 1-0,4 razy pierwotna

wariancja Y (40% pierwotnej zmienności Y zostało wytłumaczone przez regresję, a 60% pozostało w zmienności resztowej).

(12)

Równanie regresji

Interpretacja współczynnika korelacji R

Stopień, w jakim dwie lub więcej zmiennych objaśniających (niezależnych lub X) jest

powiązanych ze zmienną objaśnianą (zmienna zależna Y), wyrażany jest przez wartość

współczynnika korelacji R (pierwiastek kwadratowy z R2) .

W regresji wielorakiej R może przyjmować wartości pomiędzy 0 i 1.

(13)

Równanie regresji

Założenia i ograniczenia

• założenie braku obserwacji odstających (normalności rozkładów zmiennych)

•założenie liniowości

• założenie normalności reszt

• wybór liczby zmiennych

(14)

Równanie regresji

Założenia i ograniczenia

Założenie braku obserwacji odstających: należy przeanalizować pod tym kątem wykresy P-P.

histogramy, przeprowadzić testy normalności.

-0,2 0,0 0,2 0,4 0,6 0,8 1,0 1,2 1,4

Dystrybuanta emp

(15)

Równanie regresji

Założenia i ograniczenia

Założenie liniowości: założenie, że zależność między zmiennymi jest liniowa.

Rada: przeanalizowanie pod tym kątem

dwuwymiarowych wykresów rozrzutu badanych zmiennych.

(16)

Równanie regresji

Założenia i ograniczenia

Założenie normalności reszt: reszty (różnice między wartością obserwowaną a obliczoną z równania regresji) podlegają rozkładowi

normalnemu.

(17)

Równanie regresji

Założenia i ograniczenia

Wybór liczby zmiennych: Zaleca się, aby brać do analizy przynajmniej około 10 do 20 razy więcej przypadków niż występuje w niej zmiennych. W przeciwnym wypadku oceny linii regresji będą

bardzo niestabilne i będą się silnie zmieniać wraz ze wzrostem liczby przypadków.

Cytaty

Powiązane dokumenty

Czy nie zachodzi błąd materialny (przesłanka jest fałszywa) bądź błąd bezpodstawności (przesłanka trudna do weryfikacji)B. Czy nie zostały wzięte pod uwagę

5.2 Niech {X n } n∈N będzie ciągiem niezależnych zmiennych losowych o jednakowym roz- kładzie jednostajnym na odcinku

5.2 Niech {X n } n∈N będzie ciągiem niezależnych zmiennych losowych o jednakowym rozkładzie jednostajnym na odcinku

[r]

g) Dla współczynnika lambda Hoerla i Kennarda wyznacz model regresji ridge ptaki.ridge0. Oblicz jego współczynniki.. h) Oblicz ilorazy współczynników regresji modeli ptaki.ridge0

Test na rzadką chorobę, którą dotknięta jest średnio jedna osoba na 1000, daje tak zwaną fałszywą pozytywną odpowiedź u 5% zdrowych (u chorego daje zawsze odpowiedź

Zbiór punktów o współrzędnych (x, E(Y|x)) nazwiemy linią regresji zmiennej losowej Y względem zmiennej losowej

Udowodnić, że z prawdopodobieństwem jeden, po pewnym czasie nie będzie w pojemniku ani jednej