• Nie Znaleziono Wyników

TomaszGóreckiStatystykazelementamirachunkuprawdopodobieństwa(W8) X uważanajestzawpełnikontrolowanąprzezeksperymentatora,acozatymidziepozbawionajestonaelementulosowości(defactotraktowanajestjakoliczba). X oraz Y traktowanesąodmiennie.Mianowiciezmienna Y .J

N/A
N/A
Protected

Academic year: 2021

Share "TomaszGóreckiStatystykazelementamirachunkuprawdopodobieństwa(W8) X uważanajestzawpełnikontrolowanąprzezeksperymentatora,acozatymidziepozbawionajestonaelementulosowości(defactotraktowanajestjakoliczba). X oraz Y traktowanesąodmiennie.Mianowiciezmienna Y .J"

Copied!
14
0
0

Pełen tekst

(1)

Termin regresja oznacza metodę pozwalającą na zbadanie związku pomiędzy zmiennymi i wykorzystanie tej wiedzy do przewidywania nieznanych wartości jednych wielkości na podstawie innych. W praktyce poszukuje się związku między domniemaną jedną (lub więcej) zmienną objaśniającą(niezależną), a zmiennąobjaśnianą

(zależną) Y. Związek ten może być dalej wykorzystywany do prognozowania wartości Y w zależności od X . Jeżeli badać będziemy zależność zmiennej Y od wartości innej zmiennej, to wartości zmiennej objaśniającej będziemy oznaczać przez x i traktować jako wartości deterministyczne zmiennej X , które wybieramy w celu obserwacji zmiennej losowej Y . Jak widać zmienne X oraz Y traktowane są odmiennie. Mianowicie zmienna X uważana jest za w pełni kontrolowaną przez eksperymentatora, a co za tym idzie pozbawiona jest ona elementu losowości (de facto traktowana jest jako liczba).

(2)

Regresja wielokrotna Idea

Chcemy zatem odpowiedzieć na pytanie jak zmienia się wartość oczekiwana zmiennej Y w zależności od wartości x zmiennej X , czyli:

E(Y ) = g (x),

gdzie g (x) jest funkcją regresji opisującą poszukiwany związek. Zwyczajowo zakłada się dodatkowo, że Var(Y ) jest dla wszystkich wartości x stała i równa σ2 (jednorodność wariancji). Z

matematycznego punktu widzenia regresją nazywana jest każda metoda, która umożliwia oszacowanie tego równania.

(3)

Zależności regresyjnej poszukuje się w pewnej zadanej z góry klasie funkcji, na ogół klasie funkcji wielomianowych. Np. gdy za g (x) przyjmiemy funkcję liniową, otrzymamy równanie regresji liniowej:

E(Y ) = β0+ β1x,

w którym β0 oraz β1 są nieznanymi parametrami. W praktyce

wygodniej jest posługiwać się następującym modelem regresji liniowej:

Yi = β0+ β1xi + εi.

Występujące w równaniu zmienne losowe εi nazywane są

składnikami losowymi. Zakładamy, że mają one wartość oczekiwaną 0, stałą wariancję równą σ2 (homoskedastyczność) oraz są nieskorelowane między sobą.

(4)

Regresja wielokrotna Regresja liniowa

W praktyce nie dysponujemy pełną informacją o populacji. Musimy zatem oszacować parametry funkcji regresji na podstawie próby. Odpowiednie oszacowanie ma postać:

ˆ

yi = b0+ b1xi.

Element

ei = yi − ˆyi

nazywany jest składnikiem resztowym(resztą,residuum). Jak jednak znaleźć taką „dobrze dopasowaną” linię prostą? Punktem wyjścia jest suma kwadratów reszt, opisująca rozbieżność pomiędzy wartościami empirycznymi zmiennej zależnej, a jej wartościami teoretycznymi, obliczonymi na podstawie wybranej funkcji. Oszacowania parametrów dobieramy tak, aby suma kwadratów reszt osiągnęła minimum. Metoda ta nosi nazwę metody najmniejszych kwadratów (MNK).

(5)

Estymatory parametrów otrzymane za pomocą MNK mają postać: b1 = n P i=1 (xi − ¯x)(yi − ¯y) n P i=1 (xi− ¯x)2 , b0 = ¯y − b1x ,¯ ˆ σ2 = 1 n − 2 n X i=1 ei2.

Tak otrzymane estymatory są najefektywniejszymi i równocześnie nieobciążonymi estymatorami parametrów regresji liniowej. Współczynnik kierunkowy b1 nazywamy współczynnikiem regresji

liniowej. Odpowiada on na pytanie, jaki jest przeciętny przyrost wartości zmiennej zależnej na jednostkę przyrostu zmiennej niezależnej.

(6)

Regresja wielokrotna Regresja liniowa

Dokładność oszacowania można ocenić za pomocą współczynnika

determinacji R2. Mierzy on jaka część ogólnej zmienności zmiennej zależnej jest wyjaśniona przez regresję liniową (współczynnik determinacji nie ma sensu, jeśli w modelu pominięto wyraz wolny). Dołączenie jednak nowej zmiennej do modelu zawsze zwiększa R2. Celem nie jest uzyskanie jak największej wartości tego

współczynnika, lecz znalezienie związku między X i Y z rzetelnymi ocenami parametrów. Dlatego w praktyce używamy raczej tzw. poprawionego R2. Uwzględnia on, że R2 jest obliczony z próby i jest trochę „za dobry”, jeśli uogólniamy nasze wyniki na populację. Poprawiony R2 jest zawsze mniejszy od R2. Przyjmuje się, że aby pozytywnie zweryfikować model współczynnik ten musi być większy od 60%. Należy również pamiętać, że taka ocena jakości modelu jest poprawna wtedy i tylko wtedy gdy model jest adekwatny, czyli gdy spełnione są założenia modelu.

(7)

MAE =1 n

n X

i=1

|ei| (Mean Absolute Error),

MAPE =1 n n X i=1 |ei| |yi|

× 100 (Mean Absolute Percentage Error),

RMSE = v u u t 1 n n X i=1 e2

i (Root Mean Squared Error),

R2= Pn i=1(ˆyi− ¯y)2 Pn i=1(yi− ¯y)2 = 1 − Pn i=1ei2 Pn i=1(yi− ¯y)2 , R02= Pn i=1(ˆyi− ¯y)2 Pn i=1yi2 = 1 − Pn i=1ei2 Pn i=1yi2

(model bez wyrazu wolnego), Radj.2 = 1 −(1 − R

2)(n − 1)

(8)

Regresja wielokrotna Modelowanie w R

Odpowiednie sformułowanie modelu w R odbywa się przy pomocy specjalnych formuł opisujących zależności zmiennych. Postać formuły jest następująca:

zmienna objaśniana ∼ zmienna(e) objaśniająca(e), gdzie symbol ∼ oznacza „jest modelowana jako funkcja” (zależy od).

(9)

W formułach można używać wielu specjalnych symboli takich jak:

+ dodanie zmiennej do modelu (nie suma zmiennych),

- usunięcie zmiennej z modelu (nie różnica zmiennych), -1 usunięcie wyrazu wolnego z modelu,

* dodanie wszystkich zmiennych oraz interakcji między

nimi (nie mnożenie zmiennych),

ˆn wszystkie zmienne oraz interakcje pomiędzy nimi aż

do rzędu n,

: interakcja pomiędzy zmiennymi,

. zależność od wszystkich zmiennych w podanej ramce

(10)

Regresja wielokrotna Modelowanie w R

Można również używać funkcji arytmetycznych. Jeśli jednak chcemy skorzystać z operatorów arytmetycznych, które mają specjalne znaczenie w formułach powinniśmy skorzystać z funkcji I. Może się również zdarzyć sytuacja, w której chcemy jedynie

poprawić istniejący już model, służy do tego funkcja update, w której kluczową rolę odgrywa „.”. W zależności po której stronie znaku „∼” się znajduje, zastępuje prawą lub lewą stronę

oryginalnej formuły.

model =lm(y∼x)

update(model, .-1) #y∼x-1

(11)

Formuła Opis

y ∼ 1 Model pusty (średnia) y ∼ x Regresja liniowa

y ∼ x − 1 Regresja bez wyrazu wolnego y ∼ x + z Regresja wielokrotna

y ∼ x ∗ z Regresja z interakcją, inaczej y ∼ x + z + x : z y ∼ x + I(x ˆ2) Regresja kwadratowa

y ∼ x + I(x ˆ2) + I(x ˆ3) Regresja sześcienna

y ∼ (x + z + w )ˆ2 y ∼ x + z + w + x : z + x : w + z : w y ∼ x ∗ z − x y ∼ z + x : z

y ∼ x /z y ∼ x + x : z

(12)

Regresja wielokrotna Przykład – zachorowania na gruźlicę

Poniższa tabela przedstawia liczbę zachorowań na gruźlicę układu oddechowego w latach 1995-2002. Liczba zachorowań została podana w przeliczeniu na 100 tys. ludności. Zakładając liniową zależność pomiędzy rokiem, a ilością zachorowań, dokonać wszechstronnej analizy regresji.

Rok (xi) 1995 1996 1997 1998 1999 2000 2001 2002

(13)

Wcześniej założyliśmy, że zmienna objaśniana zależy jedynie od jednej zmiennej objaśniającej. Jest to duże uproszczenie. Zdarza się, że badane zjawisko zależy nie tylko od jednego czynnika, ale od wielu. Uogólnieniem prostej regresji jest regresja wielokrotna lub wieloraka, w której uwzględnia się wpływ wielu cech niezależnych na wybraną cechę zależną. Załóżmy, że dysponujemy teraz

układem k cech X1, X2, . . . , Xk. Model regresji wielokrotnej można

zapisać w postaci:

Y

YY = X βX βX β+ εεε,

gdzie YYY jest wektorem obserwacji zmiennej objaśnianej, a XXX macierzą z pomiarami zmiennych objaśniających (pierwsza kolumna to kolumna jedynek odpowiadająca za wyraz wolny w modelu).

(14)

Regresja wielokrotna

Regresja wielokrotna

W celu estymacji parametrów modelu ponownie używamy MNK otrzymując (oprócz poprzednich założeń, musimy jeszcze przyjąć, że nie istnieje liniowa zależność pomiędzy zmiennymi

objaśniającymi):

ˆ

β β

Cytaty

Powiązane dokumenty

Narysuj

[r]

Zmienna losowa X przyjmuje wartości równe ilości wyrzuconych orłów, natomiast zmienna losowa Y przyjmuje wartość jeden jeśli w pierwszym rzucie wypadł orzeł oraz zero w

[r]

Test na rzadką chorobę, którą dotknięta jest średnio jedna osoba na 1000, daje tak zwaną fałszywą pozytywną odpowiedź u 5% zdrowych (u chorego daje zawsze odpowiedź

Metoda rozwiązywania równania różniczkowego cząstkowego po- legająca na sprowadzeniu równania do postaci kanonicznej a następnie na rozwiązaniu równania w sposób

Udowodnił niemożliwość rozwiązania równania algebraicznego stopnia wyższego niż cztery przez pierwiastniki, prowadził badania w dziedzinie teorii szeregów i całek

x-tyle kupiono długopisów y- tyle kupiono ołówków 3∙x – tyle wydano na długopisy 2∙y – tyle wydano na ołówki Tworzymy układ równań:. { 3 x +2 y=24