• Nie Znaleziono Wyników

Zajęcia69/15kwietnia2021 RegresjaliniowaiintepretacjaparametrówDorotaCelińska-Kopczyńska StatystycznaAnalizaDanych–laboratorium

N/A
N/A
Protected

Academic year: 2021

Share "Zajęcia69/15kwietnia2021 RegresjaliniowaiintepretacjaparametrówDorotaCelińska-Kopczyńska StatystycznaAnalizaDanych–laboratorium"

Copied!
16
0
0

Pełen tekst

(1)

Statystyczna Analiza Danych – laboratorium

Regresja liniowa i intepretacja parametrów

Dorota Celińska-Kopczyńska

Uniwersytet Warszawski

Zajęcia 6 9/15 kwietnia 2021

(2)

Idea zajęć – co i po co będziemy robić?

I Regresja liniowa jest jedną z prostszych a szeroko stosowanych technik modelowania danych

I Służy do badania zależności liniowych

I Zaznajomimy się dziś z działaniem i składnią funkcji lm i intepretacją parametrów

(3)

Przypomnienie – model liniowy

y = X β + ε

I y – zmienna objaśniana (endogeniczna, zależna) o rozkładzie (quasi)ciągłym

I X – macierz zmiennych objaśniających (egzogenicznych, niezależnych)

I ε – składnik losowy o rozkładzie normalnym I β – wektor parametrów

(4)

Przypomnienie – oszacowanie

y = X ˆβ + e

I y – zmienna objaśniana (endogeniczna, zależna) o rozkładzie (quasi)ciągłym, n obserwacji

I X – macierz k zmiennych objaśniających (egzogenicznych, niezależnych)

I e – wektor reszt (residua, oszacowanie składnika losowego) I β – wektor oszacowań parametrów, uzyskany MNK:ˆ

β = (Xˆ TX )−1XTy

I y = X ˆˆ β – wartość dopasowana

(5)

Zadanie 1

I Wczytaj dane z pliku ais.csv

I Ile zbiór zawiera obserwacji, a ile zmiennych? Które zmienne są ilościowe, a które jakościowe?

I Jaka jest średnia oraz wariancja każdej ze zmiennych ilościowych?

I Które zmienne ilościowe są najbardziej skorelowane, które najsłabiej, a które mają najsilniejszą korelację ujemną?

library(GGally)

ggpairs(ais, aes(col=Sex), columns=c(9, 10, 5, 13))

(6)

Zadanie 2

I Wykorzystując model regresji liniowej zbadaj zależność wagi sportowców (WT) od ich wzrostu (Ht)

I Sprawdź, czy ta zależność jest statystycznie istotna (jeśli jest, to spróbuj skomentować to oszacowanie)

I Wykorzystaj funkcję predict(), aby uzyskać przedział ufności na poziomie 95% dla sportowca o wzroście 180cm

(7)

Zadanie 3 – regresja wieloraka

I Wykorzystując model regresji liniowej, zbadaj zależność wagi sportowców (WT) od wszystkich pozostałych zmiennych ilościowych

I Sprawdź, które oszacowania parametrów są statystycznie istotne i dokonaj ich intepretacji

(8)

lm

regresja <- lm(y ~ x1 + x2, dane)

# mozemy przeksztalcac zmienne wewnatrz komendy, nie trzeba ich specjalnie tworzyć summary(regresja) # zwroci wydruk

# zeby np. wlaczyc do regresji kwadrat zmiennej korzystamy z I():

regresja <- lm(y ~ x1 + I(x1^2) + x2, dane)

(9)

Co można wyczytać z wydruku? #1

(10)

Test t

t = βˆk se( ˆ )ˆβk

≈ t(n − k)

I Istotność statystyczną sprawdzamy, wykorzystując test t I Hipoteza zerowa o nieistotności, hipoteza alternatywna

dwustronna

I Wiemy, że ˆβ ma wielowymiarowy rozkład normalny

I Prawidłowe działanie tego testu wymaga (poza spełnieniem założeń KMRL) spełnienia przez reszty założenia o

normalności rozkładu

I Sprawdzamy, czy zero należy do przedziału ufności dla oszacowania parametru

(11)

Interpretacja oszacowań przy zmiennych ilościowych

I Intepretacja wartości oszacowań zależy od formy funkcyjnej modelu!

I Każdy z parametrów intepretujemy ceteris paribus – przy pozostałych wartościach zmiennych niezależnych

niezmienionych

I Oszacowania przy stałej nie interpretuje się

(12)

Interpretacja oszacowań przy zmiennych ilościowych

I Model na poziomach:

I Wzrost/spadek wielkości zmiennej x o jednostkę wiąże się z wzrostem/spadkiem y o ˆβ jednostek ceteris paribus

I Model na logarytmach:

I Wzrost/spadek wielkości zmiennej x o 1% wiąże się z wzrostem/spadkiem y o ˆβ % ceteris paribus

I Uwaga na zmienne mierzone w odsetkach (zmiana o punkty procentowe!)

(13)

Interpretacja – przyczynowość

I Przystępując do modelowania zjawiska za pomocą regresji zakładamy kierunek przyczynowości. To x oddziaływuje na y , nie na odwrót

I Dla bezpieczeństwa lepiej unikać słów, które mogą być bezpośrednio zintepretowane jako wskazanie przyczynowości.

Korzystajmy ze słów sugerujących współwystępowanie/korelację

I Badanie przyczynowości jest możliwe tylko w bardzo wąskim znaczeniu, dla szeregów czasowych

(14)

Co można wyczytać z wydruku? #2

(15)

Współczynnik determinacji R

2

I R2 = ESSTSS

I Stosunek zmienności objaśnionej przez model (ESS) do zmienności całkowitej (TSS)

I W modelach zawierających stałą możliwa dekompozycja:

R2 = 1 −RSSTSS, RSS – zmienność resztowa

I Intepretacja: część zmienności zmiennej zależnej, którą udało się wytłumaczyć zmiennością zmiennych niezależnych

(16)

Współczynnik determinacji R

2

– wady

I R2 rośnie wraz z dodaniem zmiennych do modelu

I R2 jest wysokie w modelach z problemem autokorelacji (np.

gdy wykonujemy regresję, w której jeden z X jest szeregiem czasowym z trendem)

I R2 może być też wysokie w modelach, w których występuje problem niedokładnej współliniowości (silna korelacja zmiennych X

I W modelach bez stałej może przyjąć wartości spoza przedziału [0,1]

I Możliwa korekta: R2 skorygowane: Radj2 = 1 −N−kN−1(1 − R2)

Cytaty

Powiązane dokumenty

I R rozróżnia typy danych, najbardziej podstawowym jest vector I Wśród statystyków popularna również ramka danych:

I Jeśli w funkcji użytej wewnątrz apply istnieją dodatkowe argumenty, można się do nich odnieść przez nazwę wewnątrz wywołania

gdzie c jest stałą zależną od poziomu istotności... Schemat procesu

I Chcemy sprawdzić, czy liczba wypalanych papierosów dziennie jest niezależna od płci (nie ma związku pomiędzy płcią respondenta a liczbą wypalanych papierosów dziennie)..

hipotezę, że średnie zadłużenie w tych województwach jest sobie równe, przeciwko hipotezie alternatywnej, że jest różne I Oblicz samodzielnie wartość statystyki testowej

I Jednostronna hipoteza alternatywna zakłada kierunek zachowania się badanego

I Jakie może być accuracy dla danych rozmiaru 100, w których 99 obserwacji jest typu A, a jedna typu B. Rozważ

I Oszacowania przy zmiennych skorelowanych ze zmienną pominiętą będą obciążone (czasem można wysnuć wnioski na temat kierunku obciążenia przy zmiennej zawartej w modelu)