• Nie Znaleziono Wyników

Zajęcia823/29kwietnia2021 WeryfikacjazałożeńKMRLDorotaCelińska-Kopczyńska StatystycznaAnalizaDanych–laboratorium

N/A
N/A
Protected

Academic year: 2021

Share "Zajęcia823/29kwietnia2021 WeryfikacjazałożeńKMRLDorotaCelińska-Kopczyńska StatystycznaAnalizaDanych–laboratorium"

Copied!
13
0
0

Pełen tekst

(1)

Statystyczna Analiza Danych – laboratorium

Weryfikacja założeń KMRL

Dorota Celińska-Kopczyńska

Uniwersytet Warszawski

Zajęcia 8 23/29 kwietnia 2021

(2)

Idea zajęć – co i po co będziemy robić?

I Jeśli założenia Klasycznego Modelu Regresji Liniowej nie są spełnione, to estymator MNK może nie być nieobciążony, zgodny lub efektywny

I Uzyskane przez nas oszacowania i wnioskowanie statystyczne mogą nie być prawidłowe

I Niektórym problemom możemy przeciwdziałać, czasem będzie konieczne zastosowanie bardziej zaawansowanych technik analizy danych

I Pokażemy dziś, jak oceniać, czy model spełnia założenia KMRL

(3)

Przypomnienie – założenia KMRL

I Liniowość: y = X β + ε I X są nielosowe lub losowe I E (ε) = 0

I Homoskedastyczność: Var (ε) = σ2I I Brak autokorelacji: ∀i 6=jCov (εi, εj) = 0

I ? Składnik losowy ma rozkład normalny (założenie dodatkowe)

(4)

Założenia, których spełnienia nie sprawdzamy

I Losowość lub nielosowość X wpływają jedynie na postać dowodów właściwości estymatora MNK

I W modelach ze stałą założenie o wartości oczekiwanej błędu losowego nie jest restrykcyjne

I Odchylenia od wartości oczekiwanej składnika losowego są wtedy przejmowane przez stałą

(5)

Konsekwencje niespełnienia założenia o liniowości

I Podważa interpretację oszacowanych współczynników I Niemożliwe jest udowodnienie właściwości estymatora MNK,

takich jak nieobciążoność czy efektywność

(6)

Jak naprawić

Przebudować model, aby uwzględniał nieliniowość relacji:

I Zmienne w modelu mogą wymagać transformacji:

logarytmowania, potęgowania, etc (transformacja Boxa-Coxa, opisana w scenariuszu!)

I wprowadzenie interakcji (iloczynów) zmiennych x

I zastosowanie innej formy funkcyjnej: np. modelu schodkowego lub krzywej łamanej

(7)

Konsekwencje rozkładu składnika losowego odbiegającego od normalnego

I Założenie jest niezbędne do wyprowadzenia rozkładów statystyk testowych oraz prawidłowego wnioskowania statystycznego

I Można znaleźć estymator nieliniowy, który będzie mieć niższą wariancję niż estymator MNK

(8)

Jak naprawić

I Próba o dużej liczebności, rozkład reszt przypomina krzywą dzwonową – rozkłady statystyk bliskie standardowym (CTG) I Próba o małej liczebności – sprawdzić obecność obserwacji

odstających, popracować nad formą funkcyjną modelu, (w ostateczności) powiększyć próbę

(9)

Niesferyczność błędów losowych

I Jeśli założenia o homoskedastyczności lub braku autokorelacji są niespełnione, mówimy o niesferyczności składnika losowego I Macierz wariancji-kowariancji dla składnika losowego ma

wtedy postać dowolnej macierzy symetrycznej i dodatnio półokreślonej

(10)

Konsekwencje niesferyczności błędu losowego #1

I Estymator MNK nadal nieobciązony i zgodny, ale nieefektywny I Estymator wariancji składnika losowego obciążony w próbach

o małej liczebności, zgodny w próbach o dużej liczebności I Standardowy estymator macierzy wariancji-kowariancji dla ˆβ

obciążony, niezgodny

(11)

Konsekwencje niesferyczności błędu losowego #2

I Estymator macierzy wariancji-kowariancji dla ˆβ używany jest przy konstrukcji prawie wszystkich statystyk testowych, będą one nieprawidłowe

I Wnioskowanie statystyczne może być nieprawidłowe

(12)

Jak naprawić – heteroskedastyczność

I Sprawdzić, czy nie wynika z pominięcia istotnej zmiennej I Zastosować estymację z wykorzystaniem odpornej macierzy

wariancji kowariancji

I Stosowalna Uogólniona MNK

(13)

Jak naprawić – autokorelacja

I Autokorelacja jest poważnym problemem, jeśli nie możemy zmienić kolejności obserwacji w próbie

I Próba przekrojowa – pojawia się w bardzo dziwnych przypadkach, wystarczy spermutować zbiór danych I Szeregi czasowe – różnicowanie, zastosowanie właściwych

technik analizy danych

Cytaty

Powiązane dokumenty

I Chcemy sprawdzić, czy liczba wypalanych papierosów dziennie jest niezależna od płci (nie ma związku pomiędzy płcią respondenta a liczbą wypalanych papierosów dziennie)..

hipotezę, że średnie zadłużenie w tych województwach jest sobie równe, przeciwko hipotezie alternatywnej, że jest różne I Oblicz samodzielnie wartość statystyki testowej

I Jednostronna hipoteza alternatywna zakłada kierunek zachowania się badanego

I Jakie może być accuracy dla danych rozmiaru 100, w których 99 obserwacji jest typu A, a jedna typu B. Rozważ

I Wykorzystując model regresji liniowej, zbadaj zależność wagi sportowców (WT) od wszystkich pozostałych zmiennych ilościowych. I Sprawdź, które oszacowania parametrów

I Oszacowania przy zmiennych skorelowanych ze zmienną pominiętą będą obciążone (czasem można wysnuć wnioski na temat kierunku obciążenia przy zmiennej zawartej w modelu)

I Liczbę wybranych składowych ustala się na podstawie procentu wariancji przez nie tłumaczonej. I Dążymy do odtworzenia co najmniej 70% wariancji (niższe wartości w przypadku

I Dziedzina eksploracji danych – dzielimy wielowymiarowy zbiórdanych na grupy w taki sposób, by elementy w tej samej grupie były do siebie podobne, a jednocześnie jak