• Nie Znaleziono Wyników

Praca domowa #2 z SAD (laboratorium) – groundtruth

N/A
N/A
Protected

Academic year: 2021

Share "Praca domowa #2 z SAD (laboratorium) – groundtruth"

Copied!
5
0
0

Pełen tekst

(1)

Praca domowa #2 z SAD (laboratorium) – groundtruth

Zadanie 1:

W oparciu o podane wykresy diagnostyczne i informację o wielkości próby oceń i skomentuj, czy są spełnione założenia KMRL dotyczące składnika losowego (łącznie z założeniem o normalności rozkładu) oraz czy występują obserwacje wpływowe.

(a) n = 38

15 20 25 30 35 40

−505

Fitted values

Residuals

Residuals vs Fitted

25

38 37

−2 −1 0 1 2

−505

norm quantiles

reg$residuals

25

38

Time

ts(reg$residuals)

0 10 20 30

−505

0.00 0.05 0.10 0.15

−2−1012

Leverage

Standardized residuals

Cook's distance

0.5 0.5

Residuals vs Leverage

38 37 36

Niespełnione założenia o sferyczności błędu losowego – występuje heteroskedastyczność oraz autoko- relacja. Spełnione założenie o normalności rozkładu. Obserwacja nr 38 może być uznana za wpływową na podstawie trzech heurystyk.

(b) n = 204

2000 4000 6000 8000

−150−100−50050100150

Fitted values

Residuals

Residuals vs Fitted

127125 190

−3 −2 −1 0 1 2 3

−100−50050100150

norm quantiles

reg$residuals

125127

Time

ts(reg$residuals)

0 50 100 150 200

−100−50050100150

0.00 0.01 0.02 0.03 0.04

−2−10123

Leverage

Standardized residuals

Cook's distance

Residuals vs Leverage

204 190

1

Niespełnione założenia o sferyczności błędu losowego – występuje heteroskedastyczność oraz autoko- relacja. Spełnione założenie o normalności rozkładu. Obserwacja 204 może być uznana za wpływową – wartość standaryzowanej reszty co do modułu powyżej 2 oraz wysoka wartość dźwigni.

(c) n = 203

−50 0 50 100

−100−50050100

Fitted values

Residuals

Residuals vs Fitted

128 151 113

−3 −2 −1 0 1 2 3

−100−50050

norm quantiles

reg$residuals

128

113

Time

ts(reg$residuals)

0 50 100 150 200

−100−50050

0.00 0.02 0.04 0.06 0.08 0.10 0.12

−4−202

Leverage

Standardized residuals

Cook's distance

0.5 0.5

Residuals vs Leverage

200 113

199

Niespełnione założenia o sferyczności błędu losowego – występuje heteroskedastyczność oraz auto-

(2)

(d) n = 1000

5 10 15 20 25 30 35

−4−202

Fitted values

Residuals

Residuals vs Fitted

498 245

133

−3 −2 −1 0 1 2 3

−3−2−10123

norm quantiles

reg$residuals

498 245

Time

ts(reg$residuals)

0 200 400 600 800 1000

−3−2−10123

0.000 0.005 0.010 0.015

−4−202

Leverage

Standardized residuals

Cook's distance

Residuals vs Leverage

764 106

241

Wszystkie założenia spełnione. Brak obserwacji wpływowych.

(e) n = 1000

5 10 15 20 25 30 35

−4−202

Fitted values

Residuals

Residuals vs Fitted

283 447 498

−3 −2 −1 0 1 2 3

−4−3−2−1012

norm quantiles

reg$residuals

283 498

Time

ts(reg$residuals)

0 200 400 600 800 1000

−4−3−2−1012

0.00 0.05 0.10 0.15

−4−202

Leverage

Standardized residuals

Cook's distance

1 0.5 0.5

Residuals vs Leverage

283 447

385

Występuje heteroskedastyczność, brak autokorelacji. Niespełnione założenie o normalności rozkładu (zachowanie ogonów) – jednak próba jest duża, moglibyśmy się powołać na CTG. Obserwacja 283 może zostać uznana za wpływową na podstawie trzech heurystyk.

(f) n = 1285

10000 20000 30000 40000 50000 60000

−1e+050e+001e+052e+053e+054e+05

Fitted values

Residuals

Residuals vs Fitted

853

693

205

−3 −2 −1 0 1 2 3

0e+001e+052e+053e+05

norm quantiles

reg$residuals

853

693

Time

ts(reg$residuals)

0 200 400 600 800 1000 1200

0e+001e+052e+053e+05

0.00 0.02 0.04 0.06 0.08

0510

Leverage

Standardized residuals

Cook's distance

0.5 1

Residuals vs Leverage

693 853

205

Występuje heteroskedastyczność, brak autokorelacji. Niespełnione założenie o normalności rozkładu (zachowanie ogonów) – jednak próba jest duża, moglibyśmy się powołać na CTG. Brak obserwacji wpływowych.

(g) n = 100

10000 20000 30000 40000

−200000200004000060000

Fitted values

Residuals

Residuals vs Fitted

449

606 1111

−2 −1 0 1 2

−200000200004000060000

norm quantiles

reg$residuals

449

606

Time

ts(reg$residuals)

0 20 40 60 80 100

−200000200004000060000

0.0 0.2 0.4 0.6

−2−1012345

Leverage

Standardized residuals

Cook's distance

1 0.5 0.5 1

Residuals vs Leverage

826 1111

449

Występuje heteroskedastyczność, brak autokorelacji. Niespełnione założenie o normalności rozkładu (zachowanie ogonów). Obserwacja 826 może zostać uznana za wpływową.

(3)

(h) n = 100

−100 0 100 200 300 400 500

−20020406080

Fitted values

Residuals

Residuals vs Fitted

2277191232

−2 −1 0 1 2

−20020406080

norm quantiles

reg$residuals

2271232

Time

ts(reg$residuals)

0 20 40 60 80 100

−20020406080

0.00 0.02 0.04 0.06 0.08 0.10 0.12

−101234

Leverage

Standardized residuals

Cook's distance

0.5

Residuals vs Leverage

719227 199

Występuje heteroskedastyczność, brak autokorelacji. Niespełnione założenie o normalności rozkładu (zachowanie ogonów). Obserwacja 826 może zostać uznana za wpływową.

(i) n = 100

0 100 200 300 400 500 600

−2−1012

Fitted values

Residuals

Residuals vs Fitted

509 936 719

−2 −1 0 1 2

−2−1012

norm quantiles

reg$residuals

936509

Time

ts(reg$residuals)

0 20 40 60 80 100

−2−1012

0.00 0.05 0.10 0.15 0.20

−2−1012

Leverage

Standardized residuals

Cook's distance

Residuals vs Leverage

719 783

1071

Uwaga: to są reszty uzyskane z modelu, w którym zmienne zostały wygenerowane z rozkładów nor- malnych – założenia są spełnione. To jest ostrzeżenie, że w przypadku małych prób wykresy nawet przy spełnionych założeniach mogą być mylące. Moglibyśmy się przyjrzeć obserwacji 217 (wysoka wartość dźwigni i standaryzowana reszta do co modułu bliska 2).

(j) n = 200

−1000 −500 0 500 1000 1500 2000

−100001000200030004000

Fitted values

Residuals

Residuals vs Fitted

1513 1084

6394

−3 −2 −1 0 1 2 3

−100001000200030004000

norm quantiles

reg$residuals

1513 1084

Time

ts(reg$residuals)

0 50 100 150 200

−100001000200030004000

0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35

−20246

Leverage

Standardized residuals

Cook's distance

0.5 1

Residuals vs Leverage

6394 1513 1084

Występuje heteroskedastyczność, brak autokorelacji. Niespełnione założenie o normalności rozkładu (zachowanie ogonów). Brak obserwacji wpływowych.

(k) n = 200

−500 0 500 1000 1500 2000

−100001000200030004000

Fitted values

Residuals

Residuals vs Fitted

1513 1084

6394

−3 −2 −1 0 1 2 3

−100001000200030004000

norm quantiles

reg$residuals

1513 1084

Time

ts(reg$residuals)

0 50 100 150 200

−100001000200030004000

0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35

−20246

Leverage

Standardized residuals

Cook's distance

0.5 1

Residuals vs Leverage

6394 1084 1513

Występuje heteroskedastyczność, brak autokorelacji. Niespełnione założenie o normalności rozkładu (zachowanie ogonów). Brak obserwacji wpływowych.

(4)

(l) n = 10000

0 200 400 600 800 1000 1200

−4−2024

Fitted values

Residuals

Residuals vs Fitted

1163

3248 3227

−4 −2 0 2 4

−4−2024

norm quantiles

reg$residuals

1163

3248

Time

ts(reg$residuals)

0 2000 4000 6000 8000 10000

−4−2024

0.000 0.005 0.010 0.015

−4−2024

Leverage

Standardized residuals

Cook's distance

Residuals vs Leverage

3287 2280

5845

Wszystkie założenia spełnione. Brak obserwacji wpływowych.

(m) n = 38

24 26 28 30 32 34

−15−10−50510

Fitted values

Residuals

Residuals vs Fitted

12 32

−2 −1 0 1 2

−10−50510

norm quantiles

reg$residuals

1 2

Time

ts(reg$residuals)

0 10 20 30

−10−50510

0.0 0.2 0.4 0.6 0.8 1.0

−1.5−1.0−0.50.00.51.01.5

Leverage

Standardized residuals

Cook's distance

1 0.5

Residuals vs Leverage

38

12

Silna autokorelacja, utrudnia ocenę założenia o homoskedastyczności (tu były homoskedastyczne reszty). Niespełnione założenie o normalności rozkładu (zachowanie ogonów). Obserwacja 38 po- dejrzana ze względu na wartość dźwigni i odległość Cooka.

(n) n = 38

24 26 28 30 32 34

−15−10−50510

Fitted values

Residuals

Residuals vs Fitted

1 2 32

−2 −1 0 1 2

−10−50510

norm quantiles

reg$residuals

1 2

Time

ts(reg$residuals)

0 5 10 15 20 25 30 35

−10−50510

0.0 0.2 0.4 0.6 0.8 1.0

−2.0−1.5−1.0−0.50.00.51.01.5

Leverage

Standardized residuals

Cook's distance

1 0.5

Residuals vs Leverage

37 12

To jest ten sam model, co w (m), tylko dane zostały inaczej posortowane. Brak autokorelacji, speł- nione założenie o homoskedastyczności. Niespełnione założenie o normalności rozkładu (zachowanie ogonów). Obserwacja 38 podejrzana ze względu na wartość dźwigni i odległość Cooka.

(o) n = 500

0 200 400 600 800 1000 1200

−3−2−101234

Fitted values

Residuals

Residuals vs Fitted

481 427

409

−3 −2 −1 0 1 2 3

−2−10123

norm quantiles

reg$residuals

481 427

Time

ts(reg$residuals)

0 100 200 300 400 500

−2−10123

0.00 0.05 0.10 0.15 0.20 0.25

−3−2−101234

Leverage

Standardized residuals

Cook's distance

0.5 0.5 1

Residuals vs Leverage

36 23

494

Wszystkie założenia spełnione. Brak obserwacji wpływowych.

(5)

(p) n = 340

0 5 10 15

−15−10−50510

Fitted values

Residuals

Residuals vs Fitted

172171 173

−3 −2 −1 0 1 2 3

−15−10−50510

norm quantiles

reg$residuals

172 171

Time

ts(reg$residuals)

0 50 100 150 200 250 300 350

−15−10−50510

0.000 0.002 0.004 0.006 0.008 0.010 0.012

−2−1012

Leverage

Standardized residuals

Cook's distance

Residuals vs Leverage

324325322

Niespełnione założenia o sferyczności błędu losowego – występuje heteroskedastyczność oraz autoko- relacja. Niespełnione założenie o normalności rozkładu (qqplot faluje!). Brak obserwacji wpływowych.

(q) n = 436

−1500 −1000 −500 0 500

−500−400−300−200−1000100

Fitted values

Residuals

Residuals vs Fitted

1 2 3

−3 −2 −1 0 1 2 3

−400−300−200−1000100

norm quantiles

reg$residuals

1 2

Time

ts(reg$residuals)

0 100 200 300 400

−400−300−200−1000100

0.000 0.005 0.010 0.015

−5−4−3−2−101

Leverage

Standardized residuals

Cook's distance

Residuals vs Leverage

1 2 3

Niespełnione założenia o sferyczności błędu losowego – występuje heteroskedastyczność oraz auto- korelacja. Niespełnione założenie o normalności rozkładu (zachowanie ogonów). Kilka obserwacji wpływowych, w szczególności numery 1,2,3.

(r) n = 3000

−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5

−1.5−1.0−0.50.00.51.01.5

Fitted values

Residuals

Residuals vs Fitted

267 1198

859

−3 −2 −1 0 1 2 3

−1.0−0.50.00.51.01.5

norm quantiles

reg$residuals

2671198

Time

ts(reg$residuals)

0 500 1000 1500 2000 2500 3000

−1.0−0.50.00.51.01.5

0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35

−4−20246

Leverage

Standardized residuals

Cook's distance

1 0.5 0.5 1

Residuals vs Leverage

267 1198

2481

Reszty pochodzą z Liniowego Modelu Prawdopodobieństwa – zastosowania KMRL do modelowania zmiennej binarnej. Występuje heteroskedastyczność, brak autokorelacji. Reszty nie cechują się rozkła- dem normalnym – próba jest jednak bardzo duża, moglibyśmy się powołać na CTG. Obserwacje 1198 i 267 (prawy górny róg wykresu) wpływowe. Należałoby się również przyjrzeć obserwacji 2481.

Cytaty

Powiązane dokumenty

Bardzo podobnie oscylował wskaźnik alienacji politycznej mierzony akceptacją tezy, że „dla ludzi takich jak ja nie ma znaczenia, czy rządy są demokratyczne czy

Statystyka - > Statystyki nieparametryczne - > Porównanie dwóch prób zależnych (zmiennych) -> Test kolejności par Wilcoxona.

Mamy sześciościenną kostkę do gry, przy czym nie znamy prawdopodobieństwa wypadnięcia 6, oznaczo- nego

Tam, gdzie zasadne, sprawdzić, czy założenia testu są

Jako, że licznik i mianownik są dodatnie a przed całością jest minus to druga pochodna rzeczywiście jest ujemna, czyli dla λ n funkcja wiarogodności przyjmuje maksimum....

[r]

Albo wykorzystujemy wynik z ćwiczeń, albo wyprowadzamy postać estymatora, pamiętając, że w modelu pojawia się stała (pierwsza kolumna macierzy X to jedynki).. Korzystamy

(d) (1 pkt) Dla wybranej na podstawie kryterium liczby skupień obejrzyj statystyki opisowe (niewystanda- ryzowanych) zmiennych (lub ich transformacji, jeśli uznasz to za potrzebne)