Analiza regresji – część III

(1)

Analiza regresji – część III

Agnieszka Nowak - Brzezińska

(2)

Są trzy typy obserwacji, które mogą ale nie muszą wywierać nadmiernego nacisku na wyniki regresji:

• Obserwacje oddalone (outlier)

• Obserwacje wysokiej dźwigni (laverage)

• Obserwacje wpływowe (influential).

(3)

Identyfikacja obserwacji odstających i obserwacji wpływowych

• Wykrycie wśród danych obserwacji nietypowych jest niezwykle istotne, gdyż mogą one utrudniać właściwą ich analizę, np. mogą (choć nie muszą) wywierać nadmierny nacisk na wyniki regresji.

• Szczególnej uwagi wymagają przypadki w

których nietypowość danych nie wynika z

błędu pomiaru.

(4)

przykład

Nietypową obserwacją może być chociażby zawodnik o wzroście 165 cm w grupie koszykarzy ze średnią wartością wzrostu powyżej 190 cm.

Wtedy możemy wyróżnić przynajmniej dwa warte uwagi przypadki:

• gdy ów niski koszykarz ma wagę zgodną ze średnią wagą całej grupy,

• lub gdy jego waga jest odpowiednio niższa w stosunku do wyższych kolegów w grupie.

Nietypowość pierwszego przypadku będzie polegała na tym, że przy typowej wadze, ów zawodnik ma nietypowy wzrost, i w tym sensie będzie to obserwacja potencjalnie odstająca (być może także wpływowa).

Drugi przypadek natomiast będzie dotyczył sytuacji gdy jeden zawodnik w grupie jest po prostu lżejszy i niższy niż reszta grupy - i nie oznacza to, że obserwację należy uznać za odstającą.

(5)

Należy rozróżnić:

• (i) nietypową wartość tylko zmiennej objaśnianej y podczas gdy zmienna objaśniająca x ma wartość typową od

• (ii) nietypowej wartości obu zmiennych:

objaśniającej i objaśnianej.

(6)

Obserwacje odstające

W analizie regresji, za odstające (ang. outlier), uznamy obserwacje posiadające nietypowe wartości zmiennej objaśnianej y dla ich wartości zmiennej (bądź zmiennych) objaśniającej x i w konsekwencji dostarczające dużych wartości tzw. rezyduów e.

Obserwacja, dla której wartość zmiennej objaśniającej x znacząco odbiega od typowych wartości tej zmiennej jest potencjalną obserwacją wpływową. Dołączenie takich obserwacji do zbioru danych ma w rezultacie duży wpływ na przebieg prostej regresji (zmiany współczynników regresji).

(7)

Obserwacje odstające

• Obserwacja odstająca (ang. outlier) jest obserwacją, która nie spełnia równania regresji czyli nie należy do modelu regresji.

Obserwacje odstające mogą znacząco wpływać na postać prostej regresji:

• dla której wartość sumy:

• ma być możliwie najmniejsza zgodnie

z założeniami metody MNK.

W przypadku modelu regresji, w którym tylko jedna zmienna objaśniająca określać ma wartość zmiennej objaśnianej, obserwacje odstające można identyfikować sporządzając dla obserwacji wykres rozproszenia. Oko ludzkie zwykle potrafi na nich wykrywać obserwacje nietypowe.

(8)

• Najlepiej jednak (zwłaszcza dla modeli o więcej niż jednej zmiennej objaśniającej) badać tzw. rezydua lub rezydua studentyzowane i wśród nich szukać wartości odstających.

• Zakładając, że rezyduum e_iprzyjmuje dla i-tej obserwacji wartość różnicy:

• między wartością zmiennej objaśnianej a wartością przewidywaną, błąd standardowy (ang. standard error) takiego rezyduum e_i jest równy:

• gdzie S =  to przeciętne odchylenie wartości rzeczywistych od wartości przewidywanych zaś h_ito wartość wpływu i-tej obserwacji wyrażana jako:

• Dla małych prób, wartości zmiennej objaśniającej nie są w miarę równomiernie rozłożone i niektóre błędy Se_eimogą znacznie odbiegać od błędu S. Wówczas dobrze jest analizować rezydua przy użyciu tzw. rezyduów studentyzowanych.

(9)

• Wówczas dobrze jest analizować rezydua przy użyciu tzw.

rezyduów studentyzowanych r

_i

definiowanych jako:

• To pozwoli wykrywać obserwacje faktycznie odstające, pomijając te, które przy analizie rezyduów e_i sugerowały, że są odstające mimo, że takimi nie były. Dla rezyduów studentyzowanych zakłada się, że przy poziomie ufności równym 0.95 uznaje się je za normalne (zachowujące własność rozkładu normalnego) gdy należą do przedziału [−2, +2].

• Wykres studentyzowanych rezyduów względem ich indeksu identyfikuje duże wartości, które przypuszczalnie odpowiadają obserwacjom odstającym. Metoda ta nie sprawdzi się w sytuacji, gdy mamy w analizowanym zbiorze obserwację wpływową o małej wartości e_i.

Wówczas bowiem nie określimy jej jako odstającej mimo, że taka w

istocie jest.

(10)

• Tutaj z ratunkiem przychodzą tzw. Modyfikowane studentyzowane rezydua d

_i

, badające różnicę między wartością rzeczywistą Y

_i

a wartością przewidywaną dla tej obserwacji, gdy pominiemy ją w analizie. Wartość d

_i

określona jako modyfikowane rezyduum wyznaczana jest następująco:

• Gdzie to wartość przewidywana zmiennej objaśnianej w

modelu regresji dla zbioru wszystkich obserwacji z

pominięciem obserwacji i-tej. Studentyzowane

modyfikowane rezyduum przyjmuje wartość:

(11)

Obserwacje wpływowe

Obserwacja jest wpływowa (ang. influential), jeśli jej obecność wpływa na prostą regresji, w taki sposób, że zmienia się współczynnik kierunkowy tej prostej.

Innymi słowy, usunięcie tej obserwacji ze zbioru

danych powoduje dużą zmianę wektora

współczynników regresji. Obserwacje odstające

mogą, ale nie muszą być obserwacjami

wpływowymi.

(12)

Obserwacje wpływowe

Wpływ i-tej obserwacji

będziemy określać jako odstępstwo obserwacji x_i od .

Im większa jest różnica (podnoszona do kwadratu) tym większa wartość wpływu. Dla modelu z jedną zmienną objaśniającą wystarczyłoby w zasadzie sporządzić wykres typu histogram dla tej zmiennej objaśniającej i za jego pomocą wykrywać obserwacje odbiegające od wartości typowej tej zmiennej.

Jednak gdy w modelu mamy więcej zmiennych objaśniających, wówczas odbieganie wektora x od wektora średnich

gdzie

wcale nie oznacza, że któraś ze współrzędnych wektora x będzie odstawać znacznie od odpowiadającej współrzędnej wektora średnich.

(13)

Z pomocą przychodzi tutaj założenie, że pewna globalna miara odstępstwa obserwacji x_i od określona jest przez i-ty diagonalny

element macierzy H: hi = hii zwany wpływem obserwacji.

Dla modelu o p parametrach (gdzie p to łączna liczba zmiennych objaśniających i objaśnianych) powiemy, że

oraz dla każdego

To oznacza, że typowa wartość wpływu hi nie powinna przekraczać wartości p/n. Jeśli zaś wartość ta dla analizowanej i-tej obserwacji przekracza wartość 2p/n (a dla małych prób 3p/n) wówczas taką zmienną uznamy za potencjalnie wpływową.

(14)

• Na uwagę zasługuje tu fakt, że dla obserwacji o dużych wartościach wpływu rezydua ei mogą być małe.

• Dlatego, by upewnić się, że poprawnie zidentyfikowaliśmy obserwacje wpływowe stosując próg 2p/n powinniśmy każdą taką obserwację usunąć ze zbioru i sprawdzić jak bardzo dzięki temu zmienił się wektor spółczynników regresji w stosunku do modelu w którym tę obserwację ujęto w analizie.

(15)

• Równie popularnymi miarami wpływu poszczególnych obserwacji na równanie regresji są:

• . DFFITS (autorzy: Belsley, Kuh & Welsch, 1980);

• . Odległość Cooka (autorzy: Cook, 1977);

• . DFBETAS (autorzy: Belsley, Kuh & Welsch, 1980);

(16)

(17)

(18)

(19)

• Zupełnie innym typem obserwacji, o których raczej nie powiemy, że są odstającymi, są obserwacje dla których wektor zmiennych objaśniających jest znacznie oddalony od typowego wektora wartości objaśniających. Nie zakładamy dla takich obserwacji, że mając nietypowe wartości zmiennych objaśniających nie spełnią równania regresji.

• Z omawianym zagadnieniem wiąże się jeszcze pojęcie tzw. dźwigni (ang. leverage) obserwacji.

(20)

• Obserwacja cechuje się wysoką dźwignią gdy przy nietypowej wartości zmiennej objaśniającej cechuje się typową wartością zmiennej objaśnianej. Wówczas bowiem rezyduum ei będzie małe a o obserwacji powiemy, że przyciąga linię regresji ˆ Yi blisko Yi.

Możemy także powiedzieć, że miarą dźwigni dla i-tej obserwacji jest wartość jej wpływu hi.

• W regresji prostej mierzy ona odległość danej obserwacji od średniej wartości tej zmiennej. W regresji wielokrotnej zaś mierzy ona po prostu odległość od punktu średnich wartości wszystkich zmiennych objaśniających. Im bardziej różni się wartość zmiennej (bądź zmiennych) objaśniającej dla i-tej obserwacji od wartości średniej, tym większa jest wartość tzw. dźwigni dla tej obserwacji.

• Zwykle wartości dźwigni mieszczą się w przedziale [0, 1] zatem wartość dźwigni większa od wartości 4/n świadczy o tym, że obserwacja będzie traktowana jako nietypowa (mając tzw. wysoką wartość dźwigni).

(21)

Masking i Swamping

• Masking (nazywany maskowaniem odchyleń) zachodzi wówczas, gdy spodziewamy się w zbiorze jednej obserwacji będącej odchyleniem a w rzeczywistości takich odchyleń jest więcej.

Wówczas test może nie wykryć odchyleń w ogóle gdyż te - dodatkowe - odchylenia mogą wpływać na wielkości różnych statystyk i w efekcie nie znajdować żadnych odchyleń w danych.

• Z kolei swamping jest nieuprawnionym dołączaniem obserwacji do zbioru obserwacji wpływowych i/lub odstających.

(22)

Wykrywanie obserwacji odstających, wpływowych i obserwacji

wysokiej dźwigni w praktyce

• Dla przykładowego zbioru danych zawierających 20 obserwacji opisanych dwoma wartościami (po jednej zmiennej objaśniającej x i objaśnianej y) ta część rozdziału będzie przedstawiała krok po kroku procedury wyznaczania obserwacji wpływowych, odstających oraz obserwacji wysokiej dźwigni.

• Rozważymy trzy przypadki dodając za każdym

razem po jednej nietypowej obserwacji do tego

zbioru.

(23)

(24)

(25)

(26)

Dla tego zbioru rozważymy trzy różne przypadki: dodamy do niego za każdym razem po jednej obserwacji nietypowej:

 obserwacji odstającej, o niewielkim wpływie na regresję, i nie będącej obserwacją tzw. wysokiej dźwigni (o współrzędnych (4, 40)),

 obserwacji jednocześnie odstającej, wpływowej i z wysoką dźwignią (o współrzędnych (13, 15)),

 obserwacji wysokiej dźwigni, nie będącej obserwacją odstającą ani też wpływową (o współrzędnych (14, 68)).

(27)

(28)

(29)

• Łatwo zauważyć, że dodanie nowej obserwacji (wyraźnie odstającej, o czym świadczą wartości 4, 40) nie wpłynęło na równanie regresji, zatem możemy wnioskować, że nie jest ona wpływową mimo, że jest odstająca.

• Dla oryginalnego zbioru danych równanie regresji miało postać:

• dane$y = 5.1169 dane$x+1.7322

• podczas gdy teraz dla zbioru zawierającego obserwację (4, 40) równanie będzie następujące:

• dane$y = 5.0373 dane$x + 2.9576

• Dla takiego zbioru postaramy się sprawdzić wartości poszczególnych miar: rezyduów (lub rezyduów studentyzowanych), dźwigni, odległości Cooka czy DFFITS.

(30)

(31)

Szukamy obserwacji o dużej wartości rezyduów lub rezyduów studentyzowanych:

Tylko nr 21 przekracza próg dopuszczalny równy 2.

Obserwacjami wpływowymi są te, których wartość DFFITS przekracza wartość 1 (dla małych prób) bądź wartość odległości Cooka przekracza próg 0.1904:

taką obserwacją jest również tylko obserwacja nr 21 (choć należy zaznaczyć, że wpływ tej obserwacji na zmiany współczynników regresji nie jest znaczący, a i wartość miary DFFITS nieznacznie przekracza wartość progową).

(32)

(33)

Będzie to obserwacja wpływowa ale nie będzie obserwacją wysokiej dźwigni

(34)

(35)

(36)

• Drugi analizowany przypadek zbioru zawiera

obserwację wpływową ale nie odstającą. Do

oryginalnego zbioru 20 obserwacji dodajemy

obserwację nr 21 o współrzędnych (13, 15).

(37)

(38)

(39)

• możemy zauważyć, jak bardzo zmieniły się wszystkie parametry tego modelu.

• Widać różnice we współczynnikach równania regresji, które teraz wygląda następująco:

dane$y = 3.3198 dane$x + 8.5045.

• Różnice widać także dla błędu standardowego rezyduów oraz chociażby wartości współczynnika determinacji R2.

(40)

(41)

(42)

(43)

Wniosek…

• W tym zbiorze obserwacja nr 21 jest zarówno obserwacją o dużej wartości reszty i reszty studentyzowanej (jest więc obserwacją odstającą), obserwacją wpływową (wartość odległości Cooka jak i miary DFFITS przekraczają dopuszczalny próg) a także obserwacją wysokiej dźwigni.

(44)

• ostatni analizowany przypadek danych nietypowych.

• Nietypowość jego polega na tym, że nowododana obserwacja nie jest ani odstająca, ani wyraźnie wpływowa, jest zaś obserwacją wysokiej dźwigni. Po dodaniu, do oryginalnego zbioru, obserwacji o współrzędnych (14, 68)

(45)

• Równanie regresji dla tego zbioru jest następujące:

• dane$ y = 4.9272 dane$x + 2.4679.

• Równanie różni się nieznacznie od równania regresji dla oryginalnego zbioru 20 obserwacji:

• dane$y = 5.1169 dane$x + 1.7322

• Zmiany są niewielkie także dla współczynnika determinacji, czy wartości rezyduów. To sugeruje, iż nowo dodana obserwacja nie jest obserwacją wpływową.

(46)

(47)

(48)

(49)

• Ten zbiór jest o tyle interesujący, że obserwacja nr 21 nie jest obserwacją odstającą (umieszczona jest na linii regresji, wartość rezyduum studentyzowanego nie przekracza wartości ±2). Z pewnością obserwacja ta ma wysoką wartość dźwigni.

• W zbiorze tym zauważamy także inne obserwacje nietypowe.

Obserwacje 4, 14, 18 cechują się dużą wartością rezyduów ale nie mają z kolei zbyt dużych wartości odległości Cooka czy miary DFFITS, które świadczyłyby o tym, że są to obserwacje zdecydowanie wpływowe. Owszem, przekraczają one progowe

• wartości tych miar, jednak odstępstwa nie są znaczące.

(50)

Obserwacje odstające w R

• Obserwacja jest odstająca (oddalona) czyli nietypowa gdy ma bardzo dużą bezwzględną wartość standaryzowanej reszty.

• Wartości resztowe mogą mieć różne wariancje,

zatem preferuje się użycie standaryzowanych

wartości resztowych w celu identyfikacji punktów

oddalonych. Mówimy, że wartości resztowe są

standaryzowane, jeśli są podzielone przez ich

błąd standardowy, a więc mają wszystkie tę samą

skalę.

(51)

Reszty

(52)

Wykres reszt

• Obserwujemy różnice między rzeczywistą wartością y a wartością oszacowaną ŷ .

•

(53)

Wykres standaryzowanych reszt

(54)

Wykres standaryzowanych reszt

(55)

Normalny wykres kwantylowy

(56)

W praktyce…

• sporządzając wykres wartości studentyzowanych rezyduów r

_i

względem ich indeksu będziemy potrafili rozpoznawać te duże wartości, które przypuszczalnie będą odstającymi.

• Podsumowując powiemy, że nowa obserwacja będzie punktem odstającym jeśli będzie się cechować dużą wartością studentyzowanej (standaryzowanej) reszty.

• W praktyce, obserwacje odstające to takie,

których wartość bezwzględnych

studentyzowanych reszt przekracza 2.

(57)

Studentyzowane reszty

Studentyzowane reszty różnią się od standaryzowanych reszt tym, że standaryzując i-tą resztę, za ocenę wariancji wybiera się wariancję liczoną na próbie z pominięciem tej obserwacji (tzw. próbie One leave out)



 



) 1

2(

)

( i i

stud i i

h r r



W środowisku R pomocna będzie funkcja rstudent z pakietu {stats}





 

 _n

i i i i

x x

x x h n

1

2 2

) (

) 1 (

(58)

reszty

• Zależności między oryginalnymi y

_i

a ocenami mówią jak bardzo na ocenę wpływa wartość y

_i

, a jak pozostałe wartości.

• Nazywamy je dźwigniami (ang. leverages).

• Wartości h

_i

opisują wpływ obserwacji y

_i

na

• Są bardzo użyteczne w diagnostyce modelu.



yi



yi





 

 _n

i i i i

x x

x x h n

1

2 2

) (

1

(59)

Standaryzowane reszty

To reszty dzielone przez ocenę odchylenia standardowego reszt

W środowisku R pomocna będzie funkcja rstandard z pakietu {stats}





) 1

2(

i std i

i

h r r

 





 

 _n

i i i i

x x

x x h n

1

2 2

) (

1

(60)

• Jeśli przez s

_i,resid

oznaczymy błąd standardowy i-tej reszty to

• Gdzie h

_i

jest dźwignią i-tej obserwacji, a wówczas standardowa wartość resztowa (reszta) jest równa:

i resid

i s h

s _,  1 

resid i

i i

darized s

i

s

y reszta y

, tan

,











 

 _n

i i i i

x x

x x h n

1

2 2

) (

1

(61)

• W praktyce oddalone obserwacje to te, których wartość bezwzględnych standaryzowanych reszt przekracza 2.

• Np. w naszym zbiorze obserwacje 1 i 4 są oddalone. Ogólnie, jeżeli reszta jest dodatnia, to mówimy że obserwowana wartość y jest większa od przewidywanej dla danej wartości x.

• Jeżeli reszta jest ujemna, mówimy, że obserwowana wartość y jest mniejsza od przewidywanej dla danej wartości x.

i resid

i s h

s _,  1

resid i

i i

darized s

i s

y reszta y

, tan

,

 



(62)

R- wartości oddalone w zbiorze cereals

• Rozważmy wykres rozrzutu wartości odżywczej względem cukrów.

• Dwie obserwacje z największymi

bezwzględnymi wartościami reszt to All-Bram

Extra Fiber i 100% Bran. Zauważmy, że

odległość od linii regresji jest większa dla tych

dwóch obserwacji niż dla pozostałych

rodzajów płatków śniadaniowych, co oznacza

największe wartości resztowe.

(63)

(64)

Obserwacja wysokiej dźwigni

• Obserwacja wysokiej dźwigni (high leverage point) to obserwacja, która przyjmuje bardzo duże lub bardzo małe wartości w przestrzeni zmiennych objaśniających.

• Obserwacja wysokiej dźwigni przyjmuje wartości na skraju zakresu dla zmiennej (zmiennych) x, a wartość zmiennej y nie jest istotna. Więc dźwignia uwzględnia tylko wartości zmiennej x i ignoruje wartości zmiennej y.

• Pojęcie dźwigni wywodzi się od używanego w fizyce pojęcia dźwigni, za pomocą której można poruszyć Ziemię, gdyby tylko jej ramię było dostatecznie długie.

• Dźwignię hi dla i-tej obserwacji można obliczyć w następujący sposób:







 

 _n

i i i i

x x

x x h n

1

2 2

) (

1

(65)

Dla danego zbioru danych wielkości:

można uważać za stałe.

Zatem wartość dźwigni dla i-tej obserwacji zależy jedynie od kwadratu odległości między wartością zmiennej objaśniającej a średnią wartością zmiennych objaśniających.

Im bardziej wartość obserwowana różni się od średniej wartości zmiennej x, tym większa jest wartość dźwigni.

Kres dolny dla wartości dźwigni to 1/n, a kres górny to 1.

Jeżeli wartość dźwigni jest większa od około 2(m+1)/n lub 3(m+1)/n, to uznaje się, że jest ona wysoka (m oznacza tu liczbę zmiennych objaśniających).

n

1 





n

i i i

x x

1

2 2

) (

oraz





 

 _n

i i i i

x x

x x h n

1

2 2

) (

1

(66)

Obserwacja wpływowa

• Obserwacja jest wpływowa (ang. influential), jeśli jej obecność wpływa na prostą regresji, w taki sposób, że zmienia się współczynnik kierunkowy tej prostej

.

• Inaczej powiemy, że jeśli obserwacja jest wpływowa to inaczej wygląda prosta regresji w zależności od tego czy ta obserwacja została ujęta w zbiorze, czy też nie (została usunięta).





 _n 

i i i

x x

x x n

1

2 2

) (

) ( 1

Obserwacja jest wpływowa (influential) jeżeli parametry regresji istotnie zmieniają się w zależności od obecności lub nieobecności tej obserwacji w zbiorze danych.

(67)

Identyfikacja obserwacji wpływowych

• W praktyce, jeśli obserwowana wartość leży w Q1 to mówimy, że ma ona mały wpływ na regresję. Obserwacje leżące między Q1 a Q3 nazywamy wpływowymi.

• Mówimy także, że czynnik

• we wzorze na SE

_ei

to tzw. wpływ tej obserwacji (czasami nazywany w literaturze ''dźwignią'').

• Zwykle obserwacje cechujące się wysoką wartością dźwigni będą uznawane za wpływowe. Dodatkowo powiemy, że nawet jeśli obserwacja jest odstająca, ale ma małą wartość wpływu to uznamy, że nie jest ona wpływowa.





 





 _n

i i i e

x x

x x S n

SEi

1

2 2

) (

) ( (1 1

(68)

Wykrywanie odchyleń - metody

• 1. wysoka dźwignia (Leverages)

• 2. reszty (Jackknife residuals)

• 3. odległość Cook’a (Cook’s distance).

(69)

Jackknife residuals (Externally studentized residuals):

• is called a jackknife residual (or R-Student residual).

• MSE(−i) is the residual variance computed with the ith observation deleted.

• Jackknife residuals have a mean near 0 and a variance

• that is slightly greater than 1. Jackknife residuals are usually

• the preferred residual for regression diagnostics.

(70)

Odległość Cook’a

Di: Odległość Cook’a do pomiaru obs. wpływowych hi: dźwignia – dla mierzenia “nietypowości”

zmiennej (-ych) x

ri: Studentyzowane reszty – dla pomiaru

odchylenia

(71)

(72)

(73)

• ri = i-ta studentyzowana reszta;

• Wpływowość jest w relacji z dźwignią i tym, czy obserwacja jest odstająca:

• Odchylenia o wysokiej dźwigni są wpływowe

• Odchylenia o niskiej dźwigni są zdecydowanie mniej wpływowe

• Punkty wysokiej dźwigni które nie są odchyleniami są mniej wpływowe

• Wysoka wpływowość gdy Di > 1

• w środowisku R:

• cooks.distance(y.lm)

• Lub

• plot(y.lm, which=4)

Odległość Cook’a

(74)

(75)

Metody:

Szukając:

1. Odchyleń (na wykresie reszt) – szukamy punktów które są wpływowe, czyli takie dla których model regresji nie jest adekwatny

2. Obserwacji wysokiej dźwigni (na wykresie hat diagonal) to punkty potencjalnie wpływowe

3. Obserwacji wpływowych (za pomocą odległości Cook’a) szukamy punktów które mogą zaburzać model regresji

Pamiętaj, że:

1. Odchylenia nie muszą być wpływowe.

2. Obserwacje wysokiej dźwigni też nie muszą być wpływowe.

3. Obserwacje wpływowe mogą nie być odchyleniami.

(76)

Odległość Cooka

• mierzy poziom wpływu obserwacji, uwzględniając zarówno wielkość reszty, jak i wysokość wpływu dla tej obserwacji. Dla i-tej obserwacji odległość Cooka jest obliczana jako:

• Gdzie jest obserwacją przewidywaną dla j-tej obserwacji obliczoną na podstawie danych z usuniętą obserwacją i-tą, zaś

będzie wartością przewidywaną dla j-tej obserwacji gdy i-tej obserwacji nie usunięto.

• Duża wartość D_i mówi o dużym wpływie usunięcia i-tej obserwacji, a tym samym obserwację i-tą uznajemy za wpływową.

•

2 2

2 ) ( 1

) 1 ( )

(

i i i

j i n

j j

i h

h pS

e pS

Y Y

D   













 ) j(i

Y



Y

j

(77)

• W praktyce obserwacja jest wpływowa jeżeli

jej odległość Cooka przekracza wartość 1.

(78)

• Najpierw należy załadować pakiet {car}

• I następnie wywołać komendę:

Wykres obserwacji wpływowych z

zaznaczeniem

odległości Cooka

(79)

Wykres obserwacji wpływowych z zaznaczeniem odległości Cooka

Teraz jeśli chcemy poznać obserwacje wpływowe możemy użyć komendy:

> influencePlot(lm(b~a), main="Influence

Plot",sub="Rozmiar kółka jest proporcjonalny do odległości Cooka)

(80)

(81)

• Wykres QQ powinien w przybliżeniu pokrywać się z linią prostą

• Na wykresie Cooka pokazany jest wpływ poszczególnych punktów na regresję wielokrotną

• – interesują nas punkty (a) o wartościach w

pobliżu 1, (b) odbiegające znacząco od innych

(82)

Jak widać, ostatnia kolumna wskazuje na obserwacje wpływowe zaznaczając przy nich symbol *.

Z naszych danych wynika, że w zbiorze cereals mamy 2 wpływowe. Są to obserwacje 1 i 4.

Do wykrycia obserwacji wpływowych możemy także użyć funkcji.

> influence.measures(model.regresji) której efekty będzie następujący

(83)

Wyznaczenie obserwacji odstających w modelu z wieloma zmiennymi

objaśniającymi

library(car)

> outlier.test(model)

max|rstudent| = 2.850639, degrees of freedom = 73, unadjusted p = 0.005668692, Bonferroni p = 0.4364893 Observation: Golden_Crisp

Obserwacje odstające będziemy wykrywać przy użyciu znanego już pakietu car i funkcji outlier.test w ramach tego pakietu.

Wykryliśmy jedną obserwację odstającą (płatki o nazwie Golden_Crisp).

(84)

Wyznaczenie obserwacji wpływowych w modelu z wieloma zmiennymi objaśniającymi

influence.measures(model) Influence measures of

lm(formula = rating ~ sugars + fiber, data = dane) :

dfb.1_ dfb.sgrs dfb.fibr dffit 100\%_Bran -0.029606 0.006873 8.71e-02 0.09114 100\%_Natural_Bran -0.032678 -0.025977 3.28e-03 -0.11268 All-Bran 0.107395 0.004022 -4.24e-01 -0.45329 All-Bran_with_Extra_Fiber -0.051238 -0.047248 2.62e-01 0.28122 ...

Frosted_Flakes -0.000309 0.015791 -6.58e-03 0.02575 Frosted_Mini-Wheats 0.065331 0.017652 9.33e-02 0.27267 ...

Golden_Crisp -0.171769 0.576328 -2.20e-01 0.73321 Golden_Grahams -0.087125 -0.053260 1.31e-01 -0.21490 Grape_Nuts_Flakes 0.031668 -0.020034 1.55e-02 0.05831 Grape-Nuts -0.005289 0.004597 -1.28e-03 -0.00738 Shredded_Wheat_'n'Bran 0.287978 -0.328880 1.26e-01 0.43414 Shredded_Wheat_spoon_size 0.373845 -0.378815 3.42e-02 0.46093 Wheaties_Honey_Gold -0.007926 -0.002691 6.93e-03 -0.01710

cov.r cook.d hat inf 100\%_Bran 1.233 2.80e-03 0.1565 * 100\%_Natural_Bran 1.018 4.24e-03 0.0138 All-Bran 1.116 6.80e-02 0.1216 * All-Bran_with_Extra_Fiber 1.588 2.67e-02 0.3480 * ...

Frosted_Flakes 1.068 2.24e-04 0.0257 Frosted_Mini-Wheats 0.867 2.35e-02 0.0147 * ...

Golden_Crisp 0.809 1.63e-01 0.0621 * ...

Post_Nat._Raisin_Bran 1.147 1.57e-04 0.0918 *

Wartości wpływowe będziemy wykrywać za pomocą fukcji influence.measures. Wyniki takiej analizy widzimy poniżej.

(85)

dfb.1_ dfb.sgrs dfb.fibr dffit 100\%_Bran -0.029606 0.006873 8.71e-02 0.09114 100\%_Natural_Bran -0.032678 -0.025977 3.28e-03 -0.11268 All-Bran 0.107395 0.004022 -4.24e-01 -0.45329 All-Bran_with_Extra_Fiber -0.051238 -0.047248 2.62e-01 0.28122 ...

Frosted_Flakes -0.000309 0.015791 -6.58e-03 0.02575 Frosted_Mini-Wheats 0.065331 0.017652 9.33e-02 0.27267 ...

Golden_Crisp -0.171769 0.576328 -2.20e-01 0.73321 Golden_Grahams -0.087125 -0.053260 1.31e-01 -0.21490 Grape_Nuts_Flakes 0.031668 -0.020034 1.55e-02 0.05831 Grape-Nuts -0.005289 0.004597 -1.28e-03 -0.00738 Shredded_Wheat_'n'Bran 0.287978 -0.328880 1.26e-01 0.43414 Shredded_Wheat_spoon_size 0.373845 -0.378815 3.42e-02 0.46093

Wheaties_Honey_Gold -0.007926 -0.002691 6.93e-03 -0.01710 cov.r cook.d hat inf

100\%_Bran 1.233 2.80e-03 0.1565 * 100\%_Natural_Bran 1.018 4.24e-03 0.0138 All-Bran 1.116 6.80e-02 0.1216 * All-Bran_with_Extra_Fiber 1.588 2.67e-02 0.3480 * ...

Frosted_Flakes 1.068 2.24e-04 0.0257 Frosted_Mini-Wheats 0.867 2.35e-02 0.0147 * ...

Golden_Crisp 0.809 1.63e-01 0.0621 * ...

Post_Nat._Raisin_Bran 1.147 1.57e-04 0.0918 *

(86)

Za wpływowe uznamy 6 obserwacji:

100%_Bran All-Bran

All-Bran_with_Extra_Fiber Frosted_Mini-Wheats

Golden_Crisp (

które zresztą uznaliśmy za obserwację odstającą, outlier

) oraz

Post_Nat._Raisin_Bran.

(87)

Wyznaczenie obserwacji wpływowych w modelu z wieloma zmiennymi objaśniającymi

dfb.1_ dfb.sgrs dfb.fibr dffit 100\%_Bran -0.029606 0.006873 8.71e-02 0.09114 100\%_Natural_Bran -0.032678 -0.025977 3.28e-03 -0.11268 All-Bran 0.107395 0.004022 -4.24e-01 -0.45329 All-Bran_with_Extra_Fiber -0.051238 -0.047248 2.62e-01 0.28122

…

Frosted_Flakes -0.000309 0.015791 -6.58e-03 0.02575 Frosted_Mini-Wheats 0.065331 0.017652 9.33e-02 0.27267 Fruit_&_Fibre_Dates,_Walnuts,_and_Oats 0.044397 -0.053242 -7.99e-02 -0.10900 Fruitful_Bran -0.026656 0.032621 3.37e-02 0.05029 Fruity_Pebbles 0.001325 0.051194 -3.74e-02 0.08435 Golden_Crisp -0.171769 0.576328 -2.20e-01 0.73321 Golden_Grahams -0.087125 -0.053260 1.31e-01 -0.21490

…

Post_Nat._Raisin_Bran 0.013573 -0.015027 -1.52e-02 -0.02158 Product_19 -0.172077 0.117140 7.49e-02 -0.17857 Puffed_Rice 0.393316 -0.308803 -2.06e-01 0.39332

…

Wheaties -0.037606 0.032686 -9.08e-03 -0.05246 Wheaties_Honey_Gold -0.007926 -0.002691 6.93e-03 -0.01710

Wartości wpływowe będziemy wykrywać za pomocą funkcji influence.measures. Wyniki takiej analizy widzimy poniżej.

(88)

cov.r cook.d hat inf

100\%_Bran 1.233 2.80e-03 0.1565 * 100\%_Natural_Bran 1.018 4.24e-03 0.0138 All-Bran 1.116 6.80e-02 0.1216 * All-Bran_with_Extra_Fiber 1.588 2.67e-02 0.3480 *

…

Frosted_Mini-Wheats 0.867 2.35e-02 0.0147 * Fruit_&_Fibre_Dates,_Walnuts,_and_Oats 1.075 4.00e-03 0.0417 Fruitful_Bran 1.100 8.54e-04 0.0549 Fruity_Pebbles 1.074 2.40e-03 0.0375 Golden_Crisp 0.809 1.63e-01 0.0621 * Golden_Grahams 0.994 1.52e-02 0.0253

….

Post_Nat._Raisin_Bran 1.147 1.57e-04 0.0918 * Product_19 1.025 1.06e-02 0.0282 Puffed_Rice 1.010 5.06e-02 0.0618

Wheaties 1.062 9.29e-04 0.0239 Wheaties_Honey_Gold 1.058 9.88e-05 0.0165

>

Wyznaczenie obserwacji wpływowych w modelu z wieloma

zmiennymi objaśniającymi

(89)

A więc mamy zapewne 6 obserwacji wpływowych.

Są to kolejno płatki:

• 100%_Bran

• All-Bran,

• All-Bran_with_Extra_Fiber

• Frosted_Mini-Wheats,

• Golden_Crisp (które zresztą uznaliśmy za obserwację odstającą, outlier) oraz

Post_Nat._Raisin_Bran .

(90)

Wyznaczenie obserwacji odstających w modelu z wieloma zmiennymi objaśniającymi

Chcąc przeprowadzić test na obserwacje odstające użyjemy znanego już pakietu car i funkcji outlier.test w ramach tego pakietu.

library(car)

> outlier.test(model)

max|rstudent| = 2.850639, degrees of freedom = 73,

unadjusted p = 0.005668692, Bonferroni p = 0.4364893

Observation: Golden_Crisp

Wykryto więc jedną obserwację odstającą (płatki o nazwie Golden_Crisp).

(91)

obserwacje odstające Wysokiej dźwigni wpływowe definicja Mają dużą

bezwzględną wartość

standaryzowanej reszty (czyli reszty podzielonej przez błąd standardowy)

Przyjmują wartości na skraju zakresu zmiennej (-ych) z a wartość y nie jest istotna. Im bardziej wartość

obserwowana różni się od średniej

wartości zmiennej x tym większa jest wartość dźwigni.

Wpływają na prostą regresji, tak, że

zmienia się współczynnik kierunkowy.

Jak je wykrywamy ? Gdy wartość > 2 Hi  2(m+1)/n Jeśli obserwacja leży między Q1 a Q3, lub jeśli