• Nie Znaleziono Wyników

Statystyczna Analiza Danych – laboratorium Walidacja krzyżowa i bootstrap Dorota Celińska-Kopczyńska

N/A
N/A
Protected

Academic year: 2021

Share "Statystyczna Analiza Danych – laboratorium Walidacja krzyżowa i bootstrap Dorota Celińska-Kopczyńska"

Copied!
8
0
0

Pełen tekst

(1)

Statystyczna Analiza Danych – laboratorium

Walidacja krzyżowa i bootstrap

Dorota Celińska-Kopczyńska

Uniwersytet Warszawski

Zajęcia 10 13/14 maja 2021

(2)

Idea zajęć – co i po co będziemy robić?

I Zajmując się modelami predykcyjnymi/klasyfikacyjnymi, chcemy, żeby te modele dobrze działały nie tylko na zbiorze treningowym, ale przede wszystkim na testowym

I Jednokrotne wylosowanie danych do zbioru testowego z reguły nie pozwala nam uogólnić, czy nasz model działa zadowalająco – mogliśmy trafić na “pasującą” próbkę, do tego, co już było I Walidacja krzyżowa pozwala wygenerować wiele prób

testowych, pozwalając nam wyciągnąć “odporniejsze” wnioski I Przyjrzymy się też metodzie symulacyjnej, jaką jest bootstrap

(3)

Walidacja krzyżowa

I Dzielimy zbiór na rozkłaczne zbiory testowe.

I Dla każdego zbioru trenujemy model korzystając z pozostałych danych i oceniamy jego błąd

I k-krotna walidacja – każda obserwacja znajduje się tylko w jednym zbiorze testowym, może zaburzać estymację błędu I walidacja MC – tworzymy wiele zbiorów testowych (np. po

10% obs), losując bez zwracania

(4)

Zadanie 1

I Zastosuj 10-krotną walidację krzyżową (implementację z pakietu caret) do zbadania błędu testowego dla klasyfikacji modelem logit na danych biopsy

I Wykorzystaj postać funkcyjną jak z poprzednich zajęć

(5)

k-krotna walidacja krzyżowa z caret

library(caret)

# obiekt, ktory okesla, jak chcemy kontrolowac model train_control <- trainControl(method=’cv’, number=k)

# wytrenowanie modelu i przetestowanie go

# prosze zwrocic uwage, ze pierwsze 4 argumenty sa prawie takie same jak w glm kfold_train <- train(y ~ x, data=biopsy,

method=’glm’, family=binomial, trControl=train_control)

# podsumowanie print(kfold_train)

(6)

Kryteria informacyjne

I Dobry model powinien spełniać dwa podstawowe warunki: być dobrze dopasowany do danych i możliwie jak najprostszy I Kryteria informacyjne służą wyborowi modelu uwzględniając

kary za złe dopasowanie i zbytnią złożoność:

I AIC = −2l ( ˆNθ) +2KN I BIC = −2l ( ˆNθ) +K log NN

k to liczba parametrów w modelu, N to liczba obs, l logarytm funkcji wiarogodności dla oszacowanego MNW modelu

I Wybieramy model o najniższych wartościach kryteriów

(7)

Zadanie 2

I Utwórz klasyfikator typu nowotworu w oparciu o regresję logistyczną i dane biopsy.

I Przeprowadź wybór modelu poprzez minimalizację AIC oraz minimalizację BIC (korzystając z funkcji stepAIC)

I Porównaj modele poprzez k-krotną walidację krzyżową, z samodzielnie wybraną wartością parametru k.

(8)

Zadanie 3

I Oszacuj średnią zawartość cukru w landrynkach oferowanych przez Włodzimierza Bielskiego Meksykaninowi Tuco (plik walter.csv).

I Oszacuj wariancję estymatora średniej korzystając z metody bootstrap:

I Napisz funkcję, która przyjmie oryginalne dane oraz wektor indeksów, których użyje do obliczenia średniej

I Wylosuj ze zwracaniem 1000 prób zawierających pomiary cukru. Każda próba powinna być takiej samej liczności jak oryginalne dane

I Wykorzystaj wylosowane próby, aby zbadać rozkład estymatora średniej.

I Porównaj swoje wyniki z funkcją boot::boot. Sposób jej użycia znajdziesz w dokumentacji.

Cytaty

Powiązane dokumenty

I W naszym wypadku była to tylko jedna linia, mimo to wyciągaliśmy pierwszy element listy, która mogła zawierać

Obliczamy postać funkcji wiarogodności (mnożymy n funkcji gęstości). Sprawdzamy, że jest to maksimum

m &lt;- subset(m, m$Zadluzenie.gmin &lt; 110) # wybierz podzbior, ktory spelnia warunek rownames(m[m$Zadluzenie.gmin&gt;110,]) # zwroci numery wierszy dla obserwacji, ktore. #

Wynikiem jest wektor kolumnowy o liczbie elementów równej liczbie parametrów do oszacowania (parametr przy stałej też

Wyznacz 95 % przedział ufności dla wartości średniej czasu reakcji kierowcy zakładając, że czas reakcji jest zmienną losową o rozkładzie normalnym?. Zakładając rozkład

Oblicz średnią cenę benzyny na zbadanych stacjach oraz wariancję ceny benzyny na tych stacjach.. Narysuj histogramy liczności i

Miary położenia (średnie, tendencji central- nej). Miary

Histogram liczebności: wysokość słupka = liczność klasy Histogram częstości: wysokość słupka = częstość klasy.. Mała długość przedziału to : nieregularność