Zadania – Laboratorium 9. Przygotowanie: Dane:

(1)

Zadania – Laboratorium 9.

Przygotowanie:

Dane: "KrukUWr2017.Rdata"

Biblioteki: rpart, datasets, party Przypomnienie:

Zagadnienie regresyjne - chcemy poznać wartość zmiennej ciągłej, na podstawie znajomości wartości jednej lub większej liczby predykcyjnych zmiennych ciągłych oraz zmiennych kategorialnych.

Zagadnienie klasyfikacyjne - pojawia się tam, gdzie mamy kategorialną zmienną zależną, której wartość (czyli przynależność przypadku do klasy, grupy) chcemy poznać na podstawie znajomości wartości jednej lub większej liczby predykcyjnych zmiennych ciągłych oraz zmiennych kategorialnych.

ZAD 1. Na wbudowanych danych „iris” za pomocą „rpart” zbuduj drzewo klasyfikacyjne szacujące przynależność do gatunku wykorzystując jako predyktory:

a. dane o Sepalach b. wszystkie dane

Porównaj procent właściwie zakwalifikowanych przypadków. Które drzewo lepiej klasyfikuje?

Sprawdź wpływ parametrów minsplit i cp na głębokość drzewa.

ZAD 2. Teraz zbuduj drzewo z pomocą „ctree”, w dalszym ciągu wykorzystaj dane „iris” oraz wszystkie predyktory.

Policz procent właściwie zakwalifikowanych przypadków.

Sprawdź wpływ parametrów minsplit,mincriterion ,testtype na głębokość i jakość klasyfikacji drzewa.

ZAD 3. Uzupełnij braki danych w ramce „cases” (możesz wspomóc się przesłanym skryptem z laboratorium numer 4)

ZAD 4. Na bazie ramki danych „events” stwórz następujące zmienne dla wszystkich spraw z ramki

„cases” i dodaj je do nowej ramki np. „cases2”

a. Y1- G (good), B (bad) na bazie wpłat 6M (6 miesięcy)– czy były większe niż 50 b. Y2 - 1, 0 na bazie wpłat 6M – czy były większe niż 50

c. Y3 - Suma wpłat 6M

ZAD 5. Podziel zbiór „cases2” na zbiór uczący i testowy w proporcji 60:40.

ZAD 6. Sprawdź działanie metod (rpart, ctree) dla przypadków Y1,Y2 przy użyciu jednego predyktora:

Age, na zbiorze uczącym.

ZAD 7. Stwórz odpowiednie najlepsze (wg. macierzy klasyfikacji dla klasyfikacji i wg. błędu

średniokwadratowego dla regresji) drzewo (odpowiednio do Y klasyfikacyjne, regresyjne) dla każdej ze zmiennych Y1, Y2, Y3 wybraną przez siebie metodą (rpart, ctree) wykorzystując tylko dane ze zbioru uczącego. Zadbaj o to, by drzewo nie było przeuczone.