• Nie Znaleziono Wyników

Zadania – Laboratorium 9. Przygotowanie: Dane:

N/A
N/A
Protected

Academic year: 2021

Share "Zadania – Laboratorium 9. Przygotowanie: Dane:"

Copied!
1
0
0

Pełen tekst

(1)

Zadania – Laboratorium 9.

Przygotowanie:

Dane: "KrukUWr2017.Rdata"

Biblioteki: rpart, datasets, party Przypomnienie:

Zagadnienie regresyjne - chcemy poznać wartość zmiennej ciągłej, na podstawie znajomości wartości jednej lub większej liczby predykcyjnych zmiennych ciągłych oraz zmiennych kategorialnych.

Zagadnienie klasyfikacyjne - pojawia się tam, gdzie mamy kategorialną zmienną zależną, której wartość (czyli przynależność przypadku do klasy, grupy) chcemy poznać na podstawie znajomości wartości jednej lub większej liczby predykcyjnych zmiennych ciągłych oraz zmiennych kategorialnych.

ZAD 1. Na wbudowanych danych „iris” za pomocą „rpart” zbuduj drzewo klasyfikacyjne szacujące przynależność do gatunku wykorzystując jako predyktory:

a. dane o Sepalach b. wszystkie dane

Porównaj procent właściwie zakwalifikowanych przypadków. Które drzewo lepiej klasyfikuje?

Sprawdź wpływ parametrów minsplit i cp na głębokość drzewa.

ZAD 2. Teraz zbuduj drzewo z pomocą „ctree”, w dalszym ciągu wykorzystaj dane „iris” oraz wszystkie predyktory.

Policz procent właściwie zakwalifikowanych przypadków.

Sprawdź wpływ parametrów minsplit,mincriterion ,testtype na głębokość i jakość klasyfikacji drzewa.

ZAD 3. Uzupełnij braki danych w ramce „cases” (możesz wspomóc się przesłanym skryptem z laboratorium numer 4)

ZAD 4. Na bazie ramki danych „events” stwórz następujące zmienne dla wszystkich spraw z ramki

„cases” i dodaj je do nowej ramki np. „cases2”

a. Y1- G (good), B (bad) na bazie wpłat 6M (6 miesięcy)– czy były większe niż 50 b. Y2 - 1, 0 na bazie wpłat 6M – czy były większe niż 50

c. Y3 - Suma wpłat 6M

ZAD 5. Podziel zbiór „cases2” na zbiór uczący i testowy w proporcji 60:40.

ZAD 6. Sprawdź działanie metod (rpart, ctree) dla przypadków Y1,Y2 przy użyciu jednego predyktora:

Age, na zbiorze uczącym.

ZAD 7. Stwórz odpowiednie najlepsze (wg. macierzy klasyfikacji dla klasyfikacji i wg. błędu

średniokwadratowego dla regresji) drzewo (odpowiednio do Y klasyfikacyjne, regresyjne) dla każdej ze zmiennych Y1, Y2, Y3 wybraną przez siebie metodą (rpart, ctree) wykorzystując tylko dane ze zbioru uczącego. Zadbaj o to, by drzewo nie było przeuczone.

Cytaty

Powiązane dokumenty

Konstrukcja będzie bardzo podobna do konstrukcji definicji całki Riemanna jednej zmiennej rzeczywistej - tylko.. oczywiście obiekty jednowymiarowe (jak odcinek) zastąpimy

CDbl(wyrażenie) – Zwraca liczbę typu Double CInt(wyrażenie) – Zwraca liczbe typu Integer CLng(wyrażenie) – Zwraca liczbę typu Long CSng(wyrażenie) – Zwraca liczbę

Funkcje zmiennych losowych - zadania na

7.4 Zmienna losowa ma rozk lad geometryczny z parametrem p.. 7.6 Zmienna losowa ma rozk lad wyk

- Uzupełnij braki danych dla zmiennych LoanAmount, Age i Gender poprzez uzupełnienie średnią, medianą, modą (dominantą), wartością stałą.. Co zauważasz w kontekście rozkładu

b) Usuń braki danych w cechach, w których jest to możliwe do wykonania, pamiętaj o nielosowych brakach danych – lepiej pozostaw je jako osobne kategorie..

Zamiast zakładać, że funkcja / jest klasy Cr, wystarczy założyć tylko ciągłość funkcji / oraz tych jej pochodnych, które otrzymuje się przy kolejnym

całkowitoliczbowym oraz zmiennoprzecinkowym. Oba zwracają te same rezultaty w przypadku podzielnych przez siebie liczb całkowitych, ale w innych sytuacjach zachowują się