• Nie Znaleziono Wyników

Modelowanie statystyczne w zarządzaniu wierzytelnościami masowymi – Laboratorium 7 W zadaniach będą używane poniższe tabele:

N/A
N/A
Protected

Academic year: 2021

Share "Modelowanie statystyczne w zarządzaniu wierzytelnościami masowymi – Laboratorium 7 W zadaniach będą używane poniższe tabele:"

Copied!
1
0
0

Pełen tekst

(1)

Modelowanie statystyczne w zarządzaniu wierzytelnościami masowymi – Laboratorium 7 W zadaniach będą używane poniższe tabele:

library(data.table)

load("KrukUWr2017.RData")

variables <- c("TOA", "LoanAmount", "Principal",

"D_ContractDateToImportDate", "DPD", "PopulationInCiti", "Age",

"LastPaymentAmount", "M_LastPaymentToImportDate", "GDPPerCapita", "MeanSalary")

casesTmp <- copy(cases[Product == "Cash loan" &

!is.na(LoanAmount + Land + PopulationInCiti + LastPaymentAmount), .SD, .SDcols=variables])

testSampleA <- casesTmp[sample(casesTmp[, .N], 3000), ] caseTmpA <- casesTmp[!(CaseId %in% testSampleA$CaseId), ] testSampleB <- casesTmp[(1:3000) + sample(50000, 1), ] caseTmpB <- casesTmp[!(CaseId %in% testSampleB$CaseId), ]

Uwaga: Jak zmieniają się wyniki zadań 4-7, gdy zbiory xxxA i xxxB wygenerowane zostaną ponownie?

1. Wyznacz wartości średnie oraz średnie obcięte (Wsk. parametr ‘trim’ funkcji ‘mean’) dla zmiennych opisujących sprawy oraz zdarzenia miesięczne. Dla których zmiennych średnie i średnie obcięte różnią się najbardziej?

2. Narysuj wykresy typu boxplot dla zmiennych opisujących sprawy (tabela casesTmp). Które z wartości możemy uznać za wartości odstające? Usuń wskazane wartości odstające i wykonaj wykresy boxplot ponownie. Czy wartości odstające występują nadal?

3. Dla zmiennych opisujących sprawy (tabela casesTmp) wykonaj testy (Wsk. linki do opisu testów oraz statystyk testowych):

a. Grubbs http://www.itl.nist.gov/div898/handbook/eda/section3/eda35h1.htm b. Tietjen-Moore http://www.itl.nist.gov/div898/handbook/eda/section3/eda35h2.htm c. Gen. ESD http://www.itl.nist.gov/div898/handbook/eda/section3/eda35h3.htm 4. Dla zmiennych opisujących sprawy (tabele testSampleA i testSampleB) wykonaj analizę

obserwacji odstających wykorzystując poniższe pakiety (Wsk. linki do przykładowych analiz).

Czy zbiory obserwacji wskazywanych jako „najbardziej odstające” przez obie metody się pokrywają?

a. pakiet ‘DMwR’

http://www.rdatamining.com/examples/outlier-detection b. pakiet ‘mvoutlier’

https://en.wikibooks.org/wiki/Data_Mining_Algorithms_In_R/Classification/Outliers.

5. Porównaj rozkłady brzegowe (jednowymiarowe) zmiennych w tabelach testSampleA i casesTmpA oraz testSampleB i casesTmpB.

6. Porównaj wartości korelacji pomiędzy zmiennymi w zbiorach testSampleA i casesTmpA oraz testSampleB i casesTmpB (Wsk. ‘Corrgram::corgram’).

7. Porównaj rozkłady dwuwymiarowe dla wybranych par zmiennych w tabelach testSampleA i casesTmpA oraz testSampleB i casesTmpB (Wsk. ‘mosaicplot’).

Cytaty

Powiązane dokumenty

Praca własna: jeszcze raz przeanalizuj informacje zawarte na stronie 244 oraz zadania , które już zrobiłeś (lekcja z 4.05.2020) ze stron 244-245.

② Przełożenie SR12M w przedziałach scorów uzyskanych w modelu z binarną cechą objaśnianą, określającą dobroć klienta (wybierz cechę objaśnianą i funkcję wiążącą

Podaj domknięty układ równań, który opisuje ruch krwi.. Zestaw egzaminacyjny będzie zawierał 5 pytań z

Ciąg ten interpretujemy jako opis wyników n niezależnych pomiarów pewnej wielkości fizycznej X, dokonywanych w tych samych warunkach

Rozważmy problem regresji liniowej, czyli predykcji zmiennej losowej y za pomocą kombinacji liniowej p-elementowego wektora losowego X, dla którego var(X)

Na wykresach A–G zostały przedstawione rozkłady wyników uczniów bez dysfunkcji oraz uczniów ze specyficznymi trudnościami w uczeniu się.. Podano

Na wykresach A–G zostały przedstawione rozkłady wyników uczniów bez dysfunkcji oraz uczniów ze specyficznymi trudnościami w

Simon Newcomb (1835-1909), wybitny astronom amerykański, wykonał pomiary czasu przejścia promienia światła przez wybrany odcinek (w milio- nowych