Modelowanie statystyczne w zarządzaniu wierzytelnościami masowymi – Laboratorium 7 W zadaniach będą używane poniższe tabele:
library(data.table)
load("KrukUWr2017.RData")
variables <- c("TOA", "LoanAmount", "Principal",
"D_ContractDateToImportDate", "DPD", "PopulationInCiti", "Age",
"LastPaymentAmount", "M_LastPaymentToImportDate", "GDPPerCapita", "MeanSalary")
casesTmp <- copy(cases[Product == "Cash loan" &
!is.na(LoanAmount + Land + PopulationInCiti + LastPaymentAmount), .SD, .SDcols=variables])
testSampleA <- casesTmp[sample(casesTmp[, .N], 3000), ] caseTmpA <- casesTmp[!(CaseId %in% testSampleA$CaseId), ] testSampleB <- casesTmp[(1:3000) + sample(50000, 1), ] caseTmpB <- casesTmp[!(CaseId %in% testSampleB$CaseId), ]
Uwaga: Jak zmieniają się wyniki zadań 4-7, gdy zbiory xxxA i xxxB wygenerowane zostaną ponownie?
1. Wyznacz wartości średnie oraz średnie obcięte (Wsk. parametr ‘trim’ funkcji ‘mean’) dla zmiennych opisujących sprawy oraz zdarzenia miesięczne. Dla których zmiennych średnie i średnie obcięte różnią się najbardziej?
2. Narysuj wykresy typu boxplot dla zmiennych opisujących sprawy (tabela casesTmp). Które z wartości możemy uznać za wartości odstające? Usuń wskazane wartości odstające i wykonaj wykresy boxplot ponownie. Czy wartości odstające występują nadal?
3. Dla zmiennych opisujących sprawy (tabela casesTmp) wykonaj testy (Wsk. linki do opisu testów oraz statystyk testowych):
a. Grubbs http://www.itl.nist.gov/div898/handbook/eda/section3/eda35h1.htm b. Tietjen-Moore http://www.itl.nist.gov/div898/handbook/eda/section3/eda35h2.htm c. Gen. ESD http://www.itl.nist.gov/div898/handbook/eda/section3/eda35h3.htm 4. Dla zmiennych opisujących sprawy (tabele testSampleA i testSampleB) wykonaj analizę
obserwacji odstających wykorzystując poniższe pakiety (Wsk. linki do przykładowych analiz).
Czy zbiory obserwacji wskazywanych jako „najbardziej odstające” przez obie metody się pokrywają?
a. pakiet ‘DMwR’
http://www.rdatamining.com/examples/outlier-detection b. pakiet ‘mvoutlier’
https://en.wikibooks.org/wiki/Data_Mining_Algorithms_In_R/Classification/Outliers.
5. Porównaj rozkłady brzegowe (jednowymiarowe) zmiennych w tabelach testSampleA i casesTmpA oraz testSampleB i casesTmpB.
6. Porównaj wartości korelacji pomiędzy zmiennymi w zbiorach testSampleA i casesTmpA oraz testSampleB i casesTmpB (Wsk. ‘Corrgram::corgram’).
7. Porównaj rozkłady dwuwymiarowe dla wybranych par zmiennych w tabelach testSampleA i casesTmpA oraz testSampleB i casesTmpB (Wsk. ‘mosaicplot’).