Modelowanie statystyczne w zarządzaniu wierzytelnościami masowymi – Laboratorium 7 W zadaniach będą używane poniższe tabele:

(1)

Modelowanie statystyczne w zarządzaniu wierzytelnościami masowymi – Laboratorium 7 W zadaniach będą używane poniższe tabele:

library(data.table)

load("KrukUWr2017.RData")

variables <- c("TOA", "LoanAmount", "Principal",

"D_ContractDateToImportDate", "DPD", "PopulationInCiti", "Age",

"LastPaymentAmount", "M_LastPaymentToImportDate", "GDPPerCapita", "MeanSalary")

casesTmp <- copy(cases[Product == "Cash loan" &

!is.na(LoanAmount + Land + PopulationInCiti + LastPaymentAmount), .SD, .SDcols=variables])

testSampleA <- casesTmp[sample(casesTmp[, .N], 3000), ] caseTmpA <- casesTmp[!(CaseId %in% testSampleA$CaseId), ] testSampleB <- casesTmp[(1:3000) + sample(50000, 1), ] caseTmpB <- casesTmp[!(CaseId %in% testSampleB$CaseId), ]

Uwaga: Jak zmieniają się wyniki zadań 4-7, gdy zbiory xxxA i xxxB wygenerowane zostaną ponownie?

1. Wyznacz wartości średnie oraz średnie obcięte (Wsk. parametr ‘trim’ funkcji ‘mean’) dla zmiennych opisujących sprawy oraz zdarzenia miesięczne. Dla których zmiennych średnie i średnie obcięte różnią się najbardziej?

2. Narysuj wykresy typu boxplot dla zmiennych opisujących sprawy (tabela casesTmp). Które z wartości możemy uznać za wartości odstające? Usuń wskazane wartości odstające i wykonaj wykresy boxplot ponownie. Czy wartości odstające występują nadal?

3. Dla zmiennych opisujących sprawy (tabela casesTmp) wykonaj testy (Wsk. linki do opisu testów oraz statystyk testowych):

a. Grubbs http://www.itl.nist.gov/div898/handbook/eda/section3/eda35h1.htm b. Tietjen-Moore http://www.itl.nist.gov/div898/handbook/eda/section3/eda35h2.htm c. Gen. ESD http://www.itl.nist.gov/div898/handbook/eda/section3/eda35h3.htm 4. Dla zmiennych opisujących sprawy (tabele testSampleA i testSampleB) wykonaj analizę

obserwacji odstających wykorzystując poniższe pakiety (Wsk. linki do przykładowych analiz).

Czy zbiory obserwacji wskazywanych jako „najbardziej odstające” przez obie metody się pokrywają?

a. pakiet ‘DMwR’

http://www.rdatamining.com/examples/outlier-detection b. pakiet ‘mvoutlier’

https://en.wikibooks.org/wiki/Data_Mining_Algorithms_In_R/Classification/Outliers.

5. Porównaj rozkłady brzegowe (jednowymiarowe) zmiennych w tabelach testSampleA i casesTmpA oraz testSampleB i casesTmpB.

6. Porównaj wartości korelacji pomiędzy zmiennymi w zbiorach testSampleA i casesTmpA oraz testSampleB i casesTmpB (Wsk. ‘Corrgram::corgram’).

7. Porównaj rozkłady dwuwymiarowe dla wybranych par zmiennych w tabelach testSampleA i casesTmpA oraz testSampleB i casesTmpB (Wsk. ‘mosaicplot’).