Porównaj korelacje cech za pomocą współczynników korelacji liniowej Pearsona oraz Spearmana

(1)

Zadania – Laboratorium 11

Na podstawie zbioru danych aplikacyjnych dostępnych w pliku ApplicationData.RData (z laboratorium 6) wykonaj poniższe polecenia.

1. Przygotowanie danych:

a. Zapoznaj się z podsumowaniem danych.

b. Usuń braki danych w cechach, w których jest to możliwe do wykonania.

c. Usuń obserwacje odstające.

d. Zakoduj cechy jakościowe.

e. Do zbioru dodaj cechę wydzielającą klientów którzy dokonali jakiejkolwiek wpłaty w pierwszych 12 miesiącach obsługi.

f. Wytypuj cechy do analizy korelacji.

g. Porównaj korelacje cech za pomocą współczynników korelacji liniowej Pearsona oraz Spearmana.

h. Stwórz i dokonaj analizy wykresów uzyskanych za pomocą funkcji rcorr oraz corrplot – czy widzisz grupy zmiennych powielających informację?

i. Stwórz tabelę zawierającą współczynnik VIF dla każdej ze zmiennych – dokonaj korekty listy potencjalnych zmiennych objaśniających i przelicz tabelę.

j. Stwórz macierz współczynników determinacji liniowych modeli ekonometrycznych par cech, gdzie cecha objaśniająca występuję jako trójmian kwadratowy – czy widzisz dodatkowe zależności krzywoliniowe?

2. Zbuduj na próbie uczącej oraz przetestuj na próbie testowej uogólniony model addytywny prognozujący poziom wpłat w horyzoncie 12 miesięcy obsługi w dwóch podejściach:

① Bezpośrednia prognoza skuteczności w horyzoncie 12M (SR12M) dla spraw w modelu z ciągłą cechą objaśnianą (wybierz cechę objaśnianą i funkcję wiążącą oraz zapisz postać modelu)

② Przełożenie SR12M w przedziałach scorów uzyskanych w modelu z binarną cechą objaśnianą, określającą dobroć klienta (wybierz cechę objaśnianą i funkcję wiążącą oraz zapisz postać modelu)

a. W każdym z modeli wytypuj cechy - kandydatki do nieparametrycznej reprezentacji.

b. Wykonaj automatyczny dobór cech za pomocą funkcji step.gam oraz wybierz najlepszy Twoim zdaniem model.

c. Oceń statystyczną istotność modeli.

d. Dla każdego modelu przeanalizuj wykresy cząstkowej prognozy (partial prediction plots) – które cechy najsilniej wpływają na dobroć klientów?

e. W przypadku modelu logitowego narysuj wykres krzywej ROC.

f. Który model jest lepszy ze statystycznego punktu widzenia (explained deviance, residual sum of squares, AIC lub inne), a który lepiej prognozuje wpłaty?

g. W każdym z podejść sprawdź czy nie wystąpiło zjawisko „współkrzywoliniowości”

(concurvity).