Zajęcia 19.04.2017 (środa która jest wtorkiem)
Tym razem będzie nietypowo, gdyż na zajęcia należy przygotować ramkę danych bazującą na danych krukowych zawierającą potencjalne cechy (max 10) do modelu – zmienne objaśniające (np.
liczba wpłat, kwota wpłat, liczba telefonów itd.) wraz ze zmienną, którą chciałbyś modelować – zmienna objaśniana. Należy pamiętać, że tak przygotowana ramka posłuży do budowy modelu liniowego już na zajęciach, tak więc należy się starać, aby tzw. target powinien móc być przyłożony do tego zjawiska (ma być jak najbardziej zbliżony do linii prostej).
Założenia, które ma spełniać tabela:
1. Nie zawiera braków danych
2. Nie zawiera zmiennych faktorowych. Należy przekształć zmienne tam, gdzie jest to konieczne (np. zmienne factorowe)
3. Zbiór obserwacji jest podzielony na uczący i testowy 4. Nie zawiera skorelowanych zmiennych objaśnianych
5. Zmienna objaśniana nie bazuje wprost na zmiennych objaśniających tzn. zmienna objaśniana jest „z przyszłości” badanego zjawiska, a zmienne objaśniające są „z przeszłości” w stosunku do zmiennej objaśnianej. Dane z tych okresów czasowych nie mogą pokrywać się.
Przykładowo nie modelujemy sumy wpłat z ostatnich 7 miesięcy sumą wpłat z ostatnich 6 miesięcy, gdyż jedna dana zawiera się w drugiej.
Wszystkie powyższe rzeczy powinny być łatwe w wykonaniu gdyż poprzednie zajęcia zawierały wszystkie konieczne narzędzia, aby poradzić sobie z powyższymi problemami.
Powodzenia