Praca domowa #3 z SAD (laboratorium)
Zadanie 1: Analiza skupień niehierarchiczna
Będziemy korzystać z danych o pingwinach https://github.com/allisonhorst/palmerpenguins. Tym razem przeprowadzimy analizę skupień, która w istotny sposób będzie się różnić od problemu klasyfikacji.
Będziemy szukać nieznanych skupień (i ich nieznanej liczby) w zbiorze.
(a) (0.5 pkt) Przygotuj dane: obejrzyj zawartość zbioru danych. Przedstaw i skomentuj statystyki opisowe.
Skomentuj zasadne współczynniki korelacji. Obejrzyj zbiór pod kątem obserwacji odstających. Jeśli zdecydujesz, że grupa obserwacji powinna zostać usunięta, podaj uzasadnienie. Zdecyduj, czy dane wymagają wycentrowania/wystandaryzowania.
(b) (0.5 pkt) Przeprowadź analizę skupień z wykorzystaniem algorytmów: kmeans i pam. W zbiorze zmiennych pomiń gatunek (species) i rok (year ) . Analizę przeprowadź dla liczby skupień od 2 do 15.
Uwaga: dla odtwarzalności wyników dobrze jest ustawić ziarno losowania (seed).
(c) (0.5 pkt) Poszukaj informacji i zapoznaj się z kryterium Calińskiego-Harabasza. Znajdź funkcję (pa- kiet), który umożliwia policzenie tego kryterium w R. Przedstaw na wykresie zależność między war- tościami kryterium a liczbą skupień dla obu algorytmów. Skorzystaj z otrzymanych wyników, żeby wybrać optymalną liczbę skupień. Wybór uzasadnij.
(d) (1 pkt) Dla wybranej na podstawie kryterium liczby skupień obejrzyj statystyki opisowe (niewystanda- ryzowanych) zmiennych (lub ich transformacji, jeśli uznasz to za potrzebne) w podziale na skupienia (dla obu algorytmów). W oparciu o statystyki opisowe spróbuj dokonać interpretacji tych skupień. Czy klastry otrzymane z wykorzystaniem obu algorytmów różnią się interpretacją? Czy któryś z algorytmów zwrócił wynik, który było łatwiej zinterpretować?
(e) (0.5 pkt) Wykonaj wybrany wykres dla dwóch zmiennych, w którym kształt punktu będzie odpowiadał za skupienie, do którego obserwacja została przydzielona, a kolor będzie wskazywał gatunek pingwina (dla obu algorytmów). Jakie wnioski możesz wyciągnąć na podstawie tego wykresu? Skomentuj.
Rozwiązanie (w postaci raportu html) proszę wykonać w grupach dwuosobowych. Nie ma konieczności wskazywania podziału pracy.
1