• Nie Znaleziono Wyników

Praca domowa #3 z SAD (laboratorium)

N/A
N/A
Protected

Academic year: 2021

Share "Praca domowa #3 z SAD (laboratorium)"

Copied!
1
0
0

Pełen tekst

(1)

Praca domowa #3 z SAD (laboratorium)

Zadanie 1: Analiza skupień niehierarchiczna

Będziemy korzystać z danych o pingwinach https://github.com/allisonhorst/palmerpenguins. Tym razem przeprowadzimy analizę skupień, która w istotny sposób będzie się różnić od problemu klasyfikacji.

Będziemy szukać nieznanych skupień (i ich nieznanej liczby) w zbiorze.

(a) (0.5 pkt) Przygotuj dane: obejrzyj zawartość zbioru danych. Przedstaw i skomentuj statystyki opisowe.

Skomentuj zasadne współczynniki korelacji. Obejrzyj zbiór pod kątem obserwacji odstających. Jeśli zdecydujesz, że grupa obserwacji powinna zostać usunięta, podaj uzasadnienie. Zdecyduj, czy dane wymagają wycentrowania/wystandaryzowania.

(b) (0.5 pkt) Przeprowadź analizę skupień z wykorzystaniem algorytmów: kmeans i pam. W zbiorze zmiennych pomiń gatunek (species) i rok (year ) . Analizę przeprowadź dla liczby skupień od 2 do 15.

Uwaga: dla odtwarzalności wyników dobrze jest ustawić ziarno losowania (seed).

(c) (0.5 pkt) Poszukaj informacji i zapoznaj się z kryterium Calińskiego-Harabasza. Znajdź funkcję (pa- kiet), który umożliwia policzenie tego kryterium w R. Przedstaw na wykresie zależność między war- tościami kryterium a liczbą skupień dla obu algorytmów. Skorzystaj z otrzymanych wyników, żeby wybrać optymalną liczbę skupień. Wybór uzasadnij.

(d) (1 pkt) Dla wybranej na podstawie kryterium liczby skupień obejrzyj statystyki opisowe (niewystanda- ryzowanych) zmiennych (lub ich transformacji, jeśli uznasz to za potrzebne) w podziale na skupienia (dla obu algorytmów). W oparciu o statystyki opisowe spróbuj dokonać interpretacji tych skupień. Czy klastry otrzymane z wykorzystaniem obu algorytmów różnią się interpretacją? Czy któryś z algorytmów zwrócił wynik, który było łatwiej zinterpretować?

(e) (0.5 pkt) Wykonaj wybrany wykres dla dwóch zmiennych, w którym kształt punktu będzie odpowiadał za skupienie, do którego obserwacja została przydzielona, a kolor będzie wskazywał gatunek pingwina (dla obu algorytmów). Jakie wnioski możesz wyciągnąć na podstawie tego wykresu? Skomentuj.

Rozwiązanie (w postaci raportu html) proszę wykonać w grupach dwuosobowych. Nie ma konieczności wskazywania podziału pracy.

1

Cytaty

Powiązane dokumenty

W wylosowanej próbie 16 studentów średnia wynosiła 150 zł, zaś wariancja wyznaczona na podstawie tej próby wynosiła 1600 zł.. Przypuszczamy, że studenci I roku wydają

1) Model odpowiedzi uwzględnia jej zakres merytoryczny, ale nie jest ścisłym wzorcem. Każdy poprawny sposób rozwiązania przez ucznia zadań powinien być uznawany. 2) Do

Uwaga: W zadaniach otwartych podano przykłady poprawnych odpowiedzi. Uznajemy również inne, nieuwzględnione poniżej, poprawne odpowiedzi uczniów. 1 pkt.. Składniki

[r]

[r]

[r]

[r]

Czy transformata Mellina jest takim