• Nie Znaleziono Wyników

Praktyczne zastosowanie metod SI

N/A
N/A
Protected

Academic year: 2021

Share "Praktyczne zastosowanie metod SI"

Copied!
2
0
0

Pełen tekst

(1)

Praktyczne zastosowanie metod SI – Laboratorium nr 4

Znają już Paostwo jeden sposób ograniczenia wymiarowości zbioru danych – PCA. W pewnym sensie

“wadą” tego rozwiązania jest to, że powstają nowe zmienne. A co, jeżeli np. mamy zbiór danych, któe nadal zbieramy, i chcemy ustalid które atrybuty są najbardziej przydatne? Do rozwiązania tego problem służy selekcja atrybutów (co ciekawe, przy okazji można w ten sposób podnieśd jakośd klasyfikacji).

Do selekcji atrybutów wykorzystamy pakiet sklearn.feature_selection.

ZADANIE NR 1:

1. Proszę wczytad zbiór leukemia z pliki arff (z użyciem funkcji loadarff z pakietu scipy). Zbiór ten zawiera zaledwie 72 próbki, opisane przy pomocy aż 7129 atrybutów (oznaczają one poziomy ekspresji genów u pacjentów z białaczką).

Adres pliku: http://wikizmsi.zut.edu.pl/uploads/3/32/Leukemia2.zip Przy wczytywaniu przydadzą się polecenia:

data, meta = arff.loadarff('Leukemia2.arff') data = np.array(data.tolist())

Następnie proszę podzielid dane na wartości atrybutów oraz klasę (klasa to ostatnia kolumna macierzy data).

2. Proszę wykonad selekcję atrybutów przy pomocy metody VarianceThreshold, która odrzuca atrybuty o wariancji poniżej argumentu podanego w konstruktorze. Na zbiorze Leukemia wyraźne efekty mogą dad dopiero wysokie wartości progu, takie jak 1e5.

3. Następnie proszę przetestowad naiwny klasyfikator Bayesa przy użyciu funkcji cross_val_score z k=7 (oraz obliczyd średnią z uzyskanych 7 wyników) w dwóch wariantach:

a. X oryginalny

b. X_new – X po selekcji atrybutów

4. Proszę poeksperymentowad z wpływem wartości parametru threshold dla metody VarianceThreshold – zmieniad próg w zakresie od 1e2 do 1e7 i narysowad efekty na wykresie oraz zaznaczyd przy pomocy poziomej linii jakośd klasyfikacji uzyskaną bez selekcji.

(2)

ZADANIE NR 2:

Proszę posłużyd się klasą SelectKBest z pakietu sklearn.feature_selection (ważny argument konstruktora to k – liczba atrybutów do wybrania; przydatna metoda: fit_transform, która od razu zwróci zbiór danych po selekcji). Proszę wykorzystad tą klasę w połączeniu z następującymi metodami selekcji atrybutów:

1. mutual_info_classif – mierzy zależnośd między atrybutami.

2. chi2 – test chi kwadrat, sprawdza powiązanie atrybutów z klasą.

Nastęnie proszę przygotowad eksperyment: zmiana liczby atrybutów co 50 – 50, 100, 200,.. ,1000 oraz mierzenie jakości klasyfikacji z wykorzystaniem cross_val_score (k=7) z metryką accuracy i naiwnym klasyfikatorze Bayesa. Wyniki proszę przedstawid na wykresie: na osi OX liczba atrybutów, na osi OY średnie wyniki accuracy dla klasyfikatora.

ZADANIE NR 3:

Proszę przetestowad działanie powyższych metod selekcji na zbiorze digits (wybór 5 dowolnie wybranych liczb atrybutów) i wyrysowad uzyskane efekty (jako obrazki 8x8 pikseli, gdzie zamalowane na czarno są piksele odpowiadające wybranym atrybutom – przyda się polecenie reshape()).

Cytaty

Powiązane dokumenty

Temat: klasyfikacja twarzy (zdjęcia różnych osób, po kilka-kilkanaście na osobę, na podstawie innych zdjęd rozpoznawanie, która to z tych osób).. Wybór jednego z

KLASA NEGATYWNA KLASY Z PREDYKCJI POZYTYWNA True Positive (TP) False Positive (FP). NEGATYWNA False Negative (FN) True

Kolejnym zagadnieniem związanym z klasyfikacją (i nie tylko) jest procedura Grid Search, służąca do doboru parametrów, które nie są ustalane automatycznie w czasie uczenia

Po zakooczeniu instalacji proszę zapoznad się z poniższą instrukcją (do rozdziału Deep autoencoder włącznie) oraz wykonad zawarte w niej polecenia – zaimplementowad

Cel realizacji: Celem badao jest dokonanie analizy i syntezy wybranych zagadnieo dotyczących społecznego i edukacyjnego wymiaru Bezpieczeostwa. Obejmuje następujące

Planowane efekty naukowe: ukazanie praktyki normalizacji rozwoju dziecka dzięki ustaleniu powiązania między rzeczywistymi zdarzeniami komunikacyjnymi a działaniami

[r]

Można też rozwiązywać jedno jeszcze zadanie jako dodatkowe (wynik będzie wliczony do punk- tów uzyskanych za aktywność).. W rozwiązaniach proszę jawnie wskazywać na