Dane
Podstawy uczenia maszynowego
Wykład 02A – . . . i dane (uzupełnienie wykładu 02)Jarosław Miszczak
Dane
1 Dane
Dane
Etapy przetwarzania danych Dane tabelowe
Trening vs testowanie Źródła danych
Przykład: Reprezentacja informacji dla UM
Dane
Etapy przetwarzania danych
Dane tabelowe Trening vs testowanie Źródła danych
Przykład: Reprezentacja informacji dla UM
Dane
Etapy przetwarzania danych
Właściwe określenie celu
Jakiego rodzaju zadania należy użyć – klasyfikacji, predykcji czy może grupowania?
Określenie danych charakteryzujących dany problem – wybranie danych z pośród dostępnych danych bądź przygotowanie danych.
Dane
Etapy przetwarzania danych
Dane tabelowe Trening vs testowanie Źródła danych
Przykład: Reprezentacja informacji dla UM
Dane
Etapy przetwarzania danych
Właściwe określenie celu
Jakiego rodzaju zadania należy użyć – klasyfikacji, predykcji czy może grupowania?
Określenie danych charakteryzujących dany problem – wybranie danych z pośród dostępnych danych bądź przygotowanie danych.
Dane
Etapy przetwarzania danych
Dane tabelowe Trening vs testowanie Źródła danych
Przykład: Reprezentacja informacji dla UM
Dane
Etapy przetwarzania danych
Czyszczenie danych
Kilka rzeczy o których warto pamiętać:
Utworzenie zbioru spójnego pod względem jednostek. Uzupełnienie bądź usunięcie niepełnych rekordów.
Eliminacja rekordów odstających od reszty (ang. outliers).
Dane
Etapy przetwarzania danych
Dane tabelowe Trening vs testowanie Źródła danych
Przykład: Reprezentacja informacji dla UM
Dane
Etapy przetwarzania danych
Czyszczenie danych
Kilka rzeczy o których warto pamiętać:
Utworzenie zbioru spójnego pod względem jednostek.
Uzupełnienie bądź usunięcie niepełnych rekordów.
Dane
Etapy przetwarzania danych
Dane tabelowe Trening vs testowanie Źródła danych
Przykład: Reprezentacja informacji dla UM
Dane
Etapy przetwarzania danych
Czyszczenie danych
Kilka rzeczy o których warto pamiętać:
Utworzenie zbioru spójnego pod względem jednostek. Uzupełnienie bądź usunięcie niepełnych rekordów.
Eliminacja rekordów odstających od reszty (ang. outliers).
Dane
Etapy przetwarzania danych
Dane tabelowe Trening vs testowanie Źródła danych
Przykład: Reprezentacja informacji dla UM
Dane
Etapy przetwarzania danych
Czyszczenie danych
Kilka rzeczy o których warto pamiętać:
Utworzenie zbioru spójnego pod względem jednostek. Uzupełnienie bądź usunięcie niepełnych rekordów.
Dane
Etapy przetwarzania danych
Dane tabelowe
Trening vs testowanie Źródła danych
Przykład: Reprezentacja informacji dla UM
Dane
Dane tabeloweDane
Etapy przetwarzania danych
Dane tabelowe
Trening vs testowanie Źródła danych
Przykład: Reprezentacja informacji dla UM
Dane
Dane tabeloweDane
Etapy przetwarzania danych
Dane tabelowe
Trening vs testowanie Źródła danych
Przykład: Reprezentacja informacji dla UM
Dane
Dane tabeloweDane
Etapy przetwarzania danych Dane tabelowe
Trening vs testowanie
Źródła danych
Przykład: Reprezentacja informacji dla UM
Dane
Trening vs testowanie
Dane do uczenia i dane do testowania powinny być różne!
zbiór treningowy – uczenie algorytmów kandydujących, zbiór walidacyjny – porównanie wyników algorytmów (i dostrojenie parametrów) żeby wyłonić najlepszy, zbiór testowy – zestaw danych służy do uzyskania charakterystyki wydajności algorytmu.
Dane
Etapy przetwarzania danych Dane tabelowe
Trening vs testowanie
Źródła danych
Przykład: Reprezentacja informacji dla UM
Dane
Trening vs testowanie
Dane do uczenia i dane do testowania powinny być różne! zbiór treningowy – uczenie algorytmów kandydujących,
zbiór walidacyjny – porównanie wyników algorytmów (i dostrojenie parametrów) żeby wyłonić najlepszy, zbiór testowy – zestaw danych służy do uzyskania charakterystyki wydajności algorytmu.
Dane
Etapy przetwarzania danych Dane tabelowe
Trening vs testowanie
Źródła danych
Przykład: Reprezentacja informacji dla UM
Dane
Trening vs testowanie
Dane do uczenia i dane do testowania powinny być różne! zbiór treningowy – uczenie algorytmów kandydujących, zbiór walidacyjny – porównanie wyników algorytmów (i dostrojenie parametrów) żeby wyłonić najlepszy, zbiór testowy – zestaw danych służy do uzyskania charakterystyki wydajności algorytmu.
Dane
Etapy przetwarzania danych Dane tabelowe
Trening vs testowanie
Źródła danych
Przykład: Reprezentacja informacji dla UM
Dane
Źródła danychhttp://archive.ics.uci.edu/ml/
Dane
Etapy przetwarzania danych Dane tabelowe
Trening vs testowanie
Źródła danych
Przykład: Reprezentacja informacji dla UM
Dane
Źródła danychDane
Etapy przetwarzania danych Dane tabelowe
Trening vs testowanie Źródła danych
Przykład: Reprezentacja informacji dla UM
Dane
Przykład: Reprezentacja informacji dla UM
Iris dataset – Dane do klasyfikacji gatunków kosaćców.
Reprezentacja danych o gatunkach roślin w postaci tabeli czterech atrybutów.
from sklearn import datasets iris = datasets.load iris()
Dane
Etapy przetwarzania danych Dane tabelowe
Trening vs testowanie Źródła danych
Przykład: Reprezentacja informacji dla UM
Dane
Przykład: Reprezentacja informacji dla UM
Szerok
o´s
´c
p latk
Dane
Etapy przetwarzania danych Dane tabelowe
Trening vs testowanie Źródła danych
Przykład: Reprezentacja informacji dla UM
Dane
Etapy przetwarzania danych Dane tabelowe
Trening vs testowanie Źródła danych
Przykład: Reprezentacja informacji dla UM