TEORETYCZNE PODSTAWY INFORMATYKI
WFAiS UJ, Informatyka Stosowana I rok studiów, I stopień
1
27/01/2020
Wykład 13c
27/01/2020
2
Data Science:
Uczenie maszynowe
Uczenie maszynowe: co to znaczy?
Metody
Regresja
Klasyfikacja
Klastering i wybór podzbioru
System do rekomendacji
Wykład na podstawie materiałów:
E. Fox & C. Guestrin, Univeristy of Waschington,
„Machine Learning Specialization”
http://www.coursera.org./learn/ml-foundations
Uczenie maszynowe
27/01/2020
3
Metody uczenia maszynowego (machine learning)
rewolucjonizują obecnie podejście do różnych problemów związanych z analizą danych.
Jeszcze kilka lat temu był to bardziej „akademicki” problem z zakresu numeryki i algorytmiki.
Uczenie maszynowe
27/01/2020
4
Obecnie, bardzo szybko staje się kluczową techniką dla wielu wiodących firm komercyjnych
Uczenie maszynowe: cel
27/01/2020
5
Uzyskać odpowiedź dla różnej klasy pytań na podstawie informacji zawartej w danych, bez potrzeby budowy „modelu zjawiska”.
ML metod = np. klasyfikacja, regresja liniowa, sieci neuronowe
Uczenie maszynowe: przykład
27/01/2020
6
Przewidywanie ceny domu na podstawie zebranych danych dotyczących ceny innych
Uczenie maszynowe: przykład
27/01/2020
7
Ranking restauracji
Uczenie maszynowe: przykład
27/01/2020
8
Znajdowanie podobnych dokumentów
Uczenie maszynowe: przykład
27/01/2020
9
Rekomendowanie podobnego produktu
Uczenie maszynowe: przykład
27/01/2020
10
Rekomendowanie podobnego produktu na podstawie jego charakterystycznych cech
Uczenie maszynowe: przykład
27/01/2020
11
Rekomendowanie podobnego produktu: na podstawie jego charakterystyki graficznej
Regresja
27/01/2020
12
Uczenie maszynowe:
Regresja
Przewidywanie odpowiedzi na podstawie informacji wejściowej
Cena akcji na giełdzie
27/01/2020
13
Tweet popularność
27/01/2020
14
Przykład: przewidywana cena domu
27/01/2020
15
Data, model
27/01/2020
16
Data, model
27/01/2020
17
Jaki model dla f(x)?
Przewidywanie
27/01/2020
18
A potem chcielibyśmy przewidzieć odpowiedź
Pętla iteracyjna?
27/01/2020
19
Simple linear regression model
27/01/2020
20
Co to znaczy „simple”?
1 input x, fitujemy zależność liniową do danych
Simple linear regression model
27/01/2020
21
Co to znaczy „simple”?
1 input x, fitujemy zależność liniową do danych
Pętla iteracyjna
27/01/2020
22
Funkcja „kosztu”
27/01/2020
23
Minimalizacja funkcji „kosztu”
27/01/2020
24
Pętla iteracyjna
27/01/2020
25
Minimalizacja funkcji „kosztu”
27/01/2020
26
Asymetryczny błąd kosztu
27/01/2020
27
Polynomial regression
27/01/2020
28
Multiple regression
27/01/2020
29
Regresja: przewidywanie na podstawie danych
27/01/2020
30
Klasyfikacja
27/01/2020
31
Uczenie maszynowe:
Klasyfikacja
Inteligentny system rankingu restauracji
Klasyfikacja
27/01/2020
32
Uczenie maszynowe:
Klasyfikacja
Inteligentny system rankingu restauracji
Prosta klasyfikacja
27/01/2020
33
Dane trenujące
27/01/2020
34
Używamy danych trenujących aby przypisać
prawdopodobieństwo (wagę) dla każdego słowa
Waga całego zdania (score) to będzie prosta suma tych wag
Uczenie klasyfikatora
27/01/2020
35
Jak wygląda nasz model
27/01/2020
36
Zmiana współczynników
27/01/2020
37
Jak wygląda nasz model?
27/01/2020
38
Czy jesteś pewny swojej klasyfikacji
27/01/2020
39
Interpretacja
27/01/2020
40
Interpretacja
27/01/2020
41
Link funkcja
Logistic regression model
27/01/2020
42
Sigmoid funkcja
Logistic regression model
27/01/2020
43
Effekt współczynników na kształt funkcji sigmoidalnej
Jak pewny jesteś swojej klasyfikacji
27/01/2020
44
Zmienne opisowe
27/01/2020
45
Nadajemy numeryczne wartości
Klasyfikacja: ranking restauracji
27/01/2020
46
Grupowanie i wybór podobnych
27/01/2020
47
Uczenie maszynowe:
Grupowanie i wyszukiwanie
podobnych obiektów
Poszukiwanie podobnych obiektów
Wyszukaj podobny tekst
27/01/2020
48
Musimy zdefiniować co to znaczy „podobny”
Wyszukaj podobny tekst
27/01/2020
49
Musimy zdefiniować co to znaczy „podobny”
Technika może być stosowana do wielu zagadnień
27/01/2020
50
„Odkryj” grupę podobnych obiektów
27/01/2020
51
Pogrupuj wg. tematów dokumenty
27/01/2020
52
Pogrupuj obrazki
27/01/2020
53
Zastosowanie: grupowanie obrazków
27/01/2020
54
Single RGB vector per image
Zastosowanie: grupowanie obrazków
27/01/2020
55
Zastosowanie: grupowanie zdjęć
27/01/2020
56
Zastosowanie: grupowanie zdjęć
27/01/2020
57
Zastosowanie: grupowanie zdjęć
27/01/2020
58
We see that they are grouping!
But not easy to distinguish between groups
Zastosowanie: grupowanie zdjęć
27/01/2020
59
In this dimmension separable groups!
Przykład: dokument na podobny temat
27/01/2020
60
Jak mierzymy podobieństwo ?
Jak szukamy podobieństw ?
Najbliższy sąsiad
27/01/2020
61
Reprezentacja dokumentu
27/01/2020
62
Dokument = zbiór słów
Nieistotna kolejność występowania
Zliczaj ilość wystąpień i zaznaczaj
Skalowana Euklidesowa miara odległości
27/01/2020
63
Cosinusowa miara odległości
27/01/2020
64
Naturalna miara odległości
27/01/2020
65
Reprezentacja dokumentów : TF-IDF
27/01/2020
66
Słowa mogą być rzadko występujące, te rzadko występujące są bardziej charakterystyczne.
Ważymy cechy charakterystyczne
27/01/2020
67
Niektóre cechy są bardziej ważne niż inne
Niektóre różnice (absolutna wartość) są bardziej istotne niż inne.
Liczy się rozmycie całego zbioru dla danej cechy.
Grupowanie:
27/01/2020
68
System rekomendujący
27/01/2020
69
Uczenie maszynowe:
system
rekomendujący
Personalizacja
Rekomendacja: filmy
27/01/2020
70
Rekomendacja: produkty
27/01/2020
71
System rekomendujący: popularność
27/01/2020
72
Popularność?
Ranking wg. liczby wyświetlań
Nie ma personalizacji
System rekomendujący: klasyfikacja
27/01/2020
73
Klasyfikacja?
Jakie prawdopodobieństwo że kupię ten produkt.
Personalizacja: patrzy na historię zakupów, koreluje z porą roku, porą dnia, etc.
System rekomendujący: korelacje
27/01/2020
74
Patrzy na korelacje. Osoby które kupiły A kupiły również B
Utwórzmy macierz korelacji
System rekomendujący: korelacje
27/01/2020
75
Patrzy na korelacje. Osoby które kupiły A kupiły również B
Macierz korelacji może należy znormalizować?
A może wprowadzić jakąś miarę „co znaczy podobne”?
Ograniczenie:
Nie patrzy na historię w czasie
Co zrobić z nowym użytkownikiem systemu?
System rekomendujący: filmy
27/01/2020
76
System rekomendujący: filmy
27/01/2020
77
System rekomendujący: filmy
27/01/2020
78
System rekomendujący: sprawność
27/01/2020
79
System rekomendujący: sprawność
27/01/2020
80
System rekomendujący: sprawność
27/01/2020
81
System rekomendujący: sprawność
27/01/2020
82
System rekomendujący: sprawność
27/01/2020
83
System rekomendujący: sprawność
27/01/2020
84
Rekomendacja produktu:
27/01/2020
85