Wykład 02 – Zadania, modele, dane

(1)

Warianty uczenia maszynowego Ograniczenia uczenia maszynowego Modele

Podstawy uczenia maszynowego

Wykład 02 – Zadania, modele i dane

Jarosław Miszczak

10/03/2021

(2)

1 Warianty uczenia maszynowego

2 _{Ograniczenia uczenia maszynowego} 3 Modele

(3)

Warianty uczenia maszynowego Ograniczenia uczenia maszynowego Modele Co to jest maszyna? ?... ?... ?... 3 / 57

(4)

Przykład automatyzacji uczenia Uczenie nadzorowane Uczenie nienadzorowanie Uczenie częściowo nadzorowanie Uczenie ze wzmacnianiem

Warianty uczenia maszynowego

(5)

Przykład automatyzacji uczenia

Uczenie nadzorowane Uczenie nienadzorowanie Uczenie częściowo nadzorowanie Uczenie ze wzmacnianiem

Warianty uczenia maszynowego

(6)

Warianty uczenia maszynowego

przykład

(7)

Warianty uczenia maszynowego

przykład

(8)

Warianty uczenia maszynowego

przykład

etykieta

(9)

Warianty uczenia maszynowego

Zbiór treningowy

przykład

etykieta

(10)

Uczenie nadzorowane

Uczenie nienadzorowanie Uczenie częściowo nadzorowanie Uczenie ze wzmacnianiem

Warianty uczenia maszynowego

Uczenie nadzorowane

Wejściem jest zbiór uczący lub zbiór treningowy czyli zbiór opisanych przykładów

D = {(x(i ), y(i ))}N_{i =1}.

Celem jest określenie funkcji opisującej zależności między obiektami a etykietami

x(i ) 7→ y(i ).

(11)

Uczenie nadzorowane

Warianty uczenia maszynowego

Uczenie nadzorowane

Wejściem jest zbiór uczący lub zbiór treningowy czyli zbiór opisanych przykładów

D = {(x(i ), y(i ))}N_{i =1}.

Celem jest określenie funkcji opisującej zależności między obiektami a etykietami

x(i ) 7→ y(i )_.

(12)

Uczenie nadzorowane

Warianty uczenia maszynowego

Uczenie nadzorowane Zbiór testowy ? ? ? ? ? ? 7 / 57

(13)

Uczenie nadzorowane

Warianty uczenia maszynowego

Uczenie nadzorowane

Elementy składowe xi to cechy (ang. features).

Cechy to atrybuty (ang. attributes) wraz z wartościami.

W najprostszym przypadku xi to d -wymiarowe wektory.

Często są to obiekty takie jak obrazy (2D, 3D, RGB, hiperspektralne), teksty bądź grafy.

(14)

Uczenie nadzorowane

Warianty uczenia maszynowego

Uczenie nadzorowane

(15)

Uczenie nadzorowane

Warianty uczenia maszynowego

Uczenie nadzorowane

(16)

Uczenie nadzorowane

Warianty uczenia maszynowego

Uczenie nadzorowane

(17)

Uczenie nadzorowane

Warianty uczenia maszynowego

Uczenie nadzorowane

W zależności o przeciwdziedziny funkcji nasze zadanie to

klasyfikacja bądź regresja.

W przypadku klasyfikacji zakładamy, że yi należy do zbioru

skończonego (dyskretnego).

Tego typu zmienną nazywamy kategoryczną. Jeżeli etykiety yi są dwie, to klasyfikacja jest binarna.

Jeżeli dopuszczamy yi ∈ R, to problem taki nazywamy

regresją.

(18)

Uczenie nadzorowane

Warianty uczenia maszynowego

Uczenie nadzorowane

regresją.

(19)

Uczenie nadzorowane

Warianty uczenia maszynowego

Uczenie nadzorowane

Tego typu zmienną nazywamy kategoryczną.

Jeżeli etykiety yi są dwie, to klasyfikacja jest binarna.

regresją.

(20)

Uczenie nadzorowane

Warianty uczenia maszynowego

Uczenie nadzorowane

regresją.

(21)

Uczenie nadzorowane

Warianty uczenia maszynowego

Uczenie nadzorowane

regresją.

(22)

Uczenie nadzorowane

Warianty uczenia maszynowego

Uczenie nadzorowane

Nasz algorytm może dawać różne wyniki określające

prawdopodobieństwo przynależności do klasy.

Odpowiedź systemu to ta klasa, dla której prawdopodobieństwo jest największe

arg max_c∈Cp(y = c|x , D)

(23)

Uczenie nadzorowane

Warianty uczenia maszynowego

Uczenie nadzorowane

Nasz algorytm może dawać różne wyniki określające

prawdopodobieństwo przynależności do klasy.

Odpowiedź systemu to ta klasa, dla której prawdopodobieństwo jest największe

arg max_c∈Cp(y = c|x , D)

(24)

Przykład automatyzacji uczenia Uczenie nadzorowane

Uczenie nienadzorowanie

Uczenie częściowo nadzorowanie Uczenie ze wzmacnianiem

Warianty uczenia maszynowego

W uczeniu nienadzorowanym nie mamy do dyspozycji informacji o etykietach.

Do dyspozycji mamy jedynie dane wejściowe {xi}.

Jest to scenariusz podobny do tego z jakim spotykamy się przy uczeniu się człowieka.

(25)

Warianty uczenia maszynowego

(26)

Warianty uczenia maszynowego

(27)

Warianty uczenia maszynowego

Podstawowym zadaniem uczenia nienadzorowanego jest

klasteryzacja, czyli odkrycie struktury danych wejściowych.

Kolejnym zadaniem jest asocjacja, gdzie chcemy określić

reguły opisujące nasze dane.

Uczeniem bez nadzoru jest również detekcja anomalii. Do tej grupy zalicza się również metody związane z redukcją

wymiarowości

(28)

Warianty uczenia maszynowego

wymiarowości

(29)

Warianty uczenia maszynowego

Uczeniem bez nadzoru jest również detekcja anomalii.

Do tej grupy zalicza się również metody związane z redukcją

wymiarowości

(30)

Warianty uczenia maszynowego

wymiarowości

(31)

Przykład automatyzacji uczenia Uczenie nadzorowane Uczenie nienadzorowanie

Uczenie częściowo nadzorowanie

Uczenie ze wzmacnianiem

Warianty uczenia maszynowego

Uczenie częściowo nadzorowanie

Jeżeli część naszych danych jest poetykietowana (czyli trudna do uzyskania), ale znaczna część nie zawiera informacji o etykietach to mówimy o uczeniu częściowo nadzorowanym.

(32)

Przykład automatyzacji uczenia Uczenie nadzorowane Uczenie nienadzorowanie Uczenie częściowo nadzorowanie

Warianty uczenia maszynowego

Osobną grupą metod stanowi uczenie ze wzmocnieniem.

W tym schemacie agent otrzymuje nagrodę na podstawie wykonanych akcji.

Cel

Wypracowanie reguł postępowania które mają doprowadzić do rozwiązania problemu.

(33)

Warianty uczenia maszynowego

Osobną grupą metod stanowi uczenie ze wzmocnieniem. W tym schemacie agent otrzymuje nagrodę na podstawie wykonanych akcji.

Cel

(34)

Warianty uczenia maszynowego

Osobną grupą metod stanowi uczenie ze wzmocnieniem. W tym schemacie agent otrzymuje nagrodę na podstawie wykonanych akcji.

Cel

(35)

Warianty uczenia maszynowego

Agent wykonuje akcje ma podstawie stanu. Środowisko interpretuje akcje. Agent otrzymuje nagrodę. Na podstawie nagrody agent ma wypracować politykę. Środowisko Agent

A

kc

j

e Interpretacja Nagro_da Stan

Źródło: Reinforcement learning w Wikipedii

(36)

Warianty uczenia maszynowego

A

kc

j

(37)

Warianty uczenia maszynowego

A

kc

j

(38)

Warianty uczenia maszynowego

A

kc

j

(39)

Warianty uczenia maszynowego

A

kc

j

(40)

Warianty uczenia maszynowego

Ogólny schemat modelowania procesu uczenia się na podstawie zdobywanego doświadczenia.

Stosowany z powodzeniem do gier (komputerowych), w tym do Go.

(41)

Warianty uczenia maszynowego

Ogólny schemat modelowania procesu uczenia się na podstawie zdobywanego doświadczenia.

Stosowany z powodzeniem do gier (komputerowych), w tym do Go.

(42)

Przetrenowanie Obciążenie vs wariancja Niedoskonałości danych Zasada odpłatności za obiady

Ograniczenia uczenia maszynowego

(43)

Przetrenowanie

Obciążenie vs wariancja Niedoskonałości danych Zasada odpłatności za obiady

Ograniczenia uczenia maszynowego

Przetrenowanie

System nie powinien dopasowywać się idealnie do danych na których jest uczony.

(44)

Przetrenowanie

Ograniczenia uczenia maszynowego

Przetrenowanie 0 1 2 3 4 5 0 2 4 6 8

Dane wygenerowane jako x + U(−0.25, 0.25). Funkcja postaci x 7→ 10 X i =1 aixi

dopasowuje się idealnie.

(45)

Przetrenowanie

Ograniczenia uczenia maszynowego

Przetrenowanie 0 1 2 3 4 5 0 2 4 6 8

Dane wygenerowane jako x + U(−0.25, 0.25). Funkcja postaci

x 7→ ax

dopasowuje się do nich z pewnym błędem.

(46)

Przetrenowanie

Obciążenie vs wariancja

Niedoskonałości danych Zasada odpłatności za obiady

Ograniczenia uczenia maszynowego

W tym przypadku pierwsze dopasowanie jest za dobre. Przewidywanie wartości naszej funkcji za pomocą takiego dopasowanie da niepożądane wyniki.

Pierwsze dopasowanie ma dużą wariancję i dlatego jest podatne na przetrenowanie (ang. overfitting).

(47)

Przetrenowanie

Ograniczenia uczenia maszynowego

W tym przypadku pierwsze dopasowanie jest za dobre. Przewidywanie wartości naszej funkcji za pomocą takiego dopasowanie da niepożądane wyniki.

Pierwsze dopasowanie ma dużą wariancję i dlatego jest podatne na przetrenowanie (ang. overfitting).

(48)

Przetrenowanie

Ograniczenia uczenia maszynowego

Co jest najważniejszym elementem uczenia się? ?...

?... ?...

(49)

Przetrenowanie

Ograniczenia uczenia maszynowego

Do wysokiego błędu modelu poza próbą treningową może prowadzić zarówno jego

nadmierne uproszczenie ≡ wysokie obciążenie (ang. bias) nadmierna wrażliwość ≡ wysoka wariancja (ang. variance) Kompromis między obciążeniem a wariancją to jeden z

podstawowych problemów uczenia maszynowego (i statystyki).

(50)

Przetrenowanie

Ograniczenia uczenia maszynowego

nadmierne uproszczenie ≡ wysokie obciążenie (ang. bias)

nadmierna wrażliwość ≡ wysoka wariancja (ang. variance) Kompromis między obciążeniem a wariancją to jeden z

(51)

Przetrenowanie

Ograniczenia uczenia maszynowego

nadmierne uproszczenie ≡ wysokie obciążenie (ang. bias) nadmierna wrażliwość ≡ wysoka wariancja (ang. variance)

Kompromis między obciążeniem a wariancją to jeden z

(52)

Przetrenowanie

Ograniczenia uczenia maszynowego

nadmierne uproszczenie ≡ wysokie obciążenie (ang. bias) nadmierna wrażliwość ≡ wysoka wariancja (ang. variance) Kompromis między obciążeniem a wariancją to jeden z

(53)

Przetrenowanie

Ograniczenia uczenia maszynowego

Sposoby radzenia sobie z tym dylematem między obciążeniem a wariancją to

regularyzacja – wzbogacanie algorytmu uczenia dodatkowe warunki (7→ regresja)

łączenie klasyfikatorów – zespół słabych klasyfikatorów daje dobry klasyfikator (7→ lasy losowe)

(54)

Przetrenowanie

Ograniczenia uczenia maszynowego

(55)

Przetrenowanie

Ograniczenia uczenia maszynowego

(56)

Przetrenowanie Obciążenie vs wariancja

Niedoskonałości danych

Zasada odpłatności za obiady

Ograniczenia uczenia maszynowego

Brak danych

Większość metod uczenia maszynowego potrzebuje dużej ilości danych.

Dla prostych problemów potrzebne są tysiące próbek/przykładów.

Dla wielu problemów dotyczących przetwarzania obrazów bądź mowy potrzebnych są miliony próbek/przykładów.

(57)

Ograniczenia uczenia maszynowego

Brak danych

(58)

Ograniczenia uczenia maszynowego

Brak danych

(59)

Ograniczenia uczenia maszynowego

Problemy wynikające z:

błędnych danych (7→ poprzedni przykład z zaburzeniem losowym),

wprowadzenia danych niekompletnych,

wprowadzenia danych (częściowo) sprzecznych, niezdefiniowania ograniczeń dziedzinowych.

(60)

Ograniczenia uczenia maszynowego

(61)

Ograniczenia uczenia maszynowego

(62)

Ograniczenia uczenia maszynowego

wprowadzenia danych (częściowo) sprzecznych,

niezdefiniowania ograniczeń dziedzinowych.

(63)

Ograniczenia uczenia maszynowego

(64)

Przetrenowanie Obciążenie vs wariancja Niedoskonałości danych

Ograniczenia uczenia maszynowego

Twierdzenie (No Free Lunch Theorem)

Nie istnieje metoda uniwersalnie dobra do każdego problemu.

Konieczne są różne modele dla różnych rodzajów danych. Dla każdego modelu możemy wybrać różne metody trenowania.

(65)

Ograniczenia uczenia maszynowego

Nie istnieje metoda uniwersalnie dobra do każdego problemu. Konieczne są różne modele dla różnych rodzajów danych.

Dla każdego modelu możemy wybrać różne metody trenowania.

(66)

Ograniczenia uczenia maszynowego

Nie istnieje metoda uniwersalnie dobra do każdego problemu. Konieczne są różne modele dla różnych rodzajów danych. Dla każdego modelu możemy wybrać różne metody trenowania.

(67)

Co to jest model? Modele nieparametryczne

Klasyfikacja na podstawie odległości i klątwa wymiarowości Modele parametryczne

Modele

(68)

Co to jest model?

Modele nieparametryczne

Modele

Co to jest model?

Modele to uproszczona reprezentacja rzeczywistości.

Modele sa tworzone na podstawie obserwacji.

(69)

Co to jest model?

Modele

Co to jest model?

Modele to uproszczona reprezentacja rzeczywistości. Modele sa tworzone na podstawie obserwacji.

(70)

Co to jest model?

Modele

Co to jest model?

Uproszczenie

Model to uproszczona reprezentacja rzeczywistości.

Model nie oddaje w pełni rzeczywistości. Model jest tworzony na podstawie obserwacji.

(71)

Co to jest model?

Modele

Co to jest model?

Uproszczenie

Model to uproszczona reprezentacja rzeczywistości. Model nie oddaje w pełni rzeczywistości.

Model jest tworzony na podstawie obserwacji.

(72)

Co to jest model?

Modele

Co to jest model?

Uproszczenie

Model to uproszczona reprezentacja rzeczywistości. Model nie oddaje w pełni rzeczywistości. Model jest tworzony na podstawie obserwacji.

(73)

Co to jest model?

Modele

Co to jest model?

Jaka dziedzina wiedzy zajmuje się modelowaniem rzeczywistości? ?...

?... ?...

rzeczywistości?

(74)

Co to jest model?

Modele

Co to jest model?

Jaka dziedzina wiedzy zajmuje się modelowaniem rzeczywistości? ?...

?...

?... rzeczywistości?

(75)

Co to jest model?

Modele

Co to jest model? Fizyka ≡ natura. Równania ruchu x (t) = x0+ vt Prawo rozpadu m(t) = m0e−λt

Równanie Schor¨odingera

H|v i = i ~_dtd|v i

(76)

Co to jest model?

Modele

(77)

Co to jest model?

Modele

(78)

Co to jest model?

Modele

(79)

Co to jest model?

Modele

Co to jest model?

Obserwacje

Model jest jest tak dobry jak dobre są dane które służą do jego stworzenia.

Obowiązuje zasada GIGO – Garbage In, Garbage Out.

(80)

Co to jest model?

Modele

Co to jest model?

Obserwacje

(81)

Co to jest model?

Modele

Co to jest model?

Obserwacje

(82)

Co to jest model?

Modele

Co to jest model?

Model vs. rzeczywistość

Models are to be used, not believed. – Henri Theil, Principles of Econometrics,

(83)

Co to jest model?

Modele

Co to jest model?

Nadzorowane uczenie maszynowe można podsumować jako

zgadywanie funkcji F , która mapuje zmienne wejściowe X na

wyjściowe Y ,

F (X ) 7→ Y .

Forma funkcji F jest nieznana.

Algorytm UM buduje funkcję ˆF (czyli przybliżenie funkcji F ) na podstawie danych treningowych.

(84)

Co to jest model?

Modele

Co to jest model?

wyjściowe Y ,

F (X ) 7→ Y . Forma funkcji F jest nieznana.

(85)

Co to jest model?

Modele

Co to jest model?

wyjściowe Y ,

F (X ) 7→ Y . Forma funkcji F jest nieznana.

(86)

Co to jest model?

Modele

Co to jest model?

Zadaniem UM jest ocena różnych algorytmów i sprawdzenie, który z nich jest lepszy w przybliżaniu F .

Różne algorytmy przyjmują różne założenia dotyczące: formy funkcji,

sposobu jej uczenia się.

(87)

Co to jest model?

Modele

Co to jest model?

Zadaniem UM jest ocena różnych algorytmów i sprawdzenie, który z nich jest lepszy w przybliżaniu F .

Różne algorytmy przyjmują różne założenia dotyczące: formy funkcji,

sposobu jej uczenia się.

(88)

Co to jest model?

Modele

Co to jest model?

Klasyfikacja vs regresja

Jeżeli F ma wartości z zadanego, dyskretnego zbioru wartości, to funkcja dokonuje klasyfikacji.

Jeżeli F ma wartości ze zbioru ciągłego, to funkcja dokonuje regresji.

(89)

Co to jest model?

Modele

Modele nieparametryczne i parametryczne

Podstawowym podziałem modeli w UM jest podział na modele parametryczne,

modele nieparametryczne.

(90)

Co to jest model?

Modele

Modele nieparametryczne i parametryczne

Parametryczne algorytmy uczenia maszynowego upraszczają mapowanie do znanej funkcji.

Algorytmy nieparametryczne mogą nauczyć się dowolnego

mapowania od wejść do wyjść.

(91)

Co to jest model?

Modele nieparametryczne

(92)

Co to jest model?

Modele

Zalety modeli nieparametrycznych

Modele nieparametryczne nie przyjmują założeń dotyczących formy funkcji F .

Budują odwzorowanie na podstawie danych treningowych co pozwala im na dostosowanie się do skomplikowanych

zależności.

Są skuteczne jeżeli jest dostępnych dużo danych, ale nie jest dostępna wiedza na temat ich struktury.

(93)

Co to jest model?

Modele

zależności.

(94)

Co to jest model?

Modele

zależności.

(95)

Co to jest model?

Modele

Wady modeli nieparametrycznych

Wymagają dużo danych treningowych aby uzyskania zadowalających rezultatów.

Przetwarzanie dużych ilości danych powoduje, że są

wymagające obliczeniowo.

Są podatne na przetrenowanie.

Uzyskane wyniki trudniejsze do zrozumienia.

(96)

Co to jest model?

Modele

(97)

Co to jest model?

Modele

(98)

Co to jest model?

Modele

(99)

Co to jest model?

Modele

kNN – k najbliższych sąsiadów

drzewa decyzyjne

SVM – maszyny wektorów wspierających

sieci neuronowe (mają bardzo dużo parametrów)

(100)

Co to jest model?

Modele

kNN – k najbliższych sąsiadów drzewa decyzyjne

(101)

Co to jest model?

Modele

(102)

Co to jest model?

Modele

(103)

Klasyfikacja na podstawie odległości i klątwa wymiarowości

Modele parametryczne

Modele

Najprostszy przykład modelu nieparametrycznego to algorytm kNN – k Nearest Neighbors.

Zasada: znalezienie określonej liczby próbek bliskich w sensie jakiejś odległości.

Predykcja jest wykonywana na podstawie etykiet tych próbek.

(104)

Modele

Jest to uczenie się na podstawie instancji, bez uogólnienia.

kNN nie próbuje on zbudować ogólnego modelu wewnętrznego, ale przechowuje instancje danych treningowych.

Może być wykorzystany do klasyfikacji oraz do regresji.

(105)

Modele

Jest to uczenie się na podstawie instancji, bez uogólnienia. kNN nie próbuje on zbudować ogólnego modelu

wewnętrznego, ale przechowuje instancje danych treningowych.

(106)

Modele

Jest to uczenie się na podstawie instancji, bez uogólnienia. kNN nie próbuje on zbudować ogólnego modelu

wewnętrznego, ale przechowuje instancje danych treningowych.

(107)

Modele

Naszym wejściem są elementy

(x1, y1), (x2, y2), . . . , (xm, ym)

leżące w Rd× {0, 1}.

Mając normę k · k na R oraz punkt x ∈ Rd_{, możemy}

uporządkować dane

(x(1), y(1)), (x(2), y(2)), . . . , (x(m), y(m))

tak, że

kx₍₁₎− xk ¬ kx₍₂₎− xk ¬ · · · ¬ kx_(m)− xk.

(108)

Modele

Naszym wejściem są elementy

(x1, y1), (x2, y2), . . . , (xm, ym)

leżące w Rd× {0, 1}.

Mając normę k · k na R oraz punkt x ∈ Rd_{, możemy}

uporządkować dane

(x(1), y(1)), (x(2), y(2)), . . . , (x(m), y(m))

tak, że

kx₍₁₎− xk ¬ kx₍₂₎− xk ¬ · · · ¬ kx_(m)− xk.

(109)

Modele

Dla danych o wartościach ciągłych wykorzystywana jest typowo

norma Euklidesowa kxk = v u u t d X i =1 x2 i .

Dla danych dyskretnych (np. napisów) wykorzystywana jest

odległość Hamminga ≡ liczba pozycji na których ciągi się różnią.

(110)

Modele

Dla danych o wartościach ciągłych wykorzystywana jest typowo

norma Euklidesowa kxk = v u u t d X i =1 x2 i .

Dla danych dyskretnych (np. napisów) wykorzystywana jest

odległość Hamminga ≡ liczba pozycji na których ciągi się różnią.

(111)

Modele

Hiperparametry

Algorytm kNN nie wylicza parametrów modelu, ale korzystając z niego musimy określić hiperparametry czyli parametry metody.

Hiperparametr to własność (parametr) metody który jest ustalana przed rozpoczęciem procesu uczenia.

Natomiast parametry modelu są ustalane w trakcie uczenia.

(112)

Modele

Hiperparametry

(113)

Modele

Hiperparametry

(114)

Modele

Uczenie

Uczenie kNN polega na składowaniu przykładów uczących.

(115)

Modele

Predykcja

Predykcja jest dokonywana na podstawie głosowania.

Wybierana jest wartość etykiety, która ma większość spośród k najbliższych sąsiadów.

Możliwe jest zastosowanie wag zależnych od odległości.

(116)

Modele

Predykcja

(117)

Modele

Predykcja

(118)

Modele

Klątwa wymiarowości

Wraz ze wzrostem wymiaru danych drastycznie rośnie odległość od najbliższych sąsiadów.

Aby pokryć równomiernie przestrzeń k obserwacjami w każdym

kierunku potrzebujem nk próbek.

(119)

Modele parametryczne

(120)

Modele

Zalety modeli parametrycznych

Budują ogólny model procesu, który chcemy aproksymować.

Szybko się uczą.

Są prostsze i dają wyniki łatwiejsze do zrozumienia. Wymagają znacznie mniej danych niż modele

nieparametryczne.

(121)

Modele

nieparametryczne.

(122)

Modele

Są prostsze i dają wyniki łatwiejsze do zrozumienia.

Wymagają znacznie mniej danych niż modele nieparametryczne.

(123)

Modele

nieparametryczne.

(124)

Modele

Wady modeli parametrycznych

Przyjmują dużo założeń (uproszczeń) dotyczących funkcji F co ogranicza ich elastyczność.

Uczą się odwzorowania na podstawie silnych założeń co do danych i nadają się do prostszych problemów.

W praktyce rzadko udaje się zaprezentować poszukiwaną postać funkcji.

(125)

Modele

(126)

Modele

(127)

Modele

Algorytm parametryczny obejmuje dwa etapy:

Wybór postaci funkcji.

Nauczenie się współczynników funkcji na podstawie danych treningowych.