Uczenie maszynowe
Sztuczne sieci neuronowe
(PSZT)
Paweł Wawrzyński
PSZT, zima 2013, wykład 12 2
• Uczenie maszynowe
• Problem aproksymacji funkcji
• Sieci neuronowe
PSZT, zima 2013, wykład 12 3
• Problemy
– sterowniki dla systemów o nieznanej dynamice – budowa modeli na podstawie napływających
danych
• Techniki:
– aproksymacja funkcji – klasyfikacja
– grupowanie
– uczenie się ze wzmocnieniem
• Narzędzia
– sieci neuronowe – drzewa
decyzyjne
PSZT, zima 2013, wykład 12 4
• Neuron
– jądro komórkowe – dendryty
– akson
– zakończenia aksonu
– połączenia synaptyczne
• Działanie
– ładowanie się przez dendryty
– strzelanie impulsami przez akson
PSZT, zima 2013, wykład 12 5
• Źródło inspiracji: naturalny mózg
• Rozmaite zastosowania:
– aproksymacja funkcji – prognozowanie
– klasyfikacja
– pamięć asocjacyjna
• My zajmiemy się:
perceptronem dwuwarstwowym
ponieważ jest to dobry aproksymator
nieliniowy
PSZT, zima 2013, wykład 12 6
Problem aproksymacji funkcji
• Dysponujemy próbkami
• Chcemy mieć przybliżenie dla zadanego
• Podstawowe zastosowanie: modelowanie i uczenie się
PSZT, zima 2013, wykład 12 7
Aproksymatory
• wejścia z przestrzeni
• wyjścia z przestrzeni
• parametry z przestrzeni
• aproksymator
• cel 1: aproksymacja funkcji
• cel 2: znalezienie najlepszej funkcji wg pewnego kryterium
PSZT, zima 2013, wykład 12 8
Przykłady prostych aproksymatorów
• wielomian
• szereg trygonometryczny
• tablica
PSZT, zima 2013, wykład 12 9
Zagadnienie aproksymacji funkcji
na zbiorze skończonym - uczenie off-line
• Dany jest skończony zbiór elementów
• Należy znaleźć wektor parametrów aproksymatora, który minimalizuje wskaźnik jakości
PSZT, zima 2013, wykład 12 10
Zagadnienie aproksymacji funkcji
na zbiorze nieskończonym - uczenie on-line
• Dany jest generator losowych par który generuje kolejne próbki
• Po t-tej próbce parametr aproksymatora jest aktualizowany (na jej podstawie) do wartości
• Ciąg parametrów powinien zbiegać do minimum wskaźnika jakości
PSZT, zima 2013, wykład 12 11
Aproksymacja neuronowa,
model neuronu (1/2)
PSZT, zima 2013, wykład 12 12
Aproksymacja neuronowa,
model neuronu (2/2)
PSZT, zima 2013, wykład 12 13
Aproksymacja neuronowa,
perceptron 2-warstwowy
PSZT, zima 2013, wykład 12 14
Perceptron dwuwarstwowy,
Przykład, funkcja R → R
PSZT, zima 2013, wykład 12 15
Perceptron dwuwarstwowy,
własność uniwersalnej aproksymacji
• Niech będzie zbiorem ograniczonym i domkniętym
• f jest ciągła na
• dla każdego istnieją , , t.że:
PSZT, zima 2013, wykład 12 16
Gradient
• Funkcja straty
• Typowo
• zawsze funkcja straty jest zdefiniowana przez przykład trenujący
• Interesuje nas
• czyli wektor kolumnowy złożony z pochodnych oraz
PSZT, zima 2013, wykład 12 17
Wsteczna propagacja gradientu
• Acykliczny graf działań obliczający
• Zmienna w tym grafie oddziałuje na poprzez zmienne, na które oddziałuje bezpośrednio
PSZT, zima 2013, wykład 12 18
Pochodne po wagach warstwy wyjściowej
•
• dla mamy
PSZT, zima 2013, wykład 12 19
Pochodne po wagach warstwy ukrytej
• - suma obliczana w j-tym neuronie
warstwy ukrytej
PSZT, zima 2013, wykład 12 20
Zagadnienie aproksymacji funkcji na zbiorze skończonym
• Dany jest skończony zbiór elementów
• Należy znaleźć wektor parametrów aproksymatora, który minimalizuje wskaźnik jakości
PSZT, zima 2013, wykład 12 21
Zagadnienie jako problem optymalizacji
• Funkcja
• Gradient
• Działają wszystkie gradientowe metody
optymalizacji: najszybszy spadek, gradienty sprzężone, metody drugiego rzędu
PSZT, zima 2013, wykład 12 22
Metoda gradientu prostego
• dziedzina
• funkcja
• ciąg parametrów
• ciąg wartości
• obliczany wg. formuły
PSZT, zima 2013, wykład 12 23
Warunki zbieżności
•
•
•
•
•
PSZT, zima 2013, wykład 12 24
Przykład
PSZT, zima 2013, wykład 12 25
Zagadnienie aproksymacji funkcji na zbiorze nieskończonym
• Dany jest generator losowych par który generuje kolejne próbki
• Po t-tej próbce parametr aproksymatora jest aktualizowany (na jej podstawie) do wartości
• Ciąg parametrów powinien zbiegać do minimum wskaźnika jakości
PSZT, zima 2013, wykład 12 26
Metoda stochastycznego najszybszego spadku
• dziedzina
• funkcja
• ciąg parametrów
• ciąg wartości
• obliczany wg. formuły
• gdzie
PSZT, zima 2013, wykład 12 27
Dodatkowe warunki zbieżności
•
•
•
PSZT, zima 2013, wykład 12 28
Uczenie aproksymatora
przykład-po-przykładzie, „reguła Delta”
• Chcemy zminimalizować
• Wykorzystujemy Procedurę Robbinsa- Monroe uwzględniając fakt, że przy
spełnieniu pewnych warunków regularności
PSZT, zima 2013, wykład 12 29
Wykorzystanie reguły delta
• Formuła uczenia się ma postać
PSZT, zima 2013, wykład 12 30
Algorytm uczenia aproksymatora
PSZT, zima 2013, wykład 12 31
Zagadnienia praktyczne
• Skalowanie wejść tak aby typowo należały do przedziału
• Skalowanie wyjść aby typowo należały do przedziału
• początkowe wagi warstwy wyjściowej:
zerowe
• początkowe wagi warstwy ukrytej: losowane z przedziału
• liczba neuronów ukrytych: wystarczająca
PSZT, zima 2013, wykład 12 32
Perceptron wielowarstwowy
• Proste rozszerzenie perceptronu dwuwarstwowego:
– wiele warstw
– wszystkie, poza ostatnią zawierają neurony sigmoidalne
– ostatnia warstwa zawiera neurony liniowe
• Możliwości aproksymacyjne takie jak
perceptronu dwuwarstwowego, o ile warstwy są dość „szerokie”
• Łatwiej reprezentuje zależności obejmujące regularności wysokopoziomowe
PSZT, zima 2013, wykład 12 33
Sieci rekurencyjne
• Połączenia cykliczne, z opóźnieniami
• Implementacja systemu dynamicznego
• Zastosowania:
– prognozowanie
– odtwarzanie stanu systemu częściowo obserwowanego
PSZT, zima 2013, wykład 12 34
Sieci impulsowe
• Ang: Spiking neural networks
• Temat intensywnych badań
• Neurony stanowiące mniej-więcej wierne modele biologicznych odpowiedników
• Sieć działa w czasie rzeczywistym