Podstawy Sztucznej Inteligencji (PSZT)

(1)

Uczenie maszynowe

Sztuczne sieci neuronowe

(PSZT)

Paweł Wawrzyński

(2)

PSZT, zima 2013, wykład 12 2

• Uczenie maszynowe

• Problem aproksymacji funkcji

• Sieci neuronowe

(3)

• Problemy

– sterowniki dla systemów o nieznanej dynamice – budowa modeli na podstawie napływających

danych

• Techniki:

– aproksymacja funkcji – klasyfikacja

– grupowanie

– uczenie się ze wzmocnieniem

• Narzędzia

– sieci neuronowe – drzewa

decyzyjne

(4)

• Neuron

– jądro komórkowe – dendryty

– akson

– zakończenia aksonu

– połączenia synaptyczne

• Działanie

– ładowanie się przez dendryty

– strzelanie impulsami przez akson

(5)

• Źródło inspiracji: naturalny mózg

• Rozmaite zastosowania:

– aproksymacja funkcji – prognozowanie

– klasyfikacja

– pamięć asocjacyjna

• My zajmiemy się:

perceptronem dwuwarstwowym

ponieważ jest to dobry aproksymator

nieliniowy

(6)

Problem aproksymacji funkcji

• Dysponujemy próbkami

• Chcemy mieć przybliżenie dla zadanego

• Podstawowe zastosowanie: modelowanie i uczenie się

(7)

Aproksymatory

• wejścia z przestrzeni

• wyjścia z przestrzeni

• parametry z przestrzeni

• aproksymator

• cel 1: aproksymacja funkcji

• cel 2: znalezienie najlepszej funkcji wg pewnego kryterium

(8)

Przykłady prostych aproksymatorów

• wielomian

• szereg trygonometryczny

• tablica

(9)

Zagadnienie aproksymacji funkcji

na zbiorze skończonym - uczenie off-line

• Dany jest skończony zbiór elementów

• Należy znaleźć wektor parametrów aproksymatora, który minimalizuje wskaźnik jakości

(10)

Zagadnienie aproksymacji funkcji

na zbiorze nieskończonym - uczenie on-line

• Dany jest generator losowych par który generuje kolejne próbki

• Po t-tej próbce parametr aproksymatora jest aktualizowany (na jej podstawie) do wartości

• Ciąg parametrów powinien zbiegać do minimum wskaźnika jakości

(11)

Aproksymacja neuronowa,

model neuronu (1/2)

(12)

Aproksymacja neuronowa,

model neuronu (2/2)

(13)

Aproksymacja neuronowa,

perceptron 2-warstwowy

(14)

Perceptron dwuwarstwowy,

Przykład, funkcja R → R

(15)

Perceptron dwuwarstwowy,

własność uniwersalnej aproksymacji

• Niech będzie zbiorem ograniczonym i domkniętym

• f jest ciągła na

• dla każdego istnieją , , t.że:

(16)

Gradient

• Funkcja straty

• Typowo

• zawsze funkcja straty jest zdefiniowana przez przykład trenujący

• Interesuje nas

• czyli wektor kolumnowy złożony z pochodnych oraz

(17)

Wsteczna propagacja gradientu

• Acykliczny graf działań obliczający

• Zmienna w tym grafie oddziałuje na poprzez zmienne, na które oddziałuje bezpośrednio

(18)

Pochodne po wagach warstwy wyjściowej

•

• dla mamy

(19)

Pochodne po wagach warstwy ukrytej

• - suma obliczana w j-tym neuronie

warstwy ukrytej

(20)

Zagadnienie aproksymacji funkcji na zbiorze skończonym

• Dany jest skończony zbiór elementów

• Należy znaleźć wektor parametrów aproksymatora, który minimalizuje wskaźnik jakości

(21)

Zagadnienie jako problem optymalizacji

• Funkcja

• Gradient

• Działają wszystkie gradientowe metody

optymalizacji: najszybszy spadek, gradienty sprzężone, metody drugiego rzędu

(22)

Metoda gradientu prostego

• dziedzina

• funkcja

• ciąg parametrów

• ciąg wartości

• obliczany wg. formuły

(23)

Warunki zbieżności

•

(24)

Przykład

(25)

Zagadnienie aproksymacji funkcji na zbiorze nieskończonym

• Dany jest generator losowych par który generuje kolejne próbki

• Po t-tej próbce parametr aproksymatora jest aktualizowany (na jej podstawie) do wartości

• Ciąg parametrów powinien zbiegać do minimum wskaźnika jakości

(26)

Metoda stochastycznego najszybszego spadku

• dziedzina

• funkcja

• ciąg parametrów

• ciąg wartości

• obliczany wg. formuły

• gdzie

(27)

Dodatkowe warunki zbieżności

•

(28)

Uczenie aproksymatora

przykład-po-przykładzie, „reguła Delta”

• Chcemy zminimalizować

• Wykorzystujemy Procedurę Robbinsa- Monroe uwzględniając fakt, że przy

spełnieniu pewnych warunków regularności

(29)

Wykorzystanie reguły delta

• Formuła uczenia się ma postać

(30)

Algorytm uczenia aproksymatora

(31)

Zagadnienia praktyczne

• Skalowanie wejść tak aby typowo należały do przedziału

• Skalowanie wyjść aby typowo należały do przedziału

• początkowe wagi warstwy wyjściowej:

zerowe

• początkowe wagi warstwy ukrytej: losowane z przedziału

• liczba neuronów ukrytych: wystarczająca

(32)

Perceptron wielowarstwowy

• Proste rozszerzenie perceptronu dwuwarstwowego:

– wiele warstw

– wszystkie, poza ostatnią zawierają neurony sigmoidalne

– ostatnia warstwa zawiera neurony liniowe

• Możliwości aproksymacyjne takie jak

perceptronu dwuwarstwowego, o ile warstwy są dość „szerokie”

• Łatwiej reprezentuje zależności obejmujące regularności wysokopoziomowe

(33)

Sieci rekurencyjne

• Połączenia cykliczne, z opóźnieniami

• Implementacja systemu dynamicznego

• Zastosowania:

– prognozowanie

– odtwarzanie stanu systemu częściowo obserwowanego

(34)

Sieci impulsowe

• Ang: Spiking neural networks

• Temat intensywnych badań

• Neurony stanowiące mniej-więcej wierne modele biologicznych odpowiedników

• Sieć działa w czasie rzeczywistym