Perceptrony z dużym marginesem

(1)

Perceptrony o dużym marginesie błędu

Wykład 10

Włodzisław Duch

Katedra Informatyki Stosowanej UMK

Google: W. Duch

(2)

Co było

• _{Perceptron jednowarstwowy.}

• _{Uczenie się perceptronów}

(3)

Co będzie

• _{Nieliniowa reguła delta}

• Adatron

(4)

Perceptron dla

M

klas

Reguła uczenia perceptronu:

• skończona liczba kroków

• sensowna generalizacja

Granice decyzji perceptronu: dla klasy Ci wyjście gi(X)

Decyzja: maxi gi(X), więc na granicy gi(X)=gj(X)

Dla M klas jest M(M – 1)/2 granic; część jest redundantna. Obszary decyzyjne – zawsze wypukłe.

Klasa Ci, wymagane gi(X)= 1, gj(X)= 0

Niektóre obszary – niesklasyfikowane bo wszystkie gi(X)= 0 lub kilka gi(X)=1

(5)

Niestabilności

Granice decyzji prostego perceptronu mogą się całkowicie zmienić pod wpływem jednego punktu, który odpowiada wartości odstającej.

(6)

Reguła delta - nieliniowa

Uczenie zgodne z regułą perceptronu: skoki, niestabilne granice. Błąd przy prezentacji pary (Xp,Yp) dla jednego perceptronu:

Funkcja błędu:

Szukamy minimum błędu ze względu na Wi

 

2









2 p p p

Y

p

f

p



W



Y



f W X







W X



 

1  

2

p p

E

W







W

 

_{ }





_{   }

| _p p p p pi I I p p i i

f

E

f I

X

W



W



I









 











W X

W

(7)

Reguła delta cd.

Poprawki do wag:

Dla funkcji logistycznej

Dla tangh

Przykłady działania takiej reguły w Neurosolutions: trening 10 perceptronów do rozpoznawania cyfr (każdy cyfra-reszta); efekty dodawania szumu do znaków – granice się poprawiają!

 

_{ }

'

_{ }

i p p pi p i

E

W

f I

X

W





 





 





W

 



 



'

₁

f I



f I



f I

 



 



'

1 ₁

2

2 f I





f

I

(8)

Adatron i maksymalizacja marginesu

Cel: maksymalizacja odległości granicy decyzji od danych. Trening z szumem  regularyzacji – prosty, ale kosztowny. Dla 2 klas i funkcji liniowej WX+b marginesy powinny być jak największe by zapewnić generalizację.

Znajdź wektor najbliższy granicy i wagi zwiększające margines.

 

arg min

min

max

i i

D

b

D









W X X W W

X

WX

X

Rozwiązanie:

• liniowe - Adatron

(9)

Marginesy i hiperpłaszczyzny.

(10)

Odległość od hiperpłaszczyzny W.

 

'

e

d









W X

X

W

W X

(11)

Adatron: algorytm

Przyjmijmy (Xi,Yi), i=1 .. N, oraz Yi = ±1

Progowe neurony, f(X)=sgn(g(X;W,b)) = sgn(W·X+b)

Margines rośnie dla min ||W|| pod warunkiem poprawnej klasyfikacji.

( )

_i _i i

g

X







X X











0 0

, ,

0 , ,

0

N i i i i N i i i

L

b

Y

L

b

Y

b



 



 





 







W

X

W



; ,



1,

1.. ; min

i i

Y g

X W

b



i



N

W





2





1

1 , ,

1 ,

0

2

N i i i i i

L

b



Y

b











_









_



W

W X

Problem można sformułować jako minimalizację bez ograniczeń;

i = mnożniki Lagrange’a;

f. dyskryminująca jest liniową kombinacją iloczynów

(12)

Adatron: algorytm cd.

Wstawiając za W i b poprzednie wartości Adatron minimalizuje:

 

1

(

_i

)

_i _i _i _j _j _i _j _i

;

min (

_i

)

i j

h

Y g

Y



Y

bY

H

h











X

X X

X



1 ( )



dla

i

h

i

H

 



 



X



(

1)

( )

( );

(

1)

( )

i i i i i

k

b k

Y

k



 

 

 

 

1 1 1

1 ( )

2 0;

0;

1..

i i i j j i j i i j i i i i

J

Y

i

N



  















 



α

X X

Zdefiniujmy pomocnicze funkcje (najpierw policzmy il. skalarne):

Algorytm iteracyjny: start = 0.1,  mały próg

dodatkowe warunki

Jeśli i + i  0 to zmień

lub jeśli < 0 nic nie zmieniaj.

(13)

Sieciowa realizacja Adatronu

Wektory danych pamiętane są w węzłach jako wagi. Węzły obliczają iloczyny skalarne.

Wagi



_i łączą z neuronem wyjściowym obliczającym

g(x)

Efekt działania algorytmu: większość wsp. się zeruje, zostają niezerowe tylko przy wektorach granicznych.

(14)

Adatron – efekty

• Tyko pary klas są rozróżniane;

• potrzeba m(m-1)/2 klasyfikatorów dla m klas, lub dla rozróżnienia 1-reszta tylko m.

• Wektory, dla których i >0 to wektory brzegowe (Support Vectors).

• Uczenie – na końcu procesu głównie w pobliżu granic decyzji.

• Złożoność O(n2) redukuje się do O(n_sv2)

• Złożoność minimalizacji – eksponencjalna w N (wymiar wektora).

• Rezultaty podobne jak z perceptronem z gładką funkcja zamiast skokowej (znaku).

(15)

Uczenie na brzegach

Dla algorytmu Adatron pozostają tylko wektory brzegowe.

Dla neuronów logicznych f. błędu zmienia się

skokowo.

Dla neuronów

sigmoidalnych o dużym nachyleniu największy gradient jest w pobliżu granicy decyzji.