Radialne Funkcje Bazowe Radialne Funkcje Bazowe i algorytmy aproksymacyjne i algorytmy aproksymacyjne

(1)

Radialne Funkcje Bazowe Radialne Funkcje Bazowe i algorytmy aproksymacyjne i algorytmy aproksymacyjne

Sieci Neuronowe Wykład 8

Włodzisław Duch

Uniwersytet Mikołaja Kopernika

Google: W. Duch

(2)

Co było Co było

• SOM

• MDS i wizualizacja danych

(3)

Co będzie Co będzie

• Teoria aproksymacji

• Funkcje radialne

• Sieci RBF i metody kernelowe

(4)

Filozofia RBF Filozofia RBF

MLP - dyskryminacja, LDA, aproksymacja stochastyczna.

RBF = Radial Basis Functions (1988) - inne podejście.

Uczenie jako problem aproksymacji, najlepszego dopasowania (rekonstrukcji) hiperpowierzchni do danych treningowych.

•

Twierdzenie (Cover 1965):

Jeśli przekształcić wzorce X={X

⁽ⁱ⁾}, i=1.. p, nieliniową funkcją

na wektory (X

⁽ⁱ⁾)={h(X⁽ⁱ⁾)_k}, k = 1..M, M > p

wzorce prawdopodobnie staną się liniowo separowalne: tj.

istnieje płaszczyzna

W^T(X⁽ⁱ⁾) 0 dla X⁽ⁱ⁾C₁, W^T(X⁽ⁱ⁾) <0 dla X⁽ⁱ⁾C₂

(5)

Separowalność wielomianowa Separowalność wielomianowa

Jeśli wziąć funkcje wielomianowe:

 

_{1 2} ₁ ₁

1 2

...

0 ... _r ^r

A i i i i i ir

i i i p

X A X X X

 

 



^

to zamiast sep. liniowej mamy sep. wielomianową.

Functional Link Networks (Pao), SVM i Kernel Methods:

optymalizacja nieliniowego przekształcenia.

(6)

Functional link networks Functional link networks

Pao (1989) - sieci połączeń funkcjonalnych.

Model tensorowy: do zmiennych wejściowych należy dodać ich iloczyny, to rozwiązuje nieliniowo sep. problemy.

Separacja kwadratowa

Problem: za dużo parametrów.

Realizacja: sieć perceptronów z dodatkowymi wejściami

lub sieć z jedną warstwą ukrytą realizująca nieliniowe

mapowanie.

(7)

Uczenie jako problem aproksymacji Uczenie jako problem aproksymacji

Dla N punktów

znajdź funkcję spełniającą:

  

^{( )}



1

K i

W i

i

F X W h X X







Postać funkcji RBF:

    

^{( )}



² ²

1 N

ˆ

i

W i W W

i

E F Y F X  PF



   

Funkcja błędu z członem regularyzacyjnym:

 

^{( )}ⁱ

^, ^1..

W i

F X  Y i  N

 ^X

^{( )}ⁱ

^ ^{R Y}

^p

^,

ⁱ

^ ^R

¹



(8)

Funkcja RBF Funkcja RBF

Człon regularyzacjny: uwzględnia dodatkowe warunki, takie jak pożądana gładkość funkcji.

  

^{( )}



1

K i

W i

i

F X W h X X



  

Postać funkcji RBF:

  

^{( )}

 

^{( )}



² ²

1 N

ˆ

i i

W W W

i

E F Y F X  PF



   

Funkcja błędu z członem regularyzacyjnym:

 

^{( )}ⁱ ^{( )}ⁱ

^, ^1..

F

W

X  Y i  N

(9)

Rozwiązanie RBF Rozwiązanie RBF

Jeden węzeł sieci na jeden wektor treningowy, bez regularyzacji.

Dla wąskich f. Gaussowskich h

_ij

= 

_ij

, wagi W

_i=Y_i

, idealne rozwiązanie, ale zła generalizacja.

H - macierz interpolacji.

Radialne f. bazowe: H dodatnio określona (Light 1992).

Większe dyspersje, mniej funkcji - lepsza generalizacja.

 

11 12 1 1 1

( ) ( )

21 22 2 2 2

1

1 2

;

N

i j

N ij

N N NN N N

h h h W Y

h h h W Y h h X X

h h h W Y



     

       

      

     

     

W H Y



     



(10)

Interpretacja geometryczna Interpretacja geometryczna

Jeśli prawdziwa aproksymowana funkcja f(x) leży w przestrzeni rozpiętej przez wektory bazowe (x) to możliwe jest rozwiązanie bez błędu, w przeciwnym razie aproksymowana jest projekcja ortogonalna (błąd jest ortogonalny do p-ni bazowej).

ˆ ( ; )

_{i i}

( )

i

f ^{x w}   w  ^x

(11)

Regularyzacja RBF Regularyzacja RBF

Człon regularyzacjny uwzględnia dodatkowe warunki, takie jak pożądana gładkość funkcji.

Jeśli człon regularyzacyjny jest niezmienniczy translacyjnie i rotacyjnie to funkcja aproksymująca musi mieć postać radialną.

 ^{X X} ^,

^{( )}ⁱ

  ^X ^X

^{( )}ⁱ



   

 

²

2 2

ˆ

N

W W

i j

R

F X

PF dX

X X

 

  

Dowód: teoria aproksymacji zaszumionych danych, teoria f. Greena, teoria estymacji z Gaussowskimi jądrami.

(12)

Rozwiązanie z regularyzacją Rozwiązanie z regularyzacją

Regularyzacja w teorii aproksymacji źle uwarunkowanych problemów: Tikhonov 1963.

Stabilizacja przez dodatkowe warunki, operator P.

Minimalizacja funkcji błędu z członem regularyzacyjnym

daje równanie Eulera-Lagrange’a dla funkcjonału kosztu E(F)

  

^{( )}



²

^{ }

²

1

( )

^N ⁱ _i

ˆ

i

E F F X Y  PF X



   

      ^ ^

† 1 ( ) ( )

1

ˆ ˆ

^N ⁱ ⁱ

i i

P PF X 

^

Y F X  X X



   

Dla operatorów P w postaci różniczkowej:

 

²

 

²

   

0 1

ˆ

^K _k ^k

;

^N _i

;

_i

,

_i

k i

PF X a F X F X W G X X 

 

    

(13)

Wpływ regularyzacji Wpływ regularyzacji

Duża liczba f. bazowych o małej dyspersji bez regularyzacji i po regularyzacji (Ossowski 1996)

(14)

Funkcje radialne Funkcje radialne

Przykłady: lokalne i nie

 

2

2 2

( / ) 2

( )

( ) , 0

( ) , 1 0

( )

( ) ( ) ln( )

i

r

h r r X X

h r r

h r e

h r r r







 

 

 



  

  

   



Radialna

Inverse multiquadratic Multiquadratic

Gauss

Thin splines (cienkiej płytki)

(15)

Funkcja Gaussa Funkcja Gaussa

Jedyna lokalna i separowalna f. radialna



^{( )}

 

¹ ^{( )}



2 2 1

/2 2

( )

i T i

X X X X

h r e

r ^

e

   







(16)

Funkcja współrzędnej radialnej Funkcja współrzędnej radialnej

( )

( )ⁱ

h r

i

  r X  X

(17)

Funkcje wielokwadratowe Funkcje wielokwadratowe

 

2 2

( ) , 1;

( ) , 1 / 2

h r r





 

 

 





  

(18)

Funkcje cienkiej płytki Funkcje cienkiej płytki

( ) ( ) ln(

2

)

h r   r  r

(19)

Sieci RBF Sieci RBF

Jedna warstwa ukryta, parametry nieliniowe funkcji transferu + wagi łączące z warstwą wyjściową.

Sieci GRBF - mniejsza liczba węzłów niż danych.

Sieci HRBF - pełna macierz obrotów i skalowania Q:

   

( )i 2 ( )i T T ( )i

X  X Q  X  X Q Q X  X

Q różne dla różnych centrów

(20)

Uczenie sieci RBF Uczenie sieci RBF

Parametry nieliniowe funkcji transferu: centra, dyspersje; + wagi.

Inicjalizacja początkowych centrów: klasteryzacja lub samoorganizacja.

Inicjalizacja dyspersji: średnie odległości od wektorów z innych klas.

Uczenie - metody gradientowe, podobnie jak w BP.

Metoda probabilistyczna: jeśli rozkład równomierny, p. przynależności X do klastra o centrum D_i i zakładamy diagonalne dyspersje to:



i

^| 

i

 

¹²^ ^{X D}ⁱ^^T ⁱ ¹^ ^{X D}ⁱ^

p D X   X  e

^ ^ ^ ^ ^

       

   

( ) 2

1 1

i k i i i

i

k k i

k X X D k k

k X

 

  

 

      

  

 

     

   

( ) ( )

1 1

i k i i

i

k k i

D k X X D k

D k X

 

  

 

   

(21)

Inicjalizacja RBF 1 Inicjalizacja RBF 1

• Algorytm inicjalizacji centrów przez klasteryzację:

• Wybierz w przypadkowy sposób punkt początkowy, nie należący do otoczenia już ustalonych centrów.

• Utwórz zbiór wszystkich punktów z danej klasy leżących bliżej niż punkty z innej klasy.

• Przyjmij położenie centrum D_i jako średnią dla punktów znalezionego zbioru

• Powtarzaj dwa ostatnie kroki aż do zbieżności

Inne metody klasteryzacji: dendrogramy, łączenie histogramów.

(22)

Inicjalizacja RBF 2 Inicjalizacja RBF 2

Algorytm inicjalizacji centrów przez samoorganizację:

• Wybierz w przypadkowy sposób punkt początkowy, nie należący do otoczenia już ustalonych centrów.

• Utwórz zbiór wszystkich punktów z danej klasy leżących bliżej niż punkty z innej klasy.

• Zmieniaj położenie centrum D_i po prezentacji każdego wektora treningowego:



¹

   

^{( )}^k

  

i i k i

D k   D k  X  D k

Stała uczenia _ zanika w miarę wzrostu k, np. (T - stała l. epok)

 

0 / 1 /

k k T









Przesuwanie centrów w jakimś promieniu - samoorganizacja.

(23)

Uczenie - obroty i usuwanie.

Pełna macierz transformacji Q: za dużo parametrów dla danych o dużej l. cech; diagonalna - ustawienia wzdłuż osi.

 ^,

i



²



i



²

d X D  Q X  D

Obroty f. zlokalizowanych - przydatne;

wystarczy Q_ii0 i Q_ii+10, realizuje dowolne obroty.

Inna metoda: iloczyn

Gauss * ((WX+b)(WX+b’))

Uproszczenie: kąt obrotu ustalony po inicjalizacji

(24)

Konstruktywny RBF Konstruktywny RBF

GAL (Growing and Learning),

GrRBF (Growing Radial Basis Function), FEN (Function Estimation Networks), RAN (Resource Allocation Networks)

Klasyfikatory Gaussowskie, sieci probabilistyczne ...

Dwa kryteria wzrostu:

duży błąd  + brak centrum w okolicy, które ma szanse po modyfikacji ten błąd zmniejszyć.

 

( 1) ( )

( )

min

; , min

n i

i W

i

k k

Y F X D

X D d

 





 

(25)

RCE RCE

Funkcje typu twardej sfery o zmiennym promieniu pokrywające całą przestrzeń.

Początkowo r_i jak największe, w czasie uczenia są zmniejszane do połowy

odległości z centrum odmiennej klasy i dostawiane są nowe sfery.

Niejednoznaczne obszary - kolor ciemnoczerwony.

Reduced Coulomb Energy model (Bachman, Cooper .. 1987)

(26)

Porównanie MLP-RBF Porównanie MLP-RBF

MLP

Nielokalne, wymagają douczania jeden rodzaj parametrów

trudna inicjalizacja trudna interpretacja ustalone klasy

uczenie tylko pod nadzorem zawsze wie

BP dość skomplikowane dla wielu warstw

RBF

Lokalne efekty, stabilność kilka rodzajów parametrów łatwa inicjalizacja

tworzą nowe klasy

możliwe uczenie bez nadzoru czasami nie wie

uczenie łatwe bo 1 warstwa

(27)

Kernel Kernel e e ! !

Kernel trick: if vectors are transformed using some function (usually non-linear) into high-dimensional space separation of data may be easier to achieve. Replace:

This leads to the same problem formulation, except that X is replaced everywhere by (X); in particular Lagrangian contains scalar products:

 

 

X X

     

( )ⁱ  ( )^j   ( )ⁱ  ( )^j  K ( )ⁱ , ( )^j

X X X X X X

These scalar products are calculated between vectors in some

transformed space; instead of calculating them directly it is sufficient to define a kernel function K(X,Y).

What kind of functions correspond to scalar products in Hilbert spaces?

They should be symmetric; formal conditions have been found in mathematical analysis by Mercer; they may influence convergence.

(28)

Kernel example Kernel example

Simplest: polynomial kernel:

Example: quadratic kernel in 2-D



^,

 

¹



^d

K X Y   X Y

   

2

1 1 2 2

2 2

1 1 2 2 1 1 2 2 1 1 2 2

, 1

1 2 2 2

K X Y X Y

X Y X Y X Y X Y X Y X Y

  

     

X Y

Use of this kernel is equivalent to working in 5-D space:



^{X X}¹^, ²

   

^{1, 2 , 2}^X¹ ^{X X X}²^, ¹²^, ²²^{, 2}^{X X}¹ ²



   

X X

Hyperplane in 5D found using linear SVM corresponds to quadratic function in 2D; try to show that quadratic border in (X₁,X₂) space becomes a hyperplane in kernel space.

Selection of kernel may strongly influence results.

(29)

Other popular kernels Other popular kernels

Some popular kernels working as scalar products:

Dimensionality of the  space: number of independent polynomial products or number of training vectors.

Distance kernel: for b=2 Euclidean distance  linear case!

In complex cases (ex. protein comparison) kernel = similarity function, especially designed for the problem.

   

 

2 2

1 2

, exp / 2

, tanh ,

G

s

b d

K K K



 

  

  

 

X Y X Y

Gaussian:

Sigmoidal:

Distance:

     

( )ⁱ  ( )^j   ( )ⁱ  ( )^j  K ( )ⁱ , ( )^j

X X X X X X

(30)

Kernelizacja Kernelizacja

Funkcja dyskryminująca może być w postaci:

Number of support vectors in a separable case is small, but in non- separable case may get large – all between the margins + errors.

Kernels may be used in many discriminant methods, for example Kernel PCA or Kernel Fisher Discriminant Analysis.

Covariance matrix after transformation:

 

^sv



^{( )}



⁰

1

,

n

i i

i

g  K W



  

W

X X X

   

1

( ) ( ) T T

1

;

1 1

n

i

n i i

n

i

n



 

 

 



XΦ X Φ X 0

CΦ X Φ X ΦΦ

(X) is d-dim vector, and

 is d x n matrix zamiast sumy W_ij X_ji

(31)

Przykład

Przykład 1: 1: kombinacje kombinacje Gauss Gauss ów ów

Gaussian kernels work quite well, giving close to optimal Bayesian error (that may be computed only because we know the distributions, but it is not exact, since finite number of points is given).

4-deg. polynomial kernel is very similar to a Gaussian kernel, C=1.

(32)

Przykład

Przykład 2: Cleveland heart data 2: Cleveland heart data

Left: 2D MDS features, linear SVM, C=1, acc. 81.9%

Right: support vectors removed, margin is clear, all vector inside are SV.

Gaussian kernel, C=10000, 10xCV, 100% train, 79.3± 7.8% test Gaussian kernel, C=1, 10xCV, 93.8% train, 82.6± 8.0% test

Auto C=32 and Gaussian dispersion 0.004: about 84.4± 5.1% on test

(33)

Example 3: Ljubliana cancer recurrence Example 3: Ljubliana cancer recurrence

286 events: 85 recurrence (29.7%) and 201 no recurrence (70.3%);

9 features: tumor-size, inv-nodes, deg-malig, etc ...

Linear kernel, C=1 (C=10 similar, C=100 hard to converge):

whole data 75 errors, or 73.8%

10xCV: training 73.71.0%, test 71.18.3%

Linear kernel, C=0.01:

10xCV: training 70.60.7%, test 70.31.4% (base rate !) Polynomial kernel k=3, C=10 (opt):

10xCV: training 89.80.6%, test 74.27.9% (best for polynomial kernel) Gaussian kernel, opt C=1 and 

10xCV: training 88.03.4%, test 74.86.5% (best for Gaussian kernel) But a rule: Involved Nodes > 0 & Degree_malig = 3 has 77.1% accuracy!

(34)

Some applications Some applications

SVM ma bardzo wiele zastosowań, długa lista:

http://www.clopinet.com/isabelle/Projects/SVM/applist.html Przez wiele lat była to dominująca metoda uczenia maszynowego.

Przykładowe zastosowania:

•

On-line Handwriting Recognition, zip codes

•

3D object recognition

•

Stock forecasting

•

Intrusion Detection Systems (IDSs)

•

Image classification

•

Detecting Steganography in digital images

•

Medical applications: diagnostics, survival rates ...

•

Technical: Combustion Engine Knock Detection

•

Elementary Particle Identification in High Energy Physics

•

Bioinformatics: protein properties, genomics, microarrays

•

Information retrieval, text categorization

(35)

Co dalej?

• Sieci MLP

(36)

Koniec wykładu 15

Radialne Funkcje Bazowe Radialne Funkcje Bazowe i algorytmy aproksymacyjne i algorytmy aproksymacyjne