Sztuczne sieci neuronowe

(1)

- aplikacje w analizie danych eksperymentalnych

Robert Sulej

(2)

Robert Sulej Sztuczne sieci neuronowe – aplikacje w analizie danych eksperymentalnych 11/05/2009

• typy sieci

- MLP, data clustering, SOM

• struktura sieci feed-forward MLP

- neurony, warstwy, funkcje

• uczenie sieci „z nauczycielem”

- algorytmy optymalizacji wag

• zastosowania sieci MLP

- klasyfikacja, aproksymacja

- wymiarowość / statystyka danych uczących / rozmiary sieci - problem wariancji / obciążenia odpowiedzi sieci

- błędy systematyczne - inne ograniczenia

• uczenie bez nauczyciela: sieci SOM (self-organising maps)

Plan prezentacji

(3)

Sieci uczone „z nauczycielem”

MLP – multi-layer perceptron

• historycznie bazuje na biologicznych inspiracjach; obecnie dobrze opisana matematycznie

…bez tajemnic, jednak pewne wyczucie możliwości jest konieczne;

• większość aplikacji korzysta z tego modelu;

• możliwe konfiguracje z i bez sprzężenia zwrotnego (recursive i feed-forward);

• dziesiątki algorytmów uczących i implementacji;

RBF – radial basis functions Cascade Correlation

…

Uczenie bez nadzoru

• algorytmy Winner Takes All, Winner Takes Most – klastrowanie danych;

• Self Organizing Maps – geometryczna rekonstrukcja;

Sztuczne sieci neuronowe – aplikacje w analizie danych eksperymentalnych

Typy sieci

(4)

. . .

wektor wejściowy*:

in = [in₁, ..., in_K]

in 1

Out ← odpowiedź sieci warstwy ukryte

neuron wyjściowy

sieć feed-forward MLP

neuron

...



x₁

x₂ x₃ x_M

f_akt()

out w₁

w₂

w₃ w_M

w₀ . . .

in K

Out = Net(in, W)

odpowiedź sieci – deterministyczna funkcja wektora wejściowego

Struktura sieci

*opis przypadków przez stałą liczbę zmiennych

(5)

Struktura sieci

x₁

x₂ out = f_akt()

 > 0

[w₁, w₂] w₀/||w||

 < 0

neuron – funkcje aktywacji

• w sieci z jedną warstwą ukrytą - jeden neuron ukryty wnosi:

- jedną hiperpłaszczyznę do podziału przestrzeni wejść sieci - jedną funkcję bazową do odpowiedź sieci

(6)

Uczenie sieci „z nauczycielem”

    







^N

i

Out

N 1

₁

e Tgt ,

E W In

pożądana odpowiedź sieci faktyczna odpowiedź sieci

algorytmy iteracyjne:

• gradientowe – wiele odmian: back-prop, gradienty sprzężone, L-M, …

• stochastyczne – alg. genetyczne, symulowane wyżarzanie

• bayesowskie

- minimalizacja f-cji błędu w przestrzeni wag sieci

(7)

w(5)

( w ) Uczenie sieci „z nauczycielem”

algorytmy iteracyjne:

• gradientowe

• stochastyczne

• bayesowskie

w(0)

w(1) w(2)

w(3)

w(4)



   

w₁ w₂

w₃

[ p(w|In) ]

w₁ w₁ w₁

p p p

(8)

Aplikacje sieci feed-forward MLP

Out = Net(x, W)

odpowiedź sieci - deterministyczna funkcja zmiennej wejściowej (lub wektora)

• aproksymacja funkcji:

lub Out = Net(x, W)

(9)

• estymacja parametru:

Out = Net(in = [x

₁

, …, x

_n

], W)

Aplikacje sieci feed-forward MLP

(10)

• klasyfikacja:

      ^ ^

 







 









_L

i

i k

i

k k

p G p

Out

1

sig 1

sig

, , g

, , , g

, P

, Net



 





  in

in W

in

rozkłady gęstości prawdopodobieństwa

prawdopodobieństwo a priori

Aplikacje sieci feed-forward MLP

(11)

zadania klasyfikacji:

 

^ ^









 

  ^N

i

Out i

Tgt i

Out Tgt

xy Tgt Out

R N

1

1  



zadania estymacji:

wsp. korelacji liniowej:

Tgt

Out

 – zmienny próg selekcji

Miary oceny wyników

wzrost 

Out tło

(odpowiedź docelowa 0.05)

sygnał

(odpowiedź docelowa 0.95)

(12)

 

TP FP TP

 





 

FN TP

TP

 





sprawność  [%]

tra fno

 ść [%

]

wzrost 

• trafność selekcji: ^•sprawność selekcji:

zadania klasyfikacji:

 

^ ^









 

  ^N

i

Out i

Tgt i

Out Tgt

xy Tgt Out

R N

1

1  



zadania estymacji:

wsp. korelacji liniowej:

Tgt

Out

TP - true positive, N_sig(Out > ) FN - false negative, N_sig(Out ≤ ) FP - false positive, N_bkg(Out > )

 – zmienny próg selekcji

(13)

sprawność  [%]

traf ność



[%

] (zadania klasyfikacji)

zbiór uczący ↔ zbiór testowy

(14)

błąd systematyczny - oszacowanie

+ - maksimum sygnału wg klasyfikatora o - rzeczywiste maksimum sygnału

A: zmiana progu selekcji () nie wpływa na wartość centralną wyznaczanej wielkości +

A

mały błąd systematyczny

cecha 1

cecha 2

> 0,5

> 0,8

> 0,9

+ o

B

znaczny błąd systematyczny

cecha 1

cecha 2

> 0,5 > 0,8

> 0,9

B: wartość centralna zmienia się wraz ze zmianą progu selekcji o

(15)

COMPASS – selekcja D⁰

Nauka bez Monte Carlo

zbiór uczący – dane rzeczywiste

tło (Out=0.05)

– wrong charge combination – tylko tło kombinatoryczne

„sygnał” (Out=0.95)

– good charge combination - zdarzenia tła + zdarzenia D⁰ zmienne wejściowe – kinematyka zdarzeń test – rozkład masy niezmienniczej

(16)

Nadmierne dopasowanie do danych uczących

- jak osiągnąć:

• duży rozmiar wektorów wejściowych

• mała liczba wektorów uczących*

• duża liczba neuronów ukrytych

• długa nauka

* w zadaniu klasyfikacji – wystarczy w jednej z klas przypadków

(17)

Nadmierne dopasowanie do danych uczących

te same rozkłady, różna statystyka

(18)

R_xy = 0,459 R_xy = 0,165 R_xy = 0,0009

odpow iedź si eci

zmienne wejściowe

Selekcja zmiennych

Reprezentacja danych

• usunięcie nietypowych przypadków, normalizacja

• usunięcie symetrii

• wyrównanie rozkładów

• analiza składowych niezależnych

(19)

optymalizacja wag

• algorytm gradientów sprzężonych

• algorytm quick-prop

• dowolny inny algorytm

Inicjalizacja

(sieć o niewielkiej strukturze początkowej)

Inicjalizacja

(sieć o niewielkiej strukturze początkowej)

Rozbudowa struktury

(wstępny trening neuronów-kandydatów) akceptacja neuronu brak modyfikacji

Rozbudowa struktury

(wstępny trening neuronów-kandydatów) akceptacja neuronu brak modyfikacji

optymalizacja wag

Redukcja struktury Redukcja struktury

optymalizacja wag

stabilizacja?

Koniec Koniec

Redukcja struktury

• łączenie par neuronów:

• usuwanie neuronów o stałej odpowiedzi:

• usuwanie neuronów o nieistotnych wagach wejściowych:

* działanie sieci nie zostaje zaburzone *

 

AB B

A N i

B i A i

B A

AB t

o N o

 



 

 2 2 1

2

2 2

2

1





r c

o 



d N

N i j j

j out i

out 

 



 ,1

1

1 w

w

Przebieg błędu sieci w funkcji iteracji trening neuronów- kandydatów

N T

Optymalizacja struktury

(20)

Redukcja struktury

 

AB B

A N i

B i A i

B A

AB t

o

N o 





 





2 2

1

2

2 2

2

1



 c

r

o 



d N

N i j j

j out i

out 







 ,1

1

1 w

w

• łączenie par neuronów:

• usuwanie neuronów o nieistotnych wagach wejściowych:

• usuwanie neuronów o stałej odpowiedzi:

∙ ∙

∙

∙ ∙

∙ ∙ ∙

° °

°

° °

°

x₁ x₂

l₁ l₂

∙ ∙

∙

∙ ∙

∙

∙ ∙

° °

°

x₁

°

x₂

l₂

l₁

(21)

przykładowe zadanie

13-8, dynamiczna struktura 17-7, statyczna struktura 20-10, statyczna struktura zbiór uczący

(22)

w(t) = x – w^winner(t)

w

ⁿ

(t+1) = w

ⁿ

(t) +   (t)  f

_s

(n – winner)  w (t)

dla n ϵ < 1; N >:

x = X<rnd>

X = [x

¹

,…,x

^M

] - zbiór wektorów (np. współrzędne hitów)

W = [w¹,…,w^N] - wektory wag neuronów

dla m ϵ < 1; M >:

N > M

dla t ϵ < 1; max_iter >:

        

     



x

x x

x

współczynnik szybkości nauki

„funkcja sąsiedztwa”

Nauka „bez nauczyciela”: Self-Organizing Maps

(23)

Self-Organizing Maps



^{– dane}

– – 1-wymiarowa sieć SOM

(24)

Dziękuję za uwagę

(25)

0L:

1M:

1E:

f_Pow4(out) = (tgt – out)⁴ f_MSE(out) = (tgt – out)²

_CC (sygnał) tło

Sztuczne sieci neuronowe - aplikacje w analizie danych eksperymentalnych