• Nie Znaleziono Wyników

Uczenie maszynowe - sieci neuronowe

N/A
N/A
Protected

Academic year: 2021

Share "Uczenie maszynowe - sieci neuronowe"

Copied!
62
0
0

Pełen tekst

(1)
(2)

Sieci neuronowe: pomysl

Na±lad owanie mózgu dziaªaj¡ ego jako sie¢ komórek neuronowy h

Axon

Cell body or Soma

Nucleus

Dendrite

Synapses

Axonal arborization

Axon from another cell

Synapse

(3)

Sieci neuronowe: sztuczne i naturalne

Komputer Mózg

Jednostki obli zeni owe 1 CPU

10

11

neuronów

10

8

bramek logi zny h > 20 typów

Jednostki pami iowe

10

10

bitów RAM

10

11

neuronów

10

11

bitów dysku

10

14

synaps Czas yklu 1 ns (

10

−9

sek.) 110 ms (

10

−3

sek.) Szeroko±¢ pasma

10

10

bitów/sek

10

14

bitów/sek Zmiany stanów/sek

10

9

10

14

Równolegªo±¢ daje w i¡» umysªowi ludzkiemu ogromn¡ przewag nad

(4)

Perceptron

~

x

= (x

1

, x

2

, . . . , x

n

)

 wektor wej± iowy (obiekt dany h)

w

1

w

2

w

n

w

0

x

1

x

2

x

n

x

0

=1

.

.

.

Σ

AAA

AAA

AAA

Σ

n

wi xi

i=0

1 if > 0

-1 otherwise

{

o =

Σ

wi xi

n

i=0

~

w

= (w

0

, w

1

, . . . , w

n

)

 wektor wag per eptronu

w

0

 waga przesuni i a (przesuwa próg funk ji aktywa ji)

σ

 progowa (skokowa) funk ja aktywa ji per eptronu

o

(~x)

 warto±¢ wyj± ia per eptronu dla wektora

~

x

o

(~x) = σ( ~

w · ~

x

) =

1

if

w

0

+ w

1

x

1

+ · · · + w

n

x

n

>

0

1

(5)

Perceptron: wyrazalnosc

Per eptron reprezentuje liniowe i ie w przestrzeni wej±¢

X

X

1

2

(6)

Perceptron: wyrazalnosc

Mo»na wyrazi¢ funk je logi zne AND, OR, NOT

W = -1.5

W = 1

W = 1

AND

W = -0.5

W = 1

W = 1

OR

W = 0.5

W = -1

NOT

0

1

2

0

0

1

1

2

(7)

Perceptron: wyrazalnosc

Mo»na wyrazi¢ funk je logi zne AND, OR, NOT

W = -1.5

W = 1

W = 1

AND

W = -0.5

W = 1

W = 1

OR

W = 0.5

W = -1

NOT

0

1

2

0

0

1

1

2

ale nie da si dobra¢ wag do funk ji XOR

I

1

I

1

I

1

?

(8)

Uczenie perceptronu: algorytm

fun tion Per eptron-Learn(per eptron,examples ,

α

) returns a per eptron inputs : examples , a set of examples, ea h with input

~

x

and output

y(~x)

per eptron, a per eptron with weights

w

~

= (w

0

, . . . , w

n

)

α

, the learning rate repeat

for ea h

~

x

= (x

1

, . . . , x

n

)

in examples do

∆ ~

w ← α

(y(~x) − ~

w · ~

x

)~x

~

w ← ~

w

+ ∆ ~

w

end

until some stopping riterion is satised

(9)

Uczenie perceptronu: wlasnosci

Twierdzenie 1

Je±li zbiór dany h jest liniowo separowalny

a wspóª zynnik szybko± i u zenia

α

wystar zaj¡ o maªy

(10)

Uczenie perceptronu: wlasnosci

Twierdzenie 1

Je±li zbiór dany h jest liniowo separowalny

a wspóª zynnik szybko± i u zenia

α

wystar zaj¡ o maªy

algorytm u zenia per eptronu jest zbie»ny

Twierdzenie 2

Je±li zbiór dany h nie jest liniowo separowalny

(11)

Zbieznosc uczenia perceptronu

Bª¡d ±redniokwadratowy dla zbioru treningowego

U

E

[ ~

w

] =

1

2

Σ

~

x∈U

(y(~x) − ~

w · ~

x

)

(12)

Zbieznosc uczenia perceptronu

Bª¡d ±redniokwadratowy dla zbioru treningowego

U

E

[ ~

w

] =

1

2

Σ

~

x∈U

(y(~x) − ~

w · ~

x

)

2

-1

0

1

2

-2

-1

0

1

2

3

0

5

10

15

20

25

w0

w1

E[w]

Gradient bªdu ±redniokwadratowego

∇E

[ ~

w

] =

∂E

∂w

0

,

∂E

∂w

1

, · · ·

∂E

∂w

n

(13)

Zbieznosc uczenia perceptronu

Bª¡d ±redniokwadratowy

E

[ ~

w

] =

1

2

Σ

~

x∈U

(y(~x) − ~

w · ~

x

)

2

∂E

∂w

i

=

(14)

Zbieznosc uczenia perceptronu

Bª¡d ±redniokwadratowy

E

[ ~

w

] =

1

2

Σ

~

x∈U

(y(~x) − ~

w · ~

x

)

2

∂E

∂w

i

=

∂w

i

1

2

Σ

~

x∈U

(y(~x) − ~

w · ~

x

)

2

(15)

Zbieznosc uczenia perceptronu

Bª¡d ±redniokwadratowy

E

[ ~

w

] =

1

2

Σ

~

x∈U

(y(~x) − ~

w · ~

x

)

2

∂E

∂w

i

=

∂w

i

1

2

Σ

~

x∈U

(y(~x) − ~

w · ~

x

)

2

=

1

2

Σ

~

x∈U

∂w

i

(y(~x) − ~

w · ~

x

)

2

(16)

Zbieznosc uczenia perceptronu

Bª¡d ±redniokwadratowy

E

[ ~

w

] =

1

2

Σ

~

x∈U

(y(~x) − ~

w · ~

x

)

2

∂E

∂w

i

=

∂w

i

1

2

Σ

~

x∈U

(y(~x) − ~

w · ~

x

)

2

=

1

2

Σ

~

x∈U

∂w

i

(y(~x) − ~

w · ~

x

)

2

=

1

2

Σ

~

x∈U

2(y(~x) − ~

w · ~

x

)

∂w

i

(y(~x) − ~

w · ~

x

)

(17)

Zbieznosc uczenia perceptronu

Bª¡d ±redniokwadratowy

E

[ ~

w

] =

1

2

Σ

~

x∈U

(y(~x) − ~

w · ~

x

)

2

∂E

∂w

i

=

∂w

i

1

2

Σ

~

x∈U

(y(~x) − ~

w · ~

x

)

2

=

1

2

Σ

~

x∈U

∂w

i

(y(~x) − ~

w · ~

x

)

2

=

1

2

Σ

~

x∈U

2(y(~x) − ~

w · ~

x

)

∂w

i

(y(~x) − ~

w · ~

x

)

=

Σ

~

x∈U

(y(~x) − ~

w · ~

x

)

∂w

i

(y(~x) − ~

w · ~

x

)

(18)

Zbieznosc uczenia perceptronu

Bª¡d ±redniokwadratowy

E

[ ~

w

] =

1

2

Σ

~

x∈U

(y(~x) − ~

w · ~

x

)

2

∂E

∂w

i

=

∂w

i

1

2

Σ

~

x∈U

(y(~x) − ~

w · ~

x

)

2

=

1

2

Σ

~

x∈U

∂w

i

(y(~x) − ~

w · ~

x

)

2

=

1

2

Σ

~

x∈U

2(y(~x) − ~

w · ~

x

)

∂w

i

(y(~x) − ~

w · ~

x

)

=

Σ

~

x∈U

(y(~x) − ~

w · ~

x

)

∂w

i

(y(~x) − ~

w · ~

x

)

=

Σ

~

x∈U

(y(~x) − ~

w · ~

x

)(−x

i

)

(19)

Zbieznosc uczenia perceptronu

Bª¡d ±redniokwadratowy

E

[ ~

w

] =

1

2

Σ

~

x∈U

(y(~x) − ~

w · ~

x

)

2

∂E

∂w

i

=

∂w

i

1

2

Σ

~

x∈U

(y(~x) − ~

w · ~

x

)

2

=

1

2

Σ

~

x∈U

∂w

i

(y(~x) − ~

w · ~

x

)

2

=

1

2

Σ

~

x∈U

2(y(~x) − ~

w · ~

x

)

∂w

i

(y(~x) − ~

w · ~

x

)

=

Σ

~

x∈U

(y(~x) − ~

w · ~

x

)

∂w

i

(y(~x) − ~

w · ~

x

)

=

Σ

~

x∈U

(y(~x) − ~

w · ~

x

)(−x

i

)

=

Σ

~

x∈U

(y(~x) − ~

w · ~

x

)x

i

(20)

Zbieznosc uczenia perceptronu

Bª¡d ±redniokwadratowy

E

[ ~

w

] =

1

2

Σ

~

x∈U

(y(~x) − ~

w · ~

x

)

2

∂E

∂w

i

=

∂w

i

1

2

Σ

~

x∈U

(y(~x) − ~

w · ~

x

)

2

=

1

2

Σ

~

x∈U

∂w

i

(y(~x) − ~

w · ~

x

)

2

=

1

2

Σ

~

x∈U

2(y(~x) − ~

w · ~

x

)

∂w

i

(y(~x) − ~

w · ~

x

)

=

Σ

~

x∈U

(y(~x) − ~

w · ~

x

)

∂w

i

(y(~x) − ~

w · ~

x

)

=

Σ

~

x∈U

(y(~x) − ~

w · ~

x

)(−x

i

)

=

Σ

~

x∈U

(y(~x) − ~

w · ~

x

)x

i

(21)

Zbieznosc uczenia perceptronu

Gradient

∇E

[ ~

w

] =

Σ

~

x∈U

(y(~x) − ~

w · ~

x

)~x

wskazuje kierunek, w którym bª¡d ±redniokwadratowy

E

[ ~

w]

ro±nie

(22)

Zbieznosc uczenia perceptronu

Gradient

∇E

[ ~

w

] =

Σ

~

x∈U

(y(~x) − ~

w · ~

x

)~x

wskazuje kierunek, w którym bª¡d ±redniokwadratowy

E

[ ~

w]

ro±nie

wagi per eptronu s¡ poprawiane w kierunku

(23)

Zbieznosc uczenia perceptronu

Gradient

∇E

[ ~

w

] =

Σ

~

x∈U

(y(~x) − ~

w · ~

x

)~x

wskazuje kierunek, w którym bª¡d ±redniokwadratowy

E

[ ~

w]

ro±nie

wagi per eptronu s¡ poprawiane w kierunku

dokªadnie prze iwnym do gradientu

−∇E

[ ~

w

]

St¡d w algorytmie u zenia per eptronu:

∆ ~

w ← α

(y(~x) − ~

w · ~

x

)~x

~

(24)

Porownanie perceptronu i drzewa decyzyjnego

Funk ji wikszo± i (> poªowa bitów = 1) De yzja o wst¡pieniu do restaura ji

lepiej wyu zalna przez per eptron lepiej wyu zalna przez drzewo de yzyjne

0.4

0.5

0.6

0.7

0.8

0.9

1

0

10 20 30 40 50 60 70 80 90 100

Proportion correct on test set

Training set size

Perceptron

Decision tree

0.4

0.5

0.6

0.7

0.8

0.9

1

0

10 20 30 40 50 60 70 80 90 100

Proportion correct on test set

Training set size

Decision tree

(25)

Plaska siec perceptronow

Reprezentuje funk j wektorow¡

Posz zególne per eptrony s¡ niezale» n e

trzeba trenowa¢ ka»dy per eptron oddzielnie

Input

Output

W

j,i

(26)

Wielowarstwowa siec neuronowa

Jednostki:

Jednostki podzielone s¡ na warstwy, ka»da jednostka

przyporz¡dkowana jest do dokªadnie jednej warstwy

Wej± ia:

Wej± ia podª¡ zone s¡ wyª¡ znie do jednostek

znajduj¡ y h si w najni»szej warstwie

Poª¡ zenia:

Poª¡ zenia wystpuj¡ wyª¡ znie pomidzy jednostkami

z s¡siedni h warstw, ª¡ z¡ zawsze wyj± ia jednostek

z warstwy ni»szej z wej± ami do jednostek w warstwie wy»szej

Wyj± ie:

Typowa sie¢ z jedn¡ warto± i¡ funk ji ma tylko jedn¡ jednostk

(27)

Wielowarstwowa siec neuronowa: przyklad

2 warstwy, 10 wej±¢, 4 neurony ukryte (w warstie wewntrznej)

Input units

Hidden units

Output units

a

i

W

j,i

a

j

W

k,j

a

k

(28)

Wielowarstwowa siec neuronowa: ewaluacja

W

1,3

1,4

W

2,3

W

2,4

W

W

3,5

4,5

W

1

2

3

4

5

(29)

Wielowarstwowa siec neuronowa: ewaluacja

W

1,3

1,4

W

2,3

W

2,4

W

W

3,5

4,5

W

1

2

3

4

5

x

5

= σ(w

3

,5

· x

3

+ w

4

,5

· x

4

)

(30)

Wielowarstwowa siec neuronowa: uczenie

Problem

Progowa funk ja aktywa ji jest nie i¡gªa i nieró»ni zkowal n a

dla jednostek wewntrzny h nie mo»na wyprowadzi¢

(31)

Wielowarstwowa siec neuronowa: uczenie

Problem

Progowa funk ja aktywa ji jest nie i¡gªa i nieró»ni zkowal n a

dla jednostek wewntrzny h nie mo»na wyprowadzi¢

gradientowej reguªy poprawiania wag gwarantuj¡ ej zbie»no±¢ u zenia

Rozwi¡zanie

(32)

Perceptron z sigmoidalna funkcja aktywacji

w1

w2

wn

w0

x1

x2

xn

x0 = 1

A

A

A

.

.

.

Σ

net =

Σ

wi xi

i=0

n

1

1 + e

-net

o =

σ

(net) =

Sigmoidalna funk ja aktywa ji per eptronu

σ

(z) =

1

1+

e

−z

o

(~x) = σ( ~

w · ~

x

) =

1

1 + e

− ~

w·~

x

(33)

Perceptron z sigmoidalna funkcja aktywacji

Funk ja wyj± ia dla pojedy znego per eptronu z sigmoidaln¡ funk j¡ aktywa ji

i 2 wej± iami:

-4

0

2

4

x

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Perceptron output

(34)

Wielowarstwowa siec neuronowa: przyklad

Li zba wej±¢: 2, li zba warstw: 2

Warstwa ukryta: 2 per eptrony skierowane prze iwnie do siebie

deniuje krawd¹

+

+

+/−

+/−

X

1

X 2

-4

-2

0

2

4

x

1

-4

-2

0

2

4

x

2

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

h

W

(x

1

, x

2

)

(35)

Wielowarstwowa siec neuronowa: przyklad

Li zba wej±¢: 2, li zba warstw: 3

Warstwa ukryta: 2 sie i tworz¡ e krawdzie ustawione prostopadle do siebie

deniuje ograni zone wzniesienie

-4

0

2

4

x

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

h

W

(x

1

, x

2

)

(36)

Wielowarstwowa siec neuronowa: przyklad

Rozpoznawanie sªów: 2 warstwy, 2 wej± ia, wiele wyj±¢

F1

F2

head

hid

who’d

hood

(37)

Wielowarstwowa siec neuronowa: wlasnosci

Funk je boolowskie:

Ka»da funk ja boolowska mo»e by¢ reprezentowana przez sie¢ z jedn¡ warstw¡

ukryt¡, ale mo»e wymaga¢ wykªadni zej li zby jednostek ukryty h

Funk je i¡gªe:

Ka»da ograni zona funk ja i¡gªa mo»e by¢ aproksymowana z dowolnie maªym

bªedem przez sie¢ z jedn¡ warstw¡ ukryt¡ [Cybenko 1989; Hornik et al. 1989℄

Dowolna funk ja mo»e by¢ aproksymowana z dowoln¡ dokªadno± i¡ przez sie¢

(38)

Propagacja wsteczna: algorytm

fun tion Ba k-Prop-Update(examples,layers,

α

) returns a network inputs : examples , a set of examples, ea h with input

~

x

and output

~

y(~x)

layer

0

,layer

1

,

. . .

,layer

n

, neuron layers sorted from the bottom to the top

α

, the learning rate repeat

for ea h

~

x

= (x

1

, . . . , x

n

)

in examples do for ea h unit

j ∈

layer

0

do

o

j

← x

j

for ea h unit

j ∈

layer

p

in order from layer

1

up to layer

n

do

z

j

Σ

i∈ layer

p−1

w

i,j

o

i

o

j

← σ

(z

j

)

for ea h unit

j ∈

layer

n

do

δ

j

← σ

(z

j

)(y

j

(~x) − o

j

)

for ea h unit

j ∈

layer

p

in order from layer

n−1

down to layer

0

do

δ

j

← σ

(z

j

)

Σ

k∈ layer

p+1

w

j,k

δ

k

∆ w

j,k

← αδ

k

o

j

w

j,k

← w

j,k

+ ∆ w

j,k

(39)

Propagacja wsteczna: wlasnosci

Fakt

Algorytm propaga ji wste znej dziaªa dla dowolnego grafu skierowanego bez

(40)

Propagacja wsteczna: wlasnosci

Fakt

Algorytm propaga ji wste znej dziaªa dla dowolnego grafu skierowanego bez

ykli

Twierdzenie

Algorytm propaga ji wste znej zbiega lokalnie do minimalnego bªdu

(41)

Propagacja wsteczna: zbieznosc uczenia

E

[ ~

w

] =

1

2

Σ

~

x∈U

(y(~x) − o(~x))

2

=

1

2

Σ

~

x∈U

(y(~x) − σ( ~

w · ~

x

))

(42)

Propagacja wsteczna: zbieznosc uczenia

E

[ ~

w

] =

1

2

Σ

~

x∈U

(y(~x) − o(~x))

2

=

1

2

Σ

~

x∈U

(y(~x) − σ( ~

w · ~

x

))

2

∂E

∂w

i

=

∂w

i

1

2

Σ

~

x∈U

(y(~x) − o(~x))

(43)

Propagacja wsteczna: zbieznosc uczenia

E

[ ~

w

] =

1

2

Σ

~

x∈U

(y(~x) − o(~x))

2

=

1

2

Σ

~

x∈U

(y(~x) − σ( ~

w · ~

x

))

2

∂E

∂w

i

=

∂w

i

1

2

Σ

~

x∈U

(y(~x) − o(~x))

2

=

1

2

Σ

~

x∈U

∂w

i

(y(~x) − o(~x))

2

(44)

Propagacja wsteczna: zbieznosc uczenia

E

[ ~

w

] =

1

2

Σ

~

x∈U

(y(~x) − o(~x))

2

=

1

2

Σ

~

x∈U

(y(~x) − σ( ~

w · ~

x

))

2

∂E

∂w

i

=

∂w

i

1

2

Σ

~

x∈U

(y(~x) − o(~x))

2

=

1

2

Σ

~

x∈U

∂w

i

(y(~x) − o(~x))

2

=

1

2

Σ

~

x∈U

2(y(~x) − o(~x))

(45)

Propagacja wsteczna: zbieznosc uczenia

E

[ ~

w

] =

1

2

Σ

~

x∈U

(y(~x) − o(~x))

2

=

1

2

Σ

~

x∈U

(y(~x) − σ( ~

w · ~

x

))

2

∂E

∂w

i

=

∂w

i

1

2

Σ

~

x∈U

(y(~x) − o(~x))

2

=

1

2

Σ

~

x∈U

∂w

i

(y(~x) − o(~x))

2

=

1

2

Σ

~

x∈U

2(y(~x) − o(~x))

∂w

i

(y(~x) − o(~x))

= −

Σ

~

x∈U

(y(~x) − o(~x))

(46)

Propagacja wsteczna: zbieznosc uczenia

E

[ ~

w

] =

1

2

Σ

~

x∈U

(y(~x) − o(~x))

2

=

1

2

Σ

~

x∈U

(y(~x) − σ( ~

w · ~

x

))

2

∂E

∂w

i

=

∂w

i

1

2

Σ

~

x∈U

(y(~x) − o(~x))

2

=

1

2

Σ

~

x∈U

∂w

i

(y(~x) − o(~x))

2

=

1

2

Σ

~

x∈U

2(y(~x) − o(~x))

∂w

i

(y(~x) − o(~x))

= −

Σ

~

x∈U

(y(~x) − o(~x))

∂w

i

o

(~x)

= −

Σ

~

x∈U

(y(~x) − o(~x))

∂σ

∂z

[z = ~

w · ~

x

]

(47)

Propagacja wsteczna: zbieznosc uczenia

E

[ ~

w

] =

1

2

Σ

~

x∈U

(y(~x) − o(~x))

2

=

1

2

Σ

~

x∈U

(y(~x) − σ( ~

w · ~

x

))

2

∂E

∂w

i

=

∂w

i

1

2

Σ

~

x∈U

(y(~x) − o(~x))

2

=

1

2

Σ

~

x∈U

∂w

i

(y(~x) − o(~x))

2

=

1

2

Σ

~

x∈U

2(y(~x) − o(~x))

∂w

i

(y(~x) − o(~x))

= −

Σ

~

x∈U

(y(~x) − o(~x))

∂w

i

o

(~x)

= −

Σ

~

x∈U

(y(~x) − o(~x))

∂σ

∂z

[z = ~

w · ~

x

]

(48)

Propagacja wsteczna: zbieznosc uczenia

E

[ ~

w

] =

1

2

Σ

~

x∈U

(y(~x) − o(~x))

2

=

1

2

Σ

~

x∈U

(y(~x) − σ( ~

w · ~

x

))

2

∂E

∂w

i

=

∂w

i

1

2

Σ

~

x∈U

(y(~x) − o(~x))

2

=

1

2

Σ

~

x∈U

∂w

i

(y(~x) − o(~x))

2

=

1

2

Σ

~

x∈U

2(y(~x) − o(~x))

∂w

i

(y(~x) − o(~x))

= −

Σ

~

x∈U

(y(~x) − o(~x))

∂w

i

o

(~x)

= −

Σ

~

x∈U

(y(~x) − o(~x))

∂σ

∂z

[z = ~

w · ~

x

]

∂w

i

( ~

w · ~

x

)

= −

Σ

~

x∈U

(y(~x) − o(~x))

∂σ

(49)

Propagacja wsteczna: zbieznosc uczenia

(50)

Propagacja wsteczna: zbieznosc uczenia

∇E

[ ~

w

] = −

Σ

~

x∈U

∂σ

∂z

[z = ~

w · ~

x

](y(~x) − o(~x))~x

St¡d dla neuronów

j

z najwy»szej warstwy stosujemy zmiany wag:

δ

j

∂σ

∂z

[z = ~

w · ~

x](y

j

(~x) − o

j

(~x))

(51)

Propagacja wsteczna: zbieznosc uczenia

∇E

[ ~

w

] = −

Σ

~

x∈U

∂σ

∂z

[z = ~

w · ~

x

](y(~x) − o(~x))~x

St¡d dla neuronów

j

z najwy»szej warstwy stosujemy zmiany wag:

δ

j

∂σ

∂z

[z = ~

w · ~

x](y

j

(~x) − o

j

(~x))

∆w

i,j

← αδ

j

x

i,j

(52)

Propagacja wsteczna: zbieznosc uczenia

∇E

[ ~

w

] = −

Σ

~

x∈U

∂σ

∂z

[z = ~

w · ~

x

](y(~x) − o(~x))~x

St¡d dla neuronów

j

z najwy»szej warstwy stosujemy zmiany wag:

δ

j

∂σ

∂z

[z = ~

w · ~

x](y

j

(~x) − o

j

(~x))

∆w

i,j

← αδ

j

x

i,j

Neurony z ni»szy h warstw musz¡ mie¢ odpowiednik bªdu

y

j

(~x) − o

j

(~x)

dla ka»dego neuronu

j ∈ layer

p

li zona jest wa»ona suma bªdów na wyj± ia h tego neuronu

Σ

k∈layer

(53)

Propagacja wsteczna: zbieznosc uczenia

∇E

[ ~

w

] = −

Σ

~

x∈U

∂σ

∂z

[z = ~

w · ~

x

](y(~x) − o(~x))~x

St¡d dla neuronów

j

z najwy»szej warstwy stosujemy zmiany wag:

δ

j

∂σ

∂z

[z = ~

w · ~

x](y

j

(~x) − o

j

(~x))

∆w

i,j

← αδ

j

x

i,j

Neurony z ni»szy h warstw musz¡ mie¢ odpowiednik bªdu

y

j

(~x) − o

j

(~x)

dla ka»dego neuronu

j ∈ layer

p

li zona jest wa»ona suma bªdów na wyj± ia h tego neuronu

Σ

k∈layer

p+1

w

j,k

δ

k

Zmiana wag deniowana jest wtedy jako:

(54)

Prop. wsteczna z sigmoidalna funkcja aktywacji

Sigmoidalna funk ja aktywa ji

σ

(z) =

1

1+

e

−z

we wszystki h neurona h

o(~x) = σ( ~

w · ~

x) =

1

1 + e

− ~

w·~

x

∂σ

∂z

=

1

1 + e

−z

1 −

1

1 + e

−z

∂σ

∂z

[z = ~

w · ~

x

] = o(~x)(1 − o(~x))

Warto± i wspóª zynników zmiany wag

δ

j

 dla neuronów

j

z warstwy najwy»szej:

δ

j

← o

j

(1 − o

j

)(y

j

(~x) − o

j

)

 dla neuronów

j

z ka»dej ni»szej warstwy

p

:

(55)

Propagacja wsteczna: przyklad zbieznosci

Epoka: przebiega jednokrotnie wszystkie obiekty treningowe poprawiaj¡ wagi,

na konie wyli za bªad sumary zny dla aªego zbioru treningowego

algorytm u zenia zatrzymuje si, kiedy bª¡d przestaje male¢

2

4

6

8

10

12

14

(56)

Dobor wspolczynnika szybkosci uczenia

α

Zazwy zaj:

α ∈

[0.01; 0.5]

Po ka»dej ustalonej li zbie epok mo»na redukowa¢ geometry znie:

α

:= α · c

c ∈

[0.9; 0.99]

Pozwala na szybk¡ zbie»no±¢ na po z¡tku (np.

α ≈

0.5

)

(57)

Uczenie neuronow ukrytych (wewnetrznych)

Inputs

Outputs

Input Output 10000000

10000000 01000000

01000000 00100000

00100000 00010000

00010000

(58)

Uczenie neuronow ukrytych (wewnetrznych)

Inputs

Outputs

Input Hidden Output

Values 10000000

.89 .04 .08

10000000 01000000

.01 .11 .88

01000000 00100000

.01 .97 .27

00100000 00010000

.99 .97 .71

00010000 00001000

.03 .05 .02

00001000 00000100

.22 .99 .99

00000100 00000010

.80 .01 .98

00000010

(59)

Uczenie neuronow ukrytych (wewnetrznych)

Trenowanie wag dla jednego z neuronów wewntrzny h:

-5

-4

-3

-2

-1

0

1

2

3

4

0

500

1000

1500

2000

2500

(60)

Rozpoznawanie cyfr recznie pisanych

3-nn = 2.4% bªdów

Sie¢ 3-warstwowa (40030010) = 1.6% bªdów

(61)

Sieci rekurencyjne

Zawiera j¡ ykle skierowane, zmieniaj¡ wagi w kolejny h takta h zegara

x(t)

x(t)

c(t)

x(t)

c(t)

y(t)

b

y(t + 1)

Feedforward network

Recurrent network

y(t + 1)

y(t + 1)

y(t – 1)

x(t – 1)

c(t – 1)

(62)

Sieci rekurencyjne

Sie i Hopelda (hologra zne pami i aso ja yjne)  symetry zne wagi

 progowa funk ja aktywa ji

σ

(z) = sign(z)

Maszyny Bolztmanna

Cytaty

Powiązane dokumenty

Podkre±lmy wi¦c: podstawowy kurs analizy matematycznej to nie jest »adna specjalistyczna wiedza, która mo»e si¦ przy- da¢, ale nie musi.. To podstawowe poj¦cia i zwi¡zki

Podkre±lmy wi¦c: podstawowy kurs analizy matematycznej to nie jest »adna specjalistyczna wiedza, która mo»e si¦ przy- da¢, ale nie musi.. To podstawowe poj¦cia i zwi¡zki

Mo»na powie- dzie¢ dokªadniej: funkcja ograniczona na prostok¡cie jest na nim caªkowalna, je»eli zbiór jej punktów nieci¡gªo±ci mo»na przykry¢ sko«czon¡ liczb¡

Zauwa»my, »e oznacza to te», »e gdy wyj±ciowa funkcja f jest caªkowalna, to nowa de- nicja pokrywa si¦ ze star¡  jako ci¡g funkcji caªkowalnych zbie»ny do f mo»na wzi¡¢

Szereg (12.5) ma wi¦c dodatnie wyrazy, i jest zbie»ny (czyli jest zbie»na caªka po lewej stronie (12.5)) dokªadnie wtedy, gdy jest ograniczony.. Oszacujmy jeszcze

Szereg (12.5) ma wi¦c dodatnie wyrazy, i jest zbie»ny (czyli jest zbie»na caªka po lewej stronie (12.5)) dokªadnie wtedy, gdy jest ograniczony.. Oszacujmy jeszcze

Zbiór elementów {e n } n∈I przestrzeni Hilberta E (sko«czony lub niesko«- czony) nazywa si¦ liniowo niezale»nym, je»eli »aden jego element nie jest kombinacj¡

wa»ne narz¦dzie i dla matematyków i dla in»ynierów (tak»e dla informatyków :-)).. Sprz¦»enie jest odbiciem wzgl¦dem osi poziomej, a moduª oznacza euklidesow¡ odlegªo±¢