vystavit agenta realitě místo přepisování reality do pevných pravidel

(1)

Uˇcen´ı, rozhodovac´ı stromy, neuronov´e s´ıtˇe

Aleˇs Hor´ak

E-mail: hales@fi.muni.cz http://nlp.fi.muni.cz/uui/

Obsah:

◮ Uˇcen´ı

◮ Rozhodovac´ı stromy

◮ Hodnocen´ı ´uspˇeˇsnosti uˇc´ıc´ıho algoritmu

◮ Neuronov´e s´ıtˇe

Uvod do umˇ´ el´e inteligence 11/12 1 / 39 Uˇcen´ı

Uˇcen´ı

◮ uˇcen´ıje kl´ıˇcové pro neznámé prostˇred´ı (kde návrháˇr nen´ı vˇsevˇedouc´ı)

◮ uˇcen´ı je také nˇekdy vhodné jako metoda konstrukce systému – vystavit agenta realitˇe m´ısto pˇrepisován´ı reality do pevných pravidel

◮ uˇcen´ı agenta – vyuˇzit´ı jeho vjem˚u z prostˇred´ı nejen pro vyvozen´ı dalˇs´ı akce

◮ uˇcen´ı modifikuje rozhodovac´ı syst´em agenta pro zlepˇsen´ı jeho v´ykonnosti

Uvod do umˇ´ el´e inteligence 11/12 2 / 39

(2)

Uˇcen´ı Uˇc´ıc´ı se agent

Uˇc´ıc´ı se agent

V´ykonnostn´ı standard

Agent

Prostˇred´ı

Senzory

Akˇcn´ı prvky V´ykonnostn´ı komponenta zmˇeny

znalosti c´ıle

uˇcen´ı Generátor problémù zpˇetná vazba

Komponenta uˇcen´ı Kritika

experimenty

pˇr´ıklad automatick´eho taxi:

◮ V´ykonnostn´ı komponenta – obsahuje znalosti a postupy pro v´ybˇer akc´ı pro vlastn´ı ˇr´ızen´ı auta

◮ Kritika – sleduje reakce okol´ı na akce taxi.

Napˇr. pˇri rychlém pˇrejet´ı 3 podélných pruh˚u zaznamená a pˇredá pohorˇsuj´ıc´ı reakce dalˇs´ıch ˇridiˇc˚u

◮ Komponenta uˇcen´ı – z hláˇsen´ı Kritiky vyvod´ı nové pravidlo, ˇze takové pˇrej´ıˇzdˇen´ı je nevhodné, a modifikuje odpov´ıdaj´ıc´ım zp˚usobem Výkonnostn´ı komponentu

◮ Generátor problém˚u – zjiˇst’uje, které oblasti by mohly potˇrebovat vylepˇsen´ı a navrhuje experimenty, jako je tˇreba brˇzdˇen´ı na r˚uzných typech vozovky

Uˇcen´ı Komponenta uˇcen´ı

Komponenta uˇcen´ı

n´avrh komponenty uˇcen´ız´avis´ı na nˇekolika atributech:

– jak´y typ v´ykonnostn´ı komponenty je pouˇzit

– která funkˇcn´ı ˇcást výkonnostn´ı komponenty má být uˇcena – jak je tato funkˇcn´ı ˇcást reprezentována

– jak´a zpˇetn´a vazba je k dispozici

výkonnostn´ı funkˇcn´ı ˇcást reprezentace zpˇetná vazba komponenta

Alfa-beta vyhodnocovac´ı funkce váˇzená lineárn´ı výhra/prohra

prohled´av´an´ı funkce

Logický agent urˇcen´ı akce axiomy Result výsledné skóre

Reflexn´ı agent váhy preceptronu neuronová s´ıt’ správná/ˇspatná akce

uˇcen´ı s dohledem (supervised learning ) × bez dohledu (unsupervised learning)

◮ s dohledem – uˇcen´ı funkce z pˇr´ıklad˚u vstup˚u a v´ystup˚u

◮ bez dohledu – uˇcen´ı vzor˚u na vstupu vzhledem k reakc´ım prostˇred´ı

◮ pos´ılen´e (reinforcement learning ) – nejobecnˇejˇs´ı, agent se uˇc´ı podle odmˇen/pokutUvod do umˇ^´ el´e inteligence 11/12 4 / 39

(3)

Uˇcen´ı Induktivn´ı uˇcen´ı

Induktivn´ı uˇcen´ı

zn´am´e taky jako vˇeda ,

nejjednoduˇsˇs´ı forma – uˇcen´ı funkce z pˇr´ıklad˚u (agent je tabula rasa) f je c´ılov´a funkce

kaˇzd´y pˇr´ıklad je dvojice x, f (x) napˇr.

O O ×

×

, +1

´

ukol indukce:

najdi hypot´ezu h takovou, ˇze h ≈ f

pomoc´ı sady tr´enovac´ıch pˇr´ıklad˚u

Uˇcen´ı Atributov´a reprezentace pˇr´ıklad˚u

Atributov´a reprezentace pˇr´ıklad˚ u

pˇr´ıklady popsané výˇctem hodnot atribut˚u (libovolných hodnot) napˇr. rozhodován´ı, zda poˇckat na uvolnˇen´ı stolu v restauraci:

Pˇr´ıklad Atributy

poˇckat?

Alt Bar P´a/So Hlad ˇS tam Cen D´eˇst^′ Rez Typ C ekDˇ

X₁ A N N A ˇc´ast. $$$ N A mexick´a 0–10 A

X₂ A N N A plno $ N N asijsk´a 30–60 N

X₃ N A N N ˇc´ast. $ N N bufet 0–10 A

X₄ A N A A plno $ N N asijsk´a 10–30 A

X₅ A N A N plno $$$ N A mexick´a >60 N

X₆ N A N A ˇc´ast. $$ A A pizzerie 0–10 A

X₇ N A N N nikdo $ A N bufet 0–10 N

X₈ N N N A ˇc´ast. $$ A A asijsk´a 0–10 A

X₉ N A A N plno $ A N bufet >60 N

X₁₀ A A A A plno $$$ N A pizzerie 10–30 N

X₁₁ N N N N nikdo $ N N asijsk´a 0–10 N

X₁₂ A A A A plno $ N N bufet 30–60 A

Ohodnocen´ı tvoˇr´ı klasifikaci pˇr´ıklad˚u – pozitivn´ı (A) a negativn´ı (N)

(4)

Metoda induktivn´ıho uˇcen´ı

zkonstruuj/uprav h, aby souhlasila s f na tr´enovac´ıch pˇr´ıkladech h je konzistentn´ı ⇔ souhlas´ı f f na vˇsech pˇr´ıkladech

napˇr. hled´an´ı kˇrivky:

x f(x)

pravidlo Ockhamovy bˇritvy – maximalizovat kombinaci konzistence a jed- noduchosti (nejjednoduˇsˇs´ı ze spr´avn´ych je nejlepˇs´ı)

Metoda induktivn´ıho uˇcen´ı pokraˇc.

hodnˇe záleˇz´ı na prostoru hypotéz, jsou na nˇej protich˚udné poˇzadavky:

– pokrýt co nejvˇetˇs´ı mnoˇzstv´ıhledaných funkc´ı – udrˇzet n´ızkou výpoˇcetn´ı sloˇzitost hypotézy

a)

x f(x)

b)

x f(x)

– stejn´a sada 7 bod˚u

– nejmenˇs´ı konzistentn´ı polynom – polynom 6-tého stupnˇe (7 parametr˚u) – m˚uˇze být výhodnˇejˇs´ı pouˇz´ıt nekonzistentn´ı pˇribliˇznou lineárn´ı funkci – pˇritom existuje konzistentn´ı funkce ax + by + c sin x

´

(5)

Rozhodovac´ı stromy

jedna z moˇzn´ych reprezentac´ı hypot´ez – rozhodovac´ı strom pro urˇcen´ı, jestli poˇckat na st˚ul:

Ne Ano

>60 30−60 10−30 0−10

Ne Ano

N A

A

N A

A N

A

A N

nikdo ˇc´ast. plno

Alternativa?

Hlad?

Rezervace?

Bar? D´eˇst’?

Alternativa?

ˇStamgast˚u?

P´a/So?

OdhadˇCek´an´ı?

Rozhodovac´ı stromy Vyjadˇrovac´ı s´ıla rozhodovac´ıch strom˚u

Vyjadˇrovac´ı s´ıla rozhodovac´ıch strom˚ u

rozhodovac´ı stromy vyjádˇr´ı libovolnou Booleovskou funkci vstupn´ıch atribut˚u → odpov´ıdá výrokové logice

∀s poˇckat?(s) ⇔ P₁(s) ∨ P₂(s) ∨ . . . ∨ P_n(s),

kde P_i(s) = A₁(s) = V₁ ∧ . . . ∧ A_m(s) = V_m

pro libovolnou Booleovskou funkci → ˇr´adek v pravdivostn´ı tabulce = cesta ve stromu (od koˇrene k listu)

N A A

B

N A

B

A B A xor B

F F F

F T T

T F T

T T F

Ne

Ne Ne

Ano

Ano Ano

trivi´alnˇe

pro libovolnou tr´enovac´ı sadu existuje konzistentn´ı rozhodovac´ı strom s jednou cestou k list˚um pro kaˇzd´y pˇr´ıklad

ale takový strom pravdˇepodobnˇe nebude generalizovat na nové pˇr´ıkladyUvod do umˇ^´ elé inteligence 11/12 10 / 39

(6)

Rozhodovac´ı stromy Prostor hypot´ez

Prostor hypot´ez

1. vezmˇeme pouze Booleovsk´e atributy, bez dalˇs´ıho omezen´ı

Kolik existuje r˚uzn´ych rozhodovac´ıch strom˚u s n Booleovsk´ymi atributy?

= poˇcet vˇsech Booleovsk´ych funkc´ı nad tˇemito atributy

= poˇcet r˚uzn´ych pravdivostn´ıch tabulek s 2ⁿ ˇr´adky = 2²ⁿ

napˇr. pro 6 atribut˚u existuje 18 446 744 073 709 551 616 r˚uzn´ych rozhodovac´ıch strom˚u

2. kdyˇz se omez´ıme pouze na konjunktivn´ı hypotézy (Hlad ∧ ¬Déˇst^′) Kolik existuje takových ˇcistˇe konjunktivn´ıch hypotéz?

kaˇzd´y atribut m˚uˇze b´yt v pozitivn´ı nebo negativn´ı formˇe nebo nepouˇzit

⇒ 3ⁿ r˚uzných konjunktivn´ıch hypotéz (pro 6 atribut˚u = 729) prostor hypotéz s vˇetˇs´ı expresivitou

– zvyˇsuje ˇsance, ˇze najdeme pˇresné vyjádˇren´ı c´ılové funkce

– ALE zvyˇsuje i poˇcet moˇzných hypotéz, které jsou konzistentn´ı s trénovac´ı mnoˇzinou

⇒ m˚uˇzeme z´ıskat niˇzˇs´ı kvalitu pˇredpovˇed´ı (generalizace)

Rozhodovac´ı stromy Uˇcen´ı ve formˇe rozhodovac´ıch strom˚u

Uˇcen´ı ve formˇe rozhodovac´ıch strom˚ u

◮ trivi´aln´ı konstrukce rozhodovac´ıho stromu

• pro kaˇzd´y pˇr´ıklad v tr´enovac´ı sadˇe pˇridej jednu cestu od koˇrene k listu

• na stejn´ych pˇr´ıkladech jako v tr´enovac´ı sadˇe bude fungovat pˇresnˇe

• na nových pˇr´ıkladech se bude chovat náhodnˇe – negeneralizuje vzory z pˇr´ıklad˚u, pouze kop´ıruje pozorován´ı

◮ heuristick´a konstrukce kompaktn´ıho stromu

• chceme naj´ıt nejmenˇs´ı rozhodovac´ı strom, kter´y souhlas´ı s pˇr´ıklady

• pˇresn´e nalezen´ı nejmenˇs´ıho stromu je ovˇsem pˇr´ıliˇs sloˇzit´e

→ heuristikou najdeme alespoˇn dostateˇcnˇe mal´y

• hlavn´ı myˇslenka – vyb´ır´ame atributy pro test v co nejlepˇs´ım poˇrad´ı

´

(7)

V´ybˇer atributu

dobrý atribut ≡ rozdˇel´ı pˇr´ıklady na podmnoˇziny, které jsou (nejlépe)

“vˇsechny pozitivn´ı” nebo “vˇsechny negativn´ı”

Stamgast˚ˇ u?

mexick´a pizzerie asijsk´a bufet

Typ?

S tamgast˚ˇ u? je lepˇs´ı volba atributu ← d´av´a lepˇs´ı informaci o vlastn´ı klasifikaci pˇr´ıklad˚u

V´ybˇer atributu – m´ıra informace

informace – odpov´ıd´a na ot´azku

ˇc´ım ménˇe dopˇredu v´ım o výsledku obsaˇzeném v odpovˇedi → t´ım v´ıce informace je v n´ı obsaˇzeno

mˇeˇr´ıtko: 1 bit = odpovˇed’ na Booleovskou ot´azku s pravdˇepodobnost´ı odpovˇedi hP(T ) = ¹₂, P(F ) = ¹₂i

n moˇzn´ych odpovˇed´ı hP(v₁), . . . , P(v_n)i → m´ıra informace v odpovˇedi obsaˇzen´a

I P(v1), . . . , P(vn) = Pⁿ_i=1−P(v_i) log₂ P(v_i) tato m´ıra se také nazývá entropie

napˇr. pro házen´ı minc´ı: I(h¹₂, ¹₂i) = −¹₂ log₂ ¹₂ − ¹₂ log₂ ¹₂ = ¹₂ + ¹₂ = 1 bit pro házen´ı faleˇsnou minc´ı, která dává na 99% vˇzdy jednu stranu mince:

I(h₁₀₀¹ , ₁₀₀⁹⁹ i) = −₁₀₀¹ log₂ ₁₀₀¹ − ₁₀₀⁹⁹ log₂ ₁₀₀⁹⁹ = 0.08 bit˚u

(8)

Pouˇzit´ı m´ıry informace pro v´ybˇer atributu

pˇredpokl´adejme, ˇze m´ame p pozitivn´ıch a n negativn´ıch pˇr´ıklad˚u

⇒ I h_p+n^p , _p+nⁿ i bit˚u je potˇreba pro klasifikaci nov´eho pˇr´ıkladu

napˇr. pro X1, . . . , X12 z volby ˇcek´an´ı na st˚ul je p = n = 6, takˇze potˇrebujeme 1 bit

výbˇer atributu – kolik informace nám dá test na hodnotu atributu A?

= rozd´ıl odhadu odpovˇedi pˇred a po testu atributu

Pouˇzit´ı m´ıry informace pro v´ybˇer atributu

atribut A rozdˇel´ı sadu pˇr´ıklad˚u E na podmnoˇziny E_i

(nejlépe tak, ˇze kaˇzdá potˇrebuje ménˇe informace) ^nikdo ^ˇcást. ^plno

ˇStamgast˚u?

necht’ E_i m´a p_i pozitivn´ıch a n_i negativn´ıch pˇr´ıklad˚u

⇒ je potˇreba I h_p^pⁱ

i+n_i, _pⁿⁱ

i+n_ii bit˚u pro klasifikaci nov´eho pˇr´ıkladu

⇒ oˇcek´avan´y poˇcet bit˚u celkem je Remainder(A) = P

i p_i+n_i

p+n · I h_p^pⁱ

i+n_i, _pⁿⁱ

i+n_ii

⇒ výsledný zisk atributu A je Gain(A) = I h_p+n^p , _p+nⁿ i − Remainder(A) výbˇer atributu = nalezen´ı atributu s nejvyˇsˇs´ı hodnotou Gain(A)

Gain(ˇS tamgast˚u?) ≈ 0.541 bit˚u Gain(Typ?) = 0 bit˚u

obecnˇe: E_i (pro A = v_i) obsahuje c_i,k klasifikac´ı do tˇr´ıd c₁, ..., c_k

⇒ Remainder (A) = P

i P(vi) · I hP(ci,1), ..., P(ci,k)i

⇒ Gain(A) = I hP(v₁), ..., P(v_n)i − Remainder(A)

´

(9)

Algoritmus IDT – uˇcen´ı formou rozhodovac´ıch strom˚ u

% induce tree( +Attributes, +Examples, −Tree) induce tree( , [], null) :- !.

induce tree( , [example( Class, ) | Examples], leaf( Class)) :- % ∀ pˇr´ıklady stejn´e klasifikace

\+ (member( example( ClassX, ), Examples), ClassX \== Class), !.

induce tree( Attributes, Examples, tree( Attribute, SubTrees)) :- choose attribute( Attributes, Examples, Attribute/ ), !,

del( Attribute, Attributes, RestAtts), attribute( Attribute, Values), induce trees( Attribute, Values, RestAtts, Examples, SubTrees).

induce tree( , Examples, leaf( ExClasses)) :- % ˇzádný uˇziteˇcný atribut, distribuce klasifikac´ı findall( Class, member( example( Class, ), Examples), ExClasses).

% induce trees( +Att, +Values, +RestAtts, +Examples, −SubTrees):

% najdi podstromy SubTrees pro podmnoˇziny pˇr´ıklad˚u Examples podle hodnot (Values) atributu Att induce trees( , [], , , [] ). % ˇzádné atributy, ˇzádné podstromy

induce trees( Att, [Val1 | Vals], RestAtts, Exs, [Val1 : Tree1 | Trees]) :- attval subset( Att = Val1, Exs, ExampleSubset),

induce tree( RestAtts, ExampleSubset, Tree1), induce trees( Att, Vals, RestAtts, Exs, Trees).

% attval subset( +Attribute = +Value, +Examples, −Subset):

% Subset je podmnoˇzina pˇr´ıklad˚u z Examples, kter´e splˇnuj´ı podm´ınku Attribute = Value attval subset( AttributeValue, Examples, ExampleSubset) :-

findall( example( Class, Obj),

(member( example( Class, Obj), Examples), satisfy( Obj, [ AttributeValue])), ExampleSubset).

% satisfy( Object, Description)

satisfy( Object, Conj) :- \+ (member( Att = Val, Conj), member( Att = ValX, Object), ValX \== Val).

Algoritmus IDT – uˇcen´ı formou rozhodovac´ıch strom˚ u

% choose attribute( +Atts, +Examples, −BestAtt/BestGain) − v´ybˇer nejlepˇs´ıho atributu choose attribute([], , 0/0).

choose attribute([Att], Examples, Att/Gain):- !, gain(Examples, Att, Gain).

choose attribute([Att|Atts], Examples, BestAtt/BestGain):- choose attribute(Atts, Examples, BestAtt1/BestGain1), gain(Examples, Att, Gain),

(Gain>BestGain1, !, BestAtt=Att, BestGain=Gain ; BestAtt=BestAtt1, BestGain=BestGain1).

% gain( +Examples, +Attribute, −Gain) − zisk atributu

gain( Exs, Att ,Gain) :- attribute( Att ,AttVals ), length(Exs, Total),

setof(Class, Xˆexample(Class,X), Classes), % mnoˇzina vˇsech Class findall(Nc, (member(C,Classes), cntclass(C,Exs,Nc)), CCnts),

info(CCnts,Total,I), rem(Att, AttVals,Exs,Classes,Total,Rem), Gain is I−Rem.

% info(+ValueCounts, +Total, −I)

% m´ıra informace I P(v₁), . . . , P(vn) = Pⁿ_i=1−P(v_i) log₂P(v_i) info([], , 0).

info([VC|ValueCounts], Total, I) :- info(ValueCounts,Total,I1), (VC = 0, !, I is I1 ;

Pvi is VC / Total, log2(Pvi, LogPvi), I is − Pvi ∗ LogPvi + I1).

(10)

Algoritmus IDT – uˇcen´ı formou rozhodovac´ıch strom˚ u

% rem( +Att, +AttVals, +Exs, +Classes, +Total, −Rem)

% ”zbytkov´a informace” po testu na Att: Remainder (A) =P

iP(v_i) · I hP(c_i,1), ..., P(c_i,k)i rem( , [], , , , 0).

rem( Att, [V | Vs], Exs, Classes, Total, Rem) :-

findall(1, (member(example( , AVs),Exs), member(Att = V, AVs)), L1), length(L1, Nv), % Nv = p_i + n_i

findall(Ni, (member(C, Classes), cntclassattv(Att,V,C,Exs,Ni)), VCnts), Pv is Nv / Total, % P(v)

info(VCnts,Nv,I), rem(Att,Vs,Exs,Classes,Total,Rem1), Rem is Pv ∗ I + Rem1.

% cntclass( +Class, +Exs, −Cnt) − poˇcet pˇr´ıklad˚u tˇr´ıdy Class cntclass( Class, Exs, Cnt) :-

findall(1, member(example(Class, ),Exs), L), length(L, Cnt).

% cntclass( +Att, +Val, +Class, +Exs, −Cnt)

% poˇcet pˇr´ıklad˚u tˇr´ıdy Class pro hodnotu Val atributu Att cntclassattv( Att, Val, Class, Exs, Cnt) :-

findall(1, (member(example(Class,AVs),Exs), member(Att = Val, AVs)), L), length(L, Cnt).

log2(X, Y) :- Y is log(X) / log(2).

Algoritmus IDT – pˇr´ıklad

attribute( hlad, [ano, ne]).

attribute( stam, [nikdo, cast, plno]).

attribute( cen, [’$’, ’$$’, ’$$$’]).

. . .

example(pockat, [alt=ano, bar=ne, paso=ne, hlad=ano, stam=cast, cen=’$$$’, dest=ne, rez=ano, typ=mexicka ]).

example(necekat, [alt=ano, bar=ne, paso=ne, hlad=ano, stam=plno, cen=’$’, dest=ne, rez=ne, typ=asijska ]).

. . .

:- induce tree(T),show(T).

stam?

= nikdo necekat

= cast pockat

= plno hlad?

= ano cen?

= $ paso?

= ano pockat

= ne necekat

= $$$

necekat

= ne necekat

´

(11)

IDT – v´ysledn´y rozhodovac´ı strom

rozhodovac´ı strom nauˇcen´y z 12-ti pˇr´ıklad˚u:

F T

F F

F T

Ne Ano

P´a/So?

ˇStamgast˚u?

Ne Ano

D´eˇst’?

Typ?

mexick´a pizzerie asijsk´a bufet

podstatnˇe jednoduˇsˇs´ı neˇz strom “z tabulky pˇr´ıklad˚u”

Uvod do umˇ´ el´e inteligence 11/12 21 / 39 Hodnocen´ı ´uspˇeˇsnosti uˇc´ıc´ıho algoritmu

Hodnocen´ı ´uspˇeˇsnosti uˇc´ıc´ıho algoritmu

jak m˚uˇzeme zjistit, zda h ≈ f ?

* dopˇredu − pouˇz´ıt vˇety Teorie kom- putaˇcn´ıho uˇcen´ı

po nauˇcen´ı − kontrolou na jin´e tr´enovac´ı sadˇe

pouˇz´ıvan´a metodologie (cross vali- dation):

1. vezmeme velkou mnoˇzinu pˇr´ıklad˚u 2. rozdˇel´ıme ji na 2 mnoˇziny –

tr´enovac´ıa testovac´ı

3. aplikujeme uˇc´ıc´ı algoritmus na trénovac´ısadu, z´ıskáme hypotézu h

4. zmˇeˇr´ıme procento pˇr´ıklad˚u v testovac´ısadˇe, které jsou správnˇe klasifikované hypotézou h

5. opakujeme kroky 2–4 pro r˚uzné velikosti trénovac´ıch sad a pro náhodnˇe vybrané trénovac´ı sady

kˇrivka uˇcen´ı – z´avislost velikosti tr´enovac´ı sady na

´

uspˇeˇsnosti

0.4 0.5 0.6 0.7 0.8 0.9 1

0 20 40 60 80 100

% správnosti u testovací sady

velikost trénovací sady Uvod do umˇ´ el´e inteligence 11/12 22 / 39

(12)

Hodnocen´ı ´uspˇeˇsnosti uˇc´ıc´ıho algoritmu

Hodnocen´ı ´uspˇeˇsnosti uˇc´ıc´ıho algoritmu – pokraˇc.

tvar kˇrivky uˇcen´ızávis´ı na ^◮ je hledaná funkce realizovatelná × nerealizovatelná

funkce m˚uˇze b´yt nerealizovateln´a kv˚uli

• chybˇej´ıc´ım atribut˚um

• omezen´emu prostoru hypot´ez

◮ naopak nadbyteˇcn´e expresivitˇe

napˇr. mnoˇzstv´ı nerelevantn´ıch atribut˚u

1

% spr´avnosti

# pˇr´ıklad˚u nerealizovatelná nadbyteˇcná realizovatelná

Hodnocen´ı ´uspˇeˇsnosti uˇc´ıc´ıho algoritmu Induktivn´ı uˇcen´ı – shrnut´ı

Induktivn´ı uˇcen´ı – shrnut´ı

◮ uˇcen´ıje potˇrebné pro neznámé prostˇred´ı(a l´ıné analytiky ,)

◮ uˇc´ıc´ı se agent – v´ykonnostn´ı komponenta a komponenta uˇcen´ı

◮ metoda uˇcen´ı závis´ı na typu výkonnostn´ı komponenty, dostupné zpˇetné vazbˇe, typu a reprezentaci ˇcásti, která se má uˇcen´ım zlepˇsit

◮ u uˇcen´ı s dohledem – c´ıl je naj´ıt nejjednoduˇsˇs´ı hypot´ezu pˇribliˇznˇe konzistentn´ı s tr´enovac´ımi pˇr´ıklady

◮ uˇcen´ı formou rozhodovac´ıch strom˚u pouˇz´ıv´a m´ıru informace

◮ kvalita uˇcen´ı– pˇresnost odhadu zmˇeˇren´a na testovac´ı sadˇe

´

(13)

Neuronov´e s´ıtˇe Neuron

Neuron

mozek – 10¹¹ neuron˚u > 20 typ˚u, 10¹⁴ synaps´ı, 1ms–10ms cyklus

nosiˇce informace – signály = “výkyvy” elektrických potenciál˚u (se ˇsumem) neuron – mozková buˇnka, která

má za úkol sbˇer, zpracován´ıa ˇs´ıˇren´ı signál˚u

Axon, nervov´y v´ybˇeˇzek

Tˇelo buˇnky, soma

J´adro Dendrit

Synapse Nervov´a vl´akna

Axon z jin´e buˇnky Synapse

Neuronové s´ıtˇe Poˇc´ıtaˇcový model – neuronové s´ıtˇe

Poˇc´ıtaˇcov´y model – neuronov´e s´ıtˇe

1943 – McCulloch & Pitts – matematick´y model neuronu

spojen´e do neuronov´e s´ıtˇe – schopnost tolerovat ˇsum ve vstupu a uˇcit se

jednotky (units)

v neuronov´e s´ıti – jsou propojeny vazbami (links)

– vazba z jednotky j do i propaguje aktivaci a_j jednotky j

– kaˇzdá vazba má ˇc´ıselnou váhu W_j,i (s´ıla+znaménko)

funkce jednotky i:

1. spoˇc´ıt´a v´aˇzenou P

vstup˚u = ini

2. aplikuje aktivaˇcn´ı funkci g 3. t´ım z´ısk´a v´ystup a_i

ai = g (ini) = g (X

j

Wj,iaj)

Σ

v´ystup vstupn´ı

vazby

aktivaˇcn´ı funkce funkce

vstupn´ı v´ystupn´ı

vazby

a₀= −1 a_i = g (in_i)

ai

in_i g Wj,i

prahov´a v´aha

W0,i

aj

(14)

Neuronov´e s´ıtˇe Aktivaˇcn´ı funkce

Aktivaˇcn´ı funkce

´

uˇcel aktivaˇcn´ı funkce:

◮ jednotka m´a b´yt aktivn´ı (≈ +1) pro pozitivn´ı pˇr´ıklady, jinak neaktivn´ı ≈ 0

◮ aktivace mus´ı být nelineárn´ı, jinak by celá s´ıt’

byla line´arn´ı napˇr.

a)

+1

in_i g(in_i)

prahov´a funkce

b)

+1

in_i g(ini)

sigmoida 1/(1 + e^−x)

je derivovatelná – d˚uleˇzité pro uˇcen´ı zmˇeny prahové váhy WUvod do umˇ_´ _0,ielńastavuj´ı nulovou pozic´ı – nastavuj´ı pré inteligence 11/12 27 / 39 ah aktivace

Neuronové s´ıtˇe Logické funkce pomoc´ı neuronové jednotky

Logick´e funkce pomoc´ı neuronov´e jednotky

AND

W₀= 1.5

W₁ =1

W₂= 1

OR

W₂= 1 W₁=1

W₀= 0.5

NOT

W₁= 1 W₀= 0.5

jednotka McCulloch & Pitts sama um´ı implementovat z´akladn´ı Booleovsk´e funkce

⇒ kombinacemi jednotek do s´ıtˇe m˚uˇzeme implementovat libovolnou Booleovskou funkci

´

(15)

Neuronov´e s´ıtˇe Struktury neuronov´ych s´ıt´ı

Struktury neuronov´ych s´ıt´ı

◮ s´ıtˇe s pˇredn´ım vstupem (feed-forward networks)

• necyklick´e

• implementuj´ı funkce

• nemaj´ı vnitˇrn´ı pamˇet’

◮ rekurentn´ı s´ıtˇe (recurrent networks)

• cyklick´e

• vlastn´ı v´ystup si berou opˇet na vstup

• sloˇzitˇejˇs´ı a schopnˇejˇs´ı

• výstup má (zpoˇzdˇený) vliv na aktivaci = pamˇet’

• Hopfieldovy s´ıtˇe – symetrick´e obousmˇern´e vazby; funguj´ı jako asociativn´ı pamˇet’

• Boltzmannovy stroje – pravdˇepodobnostn´ı aktivaˇcn´ı funkce

Neuronov´e s´ıtˇe Struktury neuronov´ych s´ıt´ı

Pˇr´ıklad s´ıtˇe s pˇredn´ım vstupem

s´ıt’ 5-ti jednotek – 2 vstupn´ı jednotky, 1 skryt´a vrstva (2 jednotky), 1 v´ystupn´ı jednotka

W_1,3 W1,4

W2,3

W2,4

W_3,5

W4,5

1

2

3

4

5

s´ıt’ s pˇredn´ım vstupem = parametrizovan´a neline´arn´ı funkce vstupu a₅ = g (W_3,5 · a₃ + W_4,5 · a₄)

= g W_3,5 · g (W_1,3 · a₁ + W_2,3 · a₂) + W_4,5 · g (W_1,4 · a₁ + W_2,4 · a₂)

(16)

Neuronov´e s´ıtˇe Jednovrstv´a s´ıt’ – perceptron

Jednovrstv´a s´ıt’ – perceptron

perceptron

– pro Booleovskou funkci 1 v´ystupn´ı jednotka

– pro sloˇzitˇejˇs´ı klasifikaci – v´ıce v´ystupn´ıch jednotek

vstupní

jednotky jednotky výstupní

W_j,i

−4 −2x₁ 0 2 4 −4−20 2 4 x₂ 0

0.2 0.4 0.6 0.8 1

výstup perceptronu

Vyjadˇrovac´ı s´ıla perceptronu

perceptron m˚uˇze reprezentovat hodnˇe Booleovsk´ych funkc´ı – AND, OR, NOT, majoritn´ı funkci, . . .

P

j W_jx_j > 0 nebo W · x > 0

reprezentuje line´arn´ı separ´ator (nadrovina) v prostoru vstupu:

I₁

I₂

0 1

000000 000000 000000 000000 000000 000000 000000 000000 000000 000000

111111 111111 111111 111111 111111 111111 111111 111111 111111 111111

a) I₁ and I₂

I₁

I₂

0 1

00000 00000 00000 00000 00000 00000 00000 00000 00000 00000

11111 11111 11111 11111 11111 11111 11111 11111 11111 11111

b) I₁ or I₂

I₁

I₂

?

1

0

0 1

c) I₁ xor I₂

´

(17)

Uˇcen´ı perceptronu

výhoda perceptronu – existuje jednoduchý uˇc´ıc´ı algoritmus pro libovolnou lineárnˇe separabiln´ı funkci

uˇcen´ı perceptronu = upravován´ı vah, aby se sn´ıˇzila chyba na trénovac´ı sadˇe kvadratická chyba E pro pˇr´ıklad se vstupem x a poˇzadovaným (=správným) výstupem y je

E = ¹₂Err² ≡ ¹₂(y − h_W(x))², kde h_W(x) je v´ystup perceptronu

váhy pro minimáln´ı chybu pak hledáme optimalizaˇcn´ım prohledáván´ım spojitého prostoru vah

∂E

∂W_j = Err × ^∂Err_∂W

j = Err × _∂W^∂

j y − g (Pn

j=0W_jx_j) = −Err × g^′(in) × xj

pravidlo pro ´upravu v´ahy

W_j ← W_j + α × Err × g^′(in) × x_j α. . . uˇc´ıc´ı konstanta (learning rate) napˇr. Err = y − h_W(x) > 0 ⇒ v´ystup h_W(x) je moc mal´y

⇒ v´ahy se mus´ı zv´yˇsit pro pozitivn´ı pˇr´ıklady a sn´ıˇzit pro negativn´ı

´

upravu vah provád´ıme po kaˇzdém pˇr´ıkladu → opakovanˇe aˇz do dosaˇzen´ı ukonˇcovac´ıho kritéria

Uˇcen´ı perceptronu pokraˇc.

uˇc´ıc´ı pravidlo pro perceptron konverguje ke správné funkci pro libovolnou lineárnˇe separabiln´ımnoˇzinu dat

a) uˇcen´ı majoritn´ı funkce

0.4 0.5 0.6 0.7 0.8 0.9 1

0 10 20 30 40 50 60 70 80 90 100

%spr´avn´ychvtestovac´ısadˇe

velikost tr´enovac´ı sady Perceptron Rozhodovac´ı strom

b) uˇcen´ı ˇcek´an´ı na voln´y st˚ul v restauraci

0.4 0.5 0.6 0.7 0.8 0.9 1

0 10 20 30 40 50 60 70 80 90 100

velikost tr´enovac´ı sady Rozhodovac´ı strom

Perceptron

(18)

Neuronové s´ıtˇe V´ıcevrstvé neuronové s´ıtˇe

V´ıcevrstv´e neuronov´e s´ıtˇe

vrstvy jsou obvykle ´uplnˇe propojen´e

poˇcet skryt´ych jednotek je obvykle volen experiment´alnˇe

vstupní jednotky skryté jednotky

výstupní jednotky a_i

W_j,i

a_j

W_k,j

a_k

Vyjadˇrovac´ı s´ıla v´ıcevrstv´ych s´ıt´ı

s jednou skrytou vrstvou – vˇsechny spojit´e funkce se dvˇema skryt´ymi vrstvami – vˇsechny funkce

tˇeˇzko se ovˇsem pro konkr´etn´ı s´ıt’ zjiˇst’uje jej´ı prostor reprezentovateln´ych funkc´ı

napˇr.

dvˇe “opaˇcn´e” skryt´e jednotky vytvoˇr´ı hˇrbet

−4 −2x₁ 0 2 4 −4−20 2 4 x₂ 0

0.2 0.4 0.6 0.8

h_W(x₁, x₂)

dva hˇrbety vytvoˇr´ı homoli

−4 −2x₁ 0 2 4 −4−20 2 4 x₂ 0

0.2 0.4 0.6 0.8 1 h_W(x₁, x₂)

´

(19)

Uˇcen´ı v´ıcevrstv´ych s´ıt´ı

pravidla pro ´upravu vah:

◮ v´ystupn´ı vrstva – stejnˇe jako u perceptronu

W_j,i ← W_j,i + α × a_j × ∆_i kde ∆_i = Err_i × g^′(in_i)

◮ skryté vrstvy – zpˇetné ˇs´ıˇren´ı(back-propagation) chyby z výstupn´ı vrstvy W_k,j ← W_k,j + α × a_k × ∆_j kde ∆_j = g^′(in_j)P

i W_j,i∆_i probl´emy uˇcen´ı:

– dosaˇzen´ı lok´aln´ıho minima chyby – pˇr´ıliˇs pomal´a konvergence

– pˇr´ıliˇsn´e upnut´ı na pˇr´ıklady → neschopnost generalizovat

Uˇcen´ı v´ıcevrstv´ych s´ıt´ı pokraˇc.

v´ıcevrstvá s´ıt’ se problém ˇcekán´ı na volný st˚ul v restauraci uˇc´ı znatelnˇe l´ıp neˇz perceptron

0.4 0.5 0.6 0.7 0.8 0.9 1

0 10 20 30 40 50 60 70 80 90 100 perceptron

velikost tr´enovac´ı sady v´ıcevrstv´a s´ıt’

rozhodovac´ı strom

(20)

Neuronov´e s´ıtˇe Neuronov´e s´ıtˇe – shrnut´ı

Neuronov´e s´ıtˇe – shrnut´ı

◮ vˇetˇsina mozk˚u má velké mnoˇzstv´ıneuron˚u; kaˇzdý neuron ≈ lineárn´ı prahová jednotka (?)

◮ perceptrony (jednovrstv´e s´ıtˇe) maj´ı n´ızkou vyjadˇrovac´ı s´ılu

◮ v´ıcevrstvé s´ıtˇe jsou dostateˇcnˇe silné; mohou být trénovány pomoc´ı zpˇetného ˇs´ıˇren´ı chyby

◮ velké mnoˇzstv´ı reálných aplikac´ı

• rozpozn´av´an´ı ˇreˇci

• ˇr´ızen´ı auta

• rozpoznáván´ı ruˇcnˇe psaného p´ısma

• . . .