Obsah: Rozhodovací stromy. Úvod do umělé inteligence 11/12 1 / 42

(1)

Uˇcen´ı, rozhodovac´ı stromy, neuronov´e s´ıtˇe

Aleˇs Hor´ak

E-mail: hales@fi.muni.cz http://nlp.fi.muni.cz/uui/

Obsah:

Uˇcen´ı

Rozhodovac´ı stromy

Hodnocen´ı ´uspˇeˇsnosti uˇc´ıc´ıho algoritmu Neuronov´e s´ıtˇe

(2)

Uˇcen´ı

uˇcen´ıje kl´ıˇcové pro neznámé prostˇred´ı (kde návrháˇr nen´ı vˇsevˇedouc´ı) uˇcen´ı je také nˇekdy vhodné jakometoda konstrukce systému – vystavit agenta realitˇe m´ısto pˇrepisován´ı reality do pevných pravidel uˇcen´ı agenta – vyuˇzit´ı jehovjem˚u z prostˇred´ı nejen pro vyvozen´ı dalˇs´ı akce

uˇcen´ımodifikuje rozhodovac´ı syst´em agenta pro zlepˇsen´ı jeho v´ykonnosti

Uvod do umˇ´ el´e inteligence 11/12 2 / 42

(3)

Uˇcen´ı Uˇc´ıc´ı se agent

Uˇc´ıc´ı se agent

V´ykonnostn´ı standard

Agent

Prostˇred´ı

Senzory

Akˇcn´ı prvky

V´ykonnostn´ı komponenta zmˇeny

znalosti c´ıle

uˇcen´ı Gener´ator

problémù zpˇetná vazba

Komponenta uˇcen´ı Kritika

experimenty

(4)

Uˇcen´ı Uˇc´ıc´ı se agent

Uˇc´ıc´ı se agent

V´ykonnostn´ı standard

Agent

Prostˇred´ı

Senzory

Akˇcn´ı prvky V´ykonnostn´ı komponenta zmˇeny

znalosti c´ıle

uˇcen´ı Generátor problémù zpˇetná vazba

Komponenta uˇcen´ı Kritika

experimenty

pˇr´ıklad automatick´eho taxi:

V´ykonnostn´ı komponenta – obsahuje znalosti a postupy pro v´ybˇer akc´ı pro vlastn´ı ˇr´ızen´ı auta

Kritika – sleduje reakce okol´ı na akce taxi.

Napˇr. pˇri rychlém pˇrejet´ı 3 podélných pruh˚u zaznamená a pˇredá pohorˇsuj´ıc´ı reakce dalˇs´ıch ˇridiˇc˚u

Komponenta uˇcen´ı – z hláˇsen´ı Kritiky vyvod´ı nové pravidlo, ˇze takové pˇrej´ıˇzdˇen´ı je nevhodné, a modifikuje odpov´ıdaj´ıc´ım zp˚usobem Výkonnostn´ı komponentu Generátor problém˚u – zjiˇst’uje, které

oblasti by mohly potˇrebovat vylepˇsen´ı a navrhuje experimenty, jako je tˇreba brˇzdˇen´ı na r˚uzn´ych typech vozovky

(5)

Uˇcen´ı Komponenta uˇcen´ı

Komponenta uˇcen´ı

n´avrh komponenty uˇcen´ız´avis´ı na nˇekolika atributech:

– jak´y typv´ykonnostn´ı komponentyje pouˇzit

– která funkˇcn´ıˇcást výkonnostn´ı komponenty má býtuˇcena – jak je tato funkˇcn´ı ˇcást reprezentována

– jak´azpˇetn´a vazba je k dispozici

výkonnostn´ı funkˇcn´ı ˇcást reprezentace zpˇetná vazba komponenta

Alfa-beta vyhodnocovac´ı funkce váˇzená lineárn´ı výhra/prohra

prohled´av´an´ı funkce

Logický agent urˇcen´ı akce axiomy Result výsledné skóre Reflexn´ı agent váhy preceptronu neuronová s´ıt’ správná/ˇspatná akce

(6)

Uˇcen´ı Komponenta uˇcen´ı

Komponenta uˇcen´ı

n´avrh komponenty uˇcen´ız´avis´ı na nˇekolika atributech:

– jak´y typv´ykonnostn´ı komponentyje pouˇzit

– která funkˇcn´ıˇcást výkonnostn´ı komponenty má býtuˇcena – jak je tato funkˇcn´ı ˇcást reprezentována

– jak´azpˇetn´a vazba je k dispozici

výkonnostn´ı funkˇcn´ı ˇcást reprezentace zpˇetná vazba komponenta

Alfa-beta vyhodnocovac´ı funkce váˇzená lineárn´ı výhra/prohra

prohled´av´an´ı funkce

Logický agent urˇcen´ı akce axiomy Result výsledné skóre Reflexn´ı agent váhy preceptronu neuronová s´ıt’ správná/ˇspatná akce

uˇcen´ıs dohledem(supervised learning )× bez dohledu(unsupervised learning ) s dohledem – uˇcen´ıfunkcez pˇr´ıklad˚u vstup˚u a v´ystup˚u

bez dohledu – uˇcen´ıvzor˚u na vstupu vzhledem k reakc´ım prostˇred´ı pos´ılen´e (reinforcement learning ) – nejobecnˇejˇs´ı, agent se uˇc´ı podle

odmˇen/pokut

(7)

Uˇcen´ı Induktivn´ı uˇcen´ı

Induktivn´ı uˇcen´ı

zn´am´e taky jako vˇeda,

nejjednoduˇsˇs´ı forma – uˇcen´ı funkce z pˇr´ıklad˚u (agent jetabula rasa) f jec´ılov´a funkce

kaˇzd´ypˇr´ıklad je dvojice x, f (x)napˇr.

O O ×

×

, +1

´

ukol indukce:

najdi hypot´ezuh takovou, ˇze h≈ f

pomoc´ı sady tr´enovac´ıch pˇr´ıklad˚u

(8)

Uˇcen´ı Atributov´a reprezentace pˇr´ıklad˚u

Atributov´a reprezentace pˇr´ıklad˚ u

pˇr´ıklady popsané výˇctemhodnot atribut˚u (libovolných hodnot) napˇr. rozhodován´ı, zdapoˇckat na uvolnˇen´ı stolu v restauraci:

Pˇr´ıklad Atributy

poˇckat?

Alt Bar P´a/So Hlad ˇS tam Cen D´eˇst^′ Rez Typ C ekDˇ

X1 A N N A ˇc´ast. $$$ N A mexick´a 0–10 A

X2 A N N A plno $ N N asijsk´a 30–60 N

X3 N A N N ˇc´ast. $ N N bufet 0–10 A

X4 A N A A plno $ N N asijsk´a 10–30 A

X5 A N A N plno $$$ N A mexick´a >60 N

X6 N A N A ˇc´ast. $$ A A pizzerie 0–10 A

X₇ N A N N nikdo $ A N bufet 0–10 N

X8 N N N A ˇc´ast. $$ A A asijsk´a 0–10 A

X9 N A A N plno $ A N bufet >60 N

X10 A A A A plno $$$ N A pizzerie 10–30 N

X11 N N N N nikdo $ N N asijsk´a 0–10 N

X12 A A A A plno $ N N bufet 30–60 A

Ohodnocen´ı tvoˇr´ıklasifikacipˇr´ıklad˚u –pozitivn´ı(A) anegativn´ı(N)

(9)

Metoda induktivn´ıho uˇcen´ı

zkonstruuj/uprav h, aby souhlasila sf na tr´enovac´ıch pˇr´ıkladech h jekonzistentn´ı ⇔ souhlas´ı ff na vˇsech pˇr´ıkladech

(10)

Metoda induktivn´ıho uˇcen´ı

napˇr. hled´an´ı kˇrivky:

x f(x)

(11)

Metoda induktivn´ıho uˇcen´ı

x f(x)

(12)

Metoda induktivn´ıho uˇcen´ı

x f(x)

(13)

Metoda induktivn´ıho uˇcen´ı

x f(x)

(14)

Metoda induktivn´ıho uˇcen´ı

x f(x)

(15)

Metoda induktivn´ıho uˇcen´ı

x f(x)

pravidloOckhamovy bˇritvy– maximalizovat kombinaci konzistence a jedno- duchosti (nejjednoduˇsˇs´ı ze spr´avn´ych je nejlepˇs´ı)

(16)

Metoda induktivn´ıho uˇcen´ı pokraˇc.

hodnˇe záleˇz´ı naprostoru hypotéz, jsou na nˇej protich˚udné poˇzadavky:

– pokrýt conejvˇetˇs´ı mnoˇzstv´ıhledaných funkc´ı – udrˇzetn´ızkou výpoˇcetn´ı sloˇzitost hypotézy

(17)

Metoda induktivn´ıho uˇcen´ı pokraˇc.

hodnˇe záleˇz´ı naprostoru hypotéz, jsou na nˇej protich˚udné poˇzadavky:

– pokrýt conejvˇetˇs´ı mnoˇzstv´ıhledaných funkc´ı – udrˇzetn´ızkou výpoˇcetn´ı sloˇzitost hypotézy

a)

x f(x)

b)

x f(x)

– stejn´a sada 7 bod˚u

– nejmenˇs´ı konzistentn´ı polynom – polynom 6-tého stupnˇe (7 parametr˚u) – m˚uˇze být výhodnˇejˇs´ı pouˇz´ıt nekonzistentn´ıpˇribliˇznoulineárn´ı funkci – pˇritom existuje konzistentn´ı funkceax+ by + c sin x

(18)

Obsah

1 Uˇcen´ı

Uˇc´ıc´ı se agent Komponenta uˇcen´ı Induktivn´ı uˇcen´ı

Atributov´a reprezentace pˇr´ıklad˚u

2 Rozhodovac´ı stromy

Vyjadˇrovac´ı s´ıla rozhodovac´ıch strom˚u Prostor hypot´ez

Uˇcen´ı ve formˇe rozhodovac´ıch strom˚u

3 Hodnocen´ı ´uspˇeˇsnosti uˇc´ıc´ıho algoritmu Induktivn´ı uˇcen´ı – shrnut´ı

4 Neuronov´e s´ıtˇe Neuron

Poˇc´ıtaˇcov´y model – neuronov´e s´ıtˇe Aktivaˇcn´ı funkce

Logické funkce pomoc´ı neuronové jednotky Struktury neuronových s´ıt´ı

Jednovrstv´a s´ıt’ – perceptronUvod do umˇ^´ el´e inteligence 11/12 9 / 42

(19)

Rozhodovac´ı stromy

jedna z moˇzn´ych reprezentac´ı hypot´ez – rozhodovac´ı strompro urˇcen´ı, jestlipoˇckat na st˚ul:

Ne Ano

>60 30−60 10−30 0−10

Ne Ano

N A

A

N A

A N

A

A N

nikdo ˇc´ast. plno

Alternativa?

Hlad?

Rezervace?

Bar? D´eˇst’?

Alternativa?

ˇStamgast˚u?

P´a/So?

OdhadˇCek´an´ı?

(20)

Rozhodovac´ı stromy Vyjadˇrovac´ı s´ıla rozhodovac´ıch strom˚u

Vyjadˇrovac´ı s´ıla rozhodovac´ıch strom˚ u

rozhodovac´ı stromy vyjádˇr´ı libovolnou Booleovskou funkci vstupn´ıch atribut˚u → odpov´ıdá výrokové logice

∀s poˇckat?(s) ⇔ P1(s) ∨ P2(s) ∨ . . . ∨ Pn(s) ,

kdePi(s) = A1(s) = V1∧ . . . ∧ Am(s) = Vm

(21)

Vyjadˇrovac´ı s´ıla rozhodovac´ıch strom˚ u

kdePi(s) = A1(s) = V1∧ . . . ∧ Am(s) = Vm

pro libovolnou Booleovskou funkci → ˇr´adek v pravdivostn´ı tabulce = cesta ve stromu (od koˇrene k listu)

N A A

B

N A

B A B A xor B

F F F

F T T

T F T

T T F

Ne

Ne Ne

Ano

Ano Ano

(22)

Vyjadˇrovac´ı s´ıla rozhodovac´ıch strom˚ u

kdePi(s) = A1(s) = V1∧ . . . ∧ Am(s) = Vm

pro libovolnou Booleovskou funkci → ˇr´adek v pravdivostn´ı tabulce = cesta ve stromu (od koˇrene k listu)

N A A

B

N A

B A B A xor B

F F F

F T T

T F T

T T F

Ne

Ne Ne

Ano

Ano Ano

trivi´alnˇe

pro libovolnou tr´enovac´ı sadu existuje konzistentn´ı rozhodovac´ı strom s jednou cestou k list˚um pro kaˇzd´y pˇr´ıklad

ale takový strom pravdˇepodobnˇe nebude generalizovat na nové pˇr´ıkladyUvod do umˇ^´ elé inteligence 11/12 11 / 42

(23)

Rozhodovac´ı stromy Prostor hypot´ez

Prostor hypot´ez

1. vezmˇeme pouze Booleovsk´e atributy, bez dalˇs´ıho omezen´ı

Kolik existuje r˚uzn´ych rozhodovac´ıch strom˚u s nBooleovsk´ymi atributy?

(24)

Prostor hypot´ez

= poˇcet vˇsech Booleovsk´ych funkc´ı nad tˇemito atributy

(25)

Prostor hypot´ez

= poˇcet r˚uzn´ych pravdivostn´ıch tabulek s2ⁿˇr´adky

(26)

Prostor hypot´ez

= poˇcet r˚uzn´ych pravdivostn´ıch tabulek s2ⁿˇr´adky = 2²ⁿ

napˇr. pro 6 atribut˚u existuje 18 446 744 073 709 551 616 r˚uzn´ych rozhodovac´ıch strom˚u

(27)

Prostor hypot´ez

2. kdyˇz se omez´ıme pouze na konjunktivn´ı hypotézy (Hlad∧ ¬Déˇst^′) Kolik existuje takových ˇcistˇe konjunktivn´ıch hypotéz?

(28)

Prostor hypot´ez

kaˇzd´y atribut m˚uˇze b´yt v pozitivn´ı nebo negativn´ı formˇe nebo nepouˇzit

⇒ 3ⁿ r˚uzn´ych konjunktivn´ıch hypot´ez (pro 6 atribut˚u = 729)

(29)

Prostor hypot´ez

kaˇzd´y atribut m˚uˇze b´yt v pozitivn´ı nebo negativn´ı formˇe nebo nepouˇzit

⇒ 3ⁿ r˚uzných konjunktivn´ıch hypotéz (pro 6 atribut˚u = 729) prostor hypotéz s vˇetˇs´ıexpresivitou

– zvyˇsuje ˇsance, ˇze najdeme pˇresné vyjádˇren´ı c´ılové funkce – ALEzvyˇsujeipoˇcetmoˇzných hypotéz, které jsou konzistentn´ı

s tr´enovac´ı mnoˇzinou

⇒ m˚uˇzeme z´ıskat niˇzˇs´ı kvalitupˇredpovˇed´ı (generalizace)

(30)

Rozhodovac´ı stromy Uˇcen´ı ve formˇe rozhodovac´ıch strom˚u

Uˇcen´ı ve formˇe rozhodovac´ıch strom˚ u

trivi´aln´ı konstrukce rozhodovac´ıho stromu

• pro kaˇzd´y pˇr´ıklad v tr´enovac´ı sadˇe pˇridej jednu cestu od koˇrene k listu

• na stejn´ych pˇr´ıkladech jako v tr´enovac´ı sadˇe bude fungovat pˇresnˇe

• na nových pˇr´ıkladech se bude chovat náhodnˇe –negeneralizujevzory z pˇr´ıklad˚u, pouzekop´ırujepozorován´ı

(31)

Uˇcen´ı ve formˇe rozhodovac´ıch strom˚ u

trivi´aln´ı konstrukce rozhodovac´ıho stromu

• pro kaˇzd´y pˇr´ıklad v tr´enovac´ı sadˇe pˇridej jednu cestu od koˇrene k listu

• na stejn´ych pˇr´ıkladech jako v tr´enovac´ı sadˇe bude fungovat pˇresnˇe

• na nových pˇr´ıkladech se bude chovat náhodnˇe –negeneralizujevzory z pˇr´ıklad˚u, pouzekop´ırujepozorován´ı

heuristick´a konstrukce kompaktn´ıho stromu

• chceme naj´ıtnejmenˇs´ırozhodovac´ı strom, kter´y souhlas´ı s pˇr´ıklady

• pˇresn´e nalezen´ı nejmenˇs´ıho stromu je ovˇsem pˇr´ıliˇs sloˇzit´e

→ heuristikou najdeme alespoˇndostateˇcnˇe mal´y

• hlavn´ı myˇslenka – vyb´ır´ame atributy pro test v conejlepˇs´ım poˇrad´ı

(32)

V´ybˇer atributu

dobrý atribut ≡rozdˇel´ı pˇr´ıklady na podmnoˇziny, které jsou (nejlépe)

“vˇsechny pozitivn´ı” nebo “vˇsechny negativn´ı”

ˇStamgast˚u?

mexick´a pizzerie asijsk´a bufet

Typ?

S tamgast˚ˇ u? je lepˇs´ı volba atributu ← d´av´a lepˇs´ıinformacio vlastn´ı klasifikaci pˇr´ıklad˚u

(33)

V´ybˇer atributu – m´ıra informace

informace – odpov´ıd´a na ot´azku

ˇc´ımménˇedopˇredu v´ım o výsledku obsaˇzeném v odpovˇedi → t´ımv´ıce informace je v n´ı obsaˇzeno

mˇeˇr´ıtko: 1 bit = odpovˇed’ na Booleovskou ot´azku s pravdˇepodobnost´ı odpovˇedi hP(T ) = ¹₂, P(F ) = ¹₂i

(34)

V´ybˇer atributu – m´ıra informace

n moˇzn´ych odpovˇed´ıhP(v1), . . . , P(vn)i→ m´ıra informacev odpovˇedi obsaˇzen´a

I P(v1), . . . , P(v_n)

=Pn

i=1−P(v_i) log₂P(v_i) tato m´ıra se také nazývá entropie

(35)

V´ybˇer atributu – m´ıra informace

n moˇzn´ych odpovˇed´ıhP(v1), . . . , P(vn)i→ m´ıra informacev odpovˇedi obsaˇzen´a

I P(v1), . . . , P(v_n)

=Pn

i=1−P(v_i) log₂P(v_i) tato m´ıra se také nazývá entropie

napˇr. pro házen´ı minc´ı: I(h¹₂,¹₂i) = −¹₂log₂ ¹₂− ¹₂log₂ ¹₂ = ¹₂ +¹₂ = 1 bit pro házen´ı faleˇsnou minc´ı, která dává na 99% vˇzdy jednu stranu mince:

I(h₁₀₀¹ ,₁₀₀⁹⁹i) = −₁₀₀¹ log₂ ₁₀₀¹ − ₁₀₀⁹⁹ log₂₁₀₀⁹⁹ = 0.08 bit˚u

(36)

Pouˇzit´ı m´ıry informace pro v´ybˇer atributu

pˇredpokl´adejme, ˇze m´ame p pozitivn´ıch a n negativn´ıch pˇr´ıklad˚u

⇒ I h_p+n^p ,_p+nⁿ i

bit˚u je potˇreba pro klasifikaci nov´eho pˇr´ıkladu

napˇr. pro X1, . . . , X12z volby ˇcek´an´ı na st˚ul jep= n = 6, takˇze potˇrebujeme 1 bit

(37)

Pouˇzit´ı m´ıry informace pro v´ybˇer atributu

výbˇer atributu – kolik informace nám dá test na hodnotu atributu A?

(38)

Pouˇzit´ı m´ıry informace pro v´ybˇer atributu

výbˇer atributu – kolik informace nám dá test na hodnotu atributu A?

=rozd´ıl odhadu odpovˇedipˇred apo testu atributu

(39)

Pouˇzit´ı m´ıry informace pro v´ybˇer atributu

atribut A rozdˇel´ı sadu pˇr´ıklad˚u E na podmnoˇziny E_i

(nejlépe tak, ˇze kaˇzdá potˇrebuje ménˇe informace) ^nikdo ^ˇcást. ^plno

ˇStamgast˚u?

necht’ E_i m´ap_i pozitivn´ıch a n_i negativn´ıch pˇr´ıklad˚u

⇒ je potˇreba I h_p_i^p_+nⁱ _i,_p_iⁿ_+nⁱ _ii bit˚u pro klasifikaci nov´eho pˇr´ıkladu

⇒oˇcek´avan´ypoˇcet bit˚u celkem je Remainder(A) =P

i pi+ni

p+n · I h_p_i^p_+nⁱ _i,_p_iⁿ_+nⁱ _ii

⇒ v´ysledn´yzisk atributuAje Gain(A) = I h_p+n^p ,_p+nⁿ i − Remainder(A)

(40)

Pouˇzit´ı m´ıry informace pro v´ybˇer atributu

ˇStamgast˚u?

i pi+ni

⇒ výslednýzisk atributuAje Gain(A) = I h_p+n^p ,_p+nⁿ i − Remainder(A) výbˇer atributu = nalezen´ı atributu s nejvyˇsˇs´ı hodnotou Gain(A)

(41)

Pouˇzit´ı m´ıry informace pro v´ybˇer atributu

ˇStamgast˚u?

i pi+ni

⇒ výslednýzisk atributuAje Gain(A) = I h_p+n^p ,_p+nⁿ i − Remainder(A) výbˇer atributu = nalezen´ı atributu s nejvyˇsˇs´ı hodnotou Gain(A) Gain(ˇS tamgast˚u?) ≈ 0.541 bit˚u Gain(Typ?) = 0 bit˚u

(42)

Pouˇzit´ı m´ıry informace pro v´ybˇer atributu

ˇStamgast˚u?

i pi+ni

⇒ výslednýzisk atributuAje Gain(A) = I h_p+n^p ,_p+nⁿ i − Remainder(A) výbˇer atributu = nalezen´ı atributu s nejvyˇsˇs´ı hodnotou Gain(A) Gain(ˇS tamgast˚u?) ≈ 0.541 bit˚u Gain(Typ?) = 0 bit˚u

obecnˇe: E_i (pro A= v_i) obsahujec_i,k klasifikac´ı do tˇr´ıdc₁, ..., c_k

⇒Remainder(A) =P

iP(vi) · I hP(ci,1), ..., P(ci,k)i

⇒Gain(A) = I hP(v1), ..., P(vn)i − Remainder(A)

(43)

Algoritmus IDT – uˇcen´ı formou rozhodovac´ıch strom˚ u

% induce tree( +Attributes, +Examples, −Tree) induce tree( , [], null) :-!.

induce tree( , [example( Class, ) | Examples], leaf( Class)) :-% ∀ pˇr´ıklady stejn´e klasifikace

\+(member(example( ClassX, ), Examples), ClassX \== Class),!.

induce tree( Attributes, Examples, tree( Attribute, SubTrees)) :- choose attribute( Attributes, Examples, Attribute/ ), !,

del( Attribute, Attributes, RestAtts), attribute( Attribute, Values), induce trees( Attribute, Values, RestAtts, Examples, SubTrees).

induce tree( , Examples, leaf( ExClasses)) :-% ˇzádný uˇziteˇcný atribut, distribuce klasifikac´ı findall( Class, member(example( Class, ), Examples), ExClasses).

% induce trees( +Att, +Values, +RestAtts, +Examples, −SubTrees):

% najdi podstromy SubTrees pro podmnoˇziny pˇr´ıklad˚u Examples podle hodnot (Values) atributu Att induce trees( , [], , , [] ). % ˇzádné atributy, ˇzádné podstromy

induce trees( Att, [Val1 | Vals], RestAtts, Exs, [Val1 : Tree1 | Trees]) :- attval subset( Att = Val1, Exs, ExampleSubset),

induce tree( RestAtts, ExampleSubset, Tree1), induce trees( Att, Vals, RestAtts, Exs, Trees).

% attval subset( +Attribute = +Value, +Examples, −Subset):

% Subset je podmnoˇzina pˇr´ıklad˚u z Examples, kter´e splˇnuj´ı podm´ınku Attribute = Value attval subset( AttributeValue, Examples, ExampleSubset) :-

findall( example( Class, Obj),

(member(example( Class, Obj), Examples), satisfy( Obj, [ AttributeValue])), ExampleSubset).

% satisfy( Object, Description)

satisfy( Object, Conj) :-\+(member( Att = Val, Conj),member( Att = ValX, Object), ValX \== Val).

(44)

Algoritmus IDT – uˇcen´ı formou rozhodovac´ıch strom˚ u

% choose attribute( +Atts, +Examples, −BestAtt/BestGain) − v´ybˇer nejlepˇs´ıho atributu choose attribute([], , 0/0).

choose attribute([Att], Examples, Att/Gain):-!, gain(Examples, Att, Gain).

choose attribute([Att|Atts], Examples, BestAtt/BestGain):- choose attribute(Atts, Examples, BestAtt1/BestGain1), gain(Examples, Att, Gain),

(Gain>BestGain1, !, BestAtt=Att, BestGain=Gain ; BestAtt=BestAtt1, BestGain=BestGain1).

% gain( +Examples, +Attribute, −Gain) − zisk atributu

gain( Exs, Att ,Gain) :-attribute( Att ,AttVals ), length(Exs, Total), setof(Class, Xˆexample(Class,X), Classes), % mnoˇzina vˇsech Class findall(Nc, (member(C,Classes), cntclass(C,Exs,Nc)), CCnts),

info(CCnts,Total,I), rem(Att, AttVals,Exs,Classes,Total,Rem), Gain is I−Rem.

% info(+ValueCounts, +Total, −I)

% m´ıra informace I P(v1), . . . , P(vn) = Pⁿ_i=1−P(v_i) log₂P(v_i) info([], , 0).

info([VC|ValueCounts], Total, I) :-info(ValueCounts,Total,I1), (VC = 0, !, I is I1 ;

Pviis VC / Total, log2(Pvi, LogPvi), I is − Pvi ∗ LogPvi + I1).

(45)

Algoritmus IDT – uˇcen´ı formou rozhodovac´ıch strom˚ u

% rem( +Att, +AttVals, +Exs, +Classes, +Total, −Rem)

% ”zbytkov´a informace” po testu na Att: Remainder (A) =P

iP(v_i) · I hP(c_i,1), ..., P(c_i_,k)i rem( , [], , , , 0).

rem( Att, [V | Vs], Exs, Classes, Total, Rem) :-

findall(1, (member(example( , AVs),Exs), member(Att = V, AVs)), L1), length(L1, Nv),% Nv = pi+ ni

findall(Ni, (member(C, Classes), cntclassattv(Att,V,C,Exs,Ni)), VCnts), Pv is Nv / Total, % P(v)

info(VCnts,Nv,I), rem(Att,Vs,Exs,Classes,Total,Rem1), Rem is Pv ∗ I + Rem1.

% cntclass( +Class, +Exs, −Cnt) − poˇcet pˇr´ıklad˚u tˇr´ıdy Class cntclass( Class, Exs, Cnt) :-

findall(1, member(example(Class, ),Exs), L), length(L, Cnt).

% cntclass( +Att, +Val, +Class, +Exs, −Cnt)

% poˇcet pˇr´ıklad˚u tˇr´ıdy Class pro hodnotu Val atributu Att cntclassattv( Att, Val, Class, Exs, Cnt) :-

findall(1, (member(example(Class,AVs),Exs), member(Att = Val, AVs)), L), length(L, Cnt).

log2(X, Y) :-Y is log(X) / log(2).

(46)

Algoritmus IDT – pˇr´ıklad

attribute( hlad, [ano, ne]).

attribute( stam, [nikdo, cast, plno]).

attribute( cen, [’$’, ’$$’, ’$$$’]).

. . .

example(pockat, [alt=ano, bar=ne, paso=ne, hlad=ano, stam=cast, cen=’$$$’, dest=ne, rez=ano, typ=mexicka ]).

example(necekat, [alt=ano, bar=ne, paso=ne, hlad=ano, stam=plno, cen=’$’, dest=ne, rez=ne, typ=asijska ]).

. . .

(47)

Algoritmus IDT – pˇr´ıklad

attribute( hlad, [ano, ne]).

attribute( stam, [nikdo, cast, plno]).

attribute( cen, [’$’, ’$$’, ’$$$’]).

. . .

example(pockat, [alt=ano, bar=ne, paso=ne, hlad=ano, stam=cast, cen=’$$$’, dest=ne, rez=ano, typ=mexicka ]).

example(necekat, [alt=ano, bar=ne, paso=ne, hlad=ano, stam=plno, cen=’$’, dest=ne, rez=ne, typ=asijska ]).

. . .

:-induce tree(T),show(T).

stam?

= nikdo necekat

= cast pockat

= plno hlad?

= ano cen?

= $ paso?

= ano pockat

= ne necekat

= $$$

necekat

= ne necekat

(48)

IDT – v´ysledn´y rozhodovac´ı strom

rozhodovac´ı stromnauˇcen´yz 12-ti pˇr´ıklad˚u:

F T

F F

F T

Ne Ano

P´a/So?

ˇStamgast˚u?

Ne Ano

D´eˇst’?

Typ?

mexick´a pizzerie asijsk´a bufet

podstatnˇe jednoduˇsˇs´ı neˇz strom “z tabulky pˇr´ıklad˚u”

(49)

Hodnocen´ı ´uspˇeˇsnosti uˇc´ıc´ıho algoritmu

Obsah

1 Uˇcen´ı

(50)

Hodnocen´ı ´uspˇeˇsnosti uˇc´ıc´ıho algoritmu

jak m˚uˇzeme zjistit, zda h≈ f?

(51)

Hodnocen´ı ´uspˇeˇsnosti uˇc´ıc´ıho algoritmu

* dopˇredu − pouˇz´ıt vˇety Teorie kom- putaˇcn´ıho uˇcen´ı

po nauˇcen´ı − kontrolou najin´e tr´enovac´ı sadˇe

(52)

Hodnocen´ı ´uspˇeˇsnosti uˇc´ıc´ıho algoritmu

* dopˇredu − pouˇz´ıt vˇety Teorie kom- putaˇcn´ıho uˇcen´ı

po nauˇcen´ı − kontrolou najin´e tr´enovac´ı sadˇe

pouˇz´ıvan´ametodologie(cross validation):

1. vezmeme velkou mnoˇzinu pˇr´ıklad˚u 2. rozdˇel´ıme ji na 2 mnoˇziny –

tr´enovac´ıatestovac´ı

3. aplikujeme uˇc´ıc´ı algoritmus na trénovac´ısadu, z´ıskáme hypotézuh 4. zmˇeˇr´ımeprocento pˇr´ıklad˚u v

testovac´ısadˇe, které jsou správnˇe klasifikované hypotézouh 5. opakujeme kroky 2–4 pro r˚uzné

velikosti trénovac´ıch sad a pro náhodnˇe vybrané trénovac´ı sady

kˇrivka uˇcen´ı – z´avislost velikosti tr´enovac´ı sady na

´

uspˇeˇsnosti

0.4 0.5 0.6 0.7 0.8 0.9 1

0 20 40 60 80 100

% správnosti u testovací sady

velikost trénovací sady

(53)

Hodnocen´ı ´uspˇeˇsnosti uˇc´ıc´ıho algoritmu – pokraˇc.

tvar kˇrivky uˇcen´ızávis´ı na je hledaná funkcerealizovatelná× nerealizovatelná

funkce m˚uˇze b´yt nerealizovateln´a kv˚uli

• chybˇej´ıc´ım atribut˚um

• omezenému prostoru hypotéz naopaknadbyteˇcné expresivitˇe

napˇr. mnoˇzstv´ı nerelevantn´ıch atribut˚u

1

% spr´avnosti

# pˇr´ıklad˚u nerealizovatelná nadbyteˇcná realizovatelná

(54)

Hodnocen´ı ´uspˇeˇsnosti uˇc´ıc´ıho algoritmu Induktivn´ı uˇcen´ı – shrnut´ı

Induktivn´ı uˇcen´ı – shrnut´ı

uˇcen´ıje potˇrebné pro neznámé prostˇred´ı(a l´ıné analytiky ,) uˇc´ıc´ı se agent –výkonnostn´ı komponentaa komponenta uˇcen´ı metoda uˇcen´ı závis´ı natypu výkonnostn´ı komponenty, dostupné zpˇetné vazbˇe,typu areprezentaciˇcásti, která se má uˇcen´ım zlepˇsit u uˇcen´ı s dohledem– c´ıl je naj´ıt nejjednoduˇsˇs´ı hypotézu pˇribliˇznˇe konzistentn´ı s trénovac´ımi pˇr´ıklady

uˇcen´ı formourozhodovac´ıch strom˚u pouˇz´ıv´am´ıru informace kvalita uˇcen´ı– pˇresnost odhadu zmˇeˇren´a na testovac´ı sadˇe

(55)

Neuronov´e s´ıtˇe Neuron

Obsah

1 Uˇcen´ı

(56)

Neuronov´e s´ıtˇe Neuron

Neuron

mozek– 10¹¹ neuron˚u > 20typ˚u,10¹⁴synaps´ı, 1ms–10ms cyklus

nosiˇce informace –signály = “výkyvy” elektrických potenciál˚u (se ˇsumem) neuron – mozková buˇnka, která

má za úkol sbˇer,zpracován´ıa ˇs´ıˇren´ı signál˚u

Axon, nervov´y v´ybˇeˇzek

Tˇelo buˇnky, soma J´adro Dendrit

Synapse Nervov´a vl´akna

Axon z jin´e buˇnky Synapse

(57)

Neuronové s´ıtˇe Poˇc´ıtaˇcový model – neuronové s´ıtˇe

Poˇc´ıtaˇcov´y model – neuronov´e s´ıtˇe

1943 – McCulloch & Pitts – matematick´y modelneuronu

spojen´e do neuronov´e s´ıtˇe– schopnost tolerovat ˇsumve vstupu auˇcit se jednotky

(units)

v neuronov´e s´ıti– jsou propojenyvazbami (links)

– vazba z jednotkyj doi propaguje aktivacia_j jednotkyj

– kaˇzdá vazba má ˇc´ıselnouváhu W_j,i (s´ıla+znaménko)

Σ

vstupn´ı

vazby aktivaˇcn´ıfunkce v´ystupn´ı

vazby

W_j,i a_j

(58)

Neuronové s´ıtˇe Poˇc´ıtaˇcový model – neuronové s´ıtˇe

Poˇc´ıtaˇcov´y model – neuronov´e s´ıtˇe

1943 – McCulloch & Pitts – matematick´y modelneuronu

spojen´e do neuronov´e s´ıtˇe– schopnost tolerovat ˇsumve vstupu auˇcit se jednotky

(units)

v neuronov´e s´ıti– jsou propojenyvazbami (links)

– vazba z jednotkyj doi propaguje aktivacia_j jednotkyj

– kaˇzdá vazba má ˇc´ıselnouváhu W_j,i (s´ıla+znaménko)

funkce jednotkyi:

1. spoˇc´ıt´a v´aˇzenouP

vstup˚u=in_i 2. aplikujeaktivaˇcn´ı funkcig 3. t´ım z´ısk´av´ystupai

ai= g (ini) = g (X

j

Wj,iaj)

Σ

v´ystup vstupn´ı

vazby aktivaˇcn´ı

funkce funkce

vstupn´ı v´ystupn´ı

vazby a0= −1 ai= g (ini)

ai

ini g Wj,i

prahov´a v´aha W0,i

aj

(59)

Neuronov´e s´ıtˇe Aktivaˇcn´ı funkce

Aktivaˇcn´ı funkce

´

uˇcel aktivaˇcn´ı funkce: jednotka m´a b´ytaktivn´ı(≈ +1) pro pozitivn´ı pˇr´ıklady, jinakneaktivn´ı≈ 0

aktivace mus´ı býtnelineárn´ı, jinak by celá s´ıt’

byla line´arn´ı

(60)

Neuronov´e s´ıtˇe Aktivaˇcn´ı funkce

Aktivaˇcn´ı funkce

´

uˇcel aktivaˇcn´ı funkce: jednotka m´a b´ytaktivn´ı(≈ +1) pro pozitivn´ı pˇr´ıklady, jinakneaktivn´ı≈ 0

aktivace mus´ı býtnelineárn´ı, jinak by celá s´ıt’

byla line´arn´ı napˇr.

a)

+1

in_i g(in_i)

prahov´a funkce

b)

+1

in_i g(ini)

sigmoida 1/(1 + e^−x)

je derivovatelná – d˚uleˇzité prouˇcen´ı zmˇenyprahové váhy W0,i nastavuj´ı nulovou pozic´ı – nastavuj´ıpráhaktivace

(61)

Neuronové s´ıtˇe Logické funkce pomoc´ı neuronové jednotky

Logick´e funkce pomoc´ı neuronov´e jednotky

AND

W0=1.5

W₁=1

W2=1

OR

W2=1 W₁=1

W0=0.5

NOT

W₁= 1 W0= 0.5

jednotka McCulloch & Pitts sama um´ı implementovat z´akladn´ı Booleovsk´e funkce

⇒ kombinacemi jednotek do s´ıtˇe m˚uˇzeme implementovatlibovolnou Booleovskou funkci