Uczenie maszynowe - wprowadzenie i drzewa decyzyjne

(1)

(2)

System ALVINN

ALVINN prowadzi samo hód po autostradzie z szybko± i¡ 70 mil na godzin

Sharp

Left

Sharp

Right

4 Hidden

Units

30 Output

Units

30x32 Sensor

Input Retina

Straight

Ahead

(3)

(4)

Uczenie indukcyjne

Obiekty: dane reprezentuj¡ e rze zywisty stan lub obiekt,

tworz¡ przestrze« obiektów

X

De yzja: Funk ja

dec : X → V

dec

przypisuj¡ a obiektom

warto±¢ de yzji z ustalonego zbioru

V

dec

Zbiór przykªadów: ustalony zbiór obiektów z

X

z przypisan ymi warto± iami de yzji:

(x

₁

, dec(x

₁

)), . . . , (x

_m

, dec(x

_m

))

Problem:

Z danego zbioru przykªadów nau zy¢ si funk j (hipotez)

h : X → V

dec

aproksymuj¡ ¡ de yzj

dec

tak, »eby mo»liwie najbardziej poprawnie przypi-sywaªa j¡ obiektom z przestrzeni

X

, dla który h nieznana jest warto±¢ de y-zji

dec

(5)

Uczenie indukcyjne: kolko i krzyzyk

Obiekty to pary: stan gry i o ena stanu

O O X

X

, +1

(6)

Uczenie indukcyjne: uprawianie sportu

Obiekty to wektory warto± i opisuj¡ e bie»¡ e warunki pogodowe

Przykªad

Atrybuty De yzja

N iebo T emp W ilgotn W iatr

W oda

P rognoza

Sport Dzie« 1 Sªo« e Ciepªo Normalna Silny Ciepªa Bez zmian Tak

Dzie« 2 Sªo« e Ciepªo Wysoka Silny Ciepªa Bez zmian Tak

Dzie« 3 Desz z Zimno Normalna Silny Ciepªa Zmiana Nie

Dzie« 4 Sªo« e Ciepªo Wysoka Silny Chªodna Zmiana Tak

Problem polega na nau zeniu si podejmowania wªa± iwego wyboru

(7)

Rodzaje decyzji

De yzja mo»e przyjmowa¢ warto± i:

♦

rze zywiste (de yzja i¡gªa)

♦

dyskretne

(8)

Hipoteza spojna

Hipoteza

H

jest spójna na zbiorze treningowym

(x

1 , dec(x

1 )), . . . , (x

m

, dec(x

m

))

, je±li

(9)

Regresja (decyzja ciagla)

Regresja to aproksyma ja de yzji o warto± i i¡gªej

x

f(x)

(10)

Regresja (decyzja ciagla)

x

f(x)

(11)

Regresja (decyzja ciagla)

x

f(x)

(12)

Regresja (decyzja ciagla)

x

f(x)

(13)

Regresja (decyzja ciagla)

x

f(x)

(14)

Brzytwa Ockhama

Brzytwa O khama wybiera hipotez, która maksymalizuje poª¡ zenie

spójno-± i i prostoty

x

f(x)

(15)

Opis obiektow przez atrybuty

Atrybuty: zbiór atrybutów

A = {a

1 , a

2 , . . . , a

n

}

Obiekty: Wektory warto± i atrybutów

x =< x

1 , x

2 , . . . , x

n

>

Warto± i atrybutów mog¡ by¢:

♦

i¡gªe

♦

dyskretne

(16)

Opis obiektow przez atrybuty: przyklad

De yzja na gr w tenisa jest binarna: Yes lub No

Day Outlook Temperature Humidity Wind PlayTennis

D1 Sunny Hot High Weak No

D2 Sunny Hot High Strong No

D3 Over ast Hot High Weak Yes

D4 Rain Mild High Weak Yes

D5 Rain Cool Normal Weak Yes

D6 Rain Cool Normal Strong No

D7 Over ast Cool Normal Strong Yes

D8 Sunny Mild High Weak No

D9 Sunny Cool Normal Weak Yes

D10 Rain Mild Normal Weak Yes

D11 Sunny Mild Normal Strong Yes

D12 Over ast Mild High Strong Yes

D13 Over ast Hot Normal Weak Yes

(17)

Przestrzen hipotez

(18)

Przestrzen hipotez

Ile jest ró»ny h hipotez (funk ji) binarny h dla

n

atrybutów binarny h??

= li zba funk ji binarny h dla dziedzin y z

2 n

obiektami =

2

(19)

Przestrzen hipotez

Ile jest ró»ny h hipotez (funk ji) binarny h dla

n

atrybutów binarny h??

= li zba funk ji binarny h dla dziedzin y z

2 n

obiektami =

2

2 n

(20)

Ograniczanie przestrzeni hipotez

(21)

Ograniczanie przestrzeni hipotez: przyklad

Przestrze« hipotez mo»na ograni zy¢ do ustalonej klasy hipotez

(22)

Ograniczanie przestrzeni hipotez: przyklad

Ile jest zysto koniunk yjny h funk ji (np.

Hungry ∧ ¬Rain

)??

Ka»dy atrybut mo»e wyst¡pi¢ jako literaª pozytywny, jako literaª negatywny lub w ale

(23)

Ograniczanie przestrzeni hipotez: przyklad

Ile jest zysto koniunk yjny h funk ji (np.

Hungry ∧ ¬Rain

)??

Ka»dy atrybut mo»e wyst¡pi¢ jako literaª pozytywny, jako literaª negatywny lub w ale

(24)

Zwiekszanie przestrzeni hipotez

(25)

Zwiekszanie przestrzeni hipotez

Co powoduje zwikszenie klasy dopusz zalny h hipotez??

(26)

Zwiekszanie przestrzeni hipotez

zwiksza szans, »e funk ja do elowa mo»e by¢ wyra»ona

(27)

Zwiekszanie przestrzeni hipotez

zwiksza szans, »e funk ja do elowa mo»e by¢ wyra»ona

zwiksza li zb hipotez zgodny h ze zbiorem treningowym

(28)

Empiryczna miara jakosci hipotezy

Dane dzielone s¡ na zbiór treningowy

U

trn

i zbiór testowy

U

tst

Hipoteza

h : X → V

dec

jest indukowana na podstawie zbioru treningowego

U

trn

Skute zno±¢ hipotezy

Accuracy(h)

jest mierzona propor j¡

poprawnie sklasykowany h obiektów ze zbioru testowego

Accuracy(h) =

|{x ∈ U

tst

: h(x) = dec(x)}|

(29)

Metody wnioskowania

Metody wnioskowania dla dany h opisany h przez zbiór atrybutów z de yzj¡

dyskretn¡:

♦

Drzewa de yzyjne

♦

Systemy reguªowe

♦

Sie i neuronowe

♦

Wnioskowanie oparte na podobie«stwie

(30)

Drzewa decyzyjne: reprezentacja

Wzªy wewntrzne

Ka»dy zwi¡zany z jednym atrybutem,

reprezentuje test warto± i tego atrybutu

Gaªzi e

Ka»da zwi¡zana z jedn¡ warto± i¡ lub z podzbiorem warto± i

atrybutu wzªa, z którego wy hodzi gaª¡¹,

odpowiada obiektom dany h z pasuj¡ ymi warto± iami atrybutu

Li± ie

Ka»dy zwi¡zany z de yzj¡ lub rozkªadem de yzji, odpowiada obiektom

(31)

Drzewa decyzyjne: przyklad

Reprezenta ja dany h

(32)

Drzewa decyzyjne: przyklad

Outlook

Overcast

Humidity

Normal

High

No

Yes

Wind

Strong

Weak

No

Yes

Rain

Sunny

(33)

Drzewa decyzyjne: moc wyrazania

Fakt 1: Dla ka»dego zbioru treningowego istnieje spójne drzewo de yzyjne

Dowód: za zynamy od pustego drzewa i dla ka»dego obiektu dany h

dokªa-damy

± ie»k prowadz¡ ¡ przez wszystkie atrybuty z warto± iami krawdzi

odpowiadaj¡ ymi warto± iom atrybutów w obiek ie

Fakt 2: Dla ka»dej funk ji istnieje spójne drzewo de yzyjne

Dowód: mo»na utworzy¢ zbiór treningowy zawieraj¡ y obiekty odpowiadaj¡ e

wszystkim kombina jom warto± i atrybutów o de yzji zgodnej

z dan¡ funk j¡

F

T

A

B

F

T

B

A

B

A xor B

F

T

F

T

F

T

(34)

Drzewa decyzyjne: trenowanie

Cel: znalezienie drzewa spójnego ze zbiorem treningowym

Pomysª: rekuren yjne wybieranie najbardziej zna z¡ ego atrybutu jako korze« poddrzewa

fun tion DTL(examples,attributes,default ) returns a de ision tree

if examples is empty then return default

else if all examples have the same lassi ation then return the lassi ation

else if attributes is empty then return Mode(examples )

else

best

←

Choose-Attribute(attributes ,examples ) tree

←

a new de ision tree with root test best

for ea h value v

i

of best do

examples

i

← {

elements of examples with

best

= v

i

}

subtree

←

DTL(examples

i

,

attributes

−

best,Mode(examples )) add a bran h to tree with label v

i

and subtree subtree

(35)

Drzewa decyzyjne: wybor atrybutu

Ro»ne atrybuty daj¡ ró»ne rozkªady de yzji w gaªzia h

A1=?

A2=?

f

t

f

[29+,35-]

[21+,5-]

[8+,30-]

[18+,33-]

[11+,2-]

(36)

Entropia

Dany jest rozkªad prawdopodobie«stwa

hp

1 , . . . , p

n

i

Miara entropii wyzna za, ile informa ji niesie z sob¡ ten rozkªad

(37)

Entropia

hp

1 , . . . , p

n

i

Entropy(hp

1 , . . . , p

n

i) =

Σ

n

_{i = 1}

− p

i

log

₂

p

i

S

zbiór obiektów dany h

S

d

zbiór obiektów w

S

z de yzj¡

d

Entropy(S) =

Σ

_d∈V

_dec

−

|S

d

|

|S|

log

2 |S

_d

|

|S|

Entropia = ±rednia li zba bitów potrzebna do zakodowania de yzji

d

dla lo-sowo wybranego obiektu ze zbioru

S

(przy optymalnym kodowaniu de yzji)

(38)

Entropia

hp

1 , . . . , p

n

i

Entropy(hp

1 , . . . , p

n

i) =

Σ

n

_{i = 1}

− p

i

log

₂

p

i

S

zbiór obiektów dany h

S

d

zbiór obiektów w

S

z de yzj¡

d

Entropy(S) =

Σ

_d∈V

_dec

−

|S

d

|

|S|

log

2 |S

_d

|

|S|

Entropia = ±rednia li zba bitów potrzebna do zakodowania de yzji

d

dla lo-sowo wybranego obiektu ze zbioru

S

(przy optymalnym kodowaniu de yzji)

Dla zego??

(39)

Entropia: dwie decyzje

Dane s¡ dwie de yzje: pozytywna (

⊕

) i negatywna (

⊖

)

p

_⊕

=

|S

⊕

|

|S|

propor ja obiektów z de yzj¡ pozytywn¡ w zbiorze

S

p

_⊖

=

|S

⊖

|

(40)

Entropia: dwie decyzje

Dane s¡ dwie de yzje: pozytywna (

⊕

) i negatywna (

⊖

)

p

_⊕

=

|S

⊕

|

|S|

propor ja obiektów z de yzj¡ pozytywn¡ w zbiorze

S

p

_⊖

=

|S

⊖

|

|S|

propor ja obiektów z de yzj¡ negatywn¡ w zbiorze

S

Entropy(S) = −p

⊕

log

₂

p

⊕

− p

⊖

log

₂

p

⊖

Entropy(S)

1.0

(41)

Zysk informacji dla atrybutu symbolicznego

Zysk informa ji

Gain(S, a)

= reduk ja entropii przy podziale zbioru wzgldem atrybutu

a

S

v

zbiór obiektów w

S

z warto± i¡ atrybutu

a = v

Gain(S, a) = Entropy(S) −

Σ

_{v∈V alues(a)}

|S

v

|

(42)

Zysk informacji dla atrybutu symbolicznego

Zysk informa ji

Gain(S, a)

= reduk ja entropii przy podziale zbioru wzgldem atrybutu

a

S

v

zbiór obiektów w

S

z warto± i¡ atrybutu

a = v

Gain(S, a) = Entropy(S) −

Σ

_{v∈V alues(a)}

|S

v

|

|S|

Entropy(S

v

)

Which attribute is the best classifier?

High

Normal

Humidity

[3+,4-]

[6+,1-]

Wind

Weak

Strong

[6+,2-]

[3+,3-]

=0.940

E

=0.940

=0.811

E

=0.592

E

=0.985

E

=1.00

[9+,5-]

S:

[9+,5-]

S:

(43)

Wybor atrybutu

Drzewo de yzyjne w ka»dym w¹le wybiera atrybut

a

z najwikszym zyskiem informa ji, tzn. z najwiksz¡ warto± i¡

Gain(S, a)

(44)

Wybor atrybutu: przyklad

Zbiór dany h

(45)

Wybor atrybutu: przyklad

Outlook

Sunny

Overcast

Rain

[9+,5−]

{D1,D2,D8,D9,D11}

{D3,D7,D12,D13}

{D4,D5,D6,D10,D14}

[2+,3−]

[4+,0−]

[3+,2−]

Yes

{D1, D2, ..., D14}

?

Which attribute should be tested here?

Ssunny = {D1,D2,D8,D9,D11}

Gain (Ssunny , Humidity)

sunny

Gain (S

, Temperature) = .970 − (2/5) 0.0 − (2/5) 1.0 − (1/5) 0.0 = .570

Gain (S sunny , Wind) = .970 − (2/5) 1.0 − (3/5) .918 = .019

(46)

Wybor atrybutu: przyklad

Outlook

Sunny

Overcast

Rain

[9+,5−]

{D1,D2,D8,D9,D11}

{D3,D7,D12,D13}

{D4,D5,D6,D10,D14}

[2+,3−]

[4+,0−]

[3+,2−]

Yes

{D1, D2, ..., D14}

?

Which attribute should be tested here?

Ssunny = {D1,D2,D8,D9,D11}

Gain (Ssunny , Humidity)

sunny

Gain (S

, Temperature) = .970 − (2/5) 0.0 − (2/5) 1.0 − (1/5) 0.0 = .570

Gain (S sunny , Wind) = .970 − (2/5) 1.0 − (3/5) .918 = .019

(47)

Zysk informacji dla atrybutu numerycznego

Zysk informa ji

Gain(S, a, c)

= reduk ja entropii wzgldem i ia binarnego

c

na atrybu ie

a

c

warto±¢ i ia

s

_a<c

zbiór obiektów z warto± iami atrybutu

a

poni»ej i ia

s

_a≥c

zbiór obiektów z warto± iami atrybutu

a

powy»ej i ia

Gain(S, a, c) = Entropy(S) −

|S

a<c

|

|S|

Entropy(S

a<c

)−

|S

_a≥c

|

(48)

Wybor ciecia

Drzewo de yzyjne wybiera atrybut rozpatruj¡ najlepsze i ia dla atrybutów numery zny h

(49)

Wybor ciecia

Przykªad

Dany jest atrybut numery zny

T emperature

z nastpuj¡ ymi warto± iami w zbiorze treningowym:

T emperature

4 8 16 22 26 32

P layT ennis

No No Yes Yes Yes No

(50)

Wybor ciecia

Przykªad

Dany jest atrybut numery zny

T emperature

z nastpuj¡ ymi warto± iami w zbiorze treningowym:

T emperature

4 8 16 22 26 32

P layT ennis

Najleps ze i ie??

Gain(S, a, 0) = 1.0 − (0/6)0.0 − (6/6)1.0 = 0.0

Gain(S, a, 12) = 1.0 − (2/6)0.0 − (4/6)0.811 = 0.439

Gain(S, a, 29) = 1.0 − (5/6)0.971 − (1/6)0.0 = 0.191

(51)

Wielokrotny wybor atrybutu

Ten sam atrybut numery zny mo»e by¢ wybrany kilkakrotnie na jednej ± ie» e od korzenia do li± ia:

Przykªad: najpierw i ie

c

1 = 12

, potem

c

2 = 29

T emperature

4 8 16 22 26 32

P layT ennis

(52)

Wybor atrybutu: normalizacja

Problem

Miara

Gain

faworyzuje atrybuty z wieloma warto± iami,

w sz zególno± i atrybut z warto± iami jednozna znymi, np. PESEL,

ma maksymaln¡ warto±¢

Gain

, ale jego u»yte zno±¢ dla nowy h przykªadów jest »adna

(53)

Wybor atrybutu: normalizacja

Problem

Miara

Gain

faworyzuje atrybuty z wieloma warto± iami,

w sz zególno± i atrybut z warto± iami jednozna znymi, np. PESEL,

ma maksymaln¡ warto±¢

Gain

, ale jego u»yte zno±¢ dla nowy h przykªadów jest »adna

Rozwi¡zanie: mo»na zastosowa¢ normaliza j miary

Gain

SplitInf ormation(S, a) = −

Σ

_{v∈V alues(a)}

|S

v

|

|S|

log

2 |S

_v

|

|S|

i u»y¢ miary

GainRatio

zamiast

Gain

:

GainRatio(S, a) =

Gain(S, a)

(54)

Drzewa decyzyjne: klasyfikacja obiektu

Outlook

Overcast

Humidity

Normal

High

No

Yes

Wind

Strong

Weak

No

Yes

Rain

Sunny

(55)

Drzewa decyzyjne: klasyfikacja obiektu

Outlook

Overcast

Humidity

Normal

High

No

Yes

Wind

Strong

Weak

No

Yes

Rain

Sunny

Today Sunny Hot Normal Weak ??

Odpowied¹??

(56)

Drzewa decyzyjne: wartosci brakujace

Problem:

Co robi¢, kiedy informa ja o klasykowanym obiek ie jest niepeªna, np.:

(57)

Drzewa decyzyjne: wartosci brakujace

Problem:

Today ? Hot High Weak ??

Pomysª: zej± ie wszystkimi ± ie»kami przy atrybuta h z nieustalon¡ warto± i¡

Outlook

Humidity

Wind

No

Yes

No

5-4+

3+

Sunny

Overcast

Rain

High

Normal

Strong

Weak

Odpowied¹:??

(58)

Drzewa decyzyjne: wartosci brakujace

Problem:

Today ? Hot High Weak ??

Pomysª: zej± ie wszystkimi ± ie»kami przy atrybuta h z nieustalon¡ warto± i¡

Outlook

Humidity

Wind

No

Yes

No

5-4+

3+

Sunny

Overcast

Rain

High

Normal

Strong

Weak

Odpowied¹:??

(59)

Drzewo decyzyjne: przycinanie

Problem:

Bardzo rzadkie wyj¡tki lub bªdy

w przykªada h u z¡ y h

mog¡ spowodowa¢ niepotrzebne

rozwini ie gaªzi drzewa

[1000+,0-]

[1000+,1-]

[0+,1-]

[1000+,2-]

[1000+,3-]

[1000+,4-]

[0+,1-]

Pomysª:

Dodanie fazy walida j i drzewa de yzyjnego

do pro esu u zenia.

Wzªy rozdzielaj¡ e, które nie potwierdz¡

swojej przydatno± i w fazie walida ji,

(60)

Drzewo decyzyjne: algorytm z przycinaniem

fun tion DTL-Pruned(examples,attributes,default ) returns a de ision tree

building,validating

←

split examples into building and validating sets tree

←

DTL(building,attributes,default )

tree

←

Prune-Tree(validating,tree ) return tree

fun tion Prune-Tree(validationset,tree ) returns a pruned de ision tree

leafparents

←

inner nodes in tree su h that all their su essors are leaf nodes while leafparents

6=

{}

and

←

a node from leafparents

d

cand

←

the most frequent de ision among the building obje ts assigned to and if assigning d

cand

to the obje ts going through the node and

does not worsen lassi ation a ura y in validationset then

repla e the subtree rooted at and by the leaf node with the de ision d

cand

if all brother nodes of and are leafs then