Reguły decyzyjne

(1)

Reguły decyzyjne

Marcin S. Szczuka Wykład 5

Plan wykładu

• Terminologia dla reguł decyzyjnych.

• Ogólne podej cie „oddziel i rz d ”.

• Konstruowanie reguł metod przeszukiwania – PRISM i CN2.

• Kryteria i miary.

Reguły

Reguł decyzyjn nazwiemy formuł postaci:

Je li warunki to decyzja

zwykle zapisywane jako:

warunki decyzja

Motywacja

Reguły decyzyjne s popularn metod reprezentacji hipotez ze wzgl du na:

• Intuicyjn interpretacj .

• Elastyczno ze wzgl du na typ danych.

• Istnienie szerokiej gamy metod do

konstruowania reguł.

(2)

Cel

Chcemy konstruowa reguły które s :

• Zgodne z danymi

• Kompletne

• Łatwe do wyliczenia (przy stosowaniu)

• Zrozumiałe

(za R. Michalskim)

Oznaczenia

Dla atrybutu (cechy) a V

_a

wprowadzamy poj cie selektora (deskryptora, warunku, wi zu).

Selektor s identyfikujemy z podzbiorem V

_s

zbioru warto ci atrybutu.

Wyró niamy kilka (naturalnych) rodzajów selektorów.

Cz warunkow reguły przedstawiamy zwykle jako zestaw selektorów:

<s ₁ , s ₂ ,…, s _m >

Rodzaje selektorów

• Proste (pojedyncze). V _s ={v}, {v} V _a czyli warunek (s=v) równowa ny z (a(x)=v).

• Dysjunkcyjne (uogólnione).

V _s ={ v ₁ ,…,v _k } V _a tj. warunek s=v ₁ v ₂ … v _k .

• Uniwersalny oznaczany przez ?. V _s =V _a .

• Pusty oznaczany przez . V _s =

Poj cia zwi zane z regułami

Niech S X i r=(k d) – reguła decyzyjna dla której cz warunkowa k= < s

₁

, …, s

_m

>.

• Reguła r pokrywa obiekt x S gdy x spełnia warunki w poprzedniku k reguły r=(k d).

• Obiekt (etykietowany) x S spełnia reguł r=(k d) gdy jest pokrywany przez jej cz

warunkow k ma decyzj (etykiet ) d zgodn z

reguł .

(3)

Notacja

• S

_k

- zbiór przykładów pokrywanych przez reguł r=(k d) .

• S

_r

– zbiór przykładów spełniaj cych reguł r.

• S

^dk

=S

k

S

^d

zbiór przykładów (obiektów) z klasy decyzyjnej dla d i pokrywanych przez reguł r.

• Mo na zdefiniowa odpowiedniki powy szych poj dla zbioru reguł R.

• R mo e by zbiorem lub list reguł tj. uporz dkowanym zbiorem reguł.

• S(S) – zbiór wszystkich selektorów prostych postaci (s=v) wyst puj cych w zbiorze przykładów S.

Oddziel i rz d

• Staramy si znale jedn reguł która najlepiej pasuje do danych treningowych.

• Gdy mamy tak reguł , wszystkie przykłady treningowe (obiekty) pokrywane przez t reguł przestaj by wykorzystywane w dalszych rozwa aniach (zostaj oddzielone).

• Powtarzamy cał powy sz procedur dla jeszcze nie pokrytych (nie oddzielonych)

przykładów dopóki nie wyczerpiemy (oddzielimy) całego zbioru treningowego.

Dokładne sekwencyjne pokrywanie

perfect-covering(S) R:= ; P:=S;

while P ≠ do

r := find-rule(P,S);

R := R { r };

P:=P P _k ;

Pragmatyczne sekwencyjne pokrywanie

covering(S,θ) R:= ; P:=S;

r:= find-rule(P,S);

while quality (r,P)>θ do R:= R { r };

P:=P P

_r

;

r:= find-rule(P,S); P ≠

(4)

Uwagi do algorytmów

• Pragmatyczny algorytm pokryciowy ma parametr STOPU - warto θ -zapobiegaj cy

wyszukiwaniu nieistotnych reguł.

• Oddzielanie w przypadku algorytmu

pragmatycznego jest oparte na analizie całej reguły tj. zarówno cz ci warunkowej (poprzednika) jak i decyzyjnej (nast pnika).

Znajdowanie reguł

Jak zrealizowa procedur find-rule?

Mo emy sformułowa wyszukiwanie reguł jako klasyczne zadanie przeszukiwania i rozwi zywa przez

stosowanie:

• Metody „od ogółu do szczegółu” (general-to-specific) – algorytmy PRISM, CN2

• Metody „od ogółu do szczegółu w zadanym kierunku”

(general-to-specific directed search) – algorytm AQ

• Wyszukiwania z przycinaniem – RIPPER

• Wyszukiwania za pomoc metod ewolucyjnych (algorytmów genetycznych).

Od ogółu do szczegółu

1. Zacznij od najbardziej ogólnej reguły tj. reguły o pustej cz ci warunkowej (poprzedniku).

2. Dopóki pozostały jeszcze niewykorzystane atrybuty próbuj dodawa proste selektory dla tych atrybutów do poprzednika reguły.

3. Powtarzaj 2 wybieraj c zawsze reguł daj ca najwi ksz popraw jako ci predykcji. Usu wykorzystane selektory z dalszych rozwa a .

PRISM

• Algorytm PRISM jest prost realizacja przeszukiwania

„od ogółu do szczegółu” .

• Dodaje on kolejno warunki (selektory) do poprzednika reguły r=k d, staraj c si znale reguł , która maksymalizuje dokładno (accuracy):

|S

_r

|/|S

_k

|

• Ten algorytm sprawdza si tylko gdy szukamy małej liczby silnych reguł.

• Przy starcie algorytmu musimy poda (jako parametr)

warto decyzji dla której szukamy reguł.

(5)

Przykład

y

x

a b b

b b

b b b

b

b b b b

b b a a a a

a

Przykład

y

a b b

b b

b b b

b

b b b b

b b a a a a

a

1·2 x

Przykład

y

a b b

b b

b b b

b

b b b b

b b a a a a

a

x

2·6

Przykład

y

a b b

b b

b b b

b

b b b b

b b a a a a

a

1·2 x

2·6

(6)

Przeszukiwanie wi zkowe – CN2

CN2 jest udoskonaleniem idei konstruowania reguł „od ogółu do szczegółu” .

• Główne własno ci CN2:

• Stosuje przeszukiwanie wi zkowe. W ka dym kroku wybieranych jest „wi zka” zło ona z m najbardziej obiecuj cych kandydatów (a nie wszyscy).

• Sprzeczne i niepoprawne wyniki (reguły) s automatycznie eliminowane w trakcie działania algorytmu.

• Reguły statystycznie nieistotne nie s dalej rozwa ane.

• Ustala decyzj (nast pnik) dla reguły za pomoc głosowania wi kszo ciowego.

CN2 - algorytm

find-rule(P,m, ε) k

_*

:=< ?, … ,? >; K:={ k

_*

} ; while K ≠ do

K

_new

:=add-selectors(K,S(P));

K

_new

:=K

_new

( K { < > } );

forall k K

_new

do

if ( ψ

_k

(P) > ε θ

_k

(P)> θ

_k_*

(P)) then k

_*

:=k;

end;

K:= arg max

_{k Km}_new

(θ

_k

(P

_k

));

end;

r:= k

_*

decyzja(P

_k_*

,d) return r;

CN2 - szczegóły

• decyzja(S,d) zwraca najcz ciej wyst puj c w zbiorze przykładów S decyzj (gdy S ≠ ) lub warto domy ln d.

• ψ

_k

(S) miara statystycznej istotno ci dla poprzednika reguły na zbiorze przykładów S. ε stanowi warto graniczn dla (miary) istotno ci.

Zwykle ε [0.01, 0.05].

• θ

_k

(S) miara jako ci (cz ci warunkowej k) reguły.

CN2 – miary jako ci reguły

Kandydaci na θ

_k

(S):

• Entropia θ

_k

(S) =-E

k

(S)

=

_{d C}

(|S

_k^d

|/|S

_k

|) log

₂

(|S

_k^d

|/|S

_k

|)

• Inna, sparametryzowana miara:

θ (S)=

gdzie d jest najcz stsz decyzj w S

k

, C jest zbiorem mo liwych decyzji, a s parametrem.

+

(7)

CN2 – miary istotno ci poprzednika

Najcz ciej wykorzystywana – statystyka χ

²

. Je li S

_k≠

jest zbiorem przykładów (obiektów)

pokrywanych tylko przez poprzednik k.

ψ

_k

(S)=χ

_k²

=

gdzie

∈

≠

−

=

≠

Uczenie reguł w praktyce

• Brakuj ce warto ci – stosujemy metody uzupełniania, tak jak w innych

przypadkach.

• Atrybuty numeryczne – musimy przeprowadzi dyskretyzacj zanim zaczniemy wylicza reguły. Dotyczy to tak e atrybutów symbolicznych o zbyt du ej liczbie warto ci.

Zło ono

Asymptotyczna zło ono dla CN2:

O(2 ^v m n (|S|+v log (mn))) gdzie m - szeroko wi zki, n – liczba

atrybutów, v – maksymalna liczba warto ci atrybutu, |S| - liczba przykładów w zbiorze treningowym.

Reguły decyzyjne

Reguły decyzyjne

Marcin S. Szczuka Wykład 5

Plan wykładu

• Terminologia dla reguł decyzyjnych.

• Ogólne podej cie „oddziel i rz d ”.

• Konstruowanie reguł metod przeszukiwania – PRISM i CN2.

• Kryteria i miary.

Reguły

Reguł decyzyjn nazwiemy formuł postaci:

Je li warunki to decyzja

zwykle zapisywane jako:

warunki decyzja

Motywacja

Reguły decyzyjne s popularn metod reprezentacji hipotez ze wzgl du na:

• Intuicyjn interpretacj .

• Elastyczno ze wzgl du na typ danych.

• Istnienie szerokiej gamy metod do

konstruowania reguł.

Cel

Chcemy konstruowa reguły które s :

• Zgodne z danymi

• Kompletne

• Łatwe do wyliczenia (przy stosowaniu)

• Zrozumiałe

(za R. Michalskim)

Oznaczenia

Dla atrybutu (cechy) a V

wprowadzamy poj cie selektora (deskryptora, warunku, wi zu).

Selektor s identyfikujemy z podzbiorem V

zbioru warto ci atrybutu.

Wyró niamy kilka (naturalnych) rodzajów selektorów.

Cz warunkow reguły przedstawiamy zwykle jako zestaw selektorów:

<s 1 , s 2 ,…, s m >

Rodzaje selektorów

• Proste (pojedyncze). V s ={v}, {v} V a czyli warunek (s=v) równowa ny z (a(x)=v).

• Dysjunkcyjne (uogólnione).

V s ={ v 1 ,…,v k } V a tj. warunek s=v 1 v 2 … v k .

• Uniwersalny oznaczany przez ?. V s =V a .

• Pusty oznaczany przez . V s =

Poj cia zwi zane z regułami

Niech S X i r=(k d) – reguła decyzyjna dla której cz warunkowa k= < s

, …, s

>.

• Reguła r pokrywa obiekt x S gdy x spełnia warunki w poprzedniku k reguły r=(k d).

• Obiekt (etykietowany) x S spełnia reguł r=(k d) gdy jest pokrywany przez jej cz

warunkow k ma decyzj (etykiet ) d zgodn z

reguł .

Notacja

• S

- zbiór przykładów pokrywanych przez reguł r=(k d) .

• S

– zbiór przykładów spełniaj cych reguł r.

• S

=S

S

zbiór przykładów (obiektów) z klasy decyzyjnej dla d i pokrywanych przez reguł r.

• Mo na zdefiniowa odpowiedniki powy szych poj dla zbioru reguł R.

• R mo e by zbiorem lub list reguł tj. uporz dkowanym zbiorem reguł.

• S(S) – zbiór wszystkich selektorów prostych postaci (s=v) wyst puj cych w zbiorze przykładów S.

Oddziel i rz d

• Staramy si znale jedn reguł która najlepiej pasuje do danych treningowych.

• Gdy mamy tak reguł , wszystkie przykłady treningowe (obiekty) pokrywane przez t reguł przestaj by wykorzystywane w dalszych rozwa aniach (zostaj oddzielone).

• Powtarzamy cał powy sz procedur dla jeszcze nie pokrytych (nie oddzielonych)

przykładów dopóki nie wyczerpiemy (oddzielimy) całego zbioru treningowego.

Dokładne sekwencyjne pokrywanie

perfect-covering(S) R:= ; P:=S;

while P ≠ do

r := find-rule(P,S);

R := R { r };

P:=P P k ;

Pragmatyczne sekwencyjne pokrywanie

covering(S,θ) R:= ; P:=S;

r:= find-rule(P,S);

while quality (r,P)>θ do R:= R { r };

P:=P P

;

r:= find-rule(P,S); P ≠

Uwagi do algorytmów

• Pragmatyczny algorytm pokryciowy ma parametr STOPU - warto θ -zapobiegaj cy

<s ₁ , s ₂ ,…, s _m >

• Proste (pojedyncze). V _s ={v}, {v} V _a czyli warunek (s=v) równowa ny z (a(x)=v).

V _s ={ v ₁ ,…,v _k } V _a tj. warunek s=v ₁ v ₂ … v _k .

• Uniwersalny oznaczany przez ?. V _s =V _a .

• Pusty oznaczany przez . V _s =

P:=P P _k ;