• Nie Znaleziono Wyników

Reguły decyzyjne

N/A
N/A
Protected

Academic year: 2021

Share "Reguły decyzyjne"

Copied!
7
0
0

Pełen tekst

(1)

Reguły decyzyjne

Marcin S. Szczuka Wykład 5

Plan wykładu

• Terminologia dla reguł decyzyjnych.

• Ogólne podej cie „oddziel i rz d ”.

• Konstruowanie reguł metod przeszukiwania – PRISM i CN2.

• Kryteria i miary.

Reguły

Reguł decyzyjn nazwiemy formuł postaci:

Je li warunki to decyzja

zwykle zapisywane jako:

warunki decyzja

Motywacja

Reguły decyzyjne s popularn metod reprezentacji hipotez ze wzgl du na:

• Intuicyjn interpretacj .

• Elastyczno ze wzgl du na typ danych.

• Istnienie szerokiej gamy metod do

konstruowania reguł.

(2)

Cel

Chcemy konstruowa reguły które s :

• Zgodne z danymi

• Kompletne

• Łatwe do wyliczenia (przy stosowaniu)

• Zrozumiałe

(za R. Michalskim)

Oznaczenia

Dla atrybutu (cechy) a V

a

wprowadzamy poj cie selektora (deskryptora, warunku, wi zu).

Selektor s identyfikujemy z podzbiorem V

s

zbioru warto ci atrybutu.

Wyró niamy kilka (naturalnych) rodzajów selektorów.

Cz warunkow reguły przedstawiamy zwykle jako zestaw selektorów:

<s 1 , s 2 ,…, s m >

Rodzaje selektorów

• Proste (pojedyncze). V s ={v}, {v} V a czyli warunek (s=v) równowa ny z (a(x)=v).

• Dysjunkcyjne (uogólnione).

V s ={ v 1 ,…,v k } V a tj. warunek s=v 1 v 2 … v k .

• Uniwersalny oznaczany przez ?. V s =V a .

• Pusty oznaczany przez . V s =

Poj cia zwi zane z regułami

Niech S X i r=(k d) – reguła decyzyjna dla której cz warunkowa k= < s

1

, …, s

m

>.

• Reguła r pokrywa obiekt x S gdy x spełnia warunki w poprzedniku k reguły r=(k d).

• Obiekt (etykietowany) x S spełnia reguł r=(k d) gdy jest pokrywany przez jej cz

warunkow k ma decyzj (etykiet ) d zgodn z

reguł .

(3)

Notacja

• S

k

- zbiór przykładów pokrywanych przez reguł r=(k d) .

• S

r

– zbiór przykładów spełniaj cych reguł r.

• S

dk

=S

k

S

d

zbiór przykładów (obiektów) z klasy decyzyjnej dla d i pokrywanych przez reguł r.

• Mo na zdefiniowa odpowiedniki powy szych poj dla zbioru reguł R.

R mo e by zbiorem lub list reguł tj. uporz dkowanym zbiorem reguł.

S(S) – zbiór wszystkich selektorów prostych postaci (s=v) wyst puj cych w zbiorze przykładów S.

Oddziel i rz d

• Staramy si znale jedn reguł która najlepiej pasuje do danych treningowych.

• Gdy mamy tak reguł , wszystkie przykłady treningowe (obiekty) pokrywane przez t reguł przestaj by wykorzystywane w dalszych rozwa aniach (zostaj oddzielone).

• Powtarzamy cał powy sz procedur dla jeszcze nie pokrytych (nie oddzielonych)

przykładów dopóki nie wyczerpiemy (oddzielimy) całego zbioru treningowego.

Dokładne sekwencyjne pokrywanie

perfect-covering(S) R:= ; P:=S;

while P ≠ do

r := find-rule(P,S);

R := R { r };

P:=P P k ;

Pragmatyczne sekwencyjne pokrywanie

covering(S,θ) R:= ; P:=S;

r:= find-rule(P,S);

while quality (r,P)>θ do R:= R { r };

P:=P P

r

;

r:= find-rule(P,S); P ≠

(4)

Uwagi do algorytmów

• Pragmatyczny algorytm pokryciowy ma parametr STOPU - warto θ -zapobiegaj cy

wyszukiwaniu nieistotnych reguł.

• Oddzielanie w przypadku algorytmu

pragmatycznego jest oparte na analizie całej reguły tj. zarówno cz ci warunkowej (poprzednika) jak i decyzyjnej (nast pnika).

Znajdowanie reguł

Jak zrealizowa procedur find-rule?

Mo emy sformułowa wyszukiwanie reguł jako klasyczne zadanie przeszukiwania i rozwi zywa przez

stosowanie:

• Metody „od ogółu do szczegółu” (general-to-specific) – algorytmy PRISM, CN2

• Metody „od ogółu do szczegółu w zadanym kierunku”

(general-to-specific directed search) – algorytm AQ

• Wyszukiwania z przycinaniem – RIPPER

• Wyszukiwania za pomoc metod ewolucyjnych (algorytmów genetycznych).

Od ogółu do szczegółu

1. Zacznij od najbardziej ogólnej reguły tj. reguły o pustej cz ci warunkowej (poprzedniku).

2. Dopóki pozostały jeszcze niewykorzystane atrybuty próbuj dodawa proste selektory dla tych atrybutów do poprzednika reguły.

3. Powtarzaj 2 wybieraj c zawsze reguł daj ca najwi ksz popraw jako ci predykcji. Usu wykorzystane selektory z dalszych rozwa a .

PRISM

• Algorytm PRISM jest prost realizacja przeszukiwania

„od ogółu do szczegółu” .

• Dodaje on kolejno warunki (selektory) do poprzednika reguły r=k d, staraj c si znale reguł , która maksymalizuje dokładno (accuracy):

|S

r

|/|S

k

|

• Ten algorytm sprawdza si tylko gdy szukamy małej liczby silnych reguł.

• Przy starcie algorytmu musimy poda (jako parametr)

warto decyzji dla której szukamy reguł.

(5)

Przykład

y

x

a b b

b b

b b b

b

b b b b

b b a a a a

a

Przykład

y

a b b

b b

b b b

b

b b b b

b b a a a a

a

1·2 x

Przykład

y

a b b

b b

b b b

b

b b b b

b b a a a a

a

x

2·6

Przykład

y

a b b

b b

b b b

b

b b b b

b b a a a a

a

1·2 x

2·6

(6)

Przeszukiwanie wi zkowe – CN2

CN2 jest udoskonaleniem idei konstruowania reguł „od ogółu do szczegółu” .

• Główne własno ci CN2:

• Stosuje przeszukiwanie wi zkowe. W ka dym kroku wybieranych jest „wi zka” zło ona z m najbardziej obiecuj cych kandydatów (a nie wszyscy).

• Sprzeczne i niepoprawne wyniki (reguły) s automatycznie eliminowane w trakcie działania algorytmu.

• Reguły statystycznie nieistotne nie s dalej rozwa ane.

• Ustala decyzj (nast pnik) dla reguły za pomoc głosowania wi kszo ciowego.

CN2 - algorytm

find-rule(P,m, ε) k

*

:=< ?, … ,? >; K:={ k

*

} ; while K ≠ do

K

new

:=add-selectors(K,S(P));

K

new

:=K

new

( K { < > } );

forall k K

new

do

if ( ψ

k

(P) > ε θ

k

(P)> θ

k*

(P)) then k

*

:=k;

end;

K:= arg max

k Kmnew

k

(P

k

));

end;

r:= k

*

decyzja(P

k*

,d) return r;

CN2 - szczegóły

• decyzja(S,d) zwraca najcz ciej wyst puj c w zbiorze przykładów S decyzj (gdy S ≠ ) lub warto domy ln d.

• ψ

k

(S) miara statystycznej istotno ci dla poprzednika reguły na zbiorze przykładów S. ε stanowi warto graniczn dla (miary) istotno ci.

Zwykle ε [0.01, 0.05].

• θ

k

(S) miara jako ci (cz ci warunkowej k) reguły.

CN2 – miary jako ci reguły

Kandydaci na θ

k

(S):

• Entropia θ

k

(S) =-E

k

(S)

=

d C

(|S

kd

|/|S

k

|) log

2

(|S

kd

|/|S

k

|)

• Inna, sparametryzowana miara:

θ (S)=

gdzie d jest najcz stsz decyzj w S

k

, C jest zbiorem mo liwych decyzji, a s parametrem.

+

+

(7)

CN2 – miary istotno ci poprzednika

Najcz ciej wykorzystywana – statystyka χ

2

. Je li S

k≠

jest zbiorem przykładów (obiektów)

pokrywanych tylko przez poprzednik k.

ψ

k

(S)=χ

k2

=

gdzie

=

Uczenie reguł w praktyce

• Brakuj ce warto ci – stosujemy metody uzupełniania, tak jak w innych

przypadkach.

• Atrybuty numeryczne – musimy przeprowadzi dyskretyzacj zanim zaczniemy wylicza reguły. Dotyczy to tak e atrybutów symbolicznych o zbyt du ej liczbie warto ci.

Zło ono

Asymptotyczna zło ono dla CN2:

O(2 v m n (|S|+v log (mn))) gdzie m - szeroko wi zki, n – liczba

atrybutów, v – maksymalna liczba warto ci atrybutu, |S| - liczba przykładów w zbiorze treningowym.

Zło ono - wnioski

• Trzeba bardzo uwa a na liczb i format atrybutów.

• Du e zbiory danych mog stanowi problem.

• Przy du ych i skomplikowanych danych warto stosowa inne metody (AQ,

RIPPER) b d wspomaga si dodatkow

wiedz o danych.

Cytaty

Powiązane dokumenty

Po drugie, przedstawione techniki można bezpo- średnio przenieść do problemów decyzyjnych, w których porównywane są zmienne losowe, niekoniecznie związane z oceną

Istotne znaczenie dla dalszego rozwoju teorii zjawiska piezoelektrycznego miały wyniki bada stwierdzaj ce, e współczynniki piezoelektryczne, okre laj ce zale no

Podaj szczegóły wykonania, takie jak: temat obrazu, kolorystyka, wyszczególnienie planów (kompozycja), nastrój, światłocień, odniesienie tematyki i kolorystyki do

Gdy notariusz nie może pełnić swych obowiązków, wyznacza na ten czas zastępstwo spośród zastępców notarialnych zatrudnionych w jego kancelarii oraz notariuszy ze wspólnej

3) uchwała Senatu może zostać odrzucona przez Sejm bezwzględną większością głosów co najmniej 1/2 ustawowej liczby posłów;.. • trzeci etap – Prezydent:. 1)

przykładów skonstruuj drzewo, przykładów skonstruuj drzewo, które najlepiej przybliża proces które najlepiej przybliża proces podejmowania decyzji dla tych podejmowania

W widowisku Za każdym pacianiem może się kryć następny wykorzystana została wieloznaczność słowa ..pociąg&#34; rozumianego jako Crodek lokomocji, skłon- ność erotyczna •

 różne konwencje dotyczące oznaczenia poszczególnych