Reguły decyzyjne
Marcin S. Szczuka Wykład 5
Plan wykładu
• Terminologia dla reguł decyzyjnych.
• Ogólne podej cie „oddziel i rz d ”.
• Konstruowanie reguł metod przeszukiwania – PRISM i CN2.
• Kryteria i miary.
Reguły
Reguł decyzyjn nazwiemy formuł postaci:
Je li warunki to decyzja
zwykle zapisywane jako:
warunki decyzja
Motywacja
Reguły decyzyjne s popularn metod reprezentacji hipotez ze wzgl du na:
• Intuicyjn interpretacj .
• Elastyczno ze wzgl du na typ danych.
• Istnienie szerokiej gamy metod do
konstruowania reguł.
Cel
Chcemy konstruowa reguły które s :
• Zgodne z danymi
• Kompletne
• Łatwe do wyliczenia (przy stosowaniu)
• Zrozumiałe
(za R. Michalskim)
Oznaczenia
Dla atrybutu (cechy) a V
awprowadzamy poj cie selektora (deskryptora, warunku, wi zu).
Selektor s identyfikujemy z podzbiorem V
szbioru warto ci atrybutu.
Wyró niamy kilka (naturalnych) rodzajów selektorów.
Cz warunkow reguły przedstawiamy zwykle jako zestaw selektorów:
<s 1 , s 2 ,…, s m >
Rodzaje selektorów
• Proste (pojedyncze). V s ={v}, {v} V a czyli warunek (s=v) równowa ny z (a(x)=v).
• Dysjunkcyjne (uogólnione).
V s ={ v 1 ,…,v k } V a tj. warunek s=v 1 v 2 … v k .
• Uniwersalny oznaczany przez ?. V s =V a .
• Pusty oznaczany przez . V s =
Poj cia zwi zane z regułami
Niech S X i r=(k d) – reguła decyzyjna dla której cz warunkowa k= < s
1, …, s
m>.
• Reguła r pokrywa obiekt x S gdy x spełnia warunki w poprzedniku k reguły r=(k d).
• Obiekt (etykietowany) x S spełnia reguł r=(k d) gdy jest pokrywany przez jej cz
warunkow k ma decyzj (etykiet ) d zgodn z
reguł .
Notacja
• S
k- zbiór przykładów pokrywanych przez reguł r=(k d) .
• S
r– zbiór przykładów spełniaj cych reguł r.
• S
dk=S
kS
dzbiór przykładów (obiektów) z klasy decyzyjnej dla d i pokrywanych przez reguł r.
• Mo na zdefiniowa odpowiedniki powy szych poj dla zbioru reguł R.
• R mo e by zbiorem lub list reguł tj. uporz dkowanym zbiorem reguł.
• S(S) – zbiór wszystkich selektorów prostych postaci (s=v) wyst puj cych w zbiorze przykładów S.
Oddziel i rz d
• Staramy si znale jedn reguł która najlepiej pasuje do danych treningowych.
• Gdy mamy tak reguł , wszystkie przykłady treningowe (obiekty) pokrywane przez t reguł przestaj by wykorzystywane w dalszych rozwa aniach (zostaj oddzielone).
• Powtarzamy cał powy sz procedur dla jeszcze nie pokrytych (nie oddzielonych)
przykładów dopóki nie wyczerpiemy (oddzielimy) całego zbioru treningowego.
Dokładne sekwencyjne pokrywanie
perfect-covering(S) R:= ; P:=S;
while P ≠ do
r := find-rule(P,S);
R := R { r };
P:=P P k ;
Pragmatyczne sekwencyjne pokrywanie
covering(S,θ) R:= ; P:=S;
r:= find-rule(P,S);
while quality (r,P)>θ do R:= R { r };
P:=P P
r;
r:= find-rule(P,S); P ≠
Uwagi do algorytmów
• Pragmatyczny algorytm pokryciowy ma parametr STOPU - warto θ -zapobiegaj cy
wyszukiwaniu nieistotnych reguł.
• Oddzielanie w przypadku algorytmu
pragmatycznego jest oparte na analizie całej reguły tj. zarówno cz ci warunkowej (poprzednika) jak i decyzyjnej (nast pnika).
Znajdowanie reguł
Jak zrealizowa procedur find-rule?
Mo emy sformułowa wyszukiwanie reguł jako klasyczne zadanie przeszukiwania i rozwi zywa przez
stosowanie:
• Metody „od ogółu do szczegółu” (general-to-specific) – algorytmy PRISM, CN2
• Metody „od ogółu do szczegółu w zadanym kierunku”
(general-to-specific directed search) – algorytm AQ
• Wyszukiwania z przycinaniem – RIPPER
• Wyszukiwania za pomoc metod ewolucyjnych (algorytmów genetycznych).
Od ogółu do szczegółu
1. Zacznij od najbardziej ogólnej reguły tj. reguły o pustej cz ci warunkowej (poprzedniku).
2. Dopóki pozostały jeszcze niewykorzystane atrybuty próbuj dodawa proste selektory dla tych atrybutów do poprzednika reguły.
3. Powtarzaj 2 wybieraj c zawsze reguł daj ca najwi ksz popraw jako ci predykcji. Usu wykorzystane selektory z dalszych rozwa a .
PRISM
• Algorytm PRISM jest prost realizacja przeszukiwania
„od ogółu do szczegółu” .
• Dodaje on kolejno warunki (selektory) do poprzednika reguły r=k d, staraj c si znale reguł , która maksymalizuje dokładno (accuracy):
|S
r|/|S
k|
• Ten algorytm sprawdza si tylko gdy szukamy małej liczby silnych reguł.
• Przy starcie algorytmu musimy poda (jako parametr)
warto decyzji dla której szukamy reguł.
Przykład
y
x
a b b
b b
b b b
b
b b b b
b b a a a a
a
Przykład
y
a b b
b b
b b b
b
b b b b
b b a a a a
a
1·2 x
Przykład
y
a b b
b b
b b b
b
b b b b
b b a a a a
a
x
2·6
Przykład
y
a b b
b b
b b b
b
b b b b
b b a a a a
a
1·2 x
2·6
Przeszukiwanie wi zkowe – CN2
CN2 jest udoskonaleniem idei konstruowania reguł „od ogółu do szczegółu” .
• Główne własno ci CN2:
• Stosuje przeszukiwanie wi zkowe. W ka dym kroku wybieranych jest „wi zka” zło ona z m najbardziej obiecuj cych kandydatów (a nie wszyscy).
• Sprzeczne i niepoprawne wyniki (reguły) s automatycznie eliminowane w trakcie działania algorytmu.
• Reguły statystycznie nieistotne nie s dalej rozwa ane.
• Ustala decyzj (nast pnik) dla reguły za pomoc głosowania wi kszo ciowego.
CN2 - algorytm
find-rule(P,m, ε) k
*:=< ?, … ,? >; K:={ k
*} ; while K ≠ do
K
new:=add-selectors(K,S(P));
K
new:=K
new( K { < > } );
forall k K
newdo
if ( ψ
k(P) > ε θ
k(P)> θ
k*(P)) then k
*:=k;
end;
K:= arg max
k Kmnew(θ
k(P
k));
end;
r:= k
*decyzja(P
k*,d) return r;
CN2 - szczegóły
• decyzja(S,d) zwraca najcz ciej wyst puj c w zbiorze przykładów S decyzj (gdy S ≠ ) lub warto domy ln d.
• ψ
k(S) miara statystycznej istotno ci dla poprzednika reguły na zbiorze przykładów S. ε stanowi warto graniczn dla (miary) istotno ci.
Zwykle ε [0.01, 0.05].
• θ
k(S) miara jako ci (cz ci warunkowej k) reguły.
CN2 – miary jako ci reguły
Kandydaci na θ
k(S):
• Entropia θ
k(S) =-E
k(S)
=
d C(|S
kd|/|S
k|) log
2(|S
kd|/|S
k|)
• Inna, sparametryzowana miara:
θ (S)=
gdzie d jest najcz stsz decyzj w S
k, C jest zbiorem mo liwych decyzji, a s parametrem.
+
+
CN2 – miary istotno ci poprzednika
Najcz ciej wykorzystywana – statystyka χ
2. Je li S
k≠jest zbiorem przykładów (obiektów)
pokrywanych tylko przez poprzednik k.
ψ
k(S)=χ
k2=
gdzie
∈
≠