Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji

(1)

Identyfikacja istotnych atrybutów

za pomocą Baysowskich miar

konfirmacji

Jacek Szcześniak

Jerzy Błaszczyński

Roman

Słowiński

(2)

Konspekt



Wstęp



Wprowadzenie



Metody typu wrapper



Nowe metody wyznaczania wartości informacyjnej



Analiza uzyskanych wyników

(3)

Wstęp – opis problemu

Problem

decyzyjny

Opisanie problemu

Atrybuty

a

₀

a

₁

a

₂

a

₃

a

₄

a

₅

…

a

_n Analiza problemu

Decyzja

(d)

(4)

Wstęp



atrybuty



analiza



decyzja

a

₀

a

₁

a

₂

a

₃

a

₄

a

₅

… a

_n

Klasyfikator

d

(5)

Wstęp

Atrybuty posiadające

małą wartość informacyjną

a

₀

a

₁

a

₂

a

₃

a

₄

a

₅

… a

_n

Klasyfikator

d



atrybuty



analiza



decyzja

(6)

Wstęp

a

₀

a

₁

a

₂

a

₃

a

₄

a

₅

… a

_n

Klasyfikator

d



atrybuty



analiza



decyzja

(7)

Wstęp



Korzyści płynące z wiedzy o wartości informacyjnej

atrybutu:



pozwala lepiej zrozumieć proces podejmowania decyzji



pozwala przeprowadzić

selekcję atrybutów (ang. feature

selection)



Zalety selekcji atrybutów:



nauka klasyfikatora przebiega szybciej (redukcja

złożoności obliczeniowej)

(8)

Wprowadzenie



Jak zidentyfikować atrybuty, które posiadają małą

wartość informacyjną?

Selekcja

atrybutów

Filtry

Metody

embedded

Metody

wrapper

(9)

Wprowadzenie



Filtry to metody statystyczne

(m.in. korelacja) pozwalające

określić podobieństwo pomiędzy atrybutami



Zalety



działają bez użycia klasyfikatora



szybkie w działaniu



Wady

w

ykorzystują proste miary podobieństwa między atrybutami

bez uwzględnienia specyfiki klasyfikatora

Selekcja atrybutów Filtry Metody embedded Metody wrapper

(10)

Wprowadzenie



Metody embedded

dokonują

selekcji atrybutów na etapie

uczenia klasyfikatora



Zalety

o

cena wartości informacyjnej atrybutu uwzględnia specyfikę

klasyfikatora



Wady

m

etody te są ściśle związane z procesem uczenia

konkretnego typu klasyfikatora (nie

są uniwersalne)

(11)

Wprowadzenie



Metody wrapper

dokonują

selekcji atrybutów wykorzystując

klasyfikator oraz traktując go jak czarną skrzynkę

(ang. black box)



Zalety



m

etody z tej grupy można stosować z dowolnym typem

klasyfikatora (uniwersalność)



ocena

wartości informacyjnej atrybutu uwzględnia specyfikę

klasyfikatora dzięki pętli sprzężenia zwrotnego z udziałem próby

testującej



Wady

z

wykle metody z tej grupy są bardziej kosztowne obliczeniowo od

filtrów i metod embedded

(12)

Metody typu wrapper



Główna wada

koszt obliczeniowy!



Jak zmniejszyć ten koszt?



s

tosując filtr jako pierwszy etap



stosując podejścia zachłanne wyznaczające podzbiór

najbardziej wartościowych atrybutów



Popularne zachłanne podejścia:



backward elimination



forward selection

(13)

Backward elimination

1 • Model zawiera wszystkie atrybuty

2

• Ocena poszczególnych atrybutów w modelu (np. metodą typu wrapper)

3 • Usunięcie z modelu najgorzej ocenionego atrybutu

4 • Jeśli nie osiągnięto warunku stopu, to przejdź do kroku 2

• Warunki stopu:

• osiągnięcie z góry założonej trafność klasyfikatora • osiągnięcie z góry określonej liczby atrybutów

(14)

Forward selection

1 • Model nie zawiera atrybutów

2

• Ocena poszczególnych atrybutów.

• Ocena odbywa się poprzez tymczasowe załączenie ocenianego atrybutu do aktualnego modelu

3 • Dodanie do modelu najlepiej ocenionego atrybutu

4 • Jeśli nie osiągnięto warunku stopu, to przejdź do kroku 2

• Warunki stopu:

• osiągnięcie z góry założonej trafność klasyfikatora • osiągnięcie z góry określonej liczby atrybutów

(15)

Metody wrapper – koncepcja Breimana

 Breiman opracował metodę analizy wartości informacyjnej dla Random Forest.

 Metoda ta, była później stosowana również dla innych klasyfikatorów.

 Działanie polega na zamianie wartości na analizowanym atrybucie poprzez

permutowanie wartości tego atrybutu w przykładach testowych

 Wartość informacyjna jest obliczana jako stosunek błędu na zbiorze

testowanym z permutowanymi wartościami na analizowanym atrybucie do błędu na zbiorze testowym z oryginalnymi wartościami.

(16)

Metoda na obecność (PP)

 Atrybut i wnosi pozytywną wiedzę, jeśli klasyfikacja z udziałem atrybutu i jest poprawna, a nie wnosi, gdy bez udziału atrybutu i też jest poprawna

 Metoda PP bada czy klasyfikacja jest poprawna częściej, gdy atrybut i bierze udział w klasyfikacji, niż gdy atrybut i nie bierze udziału w

klasyfikacji

H klasa decyzyjna y (hipoteza poprawnej klasy)

¬H klasa decyzyjna ¬y

E odpowiedź klasyfikatora z udziałem atrybutu i jest: f(x) = y ¬E odpowiedź klasyfikatora bez udziału atrybutu i jest: f(p_i(x)) = y

(17)

Metoda na niezbędność (PN)

 Atrybut i wnosi pozytywną wiedzę, jeśli klasyfikacja z udziałem atrybutu i jest poprawna, podczas gdy bez udziału i jest niepoprawna, a nie wnosi, w przeciwnym razie

 Metoda PN bada czy klasyfikacja jest poprawna częściej, gdy odpowiedź klasyfikatora z udziałem atrybutu i jest poprawna a bez udziału błędna, niż gdy odpowiedź klasyfikatora jest taka sama niezależnie od udziału atrybutu i, lub niepoprawna z udziałem a poprawna bez udziału atrybutu i H klasa decyzyjna y (hipoteza poprawnej klasy)

¬H klasa decyzyjna ¬y

E odpowiedź klasyfikatora z udziałem atrybutu i jest: f(x) = y, natomiast

odpowiedź klasyfikatora bez udziału atrybutu i jest: f(pi(x)) = ¬y

¬E

odpowiedź klasyfikatora z udziałem atrybutu i jest: f(x) = y, natomiast odpowiedź klasyfikatora bez udziału atrybutu i jest: f(pi(x)) = y,

albo f(x) = ¬y, natomiast f(p_i(x)) = y lub f(p_i(x)) = ¬y,

Pr 𝑦| 𝑓 𝑥 ≠ 𝑓 𝑝_𝑖 𝑥 i 𝑓 𝑥 = 𝑦 ≥

(18)

Nowe metody wyznaczania wartości

informacyjnej



PP :



PN:

 Porównanie tych prawdopodobieństw:

 jest pytaniem o Bayesowską konfirmację:

Pr 𝑦| 𝑓 𝑥 ≠ 𝑓 𝑝_𝑖 𝑥 i 𝑓 𝑥 = 𝑦 ≥

≥ Pr 𝑦| 𝑓 𝑥 = 𝑓 𝑝_𝑖 𝑥 lub 𝑓 𝑥 ≠ 𝑓 𝑝_𝑖 𝑥 i 𝑓 𝑥 = ¬𝑦 Pr 𝑦| 𝑓 𝑥 = 𝑦 ≥ Pr 𝑦| 𝑓 𝑝_𝑖 𝑥 = 𝑦

(19)

Nowe metody wyznaczania wartości

informacyjnej

 Różnica tych prawdopodobieństw jest Bayesowską miarą konfirmacji S:

 Breiman badał stosunek tych prawdopodobieństw (zgodnie z metodą PP):

(20)

Nowe metody wyznaczania wartości

informacyjnej (metoda na obecność PP)

 a to liczba przykładów z klasy y poprawnie* klasyfikowanych z udziałem

atrybutu i,

 b to liczba przykładów z klasy y poprawnie klasyfikowanych bez udziału

atrybutu i,

 c to liczba przykładów nie należących do klasy y i niepoprawnie

klasyfikowanych do y z udziałem atrybutu i,

 d to liczba przykładów nie należących do klasy y i niepoprawnie

klasyfikowanych do y bez udziału atrybutu i.

(21)

Nowe metody wyznaczania wartości

informacyjnej (metoda na niezbędność PN)

 a to liczba przykładów z klasy y poprawnie klasyfikowanych z udziałem

atrybutu i ale niepoprawnie klasyfikowanych bez jego udziału,

 b to liczba przykładów z klasy y klasyfikowanych tak samo z udziałem czy

bez udziału atrybutu i, lub niepoprawnie z udziałem ale poprawnie bez udziału,

 c to liczba przykładów nie należących do klasy y i niepoprawnie

klasyfikowanych z udziałem atrybutu i ale poprawnie klasyfikowanych bez jego udziału,

 d to liczba przykładów nie należących do klasy y i klasyfikowanych tak samo

z udziałem czy bez udziału atrybutu i, lub poprawnie z udziałem ale niepoprawnie bez udziału.

(22)

Nowe metody wyznaczania wartości

informacyjnej

 Metoda Breimana daje taki sam porządek atrybutów jak PP

(23)

Nowe metody wyznaczania wartości

informacyjnej

(24)

Analiza uzyskanych wyników

 Proces CV: 100 razy

 Procesu baggingu: 30 razy

 Wykorzystywane klasyfikatory: J48, JRip, Logistic, PART, RBF z wykorzystaniem biblioteki WEKA

 Analizowane zbiory z UCI Machine Learning Repository

 breast-w  diabetes  heart-statlog  ionosphere  lymph  mushroom  parkinsons  promoters  spectf  vote

(25)

Analiza uzyskanych wyników

Zbiór l. atrybutów l. klas l. obiektów

breast-w 10 2 699 diabetes 8 2 768 heart-statlog 13 2 270 ionosphere 34 2 351 lymph 19 4 148 mushroom 22 2 8124 parkinsons 23 2 197 promoters 59 2 106 spectf 44 2 267 vote 16 2 435

(26)

Analiza uzyskanych wyników - metoda PP

 Porządki utworzone dla Logistic oraz RBF są słabo skorelowane (słabe

podobieństwo) (~0.43) z porządkami otrzymanymi dla klasyfikatorów regułowych.

 Porządek dla RBF jest słabo skorelowany z porządkiem utworzonym dla

klasyfikatora Logistic

 Otrzymywana wartość informacyjna dla atrybutów (czy też porządek) jest

(27)

Analiza uzyskanych wyników - metoda PN

 Porządki utworzone dla Logistic oraz RBF są słabo skorelowane (słabe

podobieństwo) z porządkami otrzymanymi dla klasyfikatorów regułowych.

 Porządek dla RBF jest słabo skorelowany z porządkiem utworzonym dla

klasyfikatora Logistic

 Otrzymywana wartość informacyjna dla atrybutów (czy też porządek) jest

uzależniona od analizowanego klasyfikatora

 Większy wpływ na otrzymywane wyniki ma rodzaj badanego klasyfikatora,

(28)

Analiza uzyskanych wyników metodami PP

oraz PN

 Otrzymane porządki atrybutów dla tych samych typów klasyfikatorów metodami PP oraz PN są podobne (~0.7)

(29)

Analiza uzyskanych wyników

Parkinsons – S(PN)

 Ujemne wartości

(30)

Analiza uzyskanych wyników

Parkinsons – S(PP)

 Dodatnie wartości

(31)

Analiza uzyskanych wyników

Vote

(32)

Analiza uzyskanych wyników

Mushroom

(33)

Analiza uzyskanych wyników

MC Połowa atrybutów posiadających największą wartość informacyjną

LC Połowa atrybutów posiadających najmniejszą wartość informacyjną

MC<ORG W ilu przypadkach trafność klasyfikacji pogorszyła się po

usunięciu połowy atrybutów posiadających najmniejszą wartość informacyjną w stosunku do trafności klasyfikatora

posiadającego wszystkie atrybuty

MC<LC W ilu przypadkach trafność klasyfikatora wykorzystującego tylko MC jest gorsza od trafności klasyfikatora

(34)

(35)

Analiza uzyskanych wyników

 MC<LC w naszych analizowanych przypadkach powinno być 0/10, gdyż

jest to potwierdzeniem, że atrybuty dobrze zostały podzielone ze względu na wartość informacyjną

(36)

Analiza uzyskanych wyników

(37)

(38)

(39)

Podsumowanie

 Zaproponowane metody są typu wrapper i z powodzeniem mogą być

stosowane z dowolnym rodzajem klasyfikatora, w tym z klasyfikatorem typu „czarnej skrzynki”

 Stosowanie permutacji w celu „wyłączenia” atrybutu z procesu klasyfikacji  Wykorzystanie miar konfirmacji Bayesowskiej do szacowania wartości

informacyjnej atrybutów, gdzie hipoteza jest potwierdzana przez przesłankę

 Metoda PP bada czy klasyfikacja jest poprawna częściej, gdy atrybut i bierze udział w klasyfikacji, niż gdy atrybut i nie bierze udziału w klasyfikacji

 Metoda PN bada czy klasyfikacja jest poprawna częściej, gdy odpowiedź

klasyfikatora z udziałem atrybutu i jest poprawna a bez udziału błędna, niż gdy odpowiedź klasyfikatora jest taka sama niezależnie od udziału atrybutu i, lub niepoprawna z udziałem a poprawna z udziałem atrybutu i

(40)

Podsumowanie

 Poprawność działania została przetestowana z wykorzystaniem 5 różnych

klasyfikatorów oraz 10 zbiorów danych z UCI Machine Learning Repository

 Trafność klasyfikatora z najbardziej wartościowymi atrybutami jest lepsza od

trafność klasyfikatora z najmniej wartościowymi atrybutami (dla metody PN z kilkoma wyjątkami)

 Uzyskiwane wyniki są zależne od wykorzystywanego klasyfikatora w

procesie szacowania wartości informacyjnej

 Otrzymane porządki atrybutów dla klasyfikatorów bazujących na regułach są

(41)