• Nie Znaleziono Wyników

Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji

N/A
N/A
Protected

Academic year: 2021

Share "Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji"

Copied!
41
0
0

Pełen tekst

(1)

Identyfikacja istotnych atrybutów

za pomocą Baysowskich miar

konfirmacji

Jacek Szcześniak

Jerzy Błaszczyński

Roman

Słowiński

(2)

Konspekt

Wstęp

Wprowadzenie

Metody typu wrapper

Nowe metody wyznaczania wartości informacyjnej

Analiza uzyskanych wyników

(3)

Wstęp – opis problemu

Problem

decyzyjny

Opisanie problemu

Atrybuty

a

0

a

1

a

2

a

3

a

4

a

5

a

n Analiza problemu

Decyzja

(d)

(4)

Wstęp

atrybuty

analiza

decyzja

a

0

a

1

a

2

a

3

a

4

a

5

… a

n

Klasyfikator

d

(5)

Wstęp

Atrybuty posiadające

małą wartość informacyjną

a

0

a

1

a

2

a

3

a

4

a

5

… a

n

Klasyfikator

d

atrybuty

analiza

decyzja

(6)

Wstęp

a

0

a

1

a

2

a

3

a

4

a

5

… a

n

Klasyfikator

d

atrybuty

analiza

decyzja

(7)

Wstęp

Korzyści płynące z wiedzy o wartości informacyjnej

atrybutu:

pozwala lepiej zrozumieć proces podejmowania decyzji

pozwala przeprowadzić

selekcję atrybutów (ang. feature

selection)

Zalety selekcji atrybutów:

nauka klasyfikatora przebiega szybciej (redukcja

złożoności obliczeniowej)

(8)

Wprowadzenie

Jak zidentyfikować atrybuty, które posiadają małą

wartość informacyjną?

Selekcja

atrybutów

Filtry

Metody

embedded

Metody

wrapper

(9)

Wprowadzenie

Filtry to metody statystyczne

(m.in. korelacja) pozwalające

określić podobieństwo pomiędzy atrybutami

Zalety

działają bez użycia klasyfikatora

szybkie w działaniu

Wady

w

ykorzystują proste miary podobieństwa między atrybutami

bez uwzględnienia specyfiki klasyfikatora

Selekcja atrybutów Filtry Metody embedded Metody wrapper

(10)

Wprowadzenie

Metody embedded

dokonują

selekcji atrybutów na etapie

uczenia klasyfikatora

Zalety

o

cena wartości informacyjnej atrybutu uwzględnia specyfikę

klasyfikatora

Wady

m

etody te są ściśle związane z procesem uczenia

konkretnego typu klasyfikatora (nie

są uniwersalne)

Selekcja atrybutów Filtry Metody embedded Metody wrapper

(11)

Wprowadzenie

Metody wrapper

dokonują

selekcji atrybutów wykorzystując

klasyfikator oraz traktując go jak czarną skrzynkę

(ang. black box)

Zalety

m

etody z tej grupy można stosować z dowolnym typem

klasyfikatora (uniwersalność)

ocena

wartości informacyjnej atrybutu uwzględnia specyfikę

klasyfikatora dzięki pętli sprzężenia zwrotnego z udziałem próby

testującej

Wady

z

wykle metody z tej grupy są bardziej kosztowne obliczeniowo od

filtrów i metod embedded

Selekcja atrybutów Filtry Metody embedded Metody wrapper

(12)

Metody typu wrapper

Główna wada

koszt obliczeniowy!

Jak zmniejszyć ten koszt?

s

tosując filtr jako pierwszy etap

stosując podejścia zachłanne wyznaczające podzbiór

najbardziej wartościowych atrybutów

Popularne zachłanne podejścia:

backward elimination

forward selection

(13)

Backward elimination

1 • Model zawiera wszystkie atrybuty

2

• Ocena poszczególnych atrybutów w modelu (np. metodą typu wrapper)

3 • Usunięcie z modelu najgorzej ocenionego atrybutu

4 • Jeśli nie osiągnięto warunku stopu, to przejdź do kroku 2

• Warunki stopu:

• osiągnięcie z góry założonej trafność klasyfikatora • osiągnięcie z góry określonej liczby atrybutów

(14)

Forward selection

1 • Model nie zawiera atrybutów

2

• Ocena poszczególnych atrybutów.

• Ocena odbywa się poprzez tymczasowe załączenie ocenianego atrybutu do aktualnego modelu

3 • Dodanie do modelu najlepiej ocenionego atrybutu

4 • Jeśli nie osiągnięto warunku stopu, to przejdź do kroku 2

• Warunki stopu:

• osiągnięcie z góry założonej trafność klasyfikatora • osiągnięcie z góry określonej liczby atrybutów

(15)

Metody wrapper – koncepcja Breimana

 Breiman opracował metodę analizy wartości informacyjnej dla Random Forest.

 Metoda ta, była później stosowana również dla innych klasyfikatorów.

 Działanie polega na zamianie wartości na analizowanym atrybucie poprzez

permutowanie wartości tego atrybutu w przykładach testowych

 Wartość informacyjna jest obliczana jako stosunek błędu na zbiorze

testowanym z permutowanymi wartościami na analizowanym atrybucie do błędu na zbiorze testowym z oryginalnymi wartościami.

(16)

Metoda na obecność (PP)

Atrybut i wnosi pozytywną wiedzę, jeśli klasyfikacja z udziałem atrybutu i jest poprawna, a nie wnosi, gdy bez udziału atrybutu i też jest poprawna

Metoda PP bada czy klasyfikacja jest poprawna częściej, gdy atrybut i bierze udział w klasyfikacji, niż gdy atrybut i nie bierze udziału w

klasyfikacji

H klasa decyzyjna y (hipoteza poprawnej klasy)

¬H klasa decyzyjna ¬y

E odpowiedź klasyfikatora z udziałem atrybutu i jest: f(x) = y ¬E odpowiedź klasyfikatora bez udziału atrybutu i jest: f(pi(x)) = y

(17)

Metoda na niezbędność (PN)

Atrybut i wnosi pozytywną wiedzę, jeśli klasyfikacja z udziałem atrybutu i jest poprawna, podczas gdy bez udziału i jest niepoprawna, a nie wnosi, w przeciwnym razie

Metoda PN bada czy klasyfikacja jest poprawna częściej, gdy odpowiedź klasyfikatora z udziałem atrybutu i jest poprawna a bez udziału błędna, niż gdy odpowiedź klasyfikatora jest taka sama niezależnie od udziału atrybutu i, lub niepoprawna z udziałem a poprawna bez udziału atrybutu i H klasa decyzyjna y (hipoteza poprawnej klasy)

¬H klasa decyzyjna ¬y

E odpowiedź klasyfikatora z udziałem atrybutu i jest: f(x) = y, natomiast

odpowiedź klasyfikatora bez udziału atrybutu i jest: f(pi(x)) = ¬y

¬E

odpowiedź klasyfikatora z udziałem atrybutu i jest: f(x) = y, natomiast odpowiedź klasyfikatora bez udziału atrybutu i jest: f(pi(x)) = y,

albo f(x) = ¬y, natomiast f(pi(x)) = y lub f(pi(x)) = ¬y,

Pr 𝑦| 𝑓 𝑥 ≠ 𝑓 𝑝𝑖 𝑥 i 𝑓 𝑥 = 𝑦 ≥

(18)

Nowe metody wyznaczania wartości

informacyjnej

PP :

PN:

 Porównanie tych prawdopodobieństw:

 jest pytaniem o Bayesowską konfirmację:

Pr 𝑦| 𝑓 𝑥 ≠ 𝑓 𝑝𝑖 𝑥 i 𝑓 𝑥 = 𝑦 ≥

≥ Pr 𝑦| 𝑓 𝑥 = 𝑓 𝑝𝑖 𝑥 lub 𝑓 𝑥 ≠ 𝑓 𝑝𝑖 𝑥 i 𝑓 𝑥 = ¬𝑦 Pr 𝑦| 𝑓 𝑥 = 𝑦 ≥ Pr 𝑦| 𝑓 𝑝𝑖 𝑥 = 𝑦

(19)

Nowe metody wyznaczania wartości

informacyjnej

Różnica tych prawdopodobieństw jest Bayesowską miarą konfirmacji S:

 Breiman badał stosunek tych prawdopodobieństw (zgodnie z metodą PP):

(20)

Nowe metody wyznaczania wartości

informacyjnej (metoda na obecność PP)

a to liczba przykładów z klasy y poprawnie* klasyfikowanych z udziałem

atrybutu i,

b to liczba przykładów z klasy y poprawnie klasyfikowanych bez udziału

atrybutu i,

c to liczba przykładów nie należących do klasy y i niepoprawnie

klasyfikowanych do y z udziałem atrybutu i,

d to liczba przykładów nie należących do klasy y i niepoprawnie

klasyfikowanych do y bez udziału atrybutu i.

(21)

Nowe metody wyznaczania wartości

informacyjnej (metoda na niezbędność PN)

a to liczba przykładów z klasy y poprawnie klasyfikowanych z udziałem

atrybutu i ale niepoprawnie klasyfikowanych bez jego udziału,

b to liczba przykładów z klasy y klasyfikowanych tak samo z udziałem czy

bez udziału atrybutu i, lub niepoprawnie z udziałem ale poprawnie bez udziału,

c to liczba przykładów nie należących do klasy y i niepoprawnie

klasyfikowanych z udziałem atrybutu i ale poprawnie klasyfikowanych bez jego udziału,

d to liczba przykładów nie należących do klasy y i klasyfikowanych tak samo

z udziałem czy bez udziału atrybutu i, lub poprawnie z udziałem ale niepoprawnie bez udziału.

(22)

Nowe metody wyznaczania wartości

informacyjnej

 Metoda Breimana daje taki sam porządek atrybutów jak PP

(23)

Nowe metody wyznaczania wartości

informacyjnej

(24)

Analiza uzyskanych wyników

 Proces CV: 100 razy

 Procesu baggingu: 30 razy

 Wykorzystywane klasyfikatory: J48, JRip, Logistic, PART, RBF z wykorzystaniem biblioteki WEKA

 Analizowane zbiory z UCI Machine Learning Repository

 breast-w  diabetes  heart-statlog  ionosphere  lymph  mushroom  parkinsons  promoters  spectf  vote

(25)

Analiza uzyskanych wyników

Zbiór l. atrybutów l. klas l. obiektów

breast-w 10 2 699 diabetes 8 2 768 heart-statlog 13 2 270 ionosphere 34 2 351 lymph 19 4 148 mushroom 22 2 8124 parkinsons 23 2 197 promoters 59 2 106 spectf 44 2 267 vote 16 2 435

(26)

Analiza uzyskanych wyników - metoda PP

 Porządki utworzone dla Logistic oraz RBF są słabo skorelowane (słabe

podobieństwo) (~0.43) z porządkami otrzymanymi dla klasyfikatorów regułowych.

 Porządek dla RBF jest słabo skorelowany z porządkiem utworzonym dla

klasyfikatora Logistic

 Otrzymywana wartość informacyjna dla atrybutów (czy też porządek) jest

(27)

Analiza uzyskanych wyników - metoda PN

 Porządki utworzone dla Logistic oraz RBF są słabo skorelowane (słabe

podobieństwo) z porządkami otrzymanymi dla klasyfikatorów regułowych.

 Porządek dla RBF jest słabo skorelowany z porządkiem utworzonym dla

klasyfikatora Logistic

 Otrzymywana wartość informacyjna dla atrybutów (czy też porządek) jest

uzależniona od analizowanego klasyfikatora

 Większy wpływ na otrzymywane wyniki ma rodzaj badanego klasyfikatora,

(28)

Analiza uzyskanych wyników metodami PP

oraz PN

 Otrzymane porządki atrybutów dla tych samych typów klasyfikatorów metodami PP oraz PN są podobne (~0.7)

(29)

Analiza uzyskanych wyników

Parkinsons – S(PN)

 Ujemne wartości

(30)

Analiza uzyskanych wyników

Parkinsons – S(PP)

 Dodatnie wartości

(31)

Analiza uzyskanych wyników

Vote

(32)

Analiza uzyskanych wyników

Mushroom

(33)

Analiza uzyskanych wyników

MC Połowa atrybutów posiadających największą wartość informacyjną

LC Połowa atrybutów posiadających najmniejszą wartość informacyjną

MC<ORG W ilu przypadkach trafność klasyfikacji pogorszyła się po

usunięciu połowy atrybutów posiadających najmniejszą wartość informacyjną w stosunku do trafności klasyfikatora

posiadającego wszystkie atrybuty

MC<LC W ilu przypadkach trafność klasyfikatora wykorzystującego tylko MC jest gorsza od trafności klasyfikatora

(34)
(35)

Analiza uzyskanych wyników

 MC<LC w naszych analizowanych przypadkach powinno być 0/10, gdyż

jest to potwierdzeniem, że atrybuty dobrze zostały podzielone ze względu na wartość informacyjną

(36)

Analiza uzyskanych wyników

(37)
(38)
(39)

Podsumowanie

Zaproponowane metody są typu wrapper i z powodzeniem mogą być

stosowane z dowolnym rodzajem klasyfikatora, w tym z klasyfikatorem typu „czarnej skrzynki”

 Stosowanie permutacji w celu „wyłączenia” atrybutu z procesu klasyfikacji  Wykorzystanie miar konfirmacji Bayesowskiej do szacowania wartości

informacyjnej atrybutów, gdzie hipoteza jest potwierdzana przez przesłankę

 Metoda PP bada czy klasyfikacja jest poprawna częściej, gdy atrybut i bierze udział w klasyfikacji, niż gdy atrybut i nie bierze udziału w klasyfikacji

 Metoda PN bada czy klasyfikacja jest poprawna częściej, gdy odpowiedź

klasyfikatora z udziałem atrybutu i jest poprawna a bez udziału błędna, niż gdy odpowiedź klasyfikatora jest taka sama niezależnie od udziału atrybutu i, lub niepoprawna z udziałem a poprawna z udziałem atrybutu i

(40)

Podsumowanie

 Poprawność działania została przetestowana z wykorzystaniem 5 różnych

klasyfikatorów oraz 10 zbiorów danych z UCI Machine Learning Repository

 Trafność klasyfikatora z najbardziej wartościowymi atrybutami jest lepsza od

trafność klasyfikatora z najmniej wartościowymi atrybutami (dla metody PN z kilkoma wyjątkami)

 Uzyskiwane wyniki są zależne od wykorzystywanego klasyfikatora w

procesie szacowania wartości informacyjnej

 Otrzymane porządki atrybutów dla klasyfikatorów bazujących na regułach są

(41)

Cytaty

Powiązane dokumenty

5 Definicja zaczerpnięta z normy ISO/EIC 90003: 2007: Software Engineering – Guidelines for the Application of ISO 9001:2000 to Computer Software. 6 Powszechnie stosowana

Posługi- wał się on wtedy językiem gyyz, który był jednak rozumiany tylko przez nielicznych, gdyż większość ludzi komunikowała się w amharskim.. Kościół Etiopski zrozumiał,

Firstly, I shall argue that the advertisement con- structs the millennium as a predominantly British affair and it is predominantly the British perspective that is used in

Bez względu jednak na to, który z tych schematów wydaje nam się bar- dziej adekwatny, można spróbować sporządzić listę najbardziej podstawowych atrybutów, bez których (lub

Warunek (aura, sloneczna) nie może być opuszczony, gdyż otrzymana w ten sposób reguła (wiatr, slaby) → (pogoda, 0), oprócz obiektu 1, pokry- wa obiekty z innej klasy decyzyjnej,

● Losowe z zastępowaniem jest odmianą wyboru losowego, gdy każdy obiekt może być wylosowany więcej niż raz. Ten rodzaj losowania gwarantuje ze każdy element jest losowany

Dotyczy to zarówno metod indukcji klasyfikatorów, które nie wymagają ani uzupełniania brakujących danych, ani modyfikacji teorii i algorytmów, jak i rozszerzenia teorii

Spójne zbiory symetrii miar (interpretacja regułowa).. korzystne: {id, IS, EHIS, EHS}, niekorzystne: {ES, HS,