Identyfikacja istotnych atrybutów
za pomocą Baysowskich miar
konfirmacji
Jacek Szcześniak
Jerzy Błaszczyński
Roman
Słowiński
Konspekt
Wstęp
Wprowadzenie
Metody typu wrapper
Nowe metody wyznaczania wartości informacyjnej
Analiza uzyskanych wyników
Wstęp – opis problemu
Problem
decyzyjny
Opisanie problemuAtrybuty
a
0a
1a
2a
3a
4a
5…
a
n Analiza problemuDecyzja
(d)
Wstęp
atrybuty
analiza
decyzja
a
0a
1a
2a
3a
4a
5… a
nKlasyfikator
d
Wstęp
Atrybuty posiadające
małą wartość informacyjną
a
0a
1a
2a
3a
4a
5… a
nKlasyfikator
d
atrybuty
analiza
decyzja
Wstęp
a
0a
1a
2a
3a
4a
5… a
nKlasyfikator
d
atrybuty
analiza
decyzja
Wstęp
Korzyści płynące z wiedzy o wartości informacyjnej
atrybutu:
pozwala lepiej zrozumieć proces podejmowania decyzji
pozwala przeprowadzić
selekcję atrybutów (ang. feature
selection)
Zalety selekcji atrybutów:
nauka klasyfikatora przebiega szybciej (redukcja
złożoności obliczeniowej)
Wprowadzenie
Jak zidentyfikować atrybuty, które posiadają małą
wartość informacyjną?
Selekcja
atrybutów
Filtry
Metody
embedded
Metody
wrapper
Wprowadzenie
Filtry to metody statystyczne
(m.in. korelacja) pozwalające
określić podobieństwo pomiędzy atrybutami
Zalety
działają bez użycia klasyfikatora
szybkie w działaniu
Wady
w
ykorzystują proste miary podobieństwa między atrybutami
bez uwzględnienia specyfiki klasyfikatora
Selekcja atrybutów Filtry Metody embedded Metody wrapper
Wprowadzenie
Metody embedded
dokonują
selekcji atrybutów na etapie
uczenia klasyfikatora
Zalety
o
cena wartości informacyjnej atrybutu uwzględnia specyfikę
klasyfikatora
Wady
m
etody te są ściśle związane z procesem uczenia
konkretnego typu klasyfikatora (nie
są uniwersalne)
Selekcja atrybutów Filtry Metody embedded Metody wrapper
Wprowadzenie
Metody wrapper
dokonują
selekcji atrybutów wykorzystując
klasyfikator oraz traktując go jak czarną skrzynkę
(ang. black box)
Zalety
m
etody z tej grupy można stosować z dowolnym typem
klasyfikatora (uniwersalność)
ocena
wartości informacyjnej atrybutu uwzględnia specyfikę
klasyfikatora dzięki pętli sprzężenia zwrotnego z udziałem próby
testującej
Wady
z
wykle metody z tej grupy są bardziej kosztowne obliczeniowo od
filtrów i metod embedded
Selekcja atrybutów Filtry Metody embedded Metody wrapper
Metody typu wrapper
Główna wada
koszt obliczeniowy!
Jak zmniejszyć ten koszt?
s
tosując filtr jako pierwszy etap
stosując podejścia zachłanne wyznaczające podzbiór
najbardziej wartościowych atrybutów
Popularne zachłanne podejścia:
backward elimination
forward selection
Backward elimination
1 • Model zawiera wszystkie atrybuty
2
• Ocena poszczególnych atrybutów w modelu (np. metodą typu wrapper)
3 • Usunięcie z modelu najgorzej ocenionego atrybutu
4 • Jeśli nie osiągnięto warunku stopu, to przejdź do kroku 2
• Warunki stopu:
• osiągnięcie z góry założonej trafność klasyfikatora • osiągnięcie z góry określonej liczby atrybutów
Forward selection
1 • Model nie zawiera atrybutów
2
• Ocena poszczególnych atrybutów.
• Ocena odbywa się poprzez tymczasowe załączenie ocenianego atrybutu do aktualnego modelu
3 • Dodanie do modelu najlepiej ocenionego atrybutu
4 • Jeśli nie osiągnięto warunku stopu, to przejdź do kroku 2
• Warunki stopu:
• osiągnięcie z góry założonej trafność klasyfikatora • osiągnięcie z góry określonej liczby atrybutów
Metody wrapper – koncepcja Breimana
Breiman opracował metodę analizy wartości informacyjnej dla Random Forest.
Metoda ta, była później stosowana również dla innych klasyfikatorów.
Działanie polega na zamianie wartości na analizowanym atrybucie poprzez
permutowanie wartości tego atrybutu w przykładach testowych
Wartość informacyjna jest obliczana jako stosunek błędu na zbiorze
testowanym z permutowanymi wartościami na analizowanym atrybucie do błędu na zbiorze testowym z oryginalnymi wartościami.
Metoda na obecność (PP)
Atrybut i wnosi pozytywną wiedzę, jeśli klasyfikacja z udziałem atrybutu i jest poprawna, a nie wnosi, gdy bez udziału atrybutu i też jest poprawna
Metoda PP bada czy klasyfikacja jest poprawna częściej, gdy atrybut i bierze udział w klasyfikacji, niż gdy atrybut i nie bierze udziału w
klasyfikacji
H klasa decyzyjna y (hipoteza poprawnej klasy)
¬H klasa decyzyjna ¬y
E odpowiedź klasyfikatora z udziałem atrybutu i jest: f(x) = y ¬E odpowiedź klasyfikatora bez udziału atrybutu i jest: f(pi(x)) = y
Metoda na niezbędność (PN)
Atrybut i wnosi pozytywną wiedzę, jeśli klasyfikacja z udziałem atrybutu i jest poprawna, podczas gdy bez udziału i jest niepoprawna, a nie wnosi, w przeciwnym razie
Metoda PN bada czy klasyfikacja jest poprawna częściej, gdy odpowiedź klasyfikatora z udziałem atrybutu i jest poprawna a bez udziału błędna, niż gdy odpowiedź klasyfikatora jest taka sama niezależnie od udziału atrybutu i, lub niepoprawna z udziałem a poprawna bez udziału atrybutu i H klasa decyzyjna y (hipoteza poprawnej klasy)
¬H klasa decyzyjna ¬y
E odpowiedź klasyfikatora z udziałem atrybutu i jest: f(x) = y, natomiast
odpowiedź klasyfikatora bez udziału atrybutu i jest: f(pi(x)) = ¬y
¬E
odpowiedź klasyfikatora z udziałem atrybutu i jest: f(x) = y, natomiast odpowiedź klasyfikatora bez udziału atrybutu i jest: f(pi(x)) = y,
albo f(x) = ¬y, natomiast f(pi(x)) = y lub f(pi(x)) = ¬y,
Pr 𝑦| 𝑓 𝑥 ≠ 𝑓 𝑝𝑖 𝑥 i 𝑓 𝑥 = 𝑦 ≥
Nowe metody wyznaczania wartości
informacyjnej
PP :
PN:
Porównanie tych prawdopodobieństw:
jest pytaniem o Bayesowską konfirmację:
Pr 𝑦| 𝑓 𝑥 ≠ 𝑓 𝑝𝑖 𝑥 i 𝑓 𝑥 = 𝑦 ≥
≥ Pr 𝑦| 𝑓 𝑥 = 𝑓 𝑝𝑖 𝑥 lub 𝑓 𝑥 ≠ 𝑓 𝑝𝑖 𝑥 i 𝑓 𝑥 = ¬𝑦 Pr 𝑦| 𝑓 𝑥 = 𝑦 ≥ Pr 𝑦| 𝑓 𝑝𝑖 𝑥 = 𝑦
Nowe metody wyznaczania wartości
informacyjnej
Różnica tych prawdopodobieństw jest Bayesowską miarą konfirmacji S:
Breiman badał stosunek tych prawdopodobieństw (zgodnie z metodą PP):
Nowe metody wyznaczania wartości
informacyjnej (metoda na obecność PP)
a to liczba przykładów z klasy y poprawnie* klasyfikowanych z udziałem
atrybutu i,
b to liczba przykładów z klasy y poprawnie klasyfikowanych bez udziału
atrybutu i,
c to liczba przykładów nie należących do klasy y i niepoprawnie
klasyfikowanych do y z udziałem atrybutu i,
d to liczba przykładów nie należących do klasy y i niepoprawnie
klasyfikowanych do y bez udziału atrybutu i.
Nowe metody wyznaczania wartości
informacyjnej (metoda na niezbędność PN)
a to liczba przykładów z klasy y poprawnie klasyfikowanych z udziałem
atrybutu i ale niepoprawnie klasyfikowanych bez jego udziału,
b to liczba przykładów z klasy y klasyfikowanych tak samo z udziałem czy
bez udziału atrybutu i, lub niepoprawnie z udziałem ale poprawnie bez udziału,
c to liczba przykładów nie należących do klasy y i niepoprawnie
klasyfikowanych z udziałem atrybutu i ale poprawnie klasyfikowanych bez jego udziału,
d to liczba przykładów nie należących do klasy y i klasyfikowanych tak samo
z udziałem czy bez udziału atrybutu i, lub poprawnie z udziałem ale niepoprawnie bez udziału.
Nowe metody wyznaczania wartości
informacyjnej
Metoda Breimana daje taki sam porządek atrybutów jak PP
Nowe metody wyznaczania wartości
informacyjnej
Analiza uzyskanych wyników
Proces CV: 100 razy
Procesu baggingu: 30 razy
Wykorzystywane klasyfikatory: J48, JRip, Logistic, PART, RBF z wykorzystaniem biblioteki WEKA
Analizowane zbiory z UCI Machine Learning Repository
breast-w diabetes heart-statlog ionosphere lymph mushroom parkinsons promoters spectf vote
Analiza uzyskanych wyników
Zbiór l. atrybutów l. klas l. obiektów
breast-w 10 2 699 diabetes 8 2 768 heart-statlog 13 2 270 ionosphere 34 2 351 lymph 19 4 148 mushroom 22 2 8124 parkinsons 23 2 197 promoters 59 2 106 spectf 44 2 267 vote 16 2 435
Analiza uzyskanych wyników - metoda PP
Porządki utworzone dla Logistic oraz RBF są słabo skorelowane (słabe
podobieństwo) (~0.43) z porządkami otrzymanymi dla klasyfikatorów regułowych.
Porządek dla RBF jest słabo skorelowany z porządkiem utworzonym dla
klasyfikatora Logistic
Otrzymywana wartość informacyjna dla atrybutów (czy też porządek) jest
Analiza uzyskanych wyników - metoda PN
Porządki utworzone dla Logistic oraz RBF są słabo skorelowane (słabe
podobieństwo) z porządkami otrzymanymi dla klasyfikatorów regułowych.
Porządek dla RBF jest słabo skorelowany z porządkiem utworzonym dla
klasyfikatora Logistic
Otrzymywana wartość informacyjna dla atrybutów (czy też porządek) jest
uzależniona od analizowanego klasyfikatora
Większy wpływ na otrzymywane wyniki ma rodzaj badanego klasyfikatora,
Analiza uzyskanych wyników metodami PP
oraz PN
Otrzymane porządki atrybutów dla tych samych typów klasyfikatorów metodami PP oraz PN są podobne (~0.7)
Analiza uzyskanych wyników
Parkinsons – S(PN)
Ujemne wartości
Analiza uzyskanych wyników
Parkinsons – S(PP)
Dodatnie wartości
Analiza uzyskanych wyników
Vote
Analiza uzyskanych wyników
Mushroom
Analiza uzyskanych wyników
MC Połowa atrybutów posiadających największą wartość informacyjną
LC Połowa atrybutów posiadających najmniejszą wartość informacyjną
MC<ORG W ilu przypadkach trafność klasyfikacji pogorszyła się po
usunięciu połowy atrybutów posiadających najmniejszą wartość informacyjną w stosunku do trafności klasyfikatora
posiadającego wszystkie atrybuty
MC<LC W ilu przypadkach trafność klasyfikatora wykorzystującego tylko MC jest gorsza od trafności klasyfikatora
Analiza uzyskanych wyników
MC<LC w naszych analizowanych przypadkach powinno być 0/10, gdyż
jest to potwierdzeniem, że atrybuty dobrze zostały podzielone ze względu na wartość informacyjną
Analiza uzyskanych wyników
Podsumowanie
Zaproponowane metody są typu wrapper i z powodzeniem mogą być
stosowane z dowolnym rodzajem klasyfikatora, w tym z klasyfikatorem typu „czarnej skrzynki”
Stosowanie permutacji w celu „wyłączenia” atrybutu z procesu klasyfikacji Wykorzystanie miar konfirmacji Bayesowskiej do szacowania wartości
informacyjnej atrybutów, gdzie hipoteza jest potwierdzana przez przesłankę
Metoda PP bada czy klasyfikacja jest poprawna częściej, gdy atrybut i bierze udział w klasyfikacji, niż gdy atrybut i nie bierze udziału w klasyfikacji
Metoda PN bada czy klasyfikacja jest poprawna częściej, gdy odpowiedź
klasyfikatora z udziałem atrybutu i jest poprawna a bez udziału błędna, niż gdy odpowiedź klasyfikatora jest taka sama niezależnie od udziału atrybutu i, lub niepoprawna z udziałem a poprawna z udziałem atrybutu i
Podsumowanie
Poprawność działania została przetestowana z wykorzystaniem 5 różnych
klasyfikatorów oraz 10 zbiorów danych z UCI Machine Learning Repository
Trafność klasyfikatora z najbardziej wartościowymi atrybutami jest lepsza od
trafność klasyfikatora z najmniej wartościowymi atrybutami (dla metody PN z kilkoma wyjątkami)
Uzyskiwane wyniki są zależne od wykorzystywanego klasyfikatora w
procesie szacowania wartości informacyjnej
Otrzymane porządki atrybutów dla klasyfikatorów bazujących na regułach są