Wybrane metody tworzenia klasykatorów
3.3 Miary skuteczno±ci klasykatorów
Istnieje szereg kryteriów, na podstawie których dokonywana jest ocena klasyka-torów. Najcz¦±ciej rozwa»a si¦ kryteria wymienione poni»ej.
• Trafno±¢ klasykacji;
• Szybko±¢ - ocenia si¦ czas uczenia si¦ oraz szybko±¢ samego klasykowania;
• Skalowalno±¢ - ocenia si¦ czy klasykatory mog¡ by¢ tworzone i testowane na du»ych zbiorach danych;
• Odporno±¢ (ang. robustness) na szum (ang. noise) czy te» warto±ci brakuj¡ce w danych (ang. missing values);
• Zdolno±¢ wyja±nienia podj¦tej decyzji;
• Zªo»ono±¢ modelu - okre±lana na podstawie np. rozmiaru drzewa decyzyj-nego.
Celem oceny jako±ci klasykatora w odniesieniu do badanych danych, w ogólnym przypadku tablica decyzyjna jest dzielona na dwie cz¦±ci (patrz np. [95]):
• Tablica treningowa, zwana tak»e ucz¡c¡, zawieraj¡ca obiekty, na podstawie których algorytm uczy si¦ klasykowa¢ obiekty do klas decyzyjnych;
• Tablica testowa sªu»¡ca do oceny klasykatora utworzonego na podstawie cz¦±ci treningowej.
Takie podej±cie nazywane jest procedur¡ trenuj i testuj (ang. train and test).
Zbiór treningowy i testowy powinny by¢ reprezentatywne, tzn. np. rozkªad wyst¦-powania klas w obu zbiorach powinien odpowiada¢ rozkªadowi wyst¦wyst¦-powania klas w zbiorze pocz¡tkowym.
Najcz¦±ciej stosowan¡ ilo±ciow¡ metod¡ oceny klasykatorów przy jednokrot-nym stosowaniu procedury trenuj i testuj jest metoda oparta na tzw. macierzy pomyªek, kontyngencji czy konfuzji (ang. confusion matrix). Macierz pomyªek jest tablic¡ dwuwymiarow¡, najcz¦±ciej kwadratow¡ o wymiarach NCxNC, gdzie NC
jest liczb¡ klas i w polu (i, j), i, j = 1, 2, .., NC zawiera warto±¢ oznaczaj¡c¡ liczb¦
przypadków z cz¦±ci testowej przynale»nych do i-tej klasy decyzyjnej, które
klasy-kator przyporz¡dkowaª do klasy j-tej. Macierz ta jest podstaw¡ do wyznaczenia wielu innych miar dokªadno±ci klasykacji.
Tablica 3.1 przedstawia macierz pomyªek dla przypadku dwóch klas decyzyj-nych, np. przy klasykacji jakiego± poj¦cia. Komórki macierzy pomyªek zawieraj¡
nast¦puj¡ce elementy (patrz [6]):
• TN (ang. True Negatives) - liczba prawidªowych klasykacji obiektów
nale-»¡cych do przykªadów negatywnych poj¦cia w tabeli testowej;
• FP (ang. False Positives) - liczba nieprawidªowych klasykacji obiektów na-le»¡cych do przykªadów negatywnych poj¦cia w tabeli testowej;
• FN (ang. False Negatives) - liczba nieprawidªowych klasykacji obiektów nale»¡cych do przykªadów pozytywnych poj¦cia w tabeli testowej;
• TP (ang. True Positives) - liczba prawidªowych klasykacji obiektów
nale-»¡cych do przykªadów pozytywnych poj¦cia w tabeli testowej.
Sklasykowane Negatywne Pozytywne
Rzeczywiste Negatywne TN FP
Pozytywne FN TP
Tablica 3.1: Macierz pomyªek.
Na podstawie danych z macierzy pomyªek dla dwóch klas decyzyjnych (negatywnej, oznaczonej 0 i pozytywnej zakodowanej za pomoc¡ 1) skonstruowano kilka miar uªatwiaj¡cych ocen¦ i porównywanie klasykatorów (patrz [6, 95, 118, 17]):
1. Dokªadno±¢ ACC (ang. accuracy) - okre±laj¡ca odsetek przypadków
sklasy-kowanych prawidªowo, wyznaczana za pomoc¡ wzoru:
ACC = T N + T P
T N + F N + F P + T P (3.10) 2. Czuªo±¢ ACC1 (ang. accuracy for positive examples), inaczej SN (ang.
sen-sitivity) lub T P R (ang. true positive rate) - dana wzorem:
ACC1 = SN = T P R = T P
T P + F N (3.11)
3. Specyczno±¢ ACC0(ang. accuracy for negative examples), inaczej SP (ang.
specicity) lub T NR (ang. true negative rate) - dana wzorem:
ACC0 = SP = F N R = T N
T N + F P (3.12)
4. Pokrycie COV (ang. coverage), okre±la odsetek sklasykowanych obiektów ze wszystkich obiektów tablicy testowej (niektóre obiekty mog¡ nie zosta¢
sklasykowane w ogóle) - dana wzorem:
COV = T N + F N + F P + T P
liczba wszystkich obiektów (3.13) 5. Pokrycie przykªadów pozytywnych P COV (ang. coverage for positive
exam-ples), wyznaczane za pomoc¡ wzoru:
P COV = F N + T P
liczba wszystkich przykªadów pozytywnych (3.14) 6. Pokrycie przykªadów negatywnych NCOV (ang. coverage for negative
exam-ples), wyznaczane za pomoc¡:
N COV = T N + F P
liczba wszystkich przykªadów negatywnych (3.15) 7. Precyzja przykªadów pozytywnych P P V (ang. positive predictive value),
ina-czej dodatnia warto±¢ predykcyjna, wyliczana ze wzoru:
P P V = T P
T P + F P (3.16)
8. Precyzja przykªadów negatywnych NP V (ang. negative predictive value), inaczej ujemna warto±¢ predykcyjna, wyliczana ze wzoru:
N P V = T N
T N + F N (3.17)
9. Wspóªczynnik (odsetek) bª¦dów ER (ang. error rate) miara caªkowitej liczby bª¦dów popeªnionych przez klasykator w odniesieniu do liczby wszyst-kich obiektów zadana jako:
ER = F N + F P
T N + F N + F P + T P (3.18) 10. FPR (ang. false positive rate), czyli bª¡d I typu lub α:
F P R = F P
F P + T N = 1− SP (3.19)
11. FNR (ang. false negative rate), czyli bª¡d II typu lub β:
F N R = F N
F N + T P = 1− SN (3.20)
W literaturze dost¦pnych jest wiele innych metod oceny klasykatorów, takich jak krzywa ROC (ang. Receiver Operating Characteristic curve) (patrz [51, 149]), czy AUC (ang. area under curve). Charakterystyka ROC jest wykresem, który poka-zuje zale»no±¢ czuªo±ci SN od F P R podczas kalibrowania klasykatora. Te dwa wspóªczynniki wyznaczane s¡ na podstawie macierzy konfuzji i ka»dy binarny poje-dynczy klasykator mo»na przedstawi¢ jako punkt w przestrzeni (SN, 1−SP ). Na-tomiast AUC jest wspóªczynnikiem okre±laj¡cym powierzchni¦ pod krzyw¡ ROC.
Im wi¦ksza powierzchnia, tym lepszy klasykator. Dla idealnego klasykatora war-to±¢ AUC wynosi 1
Jednokrotny podziaª losowy na dwa niezale»ne zbiory: ucz¡cy i testowy, ce-lem oszacowania miar klasykacji stosuje si¦ w przypadku du»ych zbiorów da-nych, zawieraj¡cych powy»ej tysi¡ca obiektów [95]. Zwykle do zbioru testowego wybiera si¦ losowo 20-30% obiektów z caªego badanego zbioru danych. Dla da-nych o ±rednich rozmiarach (od 100 do kilku tysi¦cy obiektów) stosuje si¦ zwy-kle technik¦ zwan¡ k-krotn¡ ocen¡ krzy»ow¡ lub kroswalidacj¡ CV (ang. k-fold cross-validation). W metodzie tej zbiór danych jest losowo dzielony na k mo»liwie równych wzajemnie niezale»nych cz¦±ci (najcz¦±ciej k = 10) i stosuje si¦ k −1 pod-zbiorów jako cz¦±ci ucz¡cej i pozostaªej jako testuj¡cej. Sam klasykator konstru-owany jest k-krotnie, a ocena klasykatora jest ±redni¡ wszystkich k ocen. Ka»da
cz¦±¢ jest u»yta k −1 razy do konstrukcji drzewa i 1 raz do testowania dokªadno±ci klasykacji. W przypadku maªego zbioru danych wykorzystywana jest technika n-krotnej walidacji krzy»owej, zwana LOO (ang. Leaving-One-Out), w której liczba iteracji jest równa liczbie wszystkich obiektów n [65, 63]. Walidacja krzy»owa sta-nowi przykªad próbkowania bez powtórze«. Ka»dy obiekt jest testowany dokªadnie jeden raz dla pewnego zbioru treningowego.
Estymacja miar mo»e by¢ bardziej wiarygodna, je±li proces jest powtarzany dla ró»nych podzbiorów. Stosuje si¦ w tym celu tak»e metod¦ wielokrotnego repróbko-wania (ang. bootstrapping), czyli losowanie przykªadów ze zwracaniem z oryginal-nego zbioru przykªadów. Oryginalny zbiór jest próbkowany n razy tworz¡c zbiór treningowy o liczebno±ci n. Poniewa» jest to losowanie ze zwracaniem, niektóre przykªady b¦d¡ si¦ powtarza¢ w zbiorze treningowym, a inne nie wyst¡pi¡ (zbiór niewybranych elementów z j¦zyka angielskiego nazywa si¦ zbiorem out-of-bag).
Niewylosowane przykªady mog¡ tworzy¢ zbiór testowy, wykorzystywany do oceny dokªadno±ci klasykatora. Obiekt nie zostanie wybrany do zbioru treningowego z prawdopodobie«stwem 1 −1n. Prawdopodobie«stwo tego, »e pozostaje w zbiorze
testowym wynosi: (
1− 1 n
)2
≈ e−1 = 0.368 (3.21)
Oznacza to, »e zbiór treningowy zawiera ok. 63.2% przykªadów. Z tego powodu mówi si¦ o metodzie 0.632 bootstrap.