Miary skuteczno±ci klasykatorów

W dokumencie Metody stosowania wiedzy dziedzinowej do poprawiania jakości klasyfikatorów (Stron 60-64)

Wybrane metody tworzenia klasykatorów

3.3 Miary skuteczno±ci klasykatorów

Istnieje szereg kryteriów, na podstawie których dokonywana jest ocena klasyka-torów. Najcz¦±ciej rozwa»a si¦ kryteria wymienione poni»ej.

• Trafno±¢ klasykacji;

• Szybko±¢ - ocenia si¦ czas uczenia si¦ oraz szybko±¢ samego klasykowania;

• Skalowalno±¢ - ocenia si¦ czy klasykatory mog¡ by¢ tworzone i testowane na du»ych zbiorach danych;

• Odporno±¢ (ang. robustness) na szum (ang. noise) czy te» warto±ci brakuj¡ce w danych (ang. missing values);

• Zdolno±¢ wyja±nienia podj¦tej decyzji;

• Zªo»ono±¢ modelu - okre±lana na podstawie np. rozmiaru drzewa decyzyj-nego.

Celem oceny jako±ci klasykatora w odniesieniu do badanych danych, w ogólnym przypadku tablica decyzyjna jest dzielona na dwie cz¦±ci (patrz np. [95]):

• Tablica treningowa, zwana tak»e ucz¡c¡, zawieraj¡ca obiekty, na podstawie których algorytm uczy si¦ klasykowa¢ obiekty do klas decyzyjnych;

• Tablica testowa sªu»¡ca do oceny klasykatora utworzonego na podstawie cz¦±ci treningowej.

Takie podej±cie nazywane jest procedur¡ trenuj i testuj (ang. train and test).

Zbiór treningowy i testowy powinny by¢ reprezentatywne, tzn. np. rozkªad wyst¦-powania klas w obu zbiorach powinien odpowiada¢ rozkªadowi wyst¦wyst¦-powania klas w zbiorze pocz¡tkowym.

Najcz¦±ciej stosowan¡ ilo±ciow¡ metod¡ oceny klasykatorów przy jednokrot-nym stosowaniu procedury trenuj i testuj jest metoda oparta na tzw. macierzy pomyªek, kontyngencji czy konfuzji (ang. confusion matrix). Macierz pomyªek jest tablic¡ dwuwymiarow¡, najcz¦±ciej kwadratow¡ o wymiarach NCxNC, gdzie NC

jest liczb¡ klas i w polu (i, j), i, j = 1, 2, .., NC zawiera warto±¢ oznaczaj¡c¡ liczb¦

przypadków z cz¦±ci testowej przynale»nych do i-tej klasy decyzyjnej, które

klasy-kator przyporz¡dkowaª do klasy j-tej. Macierz ta jest podstaw¡ do wyznaczenia wielu innych miar dokªadno±ci klasykacji.

Tablica 3.1 przedstawia macierz pomyªek dla przypadku dwóch klas decyzyj-nych, np. przy klasykacji jakiego± poj¦cia. Komórki macierzy pomyªek zawieraj¡

nast¦puj¡ce elementy (patrz [6]):

• TN (ang. True Negatives) - liczba prawidªowych klasykacji obiektów

nale-»¡cych do przykªadów negatywnych poj¦cia w tabeli testowej;

• FP (ang. False Positives) - liczba nieprawidªowych klasykacji obiektów na-le»¡cych do przykªadów negatywnych poj¦cia w tabeli testowej;

• FN (ang. False Negatives) - liczba nieprawidªowych klasykacji obiektów nale»¡cych do przykªadów pozytywnych poj¦cia w tabeli testowej;

• TP (ang. True Positives) - liczba prawidªowych klasykacji obiektów

nale-»¡cych do przykªadów pozytywnych poj¦cia w tabeli testowej.

Sklasykowane Negatywne Pozytywne

Rzeczywiste Negatywne TN FP

Pozytywne FN TP

Tablica 3.1: Macierz pomyªek.

Na podstawie danych z macierzy pomyªek dla dwóch klas decyzyjnych (negatywnej, oznaczonej 0 i pozytywnej zakodowanej za pomoc¡ 1) skonstruowano kilka miar uªatwiaj¡cych ocen¦ i porównywanie klasykatorów (patrz [6, 95, 118, 17]):

1. Dokªadno±¢ ACC (ang. accuracy) - okre±laj¡ca odsetek przypadków

sklasy-kowanych prawidªowo, wyznaczana za pomoc¡ wzoru:

ACC = T N + T P

T N + F N + F P + T P (3.10) 2. Czuªo±¢ ACC1 (ang. accuracy for positive examples), inaczej SN (ang.

sen-sitivity) lub T P R (ang. true positive rate) - dana wzorem:

ACC1 = SN = T P R = T P

T P + F N (3.11)

3. Specyczno±¢ ACC0(ang. accuracy for negative examples), inaczej SP (ang.

specicity) lub T NR (ang. true negative rate) - dana wzorem:

ACC0 = SP = F N R = T N

T N + F P (3.12)

4. Pokrycie COV (ang. coverage), okre±la odsetek sklasykowanych obiektów ze wszystkich obiektów tablicy testowej (niektóre obiekty mog¡ nie zosta¢

sklasykowane w ogóle) - dana wzorem:

COV = T N + F N + F P + T P

liczba wszystkich obiektów (3.13) 5. Pokrycie przykªadów pozytywnych P COV (ang. coverage for positive

exam-ples), wyznaczane za pomoc¡ wzoru:

P COV = F N + T P

liczba wszystkich przykªadów pozytywnych (3.14) 6. Pokrycie przykªadów negatywnych NCOV (ang. coverage for negative

exam-ples), wyznaczane za pomoc¡:

N COV = T N + F P

liczba wszystkich przykªadów negatywnych (3.15) 7. Precyzja przykªadów pozytywnych P P V (ang. positive predictive value),

ina-czej dodatnia warto±¢ predykcyjna, wyliczana ze wzoru:

P P V = T P

T P + F P (3.16)

8. Precyzja przykªadów negatywnych NP V (ang. negative predictive value), inaczej ujemna warto±¢ predykcyjna, wyliczana ze wzoru:

N P V = T N

T N + F N (3.17)

9. Wspóªczynnik (odsetek) bª¦dów ER (ang. error rate)  miara caªkowitej liczby bª¦dów popeªnionych przez klasykator w odniesieniu do liczby wszyst-kich obiektów zadana jako:

ER = F N + F P

T N + F N + F P + T P (3.18) 10. FPR (ang. false positive rate), czyli bª¡d I typu lub α:

F P R = F P

F P + T N = 1− SP (3.19)

11. FNR (ang. false negative rate), czyli bª¡d II typu lub β:

F N R = F N

F N + T P = 1− SN (3.20)

W literaturze dost¦pnych jest wiele innych metod oceny klasykatorów, takich jak krzywa ROC (ang. Receiver Operating Characteristic curve) (patrz [51, 149]), czy AUC (ang. area under curve). Charakterystyka ROC jest wykresem, który poka-zuje zale»no±¢ czuªo±ci SN od F P R podczas kalibrowania klasykatora. Te dwa wspóªczynniki wyznaczane s¡ na podstawie macierzy konfuzji i ka»dy binarny poje-dynczy klasykator mo»na przedstawi¢ jako punkt w przestrzeni (SN, 1−SP ). Na-tomiast AUC jest wspóªczynnikiem okre±laj¡cym powierzchni¦ pod krzyw¡ ROC.

Im wi¦ksza powierzchnia, tym lepszy klasykator. Dla idealnego klasykatora war-to±¢ AUC wynosi 1

Jednokrotny podziaª losowy na dwa niezale»ne zbiory: ucz¡cy i testowy, ce-lem oszacowania miar klasykacji stosuje si¦ w przypadku du»ych zbiorów da-nych, zawieraj¡cych powy»ej tysi¡ca obiektów [95]. Zwykle do zbioru testowego wybiera si¦ losowo 20-30% obiektów z caªego badanego zbioru danych. Dla da-nych o ±rednich rozmiarach (od 100 do kilku tysi¦cy obiektów) stosuje si¦ zwy-kle technik¦ zwan¡ k-krotn¡ ocen¡ krzy»ow¡ lub kroswalidacj¡ CV (ang. k-fold cross-validation). W metodzie tej zbiór danych jest losowo dzielony na k mo»liwie równych wzajemnie niezale»nych cz¦±ci (najcz¦±ciej k = 10) i stosuje si¦ k −1 pod-zbiorów jako cz¦±ci ucz¡cej i pozostaªej jako testuj¡cej. Sam klasykator konstru-owany jest k-krotnie, a ocena klasykatora jest ±redni¡ wszystkich k ocen. Ka»da

cz¦±¢ jest u»yta k −1 razy do konstrukcji drzewa i 1 raz do testowania dokªadno±ci klasykacji. W przypadku maªego zbioru danych wykorzystywana jest technika n-krotnej walidacji krzy»owej, zwana LOO (ang. Leaving-One-Out), w której liczba iteracji jest równa liczbie wszystkich obiektów n [65, 63]. Walidacja krzy»owa sta-nowi przykªad próbkowania bez powtórze«. Ka»dy obiekt jest testowany dokªadnie jeden raz dla pewnego zbioru treningowego.

Estymacja miar mo»e by¢ bardziej wiarygodna, je±li proces jest powtarzany dla ró»nych podzbiorów. Stosuje si¦ w tym celu tak»e metod¦ wielokrotnego repróbko-wania (ang. bootstrapping), czyli losowanie przykªadów ze zwracaniem z oryginal-nego zbioru przykªadów. Oryginalny zbiór jest próbkowany n razy tworz¡c zbiór treningowy o liczebno±ci n. Poniewa» jest to losowanie ze zwracaniem, niektóre przykªady b¦d¡ si¦ powtarza¢ w zbiorze treningowym, a inne nie wyst¡pi¡ (zbiór niewybranych elementów z j¦zyka angielskiego nazywa si¦ zbiorem out-of-bag).

Niewylosowane przykªady mog¡ tworzy¢ zbiór testowy, wykorzystywany do oceny dokªadno±ci klasykatora. Obiekt nie zostanie wybrany do zbioru treningowego z prawdopodobie«stwem 1 −1n. Prawdopodobie«stwo tego, »e pozostaje w zbiorze

testowym wynosi: (

1 1 n

)2

≈ e−1 = 0.368 (3.21)

Oznacza to, »e zbiór treningowy zawiera ok. 63.2% przykªadów. Z tego powodu mówi si¦ o metodzie 0.632 bootstrap.

W dokumencie Metody stosowania wiedzy dziedzinowej do poprawiania jakości klasyfikatorów (Stron 60-64)