Metryki - Index of /rozprawy2/10905

Zatem, po wstępnie przeprowadzonych testach, wybrane zostały klasyfikatory oraz modele, które zostały uznane za reprezentantywne  pod względem ogólnej jakości klasyfikacji oraz strategii wyboru cech modelu.

Bazując na tych kryteriach, ostatecznie testowano: cztery warianty badanego podej-ścia, model Schenkera (wariant standardowy) oraz trzy warianty modelu wektorowego (za każdym razem wykorzystujące wagę TF-IDF, która ogólnie uzyskiwała najlepsze rezultaty wśród wszystkich badanych alternatyw). W przypadku tego ostatniego roz-patrywano modele jedno, dwu i trzygramowe. W stosowanej implementacji, model

n-gramowy zawierał także cechy modeli (n-1)-gramowych i (n-2)-gramowych (zależnie od

samej wielkości n).

Analogicznie, spośród analizowanych mechanizmów klasyfikacji wybrano dwa: • k-NN [Cover 1967]  choć jest to prosty klasyfikator, uzyskuje dobre wyniki,

a w rozważanych przykładach może wziąć pod uwagę cechy przestrzenii, w któ-rej porównywane są metody grafowe (i co istotnie odróżnia je od metod wektoro-wych),

• maksimum entropii [Nigam 1999,Berger 1996,Cover 1991]  który cechują bardzo dobre wyniki klasyfikacji oraz wysoka stabilność, również przy mocno niezrów-noważonych zbiorach uczących (istotnie rózniących się liczbą przykładów pozy-tywnych oraz negapozy-tywnych); dodatkowo  budowa klasyfikatra odbywa się re-latywnie szybko; model ten wymaga jednak przekształcenia grafów do zbioru pojedyńczych cech (wektorów).

Pozostałe klasyfikatory wykazywały we wstępnie przeprowadzonych testach problemy ze stabilnością (wymagały sporego nakładu pracy na optymalizację parametrów, szcze-gólnie przy niezrównoważonych kategoriach), dawały gorsze wyniki klasyfikacji bądź ich uczenie zabierało istotnie więcej czasu (np. w przypadku SVM).

4.3 Metryki

Nie istnieje jedna miara, która jednoznacznie by określała jakość rezultatów danego algorytmu klasyfikacji. Intuicyjnie oczywista dokładność jest tutaj mało użyteczna. Wy-starczy wyobrazić sobie problem, w którym dana klasa jest słabo reprezentowana, np. stanowi ją 5% przykładów. Klasyfikator, który nie zakwalifikuje żadnego z nich do wła-ściwej kategorii, będzie miał współczynnik dokładności na poziomie 95%, jednak bę-dzie bezużyteczny z praktycznego punktu widzenia.

W praktyce stosuje się kilka miar, które pozwalają ocenić uzyskiwane przez dany system rezultaty w kilku aspektach, istotnych w zależności od docelowego zastosowa-nia.

Zakładając że:

I  zbiór dokumentów istotnych (należących do danej klasy)

R  zbiór dokumentów rozpoznanych jako istotne (sklasyfikowanych jako należące) N  zbiór dokumentów nieistotnych (nienależących do danej klasy)

4.3. Metryki 70

Q  zbiór dokumentów rozpoznanych jako nieistotne (sklasyfikowanych jako

nie-należące)

• dokładność (accuracy)  określa stosunek prawidłowo rozpoznanych dokumen-tów istotnych oraz nieistotnych do całkowitej liczby dokumendokumen-tów

dokładność =

|I ∩ R| + |N ∩ Q| |I| + |N |

• precyzja (precision)  określa stosunek dokumentów istotnych do wszystkich rozpoznanych:

precyzja =

|I ∩ R| |R|

• czułość (recall)  określa ile z istotnych dokumentów zostało rozpoznanych:

czułość =

|I ∩ R| |I|

• współczynnik „odpadów”  określa ile nieistotnych dokumentów zostało rozpoznanych jako istotne:

odpady =

|N ∩ R| |N |

• miara F (F-measure)  średnia harmoniczna precyzji i czułości:

F = 2 · ^{precyzja · czułość}

precyzja + czułość

Na podstawie wielu praktycznych obserwacji ocenić można, iż najbardziej uniwer-salną z powyższych jest miara F  która faworyzuje rezultaty o jednocześnie dużej pre-cyzji i czułości [Chinchor 1992,Rijsbergen 1979].

Oprócz wymienionych sposobów mierzenia rezultatów klasyfikacji, wspomnieć można także BEP (Break-Even Point) oraz AUC (Area Under Curve). Wykorzystują one da-ne z krzywej ROC (Receiver Operating Characteristic)  która prezentuje stosuda-nek prawi-dłowo do błędnie rozpoznanych przykładów jako funkcję parametrów progów klasy-fikatora. Pierwsza ze wspomnianych miar wskazuje wartość, przy jakiej precyzja i czu-łość się równoważą. Druga  określa powierzchnię pod krzywą ROC. W stosunku do zaprezentowanych wcześniej miar, wymagają one jednak znacznie większego nakładu obliczeniowego oraz możliwości sterowania parametrami klasyfikatora, tak aby można było regulować uzyskiwaną precyzję i czułość.

Aby ułatwić mierzenie z zastosowaniem wymienionych wyżej metryk, zastosować można tablicę wielodzielczą 4.1 (contingency table). Należy wpisać do niej liczbę

po-szczególnych kategorii rezultatów:

• TP  prawdziwie pozytywne (true positive)  przykłady, które należą do danej klasy i zostały rozpoznane jako należące,

4.3. Metryki 71

• FP  fałszywie pozytywne (false positive)  przykłady, które nie należą do danej klasy, ale zostały rozpoznane jako należące,

• TN  prawdziwie negatywne (true negative)  przykłady, które nie należą do da-nej klasy i zostały rozpoznane jako nienależące,

• FN  fałszywie negatywne (false negative)  przykłady, które należą do danej kla-sy, ale zostały rozpoznane jako nienależące.

Tabela 4.1: Tablica wielodzielcza rezultatów klasyfikacji rzeczywiście rzeczywiście nie przynależy do klasy przynależy do klasy rozpoznane jako TP FP przynależące rozpoznane jako FN TN nieprzynależące dokładność = T P + T N T P + T N + F P + F N precyzja = T P T P + F P czułość = T P T P + F N odpady = T N T N + F P

W praktycznych zastosowaniach, niemal zawsze ma się do czynienia z niezrówno-ważonymi zbiorami dla poszczególnych klas. To znaczy, niektóre kategorie są znacznie silniej reprezentowane niż inne. Stanowi to istotny problem, mogący wpływać na zdol-ności klasyfikatorów do rozpoznania rzadziej występujących klas. Aby móc ocenić jak w istocie zachowuje się klasyfikator, stosowane są dwa podejścia do uśredniania wyni-ków:

• mikro–uśrednianie  uśrednianie odbywa się na poziomie dokumentu; do

tabli-cy wielodzielczej dodawane są wyniki szczątkowe z każdego klasyfikatora, a

na-stępnie wyliczane są z niej odpowiednie metryki (alternatywnie, można również uśrednić wyniki z poszczególnych klas, przypisując im odpowiednie wagi), • makro–uśrednianie  uśredniane są rezultaty z wszystkich klas.

Mikro–uśrednianie pozwala określić jak dobrze działa dana metoda dla całego

roz-patrywanego zbioru (określić prawdopodobieństwo, że dany przykład zostanie właści-wie sklasyfikowany). Makro–uśrednianie określa jakie rezultaty są uzyskiwane dla wy-branego zbioru kategorii (określić prawdopodobieństwo, że kategorie będą prawidło-wo przypisane do przykładów). Jest zatem szczególnie przydatne przy analizie jakości

W dokumencie Index of /rozprawy2/10905 (Stron 79-82)