Zatem, po wstępnie przeprowadzonych testach, wybrane zostały klasyfikatory oraz modele, które zostały uznane za reprezentantywne pod względem ogólnej jakości klasyfikacji oraz strategii wyboru cech modelu.
Bazując na tych kryteriach, ostatecznie testowano: cztery warianty badanego podej-ścia, model Schenkera (wariant standardowy) oraz trzy warianty modelu wektorowego (za każdym razem wykorzystujące wagę TF-IDF, która ogólnie uzyskiwała najlepsze rezultaty wśród wszystkich badanych alternatyw). W przypadku tego ostatniego roz-patrywano modele jedno, dwu i trzygramowe. W stosowanej implementacji, model
n-gramowy zawierał także cechy modeli (n-1)-gramowych i (n-2)-gramowych (zależnie od
samej wielkości n).
Analogicznie, spośród analizowanych mechanizmów klasyfikacji wybrano dwa: • k-NN [Cover 1967] choć jest to prosty klasyfikator, uzyskuje dobre wyniki,
a w rozważanych przykładach może wziąć pod uwagę cechy przestrzenii, w któ-rej porównywane są metody grafowe (i co istotnie odróżnia je od metod wektoro-wych),
• maksimum entropii [Nigam 1999,Berger 1996,Cover 1991] który cechują bardzo dobre wyniki klasyfikacji oraz wysoka stabilność, również przy mocno niezrów-noważonych zbiorach uczących (istotnie rózniących się liczbą przykładów pozy-tywnych oraz negapozy-tywnych); dodatkowo budowa klasyfikatra odbywa się re-latywnie szybko; model ten wymaga jednak przekształcenia grafów do zbioru pojedyńczych cech (wektorów).
Pozostałe klasyfikatory wykazywały we wstępnie przeprowadzonych testach problemy ze stabilnością (wymagały sporego nakładu pracy na optymalizację parametrów, szcze-gólnie przy niezrównoważonych kategoriach), dawały gorsze wyniki klasyfikacji bądź ich uczenie zabierało istotnie więcej czasu (np. w przypadku SVM).
4.3 Metryki
Nie istnieje jedna miara, która jednoznacznie by określała jakość rezultatów danego algorytmu klasyfikacji. Intuicyjnie oczywista dokładność jest tutaj mało użyteczna. Wy-starczy wyobrazić sobie problem, w którym dana klasa jest słabo reprezentowana, np. stanowi ją 5% przykładów. Klasyfikator, który nie zakwalifikuje żadnego z nich do wła-ściwej kategorii, będzie miał współczynnik dokładności na poziomie 95%, jednak bę-dzie bezużyteczny z praktycznego punktu widzenia.
W praktyce stosuje się kilka miar, które pozwalają ocenić uzyskiwane przez dany system rezultaty w kilku aspektach, istotnych w zależności od docelowego zastosowa-nia.
Zakładając że:
I zbiór dokumentów istotnych (należących do danej klasy)
R zbiór dokumentów rozpoznanych jako istotne (sklasyfikowanych jako należące) N zbiór dokumentów nieistotnych (nienależących do danej klasy)
4.3. Metryki 70
Q zbiór dokumentów rozpoznanych jako nieistotne (sklasyfikowanych jako
nie-należące)
• dokładność (accuracy) określa stosunek prawidłowo rozpoznanych dokumen-tów istotnych oraz nieistotnych do całkowitej liczby dokumendokumen-tów
dokładność =
|I ∩ R| + |N ∩ Q| |I| + |N |
• precyzja (precision) określa stosunek dokumentów istotnych do wszystkich rozpoznanych:
precyzja =
|I ∩ R| |R|
• czułość (recall) określa ile z istotnych dokumentów zostało rozpoznanych:
czułość =
|I ∩ R| |I|
• współczynnik „odpadów” określa ile nieistotnych dokumentów zostało rozpoznanych jako istotne:
odpady =
|N ∩ R| |N |
• miara F (F-measure) średnia harmoniczna precyzji i czułości:
F = 2 · precyzja · czułość
precyzja + czułość
Na podstawie wielu praktycznych obserwacji ocenić można, iż najbardziej uniwer-salną z powyższych jest miara F która faworyzuje rezultaty o jednocześnie dużej pre-cyzji i czułości [Chinchor 1992,Rijsbergen 1979].
Oprócz wymienionych sposobów mierzenia rezultatów klasyfikacji, wspomnieć można także BEP (Break-Even Point) oraz AUC (Area Under Curve). Wykorzystują one da-ne z krzywej ROC (Receiver Operating Characteristic) która prezentuje stosuda-nek prawi-dłowo do błędnie rozpoznanych przykładów jako funkcję parametrów progów klasy-fikatora. Pierwsza ze wspomnianych miar wskazuje wartość, przy jakiej precyzja i czu-łość się równoważą. Druga określa powierzchnię pod krzywą ROC. W stosunku do zaprezentowanych wcześniej miar, wymagają one jednak znacznie większego nakładu obliczeniowego oraz możliwości sterowania parametrami klasyfikatora, tak aby można było regulować uzyskiwaną precyzję i czułość.
Aby ułatwić mierzenie z zastosowaniem wymienionych wyżej metryk, zastosować można tablicę wielodzielczą 4.1 (contingency table). Należy wpisać do niej liczbę
po-szczególnych kategorii rezultatów:
• TP prawdziwie pozytywne (true positive) przykłady, które należą do danej klasy i zostały rozpoznane jako należące,
4.3. Metryki 71
• FP fałszywie pozytywne (false positive) przykłady, które nie należą do danej klasy, ale zostały rozpoznane jako należące,
• TN prawdziwie negatywne (true negative) przykłady, które nie należą do da-nej klasy i zostały rozpoznane jako nienależące,
• FN fałszywie negatywne (false negative) przykłady, które należą do danej kla-sy, ale zostały rozpoznane jako nienależące.
Tabela 4.1: Tablica wielodzielcza rezultatów klasyfikacji rzeczywiście rzeczywiście nie przynależy do klasy przynależy do klasy rozpoznane jako TP FP przynależące rozpoznane jako FN TN nieprzynależące dokładność = T P + T N T P + T N + F P + F N precyzja = T P T P + F P czułość = T P T P + F N odpady = T N T N + F P
W praktycznych zastosowaniach, niemal zawsze ma się do czynienia z niezrówno-ważonymi zbiorami dla poszczególnych klas. To znaczy, niektóre kategorie są znacznie silniej reprezentowane niż inne. Stanowi to istotny problem, mogący wpływać na zdol-ności klasyfikatorów do rozpoznania rzadziej występujących klas. Aby móc ocenić jak w istocie zachowuje się klasyfikator, stosowane są dwa podejścia do uśredniania wyni-ków:
• mikro–uśrednianie uśrednianie odbywa się na poziomie dokumentu; do
tabli-cy wielodzielczej dodawane są wyniki szczątkowe z każdego klasyfikatora, a
na-stępnie wyliczane są z niej odpowiednie metryki (alternatywnie, można również uśrednić wyniki z poszczególnych klas, przypisując im odpowiednie wagi), • makro–uśrednianie uśredniane są rezultaty z wszystkich klas.
Mikro–uśrednianie pozwala określić jak dobrze działa dana metoda dla całego
roz-patrywanego zbioru (określić prawdopodobieństwo, że dany przykład zostanie właści-wie sklasyfikowany). Makro–uśrednianie określa jakie rezultaty są uzyskiwane dla wy-branego zbioru kategorii (określić prawdopodobieństwo, że kategorie będą prawidło-wo przypisane do przykładów). Jest zatem szczególnie przydatne przy analizie jakości