Angielska Wikipedia - Ewaluacja algorytmów klasyﬁkacyjnych

6.4 Ewaluacja algorytmów klasyﬁkacyjnych

6.4.1 Angielska Wikipedia

W pierwszej kolejności zostały zbudowane modele wykorzystujące zbiór uczący z dwiema kla-sami jakości:

• Kompletne - 5000 artykułów z klasy FA oraz 5000 artykułów z klasy GA. Razem - 10000 art.

• Niekompletne - 2500 artykułów z każdej z pozostałych czterech klas jakości: B, C, Start, Stub. Razem - 10000 art.

Dla każdego artykułu zostały wyekstrahowane miary, które były opisane w poprzednim roz-dziale („Miary oraz wymiary jakości artykułów Wikipedii”). Na podstawie tych danych zostały zbudowane modele z wykorzystaniem różnych wcześniej opisanych algorytmów (patrz tabelę 6.1)

Do oceny jakości klasyﬁkatorów wykorzystywane mogą być różne narzędzia. Jedno z pod-stawowych - macierz błędu, która może być stosowana dla pokazania rozbieżności pomiędzy klasami, do których należą artykuły (klasy rzeczywiste) oraz klasami, które były określone przez model (wynik). Innymi słowy, ta macierz może wykryć, ile z oryginalnie oznaczonych jako „Kom-pletne” („NieKom„Kom-pletne”) zostanie omyłkowo zaklasyﬁkowana jako „Niekom„Kom-pletne” („Kom-pletne”). Tabela 6.2 pokazuje macierz błędów (tablica pomyłek) tego modelu oceny jakości przy wykorzystaniu algorytmu lasu losowego (Random Forest).

Tabela 6.2. Macierz błędów w modelu predykcji jakości w angielskiej Wikipedii przy użyciu dychotomicznej zmiennej zależnej z wykorzystaniem algorytmu RandomForest.

Wynik modelu Kompletne NieKompletne

Klasa rzeczywista ^Kompletne ⁹⁶¹⁵ ³⁸⁵

Niekompletne 804 9196

Źródło: Obliczenia własne przy użyciu pakiety statystycznego WEKA.

Na podstawie macierzy błędów można obliczyć różne wskaźniki jakości modelu. Niektóre z tych wskaźników zostały opisane w tabeli 6.3.

W tabeli 6.4 zostały pokazane średnie ważone wskaźniki jakości poszczególnych modeli na zbiorze danych z angielskiej Wikipedii z dychotomiczną zmienną zależną.

Wyniki pokazują, że w zależności od algorytmu klasyﬁkacyjnego, można osiągnąć ponad 90-procentową precyzję. Najlepsze wskaźniki wykazał algorytm lasu losowego.

Tabela 6.5 pokazuje szczegółową informację na temat wskaźników jakości w modelu pre-dykcji jakości w angielskiej Wikipedii przy użyciu dychotomicznej zmiennej zależnej z wykorzy-staniem algorytmu RandomForest.

Następnie zostały zbudowane modele jakości, w których dla każdej klasy jakości przypisano oddzielna kategoria. W angielskiej Wikipedii takich grup artykułów jest 6: FA, GA, B, C, Start, Stub. Dla każdej z tych klas zostało losowo dobrane po 5 000 artykułów. Razem zbiór danych li-czył 30 000 artykułów. Dla każdego z wybranych artykułów zostały wyekstrahowane ponad 100 różnych miar jakości, opisanych w rozdziale „Miary oraz wymiary jakości artykułów Wikipedii”.

Tabela 6.3. Wskaźniki jakości modelu klasyﬁkacyjnego.

Wskaźnik Opis

TP (True Posi ve) Prawdziwie pozytywna. W rozpatrywanym przykładzie to jest wartość 9615, która pokazuje ile artykułów oryginalnie oznaczonych jako „Kompletne” zo-stały zaklasyﬁkowany jako „Kompletne” przez model. TP Rate oznacza stosu-nek artykułów oznaczonych przez model jako „Kompletne” do liczby wszyst-kich artykułów, które rzeczywiście do tej klasy należą.

TN (True Nega ve) Prawdziwie negatywna. W rozpatrywanym przykładzie to jest wartość 9196, która pokazuje ile artykułów oryginalnie oznaczonych jako „Niempletne” zo-stały zaklasyﬁkowany jako „NieKompletne”.

FP (False Posi ve) Fałszywie pozytywna czy błąd pierwszego rodzaju. W rozpatrywanym przykła-dzie to jest wartość 804, która pokazuje ile artykułów oryginalnie oznaczonych jako „NieKompletne” zostały omyłkowo zaklasyﬁkowany jako „Kompletne”. FP Rate oznacza stosunek artykułów omyłkowo oznaczonych przez model jako „Kompletne” do liczby wszystkich artykułów, które należą do klasy „NieKom-pletne”.

FN (False Nega ve) Fałszywie negatywna czy błąd drugiego rodzaju. W rozpatrywanym przykła-dzie to jest wartość 385, która pokazuje ile artykułów oryginalnie oznaczonych jako „Kompletne” zostały zaklasyﬁkowany omyłkowo jako „NieKompletne” przez model.

Precision Precyzja modelu, liczona na podstawie wzoru: Precision = TP/(TP + FP)

Recall Czułość modelu, liczona na podstawie wzoru: Recall = TP/(TP + FN)

F-measure Miara liczona na podstawie wzoru: ^{2∗Precision∗Recall}_{Precision+Recall}

MCC współczynnik korelacji Ma hews liczony na podstawie wzoru: MCC = TP×TN−FP×FN

√(TP+FP)(TP+FN)(TN+FP)(TN+FN) ROC (Receiver

Opera ng Charac-teris cs)

Prawdopodobieństwo, że badany model predykcyjny oceni wyżej losowy ele-ment klasy pozytywnej („Kompletne”) od losowego eleele-mentu klasy negatyw-nej („NieKompletne”). ROC - to funkcja punktu odcięcia, przedstawia zmien-ność TP Rate w zależności od FP Rate.

PRC (Precision-Recall Curve)

Pokazuje zależność między precyzją (Precision) a czułością (Recall) dla każdego możliwego odcięcia na wykresie, gdzie na osi OX pokazana precyzja oraz na osi OY - czułość modelu. W odróżnieniu od ROC, ta wartość może być bardziej przydatna, jeżeli badane jest zachowanie klasyﬁkatora tylko w ramach okre-ślonej klasy (Saito i Rehmsmeier, 2015).

Tabela 6.4. Wskaźniki jakości modeli klasyﬁkacyjnych na zbiorze artykułów z angielskiej Wi-kipedii przy użyciu dychotomicznej zmiennej zależnej. Sortowano według precyzji.

Algorytm Precision Recall F-Measure MCC ROC Area PRC Area

RandomForest 0,941 0,941 0,941 0,882 0,985 0,984 Bagging 0,934 0,933 0,933 0,868 0,980 0,979 RandomSubSpace 0,934 0,933 0,933 0,866 0,979 0,979 LMT 0,932 0,932 0,931 0,863 0,975 0,968 RandomCommi ee 0,930 0,930 0,930 0,860 0,978 0,973 Classiﬁca onViaRegression 0,924 0,923 0,923 0,847 0,972 0,969 PART 0,923 0,922 0,922 0,845 0,927 0,905 REPTree 0,914 0,913 0,913 0,827 0,956 0,946 A ributeSelectedClassiﬁer 0,911 0,910 0,910 0,821 0,916 0,889 J48 0,910 0,910 0,910 0,820 0,896 0,864 Mul ClassClassiﬁer 0,908 0,908 0,907 0,815 0,963 0,958 Itera veClassiﬁerOp mizer 0,903 0,901 0,901 0,804 0,962 0,960 LogitBoost 0,903 0,901 0,901 0,804 0,962 0,960 SimpleLogis c 0,901 0,901 0,901 0,802 0,963 0,959 SMO 0,900 0,899 0,899 0,799 0,899 0,859 FilteredClassiﬁer 0,891 0,890 0,890 0,780 0,908 0,878 DecisionTable 0,886 0,884 0,884 0,770 0,946 0,942 AdaBoostM1 0,877 0,877 0,877 0,754 0,950 0,942 RandomTree 0,877 0,877 0,876 0,753 0,877 0,830 Mul layerPerceptron 0,865 0,851 0,850 0,716 0,949 0,946 DecisionStump 0,853 0,848 0,848 0,702 0,848 0,797 OneR 0,844 0,843 0,842 0,687 0,843 0,789 HoeﬀdingTree 0,827 0,809 0,806 0,636 0,793 0,767 BayesNet 0,825 0,823 0,823 0,648 0,882 0,855 NaiveBayes 0,710 0,659 0,636 0,365 0,798 0,737 RandomizableFilteredClassiﬁer 0,643 0,643 0,643 0,286 0,643 0,595

Źródło: Obliczenia własne w programie WEKA.

Tabela 6.5. Wskaźniki jakości w modelu predykcji jakości w angielskiej Wikipedii przy użyciu dychotomicznej zmiennej zależnej z wykorzystaniem algorytmu RandomForest.

Klasa TP Rate FP Rate Precision Recall F-Measure MCC ROC Area PRC Area

Kompletne 0,962 0,08 0,923 0,962 0,942 0,882 0,985 0,982 NieKompletne 0,92 0,039 0,96 0,92 0,939 0,882 0,985 0,986

Średnia ważona 0,941 0,059 0,941 0,941 0,941 0,882 0,985 0,984

Podobnie jak w przypadku klasyﬁkacji binarnej, dla większej niż 2 liczby klas można zbu-dować macierz błędów, która pokazuje rozbieżności pomiędzy rzeczywistymi klasami oraz kla-sami, określonymi przez model. Tabela 6.6 przedstawia taką macierz dla 6 klas jakości w an-gielskiej Wikipedii przy użyciu algorytmu lasa losowego. Warto zwrócić uwagę, że największe rozbieżności pomiędzy liczbami artykułów rzeczywistych oraz oznaczonych przez model wystę-pują w sąsiednich według jakości klasach. To może oznaczać brak sztywnych granic pomiędzy kryteriami jakości w bliskich klasach. Najniższa predykcja modelu wykazana przy wyznaczeniu jakości artykułów z pośrednich klas: B oraz C.

Tabela 6.6. Macierz błędów w modelu predykcji jakości w angielskiej Wikipedii przy użyciu nominalnej zmiennej zależnej z wykorzystaniem algorytmu RandomForest.

Wynik modelu FA GA B C Start Stub Klasa rzeczywista FA 4648 284 60 8 0 0 GA 970 3657 226 119 27 1 B 295 657 2141 1244 610 53 C 71 348 1206 2185 1115 75 Start 12 77 290 974 2917 730 Stub 0 1 20 107 991 3881

Źródło: Obliczenia własne przy użyciu pakiety statystycznego WEKA.

W tym przypadku macierz błędów również może być stosowana do obliczeń miar jakości modelu. Do obliczenia wskaźników (np. ROC), które zazwyczaj są stosowane do oceny algo-rytmów klasyﬁkacji binarnej, wykorzystana jest średnia ważona, która uwzględnia obliczenia tych wskaźników z punktu widzenia poszczególnych klas. Np. przy obliczeniu ROC dla klasy FA, wszystkie artykuły są dzielone na dwie grupy: FA oraz inne klasy (jako jedna wspólna).

W tabeli 6.7 zostały pokazane wskaźniki jakości poszczególnych algorytmów na zbiorze da-nych z angielskiej Wikipedii z nominalną zmienną zależną. Do obliczenia każdego wskaźnika została użyta średnia ważona wartości wskaźników dla każdej z rozpatrywanych klas jakości ar-tykułów.

Wyniki analizy wskaźników jakości modelu pokazują przewagę algorytmu Random Forest. Ten algorytm posiada największe wartości wszystkich rozpatrywanych wskaźników.

Warto zaznaczyć że wykorzystanie dodatkowych miar jakości, zaproponowanych w niniej-szej rozprawie, pozwala na zbudowanie bardziej precyzyjnych modeli, niż w innych badaniach

Tabela 6.7. Wskaźniki modeli klasyﬁkacyjnych na zbiorze artykułów z angielskiej Wikipedii przy użyci nominalnej zmiennej zależnej. Sortowano według precyzji.

Algorytm Precision Recall F-Measure MCC ROC Area PRC Area

RandomForest 0,642 0,648 0,642 0,574 0,913 0,688 LMT 0,618 0,622 0,618 0,544 0,900 0,641 RandomSubSpace 0,613 0,622 0,614 0,542 0,903 0,663 Bagging 0,611 0,619 0,613 0,538 0,899 0,660 RandomCommi ee 0,601 0,605 0,601 0,524 0,879 0,612 Classiﬁca onViaRegression 0,595 0,604 0,599 0,521 0,883 0,626 JRip 0,583 0,527 0,512 0,452 0,815 0,492 SimpleLogis c 0,581 0,593 0,583 0,505 0,885 0,601 Itera veClassiﬁerOp mizer 0,571 0,584 0,571 0,493 0,884 0,613

LogitBoost 0,571 0,584 0,571 0,493 0,884 0,613 REPTree 0,570 0,578 0,572 0,489 0,858 0,568 PART 0,567 0,567 0,567 0,480 0,759 0,455 SMO 0,563 0,573 0,563 0,481 0,846 0,484 Mul ClassClassiﬁer 0,562 0,577 0,564 0,484 0,873 0,575 J48 0,539 0,539 0,539 0,447 0,740 0,423 A ributeSelectedClassiﬁer 0,533 0,535 0,534 0,441 0,739 0,422 FilteredClassiﬁer 0,505 0,516 0,508 0,413 0,757 0,431 DecisionTable 0,504 0,518 0,504 0,414 0,841 0,509 RandomTree 0,501 0,501 0,501 0,401 0,700 0,358 BayesNet 0,485 0,497 0,471 0,386 0,822 0,487 OneR 0,382 0,398 0,385 0,269 0,639 0,288 HoeﬀdingTree 0,336 0,351 0,249 0,198 0,631 0,281 NaiveBayes 0,316 0,310 0,264 0,165 0,718 0,316 RandomizableFilteredClassiﬁer 0,288 0,289 0,289 0,147 0,573 0,213

Źródło: Obliczenia własne w programie WEKA.

w tym obszarze (Dang i Ignat, 2016b; Halfaker, 2017; Shen i in., 2017; Warncke-wang i in., 2013; Warncke-Wang i in., 2015).

Tabela 6.8. Wskaźniki jakości w modelu predykcji jakości w angielskiej Wikipedii przy użyciu nominalnej zmiennej zależnej z wykorzystaniem algorytmu RandomForest.

Klasa TP Rate FP Rate Precision Recall F-Measure MCC ROC Area PRC Area

FA 0,93 0,054 0,775 0,93 0,845 0,816 0,984 0,916 GA 0,731 0,055 0,728 0,731 0,73 0,675 0,95 0,818 B 0,428 0,072 0,543 0,428 0,479 0,393 0,852 0,506 C 0,437 0,098 0,471 0,437 0,453 0,349 0,845 0,459 Start 0,583 0,11 0,515 0,583 0,547 0,451 0,876 0,547 Stub 0,776 0,034 0,819 0,776 0,797 0,758 0,969 0,885 Średnia ważona 0,648 0,07 0,642 0,648 0,642 0,574 0,913 0,688

W dokumencie Metoda porównywania i wzbogacania informacji w wielojęzycznych serwisach wiki na podstawie analizy ich jakości (Stron 76-82)