• Nie Znaleziono Wyników

4.1 Porównanie miar jakości grupowania

4.1.2 F-miara

F-miara łączy w sobie obie wartości precyzji i odzysku oraz odpowiednio je wyważa. Im większa wartość F-miary tym lepsze są wyniki grupowania. Odnosząc się do przykładu, przedstawionego we wstępie rozdziału, wartości F-miary dla przedstawionych sytuacji wynoszą:

 ( )

 ( )

 ( )

Powyższe rezultaty miar poprawnie odzwierciedlają jakości grupowania na każdego z przykładów. Sytuacja A, która reprezentuje najlepsze pogrupowanie obiektów, uzyskała najwyższą wartość F-miary. Druga w kolejności jest sytuacja C.

Obiekty są poprawnie połączone tematycznie, lecz rozmieszczone w większej liczbie klastrów. Najgorsze pogrupowanie otrzymało najmniejszą wartość F-miary.

Doświadczalne wyniki rzeczywistych danych umieszczone w tabelach (Tabela 5) również rzetelnie odzwierciedlają stan jakości grupowania. Niezależnie od algorytmu, liczby dokumentów i liczby klas, najwyższa wartość F-miary wyznacza jedno z najlepszych rezultatów grupowania. Miara ta, uwzględnia zarówno tematyczną jednolitość dokumentów w klastrze jak i liczbę klastrów, w których rozlokowane są dokumenty. Jest dobrym wyznacznikiem jakości grupowania i została uwzględniona w późniejszych analizach.

35 4.1.3 Czystość

Kolejną miarą jakości grupowania jest czystość. Określa ona jaki procent klastra zajmują dokumenty z dominującej w nim klasy. Im lepsze wyniki grupowania, tym większa wartość czystości. Wartości czystości dla danych przedstawionych w przykładzie przedstawionym we wstępie rozdziału wynoszą odpowiednio:

 ( ) jednego klastra większość obiektów jest z tej samej klasy.

Pierwszy zestaw wartości czystości, oznaczony w tabelach (Tabela 5) nazwą

„czystość”, zawiera dane, które przeczą charakterystyce im wyższa wartość czystości tym lepsza jakość grupowania. Wartość czystości maleje, zamiast rosnąć, przy coraz lepszych rezultatach grupowania. Takie zaburzenia w wynikach powodują klastry z pojedynczymi publikacjami. Dane doświadczalne pokazują, że jej wartość może być niepoprawnie modyfikowana poprzez dużą liczbę klastrów pojedynczych.

Czystość, nie uwzględnia liczby klastrów, dlatego też klastry z pojedynczymi obiektami mogą zostać pominięte przy wyliczeniach jej wartości. Eliminacja klastrów pojedynczych sprawiła, że miara adekwatnie odzwierciedla jakość pogrupowania, co pokazują wyniki w tabeli, w kolumnie „czystość bez pojedynczych” (Tabela 5).

Wyniki w tabeli pokazują również, że największe wartości czystości znajdują się w okolicy wybranego empirycznie najlepszego grupowania. Dlatego też, czystość (bez klastrów pojedynczych) była wykorzystywana do analizy skuteczności działania algorytmów grupujących.

4.1.4 Entropia

Ostatnią wykorzystaną miarą jakości grupowania jest entropia. Jest to miara bardzo czuła na wszelkie obiekty niepasujące do większości w klastrze.

W przeciwieństwie do poprzednich miar, im mniejsza wartość entropii, tym lepsze wyniki grupowania. Entropia bliska 0 oznacza, iż prawie wszystkie klastry zawierają jednolite tematycznie dokumenty. Podobnie do czystości, ignorowana jest liczba klastrów. Jednakże, jej wartości nie informują o najlepszych rezultatach całego grupowania. Wyniki w tabeli (Tabela 5) potwierdzają, że entropia nie może być wykorzystywana to jednoznacznego określenia jakości grupowania. W badanych przypadkach używana była jedynie jako informacja pomocnicza na temat przemieszania dokumentów w klastrach.

36

Tabela 5 Tabele zawierają wartości miar jakości grupowania trzech podejść: prostych, zupełnych i średnich połączeń. Szary kolor - komórki z najlepszym rezultatem konkretnej miary. Pogrubienie - najlepszy rezultat grupowania, potwierdzony empirycznie. Klastry pojedyncze – klastry zawierające jeden dokument, czystość bez pojedynczych – wartość czystości ignorująca klastry pojedyncze Zbiór danych: systemy agentowe, sieci Bayesa, kryptosystemy DES, programowanie rozproszone (łącznie 123 obiekty).

pojedynczych precyzja odzysk

pojedynczych precyzja odzysk

pojedynczych precyzja odzysk

37 4.2 Porównanie modeli niepodobieństw

W części teoretycznej zaprezentowano trzy główne modele określenia niepodobieństwa pomiędzy publikacjami naukowymi. Dwa opierały się na spisie literatury (symetryczny i asymetryczny) oraz jeden bazował na wiedzy zawartej w tytule dokumentów (TF-IDF tytułu). Wszystkie z nich wykorzystano w algorytmie

grupowania zupełnych połączeń na tych samych zbiorach danych i poddano analizie.

4.2.1 Model symetryczny

Rezultaty grupowań pokazują, iż podejście symetryczne błędnie przedstawia zależności między grupowanymi publikacjami. Widoczne jest to zarówno na przytoczonym rysunku (Rysunek 12) jak i w wartościach miar jakości grupowania, zebranych w tabelach (Tabela 6). Uwzględnienie sytuacji, gdy oba dokumenty nie cytują innej pracy, nie sprawdza się w przypadku, gdy liczba wszystkich cytowanych dokumentów jest bardzo duża. Analizując wzór (1) wyliczający niepodobieństwo w przypadku symetrycznym, można zauważyć iż tracone są w nim cenne wyznaczniki niepodobieństwa. W mianowniku zawarta jest informacja o liczbie wspólnych cytowań.

Zostaje ona zgubiona, gdyż mianownik, w tej wersji wzoru, jest zawsze równy liczbie cytowanych dokumentów.

Rysunek (Rysunek 12) prezentuje fragment klastra, w którym znalazły się publikacje ze wszystkich klas tematycznych. Daje on empiryczny pogląd na błędne zgrupowanie dokumentów. Analiza wyników całego grupowania potwierdza intuicyjne przeświadczenie. Porównując wyniki przy podobnej liczbie klastrów pojedynczych, podejście symetryczne ma najgorsze wyniki czystości i entropii. Obie miary informują o przemieszaniu dokumentów w klastrach. Wysoka wartość entropii wskazuje na sytuacje, gdy w jednym klastrze znajdują się dokumenty z różnych klas tematycznych.

Rysunek 12 Fragmenty graficznej reprezentacji klastrów powstałych w wyniku grupowania wykorzystując kolejno od lewej: symetryczne, asymetryczne i TF-IDF podejście wyliczania wartości niepodobieństwa. Ikony katalogów oznaczają klastry. Ikony dokumentów, zawierające się w katalogach, reprezentują publikacje naukowe. Publikacje należące do tej samej klasy tematycznej oznaczone są tym samym kolorem.

38

Można również odnotować, że wraz ze wzrostem liczby dokumentów i klas, model symetryczny sprawuje się coraz gorzej.

Analiza wzoru, wyników oraz graficznej prezentacji potwierdzają, iż podejście symetryczne nieprawidłowo przedstawia zależności między dokumentami. Nie powinna być ono wykorzystywane w grupowaniu publikacji naukowych na podstawie spisu literatury.

Tabela 6 Wyniki jakości grupowania dla trzech modeli wyliczania niepodobieństwa między dokumentami: symetrycznym, asymetrycznym i tf-idf tytułu. Tabele w jednej kolumnie prezentują rezultaty hierarchicznego algorytmu grupowania zupełnych połączeń dla tego samego zbioru danych.

Pogrubione wiersze przedstawiają wartości miar jakości grupowania dla podobnej liczby klastrów pojedynczych. Zbiór danych kolumny pierwszej to 100 dokumentów z 4 klas tematycznych: systemy multi-agentowe, sieci Bayesa, systemy rozproszone, fraktale animacja. Zbiór danych kolumny drugiej to 206 dokumentów z 8 klas, poza wymienionymi, dodatkowo: krypto-systemy RSA, parser LR, samoorganizujące się sieci neuronowe, wyszukiwanie muzyki.

symetryczny symetryczny

F-miara czystość entropia

0,005 91 89 0,14 0,05 0,08 0,009 93 89 0,21 0,14 0,52

0,009 75 71 0,24 0,14 0,22 0,01 82 77 0,22 0,17 0,55

0,01 71 66 0,25 0,16 0,25 0,013 56 54 0,22 0,14 0,7

asymetryczny asymetryczny

próg klastry

F-miara czystość entropia

0,9 93 88 0,13 0,12 0 0,9 188 172 0,13 0,17 0

F-miara czystość entropia

0,8 99 98 0,076 0,01 0,01 0,8 203 200 0,08 0,02 0,006

0,9 80 61 0,11 0,22 0,17 0,896 126 58 0,17 0,45 0,18

0,99 21 0 0,45 0,68 0,44 0,99 62 0 0,29 0,64 0,32

4.2.2 Model TF-IDF tytułu

Drugi pod względem wyników jakości grupowania jest model TF-IDF tytułu.

W przeciwieństwie do modeli symetrycznego i asymetrycznego, niepodobieństwo

39

bazuje na porównaniu tytułów dokumentów. Podejście to jest w stanie całkowicie wyeliminować klastry pojedyncze, jednakże bez uniknięcia przemieszania klas tematycznych w klastrach. Na przykładzie graficznym (Rysunek 12), jesteśmy w stanie zauważyć, że klastry wynikowe są różnorodne. Występują klastry o sporej liczbie dokumentów z tej samej klasy oraz klastry z dokumentami różniącymi się tematycznie.

Wyniki miar jakości grupowania potwierdzają, iż model danych TF-IDF tytułu nie jest odpowiedni do samodzielnego wykorzystania w grupowaniu. Tytuły są zbyt krótkimi jednostkami tekstu, aby prawidłowo wnioskować związki podobieństwa pomiędzy całymi dokumentami. Należy zauważyć, iż publikacje naukowe wykorzystane w badaniach dotyczą dziedzin technicznych. Tytuły z dziedzin technicznych posiadają podobne słownictwo w tytułach. Charakterystyczne dla konkretnej tematyki są zestawienia zaledwie pojedynczych słów.

Wyniki grupowania z wykorzystaniem opisanej metody są lepsze od metody symetrycznej. Niewykluczone, iż połączenie niepodobieństwa tytułu z niepodobieństwem na podstawie listy literatury, z odpowiednim wyważeniem, może być przydatne w grupowaniu publikacji naukowych.

4.2.3 Model asymetryczny

Najlepsze wyniki jakości grupowania zapewnia wykorzystanie modelu asymetrycznego, widoczne na wykresie (Rysunek 13). Prawidłowo reprezentuje on zależności między publikacjami naukowymi. Informacja o wspólnych cytowaniach nie jest gubiona jak w przypadku symetrycznych. Poprawnie zachowany jest również stosunek współcytowań do liczby cytowanych dokumentów przez obie porównywane publikacje.

O bardzo dobrym zachowaniu zależności między podobnymi dokumentami wskazuje, bliska zeru entropia. Miara ta jest bardzo czuła nawet na pojedyncze źle przyporządkowane dokumenty. Wykorzystanie modelu asymetrycznego jest w stanie wyeliminować wszelkie przemieszania w ramach klastrów. Wartość czystości jest najwyższa ze wszystkich porównywanych grupowań. Wartość F-miary nie jest w każdym z przypadków najwyższa. Jest to spowodowane dużą liczbą klastrów. Tabele pokazują (Tabela 6) również, że na jakość grupowania w przypadku modelu asymetrycznego, nie mają wpływu ani liczba wszystkich dokumentów ani klas.

Najlepsze wyniki wskazują, iż model asymetryczny jest najodpowiedniejszym z zaprezentowanych modelów. Wyliczone na jego podstawie niepodobieństwo może być wykorzystywane w hierarchicznym grupowaniu publikacji naukowych.

40

Rysunek 13 Grafika reprezentująca wartości miar jakości grupowania dla trzech podejść: symetrycznego, asymetrycznego i TF-IDF tytułu. Wynik dla każdego z podejścia jest średnią z dwóch wyróżnionych

przypadków w tabelach przedstawionych w rozdziale (Tabela 6).

4.3 Problem ustalenia progu

Aglomeracyjny algorytm hierarchiczny kończy działanie w dwóch przypadkach.

Jeżeli wszystkie obiekty znajdą się w jednym klastrze bądź, gdy niepodobieństwo między klastrami osiągnie zadany próg. Pierwszy sposób zakończenia algorytmu prezentuje hierarchię klastrów drzewa grupowania. Przeglądanie całego drzewa, w celu odnalezienia poziomu z najlepszymi rezultatami grupowania, jest żmudne, a reprezentacja wyników często nieczytelna. Lepszym sposobem, pokazującym odpowiedni podział na klastry, jest wykorzystanie progu. Po osiągnięciu odpowiedniej wartości niepodobieństwa, przerywane jest działanie algorytmu. Użytkownikowi prezentowane są wszystkie węzły-liście, utworzonego w ten sposób, niepełnego drzewa klastrów. Węzły te, są to klastry, które prezentują ostateczne rezultaty grupowania.

Przykład. Na rysunku (Rysunek 14) przedstawione zostało przykładowe drzewo grupowania obiektów (A-E) należących do dwóch klas (oznaczonych kolorami:

filetowym i niebieskim). Wartości niepodobieństwa pokazują kolejne łączenie obiektów i klastrów. Algorytm grupujący kończy działanie gdy wszystkie obiekty znajdą się w jednym klastrze, czyli gdy wartość niepodobieństwa będzie wyższa od 0,8.

Wymuszając zakończenie grupowania poprzez ustalenie progu równego 0,5 (przerywana czerwona linia), rezultatem będą: klaster z A i B, klaster z D i E oraz klaster pojedynczy z C. Ustalenie progu równego 0,7 (przerywana zielona linia),

0 0,1 0,2 0,3 0,4 0,5 0,6

symetryczny asymetryczny TF-IDF

Wartości miar jakości grupowania

Porównanie modeli niepodobieństw

czystość f-miara entropia

41

sprawia, że rezultat grupowania to dwa klastry: jeden z obiektami: A, B, C oraz drugi z obiektami: D i E.

Rysunek 14 Dendrogram przedstawiający wynikowe drzewo grupowania.

Podstawowym problemem podejścia z wykorzystaniem progu jest określenie odpowiedniej jego wartości, na której algorytm powinien skończyć działanie. Odnosząc się do opisanego przykładu, możemy zauważyć, iż ustalenie progu na wartości 0,7 daje gorsze wyniki grupowania, niż przy 0,5.

Wartości niepodobieństwa między klastrami są zależne od dwóch podstawowych czynników. Pierwszym z nich jest zbiór danych. W każdym zbiorze danych są inne relacje między dokumentami. Czasami zbór zawiera bardzo podobne do siebie publikacje, a czasami bardzo odmienne. Skutkuje to różnymi wartościami niepodobieństwa między obiektami zbioru, określanymi na początku algorytmu grupowania.

Kolejnym czynnikiem wpływającym na wartość niepodobieństwa jest sposób określenia go między klastrami. Różne podejścia algorytmów, dla tego samego zbioru danych, tworzą inną hierarchię klastrów, przy odmiennych wartościach niepodobieństwa. Dane w tabelach (Tabela 7) pokazują również, że w niektórych podejściach algorytmów znaczące są setne, czy tysięczne części ułamkowe progów.

Przebieg wartości jakości grupowania zależnej od progu, ma charakterystyczny punkt przegięcia. W większości przypadków, wartości F-miary oraz czystości początkowo rosną. Następnie po osiągnięciu najlepszego rezultatu, zwiększenie progu powoduje pogorszenie jakości grupowania. Opisaną sytuację można zauważyć na grafice (Rysunek 15). Punkt przegięcia jakości grupowania jest kolejnym utrudnieniem w dobraniu odpowiedniej wartości progu.

42

Z podanych powodów określenie odpowiedniego progu jest znacznym utrudnieniem dla użytkownika. Najczęściej wiąże się to z kilkukrotnym wykonaniem grupowania na tym samym zbiorze danych i tym samym algorytmem, ale z innym progiem. Dopiero po porównaniu wyników dla kilku prób, można określić zbliżony próg, zapewniający najlepsze rezultaty grupowania. Jednakże, dopiero szczegółowa analiza drzewa i kolejnych złączeń klastrów jest w stanie wskazać dokładną wartość niepodobieństwa, przy której algorytm powinien zakończyć działanie.

0 0,2 0,4 0,6 0,8 1

0,88 0,9 0,92 0,94 0,96 0,98 1 1,02

jakość

próg

Podejście średnich połączeń

czystość f-miara 0

0,1 0,2 0,3 0,4 0,5 0,6 0,7

0,88 0,9 0,92 0,94 0,96 0,98 1 1,02

jakość

próg

Podejście prostych połączeń

f-miara czystość

Rysunek 15 Przebieg wartości miar jakości grupowania, dla podejścia prostych i średnich połączeń zależne od progu.

43

Tabela 7 Tabele zawierają wartości miar jakości grupowania trzech podejść: prostych, zupełnych i średnich połączeń. Pogrubienie – najlepsze grupowanie potwierdzone empirycznie ze strukturą klastrów.

Zbiór danych: systemy agentowe, sieci Bayesa, kryptosystemy DES, programowanie rozproszone, fraktale, parser LL, problem plecakowy, rozpoznawanie twarzy (łącznie 223 obiekty).

podejście prostych połączeń Próg

liczba klastrów

liczba klastrów

pojedynczych F-miara czystość entropia

0,9 191 174 0,228 0,219 0

pojedynczych F-miara czystość entropia

0,9 202 183 0,147 0,179 0

pojedynczych F-miara czystość entropia

0,9 198 179 0,169 0,197 0

44 4.4 Ocena jakości grupowania

Dokładna analiza, wyłaniająca skuteczność hierarchicznego aglomeracyjnego algorytmu grupowania publikacji naukowych, wymaga usystematyzowania badań.

Rzetelna ocena rozwiązań, wymaga podziału testów na podgrupy. Podział zapewni dokładniejsze przyjrzenie się problemowi, uwzględniając wpływ charakterystycznych cech danych na rezultaty algorytmu. Wszystkie dokumenty wykorzystane w badaniach zostały zaczerpnięte z portalu internetowego ACM Digital Library [WWWACM].

Różnorodność tematyczna badana w podrozdziałach jest rozumiana poprzez wykorzystanie dokumentów z różnych działów i rozwiązań informatyki.

4.4.1 Zbiór z małą liczbą klas tematycznych

Zbiory danych wykorzystane w analizie składają się z zaledwie kilku klas tematycznych (trzech, czterech). W rozdzieleniu tak niedużej liczby klas, z algorytmów w podstawowej wersji wyliczania niepodobieństwa (bazującej jedynie na literaturze), najlepiej sprawuje się podejście średnich połączeń (patrz Rysunek 16). Dokumenty zostały rozlokowane w najmniejszej liczbie klastrów przy niewielkiej liczbie klastrów pojedynczych. Jakość wynikowych grup jest również bardzo dobra. Potwierdzają ją wysokie wartości F-miary i czystości. W większości przypadków algorytm uzyskał najlepsze wyniki obu miar. Wartość entropii zachowana jest na dostatecznie niskim poziomie. Często jest ona zbliżona, a nawet równa zeru, co pokazuje, że sporadycznie występują sytuacje nieprawidłowego przyporządkowania niepasujących dokumentów.

Podejście zupełnych połączeń uzyskuje najlepsze wartości entropii oraz poprawnie wysokie wartości czystości. F-miara jest często na najniższym poziomie spośród wszystkich podejść. Spowodowane jest to charakterystyczną wadą tego algorytmu – bardzo dużą liczbą klastrów wynikowych. Liczba klastrów pojedynczych jest średnio około o 10 większa niż w przypadku podejścia średnich połączeń.

Najgorsze wyniki uzyskuje algorytm prostych połączeń. Liczba klastrów pojedynczych jest o wiele większa niż w innych przypadkach. Czasami ich liczba wynosi jedną trzecią wszystkich grupowanych publikacji. Liczba klastrów wynikowych jest niska i często zbliżona liczbie, jaką uzyskało podejście średnich połączeń.

Jednakże, mała liczba grup nie odbija się na ich jakości. Wartości F-miary i czystości są na równym niskim poziomie, wskazując na spory zbiór publikacji nieprawidłowo zgrupowanych.

45

Tabela 8 Rezultaty grupowania zbioru danych z trzema klasami tematycznymi: problem plecakowy, kryptosystemy, fraktale. Kolumna liczba dok. – liczba wszystkich dokumentów w zbiorze.

podejście

F-miara czystość entropia

prostych 98 0,935 33 27 6 0,789 0,724 0

Liczba klastrów wynikowych często nie jest równa liczbie klas tematycznych w grupowanym zbiorze danych. Odwołując się do danych z tabel (Tabela 8, Tabela 9), dla zbioru danych z trzema klasami tematycznymi najlepsze podejście uzyskało (odpowiednio dla stu, dwustu i trzystu dokumentów) cztery, sześć oraz dziesięć klastrów wynikowych. Wraz z większą liczbą grupowanych dokumentów, zauważalna jest tendencja rosnąca liczby klastrów wynikowych. Tendencja ta dotyczy wszystkich podejść. Podobny wpływ na liczność klastrów wynikowych ma wzrost liczby klas.

Zwiększenie liczby klas tematycznych w zbiorze skutkuje zwiększeniem liczby klastrów wyników. Ich wzrost często działa na niekorzyść jakości grupowania, gdyż nie odzwierciedlają one prawidłowo rzeczywistej liczby klas tematycznych.

46

Tabela 9 Rezultaty grupowania zbioru danych z czterema klasami tematycznymi: systemy agentowe, sieci Bayesa, kryptosystemy, rozpoznawanie twarzy. Kolumna liczba dok. – liczba wszystkich dokumentów w zbiorze.

F-miara Czystość entropia

prostych 95 0,93 59 52 7 0,506 0,442 0,027

Zwiększenie liczności zbioru danych nie ma bezpośredniego wpływu na liczbę klastrów pojedynczych. Niezależnie od liczby dokumentów oraz liczby klas tematycznych ich procent utrzymuje się na podobnym poziomie dla każdego z podejść algorytmu.

Poza podstawowym wyliczeniem niepodobieństwa na podstawie spisu literatury sprawdzono również jakości grupowania uwzględniające dodatkowo niepodobieństwo tytułu. We wszystkich podejściach algorytmu, zmniejszyła się liczba klastrów pojedynczych. Drastyczne zredukowanie pojedynczych dokumentów jest zauważalne w podejściu zupełnych i średnich połączeń. Niejednokrotnie liczba pojedynczych przypadków była bliska zeru. Ich redukcja widoczna jest również w wartościach czystości, której wzrost jest odnotowany we wszystkich przypadkach obu podejść.

47

Jednakże uwzględnienie niepodobieństwa tytułów wprowadza więcej błędów przy rozdzieleniu dokumentów na grupy, odzwierciedlone w znacznym pogorszeniu entropii.

4.4.2 Rozdzielenie dwóch klas tematycznych

Szczególną uwagę należy zwrócić na sytuację, gdy zbiór danych zawiera dwie klasy tematyczne. Podejścia algorytmów grupujących uzyskują najlepsze rezultaty przy rozdzieleniu dokumentów na dwie grupy.

Wyniki algorytmu średnich oraz prostych połączeń, przy rozdzieleniu dwóch podobnych klas tematycznych, są bardzo dobre. Przy odpowiednim dopasowaniu progów, ostatecznie otrzymywane są dwa klastry z rozdzielonymi poprawnie dokumentami. Wyniki obu algorytmów są bardzo dobre, przy dowolnej wielkości zbioru danych (patrz Rysunek 17). Zbiór ponad dwustu dokumentów nie został rozdzielony na dwa, ale uzyskano dobry wynik z trzema klastrami (patrz Tabela 10).

Wraz ze zwiększeniem liczności zbioru danych, dla algorytmu prostych połączeń, polepszyły się wyniki F-miary i czystości. Analogicznie wysokie wyniki uzyskał algorytm średnich połączeń. Wszystkie podstawowe podejścia algorytmów zachowały

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

Wartości miar jakości grupowania - mała liczba klas tematycznych

f-miara czystość entropia

Rysunek 16 Zbiorcze, uśrednione rezultaty wartości miar niepodobieństwa, dla każdego z podejść algorytmu. Grupowanie wykonane na zbiorze danych z małą liczbą klas tematycznych i z różną wielkością zbioru.

48

zerowe entropie, oznaczające brak błędnych przyporządkowań dokumentów. Liczba klastrów pojedynczych, niezależnie od liczności zbioru, jest mniejsza niż w zbiorach z większą liczbą klas tematycznych. Uwzględnienie niepodobieństwa tytułów w większości przypadków pogorszyło uzyskane wyniki. Nieznaczne polepszenie widoczne jest jedynie w przypadku podejścia zupełnych połączeń.

Rysunek 17 Rezultaty miar jakości grupowania dla zbioru z dwoma różnymi klasami tematycznymi.

Wykres na podstawie uśrednienia wartości w powiązanej tabeli (Tabela 10).

Tabela 10 Wyniki miar jakości grupowania dla zbioru z dwoma różnymi klasami: rozpoznawanie twarzy i kryptostystemy.

F-miara czystość entropia

prostych 117 0,98 7 5 2 0,978 0,957 0

Grupowanie zbioru z dwoma różnymi klasami

f-miara czystość entropia

49

Rezultaty grupowania zbioru z dwoma klasami o podobnych tematykach są również bardzo dobre. Ponadto, większość wniosków dotyczących grupowania zbioru różnych tematycznie publikacji, są aktualne w zbiorze z podobnymi klasami.

Ewidentna różnica zauważalna jest jedynie w wynikach uzyskiwanych przez podejście prostych połączeń. Na poniższym wykresie (Rysunek 18) i tabeli (Tabela 11) widoczne jest znaczne pogorszenie rezultatów tego podejścia. Wyniki wszystkich miar są słabe, przy bardzo dużej liczbie klastrów pojedynczych, dlatego też proste połączenia nie powinny być wykorzystywane do rozdzielenia zbioru z podobnymi klasami.

Rysunek 18 Rezultaty miar jakości grupowania dla zbioru z dwiema podobnymi klasami tematycznymi.

Wykres na podstawie tabeli (Tabela 11).

Tabela 11 Wyniki miar jakości grupowania dla zbioru z dwiema podobnymi klasami: rozpoznawanie twarzy i rozpoznawanie mimiki twarzy.

podejście

F-miara czystość entropia

prostych 150 0,9 57 50 7 0,52 0,49 0,47

Grupowanie zbioru z dwoma podobnymi klasami

f-miara czystość entropia

50

4.4.3 Zbiór danych z dużą liczbą klas tematycznych

Rezultaty jakości grupowania zbioru zawierającego więcej klas tematycznych, są gorsze od przykładów z mniejszą ich liczbą. Liczba klastrów pojedynczych wzrosła, a uzyskane wartości miar nie są tak zadowalające jak w przypadku rozdzielenia kilku klas.

Podobnie jak w poprzednich analizach najlepiej spisuje się algorytm średnich połączeń, uzyskując najlepsze rezultaty wartości miar jakości grupowania (Rysunek 19). W danych przedstawionych w tabelach (Tabela 12, Tabela 13) podejście to, uzyskało najwyższe wartości F-miary i czystości. Dotyczy to zarówno podejścia tradycyjnego jak i z uwzględnieniem niepodobieństwa tytułów. Przy podobnej liczności zbioru, niezależnie od liczby klas: ośmiu, czy trzynastu, wartości miar utrzymują się na podobnym poziomie.

Tabela 12 Wyniki miar jakości grupowania dla zbioru z ośmioma klasami: systemy agentowe, sieci Bayesa, kryptosystemy, systemy rozproszone, fraktale, parsery, muzyka, sieci neuronowe.

podejście

F-miara czystość entropia

prostych 198 0,945 133 114 19 0,35 0,39 0,03

Najgorzej sprawuje się algorytm z podejściem prostych połączeń. Liczba klastrów pojedynczych w tym podejściu jest dwukrotnie wyższa od liczb odnotowanych w pozostałych. Bardzo niska wartość F-miary i czystości wskazują, iż algorytm ten niepoprawnie rozdziela dokumenty.

51

Tabela 13 Wyniki miar jakości grupowania dla zbioru z trzynastoma klasami: systemy agentowe, sieci

Tabela 13 Wyniki miar jakości grupowania dla zbioru z trzynastoma klasami: systemy agentowe, sieci

Powiązane dokumenty