Analiza taksonomiczna dokumentów tekstowych

Pełen tekst

(1)Zeszyty Naukowe nr 764. 2007. Uniwersytetu Ekonomicznego w Krakowie. Pawe∏ Lula Katedra Informatyki. Analiza taksonomiczna dokumentów tekstowych Streszczenie: Celem artykułu jest zaprezentowanie założeń, metod i możliwych do osiągnięcia rezultatów taksonomicznej analizy dokumentów tekstowych. W pracy zamieszczono również wyniki analizy przykładowej kolekcji dokumentów napisanych w języku polskim. Słowa kluczowe: analiza taksonomiczna, klasyfikacja bezwzorcowa, analiza tekstów, Text Mining, sieci Kohonena.. 1. Wst´p Stopień upowszechnienia informacji tekstowej jest bardzo wysoki. Stanowi ona zasadniczą część publikacji, raportów, czasopism, listów. Może stanowić zapis bezpośrednich wypowiedzi człowieka. Jest również powszechna w internetowych systemach informacyjnych (portale internetowe, poczta elektroniczna, grupy dyskusyjne). Informacje o charakterze tekstowym pochodzące z dokumentów lub poczty elektronicznej, raportów, portali internetowych mają coraz większe znaczenie w procesie podejmowania decyzji. Wskazuje się, że aż 80% informacji niezbędnych do podejmowania decyzji w codziennym życiu ma charakter tekstowy1. W wielu dziedzinach aktywności ludzkiej ogromny napływ informacji przerasta możliwości percepcyjne odbiorców [Zarządzanie… 2000]. Rozwiązaniem pojawiających się w tym zakresie problemów mogą być systemy realizujące bez udziału człowieka zadania z zakresu klasyfikacji, selekcji, wyszukiwania napływających przekazów. Próby stworzenia tego typu narzędzi wskazują jednak, że informacje tekstowe, które są stosunkowo proste do interpretacji dla człowieka, stawiają duży opór zautomatyzowanym systemom analizy danych. Istniejące trud1. Informacja podana za: http://www.entrieva.com/entrieva/index.htm.

(2) 160. Paweł Lula. ności wynikają przede wszystkim ze specyfiki języków naturalnych, ich bogactwa i niejednoznaczności. Zautomatyzowane systemy analizy języków naturalnych mają dość długą historię. Pionierem badań prowadzonych w tej dziedzinie jest wybitny lingwista Noam Avram Chomsky (ur. 1928), który był przekonany o możliwości stworzenia modelu formalnego opisującego sposób tworzenia i przetwarzania wypowiedzi w języku naturalnym. Prace zapoczątkowane przez Chomsky’ego były kontynuowane przez wielu badaczy (między innymi przez A. Turinga i J. Weizenbauma). Znaczna ich część ukierunkowana była na stworzenie systemu automatycznego tłumaczenia tekstów. Postęp w dziedzinie automatycznej analizy języków naturalnych jest ogromny, ale wnioski wypływające z badań nie potwierdzają hipotezy Chomsky’ego o możliwości opisu języka za pomocą formalnych modeli. Wyniki prowadzonych prac pozwoliły natomiast na pozytywną weryfikację metod przetwarzania tekstów opartych na danych w postaci przykładów zgromadzonych w dużych bazach danych. Przy takim podejściu sposób postępowania stosowany przez zautomatyzowany system analizy jest analogiczny do postępowania realizowanego wcześniej przez człowieka i opisanego w postaci zapisów przechowywanych w bazie danych. Sposób realizacji analizy jest w dużym stopniu uzależniony od postaci zasobów tekstowych, które mogą przyjmować postać nieustrukturalizowaną lub też mogą charakteryzować się znaną strukturą (za przykład mogą posłużyć informacje tekstowe przechowywane w formacie HTML lub XML). Wykorzystanie metainformacji opisujących strukturę badanych zasobów wymaga stosowania specjalizowanych metod analizy, ale może prowadzić do uzyskania znacznie lepszych rezultatów. Czynnikiem przyspieszającym w znacznym stopniu rozwój metod automatycznej analizy i przetwarzania tekstów jest rozwój serwisów WWW. Ta podstawowa usługa informacyjna funkcjonująca w rozproszonym środowisku internetowym ma charakter multimedialny, ale przekaz tekstowy odgrywa w niej bardzo istotną funkcję. Metody służące analizie treści zasobów prezentowanych w postaci stron WWW zaliczane są do grupy algorytmów znanych pod nazwą WebMining. 2. Klasyfikacja dokumentów tekstowych Problem klasyfikacji danych należy do najczęściej podejmowanych zadań badawczych. Zasadniczym jego celem jest rozpoznanie struktury rozpatrywanego zbioru obiektów. Przeprowadzone prace mogą stanowić etap wstępny do dalszych badań ukierunkowanych na określenie charakterystyk wyróżnionych klas obiektów oraz wizualizację uzyskanych rezultatów. Zestaw metod pozwalających na realizację zadań z zakresu klasyfikacji jest bardzo szeroki ([Pociecha i in., 1988; Grabiński i in., 1989]). Jego najważniejszą częścią są metody taksonomiczne,.

(3) Analiza taksonomiczna dokumentów tekstowych. 161. wśród których szczególną popularnością cieszą się algorytmy aglomeracyjne pozwalające na identyfikację hierarchicznych prawidłowości istniejących w badanie zbiorowości obiektów. Do rozwiązywania problemów z zakresu klasyfikacji zwolenników znajdują również metody graficzne oraz sieci neuronowe. Cechą wspólną wymienionych powyżej metod analizy jest bazowanie na informacjach o charakterze ilościowym. Wartości wyrażone na skali nominalnej lub porządkowej mogą być również uwzględnione w trakcie badań, lecz po przekształceniu do postaci numerycznej. Informacje tekstowe dotyczące badanych obiektów (opisy, raporty, notatki, prospekty, analizy) są najczęściej pomijane w trakcie realizacji prac badawczych. Powszechność informacji tekstowych jest czynnikiem, który w istotny sposób zwiększa zapotrzebowanie na metody ich analizy i przetwarzania (w tym również klasyfikacji). Mogą one służyć lub wspomagać prace zmierzające do zautomatyzowanego: – przeszukiwania dużych zasobów tekstowych, – klasyfikacji dokumentów, – indeksowania zasobów tekstowych, – identyfikacji spamu, – określenia języka dokumentu, – poszukiwania plagiatów, – ekstrakcji informacji z zasobów tekstowych, – opisywania zależności pomiędzy zaistniałymi faktami i obiektami i konstruowania modeli prognostycznych. Wymienione problemy są również powszechne w działalności badawczej i aplikacyjnej prowadzonej w dziedzinie ekonomii i zarządzania. Klasyfikacja dokumentów tekstowych może być przeprowadzana za pomocą klasycznych metod analizy skupień pod warunkiem zapewnienia numerycznej reprezentacji analizowanych zasobów. Można wskazać na kolejne etapy tego procesu: – wstępna analiza zasobów tekstowych (preprocessing), – numeryczna reprezentacja dokumentów tekstowych, – redukcja liczby cech, – klasyfikacja, – ocena procesu klasyfikacji oraz interpretacja wyników. Wstępna analiza zasobów tekstowych. Wstępna analiza zasobów tekstowych obejmuje przygotowanie rozpatrywanego zbioru dokumentów. Na ten etap obliczeń składa się przede wszystkim konwersja do postaci tekstowej (np. z formatu HTML) oraz ujednolicenie sposobu kodowania znaków. Numeryczna reprezentacja dokumentów tekstowych. Metody reprezentacji dokumentów tekstowych wykorzystywane w zautomatyzowanych systemach.

(4) 162. Paweł Lula. analizy bazują zwykle na liście słów zawartych w przetwarzanym zestawie tekstów. Proces konstrukcji właściwej reprezentacji dokumentu (dokumentów) jest wieloetapowy. Do najważniejszych kroków realizowanych w czasie jego realizacji można zaliczyć: – wyodrębnienie słów; – pomijanie słów nieistotnych (lub mało istotnych) z punktu widzenia analizy, – rozpoznawanie form gramatycznych i określenie formy podstawowej wyrazów (proces ten określany jest terminem redukcji do rdzenia); – ujednolicanie słów – realizacja tego etapu związana jest przede wszystkim z potrzebą właściwego potraktowania synonimów i wyrazów wieloznacznych; – utworzenie kolekcji słów; kolekcja słów opracowywana jest łącznie dla całego zestawu przetwarzanych dokumentów i obejmuje słowa istotne z punktu widzenia ich późniejszej klasyfikacji; szczególnie wartościowe są słowa występujące w więcej niż jednym dokumencie (świadczą o istniejącym pomiędzy nimi związku), lecz nie będące jednocześnie elementem każdego (lub większości) dokumentów – gdyż nie pozwoliłyby w takim przypadku na identyfikację różnic pomiędzy nimi; – utworzenie indywidualnych wektorów wag; indywidualne wektory wag tworzone są dla każdego przetwarzanego dokumentu. Są to wektory wartości numerycznych, przy czym liczba elementów wchodzących w ich skład jest równa liczbie słów wchodzących w skład utworzonej kolekcji słów. Znajdujący się na i-tej pozycji element indywidualnego wektora słów informuje o występowaniu i-tego słowa w rozważanym dokumencie. Metody wyznaczania wartości współczynników wagowych reprezentujących poszczególne słowa mogą być zróżnicowane, przy czym za najpopularniejsze należy uznać: – reprezentację binarną – wagi przyjmują wyłącznie wartości zero – jedynkowe, przy czym wartość równa jedności informuje o występowaniu danego wyrazu w dokumencie (ale nie precyzuje liczby wystąpień), zaś wartość zerowa wskazuje na brak rozpatrywanego wyrazu w dokumencie, – reprezentację częstotliwościową – wskazuje na częstość występowania wyrazów w dokumencie; wagi są obliczane poprzez podzielenie dwóch wartości wyznaczonych dla rozpatrywanego dokumentu – pierwszą z nich jest liczba wystąpień danego słowa, zaś drugą liczba wszystkich słów (obie wartości są wyznaczane na podstawie jednego dokumentu), – zlogarytmizowaną reprezentację częstotliwościową – wartość obliczona w opisany powyżej sposób zwiększana jest o jeden, a następnie logarytmowana; zrealizowane przekształcenie ma na celu osłabienie wpływu najczęściej występujących słów (wyrazy najczęściej występujące zwykle w niewielkim stopniu różnicują klasyfikowane zasoby), – ważoną reprezentację częstotliwościową – wyznaczone reprezentacje częstotliwościowe (w postaci prostej lub zlogarytmizowanej) przemnażane są przez.

(5) Analiza taksonomiczna dokumentów tekstowych. 163. wagi wzmacniające znaczenie słów w sposób odwrotnie proporcjonalny do liczby dokumentów zawierających rozważane słowo; współczynnik wagowy dla i-tego słowa wyznaczany jest poprzez podzielenie liczby wszystkich dokumentów przez liczbę dokumentów zawierających to słowo. Zastosowanie zlogarytmizowanej reprezentacji częstotliwościowej ważonej odwrotnością liczby stosownych dokumentów pozwala zwykle na uwypuklenie znaczenia informacji najbardziej przydatnej z punktu widzenia rozwiązywanego problemu z zakresu klasyfikacji. Redukcja liczby cech. Opisana powyżej procedura prowadzi do utworzenia dla każdego dokumentu wektora zawierającego informacje o występujących w nich słowach. W większości zastosowań liczba elementów w indywidualnych wektorach wagowych może być bardzo duża, co może w znacznym stopniu utrudnić analizę. Z tego względu wskazane jest zastosowanie algorytmów służących do redukcji liczby cech. Algorytmy te powinny prowadzić do usunięcia cech charakteryzujących się najmniejszym stopniem przydatności w procesie klasyfikacji. Klasyfikacja. Posiadając numeryczną reprezentację przetwarzanego zestawu dokumentów, możliwe jest zastosowanie klasycznych metod analizy danych służących do przeprowadzenia ich klasyfikacji. Najpopularniejszym narzędziem klasyfikacji są klasyczne metody taksonomiczne. W odniesieniu do klasyfikacji dokumentów największą popularnością cieszą się metody hierarchiczne oraz metoda k-średnich i jej modyfikacje. Podstawową zaletą metod hierarchicznych jest możliwość uzyskania pełnego drzewa połączeń pomiędzy dokumentami. Wadą (uwidaczniającą się przy analizie dużej liczby dokumentów) złożoność obliczeniowa o charakterze kwadratowym. Metoda k-średnich charakteryzuje się mniejszą złożonością obliczeniową (liniową), ale generuje „płaskie” wyniki klasyfikacji (bez drzewka połączeń). Zalety obu podejść posiadają proponowane w literaturze modyfikacje algorytmu k-średnich, polegające na stopniowym podziale obiektów na coraz mniejszą liczbę skupień (punktem wyjścia jest grupa obejmująca wszystkie dokumenty, następnie jest ona dzielona na dwie podgrupy, a w kolejnych krokach jedna z podgrup – zwykle największa, ale może być też wybierana przy uwzględnieniu innego kryterium – jest poddawana dalszemu podziałowi; analiza kończy się z chwilą uzyskania grup jednoelementowych). Analiza porównawcza taksonomicznych metod klasyfikacji tekstów zawarta jest m. in. w [Steinbach, Karypis, Kumar 2000]. Do klasyfikacji informacji tekstowej stosowane są również sztuczne sieci neuronowe. Szczególnie wielką popularnością cieszą się w tym względzie sieci Kohonena [Visual…, 1998]. Możliwości analizy dużych kolekcji dokumentów za pomocą tego typu sieci przedstawione zostały m.in. w pracy [Honkela, Lagus, Kaski 1998]. W pracy [Bakus, Hussin, Kamel 2002] zaprezentowano metodę klasyfikacji opartą na sieci SOM operującej na informacjach o frazach występujących w dokumencie, a nie o częstotliwościach występowania słów. Sieci Kohonena i jej.

(6) Paweł Lula. 164. modyfikacje wykorzystane zostały w systemie SOMLib pozwalającym na klasyfikację dużych kolekcji dokumentów elektronicznych. Opracowany on został w ramach badań przeprowadzanych w Politechnice Wiedeńskiej i przedstawiony jest m.in. w pracy [Rauber, Merkl 1999]. Wiele metod analizy (w tym klasyfikacji) dokumentów tekstowych zostało zaimplementowanych w dostępnych na rynku produktach software’owych. Warto tu wspomnieć o produktach firm Entrieva (http://www.entrieva.com/entrieva/ index.htm), produkcie firmy IBM o nazwie Intelligent Miner for Text (http://www-306.ibm.com/software/data/iminer/fortext/) czy też programy TextAnalyst będącego produktem firmy Megaputer (http://www.megaputer.com). Moduł TextMiner dostępny jest również w programie STATISTICA firmy StatSoft. Ocena jakości klasyfikacji. W większości przypadków celem klasyfikacji jest rozpoznanie nieznanej struktury badanego zbioru. Jednakże czasami za celowe należy również uznać przeprowadzanie klasyfikacji obiektów tworzących zbiór o doskonale znanej strukturze (za przykład można uznać systemy uczące się reguł klasyfikacji). W każdym z wymienionych powyżej podejść zachodzi potrzeba określenia jakości uzyskanych rezultatów. Trzeba jednakże pamiętać, że sposób przeprowadzania jej oceny będzie różny w obu przypadkach. Dążąc do rozpoznania struktury nieznanego zbioru obiektów jakość wyników można określić poprzez badanie własności uzyskanych skupień. Ucząc się reguł klasyfikacji jakość wyników można określić poprzez porównanie uzyskanych skupień z istniejącymi w rzeczywistości klasami. W pierwszym przypadku do oceny jakości wykorzystywane są wyłącznie wyniki klasyfikacji, bez odwoływania się do dodatkowych, zewnętrznych informacji (mierniki bezwzorcowe), w drugim następuje odwołanie do informacji o charakterze dodatkowym (mierniki porównawcze). Oceniając wyniki klasyfikacji dokumentów można posłużyć się bardzo bogatym zestawem mierników wypracowanych na gruncie taksonomii, który można wzbogacić o miary związane ze specyficznym charakterem rozważanych problemów. Bezwzorcowe mierniki jakości skupień. Przegląd i ocenę mierników bezwzorcowych znaleźć można w pracy [Grabiński, Wydymus, Zeliaś 1989]. Autorzy publikacji z zakresu klasyfikacji dokumentów najczęściej w swoich pracach korzystają z mierników jakości opartych na pomiarze podobieństwa pomiędzy dokumentami. Przyjmując, że di jest wektorem reprezentującym i-ty dokument, za miarę podobieństwa pomiędzy dwoma dokumentami przyjmuje się [Steinbach i in. 2000]: cos ( d i , d j ) =. di × d j di ⋅ d j. (1).

(7) Analiza taksonomiczna dokumentów tekstowych. 165. Chcąc wyznaczyć podobieństwo pomiędzy grupami dokumentów lub pomiędzy dokumentem a grupą niezbędne jest wyznaczenie środka skupienia (centroidu) grupy składającej się z dokumentów tworzących zbiór S: c=. 1 S. •. di. (2). di ∈ S. Korzystając z wyznaczonego centroidu odległość pomiędzy dokumentem a centroidem wyznaczyć można za pomocą formuły: cos ( d, c) =. d×c d ⋅ c. (3). zaś do wyznaczenia podobieństwa pomiędzy dwoma centroidami stosuje się wzór: c × cj (4) cos ( c i , c j ) = i ci ⋅ c j Chcąc dokonać oceny jakości skupienia można wyznaczyć wartość średnią miar podobieństwa wyznaczonych dla wszystkich par obiektów wchodzących w jego skład. Można wykazać ([Steinbach, Karypis, Kumar 2000]), że wielkość ta jest równa kwadratowi długości centroidu skupienia, czyli wielkości || c || 2. Mierniki porównawcze. Również zestaw miar służących do porównań wyników grupowania jest bardzo liczny. Ich przegląd można znaleźć m.in. w [Walesiak 1990]. Wśród autorów zajmujących się problematyką klasyfikacji dokumentów tekstowych (np. [Steinbach, Karypis, Kumar 2000]) szczególną popularnością cieszy się entropia oraz miara F. Przyjmując, że uzyskane w rezultacie klasyfikacji grupy nazywane będą skupieniami, zaś grupy występujące w rzeczywistości klasami, entropia jest miarą niewiedzy dotyczącej podziału na klasy zawartej w uzyskanym podziale na skupienia. Wyniki klasyfikacji o najniższej wartości entropii można uznać za najlepsze. Dla uzyskanego podziału zbioru obiektów na skupienia sposób wyznaczania miernika jest następujący: – dla każdego skupienia szacowany jest rozkład przynależności jego elementów do poszczególnych klas w postaci wektora pj: pj = [ p1j, p2j, …, pIj ]. (5). gdzie pij jest prawdopodobieństwem przynależności elementu j-tego skupienia do i-tej klasy. Wartości pij wyznaczane są według formuły:.

(8) Paweł Lula. 166. pij =. nij. (6). nj. gdzie: nij – liczba elementów klasy i-tej w j-tym skupieniu, nj – liczba elementów w j-tym skupieniu, – dla każdego skupienia wyznaczana jest wartość entropii Ej: E j = −• pij log ( pij ). (7). i. – dla uzyskanej klasyfikacji wyznaczana jest entropia całkowita: EKLAS = • j. njEj. (8). n. gdzie n jest liczbą wszystkich analizowanych obiektów. Przedstawiony powyżej algorytm obliczeniowy zilustrowany zostanie przykładem. Niech analizowany zbiór obiektów składa się z 6 elementów: O = {a, b, c, d, e, f} które tworzą dwie klasy: K1 = {a, b, c} oraz K2 = {d, e, f} W trakcie klasyfikacji uzyskano trzy alternatywne rozwiązania: – pierwsze rozwiązanie: C1I = {a, b, d} oraz C2I = {c, e, f}, – drugie rozwiązanie: C1II = {a}, C2II = {b, e} oraz C3III = {c, d, f}, – trzecie rozwiązanie: C1III = {a, b, c} oraz C2III = {d, e, f}. Wartości entropii dla poszczególnych rozwiązań prezentuje tabela 1. Tabela 1. Wartości entropii dla rozpatrywanych rozwiązań Klasyfikacja I. II. III. Skupienia. pij K1 = {a, b, c}. K2 = {d, e, f}. Ej. C1I = {a, b, d}. 2/3. 1/3. 0,6365. C2I = {c, e, f}. 1/3. 2/3. 0,6365. C1II = {a}. 1/1. 0/1. 0,0000. C2II = {b, e}. 1/2. 1/2. 0,6931. C3III C1III C2III. = {c, d, f}. 1/3. 2/3. 0,6365. = {a, b, c}. 3/3. 0/3. 0,0000. = {d, e, f}. 0/3. 3/3. 0,0000. Źródło: obliczenia własne.. EKLAS 0,6365. 0,5493. 0,0000.

(9) Analiza taksonomiczna dokumentów tekstowych. 167. Najmniejszą wartość entropii uzyskano dla trzeciego rozwiązania, co pozwala uznać je za najlepsze. Przy ocenie jakości klasyfikacji dokumentów tekstowych stosowana jest również miara F. Została ona zaproponowana w pracy [Rijsbergen 1979]. Zgodnie z zamysłem Rijsbergena zadanie klasyfikacji traktowane jest jako proces realizacji zapytań ukierunkowanych na pozyskanie określonego zbioru dokumentów. Pożądany rezultat zapytania reprezentowany jest przez klasę, zaś uzyskany wynik tworzy skupienie. Miara F służy do pomiaru zgodności rezultatu pożądanego z uzyskanym. Przy jej obliczaniu wykorzystywane są dwie wielkości wyznaczane dla każdego uzyskanego skupienia: precyzja i kompletność. Precyzja (precision) definiowana jako: P ( i, j ) =. nij nj. (9). gdzie: nij – liczba elementów i-tej klasy w j-tym skupieniu, nj – liczba elementów w j-tym skupieniu. Precyzja klasyfikacji określa stopień zgodności wyników zapytania ze sformułowanym zapytaniem. Kompletność (recall) definiowana za pomocą formuły: R ( i, j ) =. nij ni. (10). gdzie: nij – liczba elementów i-tej klasy w j-tym skupieniu, ni – liczba elementów w i-tej klasie. Kompletność określa stopień zgodności wyników zapytania z pożądanym rezultatem. Korzystając ze sformułowanych wielkości dla każdego skupienia i każdej klasy wyznaczana jest miara F: F ( i, j ) = 2 ⋅. R ( i, j ) P ( i, j ) R ( i, j ) + P ( i, j ). (11). następnie wyznaczana jest miara F dla uzyskanej klasyfikacji jako ważona suma maksymalnych dla każdej klasy wartości F(i,j). Obliczenia te realizowane są zgodnie z formułą: n (12) F = • i max F (i, j ) n j i gdzie n jest liczbą wszystkich dokumentów..

(10) Paweł Lula. 168. Podejmując decyzję o wyborze najlepszej klasyfikacji należy dążyć do maksymalizacji miary F. Sposób wyznaczania miary F zostanie zilustrowany przykładem: Korzystając z danych przedstawionych w poprzednim przykładzie wykonano obliczenia niezbędne do wyznaczenia miary F. Tabela 2. Obliczenia prowadzące do wyznaczenia miary F. Klasyfikacja I. II. III. Skupienia. P(i, j) K1. R(i, j). K2. K1. K2. F(i, j) K1. K2. a,b,d. 2/3. 1/3. 2/3. 1/3. 0,6666 0,3333. c,e,f. 1/3. 2/3. 1/3. 2/3. 0,3333 0,6666. max F(i, j) K1. K2. F. 0,6666 0,6666 0,6666. a. 1/1. 0/1. 1/3. 0/3. 0,5000 ERR. b,e. 1/2. 1/2. 1/3. 1/3. 0,4000 0,4000 0,5000 0,4444 0,4722. c,d,f. 1/3. 2/3. 1/3. 2/3. 0,3333 0,4444. a,b,c. 3/3. 0/3. 3/3. 0/3. 1,0000 ERR. d,e,f. 0/3. 3/3. 0/3. 3/3. ERR. 1,000. 1,0000 1,0000 1,0000. Źródło: obliczenia własne.. Miara F prawidłowo zidentyfikowała trzecie rozwiązanie jako najlepsze. 3. Klasyfikacja not biograficznych pisarzy i poetów polskich W wielu pracach prezentowane są wyniki zautomatyzowanej klasyfikacji dokumentów napisanych w języku angielskim. W celu sprawdzenia przydatności omówionych metod analizy danych do klasyfikacji dokumentów polskojęzycznych badaniom poddano noty biograficzne polskich pisarzy i poetów pochodzące z internetowej wersji encyklopedii PWN (http://encyklopedia.pwn.pl). W trakcie badań uwzględniono biogramy następujących osób: 1. Asnyk Adam 2. Baczyński Krzysztof Kamil 3. Brzechwa Jan 4. Bunsch Karol 5. Dygasiński Adolf 6. Fredro Aleksander 7. Gajcy Tadeusz 8. Gałczyński Konstanty Ildefons 9. Gombrowicz Witold 10. Gomulicki Wiktor 11. Górecki Antoni 12. Hłasko Marek.

(11) Analiza taksonomiczna dokumentów tekstowych. 169. 13. Iwaszkiewicz Jarosław 14. Jasieński Bruno 15. Kasprowicz Jan 16. Kochanowski Jan 17. Konopnicka Maria 18. Konwicki Tadeusz 19. Krasiński Zygmunt 20. Kuncewiczowa Maria 21. Lem Stanislaw 22. Leśmian Boleslaw 23. Makuszyński Kornel 24. Mickiewicz Adam 25. Miłosz Czeslaw 26. Młodożeniec Stanisław 27. Morsztyn Jan Andrzej 28. Mrożek Sławomir 29. Nałkowska Zofia 30. Norwid Cyprian 31. Orzeszkowa Eliza 32. Pasek Jan Chryzostom 33. Pawlikowska-Jasnorzewska Maria 34. Potocki Waclaw 35. Prus Boleslaw 36. Przerwa Tetmajer Kazimierz 37. Przyboś Julian 38. Rej Mikolaj 39. Reymont Władysław 40. Rodziewiczówna Maria 41. Różewicz Tadeusz 42. Sapkowski Andrzej 43. Schulz Bruno 44. Sęp Szarzyński Mikołaj 45. Sienkiewicz Henryk 46. Skarga Piotr 47. Słowacki Juliusz 48. Staff Leopold 49. Sygietyński Antoni 50. Szymborska Wisława 51. Tuwim Julian 52. Twardowski Jan 53. Witkiewicz Stanisław Ignacy 54. Wyspiański Stanisław 55. Zapolska Gabriela 56. Żeleński Tadeusz 57. Żeromski Stefan. Informacje dotyczące poszczególnych osób zapisano w plikach w formacie tekstowym wykorzystując system kodowania CP1250 (MS Windows)..

(12) 170. Paweł Lula. Do wyznaczenia kolekcji słów dla przetwarzanego zestawu dokumentów oraz indywidualnych wektorów kodowych zastosowano pakiet Textpreprocessing będący częścią projektu SOMLib realizowanego w Department of Software Technology w University of Technology w Wiedniu, Austria. Pakiet napisany został w języku Java, wyposażony jest w interfejs graficzny (rys. 1) i rozprowadzany jest bezpłatnie ([Rauber, Merkl 1999]).. Rys. 1. Okno programu Textpreprocessing Źródło: opracowanie własne.. Program może realizować pięć zadań (zadania przeznaczone do realizacji użytkownik wybiera poprzez zaznaczenie pól znajdujących się po lewej stronie okna dialogowego programu): – podział tekstu na elementy, do realizacji tego zadania zastosować można jedną z dwóch metod: – podział tekstu (po usunięciu białych znaków i znaków interpunkcyjnych) na fragmenty o zadanej długości – metodą przesuwnego okna o stałej szerokości, – utworzenie kolekcji słów, których długość nie jest krótsza od zadanej przez użytkownika, – utworzenie wektora zawierającego wydzielone z analizowanych tekstów elementy, – redukcja wektora – pozostawiane są tylko te elementy, które występują w określonej przez użytkownika liczbie dokumentów (użytkownik podaje te wartości.

(13) Analiza taksonomiczna dokumentów tekstowych. 171. w sposób względny – określając minimalny i maksymalny odsetek dokumentów zawierających rozpatrywane elementy), – wyznaczenie dla poszczególnych dokumentów indywidualnych wektorów wagowych (przy czym możliwe jest uzyskanie reprezentacji binarnej, częstotliwościowej oraz ważonej częstotliwościowej). W trakcie realizacji obliczeń opisywanych w bieżącym punkcie dokonano wyodrębnienia ze zbioru przetwarzanych dokumentów wyrazów składających się przynajmniej z czterech liter. Należy mieć świadomość, że operację tę przeprowadzono w sposób mechaniczny, wykorzystując formy wyrazów występujące bezpośrednio w tekście, bez sprowadzenia ich do rdzenia (w chwili obecnej nie jest dostępny algorytm, który realizowałby to zadanie dla języka polskiego; znane są natomiast metody funkcjonujące dla innych języków). W trakcie redukcji wektora zastosowano wartości progowe 0,02 oraz 0,8. Wyznaczono wagi stosując ważoną reprezentację częstotliwościową. Wyznaczony dla całego zbioru dokumentów wektor słów składał się 1043 elementów. Obliczone indywidualne wektory wagowe poddano grupowaniu metodą Warda wykorzystując program STATISTICA. Wyniki analizy w postaci drzewka połączeń przedstawia rys. 2. 100 90 80. Odległość wiązań. 70 60 50 40 30 20. 0. wyspianski mickiewicz zeromski_s slowacki_j krasinsski_ sienkiewic prus_boles norwid_cyp rozewicz_t witkiewicz zapolska_g mrozek_sla fredro_ale milosz_cze konwicki_t kochanowsk iwaszkiewi kasprowicz zelenski_t tuwim_juli konopnicka orzeszkowa nalkowska_ reymont_wl dygasinski staff_leop przybos_ju lesmian_bo rej_mikola lem_stanis gombrowicz galczynski potocki_wa morsztyn_j skarga_pio baczynski_ szymborska kuncewiczo przerwa_te gomulicki_ makuszynsk twardowski pawlikowsk sygietynsk jasienski_ hlasko_mar gajcy_tade gorecki_an sep_szarzy rodziewicz mlodozenie sapkowski_ pasek_jan_ bunsch_kar brzechwa_j schulz_bru asnyk_adam. 10. Rys. 2. Wyniki klasyfikacji przeprowadzonej metodą Warda Źródło: opracowanie własne..

(14) Paweł Lula. 172. Iwaszkiewicz Kuncewiczowa Lem Miłosz Tuwim. Mickiewicz Wyspiański. Brzechwa Gombrowicz Nałkowska Przyboś Rej Twardowski. Fredro Kasprowicz Kochanowski Konopnicka Konwicki Norwid Różewicz Żeleński Żeromski. Słowacki. Asnyk, Baczyński Bunsch Dygasiński Gajcy Gałczyński Górecki Hłasko Jasieński Leśmian Makuszyński Młodożeniec Morsztyn Mrożek Orzeszkowa Pasek Pawlikowska Potocki Przerwa-Tetmajer Rodziewiczówna Sapkowski Schulz Sęp-Sarzyński Skarga Staff Sygietyński Szymborska Zapolska. Gomulicki Reymont. Krasiński Prus Sienkiewicz. Rys. 3. Wyniki klasyfikacji przeprowadzonej za pomocą sieci Kohonena Źródło: opracowanie własne..

(15) Analiza taksonomiczna dokumentów tekstowych. 173. W ramach badań podjęto również próbę klasyfikacji dokumentów przy zastosowaniu sieci Kohonena (również w tym przypadku posłużono się programem STATISTICA). Stosując sieć o wymiarach 3 na 3 neurony w warstwie wyjściowej uzyskano następujące wyniki. Najwięcej wątpliwości wzbudzać może grupa reprezentowana przez neuron znajdujący się w lewym, dolnym narożniku mapy. Trudno w logiczny sposób powiązać zaklasyfikowane do niej osoby. Jednakże analiza danych wykorzystanych w badaniu wskazuje, że biogramy osób przypisanych do omawianego skupienia są znacznie krótsze od not biograficznych opisujących poetów i pisarzy zaliczonych do innych grup. Wydaje się, że ten właśnie czynnik w bardzo istotny sposób wpłynął na wyniki klasyfikacji. Trudności w przeprowadzeniu klasyfikacji krótkich dokumentów tekstowych potwierdził również następny etap badań polegający na analizie dwudziestu ośmiu najkrótszych biogramów wykorzystując sieć Kohonena oraz metodę Warda. Niestety, uzyskanym wynikom trudno było nadać merytoryczną interpretację. 4. Wnioski Przeprowadzone badania pozwalają na sformułowanie następujących wniosków: – powszechne występowanie informacji o charakterze tekstowym stwarza konieczność rozwoju metod jej analizy, w tym również algorytmów pozwalających na zautomatyzowanie tego typu działań; – podstawowym problemem pojawiającym się w trakcie przetwarzania informacji tekstowych jest właściwa jej reprezentacja (stosowanie klasycznych metod analizy wymusza konieczność zastosowanie numerycznych metod reprezentacji tekstów); – wydaje się, że metody reprezentacji informacji powinny być dostosowane do specyfiki języka naturalnego wykorzystywanego przez autora dokumentu (dokumentów); – zastosowana w badaniach reprezentacja dokumentów pozwoli na osiągnięcie obiecujących wyników tylko w przypadku klasyfikacji stosunkowo długich tekstów (były nimi pliki zawierające notki dotyczące S. Żeromskiego, S. Wyspiańskiego oraz A. Mickiewicza, z których każdy liczył około 5 tysięcy bajtów). Można również wskazać na kierunki dalszych prac badawczych: – opracowanie właściwych dla języka polskiego metod wstępnej analizy danych, – metody reprezentacji faktów pojawiających się w analizowanym zestawie dokumentów, – sposoby wykorzystania informacji o strukturze dokumentów przez zautomatyzowane systemy analizy dokumentów..

(16) 174. Paweł Lula. Literatura Bakus J., Hussin M.F., Kamel M. [2002], A SOM-Based Document Clustering Using Phreses, 9th Internetional Conference on Neural Informational Processing (ICONIP’2002), Singapore, November. Grabiński T., Wydymus S., Zeliaś A. [1989], Metody taksonomii numerycznej w modelowaniu zjawisk społeczno-gospodarczych, PWN, Warszawa. Granitzer M. [2003], Hierarchical Text Classification Using Methods from Machine Learning, Graz University of Technology, Graz, dostępne w sieci: http://www.know-center.tugraz.at/de/divisions/thesis/pdf/mgrani.HierTCuML.pdf Honkela T., Lagus K., Kaski S. [1998], Self-Organizing Maps of Large Document Collections [w:] Visual Explorations in Finance with Self Organizing Maps, G. Deboeck, T. Kohonen (eds.), Springer. Kłopotek M.A. [2001], Inteligentne wyszukiwarki internetowe, Akademicka Oficyna Wydawnicza EXIT, Warszawa. Manning C.D., Schütze H. [1999], Foundations of Statistical Natural Language Processing, MIT Press. Pociecha J., Podolec B., Sokołowski A., Zając K. [1988], Metody taksonomiczne w badaniach społeczno-ekonomicznych, Państwowe Wydawnictwo Naukowe, Warszawa. Rauber A., Merkl D. [1999], The SOMLib Digital Library System, Proceedings of the 3rd European Conference on Research and Advanced Technology for Digital Libraries (ECDL’99), Paris, France, September. Rijsbergen van C.J. [1979], Information Retrieval, Butterworths, London. Sokołowski A. [1992], Metoda porównywania wyników podziału zbioru skończonego, XII Konferencja Naukowa Ekonometryków, Statystyków i Matematyków Akademii Ekonomicznych Polski Południowej, Karpacz. Steinbach M., Karypis G., Kumar V. [2000], A Comparison of Document Clustering Techniques, Department of Computer Science and Engineering, University of Minnesota, Technical Report #00-034. Visual Explorations in Finance with Self-Organizing Maps [1998], (eds) G. Deboeck, T. Kohonen, Springer. Walesiak M. [1990], Porównawcza analiza miar zgodności wyników klasyfikacji w świetle postulowanych własności, Taksonomia i jej zastosowania, AE w Krakowie, Kraków. Zarządzanie informacją i komunikacją. Zagadnienia wybrane w świetle studiów i badań empirycznych [2000], red. Z. Martyniak, Wydawnictwo AE w Krakowie, Kraków. Taxonomical Analysis of Text Documents The paper presents assumptions, methods and possible achievable results of taxonomical analysis of text documents. The study also submits the outcomes of an exemplary analysis of a set of documents written in Polish language. Key words: taxonomical analysis, cluster analysis, text analysis, text mining, Kohonen networks..

(17)