Index of /rozprawy2/10905

Pełen tekst

(1)Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie Wydział Informatyki, Elektroniki i Telekomunikacji Katedra Informatyki. Rozprawa doktorska napisana pod kierunkiem dra hab. inż. Grzegorza Dobrowolskiego Autorstwa. Przemysława Maciołka. Metoda rozpoznawania dokumentów w języku polskim oparta na płytkiej analizie semantycznej. Kraków, 2014.

(2) Pragnę złożyć serdeczne podziękowania wszystkim, którzy przyczynili się do powstania niniejszej pracy doktorskiej. Dziękuję mojemu Promotorowi i Mentorowi, Panu drowi hab. inż. Grzegorzowi Dobrowolskiemu, który pozwalał mi cierpliwie na niezliczoną ilość dyskusji naukowych i wskazywał światełko w tunelu, gdy wydawało się, że zabrnąłem w ślepy zaułek. Pracownikom Katedry Informatyki AGH oraz koleżankom i kolegom z Politechniki Wrocławskiej, Uniwersytetu w Białymstoku, Uniwersytetu im. Adama Mickiewicza i innych ośrodków naukowych  za dyskusję, krytykę i wiele cennych pomysłów. Moim Rodzicom i Żonie za to, że zawsze mogłem liczyć na ich wsparcie. Ali, Jurkowi i Wieśkowi  którzy byli i są dla mnie wzorem, za którym mogę podążać. Przyjaciołom  w szczególności Wojtkowi  bez którego nie miałbym szansy na zrealizowanie swoich marzeń. Ta jedna karta nie jest w stanie pomieścić wszystkich, którym zawdzięczam przeprowadzanie badań i ich zwieńczenie, w postaci tej pracy  dziękuję Wam serdecznie!.

(3) Spis treści 1. Wstęp. 2. 2. Przetwarzanie i klasyfikacja dokumentów 2.1 Przegląd metod klasyfikacji dokumentów . . . . . . . . . . . . . . 2.1.1 Ogólny schemat działania metod klasyfikacji . . . . . . . . 2.1.2 Przygotowywanie surowych tekstów . . . . . . . . . . . . 2.1.3 Rodzina metod opartych o model wektorowy . . . . . . . 2.1.4 Metody oparte o model grafowy . . . . . . . . . . . . . . . 2.2 Trudności stojące przed przetwarzaniem języka naturalnego . . . 2.2.1 Polisemia, homonimia i synonimia . . . . . . . . . . . . . . 2.2.2 Środki stylistyczne i problem zmiany znaczenia . . . . . . 2.2.3 Koreferencje, wskazanie przez zaimek . . . . . . . . . . . . 2.3 W kierunku głębszego rozumienia tekstu . . . . . . . . . . . . . . 2.3.1 Podział na części mowy . . . . . . . . . . . . . . . . . . . . 2.3.2 Deficyt czasowników przy nabywaniu języka pierwotnego 2.3.3 Obserwacje statystyczne . . . . . . . . . . . . . . . . . . . . 2.3.4 Konstruktywna indukcja, czy historia porażek? . . . . . . 2.4 Podsumowanie . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . .. 7 7 7 8 10 13 25 26 27 28 28 30 34 34 36 38. 3. Rodzina metod rozpoznawania dokumentów 3.1 Metody sztucznej inteligencji do kategoryzacji modeli grafowych . . . . 3.1.1 Izomorfizm grafów . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.2 Metryki grafowe . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.3 Klasyfikacja . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.4 Klastrowanie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Schemat działania proponowanej rodziny metod . . . . . . . . . . . . . . 3.3 Propozycje wariantów budowy grafu dedyk. do wybranych zastosowań 3.3.1 Wariant A . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.2 Wariant B . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.3 Wariant C . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.4 Wariant D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.5 Przykłady grafów . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.6 Złożoność obliczeniowa . . . . . . . . . . . . . . . . . . . . . . . . 3.3.7 Podsumowanie . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 40 41 41 42 44 46 47 48 50 50 51 52 54 60 62. 4. Implementacja laboratoryjna rodziny metod 4.1 Architektura systemu testującego . . . . 4.2 Wybór metod klasyfikacji . . . . . . . . 4.3 Metryki . . . . . . . . . . . . . . . . . . . 4.4 Dobór parametrów . . . . . . . . . . . . 4.5 Tager części mowy dla języka polskiego. 64 65 68 69 72 74. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . . . . . . . . . . . .. . . . . .. . . . . . . . . . . . . . . .. . . . . .. . . . . . . . . . . . . . . .. . . . . .. . . . . ..

(4) Spis treści. ii. 4.6. 75. 5. 6. 7. Podsumowanie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. Testy 5.1 Charakterystyka rozpatrywanych zbiorów . . . . . . . . . . . . . . . 5.2 Zbiór wiadomości prasowych Rzeczpospolitej . . . . . . . . . . . . . . 5.3 Zbiór wiadomości prasowych wiadomosci24.pl . . . . . . . . . . . . . . 5.4 Opisy przedmiotów na portalu aukcyjnym . . . . . . . . . . . . . . . 5.5 Sentyment w sieciach społecznościowych - korpus CustomerThoughts 5.6 Podsumowanie wyników testów . . . . . . . . . . . . . . . . . . . . . Implementacja użytkowa - CLUO 6.1 Architektura . . . . . . . . . . . . . . . . . . 6.1.1 Podsystem zbierania danych . . . . 6.1.2 Łańcuch wstępnego przetwarzania . 6.1.3 Łańcuchy przetwarzania żądań . . . 6.2 Wybrane aspekty implementacji . . . . . . 6.2.1 Składowanie oraz dostęp do danych 6.2.2 Implementacja silnika klasyfikatora 6.3 Testy praktyczne i plany rozwojowe . . . . Podsumowanie. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . .. 77 . 77 . 81 . 90 . 97 . 105 . 113. . . . . . . . .. 117 118 120 121 122 123 123 126 127. . . . . . . . .. 129. A Wybrane przypadki użycia związane z przetwarzaniem dokumentów w ramach lingwistyki komputerowej 133 A.1 Wyszukiwanie informacji . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 A.1.1 Przypadek użycia: wyszukiwanie dokumentów na podstawie słów kluczowych . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 A.1.2 Przypadek użycia: wyszukiwanie międzyjęzykowe (crosslanguage information retrieval) . . . . . . . . . . . . . . . . . . . . . 134 A.1.3 Przypadek użycia: filtrowanie informacji . . . . . . . . . . . . . . 134 A.1.4 Przypadek użycia: antagonistyczna ekstrakcja informacji . . . . . 134 A.2 Klasyfikacja dokumentów . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 A.2.1 Przypadek użycia: rozpoznawanie niechcianych dokumentów (spamu) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 A.2.2 Przypadek użycia: automatyczne grupowanie (klasteryzacja) podobnych dokumentów . . . . . . . . . . . . . . . . . . . . . . . . . 135 A.2.3 Przypadek użycia: automatyczna klasyfikacja (kategoryzacja) dokumentów . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136 A.2.4 Przypadek użycia: śledzenie i rozpoznawanie nowych tematów wiadomości . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136 A.2.5 Przypadek użycia: rozpoznawanie użytkownika na podstawie profilu otwieranych dokumentów . . . . . . . . . . . . . . . . . . 136 A.3 Ekstrakcja (wydobywanie) informacji . . . . . . . . . . . . . . . . . . . . 137 A.3.1 Przypadek użycia: ekstrakcja encji . . . . . . . . . . . . . . . . . . 137 A.3.2 Prypadek użycia: modelowanie tematów (ang. topic modeling) . . 137.

(5) Spis treści. iii. A.3.3 Przypadek użycia: ekstrakcja ontologii . . . . . . . . . . . . . . . A.3.4 Przypadek użycia: automatyczna budowa skorowidza . . . . . . A.3.5 Przypadek użycia: dostarczenie odpowiedzi na pytanie użytkownika . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A.3.6 Przypadek użycia: ekstrakcja sentymentu . . . . . . . . . . . . . . A.3.7 Przypadek użycia: implikacja tekstowa (Textual Entailment) . . . A.4 Transformacja treści . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A.4.1 Przypadek użycia: podsumowanie treści dokumentu . . . . . . . A.4.2 Przypadek użycia: upraszczanie tekstu . . . . . . . . . . . . . . . A.4.3 Przypadek użycia: tłumaczenie maszynowe . . . . . . . . . . . . B Charakterystyka zbiorów testowych B.1 Rzeczpospolita . . . . . . . . . B.2 wiadomosci24.pl . . . . . . . . B.3 Portal aukcyjny . . . . . . . . . B.4 Korpus CustomerThoughts . . Bibliografia. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. 137 138 138 138 139 139 139 139 140 142 142 145 148 151 153.

(6) Spis rysunków 2.1 2.2 2.3. Przykład reprezentacji z użyciem modelu wektorowego . . . . . . . . . . Przykład reprezentacji standardowej modelu grafowego Schenkera et al. . . Przykład grafu realizowanego zgodnie z metodą Jianga et al., za [Jiang 2009] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Przykład zbudowanego grafu semantycznego, za [Leskovec 2004]. . . . . Trzy sposoby podziału na części mowy, za [Laskowski 1998] . . . . . . . Przykład klasyfikacji głównych części mowy wg gramatyki kognitywnej, za [Taylor 2003]. TR  trajektor, LM  landmark. . . . . . . . . . . . . . .. 10 17. Przykładowy fragment grafu oraz wydobyte z niego cechy . . . . . . . . „Wyjątki od reguły stanowią o uroku życia.” - metoda Schenkera, warianty A. B, C oraz D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . „Różnica między literaturą a dziennikarstwem polega na tym, że dziennikarstwo jest nieczytelne, a literatury nikt nie czyta.” - metoda Schenkera, warianty A oraz B . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . „Różnica między literaturą a dziennikarstwem polega na tym, że dziennikarstwo jest nieczytelne, a literatury nikt nie czyta.” - warianty C oraz D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . „Szczęście robi dobrze ciału, ale smutek rozwija siłę umysłu.” - metoda Schenkera, warianty A, B, C oraz D . . . . . . . . . . . . . . . . . . . . . .. 46. 4.1. Proces działania systemu testującego . . . . . . . . . . . . . . . . . . . . .. 66. 6.1. Przypadki użycia związane z klasyfikacją dokumentów, w CLUO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ogólny schemat działania CLUO . . . . . . . . . . . . . . . Architektura CLUO . . . . . . . . . . . . . . . . . . . . . . . Diagram wdrożenia (deployment diagram) CLUO . . . . .. 2.4 2.5 2.6. 3.1 3.2 3.3. 3.4. 3.5. 6.2 6.3 6.4. realizowane . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 23 25 32 33. 55. 58. 59 61. 118 119 124 125. A.1 Wybrane relacje między przypadkami użycia oraz zadaniami przetwarzania dokumentów . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141 B.1 Ilości powtórzeń terminów w zbiorze wiadomości prasowych Rzeczpospolitej . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . B.2 Ilości wystąpień poszczególnych kategorii w zbiorze wiadomości prasowych Rzeczpospolitej . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . B.3 Ilości powtórzeń terminów w zbiorze informacji prasowych z serwisu wiadomosci24.pl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . B.4 Ilości wystąpień poszczególnych kategorii w zbiorze informacji prasowych z serwisu wiadomosci24.pl . . . . . . . . . . . . . . . . . . . . . . . B.5 Ilości powtórzeń terminów w zbiorze opisów przedmiotów na portalu aukcyjnym . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 142 144 145 147 148.

(7) Spis rysunków. v. B.6 Ilości wystąpień poszczególnych kategorii w zbiorze opisów przedmiotów na portalu aukcyjnym . . . . . . . . . . . . . . . . . . . . . . . . . . . 150 B.7 Ilości powtórzeń terminów w korpusie CustomerThoughts . . . . . . . . 151 B.8 Ilości wystąpień poszczególnych kategorii w korpusie CustomerThoughts 151.

(8) Spis tabel 2.1 2.2 2.3 3.1. 3.2 3.3 3.4. 3.5. 4.1 4.2. Przykład podziału na części mowy w j. polskim i angielskim . . . . . . . Udział części mowy w tekście i słowniku polszczyzny pisanej, za [Kamińska-Szmaj 1990] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Statystyki polisemii w WordNecie 3.0 . . . . . . . . . . . . . . . . . . . . Różnice między rozpatrywanymi algorytmami budowy grafu w zakresie używanych kategorii gramatycznych. Gwiazdką (*) oznaczono połączenia, które uwzględniają słowosensy . . . . . . . . . . . . . . . . . . . . . . Rodzaje informacji wykorzystywane podczas budowy grafu . . . . . . . „Wyjątki od reguły stanowią o uroku życia.” - oznaczone przez system części mowy oraz inne cechy wypowiedzi. . . . . . . . . . . . . . . . . . . . . . „Różnica między literaturą a dziennikarstwem polega na tym, że dziennikarstwo jest nieczytelne, a literatury nikt nie czyta.” - oznaczone przez system części mowy oraz inne cechy wypowiedzi. . . . . . . . . . . . . . . . . . . . . . „Szczęście robi dobrze ciału, ale smutek rozwija siłę umysłu.” - oznaczone przez system części mowy oraz inne cechy wypowiedzi. . . . . . . . . .. 31 35 36. 53 53 54. 57 60. Tablica wielodzielcza rezultatów klasyfikacji . . . . . . . . . . . . . . . . Tablica rezultatów (macierz pomyłek) testów klasyfikatora części mowy. 71 76. Ilość kategorii w poszczególnych zbiorach . . . . . . . . . . . . . . . . . . Porównanie częstości występowania poszczególnych części mowy w badanych zbiorach . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3 Statystyki liczby wyrazów w badanych zbiorach . . . . . . . . . . . . . . 5.4 Rezultaty klasyfikacji informacji prasowych Rzeczpospolitej z zastosowaniem algorytmu k-najbliższych sąsiadów - mikro-uśrednianie . . . . . 5.5 Rezultaty klasyfikacji informacji prasowych Rzeczpospolitej z zastosowaniem algorytmu k-najbliższych sąsiadów - makro-uśrednianie . . . . 5.6 Porównanie poziomów istotności podczas klasyfikacji informacji prasowych Rzeczpospolitej z zastosowaniem algorytmu k-najbliższych sąsiadów - miara dM CS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.7 Porównanie poziomów istotności podczas klasyfikacji informacji prasowych Rzeczpospolitej z zastosowaniem algorytmu k-najbliższych sąsiadów - miara dW GU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.8 Porównanie poziomów istotności podczas klasyfikacji informacji prasowych Rzeczpospolitej z zastosowaniem algorytmu k-najbliższych sąsiadów - miara dW GU −V . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.9 Rezultaty klasyfikacji informacji prasowych Rzeczpospolitej z zastosowaniem algorytmu maksimum entropii . . . . . . . . . . . . . . . . . . . 5.10 Porównanie poziomów istotności podczas klasyfikacji informacji prasowych Rzeczpospolitej z zastosowaniem algorytmu maksimum entropii .. 78. 5.1 5.2. 79 80 82 83. 84. 85. 86 87 88.

(9) Spis tabel 5.11 Rezultaty klasyfikacji informacji prasowych wiadomosci24.pl z zastosowaniem algorytmu k-najbliższych sąsiadów - mikro-uśrednianie . . . . . 5.12 Rezultaty klasyfikacji informacji prasowych wiadomosci24.pl z zastosowaniem algorytmu k-najbliższych sąsiadów - makro-uśrednianie . . . . 5.13 Porównanie poziomów istotności podczas klasyfikacji informacji prasowych wiadomosci24.pl z zastosowaniem algorytmu k-najbliższych sąsiadów - miara dM CS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.14 Porównanie poziomów istotności podczas klasyfikacji informacji prasowych wiadomosci24.pl z zastosowaniem algorytmu k-najbliższych sąsiadów - miara dW GU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.15 Porównanie poziomów istotności podczas klasyfikacji informacji prasowych wiadomosci24.pl z zastosowaniem algorytmu k-najbliższych sąsiadów - miara dW GU −V . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.16 Rezultaty klasyfikacji informacji prasowych wiadomosci24.pl z zastosowaniem algorytmu maksimum entropii . . . . . . . . . . . . . . . . . . . 5.17 Porównanie poziomów istotności podczas klasyfikacji informacji prasowych wiadomosci24.pl z zastosowaniem algorytmu maksimum entropii 5.18 Rezultaty klasyfikacji opisów na portalu aukcyjnym z zastosowaniem algorytmu k-najbliższych sąsiadów - mikro-uśrednianie . . . . . . . . . . . 5.19 Rezultaty klasyfikacji opisów na portalu aukcyjnym z zastosowaniem algorytmu k-najbliższych sąsiadów - makro-uśrednianie . . . . . . . . . . 5.20 Porównanie poziomów istotności podczas klasyfikacji opisów na portalu aukcyjnym z zastosowaniem algorytmu k-najbliższych sąsiadów - miara dM CS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.21 Porównanie poziomów istotności podczas klasyfikacji opisów na portalu aukcyjnym z zastosowaniem algorytmu k-najbliższych sąsiadów - miara dW GU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.22 Porównanie poziomów istotności podczas klasyfikacji opisów na portalu aukcyjnym z zastosowaniem algorytmu k-najbliższych sąsiadów - miara dW GU −V . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.23 Rezultaty klasyfikacji opisów na portalu aukcyjnym z zastosowaniem algorytmu maksimum entropii . . . . . . . . . . . . . . . . . . . . . . . . . 5.24 Porównanie poziomów istotności podczas klasyfikacji opisów na portalu aukcyjnym z zastosowaniem algorytmu maksimum entropii . . . . . . . 5.25 Rezultaty klasyfikacji korpusu CustomerThoughts z zastosowaniem algorytmu k-najbliższych sąsiadów - mikro-uśrednianie . . . . . . . . . . . 5.26 Rezultaty klasyfikacji korpusu CustomerThoughts z zastosowaniem algorytmu k-najbliższych sąsiadów - makro-uśrednianie . . . . . . . . . . 5.27 Porównanie poziomów istotności podczas klasyfikacji korpusu CustomerThoughts z zastosowaniem algorytmu k-najbliższych sąsiadów miara dM CS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.28 Porównanie poziomów istotności podczas klasyfikacji korpusu CustomerThoughts z zastosowaniem algorytmu k-najbliższych sąsiadów miara dW GU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. vii. 90 91. 92. 93. 94 95 96 98 99. 100. 101. 102 103 104 106 107. 108. 109.

(10) Spis tabel. viii. 5.29 Porównanie poziomów istotności podczas klasyfikacji korpusu CustomerThoughts z zastosowaniem algorytmu k-najbliższych sąsiadów miara dW GU −V . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 5.30 Rezultaty klasyfikacji korpusu CustomerThoughts z zastosowaniem algorytmu maksimum entropii . . . . . . . . . . . . . . . . . . . . . . . . . 111 5.31 Porównanie poziomów istotności podczas klasyfikacji korpusu CustomerThoughts aukcyjnym z zastosowaniem algorytmu maksimum entropii112 5.32 Metody dające najlepsze rezultaty dla każdej kolekcji . . . . . . . . . . . 113 5.33 Porównanie różnic wielkości miary F w stosunku do najlepszego wyniku dla rozważanych zbiorów, podczas klasyfikacji z zastosowaniem algorytmu k-najbliższych sąsiadów (dle metryki przy której otrzymano najlepszy rezultat) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 5.34 Porównanie różnic wielkości miary F w stosunku do najlepszego wyniku dla rozważanych zbiorów, podczas klasyfikacji z zastosowaniem algorytmu maksimum entropii . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 7.1. Preferowane metody w zależności od charakteru korpusu tekstów . . . 130. B.1 Statystyki występowania poszczególnych części mowy w zbiorze wiadomości prasowych Rzeczpospolitej . . . . . . . . . . . . . . . . . . . . . . . B.2 Statystyki występowania poszczególnych części mowy w zbiorze informacji prasowych z serwisu wiadomosci24.pl . . . . . . . . . . . . . . . . B.3 Statystyki występowania poszczególnych części mowy w zbiorze opisów przedmiotów na portalu aukcyjnym . . . . . . . . . . . . . . . . . . . . . B.4 Statystyki występowania poszczególnych części mowy w korpusie CustomerThoughts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 143 146 149 152.

(11) Nazewnictwo i przyjęte definicje Dla uściślenia stosowanego w pracy nazewnictwa, poniżej podane zostały definicje niektórych stosowanych pojęć. • token  separowywalny ciąg znaków (np. słowo, symbol specjalny lub znak typograficzny). • korpus  zbiór dokumentów służący badaniom lingwistycznym. W praktyce jest to najczęściej zestaw wybranych przez eksperta tekstów, np. fragmentów tekstów wydobytych z dokumentów. Często elementy korpusu mają przypisane kategorie, a jego treść jest oznaczona (początki i końce zdań, części mowy, nazwy własne, etc.). • termin  słowo bądź grupa słów mająca ustalone znaczenie. • lematyzacja  proces, w którym znajdowany jest lemat  forma podstawowa słowa (np. mianownika dla rzeczownika). • rdzeń, stem  niezmienny fragment danego słowa. • fleksem  kategoria gramatyczna, zbiór form jednolicie lub niemal jednolicie zróżnicowanych ze względu na właściwe im kategorie gramatyczne [Bień 1991, Przepiórkowski 2012]. • dyskurs  komunikacja, proces użycia języka. • dezambiguacja  proces rozwiązywania problemu wieloznaczności znaczeń. • synset, słowosens  zbiór synonimów zwiazanych z jednym znaczeniem (sensem). • ekstrakcja, wydobywanie, ekstrahowanie informacji  proces automatycznego uzyskiwania ustrukturyzowanych danych z nieustrukturyzowanych źródeł (w szczególności - tekstów). Otrzymane informacje opisują daną domenę wg ustalonego wcześniej schematu (np. ontologii, definicji bazy danych, …)..

(12) Rozdział 1. Wstęp Felix, qui potuit rerum cognoscere causas (Szczęśliwy, kto zdołał poznać przyczyny wszechrzeczy) Wergiliusz. Klasyfikacja dokumentów dotyka, z punktu widzenia informatyki, dwóch jej dziedzin: lingwistyki komputerowej (informatycznej), zwanej także językoznastwem informatycznym oraz metod sztucznej inteligencji. Obie są interdyscyplinarnymi gałęziami nauki, łączącymi badania humanistyczne z inżynierskimi. Sama lingwistyka, pierwotnie, służyła głownie dydaktyce (także języków obcych) oraz ustalaniu norm językowych. Była więc nierozerwalnie związana z ludźmi, posiadającymi wrodzoną zdolność kompetencji językowej  zdefiniowaną przez Chomskiego jako „mechanizm, dzięki któremu człowiek jest w stanie generować (oraz interpretować) poprawne i sensowne zdania, których nigdy dotąd nie wypowiadał (nie słyszał)” [Chomsky 1965, Vetulani 2010]. Kompetencja ta umożliwia więc komunikowanie się podmiotów między sobą. Wymaga wzięcia pod uwagę zarówno morfologii, składni, semantyki jak i także warstwy pragmatycznej, uwzględniającej kontekst wypowiedzi, ogólną wiedzę o świecie oraz sposób, w jaki kontekst ten wpływa na analizę znaczenia. [Vetulani 2010] Co oczywiste, komputery nie posiadają wrodzonej kompetencji językowej. Tworząc system informatyczny dotykający problemów lingwistycznych  kompetencję taką należy więc zasymulować. Proces ten w ogromnej mierze dotyka problemów kognitywistyki. Zarówno w aspekcie modelowania języka w ramach teorii gramatyki kognitywnej (alternatywnej do gramatyki generatywnej Chomskiego), jak i w nawiązaniu do kompetencji językowej jako problemu z zakresu sztucznej inteligencji. Sposób realizacji takiej symulacji zależy w ogromnej mierze od konkretnego zastosowania. Główny nacisk będzie położony w innym miejscu np. w systemach rozpoznawania mowy, a w innym w metodach służących do indeksowania tekstu. Założyć można, że w tym pierwszym przypadku konieczne będzie znalezienie najbardziej prawdopodobnej sekwencji słów dla danych prawdopodobnych fonemów, a w tym drugim  ustalenie prawdopodobieństw dopasowań rozpatrywanych tekstów do użytych słów kluczowych. Niniejsza praca skupia się na jednym z wielu problemów lingwistyki informatycznej  klasyfikacji dokumentów - a więc automatycznemu przypisaniu do tekstu wszystkich pasujących do niego kategorii. W odmianie rozpatrywanej tutaj, kategorie bazują na niesionej treści, a więc odzwierciedlają sens niesiony przez daną wypowiedź (dokument). Rozważać można także klasyfikację na podstawie cech niesemantycznych  np. rodzaju źródła dokumentu, długości wypowiedzi, etc.  która jednak nie jest przedmiotem zainteresowań prowadzonych badań. Prezentowane badania są w dużej mierze.

(13) 3 także aktualne dla innych problemów lingwistyki komputerowej i metod sztucznej inteligencji, jako że dotykają możliwości symulacji kompetencji językowej na komputerach. Tytułowy dokument może być uznawany za podstawowy byt niniejszej pracy, dla którego przyjęto następującą definicję: Definicja 1. Przez dokument rozumiany będzie dowolny tekst języka naturalnego w formie elektronicznej, składający się z sekwencji znaków, oznaczających: części, akapity, zdania, terminy i inne symbole. Typowymi przykładami dokumentu będą: artykuły prasowe, wpisy na serwisach społecznościowych lub blogach, wiadomości tekstowe, listy elektroniczne (e-mail), strony internetowe, wiadomości na forach internetowych, wszelkiego rodzaju komentarze, etc. Należy zwrócić uwagę, iż sam dokument nie zawiera jeszcze informacji o strukturze danych (nie są w nim wyodrębnione żadne części). Składają się na niego jedynie sekwencje znaków, które dopiero w procesie segmentacji i tagowania tekstu mogą zostać podzielone na poszczególne akapity, zdania czy też terminy. Rozważając różne potrzeby związane z zastosowaniami językoznawstwa informatycznego, wyodrębnić można kilka najczęściej występujących zadań, które implikują również proces i zakres analizy tekstu. Aby umiejscowić rozpatrywany problem, poniżej przedstawiona jest propozycja podziału różnych zagadnień związanych z szeroko rozumianym przetwarzaniem dokumentów. Wyszukiwanie informacji (ang. information retrieval)  wyszukiwane zostają dokumenty, które spełniają zadane kryteria (np. zawierają słowa kluczowe, odpowiadają zakresowi dat utworzenia dokumentu, itd.) Klasyfikacja  każdemu rozpatrywanemu dokumentowi przypisane zostają pasujące do niego kategorie, określone na podstawie jego treści. W ten sposób mogą być grupowane dokumenty o podobnym znaczeniu. Wyróżnić należy podział na metody nadzorowane, wymagające udziału człowieka w procesie uczenia poprzez dostarczenie wzorcowej próbki danych jak i nienadzorowane  dokonujące w istocie klastrowania dokumentów. Ekstrakcja (wydobywanie) informacji (ang. information extraction)  w tym szeroko pojętym zagadnieniu zawiera się wydobywanie różnego rodzaju ustrukturyzowanych informacji bezpośrednio z tekstu. Typowym przykładem jest rozpoznawanie konkretnych osób, wydarzeń lub miejsc wymienionych w danym dokumencie, Transformacja treści  do grupy tej należą metody przetwarzające zawarty w dokumencie tekst. Należy do nich podsumowywanie treści, dokonywanie tłumaczenia na inny język, upraszczanie formy tekstu, etc. Lingwistyka korpusowa  poprzez analizę korpusu tekstów, badane są różne cechy języka naturalnego. Na podstawie próbki statystycznej wydobywane są informacje o częstości i sposobie występowania różnych form wyrazów, ich bliskości itd. Poprzez metody maszynowego uczenia, indukowane są różne systemy przetwarzające tekst, takie jak analizatory morfologiczne, tagery, etc. [Francis 1979].

(14) 4 Eksploracja danych (ang. text mining)  ogólny termin stosowany do określenia metod wydobywania wiedzy z danych tekstowych, oparty o statystyczną analizę zawartości. Automatycznie przetwarzając duże zbiory danych, możliwe jest odkrycie nieznanych wcześniej powiązań, Rozpoznawanie mowy  ta bardzo szeroka dziedzina, ostatnio szczególnie obecna w kształtowaniu interfejsów człowiek  komputer [Tadeusiewicz 2009], posiłkuje się analizą lingwistyczną i semantyczną w celu prawidłowego ropoznania wypowiedzi, na podstawie której zostaje stworzony dokument tekstowy. Wymienione powyżej kategorie zadań mogą być ze sobą łączone i stosowane równocześnie. Przykładem może być rozwiązanie, w którym wpierw dokonywane jest wyszukiwanie informacji a następnie ich klasyfikacja  dzięki podziałowi rezultatów według kategorii, użytkownik może szybciej dotrzeć do aspektu dokumentów, którego w istocie poszukiwał.1 . Bogactwo możliwych zastosowań prezentuje załącznik A z listą wybranych przypadków użycia związanych z przetwarzaniem dokumentów i lingwistyka komputerową. W przypadku klasyfikacji dokumentów, poruszana problematyka jest na tyle szeroka, że rozważać można rózne podejścia do zasymulowania odpowiedniej kompetencji językowej. Można sobie bowiem wyobrazić następujące problemy: • rozpoznania języka, w jakim jest zapisany dany tekst, • przypisania regionu geograficznego, którego dotyczy dana wypowiedź, • klasyfikacji wiadomości jako spam lub pożądana treść, • przypisania prawdopodobnego autora do danego artykułu, • etc. Przytoczone przykłady mogą być zrealizowane, odpowiednio: w oparciu o słownik frekwencyjny (przypadek z rozpoznawaniem języka), z zastosowaniem odpowiedniej ontologi (przypadek regionu geograficznego), zbioru reguł związanych z cechami nagłówków wiadomości elektronicznej czy też zbiór środków stylistycznych często (nad)używanych przez niektórych autorów. Jednak, w ogromnej rzeszy przypadków, problem klasyfikacji dokumentów może być rozwiązany z zastosowaniem jednej (choć bardzo szerokiej) metody z zakresu sztucznej inteligencji. Jest nią zdolność do nauczenia się (indukcji) cech związanych z daną kategorią i na tej podstawie późniejsze przypisywanie klas do dokumentów, które dotyczą podobnych tematów. Realizacja takiego systemu może odbywać się na wielu poziomach. W najprostszym (i często z sukcesem stosowanym) przypadku  może polegać na wyuczeniu się często występujących terminów, charakterystycznych dla danej kategorii. Podejście takie można jednak porównać do czytania przez jakąś osobę prasy w zupełnie nieznanym dla niej 1. Na przykład: http://search.carrot2.org/.

(15) 5 języku. Gdyby osoba taka miała za zadanie zaznaczyć, które artykuły dotyczą gospodarki, które polityki, a które kultury, zapewne uzyskałaby niezłe rezultaty. Otóż udałoby się jej wyłuskać słowa kluczowe, które pomagały by prawidłowo przypisać sporą cześć tekstów. Jednak niewątpliwie pominęłaby ogromne bogactwo znaczeniowe, które jest w stanie mimowolnie wydobyć człowiek znający dany język  rozumiejący jego gramatykę i sens niemal wszystkich użytych wyrazów. Wśród alternatywnych metod, warte wspomnienia są systemy oparte o model grafowy [Schenker 2005] oraz systemy próbujące dokonać możliwie szerokiej analizy semantycznej[Leskovec 2005]. W przypadku tych pierwszych uzyskiwano wyniki nie zawsze lepsze od metod opartych o model wektorowy. Z kolei pełna analiza semantyczna zdania jest często bardzo skomplikowana i z racji kumulowania się błędów na kolejnych etapach przetwarzania, praktycznie niemożliwa obecnie do skutecznej realizacji. Istniejące narzędzia używa się tylko tam, gdzie stosowana gramatyka jest dosyć jasno określona (np. przy analizie raportów utworzonych wg. zadanego szablonu). W czasach, kiedy jesteśmy coraz bardziej „zalewani” informacjami tekstowymi, konieczne jest stosowanie narzędzi, które są w stanie „zrozumieć” tak dużą ilość danych i pomogą wybrać te, którymi jesteśmy zainteresowani. Zaproponowane zostaje podejście grafowe do reprezentacji treści dokumentu, wzbogacone o płytką analizę semantyczną. Dzięki jej zastosowaniu oczekiwane jest uzyskanie lepszego odwzorowania treści, a co za tym idzie polepszenie jakości klasyfikacji tekstów. Prowadzone prace doprowadziły do rozwinięcia koncepcji reprezentacji tekstu za pomocą modelu grafowego Schenkera et al. o informacje uzyskane w wyniku płytkiej analizy semantycznej. Podczas tworzenia modelu dokumentu wykorzystane są informacje o kategoriach gramatycznych poszczególnych wyrazów oraz ich możliwych sensach znaczeniowych. Użyte zostają odpowiednie reguły, które dokładają, usuwają lub modyfikują połączenia w tworzonym grafie. Zasady, zgodnie z którymi się to odbywa, mają swoje źródło w różnych obserwacjach lingwistycznych (np. charakterystyce częstości występowania części mowy w języku). Uzyskuje się w ten sposób twór podobny do sieci semantycznej. Teza. Zadanie rozpoznawania dokumentów tekstowych może być rozwiązane przy zastosowaniu autorskiej rodziny metod opartych o płytką analizę semantyczną, którą kształtować można w zależności od specyficznych właściwości użytego w tekście języka. Postawiona teza wymagała zrealizowania zadania badawczego, które otwarte zostało opisaniem obecnego stanu wiedzy o aspektach klasyfikacji dokumentów. Wśród poruszonych zagadnień znalazły się przypadki użycia systemów przetwarzania dokumentów oraz problematyka przetwarzania języka naturalnego i sposobów modelowania oraz klasyfikacji treści dokumentu. Zostały wzięte pod uwagę obserwacje charakterystyki analizowanych języków naturalnych (występowania części mowy, sposobów budowy wypowiedzi). Jak i efekty prac lingwistyki kognitywnej oraz zagadnienia związane ze sposobem nabywania języka przez ludzi. Kolejno, przedstawiona została charakterystyka rodziny metod, opartych o płytką analizę semantyczną, wraz z jej przykładowymi członkami. Przedstawiona została racjonalizacja proponowanego podejścia, uwzględniająca użyte sposoby analizy semantycznej, jak również jej teoretyczne ograniczenia. Przeprowadzono dyskusję na temat.

(16) 6 metod sztucznej inteligencji w zastosowaniu do klasyfikacji grafów. Zaproponowano kilka wariantów, dedykowanych do konkretnych rodzajów języka oraz zilustrowano je przykładami. Do odpowiedniego zbadania proponowanej rodziny metod konieczne było przeprowadzenie serii testów i porównanie rezultatów z metodami bazowymi. W tym celu stworzone zostało środowisko badawcze, integrujące wszystkie wymagane komponenty oraz dostarczające samodzielnie szereg dodatkownych narzędzi. Pozwoliło to na sprawne weryfikowanie stawianych hipotez roboczych oraz badanie wpływu różnych parametrów. Problematyka ta została przedstawiona w rozdziale 4. W następnej części odnajdziemy rezultaty testów praktycznych. Zwrócono w nich uwagę na dobór zbiorów przykładowych, ich sposobów testowania i użytych metryk. Zostosowany został klucz pozwalający na możliwie szerokie pokrycie aspektów klasyfikacji dokumentów wraz z odniesieniem się do wyników wykorzystujących model wektorowy oraz graf przedstawiony przez Schenkera. Z uwagi na ograniczoną liczbę kolekcji mogących służyć do badań nad klasyfikacją dokumentów, zebrano i usystematyzowano dane z kilku otwartych źrodeł. Praktycznym aspektem prowadzonych badań stała się integracja proponowanej rodziny metod z systemem CLUO. Przedstawione zostały bieżące zastosowania, proces przetwarzania oraz integracja w środowisku Big Data. Umieszczono także dotychczasowe obserwacje związane z obsługą tej części systemu. Ostatnia część pracy zawiera podsumowanie uzyskanych rezultatów oraz dyskusję na temat użyteczności w praktycznych zastosowaniach i możliwości dalszych prac badawczych. Praca zawiera także załączniki: podział przypadków użycia związanych z przetwarzaniem języka naturalnego oraz szczegółowe informacje o badanych zbiorach testowych. Intecją ich umieszczenia jest, odpowiednio, pomoc w umiejscowieniu zastosowań praktycznych prowadzonych badań oraz pokazanie szczegółowych różnic między rozpatrywanymi korpusami tekstów..

(17) Rozdział 2. Przetwarzanie i klasyfikacja dokumentów. Littera docet, littera nocet (słowo uczy, słowo szkodzi). 2.1. Przegląd metod klasyfikacji dokumentów. Patrząc na problem kategoryzacji dokumentów, zauważyć można, iż niemal w każdym wypadku, mamy do czynienia z przypisywaniem odpowiednich klas na podstawie (de facto) informacji zapisanych za pomocą ciągów znaków. Implikuje to ogólny schemat przetwarzania danych wejściowych. W pierwszej kolejności konieczne jest bowiem przetworzenie surowego tekstu, w wyniku którego otrzymywana jest wiedza o podziale na zdania i terminy w rozpatrywanym dokumencie. Dopiero po jej uzyskaniu, wkraczają konkretne metody analizy i klasyfikacji treści, które wynajdują cechy, na podstawie których przypisywane zostają kategorie. Niewątpliwie, najbardziej popularne są wszelkie podejścia oparte o model wektorowy [Salton 1989], spotykane w ogromnej ilości praktycznych zastosowań. Należy również zwrócić uwagę na jego alternatywy, które zostaną poniżej zaprezentowane, ze szczególnym uwzględnieniem stosowania grafów do reprezentacji znaczenia tekstu. Problematyka ta jest szeroko opisana w literaturze, gdzie można znaleźć dogłębne opisy dotyczące stosowanych metod [Manning 2007, Jurafsky 2008, Nitin 2010, Mitkov 2004, Witten 2005, Sebastiani 2006].. 2.1.1. Ogólny schemat działania metod klasyfikacji. Jedną z głównych linii podziału systemów automatycznej klasyfikacji dokumentów jest strategia przypisywania klas do poszczególnych dokumentów. Można tu wyróżnić trzy podstawowe podejścia: Systemy regułowe Kategorie są przypisywane dokumentom na podstawie statycznych reguł i heurystyk, opracowanych przez zespół ekspertów. Np. jeśli w tekście występuje słowo George Bush, to dokumentowi zostają przypisane klasy polityka oraz USA. Historycznie, było to podejście szczególnie popularne w pierwszych pracach nad metodami klasyfikacji dokumentów [Sebastiani 2002a]. Pozwala ono dość dokładnie.

(18) 2.1. Przegląd metod klasyfikacji dokumentów. 8. kontrolować przynaleźność do danej kategorii. Jego oczywistymi ograniczeniami są nakład czasu potrzebny na stworzenie odpowiedniej liczby reguł oraz poziom, na jakim są one tworzone. Trudno, nawet ekspertowi, jednoznacznie stwierdzić, jakie zestawy cech najlepiej opisują daną klasę. Podejście takie może być szczególnie przydatne w przypadku klasyfikacji wąskich kategorii, które możne efektywnie zdefiniować za pomocą zbioru reguł [Lubaszewski 2009]. Podobnie, można z ich pomocą wspomagać działanie systemów z maszynowym uczeniem, zwłaszcza kiedy da się łatwo „ręcznie” zdefiniować silne dyskryminatory dla wybranych podklas. Systemy z nadzorowanym uczeniem W metodach tych, zakłada się występowanie zbioru uczącego, czyli odpowiednio opisanego zestawu (korpusu) dokumentów, gdzie każdy z nich ma także przypisane klasy, do jakich przynależy. Dysponując odpowiednim mechanizmem, dla każdego z tekstów ustalone zostają cechy, które po połączeniu z odpowiadającymi im kategoriami, służą do wytrenowania klasyfikatora. Dzięki temu, wyindukowana zostaje funkcja, pozwalająca na rozpoznawanie znanych kategorii na podstawie występowania danych cech. Dostarczając tak wytrenowanemu systemowi cechy wcześniej nienapotkanego dokumentu, jest on w stanie przypisać mu najbardziej prawdopodobne kategorie, wykorzystując zbudowany klasyfikator. Efektywność działania takiego rozwiązania zależy od szeregu czynników  metody wyboru cech dokumentu, algorytmu maszynowego uczenia, jakości i wielkości zbioru uczącego. Postępy w tej dziedzinie [Joachims 1998] oraz uniknięcie konieczności żmudnego tworzenia reguł przez ekspertów spowodowały jednak, iż jest to preferowany sposób implementacji systemu kategoryzacji dokumentów [Sebastiani 2002a]. Systemy z nienadzorowanym uczeniem Gdy nieznana jest a-priori wzorcowy (przykładowy) podział na kategorie, bądź z różnych powodów nie jest on wykorzystywany, zastosować można klastrowanie, które grupuje ze sobą teksty o podobnym znaczeniu [Steinbach 2000]. Efektem działania takiej operacji są automatycznie rozpoznane podzbiory (w niektórych metodach o wielopoziomowej hierarchii), zawierające dokumenty o zbliżonej treści.. 2.1.2. Przygotowywanie surowych tekstów. Jako że systemy przetwarzania dokumentów mają do czynienia z danymi wyrażonymi w postaci ciągów znaków, konieczne jest wydobycie informacji o zawartym tam porządku  podziale na zdania i wyrazy, meta-danych i innych informacjach wykorzystywanych podczas ustalania cech. Proces ten, składa się z kilku etapów, zazwyczaj konfigurowalnych w zależności od konkretnego zastosowania i potrzeb. W ogólnym przypadku, składać się on może z następującej sekwencji operacji:.

(19) 2.1. Przegląd metod klasyfikacji dokumentów. 9. 1. Segmentacja - wejściowy ciąg znaków jest dzielony na sekcje, zdania oraz wyrazy. Często, zwłaszcza podczas zastosowania do ekstrakcji informacji, rozróżniane są w jego trakcie specjalne kategorie, jak np. daty, odnośniki, liczby etc. 2. Określanie części mowy  (ang. POS tagging)  rozpoznawane są części mowy każdego z wyrazów występujących w tekście. Informacja o częściach mowy pozwala na wzbogacenie zbioru cech, pomagając rozróźnić sens znaczeniowy danej wypowiedzi. Postęp prac nad tagerami części mowy w ciągu ostatnich dwudziestu lat spowodował, że dostępne są dziś narzędzia o poprawności rozpoznawania zbliżonej do ludzkiej (95-97% poprawnie rozpoznanych części mowy) [Piasecki 2007, Toutanova 2003, Toutanova 2000]. 3. Usunięcie wyrazów nieniosących ze sobą istotnych treści  (ang. stop-words) - takich jak np. a, do, jest, .... Wybór takich wyrazów jest sprawą arbitralną. Zwykle ich lista zawiera między kilkadziesiąt a kilkaset wyrazów [Manning 2007]. Niekiedy etap ten jest pomijany. 4. Stemming (znajdowanie rdzeni wyrazów)  wyrazy (formy fleksyjne) zastępowane są swoimi niezmienialnymi częściami. Stanowić one będą później reprezentację danego wyrazu w wektorze opisującym dany dokument. Na przykład, równoważnie będą traktowane następujące wyrazy języka angielskiego: CONNECT, CONNECTED, CONNECTING, CONNECTIONS które mają wspólny rdzeń CONNECT. Należy zwrócić uwagę, że znalezienie rdzeni (stemów1 ) w języku angielskim jest relatywnie proste. Klasyczną metodą jest algorytm Portera[Porter 1980] (dzisiaj posiadający już raczej wartość historyczną), który składa się z pięciu faz redukcji wyrazu, postępujących sekwencyjnie. Jego oryginalna implementacja została napisana z użyciem BCPL, miała 400 linii kodu i przetwarzała 10000 różnych słów w ciągu 8 sekund na maszynie IBM 370/165. W przypadku języków słowiańskich, które posiadają bogatą, nieregularną fleksję jest to zadanie znacznie trudniejsze. W praktyce, należy zastosować inne podejście i szukać formy podstawowej wyrazu (zamiast „prostego” stemu), co w pewnych przypadkach wymaga analizy kontekstu, w jakim pojawia się dany termin. Operacja ta nazywana jest lematyzacją. Efektem przedstawionego procesu jest uporządkowana reprezentacja dokumentu, podzielona na jednostki tekstowe, z dodatkowymi informacjami o poszczególnych wyAngielski wyraz stem oznaczający w tym wypadku rdzeń zasadniczo wszedł już do naszego języka, podobnie jak wyrażenie stemming określające proces znajdowania rdzeni. 1.

(20) 2.1. Przegląd metod klasyfikacji dokumentów. 10. razach (częściach mowy, rdzeniach, etc.). Może teraz ona być przedmiotem transformacji do modelu treści dokumentu, zależnej od zastosowanej metody, służacej do wydobycia z niego cech stanowiących podstawę klasyfikacji.. 2.1.3. Rodzina metod opartych o model wektorowy. Historycznie jednym z pierwszych, a przy tym wciąż najczęściej praktycznie stosowanym modelem opisu treści dokumentu jest model wektorowy (ang. vector space model) [Salton 1989], nazywany potocznie „workiem słów” (and. bag of words). Wywodzi się on jeszcze z prac nad systemem SMART, opracowywanym na przełomie lat 60. i 70. Jego istotą jest reprezentacja dokumentów, zapisanych w języku naturalnym, za pomocą wektorów. Dla każdego tekstu, występującym w nim terminom (w praktyce  wyrazom lub ciągom wyrazów) przypisane zostają miary istotności (np. częstość występowania). Zbiór takich wektorów dla całej kolekcji dokumentu stanowi wielowymiarową przestrzeń, w której zapisana jest informacja o ważności każdej cechy w każdym dokumencie oraz kategorii. W podejściu tym eksponowane są statystyczne cechy danego źródła danych. Stosowanie modelu wektorowego opiera się na hipotezie, iż zbiór wszystkich wyrazów, użytych we wszystkich występujących w danym dokumencie kontekstach, jest w stanie dość dobrze opisać rzeczywistą treść i charakter tekstu [Deerwester 1990, Landauer 1997], mimo iż reprezentacja taka istotnie „spłaszcza” obraz niesionej treści, umieszczając całą gamę oryginalnie występujących wypowiedzi, wraz z ich zależnościami i relacjami, w wektorze cech. Istnieje wiele wariantów tego, dość prostego w ogólnej postaci, podejścia. Na przykład, rozszerzony model wektorowy TVSM [Polyvyanyy 2007] znajduje najpierw tematy podstawowe z pomocą odpowiedniej ontologii, a potem stosuje je jako cechy używane podczas procesu klasyfkacji. Często, zamiast pojedynczych wyrazów, tekst jest przedstawiany jako sekwencje kilku (zwykle 2 lub 3) występujących kolejno po sobie wyrazów (N-gramów).. Rysunek 2.1: Przykład reprezentacji z użyciem modelu wektorowego. Wybór cech dokumentów oraz ich istotność dla klasyfikacji może być realizowane na wiele sposobów. Najczęściej, pożądane jest zastosowanie takiego mechanizmu, który będzie faworyzował terminy niepojawiające się zbyt rzadko (gdyż, występując jedynie w pojedynczych dokumentach, nie pozwalają na określenie ich klasyfikacji) ani zbyt.

(21) 2.1. Przegląd metod klasyfikacji dokumentów. 11. często (jako że pojawiając się w zbyt dużej części tekstów, są mało użytecznymi z punktu widzenia klasyfikacji cechami). Typowo stosowaną metodą ważenia terminów jest TFIDF (ang. Term FrequencyInverse Document Frequency). Brana jest w niej pod uwagę zarówno częstość terminu lokalnie jak i w kontekście wszystkich dokumentów. Wartość ta jest obliczana według wzorów: nu tf = X (2.1) nk k. idf = log. |D| |(di ⊃ ti )|. (2.2). tf idf = tf · idf. (2.3). Gdzie: ni  liczba wystąpień danego terminu w danym dokumencie, P. k. nk  liczba wystąpień wszystkich terminów w dokumencie,. |D|  całkowita liczba dokumentów w analizowanym zbiorze, |(di ⊃ ti )|  liczba dokumentów w których termin ti się pojawia. Wartość tf to częstość wystąpień terminu w dokumencie, zaś idf określa ogólną istotność danego wyrazu  jest to logarytm z liczby wszystkich dokumentów, podzielony przez liczbę dokumentów zawierających wyrażenie. Jedną z wielu zalet stosowania podejścia wektorowego jest relatywna łatwość w określaniu podobieństwa między dwoma dowolnymi przedstawionymi tak dokumentami. Załóżmy że d1 oraz d2 reprezentują wektory cech opisujące dwa dokumenty. Aby ustalić ich bliskość znaczeniową, bezpośrednio zastosować można jedną z wielu metryk, taką jak: cosinusowa  według wzoru 2.4, Euklidesowa  2.5, Manhattan, Jaccarda  2.6 [Salton 1989, Strehl 2000]. → − → − d1 · d2 simcos (d1 , d2 ) = → − → − |d1 ||d2 |. (2.4). v u n uX → − → − 2 d1 (i) − d2 (i) simeucl (d1 , d2 ) = t. (2.5). i=1 n X → −. → − d1 (i) · d2 (i). simjacc (d1 , d2 ) = 1 −. i=1 n X → −. 2. d1 (i) +. i=1. n X → −. 2. d2 (i) −. i=1. Gdzie: → − → − d1 , d2  wektory reprezentujące dokumenty 1 i 2,. n X → −. → − d1 (i) · d2 (i). i=1. (2.6).

(22) 2.1. Przegląd metod klasyfikacji dokumentów. 12. → − → − → − → − d1 · d2  iloczyn skalarny wektorów d1 i d2 , → − → − → − → − |d1 ||d2 |  iloczyn miar długości wektorów d1 i d2 , → − → − d1 (i)  komponent i wektora d1 . Mając zdefiniowaną metrykę, pozwalającą ustalić odległośc między dwoma dowolnymi dokumentami, łatwo zrealizować również klastrowanie  stosując jedną z wielu dostępnych metod (jak choćby algorytm centroidów). Ponieważ stosowanie wektorów cech jest najpopularniejszym podejściem stosowanym w maszynowym uczeniu podczas klasyfikacji [Cover 1991, Manning 2007, Witten 2005], ogromną zaletą, wynikającą z takiej reprezentacji treści dokumentu, jest gotowa dostępność całego szeregu efektywnych metod. Wspomnieć tu można np. drzewa decyzyjne, Boosting, Naïve Bayes, Maximum Entropy, SVM [Joachims 1998] i wiele innych. Redukcja liczby wymiarów przestrzeni wektorowej Typowa macierz reprezentująca zbiór tekstów przedstawionych za pomocą modelu wektorowego zawiera relacje między dokumentami i wyrazami (terminami). Często są to pokaźne ilości danych. Zredukowanie ich liczby jest celowe zarówno z punktu widzenia poprawy szybkości przetwarzania jak i polepszenia jakości wyników klasyfikacji, poprzez poprawę jakości użytych cech. Zastosować tu można dwa podejścia. Pierwszym jest selekcja cech, czyli wybór wyrazów niosących ze sobą najwięcej informacji. W praktyce oznacza to usunięcie wyrazów występujących zbyt rzadko lub zbyt często [Sebastiani 2002b]. Drugie podejście opiera się na dokonaniu transformacji na macierzy (najczęściej związanych ze znajdowaniem wartości własnych), wydobywając w ten sposób nowe cechy. Wykorzystuje się tu często dobrze znane, ogólne metody analizy statystycznej, takie jak PCA (Pricinipal Component Analysis), SVD (Singular Value Decomposition) [Berry 1994] czy też analizę semantyki utajonej  LSA (Latent Semantic Analysis) [Deerwester 1990, Landauer 1997]. Zasadność stosowania tych metod nie kończy się jednak na ich użyteczności z punktu widzenia statystyki. Ostatnie z podejść (LSA) było wykorzystywane również do wyjaśnienia mechanizmów, za pomocą których działają funkcje poznawcze w ludzkim mózgu. Zrealizowano eksperyment [Landauer 1997], w którym określano zdolność metody do wyboru synonimów danego wyrazu. Oparto się w nim o hipotezę o dystrybucji, która twierdzi, iż terminy o podobnej funkcji, często występują w podobnym kontekście. Stosując model wektorowy, redukując liczbę wymiarów metodą LSA do odpowieniej liczby (przytaczana jest wartość 300), uzyskano rezultaty porównywalne z wynikami osób przystępujących do egzaminu TOEFL. Prace te sugerują, że sposób w jaki ludzki mózg do oceny bliskości wyrazów (synonimów), zbudowany jest na mechaniźmie o podobnym potencjale, wykorzystującym podobne przesłanki statyczne, co wspomniana metoda..

(23) 2.1. Przegląd metod klasyfikacji dokumentów. 13. Rozwiązania oparte o model wektorowy znajdują swoje zastosowanie w praktycznie każdym aspekcie przetwarzania dokumentów.. 2.1.4. Metody oparte o model grafowy. Metody wektorowe dobrze sprawdzają się do reprezentowania treści dokumentu jako zbioru rozdzielnych cech. Także, doskonale nadają się do stosowania z dostępnymi mechanizmami nadzorowanego oraz nienadzorowanego uczenia (które najczęściej operują właśnie na wektorach). Jednak, napotykają one na szereg istotnych ograniczeń związanych z możliwościami reprezentowania treści dokumentu. Wśród nich, jednym z pierwotnych problemów jest niemożność przedstawienia w efektywny sposób wiedzy o kolejności występujących w danym tekście sekwencji zdań i wyrazów. Umyka w ten sposób istotna część informacji związanych z danym tekstem. Próby rozwiązania tego problemu, jak modele N-gramowe, nie przynoszą dużej poprawy przy klasyfikacji dokumentów [Schenker 2005, Manning 2007]. Jest to między innymi związane ze statystyczną naturą korpusu tekstów, w którym prawdopodobieństwo wystąpienia konkretnych sekwencji wyrazów (N-gramów) jest na tyle rzadkie, że trudno za ich pomocą zdefiniować znacząco lepsze cechy modelu dokumentu. Naturalnym pomysłem na zlikwidowanie tych trudności wydaje się być podejście z zastosowaniem grafu. W ten sposób, reprezentowana jest nie tylko zawartość, ale i struktura dokumentu. Na wyższym poziomie abstrakcji i przy wydobyciu odpowiednich cech, graf taki można rozpatrywać jako sposób reprezentacji relacji między obiektami występującymi w tekście, tworząc w ten sposób strukturę zbliżoną do sieci semantycznej. 2.1.4.1. Podstawowe pojęcia. Zanim przejdziemy do przeglądu metod grafowych, zdefiniujmy w jaki sposób rozumiany jest w niniejszej pracy sam graf. Przyjęta została tu metodologia analogiczna jak w pracach [Bunke 2000, Schenker 2005, Wang 1995]. Definicja 2. Przyjmuje się, że graf to czwórka: G = (V, E, α, β). (2.7). Przy czym: V jest zbiorem wierzchołków, E ⊆ V × V jest zbiorem krawędzi łączących wierzchołki, α : V → ΣV jest funkcją etykietującą wierzchołki, β : V × V → ΣE jest funkcją etykietującą krawędzie, ΣV jest zbiorem etykiet wierzchołków, ΣE zbiorem etykiet krawędzi. Definicja 3. Podgrafem G1 = (V1 , E1 , α1 , β1 ) grafu G2 = (V2 , E2 , α2 , β2 ) jest graf spełniający warunki: G1 ⊆ G 2. (2.8).

(24) 2.1. Przegląd metod klasyfikacji dokumentów. 14. E1 ⊆ G2 ∩ (V1 × V2 ). (2.9). α1 (x) = α2 (x) ∀x ∈ V1. (2.10). β1 ((x, y)) = β2 ((x, y)) ∀(x, y) ∈ E1. (2.11). Jeśli G1 jest podgrafem grafu G2 , to G2 jest nadgrafem grafu G1 [Bunke 1997]. Warto zwrócić uwagę, że ani graf, ani podgraf nie muszą być spójne. Zatem mogą występować w nich wierzchołki, między którymi nie przebiega żadna łącząca je ścieżka. 2.1.4.2 TextRank W efekcie inspiracji algorytmem PageRank [Brin 1998] zaproponowana została bazująca na jego pomyśle metoda TextRank [Mihalcea 2004b, Mihalcea 2004a], która zamiast  jak pierwowzór  analizować odnośniki między stronami, tworzy ranking istotności terminów (węzłów grafu) występujących w tekście. Ogólna idea stojąca za tą metodyką opiera się o hipotezę, iż ważność danego węzła opiera się o ilość oraz ważność węzłów z których przychodzą do niego odnośniki. W przypadku przetwarzania tekstów, ogólny algorytm składa się z następujących kroków: 1. Identyfikacja jednostek tekstu i dodanie ich jako węzłów do grafu. Sposób, w jaki znajdowane są jednostki, zależy od konkretnego zastosowania. 2. Identyfikacja relacji, które łączą jednostki tekstu i dodanie ich jako krawędzi do grafu. 3. Iteracyjne ustalanie rankingu istotności węzłów aż do osiągnięcia odpowiedniego kryterium konwergencji. Jest on określony poprzez maksymalny dozwolony poziom błędów dla każdego wierzchołka, który jest wyliczany jako różnica pomiędzy znaną istotnością danego węzła a jego ważnością obliczoną w danej iteracji algorytmu. 4. Posortowanie węzłów według uzyskanego rankingu. Interpretacja istotności zależy od danego zastosowania (np. wybranie najbardziej istotnego znaczenia, słowa kluczowego, etc.). Istnieje wiele sposobów budowy grafu, które są uzależnione od danego zastosowania. Autorzy przedstawiają kilka pomysłów. Na przykład, budować można twór odpowiadający strukturze relacji w WordNet. Węzły są tworzone z synsetów wyrazów występujących w danych tekście, a krawędzie z relacji między nimi. W ten sposób budować można zarówno graf nieskierowany jak i skierowany – gdy arbitralnie zostaje wybrana.

(25) 2.1. Przegląd metod klasyfikacji dokumentów. 15. relacja kierunkowa (np. hiponimia). Po poddaniu tak utworzonej struktury algorytmowi, ranking istotności węzłów przedstawia najbardziej istotne znaczenia pojęć. Innym przykładem jest utworzenie reprezentacji słów występujących w tekście, opierając się o kryterium ich współwystąpienia. Każdy termin występujący w tekście jest dodane jako węzeł. Jeśli dowolne dwa terminy są przedzielone w tekście maksymalnie N innymi słowami (gdzie zakres N to 2 − 10), dodawane jest między nimi połączenie. Ranking wierzchołków z tak utworzonego grafu prezentuje najważniejsze terminy w danym tekście (które mogą być rozpatrywane jako słowa kluczowe). Algoryrm może także służyć do budowy automatycznego podsumowania tanego tekstu. W tym celu, wierzchołki grafu stanowią zdania, które połączone są według kryterium ich bliskości względem siebie (z zastosowaniem odpowiedniej metryki, opartej o ilość wspólnych wyrazów w rozważanych zdaniach). Zdania o najwyższej pozycji w utworzonym rankingu mogą być następnie wybrane do budowy automatycznego podsumowania treści. Sam ranking istotności węzłów grafu ustalany jest z wykorzystaniem wzoru analogicznego jak w przypadku PageRank. Mając skierowany graf G = (V, E), gdzie E to zbiór krawędzi, a V -węzłów i zakładając, iż In(Vi ) określa węzły przychodzące do węzła Vi , a Out(Vi ) węzły wychodzące, rezultat jest definiowany jako: S(Vi ) = (1 − d) + d ·. S(Vj ) |Out(Vj )| j∈In(V ) X. i. Proponowana jest także miara dla grafów, w których krawędzie niosą informacje o wadze (waga dla połączenia między węzłami i oraz j dana jest jako wji ): W S(Vi ) = (1 − d) + d ·. X. wji · W S(Vj ) X. j∈In(Vi ). wjk. Vk ∈Out(Vj ). Należy zwrócić uwagę na parametr d, oznaczający damping factor. Jego rolą było oryginalnie reprezentowanie modelu „losowego surfera”, gdzie użytkownik klika na odnośnik do danej strony z prawdopodobieństwem d, bądź kieruje się do zupełnie losowego miejsca z prawdopodobieństwem 1 − d. Ten ostatni scenariusz ma być typowy dla sytuacji kiedy „znudzony surfer” wybiera przypadkowo odnośnik, na który klika myszką. Wytłumaczenie zastosowania tego czynnika w przypadku algorytmu TextRank jest inne i opiera się o pojęcie spójności w tekście [Halliday 1976], gdzie z pewnego pojęcia C istnieje pewne prawdopodobieństwo do przejścia do podobnych pojęć  mających z nim pewne relacje semantyczne. Typową wartością parametru d jest 0, 85 [Brin 1998] i taka też była stosowana w prezentowanych pracach. Zrozumienie działanie metody oprzeć można także na idei rekomendacji. Dana jednostka tekstowa (termin, zdanie, znaczenie) może być rozważana w kategorii rekomendowania przez nią innej jednostki. Na przykład, rozważając węzły grafu jako zdania, kiedy inne zdanie zawiera podobne wyrazy (i w konsekwencji tworzone jest między nimi połączenie w grafie) efektywnie rekomenduje ono dane pojęcia w nich występujące jako istotne dla zrozumienia sensu płynącego z danego tekstu. W efekcie, zdania,.

(26) 2.1. Przegląd metod klasyfikacji dokumentów. 16. które są wysoko umieszczone w rankingu wg oceny TextRank, mogą być uznane za dostarczające ważniejsze informacje, niż te z niższymi pozycjami, lepiej nadając się do umieszczenia w podsumowaniu treści. 2.1.4.3 Text To Graph (Schenker et al.) Jedno z ważniejszych podejść do modelowania treści dokumentu poprzez graf zostało zaprezentowane przez Schenkera et. al [M. 2003, Schenker 2003] i rozwijane w dalszych pracach [Schenker 2005, Markov 2005a, Litvak 2008, Chow 2009, Jiang 2009]. Model dokumentu budowany jest w oparciu o kilka zasad, które biorą pod uwagę wzajemne położenie wyrazów względem siebie w tekście. Metoda ta została stworzona z myślą o klastrowaniu i klasyfikacji dokumentów sieciowych (jak strony HTML serwisów informacyjnych). Algorytm oparty był o dość intuicyjny pomysł, w ramach którego węzły grafu reprezentowały słowa (terminy) występujące w dokumencie, a połączenia były tworzone w oparciu o ich kolejność występowania w tekście. Proponowano sześć wariantów sposobu modelowania treści: Reprezentacja standardowa (standard representation) Dokument był dzielony na trzy sekcje  tytuł (TI), odnośniki (L) oraz tekst (TX). Następnie, jego treść była sekwencyjnie czytana  wyraz po wyrazie, które były dokładane według następujących zasad: 1. Jeśli napotkano termin W , a nie istnieje jeszcze węzeł W , to zostaje on utworzony. 2. Jeśli termin W występuje po terminie V w sekcji 1, to dokładane jest połączenie między węzłami W i V z etykietą 1. Reprezentacja prosta (simple representation) Model dokumentu tworzony był w sposób analogiczny jak dla reprezentacji standardowej, lecz pomijane były informacje o sekcji. Reprezentacja n-odległości (n-distance representation) Mając zadany parametr m, dokument był reprezentowany w sposób podobny jak w reprezentacji prostej, lecz krawędzie były tworzone i etykietowane na innej zasadzie. Połączenia dla węzłów były dodawane, jeśli występowało między nimi mniej niż m innych wyrazów w tekście oraz dodawana była etykieta określająca tę odległość. Reprezentacja n-prosta (n-simple representation) Był to sposób analogiczny jak w przypadku reprezentacji n-odległości, lecz krawędzie nie były etykietowane. Reprezentacja absolutnej częstości (absolute frequency representation) Graf reprezentujący dany tekst był generowany w sposób identyczny z tym stosowanym w reprezentacji prostej, a następnie dodawana była informacja o absolutnej częstości:.

(27) 2.1. Przegląd metod klasyfikacji dokumentów. 17. • w przypadku węzłów, każdy z nich etykietowany był ilością wystąpień reprezentowanego przez niego terminu, • w przypadku krawędzi, etykieta reprezentowała ilość razy, kiedy dane dwa terminy występowały po sobie w tekście. Wadą tak zdefiniowanej reprezentacji był brak normalizacji etykietowanych wartości. W efekcie porównywanie dwóch grafów o bardzo różnej wielkości może przynieść nieoczekiwane rezultaty. Proponowano rozwiązanie w postaci ostatniej z prezentowanych reprezentacji. Reprezentacja względnej częstości (relative frequency representation) Reprezentacja ta jest wariantem reprezentacji absolutnej częstości, w którym liczbę wystąpień węzłów oraz krawędzi podzielono przez, odpowiednio, maksymalną liczbę wystąpień węzłów oraz maksymalną liczbę wystąpień krawędzi w danym grafie. Uzyskując w ten sposób znormalizowaną wartość z zakresu [0, 1].. AAA BBB BBB CCC DDD EEE. BBB DDD EEE.. AAA. TI. BBB. EEE. TX. CCC. TX. TX. L. DDD. TX. Rysunek 2.2: Przykład reprezentacji standardowej modelu grafowego Schenkera et al.. W teorii grafów, najczęściej przyjmuje się, iż rozmiar grafu jest równoważny z ilością jego węzłów. Podejście takie jest jednak uznawane za „szkodliwe” [Schenker 2005] w przypadku prezentowanej metody, gdyż nie uwzględnia krawędzi, które de-facto określają ilość zdań, w których występuje dany termin. Z tego powodu, proponowana jest alternatywna definicja 4 rozmiaru grafu. Definicja 4. Rozmiarem grafu G = (V, E, α, β) nazywać będziemy sumę rozmiarów wierzchołków i krawędzi. |G| = |V | + |E| (2.12) Rozważano wiele podejść do realizacji metryk, analizując je pod kątem uzasadnień oraz efektywności obliczeniowej [Schenker 2005]. Ostatecznie, do porównywania podobieństwa dwóch dokumentów (grafów) zaproponowano stosowanie dwóch definicji odległości: |mcs(G1 , G2 )| d1 (G1 , G2 ) = 1 − (2.13) max(|G1 |, |G2 |).

(28) 2.1. Przegląd metod klasyfikacji dokumentów. d2 (G1 , G2 ) = 1 −. 18. |mcs(G1 , G2 )| |G1 | + |G2 | − |mcs(G1 , G2 )|. (2.14). Gdzie: mcs(G1 , G2 ) - funkcja zwracająca największy wspólny podgraf grafów G1 i G2 , |G| - rozmiar grafu G, zgodnie z definicją 4. W przypadku reprezentacji z częstością, zastosowano definicję rozmiaru grafu 5, a podczas budowy największego wspólnego podgrafu, dla każdego ze wspólnych elementów (wierzchołków i krawędzi) wybierana była mniejsza z przypisanych częstości. Definicja 5. Rozmiarem grafu G = (V, E, α, β) w wariencie z reprezentacją częstościowo nazywać będziemy sumę częstości przypisanych do wierzchołków i krawędzi. |G|f req = |V |f req + |E|f req. (2.15). Gdzie: |V |f req - suma częstości przypisanych do wszystkich węzłów, |E|f req - suma częstości przypisanych do wszystkich krawędzi. Należy zauważyć, iż znalezienie największego wspólnego podgrafu (mcs) jest w ogólnym przypadku problemem NP-zupełnym [Messmer 1998a]. Jednak w przypadku prezentowanej metody, sposób budowy grafu implikuje, iż każdemu węzłowi przypisany jest unikalny termin, który nie jest przypisany do jakiegolwiek innego węzła [Dickinson 2003]. W związku z tym, algorytm znalezienia największego wspólnego podgrafu Gmcs grafów G1 i G2 można zrealizować w następujący sposób, budując nowy graf na podstawie danych z grafów wejściowych: 1. Znalezienie zbioru wspólnych wierzchołków Vmcs , będących również wierzchołkami największego wspólnego podgrafu. 2. Znalezienie wspólnych krawędzi Emcs , poprzez analizę krawędzi łączących każdą parę węzłow występujących w Vmcs . Tak postawiony algorytm cechuje złożoność obliczeniowa O(|V |2 ). Klasyfikacja odbywała się z zastosowaniem mechanizmu k-najbliższych sąsiadów (k-NN), a klastrowanie z użyciem algorytmu centroid (k-Means). Przyjmowano definicję centroidy grafów 6: Definicja 6. Centroidą zbioru n grafów S = G1 , G2 , . . . , Gn przy przyjętej metryce jest graf G, którego średnia odległość do wszystkich elementów zbioru S jest najmniejsza. n 1X dist(s, Gi ) n i=1. !. G = arg min. ∀s∈S. (2.16). Wśród pozostałych aspektów realizacji metody należy zwrócić uwagę na kilka istotnych kwesti:.

(29) 2.1. Przegląd metod klasyfikacji dokumentów. 19. • jako terminy w istocie rozpatrywane były rdzenie (stemy) wyrazów, • jeśli między dwoma wyrazami znajdowała się granica zdania (kropka, pytajnik, etc.), połączenia między reprezentującymi je węzłami nie były dodawane, • w celu zmniejszenia rozmiaru grafu, przy jego budowie wybieranych było jedynie n najczęściej występujących terminów; w prezentowanych eksperymentach typowa wartość n wynosiła często poniżej 100 (przy średniej liczbie wyrazów w dokumencie rzędu 500). 2.1.4.4. Hybrydowa reprezentacja grafowa. Większość dostępnych algorytmów maszynowego uczenia nie wspiera grafów jako sposobu reprezentacji cech, bądź wspiera je w ograniczonym stopniu [Bunke 2007], nie wykorzystując całego potencjału wiedzy niesionej przez nie. Zatem realizacja systemów opierających się o model zaprezentowany przez Schenkera et. al napotyka na istotną przeszkodę. W praktyce, jest się bowiem ograniczonym w możliwościach wyboru algorytmu maszynowego uczenia do metod stosujących zbiór instancji (w tym wypadku – przykładowych grafów) do wewnętrznej reprezentacji modelu klasyfikatora. Typowym reprezentantem takich algorytmów jest kNN. Choć jego rezultaty często nie odbiegają od tych prezentowanych przez bardziej wyrafinowane metody, to cechuje go istotny nakład obliczeniowy, zwłaszcza przy dużych zbiorach treningowych. Dla odmiany, zastosowanie podejścia wektorowego przy reprezentacji cech, pozwala na użycie całej gamy algorytmów, w których w trakcie procesu trenowania budowane są indukowane modele cech, opisujące daną kategorię [Cover 1991, Manning 2007, Witten 2005]. Dzięki temu, łatwo można zastosować metody takie jak SVM, Naïve Bayes, MaxEnt i wiele innych. Jedna z propozycji rozwiązania tego problemu została zaprezentowana przez Markova, Lasta i Kandela [Markov 2005b, Markov 2005a, Markov 2008]. Jej istotą jest znalezienie podgrafów i użycie ich do budowy wektora cech dokumentu. Pozwala to na zastosowanie dowolnej metody klasyfikacji, która może być użyta ze „zwykłym” modelem wektorowym. Ogólny proces przetwarzania prezentuje się następująco: 1. Wczytanie dokumentów i utworzenie ich reprezentacji grafowej (podobnie jak robił to Schenker). 2. Zastosowanie odpowiedniej heurystyki, wybierającej najbardziej istotne podgrafy. 3. Budowa wektora cech, którymi są wystąpienia wcześniej wybranych istotnych podgrafów, dla każdego z dokumentów. 4. Zastosowanie klasyfikatora dla uzyskanych wektorów. Rozpatrywane były trzy sposoby wyboru podgrafów ze zbioru dokumentów (grafów):.

(30) 2.1. Przegląd metod klasyfikacji dokumentów. 20. Podejście naiwne (Hybrid Naïve Approach) W algorytmie tym, dokumenty ze zbioru uczącego były dzielone wstępnie na grupy według ich znanych klas, a następnie w każdej z takich grup znajdowano wszystkie podgrafy występujące w danym zbiorze częściej niż tmin (parametryzowane), z zastosowaniem algorytmu FSG [Kuramochi 2004]. Tak uzyskane podgrafy, stanowiące pojedyncze cechy, były łączone w jeden zbiór możliwych cech, na podstawie których tworzono wektory dla poszczególnych dokumentów. Jak twierdzą autorzy, postulowana metoda opierała się o hipotezę, iż jeśli dana cecha (podgraf) często występuje w danym podzbiorze, jest jego dobrym dyskryminatorem. Praktyczne testy jednak tego nie potwierdziły, a ograniczenia podejścia próbowano poprawić w następnym z proponowanych algorytmów. Podejście sprytne (Hybrid Smart Approach) Na początek, podobnie jak w podejściu naiwnym, dokumenty (grafy) zbioru uczącego były dzielone na grupy według ich znanych klas. Zaproponowano kilka metryk, pomagających znaleźć istotne podgrafy mogące zostać dobrze dyskryminującymi cechami, opierając się w pewnym stopniu o popularną miarę TF-IDF. SCF(gk0 (ci )) =. ISF(gk0 (ci )) =.               log   2       . X. N (cj ). gk0 f (ci ) N (ci ). . cj ∈C j6=i.    X  0 gk f (cj )  . jeżeli.         X        log 2 N (c )   2 j       cj ∈C . X. gk0 f (cj) > 0. cj ∈C j6=i. cj ∈C  j6=i. j6=i. (2.17). jeżeli. X. (2.18) gk0 f (cj ) = 0. cj ∈C j6=i. CR(gk0 (ci )) = SCF(gk0 (ci )) · ISF(gk0 (ci )). (2.19). Gdzie: SCF(gk0 (ci ))  częstość podgrafu gk0 w klasie ci (Sub-graph Class Frequency), gk0 f (ci )  liczba grafów zawierających podgraf gk0 w klasie ci , N (ci )  liczba grafów w klasie ci , ISF(gk0 (ci ))  miara odwrotnej częstości podgrafu gk0 w klasie ci (Inverse Sub-graph Frequency), CR(gk0 (ci ))  współczynnik klasyfikowania podgrafu gk0 w klasie ci (Classification Rate)..

(31) 2.1. Przegląd metod klasyfikacji dokumentów. 21. Interpretacją ostatniego z parametrów  CR(gk0 (ci ))  jest mierzenie przez niego jak dobrze podgraf gk0 dyskryminuje klasę ci . Wartość ta osiąga swoje maksimum, gdy każdy graf w kategorii ci zawiera gk0 , a nie zawiera go żaden z grafów przypisanych do innych klas [Markov 2008]. W zastosowaniach tego algorytmu jako cechy wybierane były tylko podgrafy, dla których parametr ten wynosi wiecej niż CRmin . Podejście naiwne z ustalonym progiem (Hybrid Naïve Approach with Fixed Threshold) Ostatnie z rozpatrywanych podejść bazowało na metodzie przedstawionej powyżej, lecz dodawało kolejny próg  tmin . Aby podgraf został wybrany jako cecha, musiały być teraz spełnione jednocześnie dwa warunki: • SCF (gk0 (ci )) > tmin • CR(gk0 (ci )) > CRmin Pierwszy z warunków został dodany, aby zredukować liczbę rzadkich podgrafów, które występowały pewną niewielką liczbę razy w danej klasie i nie pojawiały się praktycznie wogóle w pozostałych. Jak podają autorzy, wbrew oczekiwaniom  nie poprawiło to uzyskiwanych wyników, miało na nie niewielki wpływ, za to zmniejszyło liczbę cech i w efekcie nakład obliczeniowy. Bazując na przedstawionych przez autorów wynikach [Markov 2005b, Markov 2005a, Markov 2008], ocenić można, iż podejścia takie pozwalają na znaczną poprawę efektów automatycznej kategoryzacji w porównaniu do prostego podejścia z workiem słów. W optymistycznych przypadkach, z zastosowaniem klasyfikatora C4.5, dokładność w porównaniu z modelem wektorowym rosła z 78% do 88%, 58% do 85% bądź 73% do 78%). Jednym z efektów podejścia naiwnego i sprytnego z ustalonym progiem było przyspieszenie czasu przetwarzania dokumentów. Mimo dodatkowego nakładu czasu potrzebnego na budowę modelu grafowego i wybór cech, ich zmniejszona liczba powodowała, że kolejne etapy trwały znacznie krócej i ostatecznie możliwe było nawet dwukrotne skrócenie czasu na przeprowadzenie wszystkich operacji. Podobne obserwacje przeprowadzono, gdy jako klasyfikator stosowany był naiwny klasyfikator bayesowski (z wyższymi wartościami bezwzględnymi dokładności). 2.1.4.5. Wydobywanie cech z użyciem modelu grafowego. Inne podejście do „dwupoziomowej” reprezentacji treści  czyli poprzez wektor cech wydobyty z reprezentacji grafowej zostało zaprezentowane przez Jianga, Coenena, Sandersona i Zito [Jiang 2009]. Do budowy grafu przedstawiającego treść danego dokumentu wykorzystywano informacje o stemach, częściach mowy, hipernimach i kolejności słów jak również o strukturze, podziale oraz kolejności zdań. W grafie mogły występować węzły czterech rodzajów: 1. Strukturalne  reprezentujące zdania (S) i ich wewnętrzną strukturę wyrażeń czasownikowych (VP), rzeczownikowych (NP) oraz przyimkowych (PP)..