Metody oparte o model grafowy - Przegląd metod klasyfikacji dokumentów

2.1 Przegląd metod klasyfikacji dokumentów

2.1.4 Metody oparte o model grafowy

Metody wektorowe dobrze sprawdzają się do reprezentowania treści dokumentu ja-ko zbioru rozdzielnych cech. Także, dosja-konale nadają się do stosowania z dostępny-mi mechanizmadostępny-mi nadzorowanego oraz nienadzorowanego uczenia (które najczęściej operują właśnie na wektorach). Jednak, napotykają one na szereg istotnych ograniczeń związanych z możliwościami reprezentowania treści dokumentu. Wśród nich, jednym z pierwotnych problemów jest niemożność przedstawienia w efektywny sposób wie-dzy o kolejności występujących w danym tekście sekwencji zdań i wyrazów. Umyka w ten sposób istotna część informacji związanych z danym tekstem. Próby rozwiązania tego problemu, jak modele N-gramowe, nie przynoszą dużej poprawy przy klasyfikacji dokumentów [Schenker 2005,Manning 2007]. Jest to między innymi związane ze sta-tystyczną naturą korpusu tekstów, w którym prawdopodobieństwo wystąpienia kon-kretnych sekwencji wyrazów (N-gramów) jest na tyle rzadkie, że trudno za ich pomocą zdefiniować znacząco lepsze cechy modelu dokumentu.

Naturalnym pomysłem na zlikwidowanie tych trudności wydaje się być podejście z zastosowaniem grafu. W ten sposób, reprezentowana jest nie tylko zawartość, ale i struktura dokumentu. Na wyższym poziomie abstrakcji i przy wydobyciu odpowied-nich cech, graf taki można rozpatrywać jako sposób reprezentacji relacji między obiek-tami występującymi w tekście, tworząc w ten sposób strukturę zbliżoną do sieci

seman-tycznej.

2.1.4.1 Podstawowe pojęcia

Zanim przejdziemy do przeglądu metod grafowych, zdefiniujmy w jaki sposób rozu-miany jest w niniejszej pracy sam graf. Przyjęta została tu metodologia analogiczna jak w pracach [Bunke 2000,Schenker 2005,Wang 1995].

Definicja 2. Przyjmuje się, że graf to czwórka:

G = (V, E, α, β) _(2.7)

Przy czym:

V jest zbiorem wierzchołków,

E ⊆ V × V jest zbiorem krawędzi łączących wierzchołki, α : V → ΣV jest funkcją etykietującą wierzchołki, β : V × V → Σ_E jest funkcją etykietującą krawędzie,

Σ_V jest zbiorem etykiet wierzchołków,

Σ_E zbiorem etykiet krawędzi.

Definicja 3. Podgrafem G1= (V₁, E₁, α₁, β₁)grafu G2= (V₂, E₂, α₂, β₂)jest graf spełniają-cy warunki:

2.1. Przegląd metod klasyfikacji dokumentów 14

E₁ ⊆ G₂∩ (V₁× V₂) _(2.9)

α1(x) = α₂(x) ∀x ∈ V₁ _(2.10)

β₁((x, y)) = β₂((x, y)) ∀(x, y) ∈ E₁ _(2.11)

Jeśli G1jest podgrafem grafu G2, to G2jest nadgrafem grafu G1[Bunke 1997].

Warto zwrócić uwagę, że ani graf, ani podgraf nie muszą być spójne. Zatem mogą występować w nich wierzchołki, między którymi nie przebiega żadna łącząca je ścież-ka.

2.1.4.2 TextRank

W efekcie inspiracji algorytmem PageRank [Brin 1998] zaproponowana została bazująca na jego pomyśle metoda TextRank [Mihalcea 2004b, Mihalcea 2004a], która zamiast  jak pierwowzór  analizować odnośniki między stronami, tworzy ranking istotności terminów (węzłów grafu) występujących w tekście. Ogólna idea stojąca za tą metodyką opiera się o hipotezę, iż ważność danego węzła opiera się o ilość oraz ważność węzłów z których przychodzą do niego odnośniki.

W przypadku przetwarzania tekstów, ogólny algorytm składa się z następujących kroków:

1. Identyfikacja jednostek tekstu i dodanie ich jako węzłów do grafu. Sposób, w jaki znajdowane są jednostki, zależy od konkretnego zastosowania.

2. Identyfikacja relacji, które łączą jednostki tekstu i dodanie ich jako krawędzi do grafu.

3. Iteracyjne ustalanie rankingu istotności węzłów aż do osiągnięcia odpowiedniego kryterium konwergencji. Jest on określony poprzez maksymalny dozwolony po-ziom błędów dla każdego wierzchołka, który jest wyliczany jako różnica pomię-dzy znaną istotnością danego węzła a jego ważnością obliczoną w danej iteracji algorytmu.

4. Posortowanie węzłów według uzyskanego rankingu. Interpretacja istotności zale-ży od danego zastosowania (np. wybranie najbardziej istotnego znaczenia, słowa kluczowego, etc.).

Istnieje wiele sposobów budowy grafu, które są uzależnione od danego zastosowa-nia. Autorzy przedstawiają kilka pomysłów. Na przykład, budować można twór odpo-wiadający strukturze relacji w WordNet. Węzły są tworzone z synsetów wyrazów wystę-pujących w danych tekście, a krawędzie z relacji między nimi. W ten sposób budować można zarówno graf nieskierowany jak i skierowany – gdy arbitralnie zostaje wybrana

2.1. Przegląd metod klasyfikacji dokumentów 15

relacja kierunkowa (np. hiponimia). Po poddaniu tak utworzonej struktury algorytmowi, ranking istotności węzłów przedstawia najbardziej istotne znaczenia pojęć.

Innym przykładem jest utworzenie reprezentacji słów występujących w tekście, opierając się o kryterium ich współwystąpienia. Każdy termin występujący w tekście jest dodane jako węzeł. Jeśli dowolne dwa terminy są przedzielone w tekście maksymal-nie N innymi słowami (gdzie zakres N to 2 − 10), dodawane jest między nimi połącze-nie. Ranking wierzchołków z tak utworzonego grafu prezentuje najważniejsze terminy w danym tekście (które mogą być rozpatrywane jako słowa kluczowe).

Algoryrm może także służyć do budowy automatycznego podsumowania tanego tekstu. W tym celu, wierzchołki grafu stanowią zdania, które połączone są według kry-terium ich bliskości względem siebie (z zastosowaniem odpowiedniej metryki, opartej o ilość wspólnych wyrazów w rozważanych zdaniach). Zdania o najwyższej pozycji w utworzonym rankingu mogą być następnie wybrane do budowy automatycznego podsumowania treści.

Sam ranking istotności węzłów grafu ustalany jest z wykorzystaniem wzoru ana-logicznego jak w przypadku PageRank. Mając skierowany graf G = (V, E), gdzie E to zbiór krawędzi, a V -węzłów i zakładając, iż In(Vi) określa węzły przychodzące do wę-zła Vi, a Out(Vi) węzły wychodzące, rezultat jest definiowany jako:

S(V_i) = (1 − d) + d · ^X

j∈In(Vi)

S(V_j)

|Out(V_j)|

Proponowana jest także miara dla grafów, w których krawędzie niosą informacje o wadze (waga dla połączenia między węzłami i oraz j dana jest jako wji):

W S(V_i) = (1 − d) + d · ^X j∈In(Vi) w_ji· W S(V_j) X Vk∈Out(V_j) w_jk

Należy zwrócić uwagę na parametr d, oznaczający damping factor. Jego rolą było ory-ginalnie reprezentowanie modelu „losowego surfera”, gdzie użytkownik klika na od-nośnik do danej strony z prawdopodobieństwem d, bądź kieruje się do zupełnie loso-wego miejsca z prawdopodobieństwem 1 − d. Ten ostatni scenariusz ma być typowy dla sytuacji kiedy „znudzony surfer” wybiera przypadkowo odnośnik, na który klika myszką.

Wytłumaczenie zastosowania tego czynnika w przypadku algorytmu TextRank jest inne i opiera się o pojęcie spójności w tekście [Halliday 1976], gdzie z pewnego pojęcia

C istnieje pewne prawdopodobieństwo do przejścia do podobnych pojęć  mających

z nim pewne relacje semantyczne. Typową wartością parametru d jest 0, 85 [Brin 1998] i taka też była stosowana w prezentowanych pracach.

Zrozumienie działanie metody oprzeć można także na idei rekomendacji. Dana jed-nostka tekstowa (termin, zdanie, znaczenie) może być rozważana w kategorii rekomen-dowania przez nią innej jednostki. Na przykład, rozważając węzły grafu jako zdania, kiedy inne zdanie zawiera podobne wyrazy (i w konsekwencji tworzone jest między nimi połączenie w grafie) efektywnie rekomenduje ono dane pojęcia w nich występu-jące jako istotne dla zrozumienia sensu płynącego z danego tekstu. W efekcie, zdania,

2.1. Przegląd metod klasyfikacji dokumentów 16

które są wysoko umieszczone w rankingu wg oceny TextRank, mogą być uznane za do-starczające ważniejsze informacje, niż te z niższymi pozycjami, lepiej nadając się do umieszczenia w podsumowaniu treści.

2.1.4.3 Text To Graph (Schenker et al.)

Jedno z ważniejszych podejść do modelowania treści dokumentu poprzez graf zostało zaprezentowane przez Schenkera et. al [M. 2003,Schenker 2003] i rozwijane w dalszych pracach [Schenker 2005,Markov 2005a,Litvak 2008,Chow 2009,Jiang 2009]. Model do-kumentu budowany jest w oparciu o kilka zasad, które biorą pod uwagę wzajemne położenie wyrazów względem siebie w tekście. Metoda ta została stworzona z myślą o klastrowaniu i klasyfikacji dokumentów sieciowych (jak strony HTML serwisów in-formacyjnych). Algorytm oparty był o dość intuicyjny pomysł, w ramach którego węzły grafu reprezentowały słowa (terminy) występujące w dokumencie, a połączenia były tworzone w oparciu o ich kolejność występowania w tekście. Proponowano sześć wa-riantów sposobu modelowania treści:

Reprezentacja standardowa(standard representation)

Dokument był dzielony na trzy sekcje  tytuł (TI), odnośniki (L) oraz tekst (TX). Następnie, jego treść była sekwencyjnie czytana  wyraz po wyrazie, które były dokładane według następujących zasad:

1. Jeśli napotkano termin W , a nie istnieje jeszcze węzeł W , to zostaje on utwo-rzony.

2. Jeśli termin W występuje po terminie V w sekcji 1, to dokładane jest połą-czenie między węzłami W i V z etykietą 1.

Reprezentacja prosta(simple representation)

Model dokumentu tworzony był w sposób analogiczny jak dla reprezentacji stan-dardowej, lecz pomijane były informacje o sekcji.

Reprezentacja n-odległości(n-distance representation)

Mając zadany parametr m, dokument był reprezentowany w sposób podobny jak w reprezentacji prostej, lecz krawędzie były tworzone i etykietowane na innej za-sadzie. Połączenia dla węzłów były dodawane, jeśli występowało między nimi mniej niż m innych wyrazów w tekście oraz dodawana była etykieta określająca tę odległość.

Reprezentacja n-prosta(n-simple representation)

Był to sposób analogiczny jak w przypadku reprezentacji n-odległości, lecz kra-wędzie nie były etykietowane.

Reprezentacja absolutnej częstości(absolute frequency representation)

Graf reprezentujący dany tekst był generowany w sposób identyczny z tym sto-sowanym w reprezentacji prostej, a następnie dodawana była informacja o abso-lutnej częstości:

2.1. Przegląd metod klasyfikacji dokumentów 17

• w przypadku węzłów, każdy z nich etykietowany był ilością wystąpień re-prezentowanego przez niego terminu,

• w przypadku krawędzi, etykieta reprezentowała ilość razy, kiedy dane dwa terminy występowały po sobie w tekście.

Wadą tak zdefiniowanej reprezentacji był brak normalizacji etykietowanych war-tości. W efekcie porównywanie dwóch grafów o bardzo różnej wielkości może przynieść nieoczekiwane rezultaty. Proponowano rozwiązanie w postaci ostatniej z prezentowanych reprezentacji.

Reprezentacja względnej częstości(relative frequency representation)

Reprezentacja ta jest wariantem reprezentacji absolutnej częstości, w którym licz-bę wystąpień węzłów oraz krawędzi podzielono przez, odpowiednio, maksymal-ną liczbę wystąpień węzłów oraz maksymalmaksymal-ną liczbę wystąpień krawędzi w da-nym grafie. Uzyskując w ten sposób znormalizowaną wartość z zakresu [0, 1].

AAA EEE DDD CCC BBB TI TX TX L TX TX AAA BBB BBB CCC DDD EEE. BBB DDD EEE.

Rysunek 2.2: Przykład reprezentacji standardowej modelu grafowego Schenkera et al.

W teorii grafów, najczęściej przyjmuje się, iż rozmiar grafu jest równoważny z ilo-ścią jego węzłów. Podejście takie jest jednak uznawane za „szkodliwe” [Schenker 2005] w przypadku prezentowanej metody, gdyż nie uwzględnia krawędzi, które de-facto określają ilość zdań, w których występuje dany termin. Z tego powodu, proponowa-na jest alterproponowa-natywproponowa-na definicja4rozmiaru grafu.

Definicja 4. Rozmiarem grafu G = (V, E, α, β) nazywać będziemy sumę rozmiarów wierz-chołków i krawędzi.

|G| = |V | + |E| _(2.12)

Rozważano wiele podejść do realizacji metryk, analizując je pod kątem uzasadnień oraz efektywności obliczeniowej [Schenker 2005]. Ostatecznie, do porównywania po-dobieństwa dwóch dokumentów (grafów) zaproponowano stosowanie dwóch definicji odległości:

d₁(G₁, G₂) = 1 − |mcs(G₁, G₂)|

2.1. Przegląd metod klasyfikacji dokumentów 18

d₂(G₁, G₂) = 1 − |mcs(G₁, G₂)|

|G₁| + |G₂| − |mcs(G₁, G₂)| ^(2.14) Gdzie:

mcs(G1, G2) - funkcja zwracająca największy wspólny podgraf grafów G1i G2,

|G| - rozmiar grafu G, zgodnie z definicją4.

W przypadku reprezentacji z częstością, zastosowano definicję rozmiaru grafu 5, a podczas budowy największego wspólnego podgrafu, dla każdego ze wspólnych ele-mentów (wierzchołków i krawędzi) wybierana była mniejsza z przypisanych częstości. Definicja 5. Rozmiarem grafu G = (V, E, α, β) w wariencie z reprezentacją częstościowo na-zywać będziemy sumę częstości przypisanych do wierzchołków i krawędzi.

|G|_{f req} = |V |_{f req}+ |E|_{f req} _(2.15)

Gdzie:

|V |_{f req} - suma częstości przypisanych do wszystkich węzłów, |E|_{f req} - suma częstości przypisanych do wszystkich krawędzi.

Należy zauważyć, iż znalezienie największego wspólnego podgrafu (mcs) jest w ogólnym przypadku problemem NP-zupełnym [Messmer 1998a]. Jednak w przy-padku prezentowanej metody, sposób budowy grafu implikuje, iż każdemu węzłowi przypisany jest unikalny termin, który nie jest przypisany do jakiegolwiek innego wę-zła [Dickinson 2003]. W związku z tym, algorytm znalezienia największego wspólnego podgrafu Gmcsgrafów G1i G2można zrealizować w następujący sposób, budując nowy graf na podstawie danych z grafów wejściowych:

1. Znalezienie zbioru wspólnych wierzchołków Vmcs, będących również wierzchoł-kami największego wspólnego podgrafu.

2. Znalezienie wspólnych krawędzi Emcs, poprzez analizę krawędzi łączących każdą parę węzłow występujących w Vmcs.

Tak postawiony algorytm cechuje złożoność obliczeniowa O(|V |²).

Klasyfikacja odbywała się z zastosowaniem mechanizmu k-najbliższych sąsiadów

(k-NN), a klastrowanie z użyciem algorytmu centroid (k-Means). Przyjmowano definicję

centroidy grafów6:

Definicja 6. Centroidą zbioru n grafów S = G1, G₂, . . . , Gnprzy przyjętej metryce jest graf G, którego średnia odległość do wszystkich elementów zbioru S jest najmniejsza.

G = arg min ∀s∈S 1 n n X i=1 dist(s, Gi) ! (2.16)

Wśród pozostałych aspektów realizacji metody należy zwrócić uwagę na kilka istot-nych kwesti:

2.1. Przegląd metod klasyfikacji dokumentów 19

• jako terminy w istocie rozpatrywane były rdzenie (stemy) wyrazów,

• jeśli między dwoma wyrazami znajdowała się granica zdania (kropka, pytajnik, etc.), połączenia między reprezentującymi je węzłami nie były dodawane,

• w celu zmniejszenia rozmiaru grafu, przy jego budowie wybieranych było jedynie

n najczęściej występujących terminów; w prezentowanych eksperymentach

typo-wa typo-wartość n wynosiła często poniżej 100 (przy średniej liczbie wyrazów w do-kumencie rzędu 500).

2.1.4.4 Hybrydowa reprezentacja grafowa

Większość dostępnych algorytmów maszynowego uczenia nie wspiera grafów jako sposobu reprezentacji cech, bądź wspiera je w ograniczonym stopniu [Bunke 2007], nie wykorzystując całego potencjału wiedzy niesionej przez nie. Zatem realizacja systemów opierających się o model zaprezentowany przez Schenkera et. al napotyka na istotną przeszkodę. W praktyce, jest się bowiem ograniczonym w możliwościach wyboru algo-rytmu maszynowego uczenia do metod stosujących zbiór instancji (w tym wypadku – przykładowych grafów) do wewnętrznej reprezentacji modelu klasyfikatora. Typowym reprezentantem takich algorytmów jest kNN. Choć jego rezultaty często nie odbiegają od tych prezentowanych przez bardziej wyrafinowane metody, to cechuje go istotny na-kład obliczeniowy, zwłaszcza przy dużych zbiorach treningowych.

Dla odmiany, zastosowanie podejścia wektorowego przy reprezentacji cech, pozwa-la na użycie całej gamy algorytmów, w których w trakcie procesu trenowania budowa-ne są indukowabudowa-ne modele cech, opisujące daną kategorię [Cover 1991,Manning 2007,

Witten 2005]. Dzięki temu, łatwo można zastosować metody takie jak SVM, Naïve Bayes,

MaxEnt i wiele innych.

Jedna z propozycji rozwiązania tego problemu została zaprezentowana przez Mar-kova, Lasta i Kandela [Markov 2005b,Markov 2005a,Markov 2008]. Jej istotą jest zna-lezienie podgrafów i użycie ich do budowy wektora cech dokumentu. Pozwala to na zastosowanie dowolnej metody klasyfikacji, która może być użyta ze „zwykłym” mo-delem wektorowym. Ogólny proces przetwarzania prezentuje się następująco:

1. Wczytanie dokumentów i utworzenie ich reprezentacji grafowej (podobnie jak ro-bił to Schenker).

2. Zastosowanie odpowiedniej heurystyki, wybierającej najbardziej istotne podgra-fy.

3. Budowa wektora cech, którymi są wystąpienia wcześniej wybranych istotnych podgrafów, dla każdego z dokumentów.

4. Zastosowanie klasyfikatora dla uzyskanych wektorów.

Rozpatrywane były trzy sposoby wyboru podgrafów ze zbioru dokumentów (gra-fów):

2.1. Przegląd metod klasyfikacji dokumentów 20

Podejście naiwne(Hybrid Naïve Approach)

W algorytmie tym, dokumenty ze zbioru uczącego były dzielone wstępnie na grupy według ich znanych klas, a następnie w każdej z takich grup znajdowano wszystkie podgrafy występujące w danym zbiorze częściej niż tmin (parametry-zowane), z zastosowaniem algorytmu FSG [Kuramochi 2004].

Tak uzyskane podgrafy, stanowiące pojedyncze cechy, były łączone w jeden zbiór możliwych cech, na podstawie których tworzono wektory dla poszczególnych do-kumentów. Jak twierdzą autorzy, postulowana metoda opierała się o hipotezę, iż jeśli dana cecha (podgraf) często występuje w danym podzbiorze, jest jego do-brym dyskryminatorem. Praktyczne testy jednak tego nie potwierdziły, a ograni-czenia podejścia próbowano poprawić w następnym z proponowanych algoryt-mów.

Podejście sprytne(Hybrid Smart Approach)

Na początek, podobnie jak w podejściu naiwnym, dokumenty (grafy) zbioru uczącego były dzielone na grupy według ich znanych klas. Zaproponowano kilka metryk, pomagających znaleźć istotne podgrafy mogące zostać dobrze dyskrymi-nującymi cechami, opierając się w pewnym stopniu o popularną miarę TF-IDF.

SCF(gk⁰(c_i)) = g⁰_kf (ci) N (c_i) ^(2.17) ISF(g⁰k(c_i)) =                                log₂        X cj∈C j6=i N (cj) X cj∈C j6=i g_k⁰f (cj)        jeżeli X cj∈C j6=i g⁰_kf (cj) > 0 log₂      2 ^X cj∈C j6=i N (c_j)      jeżeli X cj∈C j6=i g⁰_kf (c_j) = 0 (2.18) CR(g⁰k(c_i)) = SCF(g⁰k(c_i)) · ISF(gk⁰(c_i)) _(2.19) Gdzie:

SCF(g⁰k(c_i))  częstość podgrafu gk⁰ w klasie ci(Sub-graph Class Frequency), g⁰_kf (ci)  liczba grafów zawierających podgraf g_k⁰ w klasie ci,

N (c_i)  liczba grafów w klasie ci,

ISF(gk⁰(c_i))  miara odwrotnej częstości podgrafu g⁰kw klasie ci(Inverse Sub-graph Frequency),

CR(g⁰_k(c_i))  współczynnik klasyfikowania podgrafu g_k⁰ w klasie ci(Classification Rate).

2.1. Przegląd metod klasyfikacji dokumentów 21

Interpretacją ostatniego z parametrów  CR(g⁰_k(c_i))  jest mierzenie przez niego jak dobrze podgraf g⁰kdyskryminuje klasę ci. Wartość ta osiąga swoje maksimum, gdy każdy graf w kategorii ci zawiera g⁰_k, a nie zawiera go żaden z grafów przy-pisanych do innych klas [Markov 2008]. W zastosowaniach tego algorytmu jako cechy wybierane były tylko podgrafy, dla których parametr ten wynosi wiecej niż CRmin.

Podejście naiwne z ustalonym progiem(Hybrid Naïve Approach with Fixed Threshold)

Ostatnie z rozpatrywanych podejść bazowało na metodzie przedstawionej powyżej, lecz dodawało kolejny próg  tmin. Aby podgraf został wybrany jako cecha, musiały być teraz spełnione jednocześnie dwa warunki:

• SCF (g⁰k(c_i)) > t_min • CR(g_k⁰(c_i)) > CR_min

Pierwszy z warunków został dodany, aby zredukować liczbę rzadkich podgrafów, które występowały pewną niewielką liczbę razy w danej klasie i nie pojawiały się praktycznie wogóle w pozostałych. Jak podają autorzy, wbrew oczekiwaniom  nie poprawiło to uzyskiwanych wyników, miało na nie niewielki wpływ, za to zmniejszyło liczbę cech i w efekcie nakład obliczeniowy.

Bazując na przedstawionych przez autorów wynikach [Markov 2005b,

Markov 2005a, Markov 2008], ocenić można, iż podejścia takie pozwalają na znaczną

poprawę efektów automatycznej kategoryzacji w porównaniu do prostego podejścia z workiem słów. W optymistycznych przypadkach, z zastosowaniem klasyfikatora C4.5, dokładność w porównaniu z modelem wektorowym rosła z 78% do 88%, 58% do 85% bądź 73% do 78%). Jednym z efektów podejścia naiwnego i sprytnego z ustalonym progiem było przyspieszenie czasu przetwarzania dokumentów. Mimo dodatkowego nakładu czasu potrzebnego na budowę modelu grafowego i wybór cech, ich zmniejszona liczba powodowała, że kolejne etapy trwały znacznie krócej i ostatecznie możliwe było nawet dwukrotne skrócenie czasu na przeprowadzenie wszystkich operacji. Podobne obserwacje przeprowadzono, gdy jako klasyfikator stosowany był naiwny klasyfikator bayesowski (z wyższymi wartościami bezwzględnymi dokładności).

2.1.4.5 Wydobywanie cech z użyciem modelu grafowego

Inne podejście do „dwupoziomowej” reprezentacji treści  czyli poprzez wektor cech wydobyty z reprezentacji grafowej zostało zaprezentowane przez Jianga, Coenena, San-dersona i Zito [Jiang 2009].

Do budowy grafu przedstawiającego treść danego dokumentu wykorzystywano in-formacje o stemach, częściach mowy, hipernimach i kolejności słów jak również o struk-turze, podziale oraz kolejności zdań. W grafie mogły występować węzły czterech rodza-jów:

1. Strukturalne  reprezentujące zdania (S) i ich wewnętrzną strukturę wyrażeń cza-sownikowych (VP), rzeczownikowych (NP) oraz przyimkowych (PP).

2.1. Przegląd metod klasyfikacji dokumentów 22

2. Części mowy  zawierające informację o częściach mowy danego słowa (zgodnie z

notacją Penna: JJ  czasownik, NN  rzeczownik, VB  czasownik, etc.).

3. Symboliczne  przedstawiające rzeczywiste słowa (symbole) występujące w tek-ście.

4. Semantyczne  ujmujące dodatkowe informacje o słowie, takie jak jego stem oraz inne, szersze znaczenia.

Każdy z węzłów posiadał unikalny identyfikator oraz etykietę. Łączył się on z inny-mi węzłainny-mi za pomocą następujących typów krawędzi:

1. hasChild  opisującą strukturę tekstu, np. gdy zdanie zawiera wyrażenie czasow-nikowe i wyrażenie rzeczowczasow-nikowe bądź rzeczownik i przymiotnik,

2. isToken  łączącą dany symbol (wyraz) z jego częścią mowy, 3. next  rejestrującą kolejność wyrazów i zdań w tekście, 4. stem  łączącą wyraz z jego rdzeniem,

5. hyp  łączącą z szerszym pojęciem (hipernimem).

Przykład zdania reprezentowanego z użyciem takiego modelu został przedstawio-ny na rysunku2.3.

Korzystając z powyżej zdefiniowanych właściwości, każde zdanie jest łączone z ko-lejnym za pomocą krawędzi next tworząc kompletną reprezentację dokumentu. Podob-nie jak w przypadku poprzednio prezentowanej metody, z tak przedstawionego mode-lu dokumentu wydobywane są często powtarzające się podgrafy jako pojedyncze cechy. W cytowanej pracy przedstawiona jest dość złożona metodologia, według której zostaje to zrealizowane, z wykorzystaniem podejścia WARM [Wang 2000,Tao 2003].

Do klasyfikacji stosowano kilka mechanizmów: TFPC [Coenen 2005], naiwny kla-syfikator bayesowski [Witten 2005] oraz klasyfikator C4.5 oparty o drzewa decyzyjne

[Witten 2005].

2.1.4.6 Analiza jedynie struktury dokumentu

Wśród alternatywnych podejść należy zwrócić uwagę na metody wykorzystujące jedy-nie informacje o strukturze dokumentuj (bez analizy samej jego treści). Oprzeć je można na hipotezie korelacji Bibera [Biber 1995], która postuluje, iż różne sytuacje językowe mają przypisane specyficzne cechy lingwistyczne (np. innym językiem posługuje się artykuł opisujący zdarzenie sportowe, a innym przedstawiający sytuację na giełdzie).

Przykład takiej metody prezentują prace Geibela, Mehlera, Pustylnikov et. al

[Geibel 2007,Mehler 2007], gdzie zademonstrowano praktyczne wykorzystanie tej

hi-potezy przy klasyfikacji dokumentów. Istota przedstawionej implementacji opiera się o analizę struktury drzewiastej DOM (Document Object Model) dokumentów (którymi były pliki XML bądź HTML). Wybierane były z niej cechy, które „spłaszczały” ją do po-staci wektora.

2.1. Przegląd metod klasyfikacji dokumentów 23

NP VP

DT JJ JJ NN VED

the quick brown fox

over jumped IN

mammal movement jump

next next next

next

hyp _hyp

stem the quick brown fox jumped over

Rysunek 2.3: Przykład grafu realizowanego zgodnie z metodą Jianga et al.,

za [Jiang 2009]

W pierwszej kolejności analizowany był poziom strukturalny (Structure Level)  czy-li informacja o położeniu w stosunku do całego dokumentu. Rozważanymi pozioma-mi były: akapit nagłówka, zdanie nagłówka, część, akapit oraz zdanie. Dla każdego z tych poziomów rozpatrywane były dwie właściwości:

• złożoność  liczba podpoziomów, • długość  liczba sąsiednich liści.

Następnie, dla każdej z tych właściwości, na każdym poziomie, znajdowane były:

W dokumencie Index of /rozprawy2/10905 (Stron 23-35)