Budowa modelu - Anotacja lingwistyczna - Uczenie ontologii z tekstu

Anotacja lingwistyczna

5.1 Budowa modelu

Pierwszym krokiem opracowanej metody jest konstrukcja modelu j¦zyka. Mo-del budowany jest w celu wykorzystania go w fazie wªa±ciwej ekstrakcji ter-minologii z tekstu. Budowa modelu jest caªkowicie zautomatyzowana, a jej wynikiem jest zbiór reguª ekstrakcji terminologii. Konstrukcja modelu skªada si¦ z szeregu nast¦puj¡cych po sobie faz omówionych w kolejnych sekcjach.

5.1.1 Modele prawdopodobie«stwa

Ekstrakcja terminologii jest funkcj¡ prawdopodobie«stwa (rozkªadem praw-dopodobie«stwa) P : F → [0, 1] wedªug aksjomatycznej denicji Koªmogoro-wa, poniewa»: • P (A_i) > 0 • P (Ω) = 1 • P (S2 i=1Ai) =P2 i=1P (Ai) gdzie:

A₁ oznacza zdarzenie, w którym wyra»enie jest terminem,

A₂ oznacza zdarzenie, w którym wyra»enie nie jest terminem,

W tworzeniu modeli lingwistycznych dla ekstrakcji terminologii nie u»y-wa si¦ jednak klasycznego modelu prawdopodobie«stu»y-wa, ponieu»y-wa» przeu»y-wa»- przewa»-nie posiada si¦ cz¦±ciow¡ wiedz¦ na temat wyników próby. Wiadomo np., »e analizowany wyraz nale»y do okre±lonej klasy cz¦±ci mowy, wiadomo rów-nie», »e znajduje si¦ w pewnym kontek±cie, znany jest w ko«cu jego symbol. Dlatego w przypadku konstrukcji modeli dla ekstrakcji terminologii mowa jest o prawdopodobie«stwie warunkowym, tj.:

P (A|B) = ^{P (A ∩ B)}

P (B) , dla P (B) > 0. (5.1)

Z powy»szego równania oraz z zachodz¡cej relacji symetryczno±ci pomi¦dzy zbiorami A i B (A ∩ B = B ∩ A) wynika, »e:

P (A ∩ B) = P (B)P (A|B) = P (A)P (B|A). (5.2) Uogólnienie tego równania dla n zdarze« jest podstawow¡ zasad¡ stosowan¡ przy budowie modelu (tzw. reguªa ªa«cuchowa):

P (A₁∩ . . . ∩ A_n) = P (A₁)P (A₂|A₁)P (A₃|A₁∩ A₂) . . . P (A_n| ∩n−1

i=1 A_i). (5.3) W wielu przypadkach warto±¢ P (A|B) jest trudna to oszacowania, pod-czas gdy warto±¢ P (B|A) jest albo dana, albo jej szacunek jest du»o prostszy. W takich przypadkach stosuje si¦ twierdzenie Bayesa, które w postaci uprosz-czonej wynika bezpo±rednio z równa« 5.1 oraz 5.2:

P (B|A) = ^{P (B ∩ A)}

P (A) ⁼

P (A|B)P (B)

P (A) ^. (5.4)

Uproszczona wersja twierdzenia Bayesa zakªada, »e P (A) jest znane. Nie zawsze jest to jednak ªatwe, dlatego mo»na oszacowa¢ warto±¢ P (A) przy po-mocy równania 5.2. Zakªadaj¡c, »e zdarzenie B jest dopeªnieniem zdarzenia

B, czyli B ∩ B = oraz B ∪ B = Ω:

P (A) = P (A ∩ B) + P (A ∩ B) = P (A|B)P (B) + P (A|B)P (B). (5.5) Uogólniaj¡c powy»sze równanie do dowolnej liczby zdarze« dziel¡cych zdarzenie A, takich »e A ⊆ ∩iB_i oraz Bi s¡ rozª¡czne, stwierdzamy »e:

P (A) =^X

P (A|B_i)P (B_i), (5.6)

a to z kolei daje ostateczny ksztaªt peªnemu twierdzeniu Bayesa:

P (Bj|A) = ^{P (A|B}^j^{)P (B}^j⁾

P (A) ⁼

P (A|Bj)P (Bj)

gdzie:

A ⊆ ∩n

iB_i, P (A) > 0, Bi∩ B_j = dla i 6= j.

W modelach opartych na teorii prawdopodobie«stwa wysoce niepraktycz-nie jest mówi¢ o konkretnych zdarzeniach, zwªaszcza w przypadku niepraktycz- nieregu-larnych przestrzeni zdarze«, które ró»ni¡ si¦ w zale»no±ci od stanu mode-lu. Zamiast wi¦c mówi¢ o grupie zdarze«, bardziej praktycznie jest mówi¢ o pewnych konkretnych warto±ciach, które te zdarzenia generuj¡. Dla przy-kªadu rzut sze±cienn¡ kostk¡ dwa razy wygodniej jest okre±la¢ prawdopodo-bie«stwem wyrzucenia liczby 10, ni» prawdopodoprawdopodo-bie«stwem sumy wszystkich trzech skªadaj¡cych si¦ na to zdarze« (tj. 4 i 6, 5 i 5, 6 i 4). Podobnie w przy-padku ekstrakcji terminologii interesuje nas prawdopodobie«stwo czy dane wyra»enie jest terminem czy nie. W tym stwierdzeniu niejako abstrahujemy od konkretnego stanu modelu, czyli wszystkich mo»liwych kombinacji zda-rze« maj¡cych na to wpªyw.

Dlatego niezwykle pomocnym poj¦ciem w ekstrakcji terminologii jest zmienna losowa, która jest funkcj¡ odwzorowuj¡c¡ zbiór Ω w zbiór liczb rze-czywistych, tj: X : Ω → Rn. W przypadku ekstrakcji terminologii mamy do czynienia z dyskretn¡ zmienn¡ losow¡, czyli funkcj¡: X : Ω → S, gdzie

S jest policzalnym podzbiorem R, a konkretniej z funkcj¡: X : Ω → {0, 1}, gdzie 0 oznacza, »e wyra»enie nie jest terminem, a 1 oznacza, »e wyra»enie jest terminem. Tak¡ posta¢ zmiennej losowej nazywa si¦ wska¹nikow¡ funkcj¡ losow¡ lub prób¡ Bernoullego.

5.1.2 Modele Markova

W ekstrakcji terminologii nie wystarczy, »e dokona si¦ analizy konkretnej warto±ci zmiennej losowej. Analiza terminologii polega na sekwencyjnej ana-lizie nast¦puj¡cych po sobie zda«, wyra»e«, cz¦±ci mowy lub jakiejkolwiek charakterystyce lingwistycznej, która zostanie uznana za odpowiednio dys-kryminuj¡c¡. Dlatego dla celów ekstrakcji terminologii mowa jest o analizie sekwencji nast¦puj¡cych po sobie zmiennych losowych. Sekwencja ta charak-teryzuje si¦ ponadto ograniczon¡ zale»no±ci¡ pomi¦dzy wyst¦puj¡cymi po so-bie zmiennymi losowymi. Oznacza to, »e konkretna zmienna losowa nie jest zale»na od wszystkich poprzedzaj¡cych warto±ci w sekwencji, lecz najcz¦±ciej tylko od zmiennej losowej bezpo±rednio j¡ poprzedzaj¡cej.

Zakªadaj¡c »e X = (X1, . . . , X_n)jest sekwencj¡ zmiennych losowych przy-bieraj¡c¡ warto±ci w sko«czonym zbiorze przestrzeni stanów S = s1, . . . , s_k, zaªo»enie Markova lub wªasno±¢ Markova mówi, »e:

Sko«czony horyzont zale»no±ci:

Model niezmienny w czasie (stacjonarny):

= P (X2 = sk|X₁). (5.9) Równanie 5.8 wªasno±ci Markova mówi o tym, »e konkretna zmienna loso-wa jest zale»na wyª¡cznie od zmiennej losowej bezpo±rednio j¡ poprzedzaj¡-cej. Równanie 5.9 mówi natomiast o niezmiennych charakterze modelu, czyli o tym, »e parametry modelu nie ulegaj¡ zmianie. Oba te zaªo»enia s¡ bar-dzo restrykcyjne, poniewa» w bezpo±rednim przeªo»eniu zmiennych losowych na wyrazy wyst¦puj¡ce w tek±cie klasykacja terminów zale»y od wi¦cej ni» tylko jednego poprzedzaj¡cego wyrazu. Wªasno±¢ t¦ jednak mo»na ªatwo uzy-ska¢ odpowiedni¡ konstrukcj¡ zmiennych losowych nie jako poszczególne wy-razy, lecz odpowiednie wyra»enia. Dalsza cz¦±¢ tej dyskusji nast¡pi w sekcji nast¦pnej, przy okazji omawiania budowym modeli n-gram. Druga z wªa-sno±ci Markova jest w analizie lingwistycznej do zaakceptowania, poniewa» konstrukcje u»yte w j¦zyku (nie samo sªownictwo) zmienia si¦ na tyle rzadko, »e zmiany te mo»na pomin¡¢.

Modelem lub ªa«cuchem Markova nazywa si¦ sekwencj¦ zmiennych loso-wych, która speªnia wªasno±¢ Markova.

W analizie j¦zyka wyró»nia si¦ dwa typy modeli Markova: widoczne mode-le Markova oraz ukryte modemode-le Markova. Omawiane dot¡d modemode-le to widocz-ne modele Markova. Ukryte modele Markova ró»ni¡ si¦ jedynie istnieniem do-datkowej tzw. ukrytej warstwy, czyli zbioru parametrów, które nie s¡ znane, a na ich podstawie musi zosta¢ oszacowana zmienna losowa. Widoczny jest jedynie efekt ukrytej warstwy. W przypadku analizy j¦zyka, ukryte modele Markova mog¡ by¢ u»yte np. wtedy, gdy znana jest klasa cz¦±ci mowy (np. poprzez analiz¦ skªadni wyra»enia), a na jej podstawie nale»y oszacowa¢ wy-raz. W przypadku jednak ekstrakcji terminologii oraz istniej¡cej informacji lingwistycznej, ukrytej warstwy po prostu nie ma. Z tego powodu zastosowa-nie ukrytych modeli Markova zastosowa-nie zostaªo zbadane.

5.1.3 Model n-gram

Fundamentalnym problemem przy budowaniu modeli opartych na wniosko-waniu statystycznym jest odpowiedni dobór cech dyskryminuj¡cych. Problem polega na konieczno±ci kompromisu pomi¦dzy przydatno±ci¡ a stopniem dys-kryminacji modelu. Na przykªad w klasycznym zadaniu predykcji nast¦p-nego wyrazu w zdaniu, klasy dyskryminuj¡ce mo»na zbudowa¢ w oparciu na 10. poprzedzaj¡cych wyrazach. Zdolno±¢ dyskryminacji takiego modelu spowoduje, »e je±li kiedykolwiek pojawi si¦ taka sama sekwencja 10 wyra-zów, to z du»ym prawdopodobie«stwem model sprawdzi si¦. Problem jed-nak w tym, »e prawdopodobie«stwo wyst¡pienia takiej sekwencji jest bardzo

niskie. Dziel¡c zatem zbiór wszystkich mo»liwych sekwencji w ten sposób uzyskany model jest tyle» dyskryminuj¡cy, co zupeªnie nieprzydatny.

Klasyczne zadanie predykcji nast¦pnego wyrazu w zdaniu jest funkcj¡ prawdopodobie«stwa:

P (w_n|w₁, . . . , w_n−1). (5.10) W opracowanym modelu ekstrakcji terminologii zadanie klasykacji ter-minu dla wyrazu lub sekwencji wyrazów wn, jest funkcj¡ prawdopodobie«-stwa warunkowego opart¡ na cz¦±ciach mowy (posn) dla poszczególnych wy-razów lub sekwencji wywy-razów:

P (X) = P (term_k|pos₁, . . . , pos_n), (5.11) gdzie:

n oznacza liczb¦ w¦zªow modelu n-gram,

k oznacza pozycj¦ w¦zªa oznaczonego jako termin, 1 ¬ k ¬ n,

term oznacza w¦zeª oznaczony jako termin,

posoznacza w¦zeª reprezentowany poprzez znacznik cz¦±ci mowy. Ponadto opracowany model zakªada wªasno±¢ Markova (równanie 5.8 lub 5.9) w celu rozwi¡zania problemu konstrukcji odpowiednich klas dyskrymina-cyjnych. Zaªo»enie, »e stan konkretnej zmiennej losowej zale»y od wszystkich j¡ poprzedzaj¡cych w analizowanej sekwencji (czyli np. dokumencie), jest mo-»e dopuszczalne, ale prowadzi do problemu nadmiernej dyskryminacji. Z tego powodu zaªo»ono, »e zmienna losowa zale»y wyª¡cznie od warto±ci poprzed-niej. Drugie zaªo»enie modelu Markova jest równie» prawdziwe, poniewa» w analizowanym okresie model jest niezmienny.

Model n-gram jest niczym innym jak modelem Markova stopnia n − 1. Stopie« obu modeli oznacza dªugo±¢ analizowanej sekwencji, tzn. je»eli ana-lizowane s¡ dwie zmienne losowe w sekwencji, mowa jest o modelu Markova stopnia 1. (jeden stan poprzedzaj¡cy) lub modelu n-gram opartym na gra-mach skªadaj¡cych si¦ z 2 elementów. Notacja modeli n-gram jest na tyle popularna, »e sekwencje zmiennych losowych modelu n-gram stopnia 1. na-zywa si¦ unigramami, stopnia 2. bigramami, stopnia 3. trigramami, itd.

5.1.4 Budowa okna

Z analizowanego tekstu dla ka»dego klasykowanego wyrazu pozyskiwane jest tzw. okno kontekstowe. Okno kontekstowe jest symetryczne w stosunku do terminu i skªada si¦ z parzystej liczby wyrazów kontekstowych plus termin. Termin jest zawsze elementem ±rodkowym. Konstrukcja okna kontekstowego dla przykªadowego wyra»enia przedstawiona jest na rysunku 5.2.

Rysunek 5.2: Budowa okna o rozmiarze 3 dla terminu KMi w wyra»eniu przedstawia nowszy IBM Blade Center

W zwi¡zku z tym, »e metoda umo»liwia ekstrakcj¦ terminów wieloczªo-nowych, sam termin mo»e skªada¢ si¦ z wielu wyrazów. Sposób reprezentacji oraz budowa okna nie zmienia si¦ w porównaniu z rysunkiem 5.2, z wyj¡t-kiem sposobu reprezentacji samego terminu (rysunek 5.3). Sposób reprezen-tacji kontekstu terminu nie ulega równie» zmianie, z wyj¡tkiem przesuni¦cia si¦ okna o liczb¦ wyrazów równ¡ liczbie wyrazów terminu wieloczªonowego -1. Rozmiar okna jest wi¦c funkcj¡:

f (n, size_term) = 2n + size_term, (5.12) gdzie:

n jest liczb¡ tokenów kontekstowych przylegaj¡cych do terminu (z ka»dej strony),

size_term oznacza rozmiar terminu, czyli liczb¦ wyrazów (toke-nów).

Budowa okna kontekstowego umo»liwia analiz¦ wyrazów wyst¦puj¡cych za-równo przed analizowanym wyrazem, jak i po nim.

5.1.5 Budowa n-gramów

Zgodnie z równaniem 5.11 oraz jego rozwini¦ciem (równanie 5.13) n-gramy musz¡ by¢ zbudowane dla dwóch typów sekwencji:

• pos₁, . . . , pos_n,

• term_k|pos₁, . . . , pos_n.

W powy»szych sekwencjach n jest zarówno liczb¡ w¦zªów w n-gramach, co wynika z równania 5.11, jak równie» rozmiarem okna kontekstowego, co wynika z budowy modelu.

O ile pierwszy typ sekwencji jest standardowy, drugi przypadek niesie ze sob¡ wiele problemów. Wynikaj¡ one z tego, »e sekwencja zawiera dwa poziomy wªa±ciwo±ci analizowanej próby. Oprócz znaczników cz¦±ci mowy

pojawiaj¡ si¦ wskazania eksperta zwi¡zane z klasykacj¡ terminów. Chc¡c zachowa¢ jednorodno±¢ postaci, nale»y w taki sposób zbudowa¢ n-gramy, aby mo»na byªo w jednorodny sposób traktowa¢ oba te poziomy.

Zasadnicz¡ wªa±ciwo±ci¡ budowanych n-gramów jest to, »e s¡ one oparte nie na wyrazach, lecz znacznikach cz¦±ci mowy. Oparcie n-gramów na wyra-zach doprowadziªoby do problemów wynikaj¡cych ze zbyt du»ej dyskrymina-cji. Zastosowanie znaczników POS daje zamkni¦ty zbiór cech reprezentuj¡-cych tekst.

Istniej¡ dwie zasadnicze metody kontrukcji modelu n-gram dla danego okna kontekstowego. Model mo»e by¢ oparty na n-gramach jednorodnych lub niejednorodnych. Jednorodno±¢ oznacza ten sam stopie« n-gramów. W przy-padku modelu opartego na n-gramach jednorodnych powstan¡ n-gramy okre-±lonego poziomu. W przypadku modelu opartego na n-gramach niejednorod-nych powstan¡ n-gramy od stopnia pierwszego (unigramy), a» po stopie« rów-ny rozmiarowi okna kontekstowego (zgodnie ze wzorem 5.12). W obu przy-padkach problemem jest wybór odpowiedniego poziomu n-gramów. W mode-lu jednorodnym problem ogranicza si¦ do stwierdzenia poziomu w momencie kongurowania modelu. Dla ró»nych poziomów eksperymenty mo»na powta-rza¢, a» do uzyskania najlepszych wyników. W modelu niejednorodnym pro-blem przesuwa si¦ do etapu wa»enia wyników uzyskanych z n-gramów o ró»-nych poziomach. W obu przypadkach nale»y parametr ten optymalizowa¢. Do eksperymentów wykorzystano model oparty na n-gramach jednorodnych. Oznacza to, »e dla okna kontekstowego o rozmiarze n powstaj¡ n-gramy po-ziomu n-1.

W zwi¡zku z konstrukcj¡ okna kontekstowego n-gramy posiadaj¡ ró»ne umiejscowienie analizowanego terminu. W przypadku ogólnym termin mo»e wyst¡pi¢ na ka»dej pozycji w n-gramie. Dla okna kontekstowego o rozmia-rze 3 powstan¡ dwa bigramy, jeden z terminem na drugiej pozycji, drugi z terminem na pozycji pierwszej.

W przypadku tworzenia modelu jednorodnego istnieje jeszcze jedna mo»li-wo±¢ post¦powania. Dla zadanego okna kontekstowego mo»na stworzy¢ wiele modelów jednorodnych, a nast¦pnie zintegrowa¢ uzyskane wyniki, czyli praw-dopodobie«stwo klasykacji terminu. Stopie« modelu n-gram, który zosta-nie uznany za daj¡cy wystarczaj¡ce wyniki, mo»e by¢ dobierany dynamicz-nie, a wraz z nim rozmiar analizowanego okna kontekstowego. St¡d odmiana ta mo»e zosta¢ nazwana metod¡ dynamicznego okna kontekstowego.

W przedstawionym modelu wykorzystano n-gramy jednorodne z mo»liwo-±ci¡ konguracji rozmiaru okna. Wynik budowy n-gramów dla przykªadowe-go wyra»enia, w którym terminem jest wyra»enie IBM Blade, przedstawiono na rysunku 5.3. W wyniku analizy wyra»enia powstaªo okno trzy-elementowe

Rysunek 5.3: Budowa n-gramów dla okna kontekstowego o rozmiarze 3 oraz terminu wieloczªonowego IBM Blade w wyra»eniu nowszy IBM Blade Cen-ter

liczba max stopie«

rozmiar wyrazów modelu modelu stopie«

okna kontekst n-gram Markova n-gramów n-gramy

1 0 1 0 1 pos_k

3 1 3 1 2 pos_k−1, pos_k

posk, posk+1

5 2 5 2 3 posk−2, posk−1, posk

pos_k−1, pos_k, pos_k+1 pos_k, pos_k+1, pos_k+2

Tabela 5.1: Zale»no±ci pomi¦dzy podstawowymi wªa±ciwo±ciami modelu opar-tego na oknie kontekstowym

(termin w caªo±ci stanowi jeden w¦zeª), a nast¦pnie dwa bigramy (ponownie termin jest traktowany jako jeden w¦zeª).

Ogólne zale»no±ci pomi¦dzy rozmiarem okna, poziomem n-gramów oraz modelu Markova, a tak»e liczb¡ i struktur¡ n-gramów zostaªy przedstawione w tabeli 5.1.

5.1.6 Reprezentacja terminów wieloczªonowych

W przypadku terminów wieloczªonowych pojawia si¦ problem ich reprezen-tacji w modelu. Reprezentacja terminu wieloczªonowego w modelu wymaga dodania informacji o statusie w¦zªa modelu jako termin, tzw. agi terminu oraz reprezentacji caªo±ci terminu. Operacja ta powoduje potrzeb¦ zmiany sposobu reprezentacji modelu.

Je±li w¦zªem w n-gramie nazywa¢ b¦dziemy najmniejsz¡ jednostk¦ ana-lizy w modelu n-gram, to termin wieloczªonowy mo»na przedstawi¢ na dwa sposoby:

• ka»dy token w terminie jako osobny w¦zeª lub • caªy termin jako jeden w¦zeª.

Przykªadow¡ sekwencj¦ W celu analiz . mo»na przedstawi¢ przy pomocy modelu POS n-gram dla przypadku pierwszego jako:

IN, [term : N N ], [term : N N S]

oraz dla przypadku drugiego:

IN, [term : N N, N N S], P U N CT

Pierwszy przypadek reprezentacji terminów wieloczªonowych upodabnia mo-del do reprezentacji jednoczªonowych terminów, a przez to nie powoduje ko-nieczno±ci jego przebudowy. Drugi przypadek jest jednak bardziej intuicyjny, poniewa»:

• dokªadniej odzwierciedla klasykacj¦ eksperta to przecie» sekwencja zostaªa oznaczona jako termin, a nie poszczególne wyrazy,

• nie powoduje znieksztaªcenia okna kontekstowego po obu stronach terminu wieloczªonowego pozostaje taka sama liczba wyrazów kontek-stowych,

• nie powoduje konieczno±ci analizy dªugo±ci samego terminu, a przez to upraszcza model niezale»nie od dªugo±ci terminu pozostaje on tyl-ko pojedynczym w¦zªem w modelu.

Ze wskazanych powodów dla przedstawionej metody wybrany zostaª drugi przypadek reprezentacji terminów wieloczªonowych, tj. reprezentacja caªego terminu jako jeden w¦z¦ª w modelu n-gram. Niestety, wybór ten implikuje, »e porównanie elementów n-gramów nie jest oczywiste, na przykªad:

[term : N N, N N ] 6= [term : N N ] 6= [term : N N ], N N.

Dlatego dla porównywania w¦zªa n-gramu oznaczonego jako termin nale»y wzi¡¢ pod uwag¦ dªugo±¢ terminu oraz znacznik POS z ka»dej jego pozycji.

5.1.7 Nazwy wªasne i byty nazwane

Sposób reprezentacji bytów nazwanych (ang. Named Entities) odbywa si¦ przewa»nie na jeden z dwóch sposobów. Po pierwsze, poprzez wydzielone elementy w strukturze pliku. Po drugie, poprzez odpowiedni¡ klas¦ znaczni-ków POS.

Reprezentacja poprzez wydzielone elementy jest niezale»na od informacji morfosyntaktycznych. Jest to niezaprzeczalna zaleta w przypadku ekstrakcji informacji, gdzie ¹ródªowa informacja morfosyntaktyczna mo»e by¢ przydat-na przydat-na wielu etapach aprzydat-nalizy. Z punktu widzenia ekstrakcji terminologii taka reprezentacja jest jednak nadmiarowa, ponadto komplikuje struktur¦ pliku.

Reprezentacja poprzez znaczniki cz¦±ci mowy polega na istnieniu klasy POS, która wskazuje na nazwy wªasne. Nazwy wªasne nie s¡ jednak rów-noznaczne z bytami nazwanymi. W ekstrakcji informacji przyj¦ªo si¦, »e na-zwy wªasne tylko wskazuj¡ na byty nazwane (Appelt i Israel, 1999). Ró»nica ta jest podobna do relacji pomi¦dzy terminem a poj¦ciem, poniewa» nazwa wªasna jest symbolem potencjalnie wskazuj¡cym na byt nazwany. Oczywi±cie w wi¦kszo±ci przypadków nazwa wªasna oznacza równie» byt nazwany i dla celów innych dyscyplin ni» ekstrakcja informacji, zaªo»enie to jest powszech-nie przyjmowane. Wynika to cho¢by z prostej przyczyny, »e zbiory znaczni-ków zawieraj¡ wªa±nie nazwy wªasne. Reprezentacja bytów nazwanych po-przez znaczniki POS jest znacznie prostsza w przetwarzaniu, poniewa» nazwa wªasna jest po prostu jedn¡ z klas cz¦±ci mowy.

Przes¡dzaj¡cym argumentem na korzy±¢ wykorzystania reprezentacji by-tów nazwanych poprzez znaczniki POS jest fakt, »e wszystkie popularne kla-sykatory POS znakuj¡ tekst do postaci nazw wªasnych. Wykorzystanie tej formy reprezentacji jest wi¦c bardziej rozpowszechnione i zostaªo zastosowane w przedstawianej metodzie.

W dokumencie Uczenie ontologii z tekstu (Stron 135-144)