• Nie Znaleziono Wyników

Procesy anotacyjne

W dokumencie Uczenie ontologii z tekstu (Stron 122-127)

Anotacja lingwistyczna

4.1 Procesy anotacyjne

Model behawioralny anotacji tworz¡ procesy anotacyjne. Procesy anotacyjne maj¡ na celu uruchomienie ±ci±le okre±lonych procesów na tek±cie w j¦zyku naturalnym. Wej±ciem do procesu anotacji jest czysty tekst, niezawieraj¡cy »adnych informacji dodatkowych oraz nieposiadaj¡cy jawnie »adnej struktu-ry. Tekst w j¦zyku naturalnym posiada oczywi±cie niejawn¡ struktur¦ wyni-kaj¡c¡ z gramatyki danego j¦zyka. Wªa±nie ta ukryta warstwa jest bardzo interesuj¡ca dla metamodelu uczenia ontologii.

Procesy anotacyjne d¡»¡ do stworzenia zbioru anotacji w pewnym stan-dardzie (struktura anotacji). Opis poszczególnych standardów anotacji znaj-duje si¦ w sekcji 4.2.

Przedstawione procesy anotacyjne s¡ oferowane przez znaczn¡ liczb¦ na-rz¦dzi lingwistycznych. Ich zestawienie wykracza poza ramy niniejszej pracy; zainteresowani odesªani s¡ do dobrze zapowiadaj¡cego si¦ portalu informa-cyjnego projektu OntoWeb1.

Do najwa»niejszych procesów anotacyjnych nale»¡ w kolejno±ci stosowa-nia:

1. Cz¦±ci mowy i morfologia. 2. Analiza syntaktyczna. 3. Analiza semantyczna.

4.1.1 Cz¦±ci mowy i morfologia

Lingwi±ci grupuj¡ wyst¦puj¡ce w danym j¦zyku naturalnym wyrazy wedªug klas charakteryzuj¡cych si¦ podobnym zachowaniem syntaktycznym. Kla-sy te nazywaj¡ si¦ kategoriami gramatycznymi lub Kla-syntaktycznymi, równie» znane jako cz¦±ci mowy (POS  Part of Speech). W warstwie syntaktycznej cz¦±ci mowy wyst¦puj¡ przewa»nie w okre±lonym kontek±cie zdaniowym, np. rodzajnik przed rzeczownikiem. W warstwie semantycznej cz¦±ci mowy prze-wa»nie peªni¡ podobn¡ rol¦  czasowniki lub grupy czasowników przeprze-wa»nie peªni¡ funkcj¦ orzeczenia w zdaniu.

Analiza cz¦±ci mowy i morfologii skªada si¦ z dwóch procesów: analizy cz¦±ci mowy oraz analizy morfologicznej. Oba procesy wzajemnie si¦ prze-nikaj¡, tj. znajomo±¢ POS uªatwia analiz¦ morfologiczn¡, natomiast sama analiza cz¦sto jest najlepsz¡ metod¡ poprawnej klasykacji POS.

Analiza cz¦±ci mowy jest problemem klasykacyjnym. Posiadaj¡c sko«-czony zbiór klas cz¦±ci mowy problem polega na przyporz¡dkowaniu ka»dego wyrazu do dokªadnie jednej klasy. Istniej¡ dwie grupy metod analizy cz¦-±ci mowy: metody reguªowe oraz metody statystyczno-stochastyczne. Meto-dy reguªowe s¡ oparte na reguªach, np.: ka»Meto-dy wyraz ko«cz¡cy si¦ na -ing jest czasownikiem. Metody te s¡ zale»ne od j¦zyka naturalnego. Niestety, wi¦kszo±¢ narz¦dzi oparta jest w cz¦±ci na metodach reguªowych, co tworzy powa»ne problemy w wykorzystaniu narz¦dzi w wi¦cej ni» jednym j¦zyku naturalnym. Metody statystyczno-stochastyczne oparte s¡ b¡d¹ na cz¦sto-±ci wyst¦powania wyrazów oraz cz¦cz¦sto-±ci mowy w poszczególnych kontekstach zdaniowych, b¡d¹ na modelach prawdopodobie«stwa szacuj¡cych prawdopo-dobie«stwo wyst¡pienia danej klasy na podstawie cech kontekstu.

Tradycyjnie wyró»nia si¦ osiem podstawowych cz¦±ci mowy. Dla celów analizy lingwistycznej potrzeba jednak znacznie bardziej szczegóªowej kla-sykacji dlatego opracowano tzw. zbiory znaczników POS. Zbiory znaczni-ków POS zawieraj¡ zamkni¦ty zbiór znaczniznaczni-ków okre±laj¡cych klas¦ wyra-zu. Wszystkie systemy znaczników POS opieraj¡ si¦ na standardowym po-dziale cz¦±ci mowy, co oznacza, »e podstawowe typy wyrazów mog¡ zosta¢ przeniesione pomi¦dzy zbiorami wska¹ników. Na przykªad, czasownik zawsze

Korpus Liczba znaczników Brown (Francis i Kucera, 1979) 87 Penn Treebank (Marcus i in., 1993) 45 Susanne (Sampson, 1995) 353 CLAWS1 (Garside i Smith, 1997) 132 CLAWS2 (Garside i Smith, 1997) 166 CLAWS5 (Garside i Smith, 1997) 62 London-Lund (Greenbaum i Svartvik, 1990) 197

Tabela 4.1: Najpopularniejsze zbiory znaczników POS dla j¦zyka angielskiego

Klasa wyrazu Wyraz Brown Penn c5 przymiotnik happy JJ JJ AJ0 rzeczownik data NN NN NN0 czasownik take VB VB VVI przyimek TO to IN TO PRP

Tabela 4.2: Porównanie trzech zbiorów znaczników POS

oznacza t¦ sam¡ klas¦ wyrazów, wyró»nia si¦ natomiast ró»ne typy samego czasownika.

W tabeli 4.1 przedstawiono najpopularniejsze systemy znaczników POS dla j¦zyka angielskiego. Najstarszym systemem znakowania POS jest Brown. Najcz¦±ciej u»ywanym jest Penn Treebank. Wywodz¡cy si¦ z Penn Treebank system Susanne posiada z kolei najbardziej szczegóªowy podziaª znaczników. Dla celów uczenia ontologii najwa»niejszym czynnikiem jest popularno±¢ sys-temu znakowania. Im system jest bardziej powszechny, tym wi¦ksza szansa na wi¦ksz¡ liczb¦ zaanotowanego tekstu oraz wykorzystuj¡cych go narz¦dzi. W tabeli 4.2 przedstawiono porównanie nazewnictwa znaczników POS tych samych klas wyrazów dla j¦zyka angielskiego. Widoczny jest du»y sto-pie« unikacji standardów znaczników POS. Najwa»niejsze klasy oznaczone s¡ identycznymi znacznikami, zwªaszcza w przypadku zbiorów Brown i Penn Treebank. Im jednak bardziej szczegóªowa klasa, tym ró»nic jest coraz wi¦cej. Analiza morfologiczna to dziedzina przetwarzania tekstu naturalnego zaj-muj¡ca si¦ ró»nymi formami wyrazów. Cz¦±ci mowy wyst¦puj¡ bowiem w nych odmianach: rzeczowniki poddane s¡ eksji, czasowniki wyst¦puj¡ w ró»-nych czasach, przymiotniki w ró»ró»-nych stopniach. Morfologia to dziedzina zaj-muj¡ca si¦ analiz¡ ró»nych odmian danej cz¦±ci mowy.

J¦zyki naturalne charakteryzuj¡ si¦ znacz¡co ró»n¡ morfologi¡. J¦zyk an-gielski jest pod tym wzgl¦dem j¦zykiem niezwykle prostym, np. czasownik w formie podstawowej mo»e wyst¡pi¢ tylko w czterech formach. W zasa-dzie wszystkie inne j¦zyki naturalne s¡ znacznie trudniejsze w przetwarzaniu

morfologicznym. Zwªaszcza j¦zyki sªowia«skie, w tym j¦zyk polski, charakte-ryzuj¡ si¦ du»¡ zªo»ono±ci¡ morfologiczn¡.

Analiza morfologiczna skªada si¦ z trzech gªównych procesów: analizy eksyjnej, derywacji oraz skªadania wyrazów. Fleksja to dziaª gramatyki zaj-muj¡cy si¦ odmian¡ wyrazów. Analiza eksyjna powoduje zasilenie zbioru anotacji o informacje dotycz¡ce modykacji formy podstawowej, czyli lema-tu. Fleksja nigdy nie zmienia klasy wyrazu, znaczenie modykuje bardzo nieznacznie. Cz¦±ci¡ analizy eksyjnej jest sprowadzenie wyrazu do formy podstawowej. Fleksja wyrazu jest zale»na od cz¦±ci mowy, np. dla rzeczow-nika dotyczy:

• liczby  liczba pojedyncza lub mnoga, • pªci  rodzaj m¦ski, »e«ski, nijaki,

• przypadku  mianownik, dopeªniacz, celownik, biernik, . . .

Derywacja to proces transformacji z formy podstawowej i znacznie cz¦±ciej powoduje zmian¦ zarówno cz¦±ci mowy, jak i znaczenia. Analiza derywacyjna sprawdza, czy wyraz powstaª z innej formy i nie jest jego odmian¡. Na przy-kªad przysªówek szeroko jest derywacj¡ przymiotnika szeroki. Sprzy-kªadanie wy-razów dotyczy sytuacji, w której dwa lub wi¦cej wyrazy zostaj¡ poª¡czone w jedn¡ caªo±¢ nios¡c¡ ze sob¡ odr¦bne znaczenie (np. downtown).

Wyzwania stawiane przez analiz¦ cz¦±ci mowy i morfologi¦ dla j¦zyka an-gielskiego ograniczaj¡ si¦ do posiadania odpowiedno du»ego sªownika. Jedy-nym problemem wydaje si¦ by¢ wieloznaczno±¢ wyrazów, tj. sytuacji, w któ-rych skªadniowo ten sam wyraz ma ró»ne znaczenia. Na przykªad angielski wyraz train znaczy zarówno trenowa¢, jak i poci¡g, w zwi¡zku z tym mo»e przynale»e¢ do dwóch ró»nych klas cz¦±ci mowy. Narz¦dzia oferuj¡ce analiz¦ cz¦±ci mowy osi¡gaj¡ skuteczno±¢ na poziomie 98%.

4.1.2 Analiza syntaktyczna

Wyrazy nie pojawiaj¡ si¦ w tek±cie w sposób caªkowicie przypadkowy. Ka»dy j¦zyk naturalny nakªada ograniczenia na porz¡dek wyst¦powania klas wyra-zów. Ponadto, pewne grupy klas wyrazów wyst¦puj¡ nader cz¦sto razem two-rz¡c struktury zwane wyra»eniami (ang. phrases lub chunks). Na przykªad statystycznie cz¦sto przed czasownikiem w formie podstawowej wyst¦puj¡ wyra»enia wskazuj¡ce na podmiot w zdaniu. Wyra»enia s¡ wi¦c grupami wyrazów o podobnych wªa±ciwo±ciach syntaktycznych, wyst¦puj¡cych staty-stycznie cz¦sto i peªni¡cych w zdaniu ª¡czn¡ funkcj¦.

Analiza syntaktyczna zajmuje si¦ analiz¡ regularno±ci oraz ogranicze« w porz¡dku wyrazów oraz struktury wyra»e«. Analiza syntaktyczna poma-ga zrozumie¢ znaczenie zdania bior¡c pod uwag¦ znaczenie poszczególnych wyrazów. Na przykªad oba zdania:

UniCredito przej¦ªo bank BPH, BPH przej¦ªo bank UniCredito

u»ywaj¡ dokªadnie takich samych wyrazów, a jednak ich znaczenie jest ró»-ne. To wªa±nie porz¡dek wyrazów decyduje o znaczeniu. Przykªad ten przed-stawia równie» ograniczenia j¦zyka naturalnego. Pojawienie si¦ rzeczownika po czasowniku jest dopuszczalne, podczas gdy pojawienie si¦ kolejnego cza-sownika (np. BPH przej¦ªo sprzedaªo) jest niedopuszczalne.

Porz¡dek wyrazów w zdaniu wzgl¦dnie ªatwo jest bada¢ w j¦zyku na-turalnym o ustabilizowanym porz¡dku wyrazów (np. j¦zyk angielski). Du-»o trudniej jest bada¢ zachowania w porz¡dku wyrazów j¦zyka naturalnego, który charakteryzuje dowolny szyk zdania. Przykªadami j¦zyków naturalnych o dowolnym szyku zdania s¡ j¦zyki niemiecki i polski.

Na podstawie porz¡dku wyrazów powstaj¡ wyra»enia. Do najwa»niej-szych wyra»e« nale»¡:

Wyra»enia rzeczownikowe. W zdaniu rzeczownik najcz¦±ciej jest otoczo-ny przez inne wyrazy, które go uzupeªniaj¡ (np. chytry i przebiegªy lis c¦tkowany) i tworz¡ w ten sposób wyra»enie jednorodne znaczeniowo. Wyra»enia rzeczownikowe posiadaj¡ gªow¦ wyra»enia, które stanowi sam rzeczownik oraz wyrazy go modykuj¡ce. Wyra»enie rzeczowniko-we jest najcz¦±ciej argumentem orzeczenia zdania.

Wyra»enia przyimkowe. Zgrupowane wyrazy peªni¡ce funkcj¦ dopeªnie-nia wyra»edopeªnie-nia rzeczownikowego.

Wyra»enia czasownikowe. Grupa wyrazów otaczaj¡ca czasownik i peª-ni¡ca jednorodn¡ funkcj¦ w zdaniu. Podobnie jak wyra»enie rzeczow-nikowe, posiada gªow¦ b¦d¡c¡ czasownikiem.

Wyra»enia przysªówkowe. Rzadziej wyst¦puj¡ce, peªni¡ funkcj¦ dopeª-nienia wyra»enia czasownikowego.

4.1.3 Analiza semantyczna

Analiza semantyczna pozwala zrozumie¢ znaczenie zdania na podstawie zna-czenia poszczególnych wyrazów i wyra»e«. Wykorzystuje przy tym analiz¦ syntaktyczn¡, której wynikiem s¡ wyra»enia w zdaniu. Analiza semantyczna

polega na analizie wyra»e« i traktuje je jako jednorodn¡ caªo±¢. Wyra»enia w zdaniu peªni¡ okre±lone funkcje gramatyczne, np. wyra»enie czasownikowe jest cz¦sto orzeczeniem zdania, a wyra»enie rzeczownikowe podmiotem. Wy-nikiem analizy semantycznej na poziomie procesu anotacyjnego jest zatem okre±lenie funkcji gramatycznych wyra»e«.

W dokumencie Uczenie ontologii z tekstu (Stron 122-127)