• Nie Znaleziono Wyników

Standardy anotacji

W dokumencie Uczenie ontologii z tekstu (Stron 127-130)

Anotacja lingwistyczna

4.2 Standardy anotacji

W podej±ciach do formalizacji i uczenia ontologii stosuje si¦ ró»ne statyczne modele reprezentacji tekstu. Tekst w swojej ¹ródªowej postaci skªada si¦ wy-ª¡cznie ze znaków. Przetwarzanie tekstu w takiej postaci jest jednak wysoce nieefektywne. Przy wykonywaniu jakichkolwiek operacji na czystym tek±cie pojawia si¦ dodatkowo potrzeba przechowywania metadanych tekstu. W ten sposób powstaje potrzeba tworzenia standardów anotacji.

Standard anotacji powinien umo»liwia¢ przechowywanie oraz efektywny dost¦p do co najmniej nast¦puj¡cych elementów:

• tekst ¹ródªowy, który mo»e by¢ odtworzony bez zb¦dnych mechani-zmów dodatkowych,

• metadane wynikaj¡ce ze struktury logicznej tekstu (np. podziaª na zda-nia, wyrazy)  struktura ta jest wynikiem dziaªania procesów anota-cyjnych (por. 4.1),

• metadane wynikaj¡ce z wªa±ciwo±ci poszczególnych elementów lingwi-stycznych (np. lemat tokena)  wªa±ciwo±ci te s¡ równie» wynikiem dziaªania procesów anotacyjnych.

Standardy anotacji nie s¡ ze sob¡ kompatybilne. Przenoszenie informacji pomi¦dzy nimi jest w praktyce mo»liwe, ale rzadko uzyskuje si¦ satysfak-cjonuj¡ce wyniki, zarówno z powodu ró»nic wynikaj¡cych z dopuszczalnej struktury logicznej, jak i dopuszczalnych typów oraz zakresu wªa±ciwo±ci lin-gwistycznych. Opracowuj¡c metody uczenia ontologii nale»y wi¦c dokona¢ wyboru formatu anotacji. Jest to jeden z najbardziej kluczowych wyborów, poniewa» deniuje zarówno ekspresywno±¢ anotacji, jak i u»yteczno±¢ w prze-twarzaniu. Istnieje pi¦¢ kluczowych przesªanek wyboru standardu anotacji: Saturacja standardu. Im standard jest bardziej rozpowszechniony, tym

wi¦cej narz¦dzi oraz metod na nim operuje  przestrze« badawcza jest tym wi¦ksza.

Ekspresywno±¢ deniuje jak wiele mo»na wyrazi¢. Na przykªad: czy stan-dard pozwala tylko na okre±lony typ anotacji? Czy mo»na typy anotacji deniowa¢ w sposób dowolny? Czy standard umo»liwia przedstawienie wszystkich niezb¦dnych do analizy danych?

Otwarto±¢ powoduje, »e standard mo»na wykorzysta¢ w zasadzie z ka»dym otwartym narz¦dziem. Jest to kluczowa cecha, poniewa» par narz¦dzie-standard jest tyle ile narz¦dzi.

Mo»liwo±¢ ewaluacji. Standard anotacji musi umo»liwia¢ rzeteln¡ ewalu-acj¦ przeprowadzanych prac. Je±li np. jest to format prawnie zastrze-»ony, a autor danej metody nie ujawni zakresu znajduj¡cych si¦ w nim informacji, to metoda w zasadzie jest nieporównywalna.

Dostosowanie do uczenia. Niektóre standardy wywodz¡ si¦ ze ±rodowisk do uczenia ontologii, niektóre z dziedzin pokrewnych. Dostosowanie do uczenia wyra»a si¦ mo»liwo±ci¡ skorzystania w prosty sposób z in-formacji w nim zawartych na specycznych etapach procesu uczenia ontologii.

Najbardziej popularne formaty anotacji lingwistycznej dla uczenia onto-logii wywodz¡ si¦ ze ±rodowisk do uczenia ontoonto-logii oraz ekstrakcji informacji: GATE to najpopularniejsze ±rodowisko do budowania aplikacji in»ynierii tekstu (Kenter i Maynard, 2005). GATE dzieli format anotacji na trzy gªówne, równorz¦dne poziomy: zbiór wªa±ciwo±ci, zbiór anotacji oraz tekst. Zbiór wªa±ciwo±ci okre±la metadane dokumentu, np. ¹ródªo, czy typ MIME. Tekst zawiera tekst ¹ródªowy wraz ze struktur¡ dokumen-tu. Zbiór anotacji zawiera dowolny zbiór typów anotacji wraz z wªa-±ciwo±ciami. Model zaprezentowany w GATE cechuje si¦ bardzo du»¡ ekspresywno±ci¡  zbiory anotacji mo»na deniowa¢ dowolnie. Format GATE jest mocno rozpowszechniony  gªównie ze wzgl¦du na popular-no±¢ samego narz¦dzia. Jest on jednak nadmiarowy dla procesu uczenia ontologii, co wynika z faktu, »e zostaª stworzony na potrzeby ekstrakcji informacji, nie uczenia ontologii (Cunningham i in., 2002).

SProUT jest narz¦dziem do ekstrakcji informacji, w tym do ekstrakcji in-formacji z j¦zyka polskiego (Piskorski i in., 2005). Do analizy morfolo-gicznej wykorzystuje narz¦dzie do analizy j¦zyka polskiego  Morfeusz (Woli«ski, 2006). Pozwala na swobodne deniowanie zbiorów anotacji. Narz¦dzie jest cz¦sto wykorzystywane w ekstrakcji informacji z j¦zyka polskiego (np. Abramowicz i in. (2006)).

OI Model to model danych obejmuj¡cy ontologi¦ oraz instancje stworzo-ne na potrzeby ±rodowisk TextToOnto (Maedche i Staab, 2004) oraz, w wersji rozszerzonej, Text2Onto (Cimiano i Völker, 2005). OI model jest modelem o du»ej ekspresywno±ci, nie jest natomiast standardem otwartym, ani dostosowanym do uczenia ontologii. Wersja ze ±rodowi-ska Text2Onto, tzw. POM (Probabilistic Ontology Model), jest mode-lem stochastycznym przechowuj¡cym wyniki dziaªania metod uczestni-cz¡cych w procesie uczenia ontologii. Ze wzgl¦du jednak na wspomnia-ny brak otwarto±ci, a tak»e kªopoty z utrzymaniem jego stabilno±ci, format ten jest maªo popularny.

OntoLT jest formatem anotacji stworzonym w ramach projektu MuchMore (Vintar i in., 2001) oraz wykorzystywanym jako domy±lny w narz¦-dziu OntoLT (Buitelaar i in., 2004a; Buitelaar, 2003). Oparty na j¦-zyku XML charakteryzuje si¦ otwarto±ci¡ oraz du»¡ powszechno±ci¡, zwªaszcza w dziedzinie uczenia ontologii. Zakres informacyjny jest jed-nak zdeniowany, dlatego ekspresywno±¢ formatu nie jest tak wysoka, jak w przypadku innych formatów. Dla celów uczenia ontologii jest on jednak w zupeªno±ci wystarczaj¡cy. Format OntoLT jest opisany szerzej w punkcie 4.3.

Wªasne formaty. Oprócz standardowych formatów anotacji mo»na stoso-wa¢ równie» wªasne modele. Wi¦kszo±¢ badaczy w ten sposób podcho-dzi do problemu. Wªasny format daje mo»liwo±¢ wyboru ekspresywno-±ci, stopnia otwartoekspresywno-±ci, czy stopnia dostosowania do wªasnych potrzeb uczenia. Niestety, formaty wªasne maj¡ jedn¡ cech¦ dyskwalikuj¡c¡ przy ewaluacji  ró»ne formaty notacji daj¡ ró»ne mo»liwo±ci. Nawet ta sama metoda ekstrakcji terminologii sprawdza¢ si¦ b¦dzie ró»nie w zale»no±ci od j¦zyka anotacji (czyli np. ró»nego stopnia ekspresyw-no±ci). Porównywa¢ dwa ró»ne formaty anotacji jest bardzo trudno, nie mówi¡c ju» o procesie przygotowania dokªadnie takiego samego korpusu przy pomocy dwóch ró»nych j¦zyków anotacji. Dwie najpo-pularniejsze odmiany wªasnych formatów opieraj¡ si¦ na skªadni XML oraz na modelach relacyjnych przechowywanych w relacyjnych bazach danych. Oba te podej±cia zostaªy przedmiotem porównania w tabeli 4.3.

Porównanie najpopularniejszych formatów anotacji przedstawiono w ta-beli 4.3. Z przeprowadzonej analizy wynika, »e dla celów niniejszej pracy najbardziej dogodnym wyborem jest standard anotacji zastosowany w na-rz¦dziu OntoLT. Format ten daje bardzo du»¡ przewag¦ badawcz¡ ze wzgl¦-du na mo»liwo±¢ ewaluacji oraz dostosowanie do procesu uczenia ontologii.

GATE SProUT OI Model OntoLT DB XML Saturacja 1 1 1 2 0 0 Ekspresywno±¢ 2 2 2 1 2 2 Otwarto±¢ 2 0 0 2 0 2 Ewaluacja 1 1 0 2 0 0 Dostosowanie 0 0 2 2 0 1

Tabela 4.3: Porównianie najcz¦±ciej stosowanych j¦zyków anotacji. Skala 02, przy czym 0 oznacza brak cechy, 1 to cz¦±ciowe, a 2 peªne wsparcie

Mo»liwo±¢ ewaluacji jest tym istotniejsza, poniewa» uczenie ontologii jest dziedzin¡ mªod¡, wymagaj¡c¡ rzetelnej ewaluacji przeprowadzonych bada«.

W dokumencie Uczenie ontologii z tekstu (Stron 127-130)