• Nie Znaleziono Wyników

Relacje taksonomiczne

W dokumencie Uczenie ontologii z tekstu (Stron 36-41)

Przegl¡d obecnego stanu wiedzy In»ynieria ontologii wymaga znacznego udziaªu osób posiadaj¡cych

2.1 Proces uczenia ontologii z tekstu

2.1.4 Relacje taksonomiczne

Kolejn¡ faz¡ cyklu uczenia ontologii z tekstu jest ekstrakcja relacji taksono-micznych, która dokonuje ekstrakcji relacji hiperonimicznych (bardziej ogólne byty w taksonomii) oraz hiponimicznych (bardziej szczegóªowe byty w takso-nomii). W obecnym dorobku nauki wyró»nia si¦ szereg podej±¢ do ekstrakcji tych dwóch kategorii:

• wzorce leksykalno-syntaktyczne, • rozkªad i analiza skupie«, • podej±cia lingwistyczne, • zawieranie si¦ dokumentów, • rozszerzenia taksonomii, • podej±cia ª¡czone.

Wzorce leksykalno-syntaktyczne

Wzorce leksykalno-syntaktyczne jako metoda ekstrakcji relacji hiponimicz-nych zostaªy wprowadzone w Hearst (1992). Jego podej±cie opiera si¦ na pro-stym zaªo»eniu, »e uszczegóªowione poj¦cia wyst¦puj¡ w tek±cie cz¦sto w po-dobnych wyra»eniach. Przykªadem takich wyra»e« s¡:

Produkty takie jak serwery, routery i ±wiatªowody.

Tak dobre sklepy elektroniczne jak Komputronik i CK Znak. IBM, SAP, Microsoft oraz inne przedsi¦biorstwa.

Analiza taksonomiczna, a w szczególno±ci analiza hiponimiczna. Ogóln¡ zasad¡ w tego typu analizie jest wi¦c znalezienie instancji wzorców w tek±cie oraz ekstrakcja relacji typu is-a.

Od czasu publikacji pierwszych prac Hearsta powstaªo wiele podej±¢ roz-szerzaj¡cych oryginaln¡ prac¦, m.in. (Alfonseca i Manandhar, 2002b; Kietz i in., 2000; Hearst, 1998). Podej±cia te opieraj¡ si¦ gªównie na zwi¦kszonej liczbie i precyzji reguª oraz zmianie przedmiotu analizy (np. ciekawa praca Sundblad (2003)).

Rozkªad i analiza skupie«

Drugie z wyró»nionych podej±¢ opiera si¦ na zaªo»eniu, »e wyrazy s¡ do sie-bie semantycznie podobne, je±li wyst¦puj¡ w tym samym kontek±cie (Firth,

1957; Harris, 1986). W zwi¡zku z tym przy ekstrakcji terminologii zbiera si¦ równie» wyrazy s¡siaduj¡ce, które reprezentuje si¦ jako wektor. Najprostsze z rozwi¡za« porównuj¡ powstaªe wektory i mierz¡ miar¦ podobie«stwa.

Podobie«stwo wektorów mo»na wyznaczy¢ przy pomocy trzech podej±¢ do analizy skupie«:

• opartej na analizie podobie«stwa skupie«, • teorii zbiorów oraz prawdopodobie«stwa, • mi¦kkiej analizy skupie«.

Analiza z wykorzystaniem podobie«stwa skupie« w procesie ekstrakcji re-lacji taksonomicznych opiera si¦ na trzech zaªo»eniach dotycz¡cych sposo-bu mierzenia odlegªo±ci, metody wi¡zania oraz algorytmu. Odlegªo±¢ pomi¦-dzy skupieniami wyznaczy¢ mo»na przy u»yciu standardowych miar staty-stycznych, czyli: odlegªo±ci euklidesowej, kwadratu odlegªo±ci euklidesowej dla przypisania wi¦kszej wagi obiektom od siebie najbardziej oddalonym lub odlegªo±ci miejskiej (ang. Manhattan distance), która tªumi pojedyncze du»e ró»nice. Wykorzysta¢ równie» mo»na inne miary, np. niezgodno±¢ procento-w¡, która mierzy liczb¦ cech ró»nych w danych obiektach.

Posiadaj¡c wyliczone miary odlegªo±ci pomi¦dzy obiektami nale»y po-ª¡czy¢ je w skupienia. Aby popo-ª¡czy¢ skupienia o liczebno±ci wi¦kszej od 1, nale»y wybra¢ metod¦ wi¡zania. Skupienia mo»na ª¡czy¢ w zasadzie w sposób dowolny, jednak najbardziej rozpowszechnionymi strategiami ª¡czenia s¡:

• metoda pojedynczego wi¡zania (najbli»szego s¡siedztwa)  odlegªo±¢ mi¦dzy skupieniami okre±lona jest na podstawie dwóch najbli»ej poªo-»onych obiektów,

• metoda peªnego wi¡zania (najdalszego s¡siedztwa)  odlegªo±¢ skupie« jest wynikiem odlegªo±ci najdalej poªo»onych obiektów obu analizowa-nych skupie«,

• metoda ±rednich poª¡cze«  odlegªo±¢ skupie« to ±rednia odlegªo±ci obiektów odpowiednich skupie«,

• metoda ±rednich poª¡cze« wa»onych  odlegªo±¢ skupie« wyznacza ±rednia wa»ona odlegªo±¢ obiektów w skupieniach, w których wagi s¡ wyrazem liczebno±ci danego skupienia,

• metoda ±rodków ci¦»ko±ci  odlegªo±¢ skupie« to odlegªo±¢ od ±rodków ci¦»ko±ci skupie«,

• metoda wa»onych ±rodków ci¦»ko±ci  odlegªo±¢ skupie« to wa»ona liczebno±ci¡ skupienia odlegªo±¢ od ±rodków ci¦»ko±ci,

• metoda Warda  odlegªo±¢ skupie« wyznaczana jest na podstawie mi-nimalizacji sumy kwadratów odchyle« dowolnych dwóch skupie«. Oprócz miary odlegªo±ci i metody ª¡czenia w analizie skupie« musi zo-sta¢ odpowiednio dobrana strategia kierunku analizy. W klasycznej analizie statystycznej sytuacj¡ wyj±ciow¡ mo»e by¢ sytuacja, w której ka»dy obiekt stanowi osobne skupienie, b¡d¹ przeciwnie  na pocz¡tku jest jedno du-»e skupienie zawieraj¡ce wszystkie obiekty lub wszystkie sytuacje po±rednie, w którym zaczynamy analiz¦ od pewnego stopnia klasykacji. Równie» sytu-acj¦ wyj±ciow¡ (docelow¡) mo»na dowolnie ustala¢, np. wychodz¡c od skupie« jednoelementowych d¡»ymy do jednego du»ego skupienia (tzw. metoda aglo-meracji), b¡d¹ odwrotnie. Mo»na równie» zatrzyma¢ analiz¦ w dowolnym punkcie, celem doprowadzenia do dokªadnie n-liczby skupie«.

Analiza skupie« w przypadku ekstrakcji relacji taksonomicznych najcz¦-±ciej stosowana jest przy zaªo»eniu jednoelementowych skupie« i d¡»y do uzy-skania obiektów najbardziej podobnych przy zmiennej warto±ci progu. War-to±¢ progu to warWar-to±¢ dobierana arbitralnie i oznacza warWar-to±¢, przy której relacja mo»e by¢ sklasykowana jako taksonomiczna.

Wykrywanie relacji taksonomicznych metod¡ analizy skupie« nastr¦cza jednak du»o problemów. Po pierwsze, powstaj¡ce skupienia s¡ nienazwane, co w przypadku celu ekstrakcji jest niedopuszczalne. Jedyne podej±cie do na-zwania skupie« (Caraballo, 1999, 2001) oparte jest na poª¡czeniu analizy sku-pie« ze wzorcami Hearsta. Po drugie, analiza skusku-pie« jest niestety podej±ciem statystycznym opartym na reprezentacji sªownej. Oznacza to, »e podobie«-stwo obiektów liczone przy pomocy tej metody jest cz¦sto bª¦dne. Istnieje w tej kwestii du»a potrzeba uczestnictwa zewn¦trznych mechanizmów, któ-re zwi¦ksz¡ pktó-recyzj¦ analizy skupie«, co w zasadzie oznacza naprowadzenie strategii tworzenia skupie«. Niedoskonaª¡ metod¦ opisano w Cimiano i Sta-ab (2005), która polega na znalezieniu przez eksperta relacji hiperonimicznej w stosunku do skupie«. Skupienia zostaj¡ poª¡czone tylko w przypadku, gdy maj¡ tak¡ sam¡ relacj¦ hiperonimiczn¡.

Drugim sposobem na ekstrakcj¦ relacji taksonomicznych z u»yciem anali-zy skupie« jest metoda znana pod nazw¡ FCA (ang. Formal Concept Analy-sis) (Ganter i Wille, 1999; Cimiano i in., 2005a). Metoda ta polega na analizie macierzy o n wierszach i kolumnach, gdzie n jest liczb¡ obiektów (tabela 2.2). Analiza opiera si¦ na stwierdzaniu przy ka»dej kombinacji obiektów po-cz¡wszy od wierszy, czy zachodzi relacja hiponimiczna (is-a). Obiekt, który uzyska najmniejsz¡ liczb¦ wyst¡pie« relacji, traktowany jest jako poj¦cie

sto-Spóªka Spóªka Spóªka Spóªka kapitaªowa akcyjna osobowa Spóªka X

Spóªka kapitaªowa X X

Spóªka akcyjna X X X

Spóªka osobowa X X

Tabela 2.2: Przykªadowa analiza metod¡ FCA

j¡ce w taksonomii najwy»ej i zostaje usuni¦te z macierzy. Analiza powtarza si¦ a» do wyczerpania wszystkich mo»liwo±ci porówna«.

Trzeci ze sposobów ekstrakcji relacji taksonomicznych z u»yciem analizy skupie« nazywa si¦ mi¦kk¡ analiz¡ skupie«. Wykorzystuje ona analiz¦ syntak-tyczn¡. Niestety, terminy bardzo cz¦sto maj¡ niejedno znaczenie, co w tym przypadku oznacza przyporz¡dkowanie obiektu do n-skupie«. Na przykªad, wyraz mysz zaklasykowa¢ mo»na zarówno do skupienia Sprz¦t komputerowy, jak i do ssaki. Wyzwaniem w tym przypadku jest rozpoznawanie wieloznacz-no±ci analizowanych poj¦¢ (Yarowsky, 1992).

Podej±cia lingwistyczne

Podej±cia lingwistyczne do ekstrakcji relacji taksonomicznych wywodz¡ si¦ z obserwacji dotycz¡cych wªa±ciwo±ci danego j¦zyka naturalnego. Zostaªo za-uwa»one na przykªad, »e przymiotniki powi¡zane w zdaniu z rzeczownikami przewa»nie zaw¦»aj¡ zakres samego rzeczownika, tworz¡c w ten sposób relacj¦ taksonomiczn¡. Wyra»enia spóªka kapitaªowa i spóªka to przykªad klasycz-nej relacji taksonomiczklasycz-nej. Kolejnym popularnym podej±ciem jest leksykalne zawieranie si¦ w sobie dwóch terminów (Buitelaar i in., 2004a; Velardi i in., 2001a) (por. sekcja 2.2.32 na stronie 73. Podej±cia takie s¡ stosowanie w na-rz¦dziach sªu»¡cych do analizy j¦zyka angielskiego. Rozbudowane narz¦dzia do analizy lingwistycznej dost¦pne s¡ równiez dla tekstów w j¦zyku niemiec-kim (Piskorski, 2002; Xu i in., 2002; Piskorski i in., 2005) (por. np. sekcja 2.2.15 na stronie 52).

W zwi¡zku z faktem, »e analiza lingwistyczna jest specyczna dla dane-go j¦zyka, analiza j¦zyka polskiedane-go wymaga specycznych podej±¢. Niestety, brakuje zarówno metod, jak i narz¦dzi do analizy j¦zyka naturalnego pod k¡tem ekstrakcji relacji taksonomicznych w procesie uczenia ontologii.

Zawieranie si¦ dokumentów

Ekstrakcja relacji taksonomicznych odbywa si¦ równie» zgodnie z zaªo»eniem, »e je»eli termin t1 pojawia si¦ we wszystkich dokumentach, w których wyst¦-puje termin t2, a tak»e istniej¡ dokumenty, w których wyst¦puje wyª¡cznie

t1, to t2 jest bardziej szczegóªowym poj¦ciem (is-a(t2, t1)) (Sanderson i Croft, 1999). Pi¦¢ lat pó¹niej podej±cie to zostaªo rozbudowane do postaci prawdo-podobie«stwa warunkowego (Fotzo i Gallinari, 2004). Kontynuuj¡c notacj¦ terminów:

P (t2|t1) = n(t2, t1)

n(t1) . (2.2)

Prawdopodobie«stwo relacji hiperonimicznej t2 i t1 to stosunek liczby do-kumentów, w których oba terminy wspóªwyst¦puj¡ do liczby dodo-kumentów, w których wyst¦puje wyª¡cznie termin t1.

Rozszerzenia taksonomii

Wiele podej±¢ do ekstrakcji relacji taksonomicznych opiera si¦ na stosowa-niu rozszerze« do ju» istniej¡cych metod (Widdows, 2003; Alfonseca i Ma-nandhar, 2002a; Maedche, 2002; Witschel, 2005). Niestety, wi¦kszo±¢ metod z tej grupy nie dokonuje ewaluacji wªasnego podej±cia. Wynika to w du»ej mierze ze zªo»ono±ci problemu oraz z faktu, »e je»eli próbuje si¦ kwantyko-wa¢ podej±cia o ró»nych zaªo»eniach, to ich porównanie nie jest wiarygodne lub nawet mo»liwe. Wi¡»e si¦ to z wielo±ci¡ i heterogeniczno±ci¡ korpusów, miar, a nawet samych ontologii u»ytych do ewaluacji.

Podej±cia ª¡czone

Ró»norodno±¢ metod ekstrakcji relacji taksonomicznych generuje liczne pró-by ª¡czenia ró»nych klas metod. W metodzie opisanej w Caraballo (1999) poª¡czony zostaª mechanizm nazywania skupie« metod¡ aglomeracji z anali-z¡ leksykalno-syntaktyczn¡. Cederberg i Widdows (2003) wprowadzaj¡ me-chanizm zwi¦kszaj¡cy dokªadno±¢ oraz przedmiot analizy leksykalno-syntak-tycznej. Cimiano i in. (2005b) proponuj¡ zastosowanie tzw. wyroczni eksperta zwi¡zanej w relacjami hipernimicznymi do analizy strategii ª¡czenia skupie«. Najprostszym w zaªo»eniu podej±ciem jest propozycja klasykacji podsta-wowowych metod (Cimiano i in., 2005b). Mechanizm dokonuje porównania rezultatów osi¡gni¦tych przy pomocy ró»nych metod i stosuje najbardziej po-»¡dan¡. Niestety, sam wybór metody musi zosta¢ dokonany przez eksperta.

Metod¦ klasykacji taksonomii opartej na wielu po±rednich klasykato-rach zastosowano w Snow i in. (2006). Autorzy skupiaj¡ si¦ jednak na modelu

teoretycznym oraz rozszerzaniu ontologii WordNet, co powoduje, »e metoda jest zbyt specyczna do wykorzystania w innych warunkach.

W dokumencie Uczenie ontologii z tekstu (Stron 36-41)