• Nie Znaleziono Wyników

Okre´ slenie ogranicze´ n semantycznych

W dokumencie Index of /rozprawy2/10951 (Stron 134-139)

Wartość miary CD P

8.8. Okre´ slenie ogranicze´ n semantycznych

Biorac pod uwag, e wieloznaczno´, s´c wzorc´ow formalnych, okre´slenie ogranicze´n semantycznych jest ko-nieczne do tego, aby zapewni´c odpowiedni poziom precyzji algorytmu ekstrakcji relacji. Nale˙zy jednak wzia´,c pod uwage, ˙ze r´, ownie˙z samo okre´slenie ogranicze´n semantycznych czasami nie wystarczy do tego, aby poprawnie rozpozna´c wybrana relacj, e semantyczn, a. Przyjmujemy jednak, ˙ze w prezentowanym algo-, rytmie przypadki tego rodzaju sa nierozwi, azywalne, tzn. nie b, edziemy u˙zywa´, c dodatkowych metod (np. wnioskowania wykraczajacego poza relacj, e hiperonimii), gdy˙z doprowadzi loby to do istotnej komplikacji, algorytmu.

Ustalenie ogranicze´n semantycznych realizowane jest na 3 sposoby:

1. na podstawie recznej oceny zda´, n zawierajacych dopasowania wzorc´, ow formalnych, 2. na podstawie ogranicze´n semantycznych wyekstrahowanych z ontologii Cyc, 3. na podstawie ogranicze´n semantycznych wyekstrahowanych z DBpedii.

Aby m´oc latwiej por´owna´c te trzy metody okre´slania ogranicze´n, algorytm rozpoznawania relacji semantycznych traktuje je identycznie. Taki spos´ob powoduje utrate cz,,sci informacji (w szczeg´olno´sci nie sa wykorzystywane negatywne decyzje okre´, slone w trakcie recznej oceny zda´, n), ale istotnie upraszcza implementacje algorytmu.,

8.8.1. Reczna ocena zda´

,

n

Reczna ocena zda´, n zawierajacych dopasowania wzorc´, ow formalnych, polega na tym, ˙ze u˙zytkownik przeglada list, e zda´, n zawierajacych dopasowania i decyduje, czy zadana relacja semantyczna wyst, epuje, pomiedzy wyra˙zeniami dopasowanymi do wzorca formalnego. Przyk ladowo, je´, sli wzorce formalne relacji ca lo´s´c-cze´,s´c dopasowane zosta ly do dw´och zda´n:

1. Trzy najwy˙zej rozstawione tenisistki to Szwajcarka Martina Hingis (nr 1.), Amerykanka Lindsay Davenport (2.) i Rosjanka Anna Kurnikowa (3.).

2. By la to w´owczas nowa dziedzina fizyki jadrowej.,

to dla pierwszego przyk ladu stwierdzi, ˙ze analizowana relacja w nim nie wystepuje, a dla drugiego, ˙ze re-, lacja ta wystepuje.,

W ten spos´ob powstaja dwa zbiory – jeden, w kt´, orym znajduja si, e zdania zawieraj, ace wyst, apienie, relacji oraz drugi, w kt´orym znajduja si, e zdania, kt´, ore pasuja do wzorc´, ow formalnych, lecz nie zawieraja, zadanej relacji semantycznej. Ograniczenia semantyczne okre´slane sa wy l, acznie na podstawie pierwszego, zbioru. Poniewa˙z konstrukcja takiego zbioru jest ˙zmudna, zwykle nie zawiera on wystarczajacej liczby, przyk lad´ow, aby mo˙zna by lo dokona´c statystycznej analizy ogranicze´n. Z tego wzgledu przyj, eto, ˙ze wszyst-, kie pary kategorii semantycznych wystepuj, ace w zdaniach nale˙z, acych do tego zbioru, definiuj, a poprawne, ograniczenia semantyczne dla zadanej relacji. W przeciwie´nstwie jednak do algorytmu opisanego w punk-cie 7.4, dla obu wyra˙ze´n po laczonych relacj, a, dla wszystkich par kategorii semantycznych nale˙z, acych, do iloczynu kartezja´nskiego kategorii semantycznych tych wyra˙ze´n, przypisuje sie tak, a sam, a warto´, s´c prawdopodobie´nstwa warunkowego wynoszac, a 1. Pary te staj, a si, e zatem ograniczeniami semantycznymi, uzyskanymi na podstawie recznej oceny zda´, n.

8.8. Okre´slenie ogranicze´n semantycznych 135

Tablica 8.4: Losowo wybrane specjalizacje predykatu #$parts wystepuj, acego w ontologii Cyc., Nazwa predykatu Opis predykatu

#$hasRooms laczy budowl, e z pokojami, kt´, ore sa jej cz,,sciami #$sandwichFillings laczy kanapk, e z jej zawarto´, scia,

#$subNetwork laczy sie´, c komputerowa z jej podsieci, a, #$subSystems laczy system z jednym z jego podsystem´, ow #$essentialParts laczy obiekt z jego podstawowymi sk ladnikami, #$parliamentOf laczy jednostk, e geopolityczn, a z jej parlamentem, #$lastSubEvents laczy zdarzenie z jego ko´, ncem

#$officialArmedForces laczy organizacj, e z jej oficjalnymi si lami zbrojnymi, #$groupMembers laczy grup, e ludzi z jej cz lonkami,

#$organizationKeyMembers laczy organizacj, e z jej najwa˙zniejszymi cz lonkami,

#$cellMemberInTerroristGroup laczy kom´, orke organizacji terrorystycznej z jej cz lonkami, #$trialOfCase laczy spraw, e s, adow, a z pojedyncz, a rozpraw, a s, adow, a,

8.8.2. Ekstrakcja ogranicze´n semantycznych z Cyc

Ustalenie listy ogranicze´n semantycznych na podstawie Cyc realizowane jest w nastepuj, acych krokach:, 1. wyekstrahowanie ogranicze´n semantycznych z predykat´ow,

2. wybranie predykat´ow odpowiadajacych okre´, slonej relacji semantycznej, 3. odfiltrowanie zbyt og´olnych ogranicze´n semantycznych.

Wyekstrahowanie ogranicze´n semantycznych z predykat´ow odbywa sie w spos´, ob analogiczny, jak po-zyskiwanie przyk lad´ow par poje´,c po laczonych predykatem #$anatomicalParts, tzn. z wykorzystaniem, predykatu #$relationAllExists.

Pozyskanie ogranicze´n na podstawie tego predykatu wyglada nast, epuj, aco: w pierwszej kolejno´, sci wszystkie asercje zawierajace ten predykat s, a eksportowane do postaci tr´, ojek sk ladajacych si, e z nast, e-, pujacych element´, ow (R, a1, a2), gdzie R to predykat, a1 to pierwszy argument, a a2 to drugi argument. W nastepny kroku u˙zytkownik musi okre´, sli´c, kt´ore predykaty odpowiadaja relacji, dla kt´, orej maja zosta´, c okre´slone ograniczenia semantyczne. Zadanie to jest uproszczone, poniewa˙z w Cyc poza hierarchia poj,,c zdefiniowana jest r´ownie˙z hierarchia predykat´ow. Dzieki temu mo˙zliwe jest wskazanie og´, olnego predykatu odpowiadajacego interesuj, acej nas relacji, a jego specjalizacje mog, a zosta´, c uzyskane na podstawie jednego wywo lania w API Cyc (all-genl-predicates).

Przyk ladowo, relacji ca lo´s´c-cze´,s´c odpowiada predykat #$parts, kt´ory posiada ponad 900 specjalizacji. Przyk ladowe specjalizacje tego predykatu przedstawione sa w tabeli 8.4. Przyk lady te pokazuj, a, ˙ze w Cyc, wystepuj, a zar´, owno bardzo og´olne predykaty, takie jak #$essentialParts oraz bardzo specyficzne, jak #$trialOfCase. Wida´c r´ownie˙z, ˙ze predykat #$parts jest bardzo og´olny, poniewa˙z obejmuje zar´owno relacje fizyczne (np. #$hasRooms), przynale˙zno´s´c do grupy (np. #$groupMembers) oraz relacje czasowe (np. #$lastSubEvents). Obecno´s´c tych relacji do´s´c dobrze koresponduje z podtypami meronimii om´ owio-nymi w punkcie 3.2.6 oraz z typami relacji semantycznych zdefiniowaowio-nymi przez NIST, przedstawioowio-nymi w tabeli 8.1.

Korzystajac z hierarchii predykat´, ow mo˙zna do´s´c latwo odfiltrowa´c ograniczenia semantyczne, kt´ore nie pasuja do relacji, kt´, ora zamierzamy ekstrahowa´, c. Tym niemniej proces filtrowania ogranicze´n

semantycz-Tablica 8.5: Przyk ladowe og´olne pojecia Cyc, kt´, ore zosta ly wykluczone ze zbioru ogranicze´n semantycz-nych.

Pojecie, Opis

#$Cavity wneka, zag l, ebienie w jakim´, s obiekcie #$Base-Support podstawa obiektu fizycznego

#$ExistingObjectType rodzaj obiekt´ow o charakterze konkretnym

#$GeneralPoint punkt odniesienia wykorzystywany przez wojskowych #$LineOfContact linia kontaktu pomiedzy dwoma wrogimi si lami zbrojnymi, #$PurposefulAction celowe dzia lanie podejmowane przez podmiot

#$Translocation przemieszczenie sie na pewnym dystansie, #$MultiIndividualAgent grupa niezale˙znych podmiot´ow

#$Analyst-PertinentConcept rodzaj pojecia interesuj, acego dla analityk´, ow #$FixedFunctionalSystem system funkcjonalny o sta lej strukturze

nych musi obejmowa´c jeden dodatkowy krok – znaczna liczba ogranicze´n semantycznych, r´ownie˙z tych pozyskanych na bazie predykatu #$relationAllExists, jest nadal zbyt og´olna, aby mo˙zna je by lo wyko-rzysta´c bezpo´srednio do ekstrakcji relacji.

Analizujac najbardziej og´, olne pojecia wyst, epuj, ace w Cyc, opracowana zosta la lista poj,,c, posiada-jacych bardzo ubog, a tre´, s´c semantyczna. Nast, epnie korzystaj, ac z wywo lania Cyc all-genls, znalezione, zosta lo domkniecie tego zbioru poj,,c. Je´sli przy konstrukcji domkniecia okaza lo si, e, ˙ze kt´, ore´s z wybra-nych poje´,c posiada lo generalizacje, kt´, ora posiada la specyficzna tre´, s´c semantyczna, poj, ecie to by lo usu-, wane z poczatkowej listy. W ten spos´, ob zosta la skompilowana lista 509 najbardziej og´olnych poje´,c, kt´ore zosta ly wykluczone ze zbioru ogranicze´n semantycznych (wystarczy lo, aby tylko jedno pojecie na-, le˙za lo do tego zbioru, aby ca le ograniczenie semantyczne zosta lo usuniete). Przyk ladowe poj, ecia nale˙z, ace, do tego zbioru przedstawione sa w tabeli 8.5. W grupie tej uwidocznione zosta ly og´, olne pojecia, takie jak, #$ExistingObjectType, kt´orego tre´s´c semantyczna jest niezwykle uboga oraz bardziej specyficzne, jak #$LineOfContact, kt´ore przynale˙za do okre´, slonej dziedziny wiedzy (wiedza na temat dzia la´n zbrojnych), ale kt´orych charakter jest na tyle abstrakcyjny, ˙ze staja si, e nieprzydatne z punktu widzenia zdania jakim, jest ekstrakcja relacji semantycznych.

Zbi´or ogranicze´n semantycznych, kt´ory pozostaje po odfiltrowaniu z niego zbyt og´olnych poje´,c, wy-korzystywany jest ju˙z bezpo´srednio do ekstrakcji wybranej relacji semantycznej. W tabeli 8.6 przedsta-wione sa przyk ladowe ograniczenia semantyczne relacji ca lo´, s´c-cze´,s´c pozyskane na podstawie ontologii Cyc. Wiekszo´, s´c z przedstawionych ogranicze´n jest do´s´c specyficzna, z wyjatkiem predykat´, ow #$capitalCity, lacz, acych pa´, nstwa z ich stolicami oraz #$provinces, lacz, acej pa´, nstwa z ich prowincjami.

8.8.3. Ekstrakcja ogranicze´n semantycznych z DBpedii

DBpedia jest drugim ´zr´od lem wiedzy, kt´ore wykorzystywane jest do okre´slenia ogranicze´n semantycz-nych ekstrahowasemantycz-nych relacji. Pierwszy kwestia, kt´ora musi by´c rozwiazana, je´, sli chcemy wykorzysta´c ja do, okre´slenia ogranicze´n semantycznych, to zweryfikowanie, czy relacja semantyczna, kt´ora chcemy ekstra-, howa´c, wystepuje w ontologii DBpedii. W przeciwie´, nstwie do ontologii Cyc, kt´ora zawiera ponad 26 tys. predykat´ow, ontologia DBpedii zawiera ok. 1 tys. predykat´ow, kt´ore nie sa zbyt dobrze uporz, adkowane,, ani opisane. Zatem znalezienie odpowiednich predykat´ow mo˙ze by´c problematyczne. Ponadto, kiedy zde-cydujemy sie na wyb´, or jednego predykatu, szybko mo˙ze sie okaza´, c, ˙ze nie tylko on reprezentuje wybrana,

8.8. Okre´slenie ogranicze´n semantycznych 137

Tablica 8.6: Przyk ladowe pary ogranicze´n semantycznych dla relacji ca lo´s´c-cze´,s´c, pozyskane z wykorzy-staniem predykatu #$relationAllExists z ontologii Cyc.

Predykat Ca lo´s´c Cze´,s´c #$linksOfCustomarySystem #$RespiratoryTract #$Trachea #$provinces #$IndependentCountry #$Province #$capitalCity #$Country #$CountryCapital #$subordinateOrganizations #$GeopoliticalEntity #$PoliceOrganization

#$networkMember #$RetailPharmacyNetwork #$PharmaceuticalDispensing-Organization

#$keyGroupMembers #$VeterinaryHospital #$Veterinarian #$familyHasMember #$Family-Nuclear #$HumanAdult

Tablica 8.7: Lista predykat´ow wystepuj, acych w DBpedii, odpowiadaj, acych relacji ca lo´, s´c-cze´,s´c. Kierunek wskazuje, czy argumenty poszczeg´olnych relacji odpowiadaja przyj, etemu za lo˙zeniu, ˙ze jako pierwszy wy-, stepuje obiekt stanowi, acy ca lo´, s´c, a jako drugi obiekt reprezentujacy cz,,s´c: direct oznacza, ˙ze preferowana kolejno´s´c jest spe lniona przez predykat, a inverse, ˙ze kolejno´s´c ta jest odwrotna.

Predykat Kierunek affiliation inverse album inverse board inverse athletics direct capital direct childOrganisation direct europeanParliamentGroup inverse keyPerson direct leader direct part inverse

przez nas relacje. Poniewa˙z jednak hierarchia predykat´, ow nie jest dobrze zdefiniowana, zidentyfikowanie wszystkich interesujacych nas predykat´, ow mo˙ze okaza´c sie czasoch lonne. Co wi, ecej – poniewa˙z predykaty, te nie musza tworzy´, c hierarchii, kolejno´s´c argument´ow mo˙ze by´c r´o˙zna dla poszczeg´olnych predykat´ow. Konieczne jest zatem okre´slenie czy kolejno´s´c argument´ow jest zgodna z przyjetymi za lo˙zeniami.,

Przyk ladowo, relacji ca lo´s´c-cze´,s´c odpowiadaja predykaty przedstawione w tabeli 8.7 (kompletna lista, znajduje sie w dodatku E), gdzie okre´, slono r´ownie˙z ich kierunek. Wida´c, ˙ze ontologia DBpedii zawiera bardzo zr´o˙znicowany zbi´or predykat´ow odpowiadajacych tej relacji. Obok bardzo og´, olnego #$part wyste-, puje bardzo specyficzny predykat europeanParliamentGroup. Mo˙zna r´ownie˙z zauwa˙zy´c, ˙ze oko lo po lowy predykat´ow wykorzystuje naturalna kolejno´, s´c argument´ow (direct, tzn. argument reprezentujacy ca lo´, s´c wystepuje jako pierwszy), a druga po lowa wykorzystuje kolejno´, s´c odwrotna (inverse).,

Po ustaleniu zbioru interesujacych nas predykat´, ow, mo˙zna przystapi´, c do uruchomienia algorytmu opisanego w punkcie 7.4. W wyniku uruchomienia tego algorytmu otrzymujemy liste krotek postaci, (R, a1, a2, GT). Na tym etapie mo˙zna odfiltrowa´c krotki, kt´orych wsparcie GT < n. Oznacza to, ˙ze dana para kategorii semantycznych by la zaobserwowana mniej ni˙z n razy. Pozwala to usuna´,c ograniczenia,

Tablica 8.8: Wsparcie GT dla predykatu region, okre´slone na podstawie DBpedii: a1– pierwszy argument, a2 – drugi argument. a1 a2 GT #$Commune-State-Geopolitical #$Region 24424,2 #$City #$Region 3394,7 #$Person #$CongressionalDistrict 852,1 #$Municipality #$Region 787,2 #$River #$County 728,7 #$PopulatedPlace #$County 589,2 #$Town #$County 515,7 #$Area #$County 442,8 #$Person #$State-#$Geopolitical 426,8 #$River #$Region 396,6 ... #$Prosecutor #$County 5,0 #$Hospital #$CountryCapital 5,0 #$Beach #$County 5,0 #$School-#$AcademicOrganization #$City 5,0 #$Banker #$CongressionalDistrict 5,0 #$Person #$Territory 5,0 #$Place #$GeographicalRegion 5,0 #$Municipality #$Territory 4,9 #$Municipality #$AutonomousRegion 4,9 #$Sheriff #$CongressionalDistrict 4,9 #$Person #$Municipality 4,9 #$USStateSenator #$City 4,8 ...

kt´ore sa zbyt specyficzne. Co prawda nie powinny one wp lyn,,c negatywnie na precyzje algorytmu, ale, w istotny spos´ob spowalniaja proces dopasowywania relacji, gdy˙z konieczne jest rozpatrzenie znacznie, wiekszego zbioru ogranicze´, n semantycznych.

W nastepnym kroku, dla ka˙zdej unikalnej pary argument´, ow (a1, a2), okre´slana jest lista krotek, w kt´ o-rych argumenty te wystapi ly. Krotki te s, a sortowane malej, aco wzgl, edem warto´, sci wsparcia. Nastepnie, warto´s´c wsparcia zastepowana jest warto´, scia prawdopodobie´, nstwa warunkowego, zgodnie ze wzorem 7.16. W wyniku tej operacji, para argument´ow wystepuj, acych w krotce o najwy˙zszej warto´, sci prawdopodobie´ n-stwa warunkowego, trafia to zbioru ogranicze´n semantycznych relacji wystepuj, acej w tej samej krotce., Jako warto´s´c prawdopodobie´nstwa warunkowego tej pary argument´ow, przyjmowana jest warto´s´c praw-dopodobie´nstwa wystepuj, acego dla tej krotki.,

Przyk ladowo, w tabeli 8.8 przedstawione sa bezwzgl, edne warto´, sci wsparcia dla predykatu region. Przyjmujac G, T ≥ 5, wszystkie pary ogranicze´n semantycznych znajdujace si, e poni˙zej podw´, ojnej linii zosta lyby usuniete. W tabeli 8.9 przedstawione zosta ly krotki zawieraj, ace identyczn, a par, e argumen-, t´ow #$Hospital oraz #$City, kt´ore wystepuj, a w wi, ecej ni˙z jednej krotce. Najwy˙zsz, a warto´, s´c posiada

W dokumencie Index of /rozprawy2/10951 (Stron 134-139)