Problem rozstrzygania wieloznaczno´sci
Aleksander Pohl
Katedra Informatyki Akademia Górniczo-Hutnicza
Plan prezentacji
◮ Charakterystyka problemu
◮ Wyst ˛epowanie problemu
◮ Metody rozwi ˛azywania problemu
◮ Niezb ˛edne narz ˛edzia lingwistyczne
◮ Konferencje
Charakterystyka problemu
◮ Problem z dziedziny przetwarzania j ˛ezyka naturalnego
◮ Pierwsze próby podejmowane ju ˙z w latach 50
◮ Brak algorytmów precyzyjnie rozwi ˛azuj ˛acych problem
◮ Konieczno ´s´c dostosowania rozwi ˛aza ´n do specyfiki danego
j ˛ezyka
◮ Dla ludzi problem ten jest niedostrzegalny, dla komputerów
Na czym polega problem rozstrzygania
wieloznaczno´sci?
Problem rozstrzygania wieloznaczno ´sci polega na wyborze
wła ´sciwego znaczenia dla ka ˙zdego ze słów wyst ˛epuj ˛acych w zdaniu.
W j ˛ezyku wyst ˛epuj ˛a słowa, które cho ´c maj ˛a identyczn ˛a form ˛e,
posiadaj ˛a odmienne znaczenie. Przykład: słowo akcja mo ˙ze
oznacza ´c m.in. papier warto ´sciowy oraz fabuł ˛e ksi ˛a ˙zki.
Dla słów tego rodzaju konieczne jest rozstrzygni ˛ecie, w którym znaczeniu zostały one u ˙zyte. Przykład: Kupiłem dzi´s akcje
Podstawowe poj ˛ecia z zakresu lingwistyki
◮ Homonimiczno ´s ´c – zjawisko polegaj ˛ace nawyst ˛epowania słów o identycznej formie, lecz odmiennym znaczeniu, np. akcja.
◮ Relacja paradygmatyczna – wyst ˛epuje pomi ˛edzy
słowami, które mog ˛a nawzajem si ˛e zast ˛epowa ´c
w okre ´slonym kontek´scie nie łami ˛ac ogranicze ´n semantycznych, np. kot/zwierz ˛e.
◮ Relacja syntagmatyczna – wyst ˛epuje pomi ˛edzy słowami,
które pojawiaj ˛a si ˛e razem w okre ´slonych kontekstach, np.
Wyst ˛epowanie problemu
◮ Tłumaczenie maszynowe – słowa, które w jednym j ˛ezyku
s ˛a homonimiczne, zazwyczaj w innych j ˛ezykach nie s ˛a.
Przykład: jecha ´c – ride, drive.
◮ Wyszukiwanie informacji – słowa wprowadzane do
wyszukiwarki cz ˛esto s ˛a homonimiczne. Przykład: akcja.
◮ Ekstrakcja informacji – rozpoznanie ról semantycznych
cz ˛esto wymaga rozstrzygni ˛ecia wieloznaczno ´sci. Przykład:
Metody rozwi ˛
azywania problemu I
Z wykorzystaniem korpusu tekstów – dla ka ˙zdego
wieloznacznego słowa dodawana jest informacja o tym, w jakim
znaczeniu ono wyst ˛epuje. Wykorzystuj ˛ac metody
automatycznego uczenia rejestruje si ˛e słowa nale ˙z ˛ace do
kontekstu danego słowa, które najcz ˛e ´sciej wyst ˛epuj ˛a z danym
znaczeniem. Wady:
◮ czasochłonno ´s ´c – wymaga r ˛ecznego oznaczenia
wszystkich wieloznacznych słów w wielu tekstach
Metody rozwi ˛
azywania problemu II
Z wykorzystaniem baz wiedzy – w słownikach semantycznych lub ontologiach opisuje si ˛e znaczenia poszczególnych słów
wykorzystuj ˛ac relacje semantyczne (paradygmatyczne
i syntagmatyczne). Na podstawie tego opisu d ˛a ˙zy si ˛e do
rozstrzygni ˛ecia, w którym znaczeni wyst ˛epuje dane słowo. Wady:
◮ czasochłonno ´s ´c – wymaga skonstruowania bazy wiedzy ◮ problematyczno ´s ´c – trudno rozstrzygn ˛a ´c gdzie ko ´nczy
Narz ˛edzia lingwistyczne
◮ Słownik fleksyjny – w j ˛ezyku polskim wyst ˛epuje zjawisko
fleksji. Jedno słowo mo ˙ze wyst ˛epowa ´c w wielu formach,
np.: kot, kota, kotu... Słownik fleksyjny pozwala odpowiedzie ´c na pytanie: jaka jest podstawowa forma danego słowa, w jakim przypadku/liczbie/osobie wyst ˛epuje, etc.
◮ Słownik semantyczny – niezale ˙znie od u ˙zytej metody
rozwi ˛azywania problemu, trzeba wyodr ˛ebni´c poszczególne
znaczenia słów wieloznacznych. Definicje w j ˛ezyku
naturalnym s ˛a mało zrozumiałe dla komputera, dlatego
Konferencje
Od 9 lat organizowana jest przez Association for Computational
Linguistics konferencja Senseval/Semeval, która jest w cało ´sci
po ´swi ˛econa problemowi rozstrzygania wieloznaczno ´sci. Jej
głównym celem jest wypracowanie metod pozwalaj ˛acych na
miarodajn ˛a ocen ˛e systemów komputerowych, pod k ˛atem ich
zdolno ´sci do rozwi ˛azywania omawianego problemu.
Pomimo tego, ˙ze odbyły si ˛e ju ˙z 4 takie konferencje, w których brały udział systemy z całego ´swiata, w ˙zadnej jej edycji nie
wyst ˛epował system, który starałby si ˛e rozwi ˛azywa ´c ten problem
dla j ˛ezyka polskiego. Wynika to m.in. z faktu, ˙ze nie istnieje
słownik semantyczny j ˛ezyka polskiego, który zawierałby definicje słów, zgodne z wcze ´sniej przedstawionym wzorcem.
Propozycja
◮ Zastosowanie podej´scia opartego o bazy wiedzy
◮ Wykorzystanie biblioteki CLP jako podstawowego słownika
fleksyjnego
◮ Wykorzystanie Polskiego Słownika Semantycznego jako
podstawowej leksykalnej bazy wiedzy (relacje paradygmatyczne i syntagmatyczne).
◮ Ewentualne wykorzystanie ontologii Cyc, jako