• Nie Znaleziono Wyników

Problem rozstrzygania wieloznaczności

N/A
N/A
Protected

Academic year: 2021

Share "Problem rozstrzygania wieloznaczności"

Copied!
11
0
0

Pełen tekst

(1)

Problem rozstrzygania wieloznaczno´sci

Aleksander Pohl

Katedra Informatyki Akademia Górniczo-Hutnicza

(2)

Plan prezentacji

◮ Charakterystyka problemu

◮ Wyst ˛epowanie problemu

◮ Metody rozwi ˛azywania problemu

◮ Niezb ˛edne narz ˛edzia lingwistyczne

◮ Konferencje

(3)

Charakterystyka problemu

◮ Problem z dziedziny przetwarzania j ˛ezyka naturalnego

◮ Pierwsze próby podejmowane ju ˙z w latach 50

◮ Brak algorytmów precyzyjnie rozwi ˛azuj ˛acych problem

◮ Konieczno ´s´c dostosowania rozwi ˛aza ´n do specyfiki danego

j ˛ezyka

◮ Dla ludzi problem ten jest niedostrzegalny, dla komputerów

(4)

Na czym polega problem rozstrzygania

wieloznaczno´sci?

Problem rozstrzygania wieloznaczno ´sci polega na wyborze

wła ´sciwego znaczenia dla ka ˙zdego ze słów wyst ˛epuj ˛acych w zdaniu.

W j ˛ezyku wyst ˛epuj ˛a słowa, które cho ´c maj ˛a identyczn ˛a form ˛e,

posiadaj ˛a odmienne znaczenie. Przykład: słowo akcja mo ˙ze

oznacza ´c m.in. papier warto ´sciowy oraz fabuł ˛e ksi ˛a ˙zki.

Dla słów tego rodzaju konieczne jest rozstrzygni ˛ecie, w którym znaczeniu zostały one u ˙zyte. Przykład: Kupiłem dzi´s akcje

(5)

Podstawowe poj ˛ecia z zakresu lingwistyki

Homonimiczno ´s ´c – zjawisko polegaj ˛ace na

wyst ˛epowania słów o identycznej formie, lecz odmiennym znaczeniu, np. akcja.

Relacja paradygmatyczna – wyst ˛epuje pomi ˛edzy

słowami, które mog ˛a nawzajem si ˛e zast ˛epowa ´c

w okre ´slonym kontek´scie nie łami ˛ac ogranicze ´n semantycznych, np. kot/zwierz ˛e.

Relacja syntagmatyczna – wyst ˛epuje pomi ˛edzy słowami,

które pojawiaj ˛a si ˛e razem w okre ´slonych kontekstach, np.

(6)

Wyst ˛epowanie problemu

Tłumaczenie maszynowe – słowa, które w jednym j ˛ezyku

s ˛a homonimiczne, zazwyczaj w innych j ˛ezykach nie s ˛a.

Przykład: jecha ´c – ride, drive.

Wyszukiwanie informacji – słowa wprowadzane do

wyszukiwarki cz ˛esto s ˛a homonimiczne. Przykład: akcja.

Ekstrakcja informacji – rozpoznanie ról semantycznych

cz ˛esto wymaga rozstrzygni ˛ecia wieloznaczno ´sci. Przykład:

(7)

Metody rozwi ˛

azywania problemu I

Z wykorzystaniem korpusu tekstów – dla ka ˙zdego

wieloznacznego słowa dodawana jest informacja o tym, w jakim

znaczeniu ono wyst ˛epuje. Wykorzystuj ˛ac metody

automatycznego uczenia rejestruje si ˛e słowa nale ˙z ˛ace do

kontekstu danego słowa, które najcz ˛e ´sciej wyst ˛epuj ˛a z danym

znaczeniem. Wady:

czasochłonno ´s ´c – wymaga r ˛ecznego oznaczenia

wszystkich wieloznacznych słów w wielu tekstach

(8)

Metody rozwi ˛

azywania problemu II

Z wykorzystaniem baz wiedzy – w słownikach semantycznych lub ontologiach opisuje si ˛e znaczenia poszczególnych słów

wykorzystuj ˛ac relacje semantyczne (paradygmatyczne

i syntagmatyczne). Na podstawie tego opisu d ˛a ˙zy si ˛e do

rozstrzygni ˛ecia, w którym znaczeni wyst ˛epuje dane słowo. Wady:

czasochłonno ´s ´c – wymaga skonstruowania bazy wiedzyproblematyczno ´s ´c – trudno rozstrzygn ˛a ´c gdzie ko ´nczy

(9)

Narz ˛edzia lingwistyczne

Słownik fleksyjny – w j ˛ezyku polskim wyst ˛epuje zjawisko

fleksji. Jedno słowo mo ˙ze wyst ˛epowa ´c w wielu formach,

np.: kot, kota, kotu... Słownik fleksyjny pozwala odpowiedzie ´c na pytanie: jaka jest podstawowa forma danego słowa, w jakim przypadku/liczbie/osobie wyst ˛epuje, etc.

Słownik semantyczny – niezale ˙znie od u ˙zytej metody

rozwi ˛azywania problemu, trzeba wyodr ˛ebni´c poszczególne

znaczenia słów wieloznacznych. Definicje w j ˛ezyku

naturalnym s ˛a mało zrozumiałe dla komputera, dlatego

(10)

Konferencje

Od 9 lat organizowana jest przez Association for Computational

Linguistics konferencja Senseval/Semeval, która jest w cało ´sci

po ´swi ˛econa problemowi rozstrzygania wieloznaczno ´sci. Jej

głównym celem jest wypracowanie metod pozwalaj ˛acych na

miarodajn ˛a ocen ˛e systemów komputerowych, pod k ˛atem ich

zdolno ´sci do rozwi ˛azywania omawianego problemu.

Pomimo tego, ˙ze odbyły si ˛e ju ˙z 4 takie konferencje, w których brały udział systemy z całego ´swiata, w ˙zadnej jej edycji nie

wyst ˛epował system, który starałby si ˛e rozwi ˛azywa ´c ten problem

dla j ˛ezyka polskiego. Wynika to m.in. z faktu, ˙ze nie istnieje

słownik semantyczny j ˛ezyka polskiego, który zawierałby definicje słów, zgodne z wcze ´sniej przedstawionym wzorcem.

(11)

Propozycja

Zastosowanie podej´scia opartego o bazy wiedzy

Wykorzystanie biblioteki CLP jako podstawowego słownika

fleksyjnego

Wykorzystanie Polskiego Słownika Semantycznego jako

podstawowej leksykalnej bazy wiedzy (relacje paradygmatyczne i syntagmatyczne).

Ewentualne wykorzystanie ontologii Cyc, jako

Cytaty

Powiązane dokumenty

Nie wolno tak postąpić nie tylko dlatego, że przedmiotem owego przekładu jest Philosophia botanica, która odcisnęła swój ślad na całym późniejszym rozwoju botaniki i pod

on

W zak resie doskonalenia

w nętrzna w arstw a innych dróg w ystająca i oddzielona , od stropu, lecz utrzym ująca się jeszcze ława węgla lub skały (p. również okap) przechodzenie liny

P rzypo­ mina, że spodobało się Bogu uświęcić społeczność ludzką, że do świętości powołany jest Kościół, a nie tylko indywidualni święci.. Ponadto

В смысловое содержание слов второго типа входят заимствованное зна­ чение английского слова и значение слова, возникшего в русском языке

„Orzeczenie administracyjne winno być w myśl art. zaopatrzone w własnoręczny podpis przedstawiciela danej władzy.. Odcisk pieczęci nie jest pod­ pisem"), wskazuje tylko

Figure 1c corresponds to the case b ­ 2 where the symmetric shape is recovered due to a transfer of spec- tral weight from the Kondo peak to the MF peaks and their satellites..