Trudności stojące przed przetwarzaniem języka naturalnego

Rysunek 2.4: Przykład zbudowanego grafu semantycznego, za [Leskovec 2004].

2.2 Trudności stojące przed przetwarzaniem języka

naturalne-go

Zaryzykować można twierdzenie, iż niemal każdy z nas miał do czynienia z systemem wykorzystującym przedstawione w poprzednim rozdziale mechanizmy. Czy była to wyszukiwarka internetowa, czy też jakiś system ekstrakcji informacji. Pokusić się moż-na o refleksję, iż w zakresie rozumienia i amoż-nalizy języka, uzyskiwane rezultaty odsta-ją od tego, do czego zdolny byłby człowiek. Oczywiście jeden człowiek nie byłby też w stanie w krótkim czasie przeanalizować milionów dokumentów, z którymi systemy te mają często do czynienia, jednak na poziomie głębokiego rozumienia niesionej treści, różnica jest dość znaczna.

Najlepsze stosowane rozwiązania wciąż są bardzo zgrubnymi aproksymacjami mo-delów i procesów, zachodzących w ludzkim mózgu w trakcie przetwarzania języka. W istocie, sposób w jaki człowiek uczy się i używa go, wciąż jest w dużej mierze za-gadką, którą próbują zrozumieć badacze dziedziny kognitywistyki, psychologii czy też filozofii.

Statystyczna natura działania stosowanych w praktyce rozwiązań z zakresu lingwi-styki komputerowej, pozwala na wydobycie wielu istotnych informacji i zależności. W pojedynczych aspektach (np. w oznaczaniu części mowy) możliwe jest uzyskanie efektów podobnych do tych, jakie prezentuje osoba mówiąca biegle danym językiem. Jednak w bardziej złożonych problemach, jakość uzyskiwanych wyników istotnie od-biega od rezultatów uzyskiwanych przez ludzi.

Patrząc z odległej perspektywy, wydawałoby się, iż systemy komputerowe powinny dobrze radzić sobie z analizą tekstu pisanego: „rzeczowniki etykietują obiekty w

2.2. Trudności stojące przed przetwarzaniem języka naturalnego 26

relacje”. Kilka innych części mowy „da się zunifikować”, a jeszcze inne „odrzucić, jako że nie wnoszą istotnych informacji”. W ten sposób uzyska się interpretację struktury podmiot-orzeczenie, która „umieszczona w kontekście pozwoli na dokładne zrozumienie istoty treści”.

Ku takiemu optymistycznemu podejściu do problematyki NLP (ang. Natural

Lan-guage Processing  przetwarzania języka naturalnego) skłaniały prace językoznawców

pracujących nad gramatykami generatywnymi [Dąbrowska 2003] oraz pierwsze wyniki eksperymentalne, przeprowadzane jeszcze w latach 50. na bardzo ograniczonych prób-kach języka².

Wystarczy jednak popatrzeć na stan lingwistyki komputerowej obecnie  mimo wielu lat badań, komputery nie potrafią rozumieć tekstu równie dobrze jak człowiek  wyniki maszynowych tłumaczeń są często kuriozalne, systemy wyszukiwania infor-macji znajdują niekiedy wszystko, tylko nie to, czego szukamy a automatyczne pod-sumowywanie treści czy też znajdowanie odpowiedzi dopiero zaczyna „wkraczać pod strzechy”.

Wydaje się, że można wymienić dwie główne przyczyny leżące u źródeł trudno-ści z uzyskiwaniem w tych zadaniach efektów zbliżonych do ludzi. Pierwszym z nich jest rozumienie istoty treści przekazywanych z pomocą języka naturalnego. Obfituje on bowiem w wielorakie fenomeny, zabiegi stylistyczne i niuanse, które powodują, że jed-noznaczne określenie niesionego sensu staje się bardzo trudne i często zależy od utajo-nego (niewidoczutajo-nego na pierwszy rzut oka) kontekstu. Drugim powodem są ogranicze-nia w możliwościach rozumowaogranicze-nia, braku algorytmów i mechanizmów które spraw-nie dokonywałyby analizy konsekwencji wynikających z przetwarzanego tekstu oraz wszelkich powiązanych implikacji.

O ile rozwiązanie drugiego problemu wydaje się obecnie odległe, to w przypadku tego pierwszego, stosować można wiele narzędzi oraz metod, które starają się aproksy-mować „kłopotliwe” cechy języka. Te najbardziej charakterystyczne zostają wymienio-ne poniżej, w celu przybliżenia istoty tej problematyki.

2.2.1 Polisemia, homonimia i synonimia

Wśród powszechnych zjawisk językowych, „utrudniających” zadaniom lingwistyki komputerowej zrozumienie rzeczywistego sensu wyrazu, wyróźnić można polisemię,

homonimię oraz synonimię. Związane są one z relacjami między znaczeniami a formami

wyrazowymi, których efektem są niejednoznaczności w rozumieniu tekstu.

Istotą pierwszej cechy jest przypisanie wielu (w pewnym stopniu pokrewnych) zna-czeń jednemu słowu lub wyrażeniu. Na przykład, problem ten występuje w przypadku wyrazu język mającemu znaczenia organ oraz mowa.

Zbliżonym zjawiskiem jest homonimia, jednak w tym wypadku zupełnie różne zna-czenia przypadkowo mają tę samą formę językową. Na przykład znazna-czenia wyrazu bal  kłoda drewna oraz przyjęcie. Granica między homonimią a polisemią nie zawsze jest wy-raźna i zależy od założonego stopnia pokrewieństwa znaczeń, które mogą być ciągle uznane za bliskie [Taylor 2003].

Z kolei synonimia to sytuacja, w której dla danego wyrazu istnieją wyrazy blisko-znaczne, mogące go zastąpić w danym kontekście.

2.2. Trudności stojące przed przetwarzaniem języka naturalnego 27

Efektem wymienionych zjawisk jest praktyczna obserwacja: analizując maszynowo znaczenie danego wyrażenia, nie wystarczy proste odwołanie się do słownika i znale-zienie jego definicji. Pojawiają się niejednoznaczności, które niejednokrotnie są skom-plikowane do rozwiązania, wymagają odpowiedniego mechanizmu rozumowania oraz znajomości kontekstu (często także tego niewynikającego bezpośrednio z samego ana-lizowanego tekstu, a związanego na przykład ze źródłem jego publikacji).

Można by sądzić, że występowanie tych zjawisk jest niepożądane i „idealny” język powinien być ich pozbawiony. Twierdzenie takie można jednak łatwo podważyć. Gdy-by relacje między forma językową i jej znaczeniem zawsze występowały jako

jeden-do-jednego, język byłby systemem statycznym, wszystkie istniejące w nim pojęcia

musia-łyby być w nim jednoznacznie zdefiniowane, a dodawanie nowych wymagałoby stwo-rzenia dla nich unikalnych form językowych [Taylor 2003]. Język taki byłby praktyczny tylko w świecie, w którym nie zachodzą żadne zmiany. Można się o tym łatwo przeko-nać empirycznie, obserwując popularność występowania polisemii czy synonimii, które znaleźć można bardzo często w języku naturalnym.

Podobnie, głębsza analiza zjawiska synonimii pokazuje, że wyrazy bliskoznaczne zwykle nie definiują dokładnie tych samych pojęć. Występują między nimi subtelne różnice, które powodują, że dobierając użycie odpowiedniego z nich można wpłynąć na znaczenie niesione w danym wyrażeniu.

2.2.2 Środki stylistyczne i problem zmiany znaczenia

Kolejną istotną cechą języka naturalnego, która znacznie komplikuje maszynową anali-zę niesionego przez tekst sensu, jest stosowanie różnych zabiegów i środków stylistycz-nych. Docelowo mają one wywoływać u odbiorcy określone emocje, opierają się więc na procesach kognitywnych ludzkiego mózgu i w oczywisty sposób umykają prostym metodom maszynowej analizy treści. Zaliczają się do nich między innymi:

• hiperbola  wyolbrzymienie, przejaskrawienie cech,

• ironia  zastosowanie zamierzonej niezgodności, przeciwieństwa,

• metonimia  zastąpienie określenia obiektu lub akcji innym określeniem, które jest z nim związane (np. Berlin ogłosił... zamiast Rząd Niemiec ogłosił...),

• metafora  przenośnia, zestawienie obcych znaczeniowo wyrazów (np. morze

gwiazd),

• związek frazeologiczny  utrwalone w kulturze połączenie kilku wyrazów (np.

kro-kodyle łzy),

• zdrobnienie i zgrubienie  odpowiednio, cecha mniejsza i większa od wyrazu pod-stawowego (np. nos – nosek, nochal),

• onomatopeja  wyraz dźwiękonaśladowczy, odwzorowujący brzmienie danego zjawiska,

• eufemizm  zastąpienie słowa lub wyrażenia innym, bardziej delikatnym (np. mija

W dokumencie Index of /rozprawy2/10905 (Stron 35-38)