Rysunek 2.4: Przykład zbudowanego grafu semantycznego, za [Leskovec 2004].
2.2 Trudności stojące przed przetwarzaniem języka
naturalne-go
Zaryzykować można twierdzenie, iż niemal każdy z nas miał do czynienia z systemem wykorzystującym przedstawione w poprzednim rozdziale mechanizmy. Czy była to wyszukiwarka internetowa, czy też jakiś system ekstrakcji informacji. Pokusić się moż-na o refleksję, iż w zakresie rozumienia i amoż-nalizy języka, uzyskiwane rezultaty odsta-ją od tego, do czego zdolny byłby człowiek. Oczywiście jeden człowiek nie byłby też w stanie w krótkim czasie przeanalizować milionów dokumentów, z którymi systemy te mają często do czynienia, jednak na poziomie głębokiego rozumienia niesionej treści, różnica jest dość znaczna.
Najlepsze stosowane rozwiązania wciąż są bardzo zgrubnymi aproksymacjami mo-delów i procesów, zachodzących w ludzkim mózgu w trakcie przetwarzania języka. W istocie, sposób w jaki człowiek uczy się i używa go, wciąż jest w dużej mierze za-gadką, którą próbują zrozumieć badacze dziedziny kognitywistyki, psychologii czy też filozofii.
Statystyczna natura działania stosowanych w praktyce rozwiązań z zakresu lingwi-styki komputerowej, pozwala na wydobycie wielu istotnych informacji i zależności. W pojedynczych aspektach (np. w oznaczaniu części mowy) możliwe jest uzyskanie efektów podobnych do tych, jakie prezentuje osoba mówiąca biegle danym językiem. Jednak w bardziej złożonych problemach, jakość uzyskiwanych wyników istotnie od-biega od rezultatów uzyskiwanych przez ludzi.
Patrząc z odległej perspektywy, wydawałoby się, iż systemy komputerowe powinny dobrze radzić sobie z analizą tekstu pisanego: „rzeczowniki etykietują obiekty w
2.2. Trudności stojące przed przetwarzaniem języka naturalnego 26
relacje”. Kilka innych części mowy „da się zunifikować”, a jeszcze inne „odrzucić, jako że nie wnoszą istotnych informacji”. W ten sposób uzyska się interpretację struktury podmiot-orzeczenie, która „umieszczona w kontekście pozwoli na dokładne zrozumienie istoty treści”.
Ku takiemu optymistycznemu podejściu do problematyki NLP (ang. Natural
Lan-guage Processing przetwarzania języka naturalnego) skłaniały prace językoznawców
pracujących nad gramatykami generatywnymi [Dąbrowska 2003] oraz pierwsze wyniki eksperymentalne, przeprowadzane jeszcze w latach 50. na bardzo ograniczonych prób-kach języka2.
Wystarczy jednak popatrzeć na stan lingwistyki komputerowej obecnie mimo wielu lat badań, komputery nie potrafią rozumieć tekstu równie dobrze jak człowiek wyniki maszynowych tłumaczeń są często kuriozalne, systemy wyszukiwania infor-macji znajdują niekiedy wszystko, tylko nie to, czego szukamy a automatyczne pod-sumowywanie treści czy też znajdowanie odpowiedzi dopiero zaczyna „wkraczać pod strzechy”.
Wydaje się, że można wymienić dwie główne przyczyny leżące u źródeł trudno-ści z uzyskiwaniem w tych zadaniach efektów zbliżonych do ludzi. Pierwszym z nich jest rozumienie istoty treści przekazywanych z pomocą języka naturalnego. Obfituje on bowiem w wielorakie fenomeny, zabiegi stylistyczne i niuanse, które powodują, że jed-noznaczne określenie niesionego sensu staje się bardzo trudne i często zależy od utajo-nego (niewidoczutajo-nego na pierwszy rzut oka) kontekstu. Drugim powodem są ogranicze-nia w możliwościach rozumowaogranicze-nia, braku algorytmów i mechanizmów które spraw-nie dokonywałyby analizy konsekwencji wynikających z przetwarzanego tekstu oraz wszelkich powiązanych implikacji.
O ile rozwiązanie drugiego problemu wydaje się obecnie odległe, to w przypadku tego pierwszego, stosować można wiele narzędzi oraz metod, które starają się aproksy-mować „kłopotliwe” cechy języka. Te najbardziej charakterystyczne zostają wymienio-ne poniżej, w celu przybliżenia istoty tej problematyki.
2.2.1 Polisemia, homonimia i synonimia
Wśród powszechnych zjawisk językowych, „utrudniających” zadaniom lingwistyki komputerowej zrozumienie rzeczywistego sensu wyrazu, wyróźnić można polisemię,
homonimię oraz synonimię. Związane są one z relacjami między znaczeniami a formami
wyrazowymi, których efektem są niejednoznaczności w rozumieniu tekstu.
Istotą pierwszej cechy jest przypisanie wielu (w pewnym stopniu pokrewnych) zna-czeń jednemu słowu lub wyrażeniu. Na przykład, problem ten występuje w przypadku wyrazu język mającemu znaczenia organ oraz mowa.
Zbliżonym zjawiskiem jest homonimia, jednak w tym wypadku zupełnie różne zna-czenia przypadkowo mają tę samą formę językową. Na przykład znazna-czenia wyrazu bal kłoda drewna oraz przyjęcie. Granica między homonimią a polisemią nie zawsze jest wy-raźna i zależy od założonego stopnia pokrewieństwa znaczeń, które mogą być ciągle uznane za bliskie [Taylor 2003].
Z kolei synonimia to sytuacja, w której dla danego wyrazu istnieją wyrazy blisko-znaczne, mogące go zastąpić w danym kontekście.
2.2. Trudności stojące przed przetwarzaniem języka naturalnego 27
Efektem wymienionych zjawisk jest praktyczna obserwacja: analizując maszynowo znaczenie danego wyrażenia, nie wystarczy proste odwołanie się do słownika i znale-zienie jego definicji. Pojawiają się niejednoznaczności, które niejednokrotnie są skom-plikowane do rozwiązania, wymagają odpowiedniego mechanizmu rozumowania oraz znajomości kontekstu (często także tego niewynikającego bezpośrednio z samego ana-lizowanego tekstu, a związanego na przykład ze źródłem jego publikacji).
Można by sądzić, że występowanie tych zjawisk jest niepożądane i „idealny” język powinien być ich pozbawiony. Twierdzenie takie można jednak łatwo podważyć. Gdy-by relacje między forma językową i jej znaczeniem zawsze występowały jako
jeden-do-jednego, język byłby systemem statycznym, wszystkie istniejące w nim pojęcia
musia-łyby być w nim jednoznacznie zdefiniowane, a dodawanie nowych wymagałoby stwo-rzenia dla nich unikalnych form językowych [Taylor 2003]. Język taki byłby praktyczny tylko w świecie, w którym nie zachodzą żadne zmiany. Można się o tym łatwo przeko-nać empirycznie, obserwując popularność występowania polisemii czy synonimii, które znaleźć można bardzo często w języku naturalnym.
Podobnie, głębsza analiza zjawiska synonimii pokazuje, że wyrazy bliskoznaczne zwykle nie definiują dokładnie tych samych pojęć. Występują między nimi subtelne różnice, które powodują, że dobierając użycie odpowiedniego z nich można wpłynąć na znaczenie niesione w danym wyrażeniu.
2.2.2 Środki stylistyczne i problem zmiany znaczenia
Kolejną istotną cechą języka naturalnego, która znacznie komplikuje maszynową anali-zę niesionego przez tekst sensu, jest stosowanie różnych zabiegów i środków stylistycz-nych. Docelowo mają one wywoływać u odbiorcy określone emocje, opierają się więc na procesach kognitywnych ludzkiego mózgu i w oczywisty sposób umykają prostym metodom maszynowej analizy treści. Zaliczają się do nich między innymi:
• hiperbola wyolbrzymienie, przejaskrawienie cech,
• ironia zastosowanie zamierzonej niezgodności, przeciwieństwa,
• metonimia zastąpienie określenia obiektu lub akcji innym określeniem, które jest z nim związane (np. Berlin ogłosił... zamiast Rząd Niemiec ogłosił...),
• metafora przenośnia, zestawienie obcych znaczeniowo wyrazów (np. morze
gwiazd),
• związek frazeologiczny utrwalone w kulturze połączenie kilku wyrazów (np.
kro-kodyle łzy),
• zdrobnienie i zgrubienie odpowiednio, cecha mniejsza i większa od wyrazu pod-stawowego (np. nos – nosek, nochal),
• onomatopeja wyraz dźwiękonaśladowczy, odwzorowujący brzmienie danego zjawiska,
• eufemizm zastąpienie słowa lub wyrażenia innym, bardziej delikatnym (np. mija