czyli
„Dlaczego dialog z komputerem
jest taki trudny?”
Aleksander Pohl http://apohllo.pl
Katedra Informatyki, Akademia Górniczo-Hutnicza
Plan prezentacji
Lingwistyka komputerowa Wieloznaczno ´s´c Wst ˛ep Fleksja SemantykaLingwistyka komputerowa
Wieloznaczno ´s´c
Wst ˛ep Fleksja Semantyka
Kilka słów o mnie :-)
◮ Zapalony programista Rubiego
◮ Entuzjasta lingwistyki komputerowej
◮ Obecnie pracuj ˛e głównie w projekcie: Polska Platforma Bezpiecze ´nstwa Wewn ˛etrznego (u ˙zywamy Javy :-/) ◮ http://apohllo.pl
Alan Turing w 1950 roku sformułował słynny test, który mógłby da ´c odpowied ´z na pytanie: „Czy maszyna jest inteligenta?”.
◮ Podstawowa idea: ludzka inteligencja przejawia si ˛e w dialogu
Je ´sli komunikuj ˛ac si ˛e z komputerem w j ˛ezyku naturalnym nie jeste ´smy w stanie zorientowa ´c si ˛e, ˙ze mamy do czynienia z maszyn ˛a, to mo ˙zemy uzna ´c, ˙ze jest on inteligentny. Do dzi´s ˙zaden system nie przeszedł testu Turinga.
Lingwistyka komputerowa
◮ obszar wiedzy na przeci ˛eciu j ˛ezykoznawstwa i sztucznej inteligencji
◮ rozwi ˛azanie problemów j ˛ezykowych na potrzeby:
◮ komunikacji człowieka z maszyn ˛a – np. interfejs w j ˛ezyku polskim do bazy danych o filmach
◮ maszynowego tłumaczenie tekstów – jeden z pierwszych problemów LK: tłumaczenie z rosyjskiego na angielski ◮ ekstrakcji informacji – np. ´sledzenie informacji prasowych
dotycz ˛acych nowych wdzianek Dody
◮ wyszukiwania informacji – np. u˙zycie zamiast słów kluczowych pyta ´n, opisu po˙z ˛adanego rezultatu
◮ automatycznej akwizycji wiedzy – np. robot kuchenny czytaj ˛acy ksi ˛a˙zk˛e kulinarn ˛a
obszar wiedzy na przeci ˛eciu j ˛ezykoznawstwa i sztucznej inteligencji
◮ rozwi ˛azanie problemów j ˛ezykowych na potrzeby:
◮ komunikacji człowieka z maszyn ˛a – np. interfejs w j ˛ezyku
polskim do bazy danych o filmach
◮ maszynowego tłumaczenie tekstów – jeden z pierwszych
problemów LK: tłumaczenie z rosyjskiego na angielski
◮ ekstrakcji informacji – np. ´sledzenie informacji prasowych
dotycz ˛acych nowych wdzianek Dody
◮ wyszukiwania informacji – np. u˙zycie zamiast słów
kluczowych pyta ´n, opisu po˙z ˛adanego rezultatu
◮ automatycznej akwizycji wiedzy – np. robot kuchenny
Lingwistyka komputerowa
◮ obszar wiedzy na przeci ˛eciu j ˛ezykoznawstwa i sztucznej inteligencji
◮ rozwi ˛azanie problemów j ˛ezykowych na potrzeby:
◮ komunikacji człowieka z maszyn ˛a – np. interfejs w j ˛ezyku polskim do bazy danych o filmach
◮ maszynowego tłumaczenie tekstów – jeden z pierwszych
problemów LK: tłumaczenie z rosyjskiego na angielski
◮ ekstrakcji informacji – np. ´sledzenie informacji prasowych
dotycz ˛acych nowych wdzianek Dody
◮ wyszukiwania informacji – np. u˙zycie zamiast słów
kluczowych pyta ´n, opisu po˙z ˛adanego rezultatu
◮ automatycznej akwizycji wiedzy – np. robot kuchenny
obszar wiedzy na przeci ˛eciu j ˛ezykoznawstwa i sztucznej inteligencji
◮ rozwi ˛azanie problemów j ˛ezykowych na potrzeby:
◮ komunikacji człowieka z maszyn ˛a – np. interfejs w j ˛ezyku polskim do bazy danych o filmach
◮ maszynowego tłumaczenie tekstów – jeden z pierwszych problemów LK: tłumaczenie z rosyjskiego na angielski ◮ ekstrakcji informacji – np. ´sledzenie informacji prasowych
dotycz ˛acych nowych wdzianek Dody
◮ wyszukiwania informacji – np. u˙zycie zamiast słów
kluczowych pyta ´n, opisu po˙z ˛adanego rezultatu
◮ automatycznej akwizycji wiedzy – np. robot kuchenny
Lingwistyka komputerowa
◮ obszar wiedzy na przeci ˛eciu j ˛ezykoznawstwa i sztucznej inteligencji
◮ rozwi ˛azanie problemów j ˛ezykowych na potrzeby:
◮ komunikacji człowieka z maszyn ˛a – np. interfejs w j ˛ezyku polskim do bazy danych o filmach
◮ maszynowego tłumaczenie tekstów – jeden z pierwszych problemów LK: tłumaczenie z rosyjskiego na angielski ◮ ekstrakcji informacji – np. ´sledzenie informacji prasowych
dotycz ˛acych nowych wdzianek Dody
◮ wyszukiwania informacji – np. u˙zycie zamiast słów
kluczowych pyta ´n, opisu po˙z ˛adanego rezultatu
◮ automatycznej akwizycji wiedzy – np. robot kuchenny
obszar wiedzy na przeci ˛eciu j ˛ezykoznawstwa i sztucznej inteligencji
◮ rozwi ˛azanie problemów j ˛ezykowych na potrzeby:
◮ komunikacji człowieka z maszyn ˛a – np. interfejs w j ˛ezyku polskim do bazy danych o filmach
◮ maszynowego tłumaczenie tekstów – jeden z pierwszych problemów LK: tłumaczenie z rosyjskiego na angielski ◮ ekstrakcji informacji – np. ´sledzenie informacji prasowych
dotycz ˛acych nowych wdzianek Dody
◮ wyszukiwania informacji – np. u˙zycie zamiast słów kluczowych pyta ´n, opisu po˙z ˛adanego rezultatu
◮ automatycznej akwizycji wiedzy – np. robot kuchenny
Lingwistyka komputerowa
◮ obszar wiedzy na przeci ˛eciu j ˛ezykoznawstwa i sztucznej inteligencji
◮ rozwi ˛azanie problemów j ˛ezykowych na potrzeby:
◮ komunikacji człowieka z maszyn ˛a – np. interfejs w j ˛ezyku polskim do bazy danych o filmach
◮ maszynowego tłumaczenie tekstów – jeden z pierwszych problemów LK: tłumaczenie z rosyjskiego na angielski ◮ ekstrakcji informacji – np. ´sledzenie informacji prasowych
dotycz ˛acych nowych wdzianek Dody
◮ wyszukiwania informacji – np. u˙zycie zamiast słów kluczowych pyta ´n, opisu po˙z ˛adanego rezultatu
◮ automatycznej akwizycji wiedzy – np. robot kuchenny czytaj ˛acy ksi ˛a˙zk˛e kulinarn ˛a
◮ rozpoznawanie mowy/pisma – przekształcanie ci ˛agu d ´zwi ˛eków/obrazu na litery/wyrazy/zdania
◮ synteza mowy – przekształcanie napisów w d ´zwi ˛eki ◮ analiza morfologiczna – przyporz ˛adkowanie słowom ich
kategorii gramatycznej (np. ko ´n – M l. p., r. m ˛eski ˙zywotny) ◮ ujednoznacznianie sensu – przyporz ˛adkowanie słowu
poj ˛ecia (np. zamek – okre ´slenie czy chodzi o zamek jako budowl ˛e, czy zamek w drzwiach)
◮ analiza syntaktyczna – rozpoznanie gramatycznej struktury zdania, zachodz ˛acych w nim zwi ˛azków
Problemy lingwistyki komputerowej 1
◮ rozpoznawanie mowy/pisma – przekształcanie ci ˛agu d ´zwi ˛eków/obrazu na litery/wyrazy/zdania
◮ synteza mowy – przekształcanie napisów w d ´zwi ˛eki ◮ analiza morfologiczna – przyporz ˛adkowanie słowom ich
kategorii gramatycznej (np. ko ´n – M l. p., r. m ˛eski ˙zywotny) ◮ ujednoznacznianie sensu – przyporz ˛adkowanie słowu
poj ˛ecia (np. zamek – okre ´slenie czy chodzi o zamek jako budowl ˛e, czy zamek w drzwiach)
◮ analiza syntaktyczna – rozpoznanie gramatycznej struktury zdania, zachodz ˛acych w nim zwi ˛azków
◮ rozpoznawanie mowy/pisma – przekształcanie ci ˛agu d ´zwi ˛eków/obrazu na litery/wyrazy/zdania
◮ synteza mowy – przekształcanie napisów w d ´zwi ˛eki ◮ analiza morfologiczna – przyporz ˛adkowanie słowom ich
kategorii gramatycznej (np. ko ´n – M l. p., r. m ˛eski ˙zywotny) ◮ ujednoznacznianie sensu – przyporz ˛adkowanie słowu
poj ˛ecia (np. zamek – okre ´slenie czy chodzi o zamek jako budowl ˛e, czy zamek w drzwiach)
◮ analiza syntaktyczna – rozpoznanie gramatycznej struktury zdania, zachodz ˛acych w nim zwi ˛azków
Problemy lingwistyki komputerowej 1
◮ rozpoznawanie mowy/pisma – przekształcanie ci ˛agu d ´zwi ˛eków/obrazu na litery/wyrazy/zdania
◮ synteza mowy – przekształcanie napisów w d ´zwi ˛eki ◮ analiza morfologiczna – przyporz ˛adkowanie słowom ich
kategorii gramatycznej (np. ko ´n – M l. p., r. m ˛eski ˙zywotny) ◮ ujednoznacznianie sensu – przyporz ˛adkowanie słowu
poj ˛ecia (np. zamek – okre ´slenie czy chodzi o zamek jako budowl ˛e, czy zamek w drzwiach)
◮ analiza syntaktyczna – rozpoznanie gramatycznej struktury zdania, zachodz ˛acych w nim zwi ˛azków
◮ rozpoznawanie mowy/pisma – przekształcanie ci ˛agu d ´zwi ˛eków/obrazu na litery/wyrazy/zdania
◮ synteza mowy – przekształcanie napisów w d ´zwi ˛eki ◮ analiza morfologiczna – przyporz ˛adkowanie słowom ich
kategorii gramatycznej (np. ko ´n – M l. p., r. m ˛eski ˙zywotny) ◮ ujednoznacznianie sensu – przyporz ˛adkowanie słowu
poj ˛ecia (np. zamek – okre ´slenie czy chodzi o zamek jako budowl ˛e, czy zamek w drzwiach)
◮ analiza syntaktyczna – rozpoznanie gramatycznej struktury zdania, zachodz ˛acych w nim zwi ˛azków
Problemy lingwistyki komputerowej 2
◮ rozpoznawanie obiektów nazwanych – wła ´sciwa interpretacja nazw własnych i ich skrótów (np. Rzeczpospolita Polska, Polska, RP)
◮ rozpoznawanie wyra ˙ze ´n koekstensywnych –
wykrywanie wyra ˙ze ´n odnosz ˛acych si ˛e do tych samych obiektów (np. „Leo kupił Volkswagena. On lubi niemieckie samochody.”)
◮ tłumaczenie słów/wyra ˙ze ´n – wybór wła ´sciwego tłumaczenia spo ´sród wielu mo ˙zliwych
◮ „Jad ˛e samochodem.” – „I drive a car.” ◮ „Jad ˛e rowerem.” – „I ride a bicycle.”
◮ rozpoznawanie obiektów nazwanych – wła ´sciwa interpretacja nazw własnych i ich skrótów (np. Rzeczpospolita Polska, Polska, RP)
◮ rozpoznawanie wyra ˙ze ´n koekstensywnych –
wykrywanie wyra ˙ze ´n odnosz ˛acych si ˛e do tych samych obiektów (np. „Leo kupił Volkswagena. On lubi niemieckie samochody.”)
◮ tłumaczenie słów/wyra ˙ze ´n – wybór wła ´sciwego tłumaczenia spo ´sród wielu mo ˙zliwych
◮ „Jad ˛e samochodem.” – „I drive a car.” ◮ „Jad ˛e rowerem.” – „I ride a bicycle.”
Problemy lingwistyki komputerowej 2
◮ rozpoznawanie obiektów nazwanych – wła ´sciwa interpretacja nazw własnych i ich skrótów (np. Rzeczpospolita Polska, Polska, RP)
◮ rozpoznawanie wyra ˙ze ´n koekstensywnych –
wykrywanie wyra ˙ze ´n odnosz ˛acych si ˛e do tych samych obiektów (np. „Leo kupił Volkswagena. On lubi niemieckie samochody.”)
◮ tłumaczenie słów/wyra ˙ze ´n – wybór wła ´sciwego tłumaczenia spo ´sród wielu mo ˙zliwych
◮ „Jad ˛e samochodem.” – „I drive a car.” ◮ „Jad ˛e rowerem.” – „I ride a bicycle.”
◮ analiza semantyczna – interpretacja zdania w pewny j ˛ezyku formalnym (np. logice predykatów, logice
deskryptywnej), odniesienie wyra ˙ze ´n do rzeczywisto ´sci pozaj ˛ezykowej
◮ analiza dyskursu – uwzgl ˛edniania pragmatycznych aspektów komunikacji (np. dostosowanie komunikatów do zasobu słownictwa u ˙zytkownika)
◮ synteza zda ´n – tworzenie zda ´n na podstawie elementarnych danych, notacji logicznej
Problemy lingwistyki komputerowej 3
◮ analiza semantyczna – interpretacja zdania w pewny j ˛ezyku formalnym (np. logice predykatów, logice
deskryptywnej), odniesienie wyra ˙ze ´n do rzeczywisto ´sci pozaj ˛ezykowej
◮ analiza dyskursu – uwzgl ˛edniania pragmatycznych aspektów komunikacji (np. dostosowanie komunikatów do zasobu słownictwa u ˙zytkownika)
◮ synteza zda ´n – tworzenie zda ´n na podstawie elementarnych danych, notacji logicznej
◮ analiza semantyczna – interpretacja zdania w pewny j ˛ezyku formalnym (np. logice predykatów, logice
deskryptywnej), odniesienie wyra ˙ze ´n do rzeczywisto ´sci pozaj ˛ezykowej
◮ analiza dyskursu – uwzgl ˛edniania pragmatycznych aspektów komunikacji (np. dostosowanie komunikatów do zasobu słownictwa u ˙zytkownika)
◮ synteza zda ´n – tworzenie zda ´n na podstawie elementarnych danych, notacji logicznej
Plan prezentacji
Lingwistyka komputerowa Wieloznaczno ´s´c Wst ˛ep Fleksja SemantykaWieloznaczno´s´c
Wła ´sciwie brak jednoznaczno ´sci.
Przykład znany wszystkim informatykom: ◮ Jak porównujemy liczby całkowite?
a ==10
◮ Jak porównujemy liczby rzeczywiste? a ==10.0 Nie!
|a −10.0| ≤DELTA
Pojedyncza liczba rzeczywista w zapisie binarnym reprezentuje przedział liczb rzeczywistych.
Pojedynczy znak mo ˙ze by´c zinterpretowany na wiele
sposobów, mo ˙ze reprezentowa ´c ró ˙zne poj ˛ecia a przez to ró ˙zne odniesienia.
Przykład znany wszystkim informatykom: ◮ Jak porównujemy liczby całkowite?
a ==10
◮ Jak porównujemy liczby rzeczywiste? a ==10.0 Nie!
|a −10.0| ≤DELTA
Pojedyncza liczba rzeczywista w zapisie binarnym reprezentuje przedział liczb rzeczywistych.
Pojedynczy znak mo ˙ze by´c zinterpretowany na wiele
sposobów, mo ˙ze reprezentowa ´c ró ˙zne poj ˛ecia a przez to ró ˙zne odniesienia.
Wieloznaczno´s´c
Wła ´sciwie brak jednoznaczno ´sci.
Przykład znany wszystkim informatykom: ◮ Jak porównujemy liczby całkowite?
a ==10
◮ Jak porównujemy liczby rzeczywiste? a ==10.0 Nie!
|a −10.0| ≤DELTA
Pojedyncza liczba rzeczywista w zapisie binarnym reprezentuje przedział liczb rzeczywistych.
Pojedynczy znak mo ˙ze by´c zinterpretowany na wiele
sposobów, mo ˙ze reprezentowa ´c ró ˙zne poj ˛ecia a przez to ró ˙zne odniesienia.
◮ przetworzenie obrazu/d ´zwi ˛eku na tekst ◮ fleksja
◮ wyra ˙zenia zło ˙zone ◮ struktura syntaktyczna ◮ homonimia
Obraz/d´zwi ˛ek
→
tekst
◮ rozpoznanie fonemów – np. głoski d ´zwi ˛eczne i bezd ´zwi ˛eczne: p/b, t/d, etc.
◮ rozpoznanie ko ´nca wyrazu:
◮ jajem / ja jem ? ◮ tyjesz / ty jesz ? ◮ wyjecie / wy jecie ?
◮ zapis ortograficzny –ˇcarny →czarny moˇze →mo ˙ze / morze ?
◮ Rozwi ˛azanie: ukryte modele Markowa (Hidden Markov Models).
◮ Przykład zastosowania: interfejs głosowy komputera Mac (niestety tylko w j ˛ezyku angielskim).
i bezd ´zwi ˛eczne: p/b, t/d, etc. ◮ rozpoznanie ko ´nca wyrazu:
◮ jajem / ja jem ? ◮ tyjesz / ty jesz ? ◮ wyjecie / wy jecie ?
◮ zapis ortograficzny –ˇcarny →czarny moˇze →mo ˙ze / morze ?
◮ Rozwi ˛azanie: ukryte modele Markowa (Hidden Markov Models).
◮ Przykład zastosowania: interfejs głosowy komputera Mac (niestety tylko w j ˛ezyku angielskim).
Obraz/d´zwi ˛ek
→
tekst
◮ rozpoznanie fonemów – np. głoski d ´zwi ˛eczne i bezd ´zwi ˛eczne: p/b, t/d, etc.
◮ rozpoznanie ko ´nca wyrazu:
◮ jajem / ja jem ? ◮ tyjesz / ty jesz ? ◮ wyjecie / wy jecie ?
◮ zapis ortograficzny –ˇcarny →czarny moˇze →mo ˙ze / morze ?
◮ Rozwi ˛azanie: ukryte modele Markowa (Hidden Markov Models).
◮ Przykład zastosowania: interfejs głosowy komputera Mac (niestety tylko w j ˛ezyku angielskim).
i bezd ´zwi ˛eczne: p/b, t/d, etc. ◮ rozpoznanie ko ´nca wyrazu:
◮ jajem / ja jem ? ◮ tyjesz / ty jesz ? ◮ wyjecie / wy jecie ?
◮ zapis ortograficzny –ˇcarny →czarny moˇze →mo ˙ze / morze ?
◮ Rozwi ˛azanie: ukryte modele Markowa (Hidden Markov Models).
◮ Przykład zastosowania: interfejs głosowy komputera Mac (niestety tylko w j ˛ezyku angielskim).
Obraz/d´zwi ˛ek
→
tekst
◮ rozpoznanie fonemów – np. głoski d ´zwi ˛eczne i bezd ´zwi ˛eczne: p/b, t/d, etc.
◮ rozpoznanie ko ´nca wyrazu:
◮ jajem / ja jem ? ◮ tyjesz / ty jesz ? ◮ wyjecie / wy jecie ?
◮ zapis ortograficzny –ˇcarny →czarny moˇze →mo ˙ze / morze ?
◮ Rozwi ˛azanie: ukryte modele Markowa (Hidden Markov Models).
◮ Przykład zastosowania: interfejs głosowy komputera Mac (niestety tylko w j ˛ezyku angielskim).
W j ˛ezykach fleksyjnych (np. polskim) słowa odmieniaj ˛a si ˛e przez osoby, czasy, liczby, rodzaje, przypadki, stopnie:
◮ je ´s ´c: ja jem, ty jesz, on/ona/ono je, my jemy, wy jecie, oni jedz ˛a, . . . (45 form)
◮ kot: M. kot, D. kota, C. kotu, B. kota, N. kotem, Ms. kocie, W. kocie, . . .
◮ dobry: r.m., st. równy M. dobry, D. dobrego, . . . r.m., st. wy˙zszy M. lepszy, D. lepszego, . . . r.˙z., st. równy M. dobra, D. dobrej, . . .
◮ bardzo: st. równy bardzo, st. wy˙zszy bardziej, st. najwy˙zszy najbardziej
Fleksja
W j ˛ezykach fleksyjnych (np. polskim) słowa odmieniaj ˛a si ˛e przez osoby, czasy, liczby, rodzaje, przypadki, stopnie:
◮ je ´s ´c: ja jem, ty jesz, on/ona/ono je, my jemy, wy jecie, oni jedz ˛a, . . . (45 form)
◮ kot: M. kot, D. kota, C. kotu, B. kota, N. kotem, Ms. kocie, W. kocie, . . .
◮ dobry: r.m., st. równy M. dobry, D. dobrego, . . . r.m., st. wy˙zszy M. lepszy, D. lepszego, . . . r.˙z., st. równy M. dobra, D. dobrej, . . .
◮ bardzo: st. równy bardzo, st. wy˙zszy bardziej, st. najwy˙zszy najbardziej
W j ˛ezykach fleksyjnych (np. polskim) słowa odmieniaj ˛a si ˛e przez osoby, czasy, liczby, rodzaje, przypadki, stopnie:
◮ je ´s ´c: ja jem, ty jesz, on/ona/ono je, my jemy, wy jecie, oni jedz ˛a, . . . (45 form)
◮ kot: M. kot, D. kota, C. kotu, B. kota, N. kotem, Ms. kocie, W. kocie, . . .
◮ dobry: r.m., st. równy M. dobry, D. dobrego, . . . r.m., st. wy˙zszy M. lepszy, D. lepszego, . . . r.˙z., st. równy M. dobra, D. dobrej, . . .
◮ bardzo: st. równy bardzo, st. wy˙zszy bardziej, st. najwy˙zszy najbardziej
Fleksja
W j ˛ezykach fleksyjnych (np. polskim) słowa odmieniaj ˛a si ˛e przez osoby, czasy, liczby, rodzaje, przypadki, stopnie:
◮ je ´s ´c: ja jem, ty jesz, on/ona/ono je, my jemy, wy jecie, oni jedz ˛a, . . . (45 form)
◮ kot: M. kot, D. kota, C. kotu, B. kota, N. kotem, Ms. kocie, W. kocie, . . .
◮ dobry: r.m., st. równy M. dobry, D. dobrego, . . . r.m., st. wy˙zszy M. lepszy, D. lepszego, . . . r.˙z., st. równy M. dobra, D. dobrej, . . .
◮ bardzo: st. równy bardzo, st. wy˙zszy bardziej, st. najwy˙zszy najbardziej
W j ˛ezykach fleksyjnych (np. polskim) słowa odmieniaj ˛a si ˛e przez osoby, czasy, liczby, rodzaje, przypadki, stopnie:
◮ je ´s ´c: ja jem, ty jesz, on/ona/ono je, my jemy, wy jecie, oni jedz ˛a, . . . (45 form)
◮ kot: M. kot, D. kota, C. kotu, B. kota, N. kotem, Ms. kocie, W. kocie, . . .
◮ dobry: r.m., st. równy M. dobry, D. dobrego, . . . r.m., st. wy˙zszy M. lepszy, D. lepszego, . . . r.˙z., st. równy M. dobra, D. dobrej, . . .
◮ bardzo: st. równy bardzo, st. wy˙zszy bardziej, st. najwy˙zszy najbardziej
Opis morfologiczny i forma podstawowa
Podstawowy problem: dla danej formy znale ´z´c jej opis morfologiczny oraz form ˛e podstawow ˛a:
◮ »Szli przez ciemny las« – biernik liczby pojedynczej przymiotnika ciemny
◮ »Spotkali czarownic ˛e z kotem« – narz ˛ednik liczby pojedynczej rzeczownika kot
◮ »Nie czekaj ˛ac odrzekł: „Ja bior ˛e czarownic ˛e a ty kota.”« – imiesłów współczesny czasownika czeka ´c
Rozwi ˛azanie: wykorzystanie stemmera, stworzenie słownika fleksyjnego
Podstawowy problem: dla danej formy znale ´z´c jej opis morfologiczny oraz form ˛e podstawow ˛a:
◮ »Szli przez ciemny las« – biernik liczby pojedynczej przymiotnika ciemny
◮ »Spotkali czarownic ˛e z kotem« – narz ˛ednik liczby pojedynczej rzeczownika kot
◮ »Nie czekaj ˛ac odrzekł: „Ja bior ˛e czarownic ˛e a ty kota.”« – imiesłów współczesny czasownika czeka ´c
Rozwi ˛azanie: wykorzystanie stemmera, stworzenie słownika fleksyjnego
Opis morfologiczny i forma podstawowa
Podstawowy problem: dla danej formy znale ´z´c jej opis morfologiczny oraz form ˛e podstawow ˛a:
◮ »Szli przez ciemny las« – biernik liczby pojedynczej przymiotnika ciemny
◮ »Spotkali czarownic ˛e z kotem« – narz ˛ednik liczby pojedynczej rzeczownika kot
◮ »Nie czekaj ˛ac odrzekł: „Ja bior ˛e czarownic ˛e a ty kota.”« – imiesłów współczesny czasownika czeka ´c
Rozwi ˛azanie: wykorzystanie stemmera, stworzenie słownika fleksyjnego
Fleksja – wieloznaczno´s´c
Czy to wystarczy?
◮ »Wyjecie jak wyjce afryka ´nskie!« – forma podstawowa wy´c
◮ »Zanim wyjecie wszystko z talerza, umyjcie r ˛ece.« – forma podstawowa wyje ´s´c
Jednej formie mo ˙zna przypisa ´c wiele form podstawowych. ◮ »Zjadłem dzi´s dwa jaja.« – biernik liczby mnogiej
rzeczownika jajo
◮ »Nikt nie mógł znale ´z´c skradzionego jaja Fabergé.« – dopełniacz liczby pojedynczej rzeczownika jajo Jednej formie mo ˙zna przyporz ˛adkowa ´c wiele opisów morfologicznych.
◮ »Wyjecie jak wyjce afryka ´nskie!« – forma podstawowa wy´c
◮ »Zanim wyjecie wszystko z talerza, umyjcie r ˛ece.« – forma podstawowa wyje ´s´c
Jednej formie mo ˙zna przypisa ´c wiele form podstawowych. ◮ »Zjadłem dzi´s dwa jaja.« – biernik liczby mnogiej
rzeczownika jajo
◮ »Nikt nie mógł znale ´z´c skradzionego jaja Fabergé.« – dopełniacz liczby pojedynczej rzeczownika jajo Jednej formie mo ˙zna przyporz ˛adkowa ´c wiele opisów morfologicznych.
Fleksja – wieloznaczno´s´c
Czy to wystarczy?
◮ »Wyjecie jak wyjce afryka ´nskie!« – forma podstawowa wy´c
◮ »Zanim wyjecie wszystko z talerza, umyjcie r ˛ece.« – forma podstawowa wyje ´s´c
Jednej formie mo ˙zna przypisa ´c wiele form podstawowych. ◮ »Zjadłem dzi´s dwa jaja.« – biernik liczby mnogiej
rzeczownika jajo
◮ »Nikt nie mógł znale ´z´c skradzionego jaja Fabergé.« – dopełniacz liczby pojedynczej rzeczownika jajo Jednej formie mo ˙zna przyporz ˛adkowa ´c wiele opisów morfologicznych.
Dla zdania:
Nie ma rzeczy bardziej zwykłej i naturalnej ni˙z to, ˙ze ludzie, którzy maj ˛a roszczenie, i˙z odkryli jak ˛a ´s rzecz now ˛a w ´swiecie filozofii i nauk, sugeruj ˛a innym, by chwalili ich własne systemy, osławiaj ˛ac jednocze ´snie wszystkie te, które powstały wcze ´sniej. otrzymujemy 120960 kombinacj!
Rozwi ˛
azanie i zastosowania
Nie ma prostej odpowiedzi na pytanie jak rozwi ˛aza ´c powy˙zsze problemy.
Mo ˙zna wyró ˙zni´c dwa podej´scia:
◮ morfosyntaktyczne – wykorzystanie morfosyntaktycznych opisów słów wyst ˛epuj ˛acych w kontek´scie danego słowa ◮ semantyczne – wykorzystanie relacji semantycznych
zachodz ˛acych pomi ˛edzy danym słowem a innymi słowami w jego kontek´scie
Zastosowania: wyszukiwarka Google od 2007 roku
uwzgl ˛ednia fleksj ˛e j ˛ezyka polskiego, framework Ruby on Rails zna fleksj ˛e j ˛ezyka angielskiego.
Nie ma prostej odpowiedzi na pytanie jak rozwi ˛aza ´c powy˙zsze problemy.
Mo ˙zna wyró ˙zni´c dwa podej´scia:
◮ morfosyntaktyczne – wykorzystanie morfosyntaktycznych opisów słów wyst ˛epuj ˛acych w kontek´scie danego słowa ◮ semantyczne – wykorzystanie relacji semantycznych
zachodz ˛acych pomi ˛edzy danym słowem a innymi słowami w jego kontek´scie
Zastosowania: wyszukiwarka Google od 2007 roku
uwzgl ˛ednia fleksj ˛e j ˛ezyka polskiego, framework Ruby on Rails zna fleksj ˛e j ˛ezyka angielskiego.
Rozwi ˛
azanie i zastosowania
Nie ma prostej odpowiedzi na pytanie jak rozwi ˛aza ´c powy˙zsze problemy.
Mo ˙zna wyró ˙zni´c dwa podej´scia:
◮ morfosyntaktyczne – wykorzystanie morfosyntaktycznych opisów słów wyst ˛epuj ˛acych w kontek´scie danego słowa ◮ semantyczne – wykorzystanie relacji semantycznych
zachodz ˛acych pomi ˛edzy danym słowem a innymi słowami w jego kontek´scie
Zastosowania: wyszukiwarka Google od 2007 roku
uwzgl ˛ednia fleksj ˛e j ˛ezyka polskiego, framework Ruby on Rails zna fleksj ˛e j ˛ezyka angielskiego.
Nie ma prostej odpowiedzi na pytanie jak rozwi ˛aza ´c powy˙zsze problemy.
Mo ˙zna wyró ˙zni´c dwa podej´scia:
◮ morfosyntaktyczne – wykorzystanie morfosyntaktycznych opisów słów wyst ˛epuj ˛acych w kontek´scie danego słowa ◮ semantyczne – wykorzystanie relacji semantycznych
zachodz ˛acych pomi ˛edzy danym słowem a innymi słowami w jego kontek´scie
Zastosowania: wyszukiwarka Google od 2007 roku
uwzgl ˛ednia fleksj ˛e j ˛ezyka polskiego, framework Ruby on Rails zna fleksj ˛e j ˛ezyka angielskiego.
Semantyka
Semantyka to dział j ˛ezykoznawstwa, który koncentruje si ˛e na badaniu znaczenia wyra ˙ze ´n j ˛ezyka.
Jak mo ˙zna opisa ´c znaczenie słów?
◮ za pomoc ˛a definicji – w j ˛ezyku naturalnym lub formalnym: jajko 1. » ˙ze ´nska komórka rozrodcza ptaka, zwykle kury, zawieraj ˛aca białko i ˙zółtko, otoczone skorupk ˛a,
wykorzystywana jako produkt spo ˙zywczy«1
◮ za pomoc ˛a relacji semantycznych – np. hipernimii, hiponimii, holonimii, meronimii, synonimii, sprawstwa, etc.: jajko hipernimy : komórka, meronimy : ˙zółtko, białko, . . .
Semantyka to dział j ˛ezykoznawstwa, który koncentruje si ˛e na badaniu znaczenia wyra ˙ze ´n j ˛ezyka.
Jak mo ˙zna opisa ´c znaczenie słów?
◮ za pomoc ˛a definicji – w j ˛ezyku naturalnym lub formalnym: jajko 1. » ˙ze ´nska komórka rozrodcza ptaka, zwykle kury, zawieraj ˛aca białko i ˙zółtko, otoczone skorupk ˛a,
wykorzystywana jako produkt spo ˙zywczy«1
◮ za pomoc ˛a relacji semantycznych – np. hipernimii, hiponimii, holonimii, meronimii, synonimii, sprawstwa, etc.: jajko hipernimy : komórka, meronimy : ˙zółtko, białko, . . . 1Uniwersalny słownik j ˛ezyka polskiego Wydawnictwo Naukowe PWN,
Semantyka
Semantyka to dział j ˛ezykoznawstwa, który koncentruje si ˛e na badaniu znaczenia wyra ˙ze ´n j ˛ezyka.
Jak mo ˙zna opisa ´c znaczenie słów?
◮ za pomoc ˛a definicji – w j ˛ezyku naturalnym lub formalnym: jajko 1. » ˙ze ´nska komórka rozrodcza ptaka, zwykle kury, zawieraj ˛aca białko i ˙zółtko, otoczone skorupk ˛a,
wykorzystywana jako produkt spo ˙zywczy«1
◮ za pomoc ˛a relacji semantycznych – np. hipernimii, hiponimii, holonimii, meronimii, synonimii, sprawstwa, etc.: jajko hipernimy : komórka, meronimy : ˙zółtko, białko, . . . 1Uniwersalny słownik j ˛ezyka polskiego Wydawnictwo Naukowe PWN,
◮ »Kupiłem wczoraj akcje warte 100 tysi ˛ecy.« – akcja jako papier warto ´sciowy
◮ »Akcja tej ksi ˛a ˙zki rozwijała si ˛e niemrawo.« – akcja jako fabuła
Czysta homonimia – jeden wyraz (w znaczeniu leksemu) posiadaj ˛acy wiele znacze ´n
◮ »Lekarz zalecił podanie zastrzyku.« ◮ »Lekarka zaleciła podanie zastrzyku.«
Semantyka – wieloznaczno´s´c I
◮ »Kupiłem wczoraj akcje warte 100 tysi ˛ecy.« – akcja jako papier warto ´sciowy
◮ »Akcja tej ksi ˛a ˙zki rozwijała si ˛e niemrawo.« – akcja jako fabuła
Czysta homonimia – jeden wyraz (w znaczeniu leksemu) posiadaj ˛acy wiele znacze ´n
◮ »Lekarz zalecił podanie zastrzyku.« ◮ »Lekarka zaleciła podanie zastrzyku.«
Mo ˙zna wyró ˙zni´c dwa podej´scia:
◮ statystyczne – wykorzystanie algorytmów
automatycznego uczenia do wyekstrahowania zwi ˛azków semantycznych na podstawie du ˙zego korpusu tekstów. Wady: ˙zaden korpus nie jest idealny, konieczne jest r ˛eczne oznaczenie sensu wszystkich słów w korpusie
◮ symboliczne – stworzenie słownika zawieraj ˛acego relacje semantyczne lub definicje formalne
Wady: czasochłonno ´s´c, brak zgodno ´sci co do tego, które relacje powinny by´c uwzgl ˛ednione
Rozwi ˛
azanie
Mo ˙zna wyró ˙zni´c dwa podej´scia:
◮ statystyczne – wykorzystanie algorytmów
automatycznego uczenia do wyekstrahowania zwi ˛azków semantycznych na podstawie du ˙zego korpusu tekstów. Wady: ˙zaden korpus nie jest idealny, konieczne jest r ˛eczne oznaczenie sensu wszystkich słów w korpusie
◮ symboliczne – stworzenie słownika zawieraj ˛acego relacje semantyczne lub definicje formalne
Wady: czasochłonno ´s´c, brak zgodno ´sci co do tego, które relacje powinny by´c uwzgl ˛ednione
Słowniki semantyczne:
◮ WordNet – najbardziej znany słownik semantyczny j ˛ezyka angielskiego. Na jego podstawie tworzone s ˛a słowniki dla innych j ˛ezyków, np. polskiego – Słowosie ´c
◮ Zalety: liczba słów, uwzgl ˛ednienie wyra˙ze ´n zło˙zonych
i nazw własnych.
◮ Wady: brak pokrycia w korpusie tekstów, brak relacji
syntagmatycznych.
◮ Przykład: egg hypernyms: ovum, egg cell; hyponyms: nit,
spawn, roe, . . .
◮ FrameNet – słownik zawieraj ˛acy opis sytuacji i czynno ´sci. Na razie nie doczekał si ˛e ostatecznej wersji.
Rozwi ˛
azanie – cd.
Słowniki semantyczne:
◮ WordNet – najbardziej znany słownik semantyczny j ˛ezyka angielskiego. Na jego podstawie tworzone s ˛a słowniki dla innych j ˛ezyków, np. polskiego – Słowosie ´c
◮ Zalety: liczba słów, uwzgl ˛ednienie wyra˙ze ´n zło˙zonych i nazw własnych.
◮ Wady: brak pokrycia w korpusie tekstów, brak relacji
syntagmatycznych.
◮ Przykład: egg hypernyms: ovum, egg cell; hyponyms: nit, spawn, roe, . . .
◮ FrameNet – słownik zawieraj ˛acy opis sytuacji i czynno ´sci. Na razie nie doczekał si ˛e ostatecznej wersji.
Słowniki semantyczne:
◮ WordNet – najbardziej znany słownik semantyczny j ˛ezyka angielskiego. Na jego podstawie tworzone s ˛a słowniki dla innych j ˛ezyków, np. polskiego – Słowosie ´c
◮ Zalety: liczba słów, uwzgl ˛ednienie wyra˙ze ´n zło˙zonych i nazw własnych.
◮ Wady: brak pokrycia w korpusie tekstów, brak relacji
syntagmatycznych.
◮ Przykład: egg hypernyms: ovum, egg cell; hyponyms: nit, spawn, roe, . . .
◮ FrameNet – słownik zawieraj ˛acy opis sytuacji i czynno ´sci. Na razie nie doczekał si ˛e ostatecznej wersji.
Słownik semantyczny j ˛ezyka polskiego
Czy to wystarczy?
◮ »I saw clouds flying over Zurich.«
»Widziałem chmury lec ˛ace nad Zurychem.« ◮ »I saw buildings flying over Zurich.«
»Widziałem budynki lec ˛ac nad Zurychem.« Tylko na podstawie wiedzy zdroworozs ˛adkowej mo ˙zna wła ´sciwie przetłumaczy´c powy˙zsze przykłady.
Semantyka – wieloznaczno´s´c II
Czy to wystarczy?
◮ »I saw clouds flying over Zurich.«
»Widziałem chmury lec ˛ace nad Zurychem.« ◮ »I saw buildings flying over Zurich.«
»Widziałem budynki lec ˛ac nad Zurychem.« Tylko na podstawie wiedzy zdroworozs ˛adkowej mo ˙zna wła ´sciwie przetłumaczy´c powy˙zsze przykłady.
Czy to wystarczy?
◮ »I saw clouds flying over Zurich.«
»Widziałem chmury lec ˛ace nad Zurychem.« ◮ »I saw buildings flying over Zurich.«
»Widziałem budynki lec ˛ac nad Zurychem.« Tylko na podstawie wiedzy zdroworozs ˛adkowej mo ˙zna wła ´sciwie przetłumaczy´c powy˙zsze przykłady.
Semantyka – wieloznaczno´s´c II
Czy to wystarczy?
◮ »I saw clouds flying over Zurich.«
»Widziałem chmury lec ˛ace nad Zurychem.« ◮ »I saw buildings flying over Zurich.«
»Widziałem budynki lec ˛ac nad Zurychem.« Tylko na podstawie wiedzy zdroworozs ˛adkowej mo ˙zna wła ´sciwie przetłumaczy´c powy˙zsze przykłady.
◮ EnCYClopedia
◮ Suggested Upper Merged Ontology
Ontologia (w informatyce) to formalna specyfikacja konceptualizacji wybranej dziedziny wiedzy:
◮ poj ˛ecia ◮ indywidua ◮ relacje ◮ funkcje ◮ reguły
Ontologie
◮ EnCYClopedia
◮ Suggested Upper Merged Ontology
Ontologia (w informatyce) to formalna specyfikacja konceptualizacji wybranej dziedziny wiedzy:
◮ poj ˛ecia ◮ indywidua ◮ relacje ◮ funkcje ◮ reguły
Cyc oraz Sumo stanowi ˛a formalizacj ˛e zdroworozs ˛adkowej wiedzy obejmuj ˛acej najbardziej ogólne własno ´sci ´swiata.
CloudInSky Mt: UniversalVocabularyMt isa: SpatiallyDisjointObjectType ExistingObjectType Mt: TopicMt isa: WeatherObjects-Weather-Topic genls: Outdoors-ExposedToWeather
CloudlikeObject Opaque Airborne TopAndBottomSidedObject
Ontologie – cd.
Cyc oraz Sumo stanowi ˛a formalizacj ˛e zdroworozs ˛adkowej wiedzy obejmuj ˛acej najbardziej ogólne własno ´sci ´swiata.
CloudInSky Mt: UniversalVocabularyMt isa: SpatiallyDisjointObjectType ExistingObjectType Mt: TopicMt isa: WeatherObjects-Weather-Topic genls: Outdoors-ExposedToWeather
CloudlikeObject Opaque Airborne TopAndBottomSidedObject
◮ hakia.com – „semantic search”
◮ „Prawdziwe” Web 2.0 (j ˛ezyki RDF, OWL) ◮ Moduł dla Lucene bazuj ˛acy na WordNecie –
uwzgl ˛ednienie synonimów
◮ Cycorp – wykorzystuje Cyc m.in. integrowania heterogenicznych baz danych, „inteligentnego”
wyszukiwania informacji, rozproszonego AI, analizowania bezpiecze ´nstwa sieci komputerowych
◮ ABB – ´scisła kontrola procesu wytwarzania transformatorów
Zasoby
◮ WordNet –wordnet.princeton.edu
◮ FrameNet –framenet.icsi.berkeley.edu ◮ Słownik fleksyjny j ˛ezyka polskiego –
winnie.ics.agh.edu.pl/proj_uk/sfjp/index.html ◮ Słownik semantyczny j ˛ezyka polskiego (demo) –
wierzba.wzks.uj.edu.pl/∼dernow/smddemo ◮ OpenCyc –www.opencyc.org
◮ SUMO –www.ontologyportal.org ◮ Strona Włodzisława Ducha –
◮ Obrazek „Cyc” – „Everything You Always Wanted To Know About Sex” ;-)
◮ Obrazek „Sumo” – http://fallingsky.blogs.com ◮ Obrazek „Nobody knows shoes” –