• Nie Znaleziono Wyników

`Jajem, tyjesz, wyjecie’ czyli `Dlaczego dialog z komputerem jest taki trudny?’

N/A
N/A
Protected

Academic year: 2021

Share "`Jajem, tyjesz, wyjecie’ czyli `Dlaczego dialog z komputerem jest taki trudny?’"

Copied!
76
0
0

Pełen tekst

(1)

czyli

„Dlaczego dialog z komputerem

jest taki trudny?”

Aleksander Pohl http://apohllo.pl

Katedra Informatyki, Akademia Górniczo-Hutnicza

(2)

Plan prezentacji

Lingwistyka komputerowa Wieloznaczno ´s´c Wst ˛ep Fleksja Semantyka

(3)

Lingwistyka komputerowa

Wieloznaczno ´s´c

Wst ˛ep Fleksja Semantyka

(4)

Kilka słów o mnie :-)

Zapalony programista Rubiego

Entuzjasta lingwistyki komputerowej

Obecnie pracuj ˛e głównie w projekcie: Polska Platforma Bezpiecze ´nstwa Wewn ˛etrznego (u ˙zywamy Javy :-/)http://apohllo.pl

(5)

Alan Turing w 1950 roku sformułował słynny test, który mógłby da ´c odpowied ´z na pytanie: „Czy maszyna jest inteligenta?”.

◮ Podstawowa idea: ludzka inteligencja przejawia si ˛e w dialogu

Je ´sli komunikuj ˛ac si ˛e z komputerem w j ˛ezyku naturalnym nie jeste ´smy w stanie zorientowa ´c si ˛e, ˙ze mamy do czynienia z maszyn ˛a, to mo ˙zemy uzna ´c, ˙ze jest on inteligentny. Do dzi´s ˙zaden system nie przeszedł testu Turinga.

(6)

Lingwistyka komputerowa

◮ obszar wiedzy na przeci ˛eciu j ˛ezykoznawstwa i sztucznej inteligencji

◮ rozwi ˛azanie problemów j ˛ezykowych na potrzeby:

komunikacji człowieka z maszyn ˛a – np. interfejs w j ˛ezyku polskim do bazy danych o filmach

maszynowego tłumaczenie tekstów – jeden z pierwszych problemów LK: tłumaczenie z rosyjskiego na angielski ◮ ekstrakcji informacji – np. ´sledzenie informacji prasowych

dotycz ˛acych nowych wdzianek Dody

wyszukiwania informacji – np. u˙zycie zamiast słów kluczowych pyta ´n, opisu po˙z ˛adanego rezultatu

automatycznej akwizycji wiedzy – np. robot kuchenny czytaj ˛acy ksi ˛a˙zk˛e kulinarn ˛a

(7)

obszar wiedzy na przeci ˛eciu j ˛ezykoznawstwa i sztucznej inteligencji

◮ rozwi ˛azanie problemów j ˛ezykowych na potrzeby:

komunikacji człowieka z maszyn ˛a – np. interfejs w j ˛ezyku

polskim do bazy danych o filmach

maszynowego tłumaczenie tekstów – jeden z pierwszych

problemów LK: tłumaczenie z rosyjskiego na angielski

ekstrakcji informacji – np. ´sledzenie informacji prasowych

dotycz ˛acych nowych wdzianek Dody

wyszukiwania informacji – np. u˙zycie zamiast słów

kluczowych pyta ´n, opisu po˙z ˛adanego rezultatu

automatycznej akwizycji wiedzy – np. robot kuchenny

(8)

Lingwistyka komputerowa

◮ obszar wiedzy na przeci ˛eciu j ˛ezykoznawstwa i sztucznej inteligencji

◮ rozwi ˛azanie problemów j ˛ezykowych na potrzeby:

komunikacji człowieka z maszyn ˛a – np. interfejs w j ˛ezyku polskim do bazy danych o filmach

maszynowego tłumaczenie tekstów – jeden z pierwszych

problemów LK: tłumaczenie z rosyjskiego na angielski

ekstrakcji informacji – np. ´sledzenie informacji prasowych

dotycz ˛acych nowych wdzianek Dody

wyszukiwania informacji – np. u˙zycie zamiast słów

kluczowych pyta ´n, opisu po˙z ˛adanego rezultatu

automatycznej akwizycji wiedzy – np. robot kuchenny

(9)

obszar wiedzy na przeci ˛eciu j ˛ezykoznawstwa i sztucznej inteligencji

◮ rozwi ˛azanie problemów j ˛ezykowych na potrzeby:

komunikacji człowieka z maszyn ˛a – np. interfejs w j ˛ezyku polskim do bazy danych o filmach

maszynowego tłumaczenie tekstów – jeden z pierwszych problemów LK: tłumaczenie z rosyjskiego na angielski ◮ ekstrakcji informacji – np. ´sledzenie informacji prasowych

dotycz ˛acych nowych wdzianek Dody

wyszukiwania informacji – np. u˙zycie zamiast słów

kluczowych pyta ´n, opisu po˙z ˛adanego rezultatu

automatycznej akwizycji wiedzy – np. robot kuchenny

(10)

Lingwistyka komputerowa

◮ obszar wiedzy na przeci ˛eciu j ˛ezykoznawstwa i sztucznej inteligencji

◮ rozwi ˛azanie problemów j ˛ezykowych na potrzeby:

komunikacji człowieka z maszyn ˛a – np. interfejs w j ˛ezyku polskim do bazy danych o filmach

maszynowego tłumaczenie tekstów – jeden z pierwszych problemów LK: tłumaczenie z rosyjskiego na angielski ◮ ekstrakcji informacji – np. ´sledzenie informacji prasowych

dotycz ˛acych nowych wdzianek Dody

wyszukiwania informacji – np. u˙zycie zamiast słów

kluczowych pyta ´n, opisu po˙z ˛adanego rezultatu

automatycznej akwizycji wiedzy – np. robot kuchenny

(11)

obszar wiedzy na przeci ˛eciu j ˛ezykoznawstwa i sztucznej inteligencji

◮ rozwi ˛azanie problemów j ˛ezykowych na potrzeby:

komunikacji człowieka z maszyn ˛a – np. interfejs w j ˛ezyku polskim do bazy danych o filmach

maszynowego tłumaczenie tekstów – jeden z pierwszych problemów LK: tłumaczenie z rosyjskiego na angielski ◮ ekstrakcji informacji – np. ´sledzenie informacji prasowych

dotycz ˛acych nowych wdzianek Dody

wyszukiwania informacji – np. u˙zycie zamiast słów kluczowych pyta ´n, opisu po˙z ˛adanego rezultatu

automatycznej akwizycji wiedzy – np. robot kuchenny

(12)

Lingwistyka komputerowa

◮ obszar wiedzy na przeci ˛eciu j ˛ezykoznawstwa i sztucznej inteligencji

◮ rozwi ˛azanie problemów j ˛ezykowych na potrzeby:

komunikacji człowieka z maszyn ˛a – np. interfejs w j ˛ezyku polskim do bazy danych o filmach

maszynowego tłumaczenie tekstów – jeden z pierwszych problemów LK: tłumaczenie z rosyjskiego na angielski ◮ ekstrakcji informacji – np. ´sledzenie informacji prasowych

dotycz ˛acych nowych wdzianek Dody

wyszukiwania informacji – np. u˙zycie zamiast słów kluczowych pyta ´n, opisu po˙z ˛adanego rezultatu

automatycznej akwizycji wiedzy – np. robot kuchenny czytaj ˛acy ksi ˛a˙zk˛e kulinarn ˛a

(13)

rozpoznawanie mowy/pisma – przekształcanie ci ˛agu d ´zwi ˛eków/obrazu na litery/wyrazy/zdania

synteza mowy – przekształcanie napisów w d ´zwi ˛ekianaliza morfologiczna – przyporz ˛adkowanie słowom ich

kategorii gramatycznej (np. ko ´n – M l. p., r. m ˛eski ˙zywotny)ujednoznacznianie sensu – przyporz ˛adkowanie słowu

poj ˛ecia (np. zamek – okre ´slenie czy chodzi o zamek jako budowl ˛e, czy zamek w drzwiach)

analiza syntaktyczna – rozpoznanie gramatycznej struktury zdania, zachodz ˛acych w nim zwi ˛azków

(14)

Problemy lingwistyki komputerowej 1

rozpoznawanie mowy/pisma – przekształcanie ci ˛agu d ´zwi ˛eków/obrazu na litery/wyrazy/zdania

synteza mowy – przekształcanie napisów w d ´zwi ˛ekianaliza morfologiczna – przyporz ˛adkowanie słowom ich

kategorii gramatycznej (np. ko ´n – M l. p., r. m ˛eski ˙zywotny)ujednoznacznianie sensu – przyporz ˛adkowanie słowu

poj ˛ecia (np. zamek – okre ´slenie czy chodzi o zamek jako budowl ˛e, czy zamek w drzwiach)

analiza syntaktyczna – rozpoznanie gramatycznej struktury zdania, zachodz ˛acych w nim zwi ˛azków

(15)

rozpoznawanie mowy/pisma – przekształcanie ci ˛agu d ´zwi ˛eków/obrazu na litery/wyrazy/zdania

synteza mowy – przekształcanie napisów w d ´zwi ˛ekianaliza morfologiczna – przyporz ˛adkowanie słowom ich

kategorii gramatycznej (np. ko ´n – M l. p., r. m ˛eski ˙zywotny)ujednoznacznianie sensu – przyporz ˛adkowanie słowu

poj ˛ecia (np. zamek – okre ´slenie czy chodzi o zamek jako budowl ˛e, czy zamek w drzwiach)

analiza syntaktyczna – rozpoznanie gramatycznej struktury zdania, zachodz ˛acych w nim zwi ˛azków

(16)

Problemy lingwistyki komputerowej 1

rozpoznawanie mowy/pisma – przekształcanie ci ˛agu d ´zwi ˛eków/obrazu na litery/wyrazy/zdania

synteza mowy – przekształcanie napisów w d ´zwi ˛ekianaliza morfologiczna – przyporz ˛adkowanie słowom ich

kategorii gramatycznej (np. ko ´n – M l. p., r. m ˛eski ˙zywotny)ujednoznacznianie sensu – przyporz ˛adkowanie słowu

poj ˛ecia (np. zamek – okre ´slenie czy chodzi o zamek jako budowl ˛e, czy zamek w drzwiach)

analiza syntaktyczna – rozpoznanie gramatycznej struktury zdania, zachodz ˛acych w nim zwi ˛azków

(17)

rozpoznawanie mowy/pisma – przekształcanie ci ˛agu d ´zwi ˛eków/obrazu na litery/wyrazy/zdania

synteza mowy – przekształcanie napisów w d ´zwi ˛ekianaliza morfologiczna – przyporz ˛adkowanie słowom ich

kategorii gramatycznej (np. ko ´n – M l. p., r. m ˛eski ˙zywotny)ujednoznacznianie sensu – przyporz ˛adkowanie słowu

poj ˛ecia (np. zamek – okre ´slenie czy chodzi o zamek jako budowl ˛e, czy zamek w drzwiach)

analiza syntaktyczna – rozpoznanie gramatycznej struktury zdania, zachodz ˛acych w nim zwi ˛azków

(18)

Problemy lingwistyki komputerowej 2

rozpoznawanie obiektów nazwanych – wła ´sciwa interpretacja nazw własnych i ich skrótów (np. Rzeczpospolita Polska, Polska, RP)

rozpoznawanie wyra ˙ze ´n koekstensywnych –

wykrywanie wyra ˙ze ´n odnosz ˛acych si ˛e do tych samych obiektów (np. „Leo kupił Volkswagena. On lubi niemieckie samochody.”)

tłumaczenie słów/wyra ˙ze ´n – wybór wła ´sciwego tłumaczenia spo ´sród wielu mo ˙zliwych

„Jad ˛e samochodem.” – „I drive a car.”„Jad ˛e rowerem.” – „I ride a bicycle.”

(19)

rozpoznawanie obiektów nazwanych – wła ´sciwa interpretacja nazw własnych i ich skrótów (np. Rzeczpospolita Polska, Polska, RP)

rozpoznawanie wyra ˙ze ´n koekstensywnych –

wykrywanie wyra ˙ze ´n odnosz ˛acych si ˛e do tych samych obiektów (np. „Leo kupił Volkswagena. On lubi niemieckie samochody.”)

tłumaczenie słów/wyra ˙ze ´n – wybór wła ´sciwego tłumaczenia spo ´sród wielu mo ˙zliwych

„Jad ˛e samochodem.” – „I drive a car.”„Jad ˛e rowerem.” – „I ride a bicycle.”

(20)

Problemy lingwistyki komputerowej 2

rozpoznawanie obiektów nazwanych – wła ´sciwa interpretacja nazw własnych i ich skrótów (np. Rzeczpospolita Polska, Polska, RP)

rozpoznawanie wyra ˙ze ´n koekstensywnych –

wykrywanie wyra ˙ze ´n odnosz ˛acych si ˛e do tych samych obiektów (np. „Leo kupił Volkswagena. On lubi niemieckie samochody.”)

tłumaczenie słów/wyra ˙ze ´n – wybór wła ´sciwego tłumaczenia spo ´sród wielu mo ˙zliwych

„Jad ˛e samochodem.” – „I drive a car.”„Jad ˛e rowerem.” – „I ride a bicycle.”

(21)

analiza semantyczna – interpretacja zdania w pewny j ˛ezyku formalnym (np. logice predykatów, logice

deskryptywnej), odniesienie wyra ˙ze ´n do rzeczywisto ´sci pozaj ˛ezykowej

analiza dyskursu – uwzgl ˛edniania pragmatycznych aspektów komunikacji (np. dostosowanie komunikatów do zasobu słownictwa u ˙zytkownika)

synteza zda ´n – tworzenie zda ´n na podstawie elementarnych danych, notacji logicznej

(22)

Problemy lingwistyki komputerowej 3

analiza semantyczna – interpretacja zdania w pewny j ˛ezyku formalnym (np. logice predykatów, logice

deskryptywnej), odniesienie wyra ˙ze ´n do rzeczywisto ´sci pozaj ˛ezykowej

analiza dyskursu – uwzgl ˛edniania pragmatycznych aspektów komunikacji (np. dostosowanie komunikatów do zasobu słownictwa u ˙zytkownika)

synteza zda ´n – tworzenie zda ´n na podstawie elementarnych danych, notacji logicznej

(23)

analiza semantyczna – interpretacja zdania w pewny j ˛ezyku formalnym (np. logice predykatów, logice

deskryptywnej), odniesienie wyra ˙ze ´n do rzeczywisto ´sci pozaj ˛ezykowej

analiza dyskursu – uwzgl ˛edniania pragmatycznych aspektów komunikacji (np. dostosowanie komunikatów do zasobu słownictwa u ˙zytkownika)

synteza zda ´n – tworzenie zda ´n na podstawie elementarnych danych, notacji logicznej

(24)

Plan prezentacji

Lingwistyka komputerowa Wieloznaczno ´s´c Wst ˛ep Fleksja Semantyka

(25)
(26)

Wieloznaczno´s´c

Wła ´sciwie brak jednoznaczno ´sci.

Przykład znany wszystkim informatykom: ◮ Jak porównujemy liczby całkowite?

a ==10

◮ Jak porównujemy liczby rzeczywiste? a ==10.0 Nie!

|a −10.0| ≤DELTA

Pojedyncza liczba rzeczywista w zapisie binarnym reprezentuje przedział liczb rzeczywistych.

Pojedynczy znak mo ˙ze by´c zinterpretowany na wiele

sposobów, mo ˙ze reprezentowa ´c ró ˙zne poj ˛ecia a przez to ró ˙zne odniesienia.

(27)

Przykład znany wszystkim informatykom: ◮ Jak porównujemy liczby całkowite?

a ==10

◮ Jak porównujemy liczby rzeczywiste? a ==10.0 Nie!

|a −10.0| ≤DELTA

Pojedyncza liczba rzeczywista w zapisie binarnym reprezentuje przedział liczb rzeczywistych.

Pojedynczy znak mo ˙ze by´c zinterpretowany na wiele

sposobów, mo ˙ze reprezentowa ´c ró ˙zne poj ˛ecia a przez to ró ˙zne odniesienia.

(28)

Wieloznaczno´s´c

Wła ´sciwie brak jednoznaczno ´sci.

Przykład znany wszystkim informatykom: ◮ Jak porównujemy liczby całkowite?

a ==10

◮ Jak porównujemy liczby rzeczywiste? a ==10.0 Nie!

|a −10.0| ≤DELTA

Pojedyncza liczba rzeczywista w zapisie binarnym reprezentuje przedział liczb rzeczywistych.

Pojedynczy znak mo ˙ze by´c zinterpretowany na wiele

sposobów, mo ˙ze reprezentowa ´c ró ˙zne poj ˛ecia a przez to ró ˙zne odniesienia.

(29)

◮ przetworzenie obrazu/d ´zwi ˛eku na tekst ◮ fleksja

◮ wyra ˙zenia zło ˙zone ◮ struktura syntaktyczna ◮ homonimia

(30)

Obraz/d´zwi ˛ek

tekst

◮ rozpoznanie fonemów – np. głoski d ´zwi ˛eczne i bezd ´zwi ˛eczne: p/b, t/d, etc.

◮ rozpoznanie ko ´nca wyrazu:

◮ jajem / ja jem ? ◮ tyjesz / ty jesz ? ◮ wyjecie / wy jecie ?

◮ zapis ortograficzny –ˇcarny →czarny moˇze →mo ˙ze / morze ?

Rozwi ˛azanie: ukryte modele Markowa (Hidden Markov Models).

Przykład zastosowania: interfejs głosowy komputera Mac (niestety tylko w j ˛ezyku angielskim).

(31)

i bezd ´zwi ˛eczne: p/b, t/d, etc. ◮ rozpoznanie ko ´nca wyrazu:

◮ jajem / ja jem ? ◮ tyjesz / ty jesz ? ◮ wyjecie / wy jecie ?

◮ zapis ortograficzny –ˇcarny →czarny moˇze →mo ˙ze / morze ?

Rozwi ˛azanie: ukryte modele Markowa (Hidden Markov Models).

Przykład zastosowania: interfejs głosowy komputera Mac (niestety tylko w j ˛ezyku angielskim).

(32)

Obraz/d´zwi ˛ek

tekst

◮ rozpoznanie fonemów – np. głoski d ´zwi ˛eczne i bezd ´zwi ˛eczne: p/b, t/d, etc.

◮ rozpoznanie ko ´nca wyrazu:

◮ jajem / ja jem ? ◮ tyjesz / ty jesz ? ◮ wyjecie / wy jecie ?

◮ zapis ortograficzny –ˇcarny →czarny moˇze →mo ˙ze / morze ?

Rozwi ˛azanie: ukryte modele Markowa (Hidden Markov Models).

Przykład zastosowania: interfejs głosowy komputera Mac (niestety tylko w j ˛ezyku angielskim).

(33)

i bezd ´zwi ˛eczne: p/b, t/d, etc. ◮ rozpoznanie ko ´nca wyrazu:

◮ jajem / ja jem ? ◮ tyjesz / ty jesz ? ◮ wyjecie / wy jecie ?

◮ zapis ortograficzny –ˇcarny →czarny moˇze →mo ˙ze / morze ?

Rozwi ˛azanie: ukryte modele Markowa (Hidden Markov Models).

Przykład zastosowania: interfejs głosowy komputera Mac (niestety tylko w j ˛ezyku angielskim).

(34)

Obraz/d´zwi ˛ek

tekst

◮ rozpoznanie fonemów – np. głoski d ´zwi ˛eczne i bezd ´zwi ˛eczne: p/b, t/d, etc.

◮ rozpoznanie ko ´nca wyrazu:

◮ jajem / ja jem ? ◮ tyjesz / ty jesz ? ◮ wyjecie / wy jecie ?

◮ zapis ortograficzny –ˇcarny →czarny moˇze →mo ˙ze / morze ?

Rozwi ˛azanie: ukryte modele Markowa (Hidden Markov Models).

Przykład zastosowania: interfejs głosowy komputera Mac (niestety tylko w j ˛ezyku angielskim).

(35)

W j ˛ezykach fleksyjnych (np. polskim) słowa odmieniaj ˛a si ˛e przez osoby, czasy, liczby, rodzaje, przypadki, stopnie:

je ´s ´c: ja jem, ty jesz, on/ona/ono je, my jemy, wy jecie, oni jedz ˛a, . . . (45 form)

kot: M. kot, D. kota, C. kotu, B. kota, N. kotem, Ms. kocie, W. kocie, . . .

dobry: r.m., st. równy M. dobry, D. dobrego, . . . r.m., st. wy˙zszy M. lepszy, D. lepszego, . . . r.˙z., st. równy M. dobra, D. dobrej, . . .

bardzo: st. równy bardzo, st. wy˙zszy bardziej, st. najwy˙zszy najbardziej

(36)

Fleksja

W j ˛ezykach fleksyjnych (np. polskim) słowa odmieniaj ˛a si ˛e przez osoby, czasy, liczby, rodzaje, przypadki, stopnie:

je ´s ´c: ja jem, ty jesz, on/ona/ono je, my jemy, wy jecie, oni jedz ˛a, . . . (45 form)

kot: M. kot, D. kota, C. kotu, B. kota, N. kotem, Ms. kocie, W. kocie, . . .

dobry: r.m., st. równy M. dobry, D. dobrego, . . . r.m., st. wy˙zszy M. lepszy, D. lepszego, . . . r.˙z., st. równy M. dobra, D. dobrej, . . .

bardzo: st. równy bardzo, st. wy˙zszy bardziej, st. najwy˙zszy najbardziej

(37)

W j ˛ezykach fleksyjnych (np. polskim) słowa odmieniaj ˛a si ˛e przez osoby, czasy, liczby, rodzaje, przypadki, stopnie:

je ´s ´c: ja jem, ty jesz, on/ona/ono je, my jemy, wy jecie, oni jedz ˛a, . . . (45 form)

kot: M. kot, D. kota, C. kotu, B. kota, N. kotem, Ms. kocie, W. kocie, . . .

dobry: r.m., st. równy M. dobry, D. dobrego, . . . r.m., st. wy˙zszy M. lepszy, D. lepszego, . . . r.˙z., st. równy M. dobra, D. dobrej, . . .

bardzo: st. równy bardzo, st. wy˙zszy bardziej, st. najwy˙zszy najbardziej

(38)

Fleksja

W j ˛ezykach fleksyjnych (np. polskim) słowa odmieniaj ˛a si ˛e przez osoby, czasy, liczby, rodzaje, przypadki, stopnie:

je ´s ´c: ja jem, ty jesz, on/ona/ono je, my jemy, wy jecie, oni jedz ˛a, . . . (45 form)

kot: M. kot, D. kota, C. kotu, B. kota, N. kotem, Ms. kocie, W. kocie, . . .

dobry: r.m., st. równy M. dobry, D. dobrego, . . . r.m., st. wy˙zszy M. lepszy, D. lepszego, . . . r.˙z., st. równy M. dobra, D. dobrej, . . .

bardzo: st. równy bardzo, st. wy˙zszy bardziej, st. najwy˙zszy najbardziej

(39)

W j ˛ezykach fleksyjnych (np. polskim) słowa odmieniaj ˛a si ˛e przez osoby, czasy, liczby, rodzaje, przypadki, stopnie:

je ´s ´c: ja jem, ty jesz, on/ona/ono je, my jemy, wy jecie, oni jedz ˛a, . . . (45 form)

kot: M. kot, D. kota, C. kotu, B. kota, N. kotem, Ms. kocie, W. kocie, . . .

dobry: r.m., st. równy M. dobry, D. dobrego, . . . r.m., st. wy˙zszy M. lepszy, D. lepszego, . . . r.˙z., st. równy M. dobra, D. dobrej, . . .

bardzo: st. równy bardzo, st. wy˙zszy bardziej, st. najwy˙zszy najbardziej

(40)

Opis morfologiczny i forma podstawowa

Podstawowy problem: dla danej formy znale ´z´c jej opis morfologiczny oraz form ˛e podstawow ˛a:

»Szli przez ciemny las« – biernik liczby pojedynczej przymiotnika ciemny

»Spotkali czarownic ˛e z kotem« – narz ˛ednik liczby pojedynczej rzeczownika kot

»Nie czekaj ˛ac odrzekł: „Ja bior ˛e czarownic ˛e a ty kota.”« – imiesłów współczesny czasownika czeka ´c

Rozwi ˛azanie: wykorzystanie stemmera, stworzenie słownika fleksyjnego

(41)

Podstawowy problem: dla danej formy znale ´z´c jej opis morfologiczny oraz form ˛e podstawow ˛a:

»Szli przez ciemny las« – biernik liczby pojedynczej przymiotnika ciemny

»Spotkali czarownic ˛e z kotem« – narz ˛ednik liczby pojedynczej rzeczownika kot

»Nie czekaj ˛ac odrzekł: „Ja bior ˛e czarownic ˛e a ty kota.”« – imiesłów współczesny czasownika czeka ´c

Rozwi ˛azanie: wykorzystanie stemmera, stworzenie słownika fleksyjnego

(42)

Opis morfologiczny i forma podstawowa

Podstawowy problem: dla danej formy znale ´z´c jej opis morfologiczny oraz form ˛e podstawow ˛a:

»Szli przez ciemny las« – biernik liczby pojedynczej przymiotnika ciemny

»Spotkali czarownic ˛e z kotem« – narz ˛ednik liczby pojedynczej rzeczownika kot

»Nie czekaj ˛ac odrzekł: „Ja bior ˛e czarownic ˛e a ty kota.”« – imiesłów współczesny czasownika czeka ´c

Rozwi ˛azanie: wykorzystanie stemmera, stworzenie słownika fleksyjnego

(43)
(44)

Fleksja – wieloznaczno´s´c

Czy to wystarczy?

»Wyjecie jak wyjce afryka ´nskie!« – forma podstawowa wy´c

»Zanim wyjecie wszystko z talerza, umyjcie r ˛ece.« – forma podstawowa wyje ´s´c

Jednej formie mo ˙zna przypisa ´c wiele form podstawowych.»Zjadłem dzi´s dwa jaja.« – biernik liczby mnogiej

rzeczownika jajo

»Nikt nie mógł znale ´z´c skradzionego jaja Fabergé.« – dopełniacz liczby pojedynczej rzeczownika jajo Jednej formie mo ˙zna przyporz ˛adkowa ´c wiele opisów morfologicznych.

(45)

»Wyjecie jak wyjce afryka ´nskie!« – forma podstawowa wy´c

»Zanim wyjecie wszystko z talerza, umyjcie r ˛ece.« – forma podstawowa wyje ´s´c

Jednej formie mo ˙zna przypisa ´c wiele form podstawowych.»Zjadłem dzi´s dwa jaja.« – biernik liczby mnogiej

rzeczownika jajo

»Nikt nie mógł znale ´z´c skradzionego jaja Fabergé.« – dopełniacz liczby pojedynczej rzeczownika jajo Jednej formie mo ˙zna przyporz ˛adkowa ´c wiele opisów morfologicznych.

(46)

Fleksja – wieloznaczno´s´c

Czy to wystarczy?

»Wyjecie jak wyjce afryka ´nskie!« – forma podstawowa wy´c

»Zanim wyjecie wszystko z talerza, umyjcie r ˛ece.« – forma podstawowa wyje ´s´c

Jednej formie mo ˙zna przypisa ´c wiele form podstawowych.»Zjadłem dzi´s dwa jaja.« – biernik liczby mnogiej

rzeczownika jajo

»Nikt nie mógł znale ´z´c skradzionego jaja Fabergé.« – dopełniacz liczby pojedynczej rzeczownika jajo Jednej formie mo ˙zna przyporz ˛adkowa ´c wiele opisów morfologicznych.

(47)

Dla zdania:

Nie ma rzeczy bardziej zwykłej i naturalnej ni˙z to, ˙ze ludzie, którzy maj ˛a roszczenie, i˙z odkryli jak ˛a ´s rzecz now ˛a w ´swiecie filozofii i nauk, sugeruj ˛a innym, by chwalili ich własne systemy, osławiaj ˛ac jednocze ´snie wszystkie te, które powstały wcze ´sniej. otrzymujemy 120960 kombinacj!

(48)

Rozwi ˛

azanie i zastosowania

Nie ma prostej odpowiedzi na pytanie jak rozwi ˛aza ´c powy˙zsze problemy.

Mo ˙zna wyró ˙zni´c dwa podej´scia:

morfosyntaktyczne – wykorzystanie morfosyntaktycznych opisów słów wyst ˛epuj ˛acych w kontek´scie danego słowa ◮ semantyczne – wykorzystanie relacji semantycznych

zachodz ˛acych pomi ˛edzy danym słowem a innymi słowami w jego kontek´scie

Zastosowania: wyszukiwarka Google od 2007 roku

uwzgl ˛ednia fleksj ˛e j ˛ezyka polskiego, framework Ruby on Rails zna fleksj ˛e j ˛ezyka angielskiego.

(49)

Nie ma prostej odpowiedzi na pytanie jak rozwi ˛aza ´c powy˙zsze problemy.

Mo ˙zna wyró ˙zni´c dwa podej´scia:

morfosyntaktyczne – wykorzystanie morfosyntaktycznych opisów słów wyst ˛epuj ˛acych w kontek´scie danego słowa ◮ semantyczne – wykorzystanie relacji semantycznych

zachodz ˛acych pomi ˛edzy danym słowem a innymi słowami w jego kontek´scie

Zastosowania: wyszukiwarka Google od 2007 roku

uwzgl ˛ednia fleksj ˛e j ˛ezyka polskiego, framework Ruby on Rails zna fleksj ˛e j ˛ezyka angielskiego.

(50)

Rozwi ˛

azanie i zastosowania

Nie ma prostej odpowiedzi na pytanie jak rozwi ˛aza ´c powy˙zsze problemy.

Mo ˙zna wyró ˙zni´c dwa podej´scia:

morfosyntaktyczne – wykorzystanie morfosyntaktycznych opisów słów wyst ˛epuj ˛acych w kontek´scie danego słowa ◮ semantyczne – wykorzystanie relacji semantycznych

zachodz ˛acych pomi ˛edzy danym słowem a innymi słowami w jego kontek´scie

Zastosowania: wyszukiwarka Google od 2007 roku

uwzgl ˛ednia fleksj ˛e j ˛ezyka polskiego, framework Ruby on Rails zna fleksj ˛e j ˛ezyka angielskiego.

(51)

Nie ma prostej odpowiedzi na pytanie jak rozwi ˛aza ´c powy˙zsze problemy.

Mo ˙zna wyró ˙zni´c dwa podej´scia:

morfosyntaktyczne – wykorzystanie morfosyntaktycznych opisów słów wyst ˛epuj ˛acych w kontek´scie danego słowa ◮ semantyczne – wykorzystanie relacji semantycznych

zachodz ˛acych pomi ˛edzy danym słowem a innymi słowami w jego kontek´scie

Zastosowania: wyszukiwarka Google od 2007 roku

uwzgl ˛ednia fleksj ˛e j ˛ezyka polskiego, framework Ruby on Rails zna fleksj ˛e j ˛ezyka angielskiego.

(52)

Semantyka

Semantyka to dział j ˛ezykoznawstwa, który koncentruje si ˛e na badaniu znaczenia wyra ˙ze ´n j ˛ezyka.

Jak mo ˙zna opisa ´c znaczenie słów?

◮ za pomoc ˛a definicji – w j ˛ezyku naturalnym lub formalnym: jajko 1. » ˙ze ´nska komórka rozrodcza ptaka, zwykle kury, zawieraj ˛aca białko i ˙zółtko, otoczone skorupk ˛a,

wykorzystywana jako produkt spo ˙zywczy«1

◮ za pomoc ˛a relacji semantycznych – np. hipernimii, hiponimii, holonimii, meronimii, synonimii, sprawstwa, etc.: jajko hipernimy : komórka, meronimy : ˙zółtko, białko, . . .

(53)

Semantyka to dział j ˛ezykoznawstwa, który koncentruje si ˛e na badaniu znaczenia wyra ˙ze ´n j ˛ezyka.

Jak mo ˙zna opisa ´c znaczenie słów?

◮ za pomoc ˛a definicji – w j ˛ezyku naturalnym lub formalnym: jajko 1. » ˙ze ´nska komórka rozrodcza ptaka, zwykle kury, zawieraj ˛aca białko i ˙zółtko, otoczone skorupk ˛a,

wykorzystywana jako produkt spo ˙zywczy«1

◮ za pomoc ˛a relacji semantycznych – np. hipernimii, hiponimii, holonimii, meronimii, synonimii, sprawstwa, etc.: jajko hipernimy : komórka, meronimy : ˙zółtko, białko, . . . 1Uniwersalny słownik j ˛ezyka polskiego Wydawnictwo Naukowe PWN,

(54)

Semantyka

Semantyka to dział j ˛ezykoznawstwa, który koncentruje si ˛e na badaniu znaczenia wyra ˙ze ´n j ˛ezyka.

Jak mo ˙zna opisa ´c znaczenie słów?

◮ za pomoc ˛a definicji – w j ˛ezyku naturalnym lub formalnym: jajko 1. » ˙ze ´nska komórka rozrodcza ptaka, zwykle kury, zawieraj ˛aca białko i ˙zółtko, otoczone skorupk ˛a,

wykorzystywana jako produkt spo ˙zywczy«1

◮ za pomoc ˛a relacji semantycznych – np. hipernimii, hiponimii, holonimii, meronimii, synonimii, sprawstwa, etc.: jajko hipernimy : komórka, meronimy : ˙zółtko, białko, . . . 1Uniwersalny słownik j ˛ezyka polskiego Wydawnictwo Naukowe PWN,

(55)

»Kupiłem wczoraj akcje warte 100 tysi ˛ecy.« – akcja jako papier warto ´sciowy

»Akcja tej ksi ˛a ˙zki rozwijała si ˛e niemrawo.« – akcja jako fabuła

Czysta homonimia – jeden wyraz (w znaczeniu leksemu) posiadaj ˛acy wiele znacze ´n

»Lekarz zalecił podanie zastrzyku.«»Lekarka zaleciła podanie zastrzyku.«

(56)

Semantyka – wieloznaczno´s´c I

»Kupiłem wczoraj akcje warte 100 tysi ˛ecy.« – akcja jako papier warto ´sciowy

»Akcja tej ksi ˛a ˙zki rozwijała si ˛e niemrawo.« – akcja jako fabuła

Czysta homonimia – jeden wyraz (w znaczeniu leksemu) posiadaj ˛acy wiele znacze ´n

»Lekarz zalecił podanie zastrzyku.«»Lekarka zaleciła podanie zastrzyku.«

(57)

Mo ˙zna wyró ˙zni´c dwa podej´scia:

statystyczne – wykorzystanie algorytmów

automatycznego uczenia do wyekstrahowania zwi ˛azków semantycznych na podstawie du ˙zego korpusu tekstów. Wady: ˙zaden korpus nie jest idealny, konieczne jest r ˛eczne oznaczenie sensu wszystkich słów w korpusie

symboliczne – stworzenie słownika zawieraj ˛acego relacje semantyczne lub definicje formalne

Wady: czasochłonno ´s´c, brak zgodno ´sci co do tego, które relacje powinny by´c uwzgl ˛ednione

(58)

Rozwi ˛

azanie

Mo ˙zna wyró ˙zni´c dwa podej´scia:

statystyczne – wykorzystanie algorytmów

automatycznego uczenia do wyekstrahowania zwi ˛azków semantycznych na podstawie du ˙zego korpusu tekstów. Wady: ˙zaden korpus nie jest idealny, konieczne jest r ˛eczne oznaczenie sensu wszystkich słów w korpusie

symboliczne – stworzenie słownika zawieraj ˛acego relacje semantyczne lub definicje formalne

Wady: czasochłonno ´s´c, brak zgodno ´sci co do tego, które relacje powinny by´c uwzgl ˛ednione

(59)

Słowniki semantyczne:

WordNet – najbardziej znany słownik semantyczny j ˛ezyka angielskiego. Na jego podstawie tworzone s ˛a słowniki dla innych j ˛ezyków, np. polskiego – Słowosie ´c

◮ Zalety: liczba słów, uwzgl ˛ednienie wyra˙ze ´n zło˙zonych

i nazw własnych.

Wady: brak pokrycia w korpusie tekstów, brak relacji

syntagmatycznych.

Przykład: egg hypernyms: ovum, egg cell; hyponyms: nit,

spawn, roe, . . .

FrameNet – słownik zawieraj ˛acy opis sytuacji i czynno ´sci. Na razie nie doczekał si ˛e ostatecznej wersji.

(60)

Rozwi ˛

azanie – cd.

Słowniki semantyczne:

WordNet – najbardziej znany słownik semantyczny j ˛ezyka angielskiego. Na jego podstawie tworzone s ˛a słowniki dla innych j ˛ezyków, np. polskiego – Słowosie ´c

◮ Zalety: liczba słów, uwzgl ˛ednienie wyra˙ze ´n zło˙zonych i nazw własnych.

Wady: brak pokrycia w korpusie tekstów, brak relacji

syntagmatycznych.

Przykład: egg hypernyms: ovum, egg cell; hyponyms: nit, spawn, roe, . . .

FrameNet – słownik zawieraj ˛acy opis sytuacji i czynno ´sci. Na razie nie doczekał si ˛e ostatecznej wersji.

(61)

Słowniki semantyczne:

WordNet – najbardziej znany słownik semantyczny j ˛ezyka angielskiego. Na jego podstawie tworzone s ˛a słowniki dla innych j ˛ezyków, np. polskiego – Słowosie ´c

◮ Zalety: liczba słów, uwzgl ˛ednienie wyra˙ze ´n zło˙zonych i nazw własnych.

Wady: brak pokrycia w korpusie tekstów, brak relacji

syntagmatycznych.

Przykład: egg hypernyms: ovum, egg cell; hyponyms: nit, spawn, roe, . . .

FrameNet – słownik zawieraj ˛acy opis sytuacji i czynno ´sci. Na razie nie doczekał si ˛e ostatecznej wersji.

(62)

Słownik semantyczny j ˛ezyka polskiego

(63)

Czy to wystarczy?

»I saw clouds flying over Zurich.«

»Widziałem chmury lec ˛ace nad Zurychem.«»I saw buildings flying over Zurich.«

»Widziałem budynki lec ˛ac nad Zurychem.« Tylko na podstawie wiedzy zdroworozs ˛adkowej mo ˙zna wła ´sciwie przetłumaczy´c powy˙zsze przykłady.

(64)

Semantyka – wieloznaczno´s´c II

Czy to wystarczy?

»I saw clouds flying over Zurich.«

»Widziałem chmury lec ˛ace nad Zurychem.«»I saw buildings flying over Zurich.«

»Widziałem budynki lec ˛ac nad Zurychem.« Tylko na podstawie wiedzy zdroworozs ˛adkowej mo ˙zna wła ´sciwie przetłumaczy´c powy˙zsze przykłady.

(65)

Czy to wystarczy?

»I saw clouds flying over Zurich.«

»Widziałem chmury lec ˛ace nad Zurychem.«»I saw buildings flying over Zurich.«

»Widziałem budynki lec ˛ac nad Zurychem.« Tylko na podstawie wiedzy zdroworozs ˛adkowej mo ˙zna wła ´sciwie przetłumaczy´c powy˙zsze przykłady.

(66)

Semantyka – wieloznaczno´s´c II

Czy to wystarczy?

»I saw clouds flying over Zurich.«

»Widziałem chmury lec ˛ace nad Zurychem.«»I saw buildings flying over Zurich.«

»Widziałem budynki lec ˛ac nad Zurychem.« Tylko na podstawie wiedzy zdroworozs ˛adkowej mo ˙zna wła ´sciwie przetłumaczy´c powy˙zsze przykłady.

(67)
(68)
(69)

EnCYClopedia

Suggested Upper Merged Ontology

Ontologia (w informatyce) to formalna specyfikacja konceptualizacji wybranej dziedziny wiedzy:

◮ poj ˛ecia ◮ indywidua ◮ relacje ◮ funkcje ◮ reguły

(70)

Ontologie

EnCYClopedia

Suggested Upper Merged Ontology

Ontologia (w informatyce) to formalna specyfikacja konceptualizacji wybranej dziedziny wiedzy:

◮ poj ˛ecia ◮ indywidua ◮ relacje ◮ funkcje ◮ reguły

(71)

Cyc oraz Sumo stanowi ˛a formalizacj ˛e zdroworozs ˛adkowej wiedzy obejmuj ˛acej najbardziej ogólne własno ´sci ´swiata.

CloudInSky Mt: UniversalVocabularyMt isa: SpatiallyDisjointObjectType ExistingObjectType Mt: TopicMt isa: WeatherObjects-Weather-Topic genls: Outdoors-ExposedToWeather

CloudlikeObject Opaque Airborne TopAndBottomSidedObject

(72)

Ontologie – cd.

Cyc oraz Sumo stanowi ˛a formalizacj ˛e zdroworozs ˛adkowej wiedzy obejmuj ˛acej najbardziej ogólne własno ´sci ´swiata.

CloudInSky Mt: UniversalVocabularyMt isa: SpatiallyDisjointObjectType ExistingObjectType Mt: TopicMt isa: WeatherObjects-Weather-Topic genls: Outdoors-ExposedToWeather

CloudlikeObject Opaque Airborne TopAndBottomSidedObject

(73)

◮ hakia.com – „semantic search”

◮ „Prawdziwe” Web 2.0 (j ˛ezyki RDF, OWL) ◮ Moduł dla Lucene bazuj ˛acy na WordNecie –

uwzgl ˛ednienie synonimów

◮ Cycorp – wykorzystuje Cyc m.in. integrowania heterogenicznych baz danych, „inteligentnego”

wyszukiwania informacji, rozproszonego AI, analizowania bezpiecze ´nstwa sieci komputerowych

◮ ABB – ´scisła kontrola procesu wytwarzania transformatorów

(74)

Zasoby

◮ WordNet –wordnet.princeton.edu

◮ FrameNet –framenet.icsi.berkeley.edu ◮ Słownik fleksyjny j ˛ezyka polskiego –

winnie.ics.agh.edu.pl/proj_uk/sfjp/index.html ◮ Słownik semantyczny j ˛ezyka polskiego (demo) –

wierzba.wzks.uj.edu.pl/∼dernow/smddemo ◮ OpenCyc –www.opencyc.org

◮ SUMO –www.ontologyportal.org ◮ Strona Włodzisława Ducha –

(75)

◮ Obrazek „Cyc” – „Everything You Always Wanted To Know About Sex” ;-)

◮ Obrazek „Sumo” – http://fallingsky.blogs.com ◮ Obrazek „Nobody knows shoes” –

(76)

Cytaty

Powiązane dokumenty

Dla osób nieznających znaków fonetycznych symbole z I i II kolumny mogą być łudząco podobne lub identyczne. Dlatego też sama próba zapisania tekstu fonetycznie wiąże się

M ore complex structures are superimposed in it on the simple structure of dialogue:-as when the same phrase means something different in the speaker’s position

b) Au pôle opposé dans la culture littéraire de l’époque sta- nislavienne se situe le type de contact avec la littératu re caractéristi­ que du public

Avec les réunions de la «société», avec la chasse, la gawęda a conquis un large champ. Comme le Caporal des Aïeux. Derrière chacun de ces récits, com me

Im Jahre 1560 wurden zu diesem Hof, mit Aussaaten von Roggen und Gerste unter 216 Scheffeln, 18 Pflugdienste aus vier Dörfern und vier Kotzen verord- net; dagegen nach dem Amtsbuch

“Almänna Tidningar” informed on the fact of read- ing out loud in the Seym on March 5, 1790 of King Gustav III’s note in which the Swedish monarch declared aid to Poland if

W przypadku, gdy zagęszczenie punktów pomiarowych jest wystarczające a pragniemy otrzymać rozkład wartości pola pomiędzy punktami dla innych celów (np. dalszego

Die Tiefe des Fahrwassers, das die nach Swinemünde fahrenden Schiffe passierten, betrug 10–12 m, jedoch befand sich auf diesem Weg (und befindet sich immer noch) Odersandbank mit