• Nie Znaleziono Wyników

3.4 Wyniki i analiza eksperymentów

3.4.6 Wnioski

wych, skrypt „sukcesy naukowe.yml” szczegółowo opisany co do zasady działania w rozdziale 5.1 oraz co do budowy samego skryptu w rozdziale 5.2.2.

" " " " " " " " " " "                 ! "      &$%(( #% '           

Rysunek 3.6: Eksperyment 5: wykres ilości przetworzonych stron do procentu odkrycia stron interesujących na korpusie wiadomosci.onet.pl z wykorzystaniem skryptu „sukcesy naukowe.yml”.

Na rysunku 3.6 zaprezentowano, że podobnie jak w poprzednim eksperymen-cie jedynie metoda BFS daje średni rezultat powyżej losowego crawlera. Wpraw-dzie eksperymentów z użyciem skryptów nie można bezpośrednio porównać do eksperymentów z użyciem słów kluczowych, to jednak zauważyć można wyraźnie, że żadna z metod nie wykazuje tendencji do bycia wiodąca lub wyraźnie lepszą od metody losowej.

3.4.6 Wnioski

Analizując dane pomiarowe zebrane w tabeli 3.1 niezależnie od wyboru rodza-ju oceny semantycznej stron interesujących, nie można wskazać żadnej klasycznej strategii doboru linków jako strategii wyraźnie lepszej (dominującej). Otrzymane wyniki są zależne w stosunku do korpusu jak i do tematyki. Wnioski z powyż-szych eksperymentów nasuwają stwierdzenie, że wśród przetestowanych strategii asemantycznych żadna z nich nie jest uniwersalnie dobra, a korelacja jakościo-wa jest silnie związana z doborem korpusu i tematyki wyszukijakościo-wania. Poprzez

porównanie strategii klasycznych do strategii losowej i dużej zbieżności wyników, można również przyjąć, że metody te mają niską jakość ponieważ tylko w rzadkich przypadkach okazują się wyraźnie lepsze od losowania odsyłaczy.

Strategie klasyczne

Random BFS DFS Backlink Reverse Backlink

Eksperyment 1. 75% 79% 71% 59% 66%

Eksperyment 2. 83% 80% 68% 96% 62%

Eksperyment 3. 81% 80% 98% 75% 99%

Eksperyment 4. 80% 79% 82% 82% 83%

Eksperyment 5. 84% 80% 86% 82% 86%

Tabela 3.1: Procent przetworzonych odsyłaczy w momencie odkrycia 80% inte-resujących dokumentów w eksperymentach od 1. do 5. (mniej = lepiej; wartości pogrubione to najlepsze rezultaty w obrębie eksperymentu)

Strategia semantyczna doboru linków powinna więc cechować się wyraźnie lepszą jakością od wszystkich metod asemantycznych dla różnych tematów wy-szukiwania.

Rozdział 4

Semantyczna ocena tekstu

Tekst, czyli utrwalona za pomocą pisma ludzka wypowiedź, jest jedną z naj-starszych i najczęściej stosowanych form przekazywania i przechowywania infor-macji. Elektroniczne rozpowszechnianie informacji zakodowanej w postaci tekstu wymusiło poszukiwanie efektywnych algorytmów przetwarzających informację tekstową – przez przetwarzanie rozumiemy tu przede wszystkim wyszukiwanie tekstów zawierających określoną informację, np. Jak bronić się przed szkodnika-mi? oraz ekstrakcję informacji z tekstu, np. z tekstu o zwalczaniu szkodników można wyekstrahować informację: Szkodniki drewna zwalczamy za pomocą roz-cieńczonego kwasu borowego. Teksty zawierające poszukiwaną informację lub sa-ma wyekstrahowana inforsa-macja mogą być przetwarzane przez kolejne algorytmy, np. algorytmy pozyskiwania wiedzy.

Podstawą konstrukcji algorytmów przetwarzania informacji tekstowej są zało-żenia dotyczące modelu tekstu. Można bowiem widzieć tekst: jako ciąg napisów, jako zbiór symboli i jako strukturę zbudowaną z symboli. Mając zdefiniowany mo-del tekstu musimy wybrać momo-del interpretacji informacji tekstowej. Mamy tu do dyspozycji dwa modele: model asemantyczny (mechaniczny) i model seman-tyczny. Interpretacja mechaniczna polega na badaniu algebraicznych zależności zachodzących pomiędzy ilościową charakterystyką jednostki tekstu (napisy, sym-bole) budowaną w obrębie tekstu, a ilościowymi charakterystykami tej samej jed-nostki budowanymi w obrębie korpusu tekstów. Interpretacja semantyczna odwo-łuje się do dających się zaobserwować zachowań językowych człowieka. Niestety, nie możemy zbadać tego, jak człowiek tworzy i rozumie tekst. Możemy jednak – przynajmniej częściowo – obserwować to, jak człowiek interpretuje tekst. Wi-dzimy np. że człowiek czytający w tekście napis spaniel wie, że chodzi o psa, co prowadzi nas do wniosku, że symbole występujące w tekście mogą być powiązane z symbolami, które w tekście nie występują, i że powiązania takie są dostępne dla algorytmu naturalnego (człowieka) interpretującego tekst. Obserwujemy

że, że człowiek potrafi dokończyć cudzą wypowiedź, co prowadzi do wniosku, że algorytm naturalny ma do dyspozycji schematy semantyczne (stereotypy), z któ-rych korzysta przy interpretacji cudzej wypowiedzi. Podstawą interpretacji jest rozumowanie.

Zgodnie z powyższym można przyjąć następującą klasyfikację algorytmów przetwarzania informacji tekstowej:

1. algorytmy asemantyczne

a) asymboliczne – tekst reprezentowany jest jako ciąg znaków (liter) lub napisów, jednostkę języka stanowi ciąg liter, interpretacja tekstu ilo-ściowa (algebraiczna),

b) symboliczne – tekst jako zbiór wyrazów, jednostkę języka stanowi wy-raz (element słownika fleksyjnego języka), jednak algorytm nie ma do-stępu do opisu znaczenia, interpretacja ilościowa (algebraiczna), 2. algorytmy semantyczne

a) leksykalne – tekst jako zbiór symboli, jednostkę języka stanowi sym-bol wchodzący w relacje semantyczne z innymi symsym-bolami (modelem słownika symbolu jest sieć semantyczna), interpretacja regułowa, b) kognitywne – tekst jako struktura zbudowana z symboli, o których

układzie i miejscu w tekście decydują stereotypy, interpretacja reguło-wa.

Interpretacja 1 a) asemantyczna, asymboliczna

Rozpoczynając od najniższego poziomu interpretacji tekst można analizować uwzględniając jedynie sekwencje liter alfabetu. Typowym przykład takiej analizy tekstu może być analiza częstotliwościowa n-gramów (sekwencji znaków) w celu rozpoznania języka tekstu. Metoda polega na obserwacji, iż każdy język posiada typowe zbitki literowe, które najczęściej budują wyrazy oraz zdania w tym języku. Analiza frekwencyjna n-gramów na reprezentatywnym korpusie języka pozwala na wyznaczenie pewnej charakterystyki (histogramu) n-gramów. Dla dowolnego tekstu miarą prawdopodobieństwa czy tekst ten został napisany w konkretnym języku jest miara podobieństwa pomiędzy charakterystyką n-gramów tego tekstu i charakterystyką n-gramów wzorcowego korpusu. Problematyka ta przedstawio-na został skrótowo w rozdziale 4.1.

43

Kolejnym poziomem analizy tekstu jest rozpoznanie w nim ciągów napisów – symboli tekstu. Wiele prostych metod takich jak np. metoda słów kluczowych opi-sana w rozdziale 4.3 opiera się na założeniu, że tekst jest zbiorem napisów (ang. bag of words). Za pomocą teorii mnogościowej zbiorów oraz logiki boolowskiej można przeprowadzać filtrowanie dokumentów pod kątem obecności konkretnych napisów w zbiorze. Na tym etapie warto także dołączyć dodatkową wiedzę o fleksji i morfologii języka. Pozwoli to na znaczne poprawienie jakości tego typu metod, ponieważ będą one posiadały dodatkową wiedzę na temat form fleksyj-nych, np. „pies”, „psa”, „psem”, „psom” itp. stanowi jeden symbol będący wy-razem „pies”. Pozwala to na znaczące ograniczenie liczby różnych rozpoznanych symboli co podnosi skuteczność np. przy wyszukiwaniu symboli w tekście. Tego typu przekształcenia można wykonać posiadając słownik fleksyjny języka (por. opisaną w rozdziale 4.1.1 bibliotekę CLP) lub też za pomocą reguł stemmera, któ-re pozwolą na któ-redukcję form fleksyjnych do postaci stemów (tematów wyrazu). Na tym etapie zatrzymują się również typowe osiągnięcia metod statystycznych głównie pochodzących z prac Zipfa [74]. Metody te zakładały analizę tekstu tyl-ko za pomocą statystycznej analizy ilościowej. Zliczano liczby form, stemów w obrębie dokumentu, tworzono ranking najczęściej występujących wyrazów w do-kumencie, w korpusie, liczono w ilu różnych dokumentach występuje wyraz na przestrzeni całego korpusu i wiele innych wskaźników, które stanowiły dane wej-ściowe dla metod statystycznych potrafiących np. określić stopień podobieństwa dwóch tekstów za pomocą rozkładów wyrazów w nich występujących. Podejście takie miało jednak bardzo poważne ograniczenie natury jakościowej. Metody te nie uwzględniając żadnych przesłanek semantycznych mogły odnosić się tylko do zależności statystycznych pomiędzy formami wyrazów a nie pojęciami. Język na-turalny pozwala bardzo różnorodnie opisywać pojęcia w postaci różnych form. Prosty przykład tekstu opowiadającego zdarzenie picia herbaty:

Leniwie rozglądnął się po pokoju. Wzrokiem odnalazł szafkę, z której wyciągnął kubek. Woda już wrzała. Zaparzył herbatę wąchając unoszącą się woń. Powoli de-lektował każdy łyk.

pokazuje w jaki sposób czynność picia została przedstawiona bez użycia cza-sownika „pić”. Bez dodatkowej reprezentacji wiedzy oraz rozpoznania semantyki tekstu trudno jest więc powiązać ten tekst z czasownikiem „pić”. Oznacza to, że wszystkie metody statystyczne stają się bezsilne wobec problemów z uzgodnie-niem i wyodrębnieuzgodnie-niem pojęć w tekście.

W 1992 roku równolegle do MUC (Message Understanding Conference) wy-startowała konferencja TREC (Text Retrieval Conference) organizowana przez DARPA (Defense Advanced Research Projects Agency) w USA, mająca cha-rakter corocznych warsztatów zorientowanych na użycie klasycznych algorytmów

IR (Information Retrieval) do wyszukiwania w bardzo dużych korpusach i sieci WWW. W roku 2009 po latach badań testowania klasycznych metod ekstrakcji informacji opartych głównie na wzorcach złożonych ze zbiorów wyrazów i meto-dach statystycznych w ramach modułu HARD TRACK [52] pojawił się następu-jący wniosek: „Relevance Feedback has been one of the successes of information retrieval research for the past 30 years. It has been proven to be worthwhile in a wide variety of settings, both when actual user feedback is available, and when the user feedback is implicit. However, while the applications of relevance feed-back and type of user input to relevance feedfeed-back have changed over the years, the actual algorithms have not changed much. Most algorithms are either pure sta-tistical word based (for example, Rocchio or Language Modeling), or are domain dependent. We should be able to do better now, but there have been surprisingly few advances in the area. In part, that’s because relevance feedback is hard to study, evaluate, and compare.” [4]. Metody statystyczne bardzo szybko osiągnęły kres swoich możliwości ze względu na zbyt małą wiedzę o naturze danych, które przetwarzają. Buckley i Robertson zwracają uwagę, że poprawa jakości wyszuki-wania informacji leży nie tylko w konieczności profilowyszuki-wania wyników względem oczekiwań konkretnej osoby, ale także leży w samych algorytmach. Wskazują, że klasyczne algorytmy nie zostały rozwinięte i w dalszym ciągu głównie bazują na czystej analizie statystycznej. Konieczne jest stworzenie nowych algorytmów umożliwiające operowanie na poziomie znaczeń wyrazów.

Interpretacja ta jest zresztą naturalna, gdyż podobną jakość działania mógł-by uzyskać człowiek, który miałmógł-by stwierdzić np. podobieństwo dwóch tekstów w języku zupełnie mu nie znanym bez znajomości nawet znaków alfabetu. Dla typo-wego Europejczyka dobrym przykładem jest porównywanie tekstów zapisanych tradycyjnymi glifami japońskimi. Jedyne co człowiek mógłby w takiej sytuacji zrobić, to porównać poszczególne glify do siebie, stwierdzając czy są identyczne, oraz postarać się odnaleźć podobne glify lub ich sekwencje w drugim tekście.

Dosyć ciekawym algorytmem, który operuje na pograniczu statystyki i se-mantyki tekstu (a więc w przedstawionej klasyfikacji na pograniczu 1b oraz 2a ) jest LSA (Latent Semantic Analysis). Metoda w sposób niejawny odwołuje się do relacji semantycznych, traktuje tekst jako ciągi wyrazów i poprzez częstotliwo-ściową analizę kontekstową opartą na wektorowej reprezentacji potrafi tworzyć liczbowe reprezentacje znaczeń (pojęć), które wykorzystać następnie można do porównania podobieństwa dwóch tekstów. O ile nie korzysta ona z żadnej dodat-kowej wiedzy o semantyce wyrazów w tekście, stara się ją wyznaczyć zakładając, że wyrazy semantycznie bliskie będą posiadać podobne konteksty. LSA operuje na pewnym korpusie tekstu (przeważnie niewielkim), a nie na kompletnym korpusie całego języka. Powoduje to, że LSA bada specyfikę danego korpusu. Ponieważ na temat LSA odnaleźć można bardzo obszerną literaturę [19] i temat jest dobrze zbadany nie będzie on omawiany w dalszym toku pracy.

45

Interpretacja 2 a) semantyczna, leksykalna

Próba dalszej, głębszej i bardziej wnikliwej analizy tekstu zmusza do poszu-kiwania metod potrafiących operować na znaczeniu wyrazów. Powstał więc pro-blem w jaki sposób znaleźć odpowiednią metodę reprezentacji znaczeń. Metoda ta stanowić będzie pewien model, który na bazie operacji symbolicznych (zamiast liczbowych jak w LSA) umożliwi formalizację i reprezentację w postaci algoryt-mu. Kluczem do poszukiwania odpowiedniej metody reprezentacji znaczenia jest znana od starożytności podstawowa jednostka języka -– symbol językowy, wyraz. Literatura opisuje następujące typowe modele lingwistyczne symbolu językowego: • model dualny de Saussure’a [15], w którym każdy symbol składa się z formy

(signifant) oraz pojęcia go reprezentującego (signif´e),

• triada Peirce’a [50], w której poza formą (zwaną tu representamen) i poję-cia (interpretant) występuje dodatkowo element rzeczywistości realnej lub abstrakcyjnej (object).

forma

pojęcie desygnat

Rysunek 4.1: Schemat trójkąta semiotycznego. Linia ciągła oznacza obserwowalną zależność między elementami.

Triada Peirce’a upowszechniona została przez Ogdena i Richardsa [44] w po-staci trójkąta semiotycznego, który został załączony na rysunku 4.1. Symbol ję-zykowy (wyraz) jest tutaj definiowany jako układ zależności pomiędzy formą, desygnatem i pojęciem, które stanowi psychiczny obraz desygnatu w umyśle czło-wieka.

Forma wyrazu jest sposobem zapisu (reprezentacji) symbolu w tekście. Dla lepszego zobrazowania problemu przytoczony zostanie przykład z [22]. Mówiąc o „psie” w znaczeniu popularnego zwierzęcia domowego ze względu na bogatą flek-syjność języka polskiego w tekście pojawić może się wiele różnych form (napisów), które będą odwoływać się do tego symbolu, tj.: „pies”, „psa”, „psu”, „psem”, „psami”, „psach”, „psy”. Forma fleksyjna bierze udział w budowie zdania po-przez reguły syntaktyczne inaczej zwane gramatyką języka. Gramatyka pomaga

niekiedy rozstrzygać wieloznaczność form, jednakże kluczowy jest fakt, że nie jest bezwzględnie wymagana do zrozumienia sensu zdania i wyrazów. Dzieje się tak ponieważ oprócz reguł syntaktycznych w zdaniu istnieje druga warstwa, którą opisuje reguła łączliwości semantycznej zwana także regułą walencji. Mówi ona o tym jakie wyrazy wchodzą ze sobą w relacje semantyczne, które nadają sens wypowiedzi. Na poparcie takiego stwierdzenia można przytoczyć dwa znane i opisane w literaturze przykłady. Pierwszy przykład – „Bezbarwne idee wściekle śpią” [13] – pokazuje jak zdanie poprawnie syntaktycznie pozbawione jest sensu, ponieważ zbudowane jest niezgodnie z regułą walencji, oraz drugie – „Ja lubić trzymać twoja ręka” [51] – demonstruje w jaki sposób pomimo braku poprawno-ści gramatycznej, przy zachowaniu łączliwopoprawno-ści semantycznej wyrazów sens zdania pozostaje absolutnie niezaburzony i zrozumiały dla przeciętnego odbiorcy.

Desygnat wyrazu jest elementem pozajęzykowym. Może być on bytem świata rzeczywistego bądź też bytem abstrakcyjnym, jest obiektem na który nadawca komunikatu wskazuje. Pojęcie jest natomiast bytem efemerycznym, ściśle zwią-zanym z kognitywistycznymi możliwościami człowieka i sposobem w jaki mózg wytwarza sobie referencję, wyobrażenie desygnatu. Może być to stan psychiczny, obraz desygnatu w umyśle człowieka.

Ponieważ trudno jest badać stan pojęć wytworzonych w umyśle człowieka, najprostszą metodą poznawczą rekonstrukcji pojęć jest obserwacja jedynych ob-serwowalnych na zewnątrz zależności. Taką zależnością w trójkącie semiotycznym jest relacja form z desygnatami. Zebranie więc dużej liczby tekstów opisujących stan świata rzeczywistego, takich jak: „Pies szczeka, warczy, waruje. Pies poko-jowy, łagodny, bezdomny, dobry, wierny. Pies myśliwski, pasterski, policyjny. . . ”, pozwala na dwie zasadnicze rzeczy: identyfikację pojęć oraz wyznaczenie przybli-żonych relacji między nimi.

Pierwszy aspekt pozwala nam rozróżnić byt (pojęcie) jakim jest np. „pies” (domowy). To precyzyjne rozróżnienie pojęć jest istotnie ważne, ponieważ posił-kując się słownikiem PWN odnaleźć możemy inne znaczenie słowa „pies” jakim jest samiec lisa i borsuka. Poprzez analizę porównawcza opisów tekstowych tych dwóch konkretnych desygnatów (psa domowego i samca borsuka) wywnioskować można, iż oba desygnaty reprezentują rozbieżne pojęcia (dla przykładu borsuk nie szczeka, jest innym rodzajem zwierzęcia), natomiast reprezentowane w tek-ście mogą być identyczną formą. Taka wieloznaczność form nazywa się homonimią obok odwrotnej jej synonimii, która jednemu pojęciu przypisuje dwie różne formy wyrazu.

Drugim aspektem wynikającym z analizy tekstów opisujących „psa”, jest moż-liwość segregacji i uporządkowania wyrażeń charakteryzujących „psa”, co prowa-dzi nas do utworzenia nazwanych relacji semantycznych pomiędzy wyrazami. Np. możemy wyróżnić stany „psa”: „dobry, wierny, łagodny, bezdomny”, czy też typy: „myśliwski, pasterski, policyjny”.

47

Znaczenie wyrazu, jego semantyka, jest więc reprezentowane jako powiązanie pomiędzy formą, desygnatem oraz pojęciem. W literaturze fachowej, dla odróżnie-nia znaczeodróżnie-nia wyrazu reprezentowaną przez tą trójkę używa się terminu leksem. W niniejszej pracy przyjęto jednak klasyczną konwencję nazewniczą za Lubaszew-skim [22] świadomie stosując termin wyraz zarówno w kontekście znaczenia jak i fleksji. Przytoczony już słownik PWN jest także kolejnym przykładem sposobu w jaki ludzie od dawien dawna starają się systematyzować znaczenie słów. Słownik jest bowiem zbiorem symboli językowych wraz z definicjami semantycznymi. Ty-powy słownik zorganizowany jest według form podstawowych, którym definiuje znaczenie poprzez nazwanie ich wyrazami tego samego języka oraz przytaczaniem kontekstów użycia.

Ważnym wnioskiem z opisywanych aspektów jest możliwość utworzenia sieci nazwanych połączeń semantycznych, które definiować będą relacje semantycz-ne w jakich mogą znajdować się poszczególsemantycz-ne wyrazy (symbole językowe). To właśnie dzięki tej sieci semantycznej zdania zbudowane zgodnie z regułami wa-lencyjnymi są zrozumiałe dla człowieka. Sieci semantyczne oparte na relacjach nazwanych pomiędzy symbolami języka stanowi model reprezentacji znaczenia. Oczywiście jest tylko jeden z wielu sposób formalnej reprezentacji semantyki, ale jest to sposób dość bliski typowemu rozumieniu przez człowieka natury pojęć, który jak wyżej wykazano ma swoje podłoże w słownikowej organizacji terminów. Stosunkowo dużym ograniczeniem w stosowaniu praktycznym sieci seman-tycznych do reprezentacji znaczenia jest trudność w zdefiniowaniu zakresu sko-jarzenia. Przykładowo trawersując po sieci semantycznej od pojęcia pies — (śpi w) —> buda — jest rodzajem —> schronienie człowiek z łatwością zauważy, że wyraz buda jest silnie skojarzony z psem, natomiast wyraz schronienie już nie. W przypadku ogólnym nie da się w sposób jednoznaczny postawić granicznej ilości przejść pomiędzy pojęciami, który stanowić będzie kres skojarzenia dla danego pojęcia.

Interpretacja 2 b) semantyczna, kognitywna

Mimo tego, że podejście sieci semantycznych wprowadza nową jakość do prze-twarzania tekstu, nie jest ona pozbawiona wad jako model reprezentacji znacze-nia. Zgodnie z podejściem Schanka [61] każdy tekst przekazuje pewną informację o zdarzeniu (Event). W przypadku ogólnym może być to jedno zdarzenie, zbiór zdarzeń, bądź przyczynowo skutkowy ciąg zdarzeń. Podejście sieci semantycznych ze względu na swój relacyjny charakter opisu semantyki nie umożliwia łatwego i bezpośredniego definiowania znaczenia poprzez prototypownie zdarzeń, które są z natury sekwencjami czynności. Dla przykładu rozważmy następującą tekst opisujący zdarzenie picia herbaty:

Leniwie rozglądnął się po pokoju. Wzrokiem odnalazł szafkę, z której wyciągnął kubek. Woda już wrzała. Zaparzył herbatę wąchając unoszącą się woń. Powoli de-lektował każdy łyk.

Taka sekwencja zdań zdecydowanie opisuje czynność prowadzącą do zdarzenia picia herbaty. Przedstawiona sekwencja czynności jest oczywiście tylko jedną z bardzo wielu możliwych. Informacja semantyczna na temat faktu, że „szafka” wiąże się z czynnością picia herbaty (poprzez wiedzę, że w szafce trzymane są kubki służące do picia) w systemie sieci semantycznej wyrażona byłaby bardzo nie wprost, poprzez wielokrotne wnioskowanie pomiędzy kolejnymi relacjami seman-tycznymi reprezentujące ciąg skojarzeń. Niekiedy ścieżka ta będzie tak rozległa, iż może to prowadzić do braku możliwości przeprowadzenia takiego wnioskowania. W latach ’70 poprzedniego wieku Roger Shank prowadził badania nad teorią Conceptual Dependency [60, 62, 61] związane z analizą tekstu odbiegająca od ówczesnego głównego nurtu statystyków. Schank formułował swoją innowacyjną teorię w czasach gdy analiza tekstu opierała się głównie na teorii Zipfa [74] znanej już od wielu lat, która zakładała analizę tekstu tylko za pomocą statystycznej analizy ilościowej.

Cullingford [59] zaprezentował prosty przykładowy program o nazwie Micro SAM , który potrafił aplikować do tekstu skrypt będący wzorem zdarzenia opi-sującego kupowanie przedmiotu. Program wyróżniał pięć podstawowych zdarzeń opisujących czynność kupowania:

1. Wejście do przestrzeni handlowej. 2. Wybór przedmiotu transakcji.

3. Przekazanie własności przedmiotu klientowi.

4. Przekazanie własności środka płatniczego na rzecz sklepu. 5. Opuszczenie przestrzeni handlowej.

Skrypt rozpoznawał czy zdarzenie zakupu wystąpiło w tekście poprzez analizę poszczególnych zdarzeń, które składają się na nie. Dopasowanie zdarzenia nastę-powało poprzez wypełnienie odnalezienie wyrazów spełniające określone role w tekście. Dla przykładu następujący tekst: „Jacek wszedł do sklepu. Wziął tam latawiec. Wrócił do domu.” zostałby dopasowany do skryptu ponieważ:

1. „Jacek wszedł do sklepu.” – rzeczownik sklep aktywuje skrypt ponieważ spełnia rolę przestrzeni handlowej ; czasownik wejść jest wymaganą rolą potrzebną aby dopasować pierwsze zdanie skryptu.

49

2. „Wziął tam latawiec.” – zdanie dopasowuje się do trzeciego zdania; Micro SAM domniemuje, że akcja w zdaniu drugim musiała zajść niejawnie; 3. „Wrócił do domu.” – zdanie dopasuje się do piątego zdania skryptu; akcja

W dokumencie Index of /rozprawy2/10469 (Stron 44-57)

Powiązane dokumenty