Korpusy językowe - Estymatory symulacji 1. Dokładność indukcji

5.1. Estymatory symulacji 1. Dokładność indukcji

5.2.4. Korpusy językowe

Zadaniem, które rozwiązuje model GCS jest indukcja CFG na podstawie etykie-towanych zdań uczących. Możliwe jest zatem zastosowanie modelu w indukcji gra-matyki na podstawie naturalnego korpusu językowego110 pod następującymi warun-kami:

• proces uczenia zasilany jest zbiorem uczącym składającym się ze zdań popraw-nych i niepoprawpopraw-nych;

• korpus językowy wymaga oznakowania morfosyntaktycznego ( part-of-speech

tags, POS)111, czyli przejścia z tekstu języka naturalnego na zapis symboliczny, skła-dający się z sekwencji tagów.

Uczenie gramatyki na podstawie oznakowanego jedynie morfosyntaktycznie kor-pusu językowego kwalifikuje proces indukcji za pomocą modelu GCS do uczenia bez nadzoru112 (patrz przypis 8).

109 Lankhorst (1994) używa pojęcia micro – NL language.

110 Język naturalny jest umieszczany zwykle w hierarchii Chomsky’ego na wysokości języków bez-kontekstowych, niekiedy kontekstowych (Partee i in. 1993). Powszechne modelowanie struktury języka naturalnego środkami gramatyk bezkontekstowych (Pullum i Gazdar 1982, Gazdar i Pullum 1985, Shie-ber 1985) jest uzasadnione ograniczonymi kompetencjami językowymi człowieka, chociażby na prak-tycznie akceptowalną długość zdania (patrz również przypis 44).

111 Przejście z tekstu języka naturalnego na ciąg tagów morfosyntaktycznych, choć powszechnie sto-sowane w literaturze przedmiotu (Clark 2001a, Klein i Manning 2003), niesie ze sobą niebezpieczeństwo utraty istotnych informacji, niezbędnych w indukcji syntaktyki. Wynika to z faktu, że wiele konstrukcji językowych silnie zależy od specyficznych własności poszczególnych słów języka. Niemniej jednak, takie przetworzenie korpusu jest konieczne ze względu na efektywność analizy oraz jest wystarczające dla potrzeb indukcji struktur syntaktycznych.

112 W tym miejscu potrzebny może być komentarz, ze względu na mogące pojawić się terminolo-giczne zamieszanie. Otóż z punktu widzenia uczenia maszynowego, uczenie w modelu GCS jest

typo-Zdecydowana większość opublikowanych metod uczenia bez nadzoru stosuje sta-tystyczne metody indukcji (Carroll i Charniak 1992, Pereira i Schabes 1992, Brill 1993, Stolcke i Omohundro 1994, Klein i Manning 2003, Klein i Manning 2005, So-lan i in. 2005). Inne metody opierają się na analizie dystrybucyjnej (distributional

analysis), jak (Adriaans 1999, Klein i Manning 2001, van Zaanen 2002), czy też

kom-presji (Chen 1995, Clark 2001b, Keller i Lutz 1997, Wolff 2003). Wszystkie wyżej wymienione grupy metod uczenia bez nadzoru indukują gramatykę jedynie na pod-stawie zdań z korpusu. Metody statystyczne posiłkują się twierdzeniem, które mówi, że probabilistyczna CFG (PCFG) może być wyuczona w granicy już na podstawie zdań poprawnych113 (Horning 1969), metody dystrybucyjne bazują na modelu uczenia PAC (lub PACS), a kompresja na modelu MDL (patrz podrozdz. 1.4).

W indukcji bez nadzoru stosuje się stosunkowo często (płatne) repozytoria języ-kowe (treebanks), które oprócz zbioru zdań języka naturalnego zawierają tzw. meta-dane, jak: oznaczenia końców zdań, akapitów, oznaczenia morfosyntaktyczne słów, informacje o strukturze syntaktycznej zdań, informacje semantyczne (np. podział kor-pusu na części tematyczne). Do najbardziej znanych korpusów należy Penn treebank (Marcus i in. 1993) oraz Wall Street Journal (WSJ) i ATIS (Hemphill i in. 1990), któ-re są fragmentami tego pierwszego, a także British National Corpus (BNC) (Burnard 1995), OVIS (Bonnema i in. 1997) i Brown (Francis i Kuera 1982).

Model indukcji gramatyki bezkontekstowej GCS jest istotnie różny od wzmian-kowanych wyżej metod uczenia bez nadzoru. Rezultatem działania modelu nie jest PCFG lub jakiś rodzaj gramatyki kategorialnej, lecz nieprobabilistyczna gramatyka bezkontekstowa. Proces uczenia skupia się na rozwiązywaniu problemu przynależno-ści zdania do języka, a nie budowania jego struktury syntaktycznej (chociaż w proce-sie indukcji znajdowane są wszystkie możliwe drzewa rozbioru). Wreszcie wniosko-wanie wymaga etykietowanego zbioru uczącego. Jedną z nielicznych w literaturze przedmiotu prac spełniających postawione założenia jest (Aycinena i in. 2003). Po-dobnie jak ma to miejsce w modelu GCS, indukowana gramatyka jest reprezentowana przez postać normalną Chomsky’ego, a rozbiór dokonywany jest przez parser tabli-cowy CYK. Doktoranci ze Stanford indukowali gramatykę, stosując algorytm gene-tyczny na podstawie dziewięciu korpusów językowych.

Korpus children

Korpus tworzą wybrane teksty z literatury dziecięcej, dostępnej pod adresem http://www.magickeys.com/books.

wym przykładem uczenia z nadzorem, zwanym również inaczej uczeniem z nauczycielem (Cichosz 2001). Etykietowany zbiór uczący jest przykładem informacji instruktażowej, zawierającej pożądane odpowiedzi systemu. Jednak rozpatrując proces uczenia modelu w kontekście gramatycznej indukcji z korpusu języ-kowego, uczenie to stanowi klasyczny przykład uczenia bez nadzoru, gdyż algorytm nie korzysta z żad-nych dodatkowych informacji o strukturze korpusu.

Korpus wizard

Na korpus składają się obszerne fragmenty z książki Czarownik z krainy Oz (The

Wizard of Oz) L. Franka Bauma, dostępne pod adresem

http://www.ucalgary.ca/dkbrown/storclas.html.

Korpus alice

W skład korpusu wchodzą obszerne fragmenty z książki Alicja w krainie czarów (Alice in Wonderland ) L. Carrolla, dostępne pod adresem

http://www.ucalgary.ca/dkbrown/storclas.html.

Korpus tom

Korpus składa się z obszernych fragmentów książki Tomek Sawyer (Tom Sawyer) M. Twaina, dostępnej pod adresem

http://www.infomotions.com/alex/authors.html.

Korpus brown

Korpus tworzy pięć nieoznakowanych fragmentów z repozytorium Browna114, oznaczanych brown_a do brown_e

(afs/ir.stanford.edu/data/linguistic-data/Brown/ICAME-Brown1).

Wzrastający pod względem stopnia trudności tekstu poziom korpusów, począwszy od literatury dziecięcej, przez młodzieżową, aż do literatury dla dorosłych, ma na celu zbadanie efektywności zastosowanej metody indukcji.

Aby przygotować odpowiedni zestaw uczący, słowa w korpusie zostały najpierw oznaczone symbolami morfosyntaktycznymi przy użyciu znanego taggera autorstwa Brilla (1993). Następnie usunięte zostały słowa języka angielskiego, a pozostałe ciągi tagów zredukowano do 7 nieterminali (w nawiasach podano zastępowane zbiory ta-gów):

a: rzeczowniki, zaimki (NN, NNP, NNPS, NNS, PRP, WP);

b: czasowniki, czasowniki posiłkowe (MD, VB, VBD, VBG, VBN, VBP, VBZ); c: przymiotniki, liczebniki, zaimki dzierżawcze (CD, JJ, JJR, JJS, PRP$, WP$); d: przysłówki (RB, RBR, RBS, WRB);

e: przyimki, partykuły (IN, RP, TO);

f: spójniki, rodzajniki (CC, DT, EX, PDT, WDT);

g: pozostałe – słowa obce, symbole, wykrzykniki (FW, SYM, UH).

W ostatniej fazie tworzenia zbioru uczącego, zredukowany ciąg tagów formato-wany był do używanego przez program gcs formatu abbadingo. Zbiór uczący został uzupełniony o przykłady negatywne, reprezentowne przez losowo wygenerowane ciągi zredukowanych tagów o długości od 5 do 15 słów zgodnie z rozkładem nor-malnym. W załączniku B zamieszczono przykładową transformację źródłowego korpusu językowego do postaci formatu akceptowanego przez program.

114 Na korpus Browna składa się ponad milion słów amerykańskiej prozy wydanej w Stanach Zjed-noczonych w 1961 r.

Tabela 1. Statystyki zbiorów uczących i testowych dla korpusów językowych Korpus |U | |U+| |U–| |T | |T+| |T–| children 1972 986 986 986 493 493 wizard 3080 1540 1540 1542 771 771 alice 2024 1012 1012 1014 507 507 tom 7202 3601 3601 3602 1801 1801 brown_a 5578 2789 2789 2790 1395 1395 brown_b 3560 1780 1780 1782 891 891 brown_c 2198 1099 1099 1100 550 550 brown_d 2124 1062 1062 1064 532 532 brown_e 5022 2511 2511 2512 1256 1256

W tabeli 1 zebrano wybrane dane statystyczne opisujące przetwarzane korpusy języ-kowe U oraz korpusy testowe T. W poszczególnych kolumnach tabeli umieszczono: moc zbioru uczącego |U|, moc zbioru zdań uczących pozytywnych |U+|, moc zbioru zdań uczących negatywnych |U–|, moc zbioru testowego |T |, moc zbioru zdań testowych pozytywnych |T+| oraz moc zbioru zdań testowych negatywnych |T–|. Korpusy języko-we są zbilansowane i stosunkowo obszerne. Testy generalizacji zostały wykonane na wyjętych z korpusów i nieprezentowanych wcześniej zdaniach, uzupełnionych o losowo wygenerowane ciągi nieterminali nienależące do indukowanego języka.

W dokumencie Ewolucyjne wnioskowanie gramatyczne (Stron 123-126)