• Nie Znaleziono Wyników

Indukcja języka naturalnego

W dokumencie Ewolucyjne wnioskowanie gramatyczne (Stron 142-145)

Eksperymenty indukcji gramatyki języka naturalnego zostały przeprowadzone na zbiorze 9 korpusów językowych zastosowanych w (Aycinena i in. 2003). Ze względu na czasochłonność obliczeń, związaną przede wszystkim z rozmiarem zbiorów uczących, uczenie gramatyki każdego korpusu przebiegało w 10 niezależnych iteracjach programu (nrun = 10), z których każda nie przekraczała 1000 kroków ewolucyjnych (nmax = 1000)118. Pozostałe parametry eksperymentów, a zatem zmienne decyzyjne oraz parametry ciagłe, były identyczne z parametrami zastosowanymi podczas indukcji języków formalnych.

Zgodnie z oczekiwaniami, w żadnym eksperymencie model nie wyuczył się gra-matyki zdolnej w 100% do prawidłowej klasyfikacji wszystkich zdań ze zbioru uczą-cego. W tabeli 12 podano wyniki indukcji dla poszczególnych korpusów językowych.

Pierwsze trzy kolumny zawierają syntetyczne estymatory określające proces ucze-nia danego korpusu – favg oznacza fitnessavg, pavg positiveavg, navg negativeavg. W kolej-nych czterech kolumnach zapisano kompetencję gramatyki: ogólną ( fmax), pozytywną ( p), negatywną (n), dla której uzyskano najlepszą wartość fitnessmax oraz liczbę kro-ków ewolucyjnych (Evals), potrzebnych by model wyuczył się tej gramatyki. Ostatnie trzy kolumny tabeli opisują wartości estymatorów uzyskane przez model podczas testów generalizacji: nGen oznaczone symbolem nG, nGenpos (nGpos) i nGenneg (nGneg). Estymator fitnessavg przyjmuje wartości pomiędzy 64,8% dla korpusu brown_c a 83,5% dla korpusu children.

Tabela 12. Wyniki indukcji korpusów językowych uzyskane przez model GCS Zbiór uczący

Iteracja, w której uzyskano fitnessmax

Zbiór testowy Korpus

favg pavg navg

fmax p n Evals nG nGpos nGneg

children 83,5 92,1 25,1 93,2 98,8 12,5 9 92,2 97,2 12,8 wizard 80,2 69,7 9,3 94,6 99,3 10,2 32 94,2 99,5 11,0 alice 75,1 63,8 13,6 89,5 96,8 17,9 81 89,5 97,2 18,1 tom 77,0 90,6 35,3 86,3 98,4 25,9 3 86,1 98,3 26,0 brown_a 82,4 81,6 16,8 93,8 98,3 11,6 45 93,8 98,1 10,5 brown_b 82,0 75,6 11,6 94,6 99,3 10,2 506 94,2 99,0 10,7 brown_c 64,8 34,5 4,8 92,5 96,7 11,7 592 91,8 95,8 12,2 brown_d 69,9 49,0 9,1 91,6 97,1 13,8 18 91,0 95,1 13,2 brown_e 70,7 54,1 12,5 89,5 93,4 14,5 38 90,0 94,6 14.6

Można zadać pytanie, czy wydłużenie okresu uczenia nie przyniosłoby wyższych wartości estymatora. Na rysunku 51 zilustrowano krzywą zbieżności estymatora

118 Jeden eksperyment indukcji korpusu językowego, składający się z 10 iteracji, trwał średnio około 24 h (Pentium 2,81 GHz, 2,00 GB RAM).

ness podczas eksperymentu tylko z jedną iteracją (nrun = 1), ale z wydłużonym dziesię-ciokrotnie okresem uczenia (nmax = 10 000). Eksperyment nie przyniósł żadych istot-nych zmian wartości badaistot-nych estymatorów ( fitnessavg = 82,0%, positiveavg = 92,8%,

negativeavg = 28,8%, fitnessmax = 93,3%), krzywa estymatora fitness oscyluje wokół wartości ok. 74% z amplitudą ok. 15%.

Poniżej podano wyewoluowaną gramatykę:

1. S → SE 2. S → SS 3. S → CA 4. S → DS 5. S → BS 6. S → SK 7. S → MF 8. S → SB 9. S → ES 10. S → FS 11. S → GR 12. R → SM 13. M → AB 14. K → AD 15. G → AF 16. E → MM 17. C → BD 18. C → BF 19. S → a 20. S → c 21. G → g 22. F → f 23. E → e 24. D → d 25. C → c 26. B → b 27. A → a.

Dosyć oczywistą grupę przymiotnik rzeczownik tworzy reguła 3 czy też reguła 13

rzeczownik czasownik. Model odnalazł w zbiorze zdań uczących również często

wy-stępujące w języku angielskim bigramy, takie jak: rzeczownik przysłówek (reguła 14),

rzeczownik spójnik (reguła 15), czasownik przysłówek (reguła 17) czy czasownik spój-nik (reguła 18). Zdanie może rozpoczynać się od rodzajspój-nika (reguła 10) albo też

doda-nie rodzajnika na początek każdego zdania zachowuje jego poprawność. Zdecydowa-na większość reguł bezkontekstowych rozpoczyZdecydowa-na się od symbolu startowego, co sugeruje dużą ogólność tych reguł. Z jednej strony pozwala to na oszczędne zapisanie całej gramatyki, z drugiej jednak – taka uniwersalność umożliwia parsowanie również zdań nienależących do języka.

0 20 40 60 80 100 0 1000 2000 3000 4000 5000 6000 7000 8000 9000 Krok ewolucyjny fitn es s

Rys. 51. Indukcja korpusu children (nrun = 1, nmax = 10000) Fig. 51. Induction of children corpus (nrun = 1, nmax = 10000)

Maksymalne wartości kompetencji ogólnej fitnessmax uzyskane podczas indukcji korpusów są oczywiście dużo wyższe od wartości estymatora fitnessavg i mieszczą się

w przedziale od 86,3% dla korpusu tom do 94,6% dla korpusów wizard oraz brown_b. Zwracają uwagę wysokie wartości kompetencji pozytywnej gramatyk, które uzyskały najwyższe wartości kompetencji ogólnej i stosunkowo wysokie kompetencji negatywnej tych samych gramatyk. Najwyższą wartość negative zanotował korpus tom. Prawie 26% przykładów negatywnych zostało sparsowanych przez gramatykę. Wyniki testów gene-ralizacji nie odbiegają znacząco od wartości estymatorów fitness, postive oraz negative uzyskanych przez najlepsze gramatyki poszczególnych korpusów. Świadczy to nie tyle o własnościach gramatyk, co raczej jednorodnym pochodzeniu zbiorów uczących i te-stowych. Charakterystyczną cechą indukcji korpusów jest w większości wypadków niewielka liczba kroków ewolucyjnych, w których model wyindukował najlepsze gra-matyki. Dla 7 korpusów liczba kroków nie przekracza 100, a tylko w dwóch przypad-kach (korpusy brown_b oraz brown_c) nieznacznie przekracza liczbę 500 kroków.

Interesujące jest porównanie wyników indukcji modelu GCS z podejściem zapro-ponowanym przez doktorantów ze Stanford (Aycinena i in. 2003), oznaczonym dalej skrótem AKM od pierwszych liter nazwisk. W tabeli 13 zebrano parametry obydwu podejść, które można ze sobą zestawić. Dwie pierwsze kolumny zawierają wartości najlepszej kompetencji ogólnej gramatyki, jaką udało się podczas uczenia uzyskać dla poszczególnych korpusów, odpowiednio dla modelu GCS i podejścia AKM119. Na-stępne kolumny w parach model GCS – podejście AKM zestawiają ze sobą wartości estymatorów positive, negative oraz liczbę kroków potrzebnych do wyuczenia się gramatyki o najlepszej wartości kompetencji ogólnej (Evals).

Tabela 13. Porównanie rezultatów uzyskanych przez model GCS i (Aycinena i in. 2003) dla korpusów językowych

fitnessmax positive negative Evals

Korpus GCS AKM GCS AKM GCS AKM GCS AKM

children 93,2 93,1 98,8 91,8 12,5 5,7 9 200 000 wizard 94,6 90,2 99,3 89,5 10,2 9,2 32 200 000 alice 89,5 92,1 96,8 92,5 17,9 8,4 81 200 000 tom 86,3 92,1 98,4 92,7 25,9 8,6 3 200 000 brown_a 93,8 94,0 98,3 94,1 11,6 6,1 45 48 500 brown_b 94,6 94,0 99,3 94,7 10,2 6,7 506 200 000 brown_c 92,5 87,9 96,7 80,5 11,7 4,7 592 15 500 brown_d 91,6 91,3 97,1 88,2 13,8 5,6 18 45 000 brown_e 89,5 94 93,4 93,9 14,5 5,9 38 122 000

W przypadku 5 korpusów model GCS wyindukował gramatykę o wyższej wartości

fitnessmax, dla korpusu brown_a wartość ta jest tylko nieznacznie niższa (93,8% dla mo-delu GCS, 94% dla AKM), a w pozostałych 3 przypadkach wartość estymatora jest

119 W pracy (Aycinena i in. 2003) nie podano tej wartości, ale można ją wyliczyć, znając liczebność zbiorów przykładów pozytywnych i negatywnych oraz wartości estymatorów positive i negative.

niższa, lecz różnica nie przekracza 5%. Wartości kompetencji pozytywnej są w 8 przy-padkach zdecydowanie wyższe dla modelu GCS (różnice wahają się w przedziale od 4,2% do 16,2%), a dla korpusu brown_e podejście AKM uzyskało lepszy wynik o 0,5%. Zdecydowanie najgorzej dla modelu GCS wypada porównanie wartości kompetencji negatywnej – model dla każdego korpusu uzyskał wyższe wartości tego estymatora, a różnice są w przedziale od 1% (korpus wizard) do 17,3% (korpus tom). Oznacza to, że podczas indukcji gramatyki model GCS stworzył w kilku wypadkach (dla 5 korpusów różnice nie przekraczają 7%) zbyt uniwersalne produkcje w porównaniu do podejścia AKM, które parsują również część zdań negatywnych. Ostatnim parametrem dającym się porównać jest liczba kroków ewolucyjnych, w których obydwa podejścia znalazły najlepsze rozwiązania. Model GCS aż w 6 wypadkach nie przekroczył liczby 50 kro-ków, w kolejnym liczby 100 krokro-ków, a dwie najdłuższe indukcje trwały tylko nieco ponad 500 kroków (czyli nieco ponad 1 h). Podejście ze Stanford w najlepszym wypad-ku potrzebowało 15 500 kroków, a aż dla 5 korpusów 200 000 kroków i, jak podają autorzy, około 60 h obliczeń. Model GCS okazał się zatem nieporównywalnie efektyw-niejszy, znajdując w większości wypadków gramatyki o wyższych wartościach kompe-tencji ogólnej i pozytywnej.

W dokumencie Ewolucyjne wnioskowanie gramatyczne (Stron 142-145)