• Nie Znaleziono Wyników

Słownik fleksyjny języka polskiego

W dokumencie Index of /rozprawy2/10469 (Stron 57-60)

3.4 Wyniki i analiza eksperymentów

4.1.1 Słownik fleksyjny języka polskiego

Słownik stanowi podstawowe narzędzie w przetwarzaniu tekstu języka na-turalnego. Identyfikacja wybranych ciągów znaków w tekście jako konkretnych wyrazów stanowi podstawę do analizy tych jednostek, czy to pod kątem staty-stycznym, czy semantycznym. Operacja identyfikacji takich jednostek w tekście jest jednym z elementów tagowania tekstu.

Rozważając użycie słownika języka należy mieć na względzie, że słowniki takie mogą mieć zróżnicowany charakter i umożliwiać identyfikację jednostek w tekście na wielu różnych poziomach abstrakcji:

• słownik fleksyjny – w językach silnie fleksyjnych (do jakich zaliczamy m.in. język polski) występuje niezwykła różnorodność form mogących reprezento-wać wyraz w zdaniu; istnieje wobec tego potrzeba identyfikacji konkretnego wyrazu za pomocą zaistnienia którejkolwiek formy tego wyrazu, np. wy-raz „pies” może reprezentowany być dowolną formę jego wektora odmiany np. „psa”, „psu”, „psami”, „psy”; niestety podstawowa metoda regułowa sprowadzania formy wyrazu do formy podstawowej bardzo często w języku polskim przynosi wieloznaczność, która może znacząco wpłynąć na jakość automatycznej analizy tekstu,

• słownik wielosegmentowy – bardzo często w językach naturalnych zauważyć można tendencje do opisywania wybranych konceptów za pomocą wyrażeń wielosegmentowych (a więc takich, których wystąpienie w tekście reprezen-tuje kilka wyrazów); wyrażenia takie są semantycznie odmienne od zna-czenia każdego z budujących je członów, np. biały dom (pałac prezydenc-ki), panna młoda (kobieta wychodząca za mąż); umiejętność wyodrębnienia z tekstu grup wyrazowych stanowiących jednostki wielosegmentowe także przyczynia się do poprawy jakości tagowania eliminując nieprawidłowo roz-poznane znaczenia pojedynczych wyrazów.

• słownik semantyczny – język naturalny, ze względu na minimalizacje wy-siłku osób posługujących się nim, cechuje się często wyrażaniem różnych semantycznie konceptów (czasami zupełnie odmiennych) za pomocą tych samych wyrazów [74]; wprowadza to kolejny po wieloznaczności fleksyjnej

53

problem w desambiguacji wyrazów do konceptów; przykładowo wyraz „pi-lot” wśród wielu swoich znaczeń oznaczać może urządzenie elektroniczne do zdalnego sterowania, osobę wykonującą zawód pilota samolotu, lub rajdo-wego, pojazd kierujący kolumnę transportu wysokotonażowego na drodze podczas specjalnego transportu, czy też może być to nazwa własna ryby. O ile w przypadku wyrazu „pilot”, doszukać można się pewnej konotacji semantycznej pomiędzy znaczeniami, to w przypadku napisu „miał” ciężko jest wskazać jakiekolwiek powiązanie pomiędzy formą czasownika „mieć” oraz rzeczownika „miał” („pył”, „muł”). Istnienie słownika posiadającego zbiory konceptów reprezentowanych poprzez wyrazy powiązane relacjami nazwanymi umożliwiają reprezentowanie pojęć poprzez konteksty i skoja-rzenia wyrazowe, co stanowi jeden ze sposobów reprezentacji informacji semantycznych; użycie słownika semantycznego podnosi także w znaczą-cym stopniu jakość analizy tekstu, ponieważ w przypadku idealnym uściśla semantykę danych jednostek wyrazowych w tekście do poziomu abstrakcji bliskim rozumieniu tekstu przez człowieka.

Wykorzystano słownik języka polskiego będącego reprezentantem pierwszej grupy słowników – fleksyjnych. Niestety dla języka polskiego, w odróżnieniu od języka angielskiego, dla którego powstało bardzo wiele narzędzi językowych (np. słownik semantyczny WordNet1) nie są dostępne na zasadach otwartych biblio-teki językowe o tak dobrej jakości jak dla języka angielskiego. Skorzystano ze słownika fleksyjnego opisanego w [51] do którego dostęp zapewnia biblioteka pro-gramistyczna CLP opisana w [24]. Słownik ten został opracowany przez Grupę Lingwistyki Komputerowej na wydziale EAIiE AGH. Biblioteka CLP zaimple-mentowana jest w języku C i zawiera dwie warstwy: fleksyjną i morfologiczną. Obecnie składa się z około 150 000 jednostek bazowych, które zakresem wyczer-pują zakres typowo używanych słów w języku polskim.

Typowe użycie biblioteki CLP sprowadza się do możliwości identyfikacji wy-razu za pomocą formy fleksyjnej. Identyfikacja ta sprowadza się do uzyskania dla zadanej formy listy identyfikatorów numerycznych. Każdy wyraz w CLP posia-da jednoznacznie identyfikujący go identyfikator numeryczny, który jest liczbą rozpoczynającą się od 1000000 (numeracja nie jest ciągła). Za pomocą tego iden-tyfikatora możliwe jest uzyskanie dalszych informacji o wyrazie. Będąc bardziej precyzyjnym przez wyraz rozumiana jest tutaj pewna klasa fleksyjna posiadająca unikalny wzorzec odmiany wyrazu.

Etykieta fleksyjna reprezentowana jest w CLP za pomocą drzewa właściwości fleksyjnych, które są reprezentowane przez węzły w drzewach natomiast iden-tyfikowane poprzez nazwane krawędzie (użyto dużej litery alfabetu). Konkretną etykietę reprezentuje ciąg dużych liter alfabetu (np. ACABA), który odpowiada

ścieżce (sekwencji krawędzi) w drzewie etykiet licząc od korzenia drzewa. Przy-kładowo pierwsza litera etykiety (będąca pierwszym poziomem drzewa kategorii etykiet) określa właściwość klasy fleksyjnej, która w dużej mierze odpowiada w przybliżeniu częściom mowy:

• A – rzeczowniki, w tym także nazwy, • B – czasowniki,

• C – przymiotniki, w tym imiesłowy przymiotnikowe, • D – liczebniki,

• E – zaimki, • F – przysłówki,

• G – wyrazy nieodmienne (przyimki, wykrzykniki, spójniki, partykuły, itp.), • H – napisy (np. pantałyku, polsku),

• I – skróty wyrazów jednosegmentowych i wielosegmentowych.

Ze względu na możliwą wieloznaczność interpretacji formy potencjalnie zwra-cana jest lista identyfikatorów (zamiast pojedynczego identyfikatora). Poszcze-gólna jednostka w CLP nie reprezentuje pojedynczego znaczenia (konceptu), po-nieważ jak zostało wspomniane wyżej rozróżnienie takie możliwe jest dopiero na poziomie słownika wielosegmentowego i/lub semantycznego.

Następujący listing obrazuje przykładowe informacje jakie można uzyskać dla wyrazu zamek za pomocą serii wywołań bibliotecznych CLP:

?> zamek ID: 286975040

Forma podstawowa: zamek

Formy: zamek, zamku, zamkowi, zamkiem, zamki, zamków, zamkom, zamkami, zamkach

Etykieta: ACABA

Opis etykiety: rzeczownik / męski nieżyw. / M.Lp.-0 / M.Lm.-i / D.Lp.-u Wektor odmiany: [1, 4]

ID: 286975056

Forma podstawowa: zamek

Formy: zamek, zamka, zamkowi, zamkiem, zamku, zamki, zamków, zamkom, zamkami, zamkach

55

Opis etykiety: rzeczownik / męski nieżyw. / M.Lp.-0 / M.Lm.-i / D.Lp.-a / D.Lm.-ów

Wektor odmiany: [1, 4]

Jak można zauważyć forma zamek występuje w dwóch wariantach fleksyjnych (schematach odmiany). Oba schematy mimo posiadania identycznej formy pod-stawowej zostały wyróżnione za pomocą różnej etykiety fleksyjnej (tj. ACABA oraz ACABBA). Biblioteka dla obu identyfikatorów CLP potrafiła wygenerować listę unikalnych form fleksyjnych wyrazu poprawnych w języku polskim. Po ana-lizie zwróconych form można zauważyć różnicę w postaci formy fleksyjnej zamka, która występuje jedynie w odmianie o identyfikatorze 286975056.

Przytoczony przykład prezentuje problem wieloznaczności na wielu pozio-mach abstrakcji. Na najniższym poziomie zauważyć możemy brak rozróżnienia wyrazów z CLP. Dla słowa zamek biblioteka zwróci obie możliwości, ponieważ w obu przypadkach słowo to znajduje się na liście poprawnych form. Dopiero w przypadku zapytania o słowo zamka biblioteka bardziej precyzyjnie wskazałaby jeden wyraz o numerze ID 286975056 ponieważ ta forma rozróżnia oba wyra-zy. Drugim poziomem wieloznaczności jest tutaj wieloznaczność semantyczna, ponieważ łatwo zauważyć, że fleksyjna klasteryzacja wyrazów nie odnosi się w sposób bezpośredni do podziału jaki można zbudować w oparciu o klasyfikację semantyczną wyrazów. Przykładowo słowo zamek może oznaczać budowlę obron-ną, element mechaniczny służący do ryglowania drzwi, część ubrania służącą do zapinania go i inne. Oczywiste jest więc, że operowanie tagowaniem na etapie fleksyjnym jest dość dalekie od ludzkiej zdolności pojmowania pojęć, jednak, dla-tego użycie słowników wyższego poziomu abstrakcji powinno w znaczący sposób w przyszłości przyczynić się do poprawy działania algorytmów opisanych w tym rozdziale.

Podsumowując możliwości biblioteki CLP, należy zwrócić uwagę na fakt że, posiadając identyfikator CLP danej jednostki można odpytać bibliotekę o: formę podstawową wyrazu, wektor form fleksyjnych, etykietę gramatyczną, klasyfikację części mowy i w ten sposób przeprowadzić tagowanie tekstu.

W dokumencie Index of /rozprawy2/10469 (Stron 57-60)

Powiązane dokumenty