Metoda wykorzystująca pobudzenia asocjacyjne

Inny nowo zaproponowany algorytm służący semi-automatycznej korekcie tekstu został wprowadzony na podstawie inspiracji zaczerpniętej z zachowań neuronów w mózgu człowieka. Graf Przyzwyczajeń Lingwistycznych jest znakomitym modelem, w którym można zasymulować proces, w jaki neurony stymulują kolejne połączone neurony w mózgu.

Funkcją neuronów jest odbieranie, przetwarzanie i przekazywanie sygnałów. Jest to możliwe jednak pod pewnymi warunkami: ilość sygnałów pobudzających neuron musi być odpowiednia, a sygnały hamujące powinny być słabsze od tych pobudzających, by neuron mógł osiągnąć próg aktywacji i wysłać sygnał dalej do połączonych z nim neuronów [96]. Oznacza to, że jeśli potencjał elektryczny przychodzącego sygnału jest większy niż potencjał progowy pojedynczego neuronu to sygnał zostanie przekazany. W przeciwnym razie, żaden sygnał nie zostanie przekazany do kolejnych neuronów. Czynność ta wykonywana jest na podstawie wyznaczenia funkcji progowej zaprezentowanej na równaniach poniżej:

(27) (28)

Każdy sygnał wejściowy (dendryt) ma przypisaną wagę wkj do wartości wejściowej xj. Następnie suma wszystkich danych wejściowych mnożona jest przez funkcję przenoszenia φ. Wynik tej operacji porównywany jest z wartością progową θk. Przepuszczony sygnał jest następnie

przekazywany do kolejnego neuronu wchodzącego w skład układu nerwowego przez synapsę lub grupę synaps [97].

W grafie LHG proces korekcji tekstu dla opisywanego algorytmu rozpoczyna się zawsze od aktywacji neuronu specjalnego, który wyznacza początek zdania. Następnie aktywowane są kolejne neurony dla poprawianego zdania, w celu zbudowania zdania poprawnego. Aktywacja ta odbywa się w odpowiedniej kolejności, zgodnie z siłą wag między neuronami słownymi. Kontekst poprzednio aktywowanych neuronów słownych pobudza kolejne neurony słowne, które zwykle pojawiają się we wskazanym kontekście z wykorzystaniem asocjacji sekwencyjnych ASEQ oraz asocjacji kontekstowych ACON. Połączenia te są dodatkowo wzmacniane przez ich częstotliwości, które są obliczane podczas budowy sieci grafu LHG. Aktywowane neurony stymulują kolejne połączone z nimi neurony, biorąc pod uwagę wagi obliczone w zależności od częstotliwości takich sekwencji słownych. Stymulacja neuronu jest definiowana przy użyciu kilku stymulacji:

• stymulacji zewnętrznej extIn(t), • stymulacji wewnętrznej intIn(t),

• poprzedniego stanu neuronu w kroku czasowym (t – 1).

Waga wi określona jest poprzez częstotliwość połączenia (fi) między neuronami słownymi, która dodatkowo jest znormalizowana przez sumę częstotliwości wszystkich innych połączeń wejściowych danego neuronu.

Szczegółowe równania określające ten algorytm zapisano poniżej. Wyznaczenie wagi odbywa się na podstawie obliczenia równania:

(29)

Wyznaczenie stymulacji dla neuronu odbywa się natomiast poprzez obliczenie równania:

(30) Jak można zauważyć, w rzeczywistości połączenia ASEQ i ACON są aktywowane z badanego neuronu za każdym razem. Założono dodatkowo, że na każdym etapie poprzednie pobudzenie neuronalne wybranego neuronu słownego będzie pomniejszane o połowę. W ten sposób połączenia asocjacji kontekstowych ACON wyższych rzędów mają znacznie mniejszy wpływ na aktywację następnego neuronu słownego. Wraz z rosnącym poziomem asocjacji kontekstowej

pobudzenie jest mniejsze. Innymi słowy można stwierdzić, iż im bliższy kontekst, tym większy ma on wpływ na poziom wzbudzenia następnych neuronów słownych. Jeśli wskazana aktywacja przejścia do kolejnego neuronu słownego nie jest możliwa, wówczas sugerowana jest korekta do najbardziej podobnego lub najbardziej częstego kolejnego słowa. Jeśli po sugerowanym neuronie słownym następuje neuron słowny, który reprezentuje następne słowo w poprawionym zdaniu, to sugestia ta jest jeszcze silniejsza. Zastosowanie opisanego powyżej algorytmu semi-automatycznej korekty tekstu daje bardzo dobre wyniki. Jedynym jego ograniczeniem jest potrzeba wcześniejszego zbudowania sieci Grafu Przyzwyczajeń Lingwistycznych dla możliwie dużej ilości korpusów tekstowych.

Podsumowując, sprawdzanie pisowni jest jednym z najczęstszych zadań dotyczących przetwarzania języka naturalnego. Ma ono szeroki zakres zastosowań. Wykorzystywane jest podczas wyszukiwania informacji, korekty tekstu, itp. Obecnie w wielu aplikacjach NLP używany jest moduł do sprawdzania pisowni, który analizuje tekst pod kątem wystąpienia głównie błędów ortograficznych. Mechanizmy te najlepiej radzą sobie z przypadkiem, gdy błędny wyraz nie występuje w słowniku danego języka. Bazując na metodzie słownikowej, algorytmy mają ściśle określone słowa, z którymi mogą porównać każde wprowadzane słowo. Jeśli wprowadzonego słowa nie znajdą w słowniku, wyraz ten automatycznie uznawany jest za błędny. Oczywiście jest to poprawne zachowanie. Niemniej jednak, we wpisywanym tekście mogą wystąpić wszelkiego rodzaju inne błędy, dla których mechanizmy te nie zadziałają. Jednym z kluczowych obszarów jest znajomość kontekstu wypowiedzi. Znając kontekst, można bowiem stwierdzić, że choć dane słowa występują w słowniku językowym, to użycie ich w danym kontekście jest błędne. Opracowane metody semi-automatycznej korekty tekstu na bazie Grafu Przyzwyczajeń Lingwistycznych umożliwiają ten problem rozwiązać. Opracowane algorytmy bazują bowiem, podczas swojego działania, na asocjacjach sekwencyjnych ASEQ oraz asocjacjach kontekstowych ACON. Połączenia te są tak naprawdę odzwierciedleniem kontekstu wypowiedzi, który został zapisany w grafie. Może on bowiem sugerować różne opcje korekty w kontekście innych słów pojawiających się we wcześniej przeczytanych zdaniach. Ponadto różne sugerowane opcje są ważone przez częstotliwość ich używania przez innych ludzi w przeszłości oraz przez określony kontekst innych słów w analizowanych zdaniach. Warto również zwrócić uwagę na to, że algorytmy działające na bazie sieci grafowej, są bardzo szybkie. Spowodowane jest to skończoną i ograniczoną ilością potrzebnych przejść. Nie trzeba w tym przypadku przeszukiwać wszystkie możliwe ścieżki czy neurony. Dla zaprojektowanych metod wystarczy przeszukać zazwyczaj kilkanaście połączeń. Dodatkowo, w wyniku połączeń asocjacyjnych w grafie, proces sprawdzania i określania podgrupy najbardziej prawdopodobnych poprawek jest zawsze dostępny w stałym czasie.

Rozdział 5

W dokumencie Index of /rozprawy2/11645 (Stron 93-96)