• Nie Znaleziono Wyników

Rozdział 1. Wprowadzenie

2.5. Problem oceny tagerów

2.5.3. Proponowana metoda oceny tagerów

Jak wykazaliśmy w poprzednim punkcie, jedynie testy tagera na czystym tekście pozwalają przetestować wszystkie składniki systemu i uzyskać w ten sposób wiary-godne przybliżenie rzeczywistego odsetka błędów, które mogą się pojawić na wyjściu. Przeprowadzenie takich testów wymaga jednak przyjęcia kilku dodatkowych założeń. Należy się bowiem spodziewać, że ponowne przetworzenie tekstu przez moduł segmen-tacji prowadzić będzie do różnic w segmensegmen-tacji tekstu; problem może dotyczyć podziału na segmenty, jak i podziału na zdania.

Jest kwestią sporną, czy błędy w podziale na zdania należy uznać za błędy tagera. Z jednej strony, błędy takie mogą utrudnić dalsze przetwarzanie, np. analizę składniową zdań. Z drugiej zaś strony, nie każde zastosowanie wymaga podziału na zdania, a jakość podziału stosunowo łatwo ocenić z osobna. Co więcej, jest prawdopodobne, że błędny podział na zdania odbije się negatywnie na automatycznym oznakowaniu morfosyntaktycznym (większość algorytmów zakłada, że każde zdanie rozpatrywane

18 Sytuacja taka ma miejsce podczas oceny przeprowadzanej w następujących publikacjach: Ace-dański (2010); Śniatowski i Piasecki (2011); Radziszewski i Śniatowski (2011b). Korpus użyty do oceny (NKJP) przypisuje dokładnie dwie możliwe interpretacje słowom nieznanym: prawidłową interpretację przypisaną przez lingwistów oraz specjalny tag oznaczający słowo nieznane. Strategią zapewniającą stuprocentową trafność w przypadku słów nieznanych jest niewybieranie tagu „słowo nieznane”.

jest z osobna) — przez co ocena na poziomie segmentów po części uwzględnia błędy w podziale na zdania. Głównym problemem jest jednak trudność opisania jedną miarą błędów umiejscowionych na poziomie segmentów i tagów oraz błędów na poziomie całych zdań. Dlatego też zalecamy, by miara oceny tagera nie uwzględniała wprost błędów w podziale na zdania.

Różnice w podziale na segmenty powodują, że nie zawsze możliwe jest bezpośred-nie porównabezpośred-nie tagów przypisanych danemu segmentowi w wariancie wzorcowym i wariancie wyprodukowanym przez tager. Dalsze rozważania opieramy o założenie, że korpus wzorcowy i korpus wynikający z oznakowania czystego tekstu zawierają ten sam tekst (pomimo możliwych różnic w podziale na segmenty). Należy się spodziewać, że znaczna część (większość) segmentów z korpusu wzorcowego obecna będzie w korpusie wynikowym w postaci niezmienionej. W przypadku pozostałych segmentów z korpusu wzorcowego powiemy, że podlegają zmianie segmentacji.

Poniżej przedstawiamy kilka przykładów takich zmian segmentacji20. W przykła-dach użyto strzałek obustronnych, gdyż teoretycznie możliwe są oba kierunki zamiany (tj. zarówno lewa, jak i prawa strona może teoretycznie przedstawiać segmentację wzor-cową).

(2.22) ... ↔ . . .

(2.23) m.in. ↔ m . in .

(2.24) człowiek–demolka ↔ człowiek – demolka (2.25) dałżebyś ↔ dał że byś

(2.26) void* ptr ↔ void *ptr (2.27) Lądek Zdrój ↔ Lądek Zdrój

Najprostszy typ różnic segmentacji dotyczy różnego traktowania zbitek znaków in-terpunkcyjnych (2.22). Problem pojawia się, gdy w jednym z porównywanych warian-tów ciąg znaków interpunkcyjnych potraktowany jest jako jeden segment, podczas gdy w drugim wariancie każdy znak stanowi osobny segment. Sytuacja taka typowo dotyczy kropek, a także ciągów łączników pełniących rolę pauzy lub półpauzy (np. ---), choć teoretycznie może wystąpić w przypadku ciągów dowolnych znaków interpunkcyjnych lub symboli graficznych.

Drugi typ różnic, który często można spotkać, dotyczy ciągów zawierających naprze-mian znaki interpunkcyjne i ciągi liter. Jego typowym przykładem jest inne traktowanie skrótów wieloczłonowych (2.23), a także słów połączonych półpauzą lub łącznikiem (2.24).

Część problemów może wynikać z nietradycyjnej strategii segmentacji przyjętej w tagsetach NKJP i KIPI (por. punkt 2.2). W przypadku nierozpoznania konkretnej formy przez moduł analizy morfosyntaktycznej, prawdopodobnie zostanie ona zwró-cona jako jeden segment, wbrew temu, co zostało oznakowane w korpusie wzorcowym (2.25).

Dotychczasowe przykłady uwzględniały jedynie sytuacje, gdzie jeden z wariantów zawierał dokładnie jeden segment, a drugi — więcej. Teoretycznie istnieje możliwość

20 Przytoczone w tym punkcie typy różnic segmentacji zostały w dużej mierze zainspirowane dyskusjami z Szymonem Acedańskim.

pojawienia się bardziej skomplikowanej różnicy, gdzie segmenty będą się na siebie czę-ściowo nakładać (2.26).

Możliwe jest również wystąpienie różnic w segmentacji związanych z obecnością znaków białych (2.27). Warto zauważyć, że sytuacja taka nie może wystąpić w tagsecie NKJP ani KIPI — bezwzględnym nakazem jest tam podział na każdym znaku białym (por. 2.2).

Nie jest jasne, jak należy traktować takie różnice w segmentacji. Intuicja wskazuje na to, że zmiany w segmentacji dotyczące jedynie znaków interpunkcyjnych powinny być karane mniej surowo niż nieprawidłowa segmentacja wyrażeń zawierających np. rzeczowniki. Trudno jest jednak podać jakiekolwiek liczbowe współczynniki kar. Należy przy tym pamiętać, że każdy z wyodrębnionych segmentów ma przypisane pewne tagi, a niezwykle trudno jest sformułować jednoznaczne i uniwersalne kryteria porównania tagów przypisanych segmentom różnie wydzielonym w ramach tego samego wyrażenia. Problem ten można obejść poprzez określenie przedziału, w jakim bez wątpienia znajduje się trafność osiągana przez tager, niezależnie od tego, które z tych zmian segmentacji uznamy za istotne. Proponowane w tej pracy miary zakładają uprzed-nie dopasowauprzed-nie korpusu wzorcowego z korpusem wynikowym (wyjściem tagera) na poziomie segmentów. Dopasowanie takie polega na podziale tekstu na najkrótsze frag-menty, których granice zgodne są z granicami segmentów w obu korpusach. Każdy taki fragment można przedstawić jako parę (ciąg segmentów z korpusu wzorcowego,

ciąg segmentów z korpusu wynikowego), gdzie oba elementy pary dają ten sam tekst.

Wszystkie segmenty z korpusu wzorcowego niepodlegające zmianom segmentacji two-rzą samodzielne fragmenty. Pozostałe segmenty, tj. te podlegające zmianie segmentacji, tworzą fragmenty, gdzie przynajmniej jeden z elementów pary zawiera więcej niż jeden segment.

Proponujemy użycie dwóch miar, stanowiących widełki, w których mieści się rzeczy-wista trafność tagera: dolnego ograniczenia trafności oraz górnego ograniczenia trafności. Obie miary zakładają, że segmenty z korpusu wzorcowego podlegające zmia-nie segmentacji zmia-nie są analizowane (zmia-nie sprawdzamy ich tagów). Dolne ograniczzmia-nie traf-ności zakłada, że wszystkie takie segmenty traktowane są jako nietrafione; ograniczenie górne traktuje wszystkie takie segmenty jako trafione, niezależnie od przypisanych im tagów.

Przyjmijmy, że odwzorowanie match : N → N przypisuje numerom segmentów niepodlegającym zmianom segmentacji z korpusu wzorcowego numery segmentów w korpusie wynikowym. Jako że odwzorowanie to jest określone jedynie dla segmentów niepodlegających zmianie segmentacji, zapis i ∈ match oznacza, że segment i-ty na-leży do korpusu wzorcowego oraz nie podlega zmianie segmentacji. W takim ujęciu, dolne i górne ograniczenie trafności uzyskuje definicję, odpowiednio, 2.28 i 2.29. Jak w poprzednich wzorach, N określa liczbę segmentów w korpusie wzorcowym.

Acclower = |{i : tag(i) = ref (match(i)), i ∈ match}|

N (2.28)

Accupper = |{i : tag(i) = ref (match(i)), i ∈ match}| + |{i : 0 < i ¬ N ∧ i /∈ match}|

N

Dopasowanie korpusu wynikowego do korpusu wzorcowego zilustrowano poniżej (2.30). Korpus wzorcowy (górny wiersz) składa się z sześciu segmentów, natomiast wynikowy (wiersz dolny) — z siedmiu. Spośród sześciu segmentów korpusu wzorcowego jedynie segmenty Dawno , w oraz żyli nie podlegają zmianom segmentacji. Pozostałe segmenty tworzą następujące fragmenty: ( PRL-u , PRL - u ) oraz ( . . , .. ).

(2.30) Dawno Dawno w w PRL-u PRL - u żyli żyli . . ..

Obliczenie dolnego ograniczenia trafności polegałoby zatem na ustaleniu równości tagów przypisanym tym trzem segmentom. Jeśli założymy, że wszystkim tym segmen-tom tager przypisał tagi prawidłowe, wartość dolnego ograniczenia trafności wyniesie

3

6 = 50%. Wartość górnego ograniczenia trafności wyniesie natomiast 3+3

6 = 100% (przyjmujemy, że tager przypisał prawidłowe tagi tym trzem segmentom, natomiast pozostałe trzy segmenty podlegają zmianie segmentacji — a więc, w przypadku górnego ograniczenia, uznajemy je arbitralnie za trafione).

Która zatem wartość powinna być użyta jako ostateczna miara oceny tagerów? Zalecamy, aby zawsze, gdy przeprowadzana jest eksperymentalna ocena tagerów, pu-blikować wartości obu miar. Wartości te pozwalają ocenić skalę problemu, jakim są zmiany segmentacji. Jako miarę o charakterze decyzyjnym (determinującą, który tager uznamy za lepszy) rekomendujemy21 dolne ograniczenie trafności. Miara ta karze surowo każdą zmianę w segmentacji. Chociaż kara taka może być czasem nieadekwatna do sytuacji, jest to jedyny sposób, aby promować wysiłek włożony w dostosowywa-nie modułu segmentacji tagera do towarzyszących tagsetowi wytycznych znakowania. Ocena przy użyciu górnego ograniczenia trafności w skrajnym wypadku może zachęcać do sztucznego wprowadzenia zmian segmentacji, gdyż zawyżają one osiągnięte przez tager wyniki.