• Nie Znaleziono Wyników

Od uj˛ e´c teoretycznych do dekodowania relacji referencyjnych

2.6. Metody ewaluacji

Ocena jako´sci działania systemu wykrywaj ˛acego wzmianki i klastry koreferencyjne wymaga u˙zycia formalnej metody obliczania miary dopasowania wyniku systemu

2.6. Metody ewaluacji 49 (nazywanego w skrócie konfiguracj ˛a SYS lub odpowiedzi ˛a, ang. response) do wy-niku idealnego (nazywanego konfiguracj ˛a GOLD lub kluczem, ang. key) w mo˙z-liwie wiarygodny i interpretowalny sposób. Strategii dokonywania takich oblicze´n mo˙ze by´c wiele: wykrywanie wzmianek mo˙ze na przykład uwzgl˛ednia´c dopasowa-nie samych centrów semantycznych, dokładnych granic wzmianek albo stopnia tekstowego pokrycia klucza przez wynik systemu, wykrywanie klastrów za´s – ró˙zne sposoby oceny systemów ze wzgl˛edu na charakter bł˛edów popełnianych przez pro-ces klastrowania (czy na przykład wykrycie singletonu premiowane jest w taki sam sposób jak klastra wieloelementowego). Zgodnie z klasyfikacyjnym charakterem zadania wszystkie metody podaj ˛a natomiast warto´sci kompletno´sci (ang. recall, oznaczanej dalej jako R), oceniaj ˛acej, jaki stopie´n wszystkich poprawnych wyników został wykryty przez system i precyzji (ang. precision, dalej P), informuj ˛acej, ile z wykrytych wyników było poprawnych; ostateczn ˛a ocen˛e systemu stanowi ich

´srednia harmoniczna nazywana miar ˛a F1(ang. F-measure, F-score).

W zwi ˛azku z tym, ˙ze metody nagradzaj ˛ace cz˛e´sciowe dopasowanie wzmianek u˙zyte m.in. w zadaniu Anaphora Resolution Exercise8(Or˘asan i in. 2008) czy Coreference Resolution in Multiple Languagesna warsztacie SemEval 20109(Recasens i Hovy 2011, Màrquez i in. 2012) nie s ˛a ju˙z stosowane w praktyce, dalej ograniczam si˛e do zaprezentowania najwa˙zniejszych metod ewaluacji jako´sci systemów wykrywa-j ˛acych klastry koreferencyjne, wypracowanych przez mi˛edzynarodowe ´srodowisko naukowe i u˙zytych do oceny jako´sci systemów prezentowanych w ramach niniejszej pracy.

Przez lata powstało kilkana´scie miar ewaluacji procesu klastrowania koreferencyj-nego, z których w praktyce obecnie u˙zywane s ˛a cztery: MUC (Vilain i in. 1995), B3 (Bagga i Baldwin 1998) i CEAFE (Luo 2005) oraz ich ´srednia arytmetyczna, zastosowana po raz pierwszy na konferencji Computational Natural Language Le-arningi z tego wzgl˛edu nazywana miar ˛a CoNLL10. Od wielu lat w ´srodowisku podnoszone s ˛a zarzuty w stosunku do u˙zywanych obecnie metryk, na przykład Holen (2013) porównuj ˛ac wyniki ewaluacji przez człowieka z wynikami uzyskiwa-nymi automatycznie, uzale˙znia sukces procedury identyfikacyjnej od poprawnego klastrowania wzmianek o znacz ˛acej wadze informacyjnej, Moosavi i Strube (2016) zauwa˙zaj ˛a za´s brak korelacji mi˛edzy poszczególnymi miarami „standardowymi”.

Mimo to popularno´s´c miary CoNLL tłumaczy si˛e jej charakterystyk ˛a równowa˙z ˛ac ˛a

8http://rgcl.wlv.ac.uk/events/ARE/.

9http://stel.ub.edu/semeval2010-coref/.

10Niekiedy u˙zywana jest te˙z nazwa MELA od ang. mentions, entities, links (np. Pradhan i in.

2012).

najwa˙zniejsze cechy koreferencji, gdy˙z składowa miara B3 koncentruje si˛e głównie na własno´sciach wzmianek, MUC – linków, a CEAFE – klastrów. Proponowane nowe metryki ewaluacyjne: BLANC (BiLateral Assessment of Noun-phrase Core-ference; patrz Recasens i Hovy 2011, Luo i in. 2014) czy LEA (Link-based Entity Aware evaluation metric; patrz Moosavi i Strube 2016) nie s ˛a jednak szeroko stoso-wane i zostały wyparte przez miar˛e CoNLL. Dalej opisuj˛e krótko zasady obliczania trzech najwa˙zniejszych metryk oraz ich główne własno´sci; ich dokładn ˛a prezenta-cj˛e wraz z przykładami oblicze´n zawiera rozdział 14 monografii angielskoj˛ezycznej (Ogrodniczuk i in. 2015).

2.6.1. Miara MUC

Metryka MUC (Vilain i in. 1995) była pierwsz ˛a prób ˛a ewaluacji narz˛edzi do wykry-wania koreferencji u˙zyt ˛a w zadaniach MUC–6 i MUC–711. Zasad ˛a jej działania jest ocena liczby poprawnie wykrytych linków definiowanych w sposób „anaforyczny”

jako powi ˛azanie danej wzmianki z jej linearnym poprzednikiem z tego samego klastra. Kompletno´s´c obliczana jest jako stosunek poprawnie wykrytych linków do wszystkich poprawnych linków. Formalnie obliczana jest nast˛epuj ˛aco:

R=

|GOLD|

P

i=1 (|GOLDi| − |p(GOLDi)|)

|GOLD|

P

i=1 (|GOLDi| − 1) gdzie:

|GOLD| – jest liczb ˛a klastrów koreferencyjnych w kluczu,

|GOLDi| – jest liczb ˛a wzmianek w klastrze GO L Di (a zatem |GOLDi| − 1 odpowiada „rozpi˛eto´sci klastra”, czyli minimalnej liczbie linków pomi˛edzy wzmiankami zapewniaj ˛acych jego pełne pokrycie),

– p(GOLDi) – jest zbiorem wszystkich klastrów ze zbioru SYS, które zawieraj ˛a co najmniej jeden element z GO L Di (czyli liczb ˛a klastrów, na jakie „rozpadł si˛e” klaster ze zbioru GOLD).

11Message Understanding Conference z lat 1995 (http://www.cs.nyu.edu/cs/faculty/

grishman/COtask21.book_1.html) i 1997 (http://www.itl.nist.gov/iaui/894.02/

related_projects/muc/proceedings/co_task.html).

2.6. Metody ewaluacji 51 Liczba poprawnie wykrytych linków odpowiada zatem (dla ka˙zdego klastra) ró˙z-nicy wielko´sci klastra (który stanowi ci ˛ag wzmianek poł ˛aczonych linkami) i liczby klastrów, na jakie „rozpadł si˛e” on w zbiorze SYS. Wszystkie poprawne linki zlicza si˛e, sumuj ˛ac „rozpi˛eto´sci” wszystkich klastrów w zbiorze GOLD.

Precyzja zdefiniowana jest natomiast w naturalny sposób jako stosunek liczby poprawnie wykrytych linków do liczby wszystkich wykrytych linków, z warto´sciami zmiennych zdefiniowanymi odpowiednio:

Zalet ˛a miary MUC jest jej prostota; podstawowy problem stanowi natomiast kon-centracja miary wył ˛acznie na linkach tworz ˛acych klastry – bez uwzgl˛edniania singletonów. Konsekwencj ˛a jest zaburzona warto´s´c wyniku w sytuacji, gdy zbiór wzmianek, na których działa system, jest inny ni˙z w testowym zbiorze GOLD.

Oznacza to nieprzydatno´s´c miary w zastosowaniach praktycznych z automatyczn ˛a ekstrakcj ˛a wzmianek – system wykrywaj ˛acy nadmiern ˛a liczb˛e wzmianek osi ˛agnie taki sam wynik jak system wykrywaj ˛acy zbiór wła´sciwy. Drugi zarzut dotyczy

„ksi ˛a˙zkowego” podej´scia do precyzji i dokładno´sci, przez co zwi˛ekszona liczba bł˛ednie wykrytych linków (czyli scalenia przez system klastrów w istocie nieko-referencyjnych, co jest powa˙znym bł˛edem) zupełnie nie wpływa na dokładno´s´c – w szczególno´sci poł ˛aczenie wszystkich wzmianek w jeden klaster da w wyniku stuprocentow ˛a kompletno´s´c przy niezerowej precyzji. Podobnie nie ma ró˙znicy mi˛edzy poł ˛aczeniem du˙zego klastra z mniejszym w stosunku do poł ˛aczenia go z wi˛ekszym – oba nadmiarowe linki s ˛a oceniane tak samo, a przecie˙z druga sytuacja wydaje si˛e bardziej szkodliwa, bo bł˛ednie oznacza jako koreferencyjne wi˛eksz ˛a liczb˛e wzmianek.

2.6.2. Miara B3

Miara B3 (Bagga i Baldwin 1998) definiuje kompletno´s´c i precyzj˛e, u´sredniaj ˛ac wyniki dla pojedynczych wzmianek:

P=

N

X

i=1

1

N|SY S(i) ∩ GOLD(i)|

|SY S(i)|

gdzie:

– N – jest liczb ˛a wzmianek w zbiorach GOLD i SYS12,

– GO L D(i) – jest klastrem (rozumianym jako zbiór wzmianek) w zbiorze GOLD zawieraj ˛acym wzmiank˛e i,

– SY S(i) – jest klastrem w zbiorze SYS zawieraj ˛acym wzmiank˛e i.

Miara B3uwzgl˛ednia wielko´s´c ł ˛aczonych klastrów i singletony, natomiast jej działa-nie jest działa-nieintuicyjne: definicja kompletno´sci sprawia, ˙ze system ł ˛acz ˛acy wszystkie wzmianki w jeden klaster da w wyniku stuprocentow ˛a kompletno´s´c, wzrost liczby singletonów powoduje za´s niebezpieczny wzrost precyzji, co utrudnia porównanie systemów w zastosowaniach praktycznych, gdy˙z liczba singletonów w rzeczywi-stych tekstach jest du˙za13. Co wi˛ecej, miara B3 zakłada, ˙ze ewaluowany system działa na wzmiankach ze zbioru GOLD. Warianty miary dostosowuj ˛ace j ˛a do sy-tuacji wzmianek wykrywanych systemowo zaproponowali m.in. Bengtson i Roth (2008), Stoyanov i in. (2009), Rahman i Ng (2009) oraz Cai i Strube (2010).

2.6.3. Miara CEAF

Zasad ˛a działania miary CEAF (Luo 2005) jest mapowanie klastrów ze zbiorów GOLD i SYS z wykorzystaniem pewnej miary podobie´nstwa, zdefiniowanej w dwóch wariantach: dla wzmianek (ang. mention-based) i klastrów (ang. entity-based), czego konsekwencj ˛a jest istnienie dwóch wariantów miary, odpowiednio CEAF-M i CEAF-E, którym odpowiadaj ˛a nast˛epuj ˛ace funkcje podobie´nstwa:

φM(GOLDi, SY Sj) = |GOLDi∩ SY Sj|

φE(GOLDi, SY Sj) = 2∗ |GOLDi∩ SY Sj|

|GOLDi| + |SY Sj|

12Miara zakłada działanie algorytmu klastruj ˛acego na zbiorze wzmianek z klucza; jej wariant dla wzmianek wykrywanych automatycznie przedstawił Stoyanov (2009).

1386% wszystkich klastrów w korpusie AnCora-CO, 61% w korpusie ACE (Recasens 2010: rozdział 5.3.1) i, uprzedzaj ˛ac wywód, niespełna 83% w naszym korpusie (patrz tabela 4.11).

2.6. Metody ewaluacji 53 gdzie:

– GO L Di – jest klastrem ze zbioru GOLD, – SY Sj – jest klastrem ze zbioru SYS.

Kompletno´s´c i precyzja zdefiniowane s ˛a jako:

R= Φ(h)

gdzie:Φ(h) – jest mapowaniem o najlepszym podobie´nstwie.

Wad ˛a miary CEAF jest nadmierny udział singletonów w wyniku ko´ncowym, co wypacza wynik ze wzgl˛edu na du˙z ˛a liczb˛e singletonów w danych rzeczywistych, oraz równe traktowanie klastrów bez wzgl˛edu na ich rozmiar, co sprawia, ˙ze bł˛edne poł ˛aczenie dwóch małych klastrów ma identyczn ˛a wag˛e co przył ˛aczenie małego klastra do du˙zego. Problemem jest te˙z intensywno´s´c obliczeniowa rz˛edu O(m3log m), gdzie m jest liczb ˛a wzmianek. Teksty Rahmana i Nga (2009) oraz Cai i Strubego (2010) zawieraj ˛a propozycje wariantów miary CEAF.

2.6.4. Miara BLANC

Miara BLANC (Recasens 2010) bierze pod uwag˛e koreferencyjno´s´c wszystkich par wzmianek i oblicza kompletno´s´c oraz precyzj˛e osobno dla par poprawnie zaklasyfi-kowanych jako koreferencyjne i niekoreferencyjne, a ostatecznym wynikiem jest

´srednia arytmetyczna tych warto´sci.

gdzie:

– r c (ang. rightly coreferent) – jest liczb ˛a par wzmianek oznaczonych jako koreferencyjne zarówno w SYS, jak i w GOLD,

– wc (ang. wrongly coreferent) – jest liczb ˛a par wzmianek oznaczonych jako koreferencyjne w SYS, ale niekoreferencyjne w GOLD,

– wn (ang. wrongly non-coreferent) – jest liczb ˛a par wzmianek oznaczonych jako niekoreferencyjne w SYS, ale koreferencyjne w GOLD,

– r n (ang. rightly non-coreferent) – jest liczb ˛a par wzmianek oznaczonych jako niekoreferencyjne zarówno w SYS, jak i w GOLD.

Gdy w trakcie oblicze´n mogłoby zaj´s´c dzielenie przez zero (mo˙ze si˛e to zdarzy´c, na przykład gdy system zwróci w wyniku wył ˛acznie singletony, co skutkuje zerow ˛a warto´sci ˛a wyra˙zenia r c+ wc), wynik takiego obliczenia zostaje arbitralnie ustalony na zero.

Zalet ˛a miary jest jej du˙zo wi˛eksza zgodno´s´c z intuicj ˛a, gdy mamy do czynienia z du˙z ˛a liczb ˛a singletonów. Zasadnicz ˛a wad ˛a miary jest kwadratowy wzrost liczby linków w stosunku do liczby wyst ˛apie´n, co oznacza zale˙zno´s´c wyników od

długo-´sci tekstu. W konsekwencji system popełniaj ˛acy regularne bł˛edy (np. sklejaj ˛acy czwórki, a nie pary wyst ˛apie´n, co odpowiada zaburzeniu na poziomie jakiej´s własno´sci lingwistycznej) uzyskuje ró˙zne wyniki kompletno´sci na dokumentach o ró˙znej długo´sci (w przeciwie´nstwie do starszych miar – MUC i B3).