Historia systemów QA - Opis systemów QA

Rozdział 3. Systemy QA

3.1. Opis systemów QA

3.1.1. Historia systemów QA

Pierwsze systemy QA były wyspecjalizowanymi programami, w których starano się symulować kompetencje językowe człowieka. Najciekawsze prototypy powstałe na tym etapie badań to:

• Baseball (1961) — system dostępu do bazy danych na temat rozgrywek w

base-ball. Odpowiadał na pytania postaci: „Z kim przegrała drużyna Red Sox w dniu

5 lipca?”. Pytanie zamieniane było na zapytanie do bazy za pomocą specjalnego

procesora tekstu. Następnie program szukał odpowiedzi w dedykowanej bazie danych. [GWCL1961]

• Altair (1966) — system pozwalający na dostęp do bazy danych astronomicznych

za pomocą pytań formułowanych w języku naturalnym. Podobnie jak Baseball Altair był programem tłumaczącym zdania w języku angielskim na kwerendy do bazy danych. [VH1966]

• Parry (1971) — program typu chat-bot, którego zadaniem było prowadzenie

dia-logu. Program symulował zachowanie pacjenta chorego na schizofrenię i był jedną z pierwszych prób komputerowej symulacji dialogu człowiek-maszyna. [Col1971]

1 Źródło: http://www.tvn24.pl 2 Tłumaczenie własne.

• Lunar (1972) — system stworzony przez NASA, którego głównym zadaniem

było udostępnienie naturalnego interfejsu do bazy danych próbek geologicznych z Księżyca. System przyjmował pytania formułowane w języku naturalnym, któ-re następnie były tłumaczone na zapytania do bazy danych. Obsługiwał pytania mające formę poleceń, takich jak: Zidentyfikuj wszystkie próbki, w których

zna-leziono szkło. [WKNW1972]

• QUALM (1978) — system będący implementacją ogólnego modelu

odpowia-dania na pytania. Był znacznie bliższy współczesnym systemom QA niż wyżej wymienione przykłady. Zastosowany model przetwarzania obejmował dwie fazy: zrozumienia pytania oraz znalezienia odpowiedzi. Pierwsza faza polegała na ka-tegoryzacji pytania oraz zdefiniowaniu potrzeby informacyjnej, którą wyrażał użytkownik w pytaniu. W fazie drugiej system określał, ile informacji powinno się znaleźć w odpowiedzi oraz szukał odpowiedzi w bazie wiedzy. [Leh1977] QU-ALM miał jednak szereg ograniczeń związanych z zastosowanym modelem

Con-ceptual Dependency (pol. Zależność Pojęciowa). Ograniczenia te powodowały

niemożność zastosowania do rzeczywistych zbiorów dokumentów pochodzących z różnorodnych dziedzin. [HSJP2003]

Pierwsze systemy QA charakteryzowały się dużą skutecznością i wysoką jako-ścią prezentowanych odpowiedzi. Jednakże działały w ramach wyspecjalizowanych dziedzin, a opracowanych rozwiązań nie można było łatwo rozszerzyć. Przez następ-ne dwie dekady naukowcy próbowali różnych podejść do problemu odpowiadania na pytania począwszy od podejścia symbolicznego (związanego z ogólnymi mecha-nizmami reprezentacji wiedzy i rozumowania) do empirycznego (w którym główny nacisk kładzie się na analizę języka). [SH2007]

Wraz z powstaniem Internetu i jego dynamicznym rozwojem wzrosło znaczenie

wyszukiwarek internetowych. Zadaniem wyszukiwarki internetowej jest

odna-lezienie adresu strony internetowej na podstawie kilku słów kluczowych podanych przez użytkownika. Tak zdefiniowane zadanie można rozumieć jako uproszczone za-danie systemu QA. Popularność wyszukiwarek internetowych oraz ich komercyjny sukces spowodowały, że twórcy systemów QA zaczęli przywiązywać większą wagę do uniwersalności rozwiązań oraz możliwości ich stosowania na znacznych zbiorach danych (najczęściej w postaci kolekcji dokumentów tekstowych). Jednym z prze-jawów tej zmiany było zapoczątkowanie w 1999 roku corocznej ewaluacji syste-mów QA o niesprecyzowanej dziedzinie podczas konferencji TREC³ w ścieżce QA (ang. QA track ).

Na początku dwudziestego wieku powstał szereg dokumentów, w których na-kreślano kierunki rozwoju systemów QA. Celem opracowania dokumentów było

zapewnienie optymalnego rozwoju dziedziny i zapewnienie komercyjnego sukcesu. W raporcie [BCC⁺2001] z roku 2001 członkowie Komitetu Mapy Drogowej

Syste-mów Q&A (ang. Q&A Roadmap Committee) wskazywali, że użyteczne systemy QA

powinny przestrzegać następujących standardów:

• aktualność — baza wiedzy, z której pozyskiwana jest odpowiedź, powinna być

nieustannie aktualizowana nowymi danymi (np. na temat aktualnych wydarzeń),

• dokładność — zła odpowiedź jest gorsza niż brak odpowiedzi. Powinien istnieć

mechanizm wykrywania sprzeczności w bazie wiedzy. Dodatkowo, dla zwiększenia dokładności, system powinien zawierać bazę wiedzy na temat świata oraz posia-dać mechanizmy symulujące wnioskowanie.

• użyteczność — wiedza systemu powinna być dostosowana do konkretnych

po-trzeb użytkowników. Powinna istnieć możliwość wykorzystywania niejednolitych źródeł wiedzy (np. dokumentów tekstowych, stron internetowych, baz danych, obrazów, plików wideo).

• pełność — pożądane są wyczerpujące odpowiedzi na pytanie. Implikuje to

po-trzebę stosowania zarówno baz wiedzy ogólnej, jak i specjalizowanych baz wiedzy, a informacje z nich pochodzące należy zapamiętywać i wykorzystywać w procesie wnioskowania.

• adekwatność — odpowiedź na pytanie musi być zgodna z danym kontekstem.

Ewaluacja systemów powinna być skoncentrowana na użytkowniku (który powi-nien być ostatecznym sędzią, czy odpowiedź jest poprawna).

Rok później, w roku 2002 podczas warsztatów QA konferencji LREC, opra-cowano mapę drogową systemów QA. Mapa ta, wraz ze zmianami zapropo-nowanymi podczas Wiosennego Sympozjum AAAI na temat Nowych Kierunków

w QA [May2003] była zbiorem wytycznych badań w dziedzinie QA na lata 2002–2008.

Mapa składa się z trzech torów (ang. tracks):

• dane, zasoby i narzędzia, • ewaluacja,

• komponenty, programy i zastosowania.

W każdym z tych torów zdefiniowano szereg problemów, które należało rozwią-zać, by osiągnąć nadrzędny cel: zwiększenie produktywności prowadzonych badań oraz uczynienie powstających systemów efektywniejszymi i bardziej użytecznymi. Mapa została przedstawiona na rysunku 3.1.

W roku 2008 grupa badaczy spotkała się w celu przedyskutowania stanu badań w dziedzinie systemów QA. Na spotkaniu powstał dokument [FNA+2008], w którym autorzy, odnosząc się do zadań zawartych w raporcie [BCC+2001] oraz mapy

dro-Rysunek 3.1. Mapa drogowa badań nad systemami QA (za [SH2007]).

gowej opracowanej w latach 2002–2003, wyznaczyli standardy otwartego rozwoju

systemów QA, którego celem były:

• zwiększenie transparentności prowadzonych badań, • promowanie rozwiązań ogólnych,

• łatwiejszy przepływ wiedzy między ośrodkami badawczymi.

Ponadto w raporcie zdefiniowano pięć wyzwań, z których każde było ocenione według trudności następujących elementów:

• trudność pytań, • zakres dziedziny, • czas odpowiedzi, • dokładność,

• pewność, że odpowiedź jest poprawna, • użyteczność systemu,

• trudność języka zapytań,

• trudność języka naturalnego użytego w dokumentach składających się na bazę

wiedzy.

1. TREC QA — jest to zadanie odpowiedzi na 500 pytań za pomocą bazy wie-dzy składającej się z około miliona dokumentów tekstowych zapoczątkowane w ramach konferencji TREC. W wyzwaniu tym największa trudność bierze się z wymaganej wysokiej dokładności odpowiedzi i szerokiego zakresu działania systemu (dokumenty mogą dotyczyć dowolnych tematów).

2. TAC QA4 — jest to zadanie polegające na znalezieniu odpowiedzi na 500 pytań (podobnie jak wyzwanie TREC QA), jednakże w przeciwieństwie do TREC QA, w wyzwaniu należy wykorzystać znacznie większą kolekcję dokumentów (oko-ło 3,2 miliona artykułów). Trudność wyzwania została oceniona podobnie jak

TREC QA, z nieznacznie podwyższoną oceną trudności języka w dokumentach

źródłowych (ze względu na częściej występujący język potoczny).

3. Jeopardy! — wyzwanie polega na wygraniu (za pomocą systemu QA) serii teleturniejów typu „Jeopardy!”.⁵ Trudność wyzwania została oceniona wyżej niż dwóch wyżej wymienionych, głównie ze względu na większy nacisk na szybkość działania systemu (odpowiedź musi zostać znaleziona w kilka sekund) oraz wy-maganie dobrej oceny pewności znalezionej odpowiedzi (program powinien od-powiadać tylko na te pytania, których odpowiedzi jest pewien).

4. Uczenie przez czytanie — wyzwanie inspirowane było jednym z projektów DARPA6. W zadaniu system otrzymuje pewien wybrany tekst z książki (np. do-tyczącej kardiologii). Następnie system powinien odpowiedzieć na szczegółowe pytania dotyczące wejściowego tekstu. Odpowiedzi powinny zawierać wyjaśnie-nia, których jakość oceniana jest przez człowieka. W tym wyzwaniu jednym z najtrudniejszych elementów jest nacisk na użyteczność systemu (ze względu na konieczność dostarczenia wyjaśnień odpowiedzi).

5. Nieprzerwane dochodzenie — w odróżnieniu od pozostałych wyzwań zada-nie wykracza poza odpowiedź na jedno pytazada-nie. Celem jest spełzada-niezada-nie potrzeby informacyjnej użytkownika, poprzez prowadzenie dialogu i dopytywanie. Przez konieczność obsługi skomplikowanej interakcji z użytkownikiem największą trud-nością w wyzwaniu jest wymóg wysokiej użyteczności systemu.

W kontekście opisanych wyżej wyzwań spektakularnym sukcesem było opraco-wanie przez firmę IBM systemu Watson [FBCC+2010]. Głównym celem twórców systemu było podjęcie wyzwania Jeopardy!.

Sercem systemu jest superkomputer o znacznej mocy obliczeniowej, który potrafi przetwarzać bogate zbiory danych. Baza wiedzy systemu składa się z gigabajtów danych, wśród których są takie zasoby jak: cała zawartość encyklopedii internetowej

4 http://www.nist.gov/tac/tracks/2008/qa

5 W Polsce teleturniej ten emitowany był pod nazwą „Vabank”. Zabawa polega na zadaniu pytania do odpowiedzi wyświetlonej przez prezentera programu.

6 DARPA — Agencja Zaawansowanych Obronnych Projektów Badawczych Departamentu Obrony Stanów Zjednoczonych (ang. Defense Advanced Research Projects Agency ).

Wikipedia, baza DBPedia (patrz podrozdział 3.2), ontologie (np. WordNet), słowniki oraz setki milionów zaindeksowanych stron internetowych.

14 lutego 2011 roku odbył się turniej, w którym Watson zmierzył się z dwo-ma mistrzami teleturnieju Jeopardy! Kenem Jenningsem oraz Bradem Rutterem. Watson wygrał rywalizację. Sukces ten był później kilkukrotnie powtarzany i sta-nowi istotne osiągnięcie w pracy nad systemami QA. Obecnie firma IBM pracuje nad komercjalizacją projektu.

Imponująca baza wiedzy oraz szereg zaawansowanych algorytmów nie pozwoliła jednak wyeliminować wszystkich błędów. We wspomnianej wyżej finałowej rozgryw-ce Watson źle odpowiedział na pytanie z kategorii Miasta Stanów Zjednoczonych podając jako odpowiedź. . . Toronto.⁷

W dokumencie Wnioskowanie czasowo-przestrzenne w systemie Question Answering (Stron 31-36)