Algorytm odpowiadania na pytania w postaci kwerendy

Rozdział 5. Algorytmy odpowiadania na pytania

5.4. Algorytm odpowiadania na pytania w postaci kwerendy

5.4.1. Opis algorytmu

Istotą pytań w postaci kwerendy jest rozstrzygnięcie, czy fakt zawarty w pyta-niu (dalej nazywany w skrócie faktem kwerendy) jest sprzeczny bądź niesprzeczny z dostępną bazą wiedzy.

Algorytm odpowiadania na pytania tego typu składa się z następujących kroków: 1. Znajdź fakt pytania w ustrukturyzowanej bazie wiedzy. Jeśli fakt znajduje się

w bazie, to zwróć odpowiedź TRUE.

2. Uruchom algorytm wnioskowania na fakcie kwerendy (bez faktów wydobytych). Jeśli fakt kwerendy jest zweryfikowany, to zwróć wynik algorytmu wnioskowania jako odpowiedź.

3. Wykorzystaj nieustrukturyzowaną bazę wiedzy do znalezienia faktów wydoby-tych E.

4. Dla każdego faktu wydobytego e wykonaj:

a) Jeśli e jest równe faktowi kwerendy, to zwróć odpowiedź TRUE,

b) Uruchom algorytm wnioskowania na fakcie kwerendy wraz z faktem wydo-bytym e. Jeśli fakt kwerendy jest zweryfikowany, to zwróć wynik algorytmu wnioskowania jako odpowiedź.

5. Jeśli nie udało się zweryfikować faktu kwerendy zwróć odpowiedź UNKNOWN. W pierwszym kroku algorytmu fakt kwerendy wyszukiwany jest w ustrukturyzo-wanej bazie wiedzy (szukana informacja może być zachowana bezpośrednio w bazie wiedzy). Proces ten nie wymaga wnioskowania.

W kolejnym kroku wykorzystywane jest wnioskowanie wyłącznie na faktach z ba-zy wiedba-zy. Na tym etapie nie są wykorba-zystywane fakty wydobyte, które traktujemy jako źródło wiedzy gorszej jakości.

Jeśli wnioskowanie nie powiedzie się, to rozpoczyna się wykorzystanie nieustruk-turyzowanej bazy wiedzy. W pierwszym kroku tworzymy kolekcję faktów wydoby-tych. Fakty są pozyskiwane za pomocą metod opisanych w podrozdziale 6.1. Na-stępnie każdy z faktów wydobytych wykorzystywany jest pojedynczo w procesie wnioskowania. Oznacza to, że algorytm wykorzystuje wnioskowanie na maksymalnie jednym fakcie wydobytym.5

Jeśli fakt kwerendy jest zweryfikowany przez algorytm wnioskowania, to oprócz wartości odpowiedzi zwracana jest również utworzona w procesie wnioskowania sieć ograniczeń (jako wyjaśnienie odpowiedzi). W przypadku, gdy odpowiedź powstała

5 Nieustrukturyzowana baza wiedzy jest źródłem gorszej jakości, dlatego dopuszczamy wyko-rzystanie tylko jednego faktu wydobytego, aby uchronić się przed propagacją błędów.

poprzez wykorzystanie faktu wydobytego, dodatkowo zwracany jest fragment tekstu, z którego pozyskano fakt wydobyty.

5.4.2. Przykład działania algorytmu

Przykład 5.1: Pytanie kwerendy

Rozpatrzmy następujące pytanie: Czy Uniwersytet Adama Mickiewicza znajduje

się w Polsce? Przyjmijmy, że ustrukturyzowana baza wiedzy zawiera następujący

fakt:

Poznań [miasto], jest położony w, Polska [państwo]

Dodatkowo załóżmy, że w nieustrukturyzowanej bazie wiedzy znajduje się nastę-pujący fragment artykułu prasowego:6

[. . . ] na dnie jeziora zalegają teraz nagromadzone z tego wszystkiego osa-dy, które najpierw trzeba by było usunąć. Osady niebezpieczne nie są, badali je naukowcy z Uniwersytetu Adama Mickiewicza w Poznaniu [. . . ]

Rozpatrywane pytanie należy do grupy pytań w postaci kwerendy i jest reprezen-towane za pomocą następującego faktu kwerendy: (Uniwersytet Adama Mickiewicza

[jednostka], znajduje się w, Polska [państwo]). Zadaniem algorytmu odpowiadania

na pytanie jest potwierdzenie (lub sfalsyfikowanie) faktu kwerendy.

W pierwszym kroku algorytmu w bazie wiedzy ustrukturyzowanej wyszukiwany jest fakt dokładnie równy faktowi kwerendy. W naszym przykładzie baza wiedzy nie zawiera takiego faktu.

W kolejnym kroku algorytm wykorzystuje wnioskowanie i ustrukturyzowaną ba-zę wiedzy do znalezienia odpowiedzi. Wnioskowanie rozpoczyna się od kroku po-twierdzenia. Algorytm wnioskowania buduje sieć ograniczeń składającą się z dwóch wierzchołków reprezentujących podmiot i dopełnienie faktu kwerendy (tzn. jednost-kę Uniwersytet Adama Mickiewicza oraz jednostjednost-kę Polska). Nie jest dodawana kra-wędź pomiędzy wierzchołkami (jej uzyskanie jest celem kroku potwierdzenia).

Ponieważ baza wiedzy nie zawiera faktów, których podmiotem jest jedna z wy-mienionych jednostek wynikowa sieć ograniczeń zawiera tylko dwa wierzchołki (nie zostają dodane żadne fakty). Krok potwierdzenia nie powodzi się (stworzona sieć ograniczeń nie zawiera krawędzi łączącej podmiot i dopełnienie faktu kwerendy).

Rozpoczyna się krok falsyfikacji. Algorytm dodaje cały fakt kwerendy do sieci ograniczeń, tworząc sieć ograniczeń składającą się z dwóch wierzchołków:

Uniwersy-tet Adama Mickiewicza oraz Polska. Wierzchołki połączone są krawędzią PP,

pocho-dzącą z modelowania typu relacji jest położony w z faktu kwerendy. Sieć ograniczeń

nie zawiera relacji pustej, co oznacza że krok falsyfikacji również się nie powodzi (nie udało się wykryć sprzeczności).

W następnym kroku algorytmu wykorzystywana jest wiedza wydobyta z artykułu prasowego. Załóżmy, że z fragmentu tekstu pozyskano następujący fakt wydobyty:

(Uniwersytet Adama Mickiewicza [jednostka], znajduje się w, Poznań [miasto]).

Al-gorytm wnioskowania wykorzystuje ten fakt, tworząc w kroku potwierdzenia sieć ograniczeń składającą się z trzech wierzchołków reprezentujących jednostki z faktu kwerendy oraz faktu wydobytego, tzn.: Uniwersytet Adama Mickiewicza, Poznań,

Polska. Dodawana jest relacja PP między jednostkami Uniwersytet Adama Mickie-wicza oraz Poznań, która modeluje typ relacji faktu wydobytego. Następnie z bazy

wiedzy dodawany jest fakt: (Poznań [miasto], jest położony w, Polska [państwo]). Dodanie faktu powoduje dodanie krawędzi PP między jednostkami Poznań i Polska. Sieć ograniczeń przedstawiona jest na rysunku 5.1.

Rysunek 5.1. Sieć ograniczeń stworzona w procesie wnioskowania z wykorzystaniem wiedzy wydobytej (przed uruchomieniem algorytmu PC)

Na powstałej sieci ograniczeń uruchamiany jest algorytm PC, który tworzy wy-subtelnioną sieć ograniczeń. Korzystając ze złożenia relacji algorytm PC dodaje etykietowanie P P między wierzchołkami UAM oraz Polska. Wykorzystywane jest złożenie między wierzchołkami: UAM, Poznań oraz Polska postaci: P P ◦ P P = P P . Brak jest krawędzi bezpośredniej między wierzchołkami UAM oraz Polska (co in-terpretowane jest jako połączenie relacją uniwersalną). Nowe etykietowanie dodane przez algorytm PC ma więc postać:

P P ∩ > = P P

Wynikowa sieć ograniczeń jest przedstawiona na rysunku 5.2.

Wysubtelniona sieć ograniczeń (będąca wynikiem algorytmu PC) nie zawiera relacji pustej. Algorytm sprawdza, czy uzyskano krawędź między jednostkami faktu kwerendy, która odpowiada modelowaniu typu relacji faktu kwerendy. Sieć ograni-czeń zawiera taką krawędź (jest to krawędź PP) między jednostkami Uniwersytet

Al-Rysunek 5.2. Sieć ograniczeń stworzona w procesie wnioskowania z wykorzystaniem wiedzy wydobytej (po uruchomieniu algorytmu PC)

gorytm zwraca odpowiedź TRUE na zadane pytanie. Jako wyjaśnienie odpowiedzi zwracana jest stworzona sieć ograniczeń oraz fragment tekstu z którego pozyskano fakt wydobyty. Odpowiedź wyświetlana przez system została przedstawiona na ry-sunku 5.3.

W dokumencie Wnioskowanie czasowo-przestrzenne w systemie Question Answering (Stron 97-100)