• Nie Znaleziono Wyników

Nadanie wag terminom należącym do dokumentów relewantnych relewantnych

Definicja 4.6.3 Frazą nazywamy koniunkcję terminów znaczących tz i , które należą1 do jednego lub wielu subprofili oraz wyznaczone zostały do modyfikacji

4.7. Reprezentowanie dziedziny zainteresowań użytkownika – analiza dokumentów odpowiedzi

4.7.1. Nadanie wag terminom należącym do dokumentów relewantnych relewantnych

Tradycyjnie w wyszukiwaniu informacji, istotność terminu w dokumencie wyznaczana jest na podstawie wagi tego terminu. Im wyższa jest waga terminu tym jest on bardziej istotny. Każdemu terminowi w dokumencie należącym do systemu wyszukiwania informacji przypisana jest waga di według schematu tf–idf (wzór (4.4.1)). Waga ta pozwala na wyznaczenie terminów indeksowych, dobrze opisujących treść danego dokumentu. Terminy te dobrze opisując treść danego dokumentu umożliwiają, w procesie wyszukiwania, selekcję tego dokumentu spośród innych dokumentów kolekcji, jeśli terminy te przekazane zostaną w pytaniu do systemu.

W pracy przyjęto, że terminy istotne, należące do dziedziny zainteresowań użytkownika, będą wybierane z pomiędzy wszystkich terminów dziedziny przede wszystkim w oparciu o wagi tych terminów w poszczególnych dokumentach relewantnych1. Aby ocenić na ile termin ti dobrze reprezentuje daną dziedzinę zainteresowań użytkownika, musimy ustalić wagę terminu ti uwzględniającą stopień reprezentowania przez termin ti treści wszystkich dokumentów relewantnych Dq

wskazanych przez użytkownika pośród dokumentów wyszukanych. Wagę tę oznaczamy symbolem wzi’. Waga wzi’ jest jednym z kryteriów wyboru spośród wszystkich terminów ti należących do dokumentów relewantnych, terminów dobrze reprezentujących dziedzinę zainteresowań użytkownika, czyli terminów znaczących tzi. Tylko terminy znaczące mogą pojawić się w subprofilu użytkownika, odpowiednim dla danej dziedziny zainteresowań, co oznacza modyfikację wag tych terminów w jednym, wybranym subprofilu.

W pracy postawiono hipotezę, że terminy znaczące, uzyskane w zaproponowanym procesie konstruowania i wykorzystania profilu użytkownika, wprowadzone do pytania zmodyfikowanego, zadanego następnie do internetowego systemu wyszukiwawczego prowadzą do dostarczenia większej liczby dokumentów relewantnych w kolejnych wyszukiwaniach prowadzonych przez użytkownika. Hipoteza ta została zweryfikowana eksperymentalnie.

Termin ti może występować w więcej niż jednym dokumencie relewantnym, dlatego też na wagę wzi’ terminu ti mają wpływ wagi di tego terminu w każdym ze wskazanych dokumentów relewantnych odpowiedzi. Zaproponowano trzy metody wyznaczenia wagi terminu ti, które uwzględniają powyższe wymagania: waga wzi’ wyrażona jako

minimum, średnia oraz maksimum wag terminu ti w dokumentach relewantnych.

Waga wzi’ określa istotność terminu znaczącego tzi w zbiorze wskazanych przez użytkownika dokumentów relewantnych. Dlatego też przyjęto, że waga wzi’ będzie stanowić jedno z kryteriów wyboru terminów znaczących. Szczegóły dotyczące wykorzystania wagi wzi’ jako wspomniane kryterium opisano w podrozdziale 4.7.2.

Rozważmy, jaki będzie wpływ zastosowania, jako kryterium nadawania wagi terminom w dokumentach relewantnych, każdej z wymienionych powyżej metod wyznaczenia wagi wzi’ na zbiór terminów dobrze reprezentujących dziedzinę zainteresowań użytkownika.

1. Waga wzi’ wyrażona jest jako minimum wag terminu ti w dokumentach relewantnych.

1 Oprócz wag, jest też brany pod uwagę wskaźnik ważności terminu, co zostanie dokładnie opisano w dalszej części pracy.

d

wz i

Dq d

i'= min (4.7.1.1)

di – waga terminu ti w dokumencie d∈Dq, wyznaczona na podstawie wzoru (4.4.1).

Jeżeli za wagę wzi’ terminu w zbiorze dokumentów relewantnych przyjmiemy minimum wag di tego terminu w dokumentach relewantnych odpowiedzi i ustalony zostanie pewien próg τ, to terminy, których waga jest wyższa od zadanego progu zostaną uznane za opisujące dokument z pewną minimalna dobrocią. Warunek przyjęcia za wagę terminu ti minimum z wag di, pozwala wyeliminować terminy, które ‘słabo’ opisują chociażby jeden dokument relewantny. Po zastosowaniu dla wag tych terminów progu τ, wybrane zostaną tylko terminy dobrze reprezentujące wszystkie dokumenty relewantne. Terminowi reprezentującemu dokumenty przypisana zostaje, w postaci wagi minimalnej, najmniejsza ważność reprezentowania treści dokumentu lub inaczej najmniejszy (minimalny) stopień reprezentacji treści w dowolnym z dokumentów relewantnych. Jeśli tak ustalona waga wzi’ terminu ti będzie większa od danego progu τ, to termin ten będzie rozważany jako ewentualny termin dobrze reprezentujący dziedzinę zainteresowań użytkownika. Powyższa metoda daje ostre kryterium wyboru terminów będących reprezentatywnymi dla dokumentów relewantnych. Waga wzi’ jest wykorzystywana następnie do selekcji terminów w procesie wyznaczania terminów znaczących.

2. Waga wzi’ wyrażona jest jako średnia sumy wag terminu ti w dokumentach relewantnych: ∑ = ∈Dq d i l i d N wz Re 1 ' (4.7.1.2)

di – waga terminu ti w dokumencie d∈Dq, wyznaczona na podstawie wzoru (4.4.1),

NRel – liczba dokumentów relewantnych wskazanych przez użytkownika wśród dokumentów wyszukanych.

Załóżmy, że zastosowana zostanie metoda wyznaczenia wagi terminu ti, w której waga wzi’ liczona jest jako średnia sumy wag terminu ti w dokumentach relewantnych. Tak obliczona waga terminu będzie wyższa niż obliczona według metody wagi minimalnej, a co za tym idzie, przy tym samym progu τ, więcej terminów zostanie uznanych za dobrze reprezentujące treść dokumentów relewantnych. W efekcie, podczas selekcji terminów dobrze reprezentujących dziedzinę zainteresowań użytkownika spośród powyższych terminów, wyznaczony może zostać szerszy zbiór terminów, w którym pojawią się terminy mniej istotne dla dziedziny zainteresowania użytkownika.

3. Waga wzi’ wyrażona jest jako maksimum wag terminu ti w dokumentach relewantnych. d wz i Dq d i'= max (4.7.1.3)

di – waga terminu ti w dokumencie d∈Dq, wyznaczona na podstawie wzoru (4.4.1).

Jeśli waga terminu policzona zostanie według trzeciej metody, tj. jako maksimum wag terminu ti w dokumentach relewantnych, podczas selekcji terminów dobrze reprezentujących dziedzinę zainteresowań użytkownika otrzymamy najszerszy zbiór terminów. Poszerzanie tego zbioru terminów może spowodować pojawianie się w zbiorze terminów mało istotnych w reprezentowaniu treści większości dokumentów, natomiast bardzo specyficznych dla jednego z nich. Często może to być spowodowane obecnością fragmentów dokumentu odmiennych treściowo od wybranego całego zbioru dokumentów relewantnych. Dodatkowo negatywnym efektem powiększania zbioru terminów może być eliminacja innych dokumentów relewantnych z odpowiedzi lub nawet odpowiedź pusta, po dłuższej ewolucji subprofilu, z powodu ‘nagłego’ (tj. z konkretnego, kolejnego wyszukiwania) przedostania się do subprofilu dużej ilości terminów rzadkich.

Przytoczone powyżej argumenty sugerują, że najlepszą metodą nadania wagi terminowi ti, należącemu do dokumentów relewantnych jest waga wyznaczana na podstawie wzoru opartego na minimum, tj. (4.7.1.1).

Wzory (4.7.1.1), (4.7.1.2) i (4.7.1.3) inspirowane są badaniami nad grupowaniem kolekcji dokumentów (Voorhees, 1992). Kryterium wyboru wagi minimalnej, przez pewną analogię, przypomina grupowanie metodą najdalszego sąsiedztwa (ang.

complete link clustering), w którym poprzez przyjęcie za podobieństwo dokumentów minimum z podobieństwa par dokumentów, utworzone zostają małe grupy dokumentów, w których dokumenty są ze sobą mocno powiązane. Dla całej kolekcji dokumentów, metoda ta powoduje, że utworzona hierarchia grup dokumentów jest szeroka, rozbudowana bardziej w szerz niż w głąb. Taka struktura hierarchii oznacza, że hierarchia reprezentuje dużo ograniczonych klas znaczeniowych (klas znaczenia terminów).

W metodzie najdalszego sąsiedztwa, w pierwszym kroku określane jest podobieństwo pomiędzy wszystkimi parami klastrów, a następnie łączone są ze sobą dwa klastry o największej wartości podobieństwa. Procedura powtarza się aż do momentu, gdy wszystkie klastry zostaną włączone do hierarchii klastrów. Jako podobieństwo pomiędzy dwoma klastrami przyjmowane jest minimum z podobieństw pomiędzy parami dokumentów, z których każdy dokument należy do innego klastra (Baeza-Yates, Ribeiro-Neto, 1999, str. 135). W wyniku przyjęcia kryterium

minimalnego podobieństwa powstaje hierarchia małych, mocno związanych grup dokumentów.

Grupowanie dokumentów metodą najbliższego sąsiedztwa (ang. single link

clustering) realizowane jest w takich samych krokach jak metoda grupowania metodą najdalszego sąsiedztwa. Inne jest jedynie kryterium obliczania podobieństwa pomiędzy dwoma klastrami. Jako podobieństwo pomiędzy dwoma klastrami przyjmowane jest maksimum z podobieństw pomiędzy parami dokumentów z dwóch klastrów. W wyniku zastosowania tej metody powstaje hierarcha dużych, słabo związanych grup dokumentów.

4.7.2. Selekcja terminów znaczących z dokumentów