• Nie Znaleziono Wyników

Definicja 4.6.3 Frazą nazywamy koniunkcję terminów znaczących tz i , które należą1 do jednego lub wielu subprofili oraz wyznaczone zostały do modyfikacji

4.8. Modyfikacja profilu użytkownika

Zaproponowany w niniejszej pracy profil użytkownika jest strukturą opisującą translację pomiędzy terminologią wykorzystywaną przez użytkownika w pytaniu, a słownictwem powszechnie stosowanym w dziedzinie zainteresowań użytkownika. W profilu translacja ta jest wyrażona poprzez przyporządkowanie wzorcowi pytania użytkownika sj subprofilu spj wyznaczonego w procesie analizy dokumentów relewantnych odpowiedzi.

W pracy przyjęte zostały następujące oznaczenia (część przypomnianych):

q – pytanie użytkownika skierowane do systemu,

Dq zbiór dokumentów zawartych w odpowiedzi na pytanie q

użytkownika, gdzie Dq ⊆ D,

Dq zbiór dokumentów wskazanych przez użytkownika jako dokumenty relewantne w zbiorze dokumentów odpowiedzi po wyszukiwaniu dokumentów na pytanie q, gdzie Dq ⊆ Dq

Przypomnijmy, że w niniejszej pracy profilem użytkownika wyznaczonym na podstawie odpowiedzi systemu nazywamy reprezentację pm: pytania q, zbioru dokumentów relewantnych Dq oraz istniejącego profilu pm-1. Po każdym pytaniu użytkownika, wyszukiwaniu dokumentów i weryfikacji odpowiedzi przez użytkownika, profil podlega modyfikacji według poniższej procedury:

p0= ∅,

pm= π(qm, Dq, pm-1),

gdzie:

• p0 – profil początkowy; profil ten jest pusty,

• pm – profil zmodyfikowany po zadaniu m pytań przez użytkownika i analizie zbioru dokumentów relewantnych po m–tym wyszukiwaniu.

Modyfikacja profilu użytkownika następuje po każdym pytaniu q zdanym przez użytkownika do internetowego systemu wyszukiwawczego oraz na podstawie analizy wyników wyszukiwania dla tego każdego kolejnego pytania użytkownika. Istotą pojedynczej modyfikacji profilu jest modyfikacja odpowiedniego subprofilu. Natomiast modyfikacja subprofilu, wg. funkcji 4.6.1.1, ma miejsce tylko w przypadku pojawienia się pytania zgodnego ze wzorcem (zależy od k). Czyli, jeśli zadane przez użytkownika pytanie q jest identyczne z istniejącym w profilu wzorcem pytania sj, identyfikującym1 subprofil spj, to modyfikowany jest tylko subprofil spj. Jeśli nie istnieje wzorzec pytania identyczny z pytaniem, natomiast pytanie użytkownika q jest podobne do jednego lub kilku wzorców pytań z profilu to poza modyfikacją pytania użytkownika do profilu dodawany jest nowy subprofil oraz identyfikujący go nowy wzorzec pytania, identyczny z pytaniem q. Jeśli nie zachodzi żaden z powyższych przypadków, tzn. w profilu nie ma ani wzorca identycznego ani wzorców podobnych, to automatycznie do profilu jest dodawany nowy wzorzec pytania i nowy subprofil utworzony na podstawie odpowiedzi systemu na niezmienione pytanie q. W każdym z trzech powyższych przypadków poprzez modyfikację subprofilu ma miejsce również modyfikacja profilu użytkownika. Szczegółowy opis procedury tworzenia i modyfikacji subprofilu zawiera podrozdział 4.8.1.

Tradycyjna reprezentacja zainteresowań użytkownika w postaci wektora przestrzeni

n–wymiarowej (profilu) stwarza również problemy na poziomie wykorzystania profilu do modyfikacji pytania. Pytanie użytkownika w danej chwili dotyczy tylko jednej dziedziny zainteresowań. Tak więc z profilu o strukturze pojedynczego wektora przestrzeni n-wymiarowej, reprezentującego wszystkie zainteresowania należy wybrać tylko terminy, które są związane z aktualnie zadanym pytaniem. Aby uzyskać takie terminy, konieczna jest wiedza na temat powiązań terminów należących do pytania z terminami w profilu oraz terminów z profilu między sobą. Informacje te można uzyskać z utworzonej dla kolekcji dokumentów macierzy podobieństwa (Qiu, 1996) lub sieci semantycznej (Davies i inni, 1997). Główną wadą takiego rozwiązania jest potrzeba przechowywania i zarządzania dwoma strukturami – profilem użytkownika oraz strukturą przechowującą informacje o powiązaniach terminów. Dodatkowo dla internetowych systemów wyszukiwania informacji problemem jest uzyskanie i zarządzanie odpowiednio dużą macierzą podobieństwa, czy siecią semantyczną dla kolekcji jaką jest zbiór dokumentów w sieci WWW.

Przedstawione powyżej problemy nie pojawią się dla zaproponowanego w pracy profilu użytkownika p. W modelu przyjęto następującą koncepcję modyfikacji wag terminów w profilu: w każdym kolejnym wyszukiwaniu modyfikowane są wagi tylko tych terminów, które należą do jednego subprofilu spj identyfikowanego przez wzorzec

1 Identyfikacja subprofilu spj przez wzorzec pytania sj to powiązanie jednego subprofilu z jednym wzorcem pytania.

pytania użytkownika sj, a nie wagi wszystkich terminów we wszystkich subprofilach. Natomiast w momencie wykorzystania profilu w celu zmodyfikowania pytania istnieje bezpośrednia translacja pomiędzy aktualnym pytaniem użytkownika q a terminami znaczącymi dziedziny, z którą pytanie jest związane. Translacja ta jest reprezentowana przez przypisanie do każdego subprofilu sp w profilu p jednego, unikalnego wzorca pytania sj identyfikującego ten subprofil oraz identycznego z zadanym pytaniem q. Nowy subprofil oraz identyfikujący go wzorzec pytania dodawane są do profilu użytkownika tylko wtedy, gdy nowe pytanie zadane przez użytkownika jest inne niż jakikolwiek istniejący w profilu wzorzec pytania. Liczba subprofili równa jest liczbie

różnych pytań zadanych przez użytkownika na przestrzeni czasu korzystania z systemu. Jednak pytania użytkownika kierowane do wyszukiwarki internetowej często powtarzają się ze względu na stałość pewnych zainteresowań użytkownika oraz pojawianie się nowych dokumentów w sieci WWW. Przypadku powtarzającego się pytania nowy subprofil nie jest dodawany.

Istotą zastosowania zaproponowanego profilu użytkownika jest aktywna interakcja podczas wyszukiwań w przeciągu pewnego okresu czasu pomiędzy użytkownikiem a internetowym systemem wyszukiwania informacji, poszerzonym o profil. Oznacza to, że profil zastosowany w systemie wyszukiwania informacji będzie wykorzystywany przez użytkownika przez pewien okres czasu podczas kolejnych wyszukiwań. Istnienie profilu użytkownika w przeciągu pewnego czasu może wiązać się z problemem rozrastania się profilu o kolejne subprofile. Precyzyjniej, rozrastanie to będzie polegało na zwiększaniu się liczby przechowywanych wzorców pytań oraz subprofili, identyfikowanych przez te wzorce. Proponowaną w pracy metodą ograniczenia rozrastania się profilu użytkownika jest weryfikacja ze względu na częstość korzystania z określonego subprofilu. Jeśli subprofil jest często wykorzystywany do modyfikacji pytań użytkownika to oznacza, że reprezentuje aktualne zainteresowania użytkownika. Subprofil taki wraz z identyfikującym go wzorcem pytania będą przechowywane w profilu użytkownika. W przeciwnym przypadku, tzn. jeśli subprofil dawno nie był wykorzystywany do modyfikacji pytania użytkownika, zostanie on usunięty z profilu, jako że reprezentuje on stare, nieaktualne już zainteresowania użytkownika. Granice czasowe aktualności subprofilu mogą być wyznaczone eksperymentalnie.

Ograniczeniem liczby przechowywanych subprofili mogą być tylko ograniczenia techniczne, co może się wiązać z koniecznością usuwania z profilu subprofili. Autor pracy sądzi jednak, że powstawanie nawet bardzo dużej liczby subprofili podczas długiej współpracy użytkownika z systemem wyszukiwania informacji, poszerzonym o profil, nie jest istotnym problemem dla mocy obliczeniowej, czy zasobów dyskowych dzisiejszych komputerów. Profil jest zazwyczaj wielkości kilkudziesięciu kilobajtów, więc biorąc pod uwagę fakt, ze każdy z użytkowników przechowuje profil lokalnie na swoim komputerze, usuwanie dawno nieużywanych subprofili z profilu użytkownika będzie bardzo sporadyczne.

4.8.1. Modyfikacja subprofilu użytkownika

Modyfikacja subprofilu sp ma miejsce zawsze, jeśli wyznaczony zostanie termin znaczący tzi ze zbioru dokumentów relewantnych odpowiedzi na pytanie użytkownika

q. Modyfikacji podlegają wagi tych terminów, które zostały wyselekcjonowane po kolejnym wyszukiwaniu dokumentów jako terminy znaczące tzi. Modyfikacja polega na uaktualnieniu wagi wj,i(k) terminu tzi w subprofilu identyfikowanym przez wzorzec pytania sj. Przy czym wzorzec sj, identyfikujący modyfikowany subprofil, musi być identyczny z zadanym przez użytkownika pytaniem qj. Wzorzec pytania sj nie podlega zmianom. Wartość wagi terminu znaczącego uaktualniana jest na podstawie wzoru (4.6.1.1). We wzorze tym wj,i(k) reprezentuje wagę terminu tzi modyfikowanego w subprofilu identyfikowanym przez wzorzec pytania sj w k–tej iteracji, tzn. po zadaniu

k–ty raz pytania q. W jednym procesie wyszukiwania uaktualniane są wagi terminów znaczących tzi wyznaczonych w k–tej selekcji, czyli takich, które wyznaczone zostały ze zbioru relewantnych dokumentów odpowiedzi na k–ty raz zadane pytanie q. Inaczej mówiąc, w jednym procesie wyszukiwania modyfikowane są wagi terminów znaczących tzi tylko w jednym subprofilu spj, który jest identyfikowany przez wzorzec pytania sj identyczny z pytaniem q. Modyfikacja po każdej selekcji terminów znaczących wag wszystkich terminów we wszystkich subprofilach zaproponowanego profilu spowodowałaby zniekształcenie reprezentacji sensu terminu znaczącego tzi dla wielu pytań (różnych od obsługiwanego w danym momencie).

Nadmierne powiększanie się subprofilu ograniczone jest przez ustalenie maksymalnej liczby terminów znaczących tzi, które mogą być wprowadzone do subprofilu. Liczba została wyznaczona eksperymentalnie (np. warunkowana jest maksymalną, sensowną w praktyce długością zmodyfikowanego pytania – pytanie powyżej pewnej długości przestaje zwracać jakiekolwiek rezultaty w wielu wyszukiwarkach).