• Nie Znaleziono Wyników

3. Techniki personalizacji

3.5. Ocena modelu

obj ˛eto´sci zapytania zawieraj ˛a najcz ˛e´sciej słowa, które s ˛a do´s´c charaktery-styczne (słowa kluczowe o do´s´c du ˙zym współczynniku IDF).

Bł ˛edna klasyfikacja

Nadanie bł ˛ednej kategorii zapytaniu mo ˙ze doprowadzi´c do znacznego po-gorszenia wyników wyszukiwania. W przypadku gdy u ˙zywana jest ona do wyboru ´zródła wszystko zale ˙zy od strategii jaka została obrana przez bro-kera. Gdy wybiera on jedynie ´zródła zwi ˛azane bezpo´srednio z kategori ˛a to rezultaty takiego wyszukiwania b ˛ed ˛a bezu ˙zyteczne. Nie ma sensu szuka´c informacji o wyspie Java w bazie DBLP, która gromadzi dane z zakresu informatyki. W sytuacji gdy zapytanie trafi równie ˙z do bardziej ogólnych

´zródeł wiedzy (np. wyszukiwarek internetowych), to przy zastosowaniu al-gorytmów filtruj ˛acych i sortuj ˛acych, wyniki nie powinny si ˛e bardzo ró ˙zni´c od wykonania zapytania bez uwzgl ˛edniania kategorii. Ten przypadek ewi-dentnie nie jest tak dotkliwy jak poprzednie. Nie ma jednak sensu stosowa´c wielu skomplikowanych algorytmów tylko po to ˙zeby na ko ´ncu otrzyma´c gorszy wynik. Podsumowuj ˛ac bardzo istotne jest aby brokerzy otrzymywali kategorie, które z du ˙zym prawdopodobie ´nstwem s ˛a poprawne.

W sytuacji gdy kategoria jest u ˙zywana do rozszerzenia zapytania wszystko zale ˙zy od jej ogólno´sci. Im jest bardziej szczegółowa tym mo ˙ze wy-woła´c wi ˛eksz ˛a szkod ˛e. Wyst ˛epuj ˛a dwa rodzaje bł ˛edów. Po pierwsze mo ˙zemy otrzyma´c kategori ˛e, która nie jest logicznie powi ˛azana z zapytaniem. Wpi-suj ˛ac fraz ˛e “query classification” oraz “grocery” wi ˛ekszo´s´c rezultatów b ˛edzie przydatna.

Drugi typ bł ˛edów jest du ˙zo bardziej niebezpieczny. Wi ˛a ˙ze si ˛e z nada-niem innego znaczenia zapytaniu. Załó ˙zmy, ˙ze szukamy informacji o grze w bryd ˙za i wpisujemy słowo “bridge”. Je´sli w wyniku klasyfikacji otrzymamy kategori ˛e “Top/Science/Technology/Structural Engineering” i dodamy do zapytania fraz ˛e “Structural Engineering” ˙zaden ze 100 pocz ˛atkowych rezul-tatów nie dotyczy gry w karty. Niestety istnieje du ˙za podstawa aby przy-puszcza´c, ˙ze ten drugi scenariusz mo ˙ze wyst ˛epowa´c du ˙zo cz ˛e´sciej.

3.5. Ocena modelu

Przetestowanie i ocenienie spersonalizowanego wyszukiwania nie jest spraw ˛a łatw ˛a. System w ramach pozyskiwania danych zmienia swoje za-chowanie w czasie poprzez dostosowanie si ˛e do konkretnego u ˙zytkownika.

3.5. Ocena modelu 31 Gruntowne przetestowanie skuteczno´sci działania wymaga zaanga ˙zowania wielu osób przez do´s´c długi czas.

3.5.1. Techniki oceny silników wyszukiwania

Warto przyjrze´c si ˛e w jaki sposób oceniane jest działanie silników wy-szukiwarek. Jest to temat, który zgromadził szereg opracowa ´n. W pewnym sensie ocena spersonalizowanego wyszukiwania jest jego cz ˛e´sci ˛a.

Cechy dobrego testu wyszukiwania

W pracy [17] autorzy przedstawili 7 cech jakie musz ˛a posiada´c testy silników wyszukuj ˛acych aby były one jak najbardziej skuteczne.

1. Zapytania powinny by´c umotywowane prawdziw ˛a potrzeb ˛a u ˙zytkownika.

2. W przypadku u ˙zycia brokera bazowa potrzeba informacyjna u ˙zytkownika powinna zosta´c w pełni do niego przekazana.

3. Konieczne jest u ˙zycie du ˙zego zakresu tematów.

4. Wi ˛ekszo´s´c głównych silników wyszukiwania powinno zosta´c u ˙zyte (w przypadku testów porównawczych).

5. Ka ˙zdy z silników wyszukiwawczych powinien w jak najwi ˛ekszym stopniu wykorzysta´c swoje specyficzne cechy. Zapytania nie musz ˛a by´c wi ˛ec identyczne.

6. Jako´s wyników powinna zosta´c oceniana przez osob ˛e, która wyraziła zapotrzebowanie na dan ˛a informacj ˛e.

7. Eksperymenty powinny by´c dobrze zaprojektowane i przeprowadzone.

Wska´zniki jako´sci wyszukiwania

Do samego pomiaru jako´sci wyszukiwania informacji u ˙zywa si ˛e sze´sciu wska´zników [22]:

1. Stopnia pokrycia kolekcji.

2. Opó´znienia - ´sredni czas pomi ˛edzy zło ˙zeniem zapotrzebowania na infor-macje a jej otrzymaniem.

3. Formy prezentacji wyników.

4. Nakładu pracy wymaganego przez u ˙zytkownika do pozyskania informa-cji.

5. Stosunek liczby istotnych zwróconych rezultatów do wszystkich istot-nych znajduj ˛acych si ˛e w bazie danych (ang. recall).

6. Precyzja

Punkty 1-4 nie stanowi ˛a zazwyczaj trudno´sci. Jako´s´c rezultatów oceniane s ˛a głównie przez 5 i 6. Pomiar tego jak du ˙zo jest dost ˛epnych wszystkich istotnych dokumentów dla internetu jest jednak niemo ˙zliwy. Sprawia to,

3.5. Ocena modelu 32

˙ze wyliczenie wła´sciwego wska´znika dla punktu 5 jest nieosi ˛agalne według klasycznych metod.

W tym podej´sciu rezultaty oceniane s ˛a binarnie jako interesuj ˛ace lub nie.

W rzeczywisto´sci jednak sprawa oceny przydatno´sci danej strony mo ˙ze by´c bardziej skomplikowana.

Warto sobie równie ˙z zada´c pytanie, czy u ˙zytkownik chce otrzyma´c wszystkie informacje jakie mog ˛a by´c zwi ˛azane z zapytaniem. W przypadku internetu mog ˛a by´c ich tysi ˛ace i z pewno´sci ˛a nie b ˛edzie miał on czasu na przejrzenie ich wszystkich. Istotne jest wi ˛ec aby zaprezentowa´c mu niewielki zbiór, ale za to o jak najwi ˛ekszej jako´sci. W [22] autorzy zaproponowali nowy wska´znik nazwany przez nich ranked precission (RP). Mierzy on efektywno´s´c silników wyszukiwania w zale ˙zno´sci od:

a) Pierwszych n dokumentów zwróconych przez wyszukiwark ˛e (n oznacza liczb ˛e rezultatów, które statystycznie przegl ˛ada u ˙zytkownik t.j. od 20 do 30).

b) Liczby interesuj ˛acych dokumentów oraz ich pozycji w´sród pierwszych n rezultatów.

Dane

Kolejnym aspektem jest to w jaki sposób gromadzi´c dane na temat przy-datno´sci konkretnego wyniku. Najbardziej naturalnym podej´sciem jest za-trudnienie kilku osób, które na bie ˙z ˛aco monitorowałyby jako´s´c przeprowa-dzonych wyszukiwa ´n. Takie rozwi ˛azanie jest jednak bardzo kosztowne. Cie-kawego rozwi ˛azania dostarcza TREC6 (Text Retrieval Conference).

TREC

TREC jest to coroczna konferencja odbywaj ˛aca si ˛e od 1992 roku. Jednym z jej głównych celi jest przetestowanie silników wyszukuj ˛acych na du ˙zej bazie rzeczywistych danych. Dane u ˙zyte ka ˙zdego roku s ˛a powszechnie dost ˛epne i mo ˙zna je wykorzysta´c do oceny własnych rozwi ˛aza ´n. Istnieje te ˙z kilka innych powszechnie dost ˛epnych kolekcji bazuj ˛acych na tej samej koncepcji t.j. FIRE7, CLEF8 czy NTCIR9

3.5.2. Techniki stosowane w personalizacji wyszukiwania

Do przetestowania systemów personalizacji potrzebne s ˛a dwie grupy da-nych. Pierwsza słu ˙zy do zbudowania profilu u ˙zytkownika, a druga do oceny

6 trec.nist.gov

7 http://www.isical.ac.in/~fire/

8 http://www.clef-initiative.eu/

9 http://research.nii.ac.jp/ntcir/index-en.html

3.5. Ocena modelu 33

Rysunek 3.2. Precyzja i trafno´s´c

jego działania. Zazwyczaj do zebrania informacji z obu tych grup zatrud-nia si ˛e grup ˛e rzeczywistych u ˙zytkowników. Istniej ˛a jednak prace w których stosuje si ˛e gotowe kolekcje danych takie jak TREC [12, 47] lub logi z wyszu-kiwarek.

Testy na rzeczywistej grupie u ˙zytkowników

Wi ˛ekszo´s´c prac naukowych zwi ˛azanych z personalizacj ˛a wyszukiwania ma jeden element wspólny: bardzo pobie ˙zne testy. Tylko nieliczne prace mog ˛a pochwali´c si ˛e zaanga ˙zowaniem wi ˛ekszej grupy osób do sprawdzenia tego jak w rzeczywisto´sci funkcjonuje zaproponowany system [44]. Za-zwyczaj mamy do czynienia z badaniem przeprowadzonym na kilku (do 10 [25, 31, 40] do kilkunastu (od 11 do 20 [23, 37, 42] u ˙zytkownikach przez okres nie przekraczaj ˛acy miesi ˛aca. Bior ˛ac pod uwag ˛e, ˙ze dla tych przy-padków personalizowane jest ich całe wyszukiwanie, które mo ˙ze dotyczy´c dosłownie czegokolwiek, liczby te s ˛a naprawd ˛e małe. Dodatkowo w pracach mo ˙zna zaobserwowa´c dziwn ˛a tendencje. Te w których testy przeprowadzone s ˛a na małym zbiorze danych maj ˛a zazwyczaj pozytywne wyniki. W przy-padku bardziej obszernych bada ´n rezultaty nie były tak jednoznaczne.

Testy na gotowych kolekcjach danych

Do zbudowania profilu oraz jego testowania wykorzystuje si ˛e równie ˙z dane pochodz ˛ace z logów wyszukiwarki. [4, 14, 38] U ˙zytkownicy rozpozna-wani s ˛a po adresie IP. Nie jest to jednak zbyt dokładny wyró ˙znik gdy ˙z do´s´c cz ˛esto zdarza si ˛e, ˙ze z jednego komputera korzysta kilka osób. Sam pro-ces budowania profilu na ich podstawie jest całkiem efektywny. Problem sprawia jednak jego dokładna ocena. Logi zawieraj ˛a jedynie informacje o tym, które ze stron zostały odwiedzone przez u ˙zytkownika. Nie mo ˙zemy jed-nak wnioskowa´c o tym, czy witryny których nie obejrzał z tego powodu, ˙ze

3.6. Profil u˙zytkownika 34

Powiązane dokumenty