• Nie Znaleziono Wyników

Profilowanie wyszukiwania wiedzy naukowej

N/A
N/A
Protected

Academic year: 2022

Share "Profilowanie wyszukiwania wiedzy naukowej"

Copied!
71
0
0

Pełen tekst

(1)

Politechnika Warszawska Wydział Elektroniki i Technik

Informacyjnych Instytut Informatyki

Rok akademicki 2013/2014

Praca dyplomowa magisterska

Karol Gał ˛ azka

Profilowanie wyszukiwania wiedzy naukowej

Opiekun pracy:

dr Dominik Ry ˙zko

Ocena . . . .

. . . .

Podpis Przewodnicz ˛acego Komisji Egzaminu Dyplomowego

(2)

Specjalno ´s´c: Informatyka –

In ˙zynieria oprogramowania i systemy informacyjne

Data urodzenia: 12 lipca 1987 r.

Data rozpocz ˛ecia studiów: 1 pa´zdziernika 2006 r.

Zyciorys ˙

Nazywam si ˛e . . . .

. . . . podpis studenta

Egzamin dyplomowy

Zło ˙zył egzamin dyplomowy w dn. . . .

Z wynikiem . . . .

Ogólny wynik studiów . . . .

Dodatkowe wnioski i uwagi Komisji . . . .

. . . .

(3)

Streszczenie

Praca ta prezentuje zagadnienie personalizacji wyszukiwania w aspekcie wiedzy naukowej. Opisuje szeroki zakres technik personalizacji dotycz ˛acych takich kwestii jak klasyfikacja zapyta ´n oraz wyników wyszukiwania, czy budowa i klasyfikacja profilu u ˙zytkownika. Przedstawia przykładow ˛a im- plemenetacje systemu opieraj ˛acego si ˛e na platformie agentowej, który wyko- rzystuje wybrane z omawianych algorytmów.

Słowa kluczowe: personalizacja, personalizacja wyszukiwania, wyszuki- wanie, silnik wyszukiwania, text miming.

Abstract

Title: Persolization of scientific knowledge search.

This thesis desribes a wide range of subjects related to search persona- lization. The main focus is on using those technics in search for scientific knowledge. Second part of thesis is the describtion of search system based on multi agent platfrom implenting a selection of personalization algorithms

Key words: personalization, search, serach personalization, text mining, SEO.

(4)

Spis tre´sci

1. Wprowadzenie . . . . 1

2. Personalizacja wyszukiwania . . . 3

2.1. Personalizacja . . . 3

2.2. Wyszukiwanie informacji . . . 4

2.3. Historia personalizacji wyszukiwania . . . 4

2.3.1. Prace naukowe . . . 4

2.3.2. Rozwój personalizacji w wyszukiwarkach internetowych . . . . 6

2.4. Personalizacja wyszukiwania obecnie . . . 10

2.4.1. Dane wykorzystywane do personalizacji . . . 11

2.4.2. Oceny personalizacji . . . 12

2.4.3. Problemy zwi ˛azane z personalizacj ˛a . . . 13

2.5. Ochrona prywatno´sci . . . 14

3. Techniki personalizacji . . . 16

3.1. Interpretacja zapytania . . . 16

3.1.1. Struktura zapytania . . . 16

3.1.2. Wyszukiwanie z perspektywy u ˙zytkownika . . . 17

3.1.3. Algorytm Rocchio . . . 17

3.1.4. Przetwarzanie j ˛ezyka naturalnego . . . 18

3.1.5. Rozszerzanie zapytania . . . 20

3.2. Filtrowanie i sortowanie wyników wyszukiwania . . . 23

3.3. Aspekt społeczno´sciowy . . . 24

3.3.1. Wykorzystanie wiedzy zawartej w portalach społeczno´sciowych 24 3.3.2. Wiedza pochodz ˛aca od innych u ˙zytkowników systemu . . . 25

3.4. Klasyfikacja tekstu . . . 26

3.4.1. Wybór algorytmu . . . 26

3.4.2. Dane trenuj ˛ace . . . 28

3.4.3. Klasyfikacja stron internetowych . . . 29

3.4.4. Klasyfikacja zapyta ´n . . . 29

3.5. Ocena modelu . . . 30

3.5.1. Techniki oceny silników wyszukiwania . . . 31

3.5.2. Techniki stosowane w personalizacji wyszukiwania . . . 32

3.6. Profil u ˙zytkownika . . . 34

3.6.1. Profil bezpo´sredni . . . 34

3.6.2. Profil po´sredni . . . 34

3.6.3. Podział profili ze wzgl ˛edu na czas jaki upłyn ˛ał od zebranej informacji . . . 35

4. Platforma . . . 37

4.1. SYNAT . . . 37

4.2. Architektura . . . 37

4.2.1. Systemy agentowe . . . 37

4.2.2. Platforma agentowa . . . 38

4.2.3. Rodzaje agentów . . . 40

(5)

Spis tre ´sci ii

4.2.4. Podstawowe scenariusze . . . 43

4.3. Przyj ˛ete rozwi ˛azania . . . 46

4.3.1. Implementacja . . . 46

4.3.2. PostgreSQL . . . 47

4.3.3. ORM . . . 47

4.3.4. Schemat bazy danych . . . 48

4.3.5. Unfiltered . . . 48

4.3.6. Profil u ˙zytkownika . . . 50

4.3.7. Klasyfikacja stron internetowych . . . 52

4.3.8. Rozszerzanie zapytania . . . 56

4.3.9. Filtrowanie i sortowanie wyników . . . 58

5. Podsumowanie . . . 61

5.1. Dalsze prace . . . 62

Bibliografia . . . 63

(6)

1. Wprowadzenie

Definicja 1.0.1. Spersonalizowane wyszukiwanie to takie wyszukiwanie, które opiera si ˛e nie tylko na samym zapytaniu ale równie ˙z na wiedzy o konkretnym u ˙zytkowniku.1

Zapytania zadawane przez u ˙zytkownika s ˛a zazwyczaj krótkie i mało pre- cyzyjne. [14, 36] Cz ˛esto trudno jest odgadn ˛a´c ich wła´sciwy kontekst. U ˙zyt- kownik wpisuje do wyszukiwarki zapytanie “java”. Wyszukiwarka nie dys- ponuj ˛ac ˙zadn ˛a dodatkow ˛a wiedz ˛a nie jest w stanie stwierdzi´c, czy miał on na my´sli wysp ˛e Java, czy j ˛ezyk programowania. Podobne rozumowanie mo ˙zna przeprowadzi´c dla innych słów, które mog ˛a mie´c wiele znacze ´n np. mysz, jaguar. Ten problem nie mo ˙ze zosta´c poprawnie rozstrzygni ˛ety dla ka ˙zdego u ˙zytkownika bez dodatkowej wiedzy o jego zainteresowaniach.

Koncepcja personalizacji wyszukiwania pojawiła si ˛e wraz z rozwojem wyszukiwarek internetowych. W momencie w którym poprawa skuteczno´sci ich działania w dotychczasowym tempie nie była mo ˙zliwa zacz ˛eto szuka´c innych sposobów na polepszenie wydajno´sci. Na obecn ˛a chwil ˛e wszystkie najwi ˛eksze systemy wyszukuj ˛ace (Google, Bing, Yahoo) posiadaj ˛a systemy personalizacji. ´Smiało mo ˙zna stwierdzi´c, ˙ze rozwój optymalizacji silników wyszukiwania w znacznym stopniu opiera si ˛e teraz na poprawie technik personalizacji. Mimo du ˙zego nakładu prac wyniki w tej dziedzinie wci ˛a ˙z pozostawiaj ˛a wiele do ˙zyczenia. Naukowcy z Microsoft Research w artykule [14] przedstawili analiz ˛e ró ˙znych technik personalizacji. Dysponowali oni zestawem historycznych danych z wyszukiwarki MSN. Wnioski do których doszli były nast ˛epuj ˛ace:

— Dla cz ˛e´sci zapyta ´n zastosowanie technik personalizacji nie jest skuteczne i nie powinno by´c stosowane

— Skuteczno´s´c konkretnej strategii w du ˙zej mierze zale ˙zy od wyboru zapy- tania.

1 Personalized search refers to search experiences that are tailored specifically to an individual’s interests by incorporating information about the individual beyond specific query provided.

(7)

1. Wprowadzenie 2

— Skuteczno´s´c działania personalizacji ro´snie wraz z kolejnymi wyszukiwa- niami. Pocz ˛atkowo, gdy dysponujemy małym zasobem danych pozyska- nie wiedzy o preferencjach u ˙zytkownika mo ˙ze by´c bardzo trudne.

— U ˙zytkownicy zazwyczaj szukaj ˛a danych powi ˛azanych z ich bie ˙z ˛acymi aktywno´sciami. W du ˙zej mierze mo ˙ze to by´c niezgodne z ich ogólnymi zainteresowaniami.

Du ˙za cz ˛e´s´c z tych problemów wynika z tego, ˙ze rozpi ˛eto´s´c informacji jakiej poszukuje u ˙zytkownik jest ogromna. S ˛a to rzeczy zwi ˛azane z jego prac ˛a, zainteresowaniami, bie ˙z ˛acymi potrzebami takimi jak: poszukiwanie okolicznych restauracji, czy godzin seansu w kinie.

Teza jaka przy´swieca niniejszemu opracowaniu brzmi nast ˛epuj ˛aco:

Efektywno´s´c wyszukiwania wiedzy naukowej mo ˙ze zosta´c w znacznym stopniu poprawiona poprzez odpowiednie wykorzystanie technik per- sonalizacji. Omawianie zagadnienia rozpoczn ˛e od krótkiego przedstawie- nia historii rozwoju dziedziny personalizacji wyszukiwania. Nast ˛epnie za- mierzam do´s´c szczegółowo omówi´c stosowane techniki personalizacji, czyli rozszerzanie zapytania (ang. query expansion) oraz sortowanie wyników wy- szukiwania. Poka ˙z ˛e równie ˙z, ˙ze problem nieskutecznego działania systemu w pocz ˛atkowej fazie u ˙zywania go przez u ˙zytkownika mo ˙zna do´s´c łatwo roz- wi ˛aza´c. Wi ˛a ˙ze si ˛e to ´sci´sle ze specyfik ˛a projektu. U ˙zytkownicy systemu nie b ˛ed ˛a anonimowi a podczas rejestracji b ˛ed ˛a podawa´c takie dane jak imi ˛e i nazwisko, czy jednostka naukowa do jakiej nale ˙z ˛a. Stan ˛a si ˛e one nast ˛epnie podstaw ˛a do przeprowadzenia wyszukiwania w dost ˛epnych zasobach szer- szych informacji na temat danej osoby.

Drug ˛a cz ˛e´s´c pracy stanowi opis przygotowanej implementacji systemu wraz z przeprowadzonymi testami. Kilka słów po´swi ˛ec ˛e na omówienie pro- jektu PASSIM, którego program jest cz ˛e´sci ˛a. Szczegółowo przedstawi ˛e opis architektury oraz wytłumacz ˛e podj ˛ete decyzje projektowe.

Na zako ´nczenie omówi ˛e ogólne wnioski wynikaj ˛ace z pracy. Streszcz ˛e stopie ´n wykonania projektu w stosunku do przyj ˛etych zało ˙ze ´n pocz ˛atko- wych oraz zaprezentuje dalsze mo ˙zliwo´sci rozwoju dla badanego tematu.

(8)

2. Personalizacja wyszukiwania

2.1. Personalizacja

Definicja 2.1.1. Personalizacja – dostosowanie programu (jego ustawie ´n, sposobu zachowania lub wygl ˛adu) do indywidualnych potrzeb u ˙zytkownika.

Personalizacja mo ˙ze tak ˙ze dotyczy´c strony internetowej, kiedy jej zawarto´s´c lub sposób jej wy´swietlania zale ˙zy od korzystaj ˛acego u ˙zytkownika. 1

Personalizacja jest bardzo istotnym elementem rozwoju dla du ˙zej grupy aplikacji. Dla niektórych z nich wr ˛ecz kluczowym. Zastosowania s ˛a bardzo szerokie. Najbardziej widoczne dla u ˙zytkownika s ˛a wszelkie systemy reko- menduj ˛ace. Dotyczy to w szczególno´sci filmów i ksi ˛a ˙zek ale tak ˙ze wszelkich innych zakupów. Na podstawie naszych wcze´sniejszych zachowa ´n, czyli tego jakie rzeczy kupili´smy, co przegl ˛adali´smy, co nam si ˛e podobało a co nie oraz wielu innych aspektów, system podpowiada nam rzeczy którymi mogliby´smy by´c zainteresowani w przyszło´sci. Jest to ju ˙z element wr ˛ecz obowi ˛azkowy dla np. ksi ˛egarni internetowych. Koszt pozyskania nowego klienta jest na tyle du ˙zy, ˙ze firmy staraj ˛a si ˛e na wszelkie sposoby utrzyma´c go przy sobie. Szeroko rozumiana personalizacja jest jednym z głównych na- rz ˛edzi do tego celu. U ˙zytkownicy s ˛a du ˙zo bardziej przywi ˛azani do serwisów, które dostosowuj ˛a si ˛e do jego potrzeb.

Personalizacja jest bardzo istotnym elementem dla dziedziny marketingu.

Mo ˙zliwo´s´c docierania z okre´slon ˛a tre´sci ˛a do konkretnych klientów sprawia,

˙ze taka reklama mo ˙ze mie´c du ˙zo wi ˛eksze oddziaływanie. Serwisy interne- towe nie sprzedaj ˛a teraz jedynie miejsca na reklamy. Daj ˛a równie ˙z mo ˙zli- wo´s´c pokierowania jej do odpowiednich odbiorców.

Miejsce dla personalizacji istnieje w wielu innych dziedzinach poprzez dystrybucje wiadomo´sci do dostosowywanie sprz ˛etu. Jedn ˛a z tych, które w ostatnich latach najbardziej bazuje na personalizacji jest wyszukiwanie, a dokładniej spersonalizowane wyszukiwanie.

1 http://pl.wikipedia.org/wiki/Personalizacja_(informatyka)

(9)

2.2. Wyszukiwanie informacji 4

2.2. Wyszukiwanie informacji

Znaczenie pozyskiwania informacji mo ˙ze by´c rozumiane bardzo szeroko.

W ksi ˛a ˙zce “Introduction to Information Retrieval” [26] zostało zdefiniowane nast ˛epuj ˛aco:

Definicja 2.2.1. Pozyskiwanie informacji (ang. information retrieval, IR) jest to wyszukiwanie materiałów (zazwyczaj dokumentów) posiadaj ˛acych niestrukturyzowan ˛a natur ˛e (zazwyczaj tekst), które zaspokajaj ˛a potrzeb ˛e zdobycia informacji, spo´sród du ˙zej kolekcji danych (zazwyczaj zgromadzo- nych na komputerach). 2

Pocz ˛atki systemów wyszukuj ˛acych s ˛a ´sci´sle zwi ˛azane z systemami biblio- tecznymi. Pierwsze pomysły si ˛egaj ˛a XIX wieku, czyli na długo przed epok ˛a internetu. Najwcze´sniejsze wdro ˙zenie wykorzystuj ˛ace komputery datuje si ˛e na koniec lat 40 XX wieku. W zastosowaniach komercyjnych zacz ˛eły si ˛e pojawia´c w latach 60.

Prawdziwy rozwój dziedzina wyszukiwania informacji zacz ˛eła prze ˙zywa´c wraz z rozwojem internetu. W jego pocz ˛atkach wszystkie dost ˛epna strony internetowe mo ˙zna było łatwo skatalogowa´c. W połowie roku 1993 istniało około setki publicznie dost ˛epnych witryn. Pół roku pó´zniej liczba ta wzrosła czterokrotnie, ˙zeby po kolejnych sze´sciu miesi ˛acach znów zwi ˛ekszy´c si ˛e czterokrotnie. Wyszukiwarki internetowe zacz ˛eły si ˛e pojawia´c pod koniec roku 1993 aby umo ˙zliwi´c poruszanie si ˛e w tym g ˛aszczu informacji.

Definicja 2.2.2. Wyszukiwarka internetowa (ang. search engine) to pro- gram lub strona internetowa, której zadaniem jest ułatwienie u ˙zytkownikom internetu znalezienie informacji w sieci. 3

2.3. Historia personalizacji wyszukiwania

2.3.1. Prace naukowe

Temat personalizacji pojawiał si ˛e w pracach naukowych ju ˙z od roku 1993. (Na pocz ˛atku w kontek´scie dostosowywania zawarto´sci stron do po- trzeb konkretnego u ˙zytkownika.) Pierwsze artykuły na temat personalizacji wyszukiwania ukazały si ˛e jednak dopiero pod koniec lat 90 (1998, 1999).

Wykres 2.1 przedstawia liczb ˛e artykułów wykorzystanych w niniejszej pracy według dat publikacji.

2 Information retrieval (IR) is finding material (usually documents) of an unstructu- red nature (usually text) that satisfies an information need from within large collections (usually stored on computers). [26]

3 http://pl.wikipedia.org/wiki/Wyszukiwarka_internetowa

(10)

2.3. Historia personalizacji wyszukiwania 5

Rysunek 2.1. Liczba artykułów na temat personalizacji cytowanych w pracy według dat publikacji

Relevance Feedback

Wspominaj ˛ac o pracach naukowych powi ˛azanych z personalizacj ˛a nie mo ˙zna zapomnie´c o J.J. Rochio. W 1966 w swojej rozprawie doktorskiej przedstawił on koncepcj ˛e “Relevance Feedback”, któr ˛a nast ˛epnie kontynu- ował w artykule pt. Relevance Feedback in Information Retrieval z roku 1971. Mimo, ˙ze pró ˙zno w tych pracach szuka´c słowa personalizacja zagad- nienie to jest niesłychanie istotne. W latach 70 i 80 wyszukiwanie informacji ró ˙zniło si ˛e od tego z czym mamy obecnie do czynienia. ´Zródła danych były rozproszone, a dost ˛ep do nich znacz ˛aco utrudniony. U ˙zytkownicy mieli du ˙ze problemy ze sformułowaniem odpowiednich zapyta ´n. Rochio zaproponował, wi ˛ec wyszukiwanie rozbi´c na dwie cz ˛e´sci. Pierwsze zapytanie miało zwróci´c jedynie próbne wyniki, które nast ˛epnie były oceniane przez u ˙zytkownika.

Na tej podstawie formułowane było kolejne, bardziej dokładne.

W latach 70 i 80 pojawiło si ˛e jeszcze wiele publikacji powi ˛azanych z tym tematem. W ostatnich latach nacisk został poło ˙zony na rozwój aspektu społeczno´sciowego.

W momencie w którym personalizacja na dobre wkroczyła do wyszuki- warek internetowych zacz ˛eto si ˛e zastanawia´c nad realnymi korzy´sciami i zagro ˙zeniami jakie z niej płyn ˛a. Pojawiły si ˛e analizy porównawcze ró ˙znych technik. Na du ˙zych zbiorach danych próbowano potwierdzi´c ich skutecz- no´s´c. Ukazały si ˛e artykuły na temat zagro ˙ze ´n płyn ˛acych z personalizacji. W szczególno´sci dotyczyły one ochrony danych osobowych. Temat personaliza- cji wyszukiwania przeszedł standardow ˛a ´scie ˙zk ˛e rozwoju: od pocz ˛atkowego entuzjazmu, poprzez pierwsze wdro ˙zenia i rzeczywiste oceny. Ci ˛agle jednak

(11)

2.3. Historia personalizacji wyszukiwania 6 pozostaje aktualny i przyci ˛aga uwag ˛e wielu o´srodków badawczych na całym

´swiecie.

2.3.2. Rozwój personalizacji w wyszukiwarkach internetowych

Twórcy wyszukiwarek byli pewni, ˙ze tylko kwesti ˛a czasu jest kiedy u ˙zyt- kownicy opanuj ˛a zło ˙zone opcje wyszukiwania. Tak si ˛e jednak nie stało.

U ˙zytkownicy staj ˛a si ˛e coraz bardziej leniwi, a wyszukiwarki coraz sprytniej- sze. [2]

Post ˛ep personalizacji wyszukiwania w ostatnich latach dobrze widoczny jest na przykładzie zmian wprowadzanych w wyszukiwarkach interneto- wych. Do tego celu wybrałem trzy z nich: Google, Bing (MSN), Yahoo Search (odpowiednio: 66,4, 15,3 i 18,8 procent udziału w rynku wyszukiwarek w Stanach Zjednoczonych według danych z marca 2012 roku). Odbywały si ˛e one w kilku etapach i na pocz ˛atku niewiele miały wspólnego z wła´sciw ˛a personalizacj ˛a wyszukiwania.

My Yahoo!, Google My Search History

W latach 2004 i 2005 pojawiły si ˛e dwie usługi. Yahoo wprowadziło “My Yahoo!” nazywane równie ˙z “My Web”, a Google “My Search History”. Obie z nich słu ˙zyły głównie do gromadzenia ciekawych stron znalezionych podczas wyszukiwania w internecie. Dodatkowo po wyra ˙zeniu zgody przez u ˙zytkow- nika przechowywały cał ˛a histori ˛e wyszukiwania. My Yahoo udost ˛epniło ta- kie funkcje jak: zapisanie linku, zapisanie linku wraz z notatk ˛a, współdzie- lenie linku (lista publicznych linków danego u ˙zytkownika) oraz usuni ˛ecie konkretnej strony z przyszłych wyników wyszukiwania. Google skupiło si ˛e bardziej na interakcji ze zgromadzon ˛a histori ˛a wyszukiwania. Mo ˙zliwe było specjalne oznaczenie wybranych stron, które pó´zniej pojawiły si ˛e w wyni- kach wyszukiwania. Było to jedno z pierwszych podej´s´c jakie miało spra- wi´c, ˙ze wyszukiwarki b ˛ed ˛a bardziej osobiste. Nie miało ono jednak wielkiego wpływu na jako´s´c otrzymywanych rezultatów.

Komunikaty z oficjalnego bloga Yahoo! były troch ˛e na wyrost, ale dobrze pokazuj ˛a kierunek w jakim chciały pod ˛a ˙za´c wyszukiwarki internetowe. Cy- tuj ˛ac tekst z 04.10.2004: “Dzi´s startuje wersja próbna My Yahoo! Search, naszego pierwszego podej´scia do tematu, który nazywamy Spersonalizowa- nym Wyszukiwaniem.” 4 oraz dalej: “Dzisiaj, sie´c jest jedynie niezmien- nym ´zródłem informacji dla wi ˛ekszo´sci u ˙zytkowników; nasza wizja polega

4 “Today we launched a preview of My Yahoo! Search, our first foray into what we’re calling Personal Search.”

(12)

2.3. Historia personalizacji wyszukiwania 7 na stworzeniu indywidualnej sieci, któr ˛a nazywamy ”My Web“, utworzonej na podstawie tego co ka ˙zdy z osobna szuka, przegl ˛ada i generalnie tego co zazwyczaj robi.”5

Yahoo Search Builder

Yahoo Search Builder (jak i podobne rozwi ˛azania oferowane przez kon- kurencje) miał na celu sprawi´c aby wyszukiwarka była bardziej osobista.

Zmianie podlegał głównie interfejs. U ˙zytkownik mógł modyfikowa´c czcionki, wprowadza´c tekst powitalny itp. Udost ˛epniono jednak pewne opcje, które bardziej ingerowały w sam proces wyszukiwania. Była to np. lista słów kluczowych, które miały zosta´c omini ˛ete podczas wyszukiwania.

Google Personalized Search, Yahoo Personalized Search Engine

Personalizacja wyszukiwania rozumiana jako dostosowywanie wyników wyszukiwania do konkretnego u ˙zytkownika na podstawie jego wcze´sniejszej aktywno´sci pojawiła si ˛e w pełni roku 2008 gdy Google uruchomiło Google Personalized Search a Yahoo odpowiednio Yahoo Personalized Search En- gine. Od tego momentu dwie osoby wpisuj ˛ac do wyszukiwarki to samo zapytanie mogły si ˛e spodziewa´c innych rezultatów. To w jakim kierunku zacz ˛eły pod ˛a ˙za´c wyszukiwarki ´swietnie podsumowuje wypowied´z Marissy Mayer wtedy (2009) jednej z czołowych postaci Google a od lipca 2012 Dy- rektora Generalnego Yahoo!: “. . . to co naprawd ˛e chcemy uzyska´c to wyszu- kiwanie z takiej perspektywy jak ˛a widzi sie´c ka ˙zdy z u ˙zytkowników indywi- dualnie”6

Integracja z sieciami społeczno´sciowymi

Kolejne zmiany przyniósł rok 2011. Na fali popularno´sci portali spo- łeczno´sciowych uruchomione zostały takie usługi jak: Location-Based So- cial Annotaions i Bing Adaptive Search. Wyszukiwarki internetowe zacz ˛eły przechowywa´c coraz wi ˛ecej informacji o u ˙zytkownikach oraz pozyskiwa´c j ˛a z ró ˙znych dodatkowych ´zródeł.

10 stycznia 2012 Google wprowadziło usług ˛e nazywan ˛a Google Plus Your World. “We’re transforming Google into a search engine that understands not only content, but also people and relationships.” Google Plus Your World opiera si ˛e na trzech rozwi ˛azaniach:

5 “Today, the Web is a read-only source of information for most users; our vision is of a very individual Web a "My Web", if you will which each user creates by searching, browsing, navigating, and generally doing the things they always do.“

6 “(. . . ) what we really want to do is search it as each individual user sees the web”

(13)

2.3. Historia personalizacji wyszukiwania 8

— Presonal Results umo ˙zliwia znalezienie takich danych jak zdj ˛ecia i wpisy z Google+ umieszczone przez u ˙zytkownika i jego znajomych,

— Profiles in Search umo ˙zliwiaj ˛a szybkie znalezienie osób, którego mog ˛a by´c dla nas ciekawe np. których wpisy chcieliby´smy obserwowa´c,

— People and Pages pomaga w znalezieniu osób, które wyró ˙zniaj ˛a si ˛e w jakim´s konkretnym temacie. Dzi ˛eki temu szybko mo ˙zemy znale´z´c osoby z danej dziedziny a nast ˛epnie obserwowa´c ich wpisy.

Główn ˛a motywacj ˛a do wprowadzenia tej usługi była stale rosn ˛aca liczba uczestników portali społeczno´sciowych. Pomimo, ˙ze Google+ gromadzi o wiele mniej u ˙zytkowników ni ˙z Facebook, to i tak jest to ogromne ´zródło danych. Wykorzystanie tych danych w wyszukiwaniu sprawia, ˙ze staj ˛a si ˛e ono bardziej osobiste. Wyszukiwanie ma nam dostarczy´c informacji, które s ˛a dla nas potencjalnie najbardziej cenne, czyli opinii ludzi, których znamy, szanujemy, liczymy si ˛e z ich zdaniem.

Autorzy przedstawiaj ˛a kilka ciekawych scenariuszy wykorzystania Go- ogle Plus Your World. Załó ˙zmy, ˙ze szukamy ciekawego miejsca na wakacje.

Mo ˙zemy oczywi´scie skorzysta´c z tradycyjnej wyszukiwarki wpisuj ˛ac takie hasła jak: “najpni ˛ekniejsza miejscowo´s´c w Alpach”. Jak ˛a jednak b ˛edziemy mieli pewno´s´c, ˙ze wyniki, które otrzymamy s ˛a wiarygodne? Fora interne- towe pełne s ˛a od fałszywych wpisów zachwalaj ˛acych miejsca, czy produkty.

Zakładaj ˛ac jednak, ˙ze byłyby one prawdzie to i tak nie znamy gustów i upodoba ´n osób, które je umie´sciły. W rzeczywistej sytuacji z takim py- taniem najcz ˛e´sciej zwróciliby´smy si ˛e do swoich znajomych. Istnieje du ˙za szansa, ˙ze kto´s z nich mógłby zweryfikowa´c nasze przypuszczenia, albo poleci´c nam jakie´s ciekawe miejsce. Poprzez przegl ˛adanie wpisów, zdj ˛e´c i wszelkich innych informacji opublikowanych przez znajomych z Google+, wyszukiwarka stara si ˛e zasymulowa´c wła´snie tak ˛a sytuacj ˛e.

Kolejna kwestia to wyszukiwanie osób. Do´s´c cz ˛esto spotykamy si ˛e z pro- blemem, ˙ze wyniki wyszukiwania dotycz ˛a wielu osób o tym samym nazwi- sku. Poprzez porównanie ich profili z naszymi wyszukiwarka automatycznie wybierze te, które najbardziej pasuj ˛a. Przy wynikach wyszukiwania poja- wiaj ˛a si ˛e równie ˙z takie informacje jak ostatnie wpisy danej osoby. Dodat- kowo dzi ˛eki integracji z Google Search z Google+ mo ˙zemy tak ˛a osob ˛e bardzo szybko doda´c do znajomych za pomoc ˛a jednego klikni ˛ecia. Wyszukiwanie ludzi wi ˛a ˙ze si ˛e te ˙z z poszukiwaniem autorytetów w danych dziedzinach. Od tej pory wpisuj ˛ac jakie´s hasło w zapytaniu, błyskawicznie otrzymamy list ˛e osób z nim powi ˛azanych.

(14)

2.3. Historia personalizacji wyszukiwania 9

Rysunek 2.2. Wybór kontekstu wyszukiwania

Google Knowledge Graph

16 maja 2012 roku na oficjalnym blogu Google pojawił si ˛e wpis pt. “Intro- ducing the Knowledge Graph: things, not strings”. Opisuje on wprowadze- nie do wyszukiwarki sieci semantycznej. Twórcy okre´slaj ˛a, ˙ze dzi ˛eki temu znajdowanie nowych informacji b ˛edzie szybsze i łatwiejsze.7 Podstawowa zmiana dla u ˙zytkownika to:

1. mo ˙zliwo´s´c wyboru kontekstu;

2. wy´swietlenie podsumowania;

3. mo ˙zliwo´s´c dalszego wyszukiwania na podstawie powi ˛azanych elementów.

Pierwsza z opcji została pokazana na Rys. 2.2. U ˙zytkownik wpisuje do wyszukiwarki fraz ˛e ”Taj Mahal“. Zapewne ma on na my´sli ´swi ˛atynie, ale nie wykluczone, ˙ze jego intencj ˛a było znalezienie informacji o zespole pod t ˛a sam ˛a nazw ˛a. Poprzez wybranie odpowiedniego odno´snika w rubryce ”See results about“ mo ˙ze on zmieni´c kontekst na jeden z zaproponowanych przez wyszukiwark ˛e.

Drugie udoskonalenie pozwala na błyskawiczne otrzymanie najpotrzeb- niejszych informacji ju ˙z w oknie wyszukiwarki. U ˙zytkownik po wpisaniu frazy Marie Curie dostanie skrótow ˛a informacj ˛e z najwa ˙zniejszymi faktami o polskiej noblistce. Jak wida´c na Rys. 2.3 s ˛a one dosy´c dokładne.

Trzecia z nich ułatwia proces dalszego wyszukiwania. Na wspomnianym wy ˙zej rysunku wida´c równie ˙z sekcj ˛e: “People also search for”. Pokazuje ona najcz ˛e´sciej wyszukiwane kolejne frazy przez u ˙zytkowników, którzy wcze´sniej szukali informacji na temat Marie Curie Skłodowskiej. Jest to bardzo dobre zastosowanie historii wyszukiwania.

Sie´c zawiera ponad 570 milionów obiektów i 18 miliardów faktów zwi ˛aza- nych z relacjami mi ˛edzy nimi. ´Zródła danych to mi ˛edzy innymi: CIA World

7 ”So today I’m really excited to launch the Knowledge Graph, which will help you discover new information quickly and easily“

(15)

2.4. Personalizacja wyszukiwania obecnie 10

Rysunek 2.3. Rezultat wyszukiwania frazy Marie Curie

Factbook, Wikipedia, Freebase oraz wiele innych. Knowledge Graph jest to z pewno´sci ˛a jedna z rzeczy na których w najbli ˙zszym czasie b ˛edzie sku- piona uwaga deweloperów Google. ´Swiadczy o tym chocia ˙zby przemówienie Larrego Page na zako ´nczenie 2012.8

2.4. Personalizacja wyszukiwania obecnie

Dostosowanie wyników wyszukiwania na podstawie poprzednich zapyta ´n mo ˙zna bardzo łatwo zaobserwowa´c. Wystarczy zada´c kilka zapyta ´n zwi ˛aza- nych z tym samym zagadnieniem. Podczas kolejnych wyszukiwa ´n istnieje du ˙ze prawdopodobie ´nstwo, ˙ze cz ˛e´s´c wyników b ˛edzie z nim powi ˛azane. Po tym jak kilkukrotnie wyszukiwałem informacji o patentach zwi ˛azanych ze spersonalizowanym wyszukiwaniem do niniejszej pracy, w nast ˛epnych wy- szukiwaniach zacz ˛eły pojawia´c si ˛e odno´sniki do stron zawieraj ˛acych ró ˙zne patenty powi ˛azane z bie ˙z ˛acym zapytaniem. Przykłady mo ˙zna mno ˙zy´c. Rze- czywisty ranking strony znacz ˛aco ró ˙zni si ˛e od standardowych algorytmów jak PageRank. Obecnie składa si ˛e na niego bardzo wiele czynników.2.4 Wy- szukiwanie postrzegane jest z perspektywy konkretnego u ˙zytkownika. Nie musi on nawet posiada´c konta w danym systemie. Informacje czerpane s ˛a z takich ´zródeł jak adres IP.

8 “We’re still at 1 percent of where we should be.“

(16)

2.4. Personalizacja wyszukiwania obecnie 11

Rysunek 2.4. Sposób w jaki ustalany jest rzeczywisty ranking strony

2.4.1. Dane wykorzystywane do personalizacji

Aby mie´c poj ˛ecie o tym jakie dane wykorzystywane s ˛a przez Google do personalizacji (oprócz zwykłej historii wyszukiwania) warto posłu ˙zy´c si ˛e zgłoszeniem patentowym “Scalable user Clustering based on set smilia- rity” [13] oraz artykułem “Adapting SEO for Personalized Search” [1]. In- formacje pogrupowane s ˛a w cztery kategorie. S ˛a to dane:

— demograficzne,

— psychograficzne (dotycz ˛ace wygłaszanych opinii, osobowo´sci, stylu ˙zy- cia),

— zwi ˛azane z zainteresowaniami u ˙zytkownika,

— zwi ˛azane z aktywno´sciami u ˙zytkownika

Tablica 2.4.1 prezentuje zawarto´s´c poszczególnych kategorii.

Zastanawiaj ˛ace jest to w jaki sposób b ˛ed ˛a oni w stanie pozyska´c takie szerokie spektrum informacji. Okazuje si ˛e, ˙ze Google gromadzi dane o u ˙zyt- kowniku z mnóstwa ró ˙znych serwisów, których jest autorem lub z którymi współpracuje. Doskonałym tego przykładem jest Google TV z którego to zapisywane s ˛a wszelkie informacje na temat ogl ˛adanych przez u ˙zytkow- nika programów, reklam, godzin w których korzystał z usługi itp, czy np.

YouTube.

(17)

2.4. Personalizacja wyszukiwania obecnie 12 Dane demograficzne: Dane psychograficzne:

wiek nastawienie

płe´c warto´sci

miejsce styl ˙zycia pochodzenia

kraj, miast, stan, kod pocztowy opinie poziom dochodu

wzrost, waga, rasa, wyznanie orientacja seksualna

pogl ˛ady polityczne wykształcenie karalno´s´c zdrowie

Zainteresowania: Zachowania:

hobby nawyki zwi ˛azane z czytaniem

sport ogl ˛adaniem filmów

zawód lub stanowisko pracy szukaniem informacji umiej ˛etno´sci wy´swietlane artykuły

nawyki wyszukiwane frazy

. . . przegl ˛adane strony

zmiany zapyta ´n w trakcie wyszukiwania czas wykonywania ró ˙znych czynno´sci

Tablica 2.1. Dane wykorzystywane przez Google do personalizacji wyszuki- wania

2.4.2. Oceny personalizacji

W lutym 2012 roku przeprowadzono sonda ˙z w którym zadano nast ˛epu- j ˛ace pytanie: “Czy podoba Ci si ˛e idea spersonalizowanych wyników wyszu- kiwania na podstawie historii wyszukiwania oraz informacji z Twoich sieci społeczno´sciowych?” Wyniki zaprezentowane s ˛a na 2.5. Jak wida´c prawie połowa badanych wypowiedziała si ˛e negatywnie (45,4%). Do´s´c du ˙za nie- ch ˛e´c mo ˙ze w du ˙zym stopniu wynika´c z faktu, ˙ze jest to wci ˛a ˙z temat do´s´c nowy i u ˙zytkownicy nie maj ˛a o nim dostatecznej wiedzy. Postrzegaj ˛a go bardzo cz ˛esto w kontek´scie zagro ˙zenia dla ich prywatno´sci. Niedoskonało´sci pierwszych rozwi ˛aza ´n dostarczonych przez wyszukiwarki mogły dodatkowo zniech ˛eci´c u ˙zytkowników. Faktem jest, ˙ze do´s´c cz ˛esto mo ˙zna si ˛e spotka´c z sytuacj ˛a w której to osoby specjalnie wyglogowuj ˛a si ˛e ze swoich kont przed rozpocz ˛eciem wyszukiwania. Robi ˛a to nie z obawy o bezpiecze ´nstwo ich danych, ale głównie dlatego, ˙ze nie s ˛a zadowolone z jako´sci spersonalizowa- nych rezultatów.

(18)

2.4. Personalizacja wyszukiwania obecnie 13

Rysunek 2.5. Czy podoba Ci si ˛e idea spersonalizowanych wyników wyszu- kiwania na podstawie historii wyszukiwania oraz informacji z Twoich sieci

społeczno´sciowych?

2.4.3. Problemy zwi ˛azane z personalizacj ˛a

Krytycy personalizacji cz ˛esto podnosz ˛a temat, ˙ze mo ˙ze ona doprowadzi´c do sytuacji w której zostaniemy odci ˛eci od nowych opinii i innych pogl ˛adów.

Eli Pariser w swojej ksi ˛a ˙zce “The Filter Bubble” oraz w licznych wywiadach stara si ˛e przedstawi´c zagro ˙zenia jakie z tego płyn ˛a. Przeprowadził on m.in.

prosty eksperyment, który polegał na tym, ˙ze poprosił swoich znajomych o wpisanie do wyszukiwarki słowa Egipt i przesłania mu rezultatów wyszuki- wania. [3] Wyniki dla jednej z osób powi ˛azane były z: kryzysem w Egipcie, protestami w 2011 roku, Lar ˛a Logan. Dla innej były to strony o: podró ˙zach - wakacjach, wiadomo´sciach codziennych w Egipcie oraz odno´snik do faktów z działalno´sci CIA. Jak wida´c wyszukiwarka odcina nas w ten sposób od cz ˛e´sci wa ˙znych informacji. Doskonale podsumowuj ˛a to słowa byłego pre- zesa Google Erica Schmidta “W przyszło´sci b ˛edzie bardzo trudno obejrze´c lub skonsumowa´c co´s co nie zostało przynajmniej w cz ˛e´sci przygotowane specjalnie dla nas” 9

9 “It will be very hard for people to watch or consume something that has not in some sense been tailored for them”

(19)

2.5. Ochrona prywatno ´sci 14

2.5. Ochrona prywatno´sci

Internet w pocz ˛atkach swojego działania był w du ˙zej cz ˛e´sci miejscem gdzie u ˙zytkownik pozostawał anonimowy. Cz ˛e´s´c osób bardzo ceniła sobie t ˛e cech ˛e. Umo ˙zliwiało im to np. swobodne wypowiadanie swoich pogl ˛adów.

W ostatnich latach z uwagi na rozwój personalizacji wszelakie usługi in- ternetowe zacz ˛eły gromadzi´c coraz wi ˛ecej informacji na nasz temat. Wy- obra´zmy sobie, ˙ze do ka ˙zdej osoby, która wchodzi do sklepu przyczepiane jest specjalne urz ˛adzenie z kamer ˛a. [6] Ma ona na celu ´sledzi´c ka ˙zde jej za- chowanie w sklepie: dostarcza´c informacji o tym w których miejscach była, które produkty j ˛a zainteresowały itp. Zgodnie z prawem takie post ˛epowanie jest zabronione a sklepy mog ˛a zbiera´c dane tylko i wył ˛acznie wynikaj ˛ace z przeprowadzonych transakcji finansowych. W przypadku platform interne- towych jest jednak inaczej. To jak du ˙zo ró ˙znych danych o nas gromadz ˛a dziwi nawet osoby, które normalnie nie przywi ˛azuj ˛a wi ˛ekszej wagi do tego typu kwestii.

Według przeprowadzonych bada ´n mo ˙zna podzieli´c ludzi na trzy kategori ˛e w zale ˙zno´sci od tego jaki maj ˛a stosunek do kwestii zachowania prywatno-

´sci w internecie. [20] Pierwsza kategoria obejmuje osoby, które szczegól- nie dbaj ˛a o swoj ˛a prywatno´s´c (privacy fundamentalists). S ˛a one niech ˛etne do udost ˛epniania jakichkolwiek danych, nawet gdy s ˛a zapewniani o tym i ˙z b ˛ed ˛a one bezpieczne. Druga grupa to ludzie, którzy deklaruj ˛a ˙ze niespecjal- nie interesuj ˛a si ˛e tym tematem i w gruncie rzeczy jest im wszystko jedno (privacy unconcerned). Trzecia to osoby o umiarkowanych pogl ˛adach (pri- vacy pragmatists). S ˛a to u ˙zytkownicy, którzy dbaj ˛a o zachowanie prywat- no´sci jednak nie maj ˛a oporów przed udost ˛epnianiem pewnych danych je´sli widz ˛a w tym mo ˙zliwe korzy´sci. Stosunek liczebno´sci tych grup to mniej wi ˛e- cej 1:1:2. Dokładne liczby ró ˙zni ˛a si ˛e pomi ˛edzy badaniami, ale w ostatnich latach zaobserwowano nieznaczne zmniejszenie si ˛e liczby osób o pogl ˛adach fundamentalnych.

Prawie wszyscy ankietowani zgadzaj ˛a si ˛e, ˙ze portale internetowe powinny mie´c obowi ˛azek prawny udost ˛epniania u ˙zytkownikowi wszelkich danych ja- kie o nim gromadz ˛a. Google np umo ˙zliwia wgl ˛ad w to co zostało zgroma- dzone na temat u ˙zytkownika w ró ˙znych usługach, które s ˛a jego cz ˛e´sci ˛a.

63% osób, które przyznały si ˛e, ˙ze zdarzało im si ˛e wpisywa´c fałszywe infor- macje, deklaruj ˛a i ˙z nie stałoby si ˛e tak gdyby strony internetowe deklarowały w jaki sposób wykorzystuj ˛a ich dane.

(20)

2.5. Ochrona prywatno ´sci 15 Du ˙zo zale ˙zy te ˙z od tego jakiego typu informacje wymagane s ˛a od u ˙zyt- kownika. Wi ˛ekszo´s´c badanych osób nie widziało problemu w ujawnianiu podstawowych danych demograficznych, informacji o ich hobby, czy gu- stach. Troch ˛e mniej ch ˛etnie zdradzały dane zwi ˛azane z nawykami zakupo- wymi, czy tym w jaki sposób przegl ˛adaj ˛a internet. Najwi ˛eksze obawy budziło ujawnianie danych kontaktowych, numerów kart kredytowych itp.

Personalizacja po stronie klienta

Ciekaw ˛a koncepcj ˛a jest wykonywanie wszelkich algorytmów personaliza- cyjnych po stronie klienta. W ten sposób wra ˙zliwe dane nie musiałyby tra- fia´c na serwer i byłyby bezpieczne na komputerze u ˙zytkownika. To podej´scie ma jeszcze jedn ˛a dodatkow ˛a zalet ˛e wynikaj ˛ac ˛a z tego, ˙ze portale internetowe mogłyby zaoszcz ˛edzi´c pieni ˛adze, które wydaj ˛a na ochron ˛e danych.

Niestety istniej ˛a te ˙z pewne wady. Po pierwsze cz ˛esto algorytmy persona- lizacyjne s ˛a obj ˛ete tajemnic ˛a firmow ˛a i umieszczanie ich po stronie klienta mogłoby doprowadzi´c do odkrycia ich przez konkurencje. Po drugie nie- które z nich wymagaj ˛a powi ˛azania danych od ró ˙znych klientów. Kolejna obawa wynika z ewentualnego obci ˛a ˙zenia komputera u ˙zytkownika i proble- mów implementacyjnych. Mimo tych wszystkich zastrze ˙ze ´n dla niektórych zastosowa ´n mo ˙ze to by´c ciekawe rozwi ˛azanie i z pewno´sci ˛a b ˛edzie rozwijane w przyszło´sci.

(21)

3. Techniki personalizacji

Do realizacji personalizacji wyszukiwania stosuje si ˛e najcz ˛e´sciej jedn ˛a z dwóch technik:

— interpretacje zapytania w kontek´scie konkretnego u ˙zytkownika,

— filtrowanie i sortowanie rezultatów bazowego wyszukiwania tak aby naj- lepiej odpowiadały preferencjom konkretnego u ˙zytkownika.

3.1. Interpretacja zapytania

Interpretacja zapytania jest bardzo szerokim tematem. Celem jest ta- kie jego przekształcenie ˙zeby w jak najwi ˛ekszym stopniu odda´c pierwotne intencje u ˙zytkownika. Mo ˙zna tego dokona´c na ró ˙zne sposoby: od rozszerze- nia zapytania o dodatkowe słowa po prób ˛e gł ˛ebszej analizy i zmiany tekstu.

Zanim jednak przejd ˛e do omawiania szczegółów, warto przeanalizowa´c w jakiej formie wyst ˛epuj ˛a rzeczywiste zapytania.

3.1.1. Struktura zapytania

Analiza blisko miliarda zapyta ´n przeprowadzona w [36] pokazała, ˙ze w prawie 90% zawieraj ˛a one nie wi ˛ecej ni ˙z trzy słowa. ( ´Srednia to 2.35 słowa.) Tabela 3.1 zawiera bardziej szczegółowe dane. Zapytania s ˛a najcz ˛e´sciej krótkie, wr ˛ecz hasłowe. [36] Nie s ˛a to pełne zdania. Do´s´c rzadko posia- daj ˛a czasowniki i nie maj ˛a formy pyta ´n. Wszystkie te fakty nie powinny by´c zaskoczeniem. U ˙zytkownicy zdaj ˛a sobie spraw ˛e z mo ˙zliwo´sci silników wyszukiwarek, które nie s ˛a zdolne do odpowiedzi na pytania zawarte w j ˛e- zyku naturalnym. Staraj ˛a si ˛e wi ˛ec formułowa´c krótkie i proste zapytania unikaj ˛ac zb ˛ednych ozdobników.

0 słów w zapytaniu: 20.6%

1 słowo w zapytaniu: 25.8%

2 słowa w zapytaniu: 26.0%

3 słowa w zapytaniu: 15.0%

> 3 słowa w zapytaniu: 12.6%

Tablica 3.1. Struktura zapytania

(22)

3.1. Interpretacja zapytania 17 Dodawanie słów: 7,1% (Dodanie jednego słowa: 5,4%)

Usuwanie słów: 3,1% (Usuni ˛ecie jednego słowa: 2,1%) Modyfikowanie operatorów: 1,4%

Całkowita zmiana zapytania: 35,2%

Inne modyfikacje: 53,2%

Tablica 3.2. W jaki sposób u ˙zytkownicy modyfikuj ˛a zapytania podczas sesji wyszukiwania

3.1.2. Wyszukiwanie z perspektywy u ˙zytkownika

Sama analiza statystyczna zapytania nie jest wystarczaj ˛aca aby dowie- dzie´c si ˛e jak u ˙zytkownik wyszukuje informacje. Przydatna jest szersza wie- dza o tym jak wygl ˛ada cała sesja wyszukiwania od zadania pierwszego zapy- tania do momentu znalezienia wła´sciwych danych. Tabela 3.2 przedstawia to w jaki sposób u ˙zytkownicy zmieniaj ˛a zapytania podczas wyszukiwania.

Wyra´znie wida´c, ˙ze w ponad jednej trzeciej przypadków nast ˛epuje całkowita zmiana zapytania. Tylko troch ˛e ponad 10% stanowi ˛a modyfikacje polega- j ˛ace na dodaniu lub usuni ˛eciu słów.

Analiza przeprowadzona w [19, 46] wykazała, ˙ze u ˙zytkownicy przegl ˛a- daj ˛a tylko kilka z wy´swietlonych wyników wyszukiwania. Bardzo rzadko wykraczaj ˛a poza pierwsz ˛a stron ˛e. W przypadku nie znalezienia interesuj ˛a- cych stron du ˙zo cz ˛e´sciej zmieniaj ˛a zapytanie ni ˙z si ˛egaj ˛a po kolejne rezultaty.

Stanowi to spore wyzwanie dla twórców wyszukiwarek. Najbardziej istotne strony powinny znajdowa´c si ˛e w w´sród pierwszych dwudziestu wyników.

3.1.3. Algorytm Rocchio

Algorytm Rocchio bazuj ˛e na metodzie Relevance Feedback, która została wspomniana w rozdziale pierwszym. Opiera si ˛e na podziale rezultatów na dwie kategorie: zwi ˛azanych z tematem wyszukiwania i nie zwi ˛azanych. Pier- wotne zapytanie u ˙zytkownika rozszerzona jest w odpowiednich proporcjach o słowa z jednej i drugiej grupy. Głównym celem jest poszerzenie spek- trum otrzymywanych wyników, tak aby zwi ˛ekszy´c prawdopodobie ´nstwo, ˙ze szukany dokument b ˛edzie si ˛e w nich zawierał (recall). Cz ˛esto wi ˛a ˙ze si ˛e to równie ˙z z popraw ˛a precyzji.

−−→Qm = (a ∗−→

Qo) + (b ∗ 1

|Dr| ∗ X

Dj∈Dr

−→

Dj) + (b ∗ 1

|Dnr| ∗ X

Dj∈Dnr

−→Dk) (3.1)

3.1 przedstawia wzór algorytmu. Obja´snienie zmiennych przedstawia ta- blica 3.3. Manipuluj ˛ac warto´sciami a, b i c mo ˙zemy decydowa´c w jakim

(23)

3.1. Interpretacja zapytania 18

−−→Qm zmodyfikowany wektor zapytania

−→

Qo oryginalny wektor zapytania

−→Dj wektor istotnych dokumentów

−→Dk wektor nieistotnych dokumentów a waga pierwotnego zapytania b waga dokumentów istotnych c waga dokumentów nieistotnych Dr zbiór dokumentów istotnych Dnr zbiór dokumentów nieistotnych

Tablica 3.3. Obja´snienie zmiennych u ˙zytych w algorytmie Rocchio

kierunku ma pod ˛a ˙zy´c ostateczne zapytanie. W przypadku gdy u ˙zytkow- nik chce aby nie zawierało ono ˙zadnych wyrazów z pierwotnego zapytania ustawia a na 0. Gdy uwa ˙za, ˙ze nie powinno korzysta´c z dokumentów ozna- czonych jako nieistotne współczynnik c b ˛edzie równy 0. Pierwotne warto´sci ustalone przez twórc ˛e algorytmu to odpowiednio: a = 1, b = 0.8, c = 0.1.

W najnowszych zastosowaniach współczynnik c jest zazwyczaj zupełnie eli- minowany. [26] Rysunek 3.1.3 przedstawia w przybli ˙zony sposób schemat działania algorytmu.

3.1.4. Przetwarzanie j ˛ezyka naturalnego

Przetwarzanie j ˛ezyka naturalnego (ang. natural language processing, NLP) jest to interdyscyplinarna dziedzina, ł ˛acz ˛aca zagadnienia sztucznej inteligencji i j ˛ezykoznawstwa, zajmuj ˛aca si ˛e automatyzacj ˛a analizy, rozu- mienia, tłumaczenia i generowania j ˛ezyka naturalnego przez komputer (Wi- kipedia). Pocz ˛atki NLP datuje si ˛e na lata 50 dwudziestego wieku. W roku 1950 Alan Turing opublikował swój słynny artykuł “Computing Machinery and Intelligence”. Zaproponował on w nim test, który miał by´c wyznaczni- kiem inteligencji komputera, obecnie nazywany testem Turinga. Celem było doprowadzenie do tego, ˙zeby komputer był w stanie na´sladowa´c człowieka podczas rozmowy. Taki system ł ˛aczy w sobie wiele cech NLP od rozumienia j ˛ezyka naturalnego poprzez mo ˙zliwo´s´c jego kreowania. Do lat 80 NLP opie- rało si ˛e głównie na budowaniu przez człowieka wielu zło ˙zonych reguł na których pó´zniej bazował komputer podczas przetwarzania tekstu. Zmian ˛e przyniosło wprowadzenie do tej dziedzinie metod maszynowego uczenia si ˛e.

(24)

3.1. Interpretacja zapytania 19

Rysunek 3.1. Ilustracja działania algorytmu Rocchio

Było to mo ˙zliwe dzi ˛eki wzrostowi mocy komputerów (prawo Moora). W po- cz ˛atkowej fazie starano si ˛e utworzy´c reguły podobne do tych, które powsta- wały r ˛ecznie. Wykorzystano wi ˛ec algorytmów bazuj ˛ace na drzewach decy- zyjnych. Z czasem jednak zacz ˛eto zmienia´c podej´scie i badania skupiły si ˛e na tak zwanych metodach statystycznych.

NLP jest poj ˛eciem do´s´c szerokim. Z po´sród wielu koncepcji, które wcho- dz ˛a w jego skład na szczególn ˛a uwag ˛e zasługuje proces rozumienia j ˛ezyka naturalnego (ang. natural language understanding, NLU). NLU jest uwa-

˙zane za du ˙zo trudniejsze zagadnienie ni ˙z proces odwrotny, czyli generowa- nie tekstu. Do tej pory nie stworzono jeszcze systemu, który byłby w stanie w pełni zrozumie´c teksty napisane na bazie pełnego słownika danego j ˛ezyka.

Istniej ˛a jednak liczne zastosowania, które stosuj ˛a jedno z dwóch mo ˙zliwych uproszcze ´n. Pierwsze zakłada, ˙ze ograniczamy si ˛e tylko do pewnego niedu-

˙zego zasobu słów. Drugie bazuje na zaw ˛e ˙zenia poj ˛ecia rozumienia do np.

zadania klasyfikacji tekstu stosuj ˛ac ´sci´sle okre´slone kategorie.

Zastosowanie NLU w celu przekształcenia zapytania nie jest zagadnie- niem szczególnie powszechnym. Dopiero w ostatnich latach zaczyna si ˛e szerzej pojawia´c w publikacjach.

(25)

3.1. Interpretacja zapytania 20 3.1.5. Rozszerzanie zapytania

Rozszerzenie zapytania (ang. query expansion) jest technik ˛a polegaj ˛ac ˛a na dodaniu do bazowego tekstu jednego lub kilku dodatkowych słów. Ist- niej ˛a dwie ró ˙zne metody: globalna i lokalna, których cele s ˛a rozbie ˙zne.

Metoda globalna

Celem metody globalnej jest poszerzenie spektrum otrzymywanych wy- ników. Nie ma ona bezpo´sredniego zwi ˛azku z personalizacj ˛a. Efekt jej dzia- łania jest taki sam dla ka ˙zdego u ˙zytkownika.

Jednym z przykładów zastosowania metod globalnych jest system podpo- wiedzi kolejnych zapyta ´n udost ˛epniony przez wi ˛ekszo´s´c wyszukiwarek. Po wpisaniu podstawowego zapytania system wy´swietla list ˛e kolejnych, które mog ˛a bardziej odpowiada´c potrzebom u ˙zytkownika (np. Yahoo!). Kwesti ˛a otwart ˛a pozostaje w jaki sposób generowane s ˛a te nowe frazy. Najbardziej popularnym sposobem jest u ˙zyciem tezaurusa. Ka ˙zde słowo wyst ˛epuj ˛ace w zapytaniu rozszerzane jest o jego synonimy znajduj ˛ace si ˛e w podanym tezaurusie. Do tak utworzonych zapyta ´n powszechnie u ˙zywa si ˛e odpowied- nich wag tak aby słowa dodane miały mniejszy wpływ na ostateczne wyniki ni ˙z oryginalne. Niektóre serwisy u ˙zywaj ˛a automatycznie wygenerowanych zestawów zapyta ´n bez dodatkowej ingerencji u ˙zytkownika. Jednym z przy- kładów takich wyszukiwarek jest PubMed1.

Problem, który pozostaje do rozwi ˛azania to to w jaki sposób pozyska´c odpowiedni tezaurus. Istnieje kilka metod:

— u ˙zycie stworzonego przez człowieka słownika,

— automatyczna generacja na podstawie wspólnych wyst ˛apie ´n słów w du ˙zej kolekcji dokumentów,

— u ˙zycie danych pochodz ˛acych z historii zapyta ´n wyszukiwarki.

Ka ˙zda z metod ma swoje plusy i minusy, których nie b ˛ed ˛e tu opisywał.

Dysponuj ˛ac odpowiednio du ˙z ˛a ilo´sci ˛a danych stosuj ˛ac ka ˙zd ˛a z nich mo ˙zna uzyska´c dobre rezultaty.

Metoda lokalna

Celem stosowania metod lokalnych jest zaw ˛e ˙zenie otrzymanych wyni- ków do konkretnej interpretacji zapytania. Przykład: U ˙zytkownik, który jest programist ˛a i wpisuje do wyszukiwarki zapytanie “java” z du ˙zym prawdo- podobie ´nstwem zainteresowany jest stronami internetowymi zwi ˛azanymi z

1 http://www.ncbi.nlm.nih.gov/pubmed

(26)

3.1. Interpretacja zapytania 21 j ˛ezykiem programowania, a mniej informacjami o wyspie Java. Rozwi ˛aza- niem dla tej sytuacji jest dodanie do bazowego zapytania takich słów jak programowanie (ang. programming) albo j ˛ezyk programowania (ang. pro- gramming language). W tym przypadku u ˙zytkownik sam mo ˙ze wykona´c te czynno´sci poprzez zadanie od razu rozszerzonego zapytania lub pó´zniejsz ˛a zmian ˛e, gdy wyniki nie byłyby zadowalaj ˛ace. Sytuacja nie jest jednak za- wsze tak oczywista. Dodatkowo wykonywanie kolejnych zapyta ´n sprawia,

˙ze czas potrzebny na znalezienie interesuj ˛acych informacji znacznie si ˛e wy- dłu ˙za. Rozwi ˛azaniem jest zautomatyzowanie tej czynno´sci.

Pomimo, ˙ze zapytania rozszerzane s ˛a przez u ˙zytkownika w zaledwie 7%

przypadków 3.2 technika ta jest najcz ˛e´sciej stosowana w automatycznych systemach. Główn ˛a przyczyn ˛a jest prostota realizacji, szybko´s´c działania oraz stabilno´s´c tak powstałego rozwi ˛azania. Wszystkie znalezione przeze mnie prace opisuj ˛ace personalizacje wyszukiwania, które opieraj ˛a si ˛e na zmianie zapytania u ˙zywaj ˛a wła´snie tej techniki ( [9, 24, 35, 45],. . . ).

Blind feedback

Metoda blind feedback jest jednym ze sposobów na automatyczne doko- nanie lokalnej analizy. W pierwszym wyszukiwaniu od 10 do 50 pocz ˛at- kowych rezultatów oznaczana jest jako istotne. Nast ˛epnie wybierane jest ok 20 – 30 słów u ˙zywaj ˛ac np. miary tf-idf. W ostatnim kroku pocz ˛atkowe zapytanie rozszerzane jest o powy ˙zsz ˛a list ˛e. Przeprowadzone testy np. na danych z TREC wskazuj ˛a, ˙ze stosuj ˛ac blind feedback mo ˙zna osi ˛agn ˛a´c lepsze wyniki ni ˙z u ˙zywaj ˛ac metody globalnej. Istnieje jednak kilka potencjalnych zagro ˙ze ´n np. gdy pocz ˛atkowe wyniki nie s ˛a zwi ˛azane z szukanym zagadnie- niem, drugie wyszukiwanie spowoduje, ˙ze pogorsz ˛a si ˛e one jeszcze bardziej.

O jakie frazy rozszerza´c zapytanie?

Zapytania rozszerzane s ˛a zazwyczaj o wyrazy b ˛ed ˛ace nazw ˛a pewnej ka- tegorii do której zostały one przydzielone. Istnieje wi ˛ec potrzeba stworzenia lub pozyskania ontologii, która mogłaby by´c u ˙zyta do tego celu.

Definicja 3.1.1. Ontologia w sensie informatycznym to formalna reprezen- tacja pewnej dziedziny wiedzy, na któr ˛a składa si ˛e zapis zbioru poj ˛e´c (ang.

concept) i relacji mi ˛edzy nimi. Struktura ta, b ˛ed ˛ac opisem danej dziedziny wiedzy, mo ˙ze słu ˙zy´c jednocze´snie jako podstawa do wnioskowania o wła´sci- wo´sci opisywanych ontologi ˛a poj ˛e´c.

Istnieje wiele publicznych ontologii. Zazwyczaj odnosz ˛a si ˛e do jednej konkretnej dziedziny (ontologia dziedziny). Popularne serwisy gromadz ˛ace odno´sniki do ró ˙znych ontologii to m.in.:

(27)

3.1. Interpretacja zapytania 22 Top/World Top/Computers/Algorithms

Top/Arts Top/Computers/Companies Top/Business Top/Computers/Conferences Top/Computers Top/Computers/Consultants Top/Games Top/Computers/Directories Top/Health Top/Computers/Education Top/Home Top/Computers/Emulators Top/Netscape Top/Computers/Ethics Top/News Top/Computers/Graphics Top/Recreation Top/Computers/Hacking Top/Reference Top/Computers/Hardware Top/Regional Top/Computers/History Top/Science Top/Computers/Internet Top/Shopping Top/Computers/Intranet Top/Society Top/Computers/Multimedia Top/Sports Top/Computers/Organizations

Top/Computers/Programming Top/Computers/Robotics Top/Computers/Security Top/Computers/Shopping Top/Computers/Software

Top/Computers/Supercomputing Top/Computers/Systems

Top/Computers/Usenet

Tablica 3.4. Lista kategorii głównych ODP oraz rozwini ˛ecie dla jednej z nich (Top/Computers)

— Semanticweb.org 2

— VocabularyMarket 3

— RDF Schema Registry4

Na szczególn ˛a uwag ˛e zasługuje Open Directory Project (ODP).5 Składa si ˛e on z ponad 5 milionów stron internetowych manualnie przydzielonych do ponad miliona hierarchicznych kategorii. Lista kategorii głównych oraz rozwini ˛ecie dla Computers znajduje si ˛e w Tablicy 3.4.

Jak wida´c gromadzone s ˛a dane z bardzo ró ˙znych dziedzin. Powstała hierarchia nie jest w pełnym sensie ontologi ˛a lecz bardzo dobrze spraw- dza si ˛e jako zbiór kategorii do klasyfikacji zapyta ´n czy stron internetowych.

Dane z ODP s ˛a wykorzystywane w licznych pracach dotycz ˛acych personali- zacji [9, 24, 35, 45]

2 Semanticweb.org

3 http://www.w3.org/wiki/VocabularyMarket

4 http://139.91.183.30:9090/RDF/Examples.html

5 www.dmoz.org

(28)

3.2. Filtrowanie i sortowanie wyników wyszukiwania 23 Kiedy pozostawia´c zapytanie niezmienione?

Bardzo ciekawym aspektem jest wykrycie takich zapyta ´n dla których ich rozszerzanie mogłoby pogorszy´c wyniki. W [24] przyj ˛eto, ˙ze system wy´swietli u ˙zytkownikowi trzy jego zdaniem najbardziej pasuj ˛ace kategorie. Gdy u ˙zyt- kownik uzna, ˙ze ˙zadna z nich nie jest odpowiednia mo ˙ze poprosi´c o kolejne lub zrezygnowa´c z rozszerzania zapytania. Takie podej´scie wymaga okre´sle- nia pewnej miary, która oznaczałaby w jakim stopniu kategoria odpowiada zapytaniu.

Zamiast anga ˙zowa´c u ˙zytkownika mo ˙zna po prostu u ˙zy´c najlepszej kate- gorii lub wr ˛ecz kilku najlepszych. W takim przypadku jednak nie bierzemy pod uwag ˛e sytuacji w której wszystkie otrzymane wyniki b ˛ed ˛a do´s´c niskie.

Mo ˙zliwe, ˙ze najlepszym wyj´sciem z tej sytuacji byłoby w ogóle nie uwzgl ˛ed- nia´c kategorii. Do tego celu nale ˙załoby wyznaczy´c pewien próg poni ˙zej, któ- rego zapytanie nie byłoby rozszerzane.

Problem pojawia si ˛e równie ˙z w sytuacji w której wiele kategorii wykazuje du ˙zy poziom zbie ˙zno´sci z zapytaniem. Uwzgl ˛ednianie tylko jednej z nich mo ˙ze doprowadzi´c do bł ˛ednych wyników. Rozwi ˛azaniem jest albo nie bra´c pod uwag ˛e ˙zadnej z nich albo np. przeprowadzi´c kilka wyszukiwa ´n z ró ˙z- nymi rozszerzeniami.

3.2. Filtrowanie i sortowanie wyników wyszukiwania

Prawdopodobnie najcz ˛e´sciej stosowan ˛a technik ˛a personalizacji jest fil- trowanie i sortowanie wyników. Pozostawiamy zapytanie niezmienione. Na- st ˛epnie segregujemy jedynie otrzymane rezultaty tak ˙zeby te, które poja- wiaj ˛a si ˛e na pocz ˛atku były jak najbardziej powi ˛azane z zainteresowaniami konkretnego u ˙zytkownika. Takie podej´scie mo ˙zna znale´z´c w wi ˛ekszo´sci prac zwi ˛azanych z personalizacj ˛a wyszukiwania.

To jak istotne jest prawidłowe uszeregowanie wyników pokazuje wspo- mniany ju ˙z wcze´sniej fakt, ˙ze u ˙zytkownicy zazwyczaj przegl ˛adaj ˛a tylko pierwsz ˛a stron ˛e z wynikami. Rezultaty znajduj ˛ace si ˛e na drugiej, czy trze- ciej stronie mog ˛a nigdy nie trafi´c do u ˙zytkownika. Nie trzeba, wi ˛ec bra´c pod uwag ˛e du ˙zej liczby odno´sników, ˙zeby uzyska´c znaczn ˛a zmian ˛e wła´sciwych wyników. Obrazuje to ogromny potencjał tej metody przy stosunkowo nie- du ˙zym koszcie. Warto jednak zwróci´c uwag ˛e na to, ˙ze je ˙zeli w pierwotnych wynikach nie b ˛edzie ˙zadnych interesuj ˛acych stron to ich sortowanie nic nie zmieni. Pokazuje to zasadnicz ˛a ró ˙znic ˛e mi ˛edzy t ˛a metod ˛a a ingerencj ˛a w

(29)

3.3. Aspekt społeczno ´sciowy 24 zapytanie. Mo ˙znaby si ˛e zastanowi´c nad przegl ˛adaniem wi ˛ekszej liczby re- zultatów, tak aby mie´c wi ˛eksze spektrum wyboru. Nie gwarantuje to jednak sukcesu a za to znacz ˛aco wydłu ˙za czas potrzebny na konieczne obliczenia.

Konsekwencje bł ˛edów

Sortowanie wyników jest zdecydowanie mniej inwazyjne ni ˙z ingerencja w zapytania. Zazwyczaj rozwa ˙zane jest tylko ile´s pierwszych wyników (np.

20 czy 100). Nawet gdyby wszystkie najciekawsze wyniki umieszczone były na ko ´ncu to i tak u ˙zytkownik ma szans ˛e do nich dotrze´c. Zwi ˛ekszy si ˛e jedynie czas, który b ˛edzie musiał po´swi ˛eci´c na ich znalezienie i co za tym idzie zmaleje komfort u ˙zytkowania takiego systemu. Sytuacja jest wi ˛ec zu- pełnie inna ni ˙z w przypadku rozszerzania zapytania, gdzie nadanie bł ˛ednej kategorii mo ˙ze doprowadzi´c do całkowitej zmiany wyników. W przypadku gdy sortowano by wi ˛eksz ˛a liczb ˛e rezultatów konsekwencje bł ˛edów mogłyby by´c jednak porównywalne. W praktyce niech ˛e´c u ˙zytkownika do ogl ˛adania wi ˛ekszej liczby wyników powoduje, ˙ze przemieszczenie go poza pierwsze trzy strony praktycznie go eliminuje.

3.3. Aspekt społeczno´sciowy

W ostatnich latach nast ˛apił bardzo silny rozwój portali społeczno´scio- wych. Powstaje ich coraz wi ˛ecej, a najnowsze oprogramowanie w du ˙zym stopniu z tego korzysta.

3.3.1. Wykorzystanie wiedzy zawartej w portalach społeczno´sciowych W [5] autorzy próbuj ˛a zbudowa´c profil u ˙zytkownika na podstawie infor- macji pochodz ˛acej z korporacyjnej sieci społeczno´sciowej. Dzi ˛eki specjalnej wyszukiwarce SaND [32] byli oni w stanie dla ka ˙zdego u ˙zytkownika utwo- rzy´c list ˛e powi ˛azanych z nim osób. Dodatkowo dla ka ˙zdej osoby mo ˙zliwe było pobranie takich informacji jak strony internetowe, czy wpisy na blo- gach. Badano cztery ró ˙zne typy sieci:

— sie´c opieraj ˛ac ˛a si ˛e na bezpo´sredniej znajomo´sci osób,

— sie´c powstał ˛a na podstawie podobnych zainteresowa´c,

— sie´c b ˛ed ˛ac ˛a poł ˛aczeniem dwóch powy ˙zszych.

Relacja znajomo´sci oznaczała, ˙ze został spełniony co najmniej jeden z kilku warunków. Osoba była:

— oznaczona jako znajoma w jednej z korporacyjnych sieci społeczno´scio- wych,

(30)

3.3. Aspekt społeczno ´sciowy 25

— bezpo´srednim przeło ˙zonym lub bezpo´srednim

— członkiem tego samego zespołu (miała tego samego managera),

— współautorem jednej z pracy wspólnie z badanym u ˙zytkownikiem.

Wyniki porównywano z profilami utworzonymi na podstawie indywidual- nych zainteresowa´c u ˙zytkownika (poł ˛aczone wyniki wyszukiwania w SaND na temat danej osoby). Eksperymenty wykazały, ˙ze personalizacja na pod- stawie sieci społeczno´sciowych zdecydowanie przewy ˙zszała jako´sci ˛a kla- syczn ˛a metod ˛e.

Troch ˛e inne pode´scie przy´swiecało autorom [48]. Ich pomysł polegał na zastosowaniu folksonomii (ang. folksonomy). Folksonomia umo ˙zliwia u ˙zyt- kownikom zapisywanie i organizowanie zakładek w sieci. Wa ˙znym elemen- tem s ˛a opcje tagowania oraz przypisywania tzw. społeczno´sciowych adno- tacji (ang. social annotations). Dobrym przykładem folksonomii jest serwis Delisious.com, z którego to wła´snie autorzy czerpali dane. Rezultaty jakie otrzymali przewy ˙zszały znacznie klasyczne podej´scie mimo i ˙z jak sami pod- kre´slaj ˛a ich praca nie dobiegła jeszcze ko ´nca i jest wiele modyfikacji, które mo ˙zna wprowadzi´c.

3.3.2. Wiedza pochodz ˛aca od innych u ˙zytkowników systemu

W wi ˛ekszo´sci prac zwi ˛azanych z personalizacj ˛a zupełnie pomijany jest aspekt innych u ˙zytkowników budowanych systemów. Informacje, które od nich pochodz ˛a mog ˛a by´c w bardzo ciekawy sposób wykorzystywane. Za- miast korzysta´c z danych tylko jednego u ˙zytkownika do tworzenia profilu mo ˙zna u ˙zy´c równie ˙z te pochodz ˛ace od osób o podobnych zainteresowa- niach. Wyobra´zmy sobie nast ˛epuj ˛ac ˛a sytuacj ˛e: U ˙zytkownik wpisuj ˛e zapy- tanie. System dysponuj ˛ac grup ˛a osób o podobnych zainteresowania spraw- dza, czy które´s z nich nie wykonała podobnego ju ˙z wcze´sniej. Je´sli tak to, wysoko w ostatecznych wynikach pojawiaj ˛a si ˛e te strony, które zostały ju ˙z wcze´sniej odwiedzone.

W artykule [44] naukowcy z Microsoft Research badali temat podziału u ˙zytkowników na grupy i nast ˛epnie wykorzystania ich do poprawy jako´sci wyszukiwania. Jaki sami to okre´slili bardziej adekwatne od sformułowania spersonalizowane byłoby w tym przypadku grupowe wyszukiwanie. Grupy tworzone były na podstawie wielu ró ˙znych czynników. Podstawowe rozró ˙z- nienie dotyczyło tego, czy dane grupy były długo, czy krótkoterminowe. Do krótkoterminowych zaliczano osoby, które współdzieliły ten sam cel (grupy zadaniowe) t.j. plany wakacyjne, zakupy, projekty zwi ˛azane z prac ˛a lub

(31)

3.4. Klasyfikacja tekstu 26 szkoł ˛a itp. Grupy długoterminowe zbierały u ˙zytkowników z podobnymi ce- chami (ang. trait based groups). Były to osoby, które niekoniecznie współ- pracowały przy tym samym zadaniu, ale raczej wykonywały je co jaki´s czas niezale ˙znie od siebie. Mogły ł ˛aczy´c je te ˙z inne rzeczy jak cho´cby wspólne za- interesowania, miejsce zamieszkania, wiek, płe´c, zarobki itp. Grupy wspól- nych zainteresowa ´n tworzone były na podstawie analiz tematycznych list mailingowych oraz mierzenia podobie ´nstwa tre´sci zawartych na kompute- rach u ˙zytkowników.

Aspekt personalizacji osi ˛agany był poprzez zastosowanie sortowania wy- ników wyszukiwania. Ró ˙znica polegała na tym, ˙ze ranking strony okre-

´slano przez ka ˙zdego u ˙zytkownika grupy osobno, a nast ˛epnie wyliczana była

´srednia, która stanowiła ostateczny wynik. W eksperymencie brało udział 120 osób. Testy przeprowadzono dla wielu ró ˙znych grup. Najbardziej za- skakuj ˛acy był fakt, ˙ze potraktowanie wszystkich u ˙zytkowników jako jednej grupy dało lepszy wynik ni ˙z przy zastosowaniu klasycznej personalizacji.

Przyczyna mogła le ˙ze´c w tym, ˙ze wszystkie z zaanga ˙zowanych osób były pracownikami Microsoft i mieszkały w Seattle lub jego okolicy. Najwi ˛eksz ˛a popraw ˛e wyników mo ˙zna zaobserwowa´c przy zapytaniach dotycz ˛acych wy- konywanej przez u ˙zytkowników pracy. Nie powinno to jednak dziwi´c. Przy praktycznie wszystkich badanych grupach wyniki grupowego wyszukiwania okazały si ˛e lepsze i to niezale ˙znie od tego jakie typu były badane zapytania.

Do´swiadczenia jednoznacznie pokazały, ˙ze traktowanie u ˙zytkowników jako grup jest bardzo obiecuj ˛acym pomysłem.

3.4. Klasyfikacja tekstu

Automatyczna klasyfikacja tekstu to metoda uczenia si ˛e pod nadzorem zdefiniowana jako przypisywanie nazw kategorii (ze zbioru dost ˛epnych) do nowego dokumentu na podstawie podobie ´nstwa do zbioru oznaczonych do- kumentów w zbiorze trenuj ˛acym. [49].

3.4.1. Wybór algorytmu

Istnieje bardzo wiele algorytmów, które słu ˙z ˛a do tego celu. W [49] autorzy próbowali dokona´c porównania pi ˛eciu ró ˙znych metod klasyfikacji tekstu.

Badane były algorytmy SVM, kNN, NNet, LLSF oraz NB. Najlepsze wyniki zostały osi ˛agni ˛ete dla SVM i kNN. Zdecydowanie najsłabiej spisywał si ˛e klasyfikator Naiwnego Bayesa.

(32)

3.4. Klasyfikacja tekstu 27 TFIDF

Troch ˛e inne podej´scie rezprezentowane jest przez algorytm TFIDF. Miara IDF (ang. Inverse Document Frequency) ma swój pocz ˛atek w pracy Karen Sprack Jones z roku 1972 pod tytułem “A statistical interpretation of term specificity and its application in retrieval”. Od tego czasu zyskała bardzo du ˙z ˛a popularno´s´c. Wyst ˛epuje pod ró ˙zn ˛a postaci ˛a w wielu silnikach wyszu- kiwania. Algorytm TFIDF jest szeroko stosowany w dziedzinie klasyfikacji tekstu. W skrócie pozwala ona oceni´c w jakim stopniu dwa dokumenty s ˛a do siebie podobne.

Przechodz ˛ac do szczegółów, miara IDF przedstawia stosunek liczby wszystkich wyszukiwanych dokumentów do tych, które zawieraj ˛a dane słowo. Im jest on wi ˛ekszy, tym badany wyraz ma wi ˛eksze znaczenie. Traf- no´s´c tego mo ˙zna łatwo pokaza´c na przykładzie. Załó ˙zmy, ˙ze analizujemy trzy dokumenty A, B i C. Porównuj ˛ac je mi ˛edzy sob ˛a chcemy stwierdzi´c, która para jest najbardziej do siebie podobna. W dokumentach A i B powtó- rzyło si ˛e słowo ab, w AC ac, a w BC bc. Załó ˙zmy teraz, ˙ze słowo ab pojawia si ˛e w 90% dokumentów, ac w 50% a bc jedynie w 10%. Intuicyjnie mo ˙zna wi ˛ec stwierdzi´c, ˙ze fakt pojawienia si ˛e słowa bc w dokumentach B i C mo ˙ze by´c dobrym wyró ˙znikiem ´swiadcz ˛acym o ich podobie ´nstwie.

TF (ang. term frequency), czyli pierwsza składowa w nazwie algorytmu, przedstawia cz ˛estotliwo´s´c wyst ˛epowania wyrazu w konkretnym dokumen- cie. Mo ˙zna przyj ˛a´c do´s´c intuicyjne zało ˙zenie, ˙ze im cz ˛e´sciej w tek´scie wyst ˛e- puje dane słowo, tym jest ono dla niego bardziej charakterystyczne.

Po przedstawieniu wst ˛epnego opisu mog ˛e przej´s´c do podania konkret- nych wzorów i poł ˛aczenia obu składowych. A mianowicie waga słowa wi w dokumencie d obliczona jest nast ˛epuj ˛aco:

di = T F (wi, d) ∗ IDF (wi)

T F (wi, d) odpowiada liczbie wyst ˛apie ´n słowa wi w dokumencie d, a IDF (wi) = log(|D|/DF (wi))

gdzie |D| to liczba wszystkich dokumentów, a DF (wi)przedstawia liczb ˛e do- kumentów w których wyst ˛epuje słowo wi. W przypadku gdy słowo wyst ˛e- puje w ka ˙zdym dokumencie IDF równe jest 0 (log(1) = 0) a co za tym idzie T F − IDF równie ˙z wynosi 0.

(33)

3.4. Klasyfikacja tekstu 28 Posiadaj ˛ac wyliczone wagi dla słów w dokumentach nale ˙zy nast ˛epnie przej´s´c do wła´sciwej operacji ich porównywania. Do tego celu stosuje si ˛e funkcj ˛e cosinus. Miara podobie ´nstwa dokumentów d1 i d2 jest nast ˛epuj ˛aca:

cos(d1, d2) = (d1 ∗ d2)/||d1||||d2||

W tym celu dokumentu traktowane s ˛a jak wektory w których słowa odgry- waj ˛a role kolejnych składowych.

3.4.2. Dane trenuj ˛ace

Do budowy klasyfikatorów dziedzinowych niezb ˛edn ˛a s ˛a dane trenuj ˛ace.

W tym przypadku powinny by´c to teksty przyporz ˛adkowane do pewnej onto- logii. Ontologia powinna by´c do´s´c szczegółowa i odzwierciedla´c w znacznym stopniu zakres tematów na jakie mo ˙zemy natrafi´c przeszukuj ˛ac sie´c. Wa ˙zne aby dane nie zawierały zbyt du ˙zej liczby bł ˛edów. W przeciwnym przypadku budowane klasyfikatory nie byłyby wiarygodne. Wszystkim tym wymaga- niom doskonale odpowiada przedstawiona ju ˙z wy ˙zej platforma Open Direc- tory Project.

Open Directory Project

Głównym ´zródłem danych w ODP s ˛a manualnie przyporz ˛adkowane strony internetowe. Gromadz ˛ac ich zawarto´s´c mo ˙zemy otrzyma´c ogromny zasób tekstów. Oprócz tego bardzo pomocne s ˛a dodatkowe atrybuty, które zawieraj ˛a kategorie. Ka ˙zda z nich posiada krótki opis, który sam w sobie mo ˙ze stanowi´c podstaw ˛e do budowy klasyfikatorów. W du ˙zej liczbie prac wła´snie na takiej podstawie s ˛a one tworzone. Wi ˛a ˙ze si ˛e to w du ˙zej cz ˛e´sci z faktem, ˙ze tre´s´c takiego opisu zawiera do´s´c istotne słowa w kontek´scie kla- syfikacji. Same strony internetowe składaj ˛a si ˛e w du ˙zej cz ˛e´sci z mnóstwa zb ˛ednych danych, które nie maj ˛a zwi ˛azku z przypisan ˛a kategori ˛a.

Dobór odpowiednich kategorii

W wi ˛ekszo´sci zastosowa ´n nie u ˙zywa si ˛e bezpo´srednio wszystkich katego- rii znajduj ˛acych si ˛e w ODP. W [24] autorzy korzystali tylko z trzech pierwszy poziomów hierarchii. Dane pochodz ˛ace z ni ˙zszych warstw były ł ˛aczone i tworzyły reprezentacje rodzica. Cz ˛esto bezpo´srednie dane kategorii otrzy- mywały troch ˛e inne wagi ni ˙z te dodane. Podobne podej´scie jest do´s´c po- wszechne. Ma to swoje dobre uzasadnienie. Na kolejnych poziomach ilo´s´c danych mo ˙ze by´c niewystarczaj ˛aca do utworzenia dobrze działaj ˛acego kla- syfikatora. Dodatkowo im wi ˛ecej kategorii tym bardziej kosztowny jest sam proces klasyfikacji.

(34)

3.4. Klasyfikacja tekstu 29 To jakie kategorie zostan ˛a wybrane ma szczególnie du ˙zy wpływ na proces klasyfikacji zapyta ´n. Przy rozszerzaniu zapytania doklejona jest najcz ˛e´sciej nazwa kategorii jaka została przypisana. Trzeba mie´c na uwadze, ˙ze wybie- raj ˛ac zbyt ogóln ˛a kategorie mo ˙zemy doprowadzi´c do pogorszenia si ˛e zapyta- nia. Jest to spowodowane tym, ˙ze silniki wyszukiwarek tak naprawd ˛e nie interpretuj ˛a zapytania. Nie rozumiej ˛a o co tak naprawd ˛e pyta u ˙zytkownik, tylko poszukuj ˛a dokumentów w których wyst ˛epuj ˛a zadane słowa. Szcz ˛e-

´sliwie je´sli dodana fraza jest bardzo popularna (wyst ˛epuj ˛a w du ˙zo wi ˛ekszej liczbie dokumentów ni ˙z bazowa cz ˛e´s´c zapytania) jest du ˙ze prawdopodobie ´n- stwo, ˙ze zostanie całkowicie omini ˛eta. Takie zachowanie mo ˙zna zaobserwo- wa´c przy szczegółowych zapytaniach np. wpisuj ˛ac fraz ˛e “Query classifica- tion” oraz “Query classification computers” albo “Query Classification com- puter science” w wyszukiwarce Google wi ˛ekszo´s´c pocz ˛atkowych rezultatów jest bardzo podobna. Zupełnie inna sytuacja pojawia si ˛e gdy zapytanie jest bardziej ogólne i krótkie. Poł ˛aczenie słowa “programming” z fraz ˛a “computer science” prowadzi do wy´swietlenia rezultatów powi ˛azanych w wi ˛ekszo´sci z

“computer science”.

3.4.3. Klasyfikacja stron internetowych

Klasyfikacja stron internetowych jest du ˙zo trudniejsza ni ˙z statystyczne zadanie klasyfikacji tekstu. Zawarto´s´c strony internetowej to w du ˙zej cz ˛e´sci reklamy, czy inna tre´s´c dodana nie zwi ˛azana bezpo´srednio z jej tematem.

Istnieje wiele opracowa ´n zajmuj ˛acych si ˛e tym tematem. W´sród nich s ˛a takie prace jak: [10, 30]. W pracach zwi ˛azanych z personalizacj ˛a sam temat nie jest szczególnie zgł ˛ebiany. Wi ˛ekszo´s´c zastosowa ´n traktuje cał ˛a tre´s´c jako jeden tekst.

Zamiast klasyfikowa´c całe strony mo ˙zna spróbowa´c kategoryzowa´c je- dynie ich streszczenia. [34] W kontek´scie wyszukiwania bardzo wygodne byłoby traktowa´c jako tak ˛a form ˛e snippety zwracane przez wyszukiwarki.

Miało by to kilka istotnych zalet. Po pierwsze zaoszcz ˛edziłoby czas na zała- dowanie tre´sci stron. Po drugie klasyfikowany byłby znacznie krótszy tekst, co te ˙z mogłoby korzystnie wpłyn ˛a´c na wydajno´s´c całego procesu.

3.4.4. Klasyfikacja zapyta ´n

Klasyfikacja zapyta ´n jest szczególnym przypadkiem klasyfikacji tek- stu. Mamy tu do czynienia z bardzo krótkimi frazami, najcz ˛e´sciej dwu, trzy-wyrazowymi. Zastosowanie klasycznych algorytmów mo ˙ze w takim ra- zie by´c do´s´c trudne. Prac ˛e takie jak: [24] pokazały, ˙ze jest to wykonywalne

(35)

3.5. Ocena modelu 30 i przynosi całkiem dobre efekty. Wi ˛a ˙z ˛e si ˛e to z faktem, ˙ze mimo niewielkiej obj ˛eto´sci zapytania zawieraj ˛a najcz ˛e´sciej słowa, które s ˛a do´s´c charaktery- styczne (słowa kluczowe o do´s´c du ˙zym współczynniku IDF).

Bł ˛edna klasyfikacja

Nadanie bł ˛ednej kategorii zapytaniu mo ˙ze doprowadzi´c do znacznego po- gorszenia wyników wyszukiwania. W przypadku gdy u ˙zywana jest ona do wyboru ´zródła wszystko zale ˙zy od strategii jaka została obrana przez bro- kera. Gdy wybiera on jedynie ´zródła zwi ˛azane bezpo´srednio z kategori ˛a to rezultaty takiego wyszukiwania b ˛ed ˛a bezu ˙zyteczne. Nie ma sensu szuka´c informacji o wyspie Java w bazie DBLP, która gromadzi dane z zakresu informatyki. W sytuacji gdy zapytanie trafi równie ˙z do bardziej ogólnych

´zródeł wiedzy (np. wyszukiwarek internetowych), to przy zastosowaniu al- gorytmów filtruj ˛acych i sortuj ˛acych, wyniki nie powinny si ˛e bardzo ró ˙zni´c od wykonania zapytania bez uwzgl ˛edniania kategorii. Ten przypadek ewi- dentnie nie jest tak dotkliwy jak poprzednie. Nie ma jednak sensu stosowa´c wielu skomplikowanych algorytmów tylko po to ˙zeby na ko ´ncu otrzyma´c gorszy wynik. Podsumowuj ˛ac bardzo istotne jest aby brokerzy otrzymywali kategorie, które z du ˙zym prawdopodobie ´nstwem s ˛a poprawne.

W sytuacji gdy kategoria jest u ˙zywana do rozszerzenia zapytania wszystko zale ˙zy od jej ogólno´sci. Im jest bardziej szczegółowa tym mo ˙ze wy- woła´c wi ˛eksz ˛a szkod ˛e. Wyst ˛epuj ˛a dwa rodzaje bł ˛edów. Po pierwsze mo ˙zemy otrzyma´c kategori ˛e, która nie jest logicznie powi ˛azana z zapytaniem. Wpi- suj ˛ac fraz ˛e “query classification” oraz “grocery” wi ˛ekszo´s´c rezultatów b ˛edzie przydatna.

Drugi typ bł ˛edów jest du ˙zo bardziej niebezpieczny. Wi ˛a ˙ze si ˛e z nada- niem innego znaczenia zapytaniu. Załó ˙zmy, ˙ze szukamy informacji o grze w bryd ˙za i wpisujemy słowo “bridge”. Je´sli w wyniku klasyfikacji otrzymamy kategori ˛e “Top/Science/Technology/Structural Engineering” i dodamy do zapytania fraz ˛e “Structural Engineering” ˙zaden ze 100 pocz ˛atkowych rezul- tatów nie dotyczy gry w karty. Niestety istnieje du ˙za podstawa aby przy- puszcza´c, ˙ze ten drugi scenariusz mo ˙ze wyst ˛epowa´c du ˙zo cz ˛e´sciej.

3.5. Ocena modelu

Przetestowanie i ocenienie spersonalizowanego wyszukiwania nie jest spraw ˛a łatw ˛a. System w ramach pozyskiwania danych zmienia swoje za- chowanie w czasie poprzez dostosowanie si ˛e do konkretnego u ˙zytkownika.

Cytaty

Powiązane dokumenty

Tolerancja jest logicznym następstwem przyjętego stanowiska normatywnego, jeśli to stanowisko obejmuje jedno z poniższych przekonań: (1) co najmniej dwa systemy wartości

[r]

Wi¸ec, trzeba sprawdzi´ c punkty krytyczne tej funkcji... Natomiast, funkcja f nie jest ci¸

Natomiast, musimy sprawdzi´ c, czy ta funkcja jest r´ o˙zniczkowalna w punktach (x, −x) gdzie podpierwiastkiem si¸e zeruje.. Je˙zeli funkcja f 1 jest r´ ozniczkowalna, jej

Rozwi azanie ka˙zdego zadania TRZEBA napisa´c na ODDZIELNEJ kartce (lub kartkach).. GAL, egzamin TEMAT

Kłopoty zaczynają się, kiedy media cyfrowe, zamiast uzupełniać relacje społeczne, zaczynają w nich dominować.. nastolatek zamiast wychodzić, by spotkać się z

Œwiêtokrzyskich oraz w strefie kontaktu bloku ma³opolskiego z górnoœl¹skim nie maj¹ znaczenia ekonomicznego jednak stanowi¹ wa¿ne przes³anki dla dalszych poszukiwañ, które

Przeprowadzona analiza energe- tyczna i ekonomiczna wykaza³a, ¿e op³acalnoœæ wdro¿enia na skalê przemys³ow¹ procesu odsalania w systemie geotermalnym w du¿ej mierze zale¿y