Klasyfikacja tekstu - Techniki personalizacji

3. Techniki personalizacji

3.4. Klasyfikacja tekstu

ce-chami (ang. trait based groups). Były to osoby, które niekoniecznie współ-pracowały przy tym samym zadaniu, ale raczej wykonywały je co jaki´s czas niezale ˙znie od siebie. Mogły ł ˛aczy´c je te ˙z inne rzeczy jak cho´cby wspólne za-interesowania, miejsce zamieszkania, wiek, płe´c, zarobki itp. Grupy wspól-nych zainteresowa ´n tworzone były na podstawie analiz tematycznych list mailingowych oraz mierzenia podobie ´nstwa tre´sci zawartych na kompute-rach u ˙zytkowników.

Aspekt personalizacji osi ˛agany był poprzez zastosowanie sortowania wy-ników wyszukiwania. Ró ˙znica polegała na tym, ˙ze ranking strony

okre-´slano przez ka ˙zdego u ˙zytkownika grupy osobno, a nast ˛epnie wyliczana była

´srednia, która stanowiła ostateczny wynik. W eksperymencie brało udział 120 osób. Testy przeprowadzono dla wielu ró ˙znych grup. Najbardziej za-skakuj ˛acy był fakt, ˙ze potraktowanie wszystkich u ˙zytkowników jako jednej grupy dało lepszy wynik ni ˙z przy zastosowaniu klasycznej personalizacji.

Przyczyna mogła le ˙ze´c w tym, ˙ze wszystkie z zaanga ˙zowanych osób były pracownikami Microsoft i mieszkały w Seattle lub jego okolicy. Najwi ˛eksz ˛a popraw ˛e wyników mo ˙zna zaobserwowa´c przy zapytaniach dotycz ˛acych wy-konywanej przez u ˙zytkowników pracy. Nie powinno to jednak dziwi´c. Przy praktycznie wszystkich badanych grupach wyniki grupowego wyszukiwania okazały si ˛e lepsze i to niezale ˙znie od tego jakie typu były badane zapytania.

Do´swiadczenia jednoznacznie pokazały, ˙ze traktowanie u ˙zytkowników jako grup jest bardzo obiecuj ˛acym pomysłem.

3.4. Klasyfikacja tekstu

Automatyczna klasyfikacja tekstu to metoda uczenia si ˛e pod nadzorem zdefiniowana jako przypisywanie nazw kategorii (ze zbioru dost ˛epnych) do nowego dokumentu na podstawie podobie ´nstwa do zbioru oznaczonych do-kumentów w zbiorze trenuj ˛acym. [49].

3.4.1. Wybór algorytmu

Istnieje bardzo wiele algorytmów, które słu ˙z ˛a do tego celu. W [49] autorzy próbowali dokona´c porównania pi ˛eciu ró ˙znych metod klasyfikacji tekstu.

Badane były algorytmy SVM, kNN, NNet, LLSF oraz NB. Najlepsze wyniki zostały osi ˛agni ˛ete dla SVM i kNN. Zdecydowanie najsłabiej spisywał si ˛e klasyfikator Naiwnego Bayesa.

3.4. Klasyfikacja tekstu 27 TFIDF

Troch ˛e inne podej´scie rezprezentowane jest przez algorytm TFIDF. Miara IDF (ang. Inverse Document Frequency) ma swój pocz ˛atek w pracy Karen Sprack Jones z roku 1972 pod tytułem “A statistical interpretation of term specificity and its application in retrieval”. Od tego czasu zyskała bardzo du ˙z ˛a popularno´s´c. Wyst ˛epuje pod ró ˙zn ˛a postaci ˛a w wielu silnikach wyszu-kiwania. Algorytm TFIDF jest szeroko stosowany w dziedzinie klasyfikacji tekstu. W skrócie pozwala ona oceni´c w jakim stopniu dwa dokumenty s ˛a do siebie podobne.

Przechodz ˛ac do szczegółów, miara IDF przedstawia stosunek liczby wszystkich wyszukiwanych dokumentów do tych, które zawieraj ˛a dane słowo. Im jest on wi ˛ekszy, tym badany wyraz ma wi ˛eksze znaczenie. Traf-no´s´c tego mo ˙zna łatwo pokaza´c na przykładzie. Załó ˙zmy, ˙ze analizujemy trzy dokumenty A, B i C. Porównuj ˛ac je mi ˛edzy sob ˛a chcemy stwierdzi´c, która para jest najbardziej do siebie podobna. W dokumentach A i B powtó-rzyło si ˛e słowo ab, w AC ac, a w BC bc. Załó ˙zmy teraz, ˙ze słowo ab pojawia si ˛e w 90% dokumentów, ac w 50% a bc jedynie w 10%. Intuicyjnie mo ˙zna wi ˛ec stwierdzi´c, ˙ze fakt pojawienia si ˛e słowa bc w dokumentach B i C mo ˙ze by´c dobrym wyró ˙znikiem ´swiadcz ˛acym o ich podobie ´nstwie.

TF (ang. term frequency), czyli pierwsza składowa w nazwie algorytmu, przedstawia cz ˛estotliwo´s´c wyst ˛epowania wyrazu w konkretnym dokumen-cie. Mo ˙zna przyj ˛a´c do´s´c intuicyjne zało ˙zenie, ˙ze im cz ˛e´sciej w tek´scie wyst ˛e-puje dane słowo, tym jest ono dla niego bardziej charakterystyczne.

Po przedstawieniu wst ˛epnego opisu mog ˛e przej´s´c do podania konkret-nych wzorów i poł ˛aczenia obu składowych. A mianowicie waga słowa w_i w dokumencie d obliczona jest nast ˛epuj ˛aco:

d_i = T F (w_i, d) ∗ IDF (w_i)

T F (wi, d) odpowiada liczbie wyst ˛apie ´n słowa wi w dokumencie d, a IDF (wi) = log(|D|/DF (wi))

gdzie |D| to liczba wszystkich dokumentów, a DF (w_i)przedstawia liczb ˛e do-kumentów w których wyst ˛epuje słowo w_i. W przypadku gdy słowo wyst ˛e-puje w ka ˙zdym dokumencie IDF równe jest 0 (log(1) = 0) a co za tym idzie T F − IDF równie ˙z wynosi 0.

3.4. Klasyfikacja tekstu 28 Posiadaj ˛ac wyliczone wagi dla słów w dokumentach nale ˙zy nast ˛epnie przej´s´c do wła´sciwej operacji ich porównywania. Do tego celu stosuje si ˛e funkcj ˛e cosinus. Miara podobie ´nstwa dokumentów d1 i d2 jest nast ˛epuj ˛aca:

cos(d₁, d₂) = (d₁ ∗ d₂)/||d₁||||d₂||

W tym celu dokumentu traktowane s ˛a jak wektory w których słowa odgry-waj ˛a role kolejnych składowych.

3.4.2. Dane trenuj ˛ace

Do budowy klasyfikatorów dziedzinowych niezb ˛edn ˛a s ˛a dane trenuj ˛ace.

W tym przypadku powinny by´c to teksty przyporz ˛adkowane do pewnej onto-logii. Ontologia powinna by´c do´s´c szczegółowa i odzwierciedla´c w znacznym stopniu zakres tematów na jakie mo ˙zemy natrafi´c przeszukuj ˛ac sie´c. Wa ˙zne aby dane nie zawierały zbyt du ˙zej liczby bł ˛edów. W przeciwnym przypadku budowane klasyfikatory nie byłyby wiarygodne. Wszystkim tym wymaga-niom doskonale odpowiada przedstawiona ju ˙z wy ˙zej platforma Open Direc-tory Project.

Open Directory Project

Głównym ´zródłem danych w ODP s ˛a manualnie przyporz ˛adkowane strony internetowe. Gromadz ˛ac ich zawarto´s´c mo ˙zemy otrzyma´c ogromny zasób tekstów. Oprócz tego bardzo pomocne s ˛a dodatkowe atrybuty, które zawieraj ˛a kategorie. Ka ˙zda z nich posiada krótki opis, który sam w sobie mo ˙ze stanowi´c podstaw ˛e do budowy klasyfikatorów. W du ˙zej liczbie prac wła´snie na takiej podstawie s ˛a one tworzone. Wi ˛a ˙ze si ˛e to w du ˙zej cz ˛e´sci z faktem, ˙ze tre´s´c takiego opisu zawiera do´s´c istotne słowa w kontek´scie kla-syfikacji. Same strony internetowe składaj ˛a si ˛e w du ˙zej cz ˛e´sci z mnóstwa zb ˛ednych danych, które nie maj ˛a zwi ˛azku z przypisan ˛a kategori ˛a.

Dobór odpowiednich kategorii

W wi ˛ekszo´sci zastosowa ´n nie u ˙zywa si ˛e bezpo´srednio wszystkich katego-rii znajduj ˛acych si ˛e w ODP. W [24] autorzy korzystali tylko z trzech pierwszy poziomów hierarchii. Dane pochodz ˛ace z ni ˙zszych warstw były ł ˛aczone i tworzyły reprezentacje rodzica. Cz ˛esto bezpo´srednie dane kategorii otrzy-mywały troch ˛e inne wagi ni ˙z te dodane. Podobne podej´scie jest do´s´c po-wszechne. Ma to swoje dobre uzasadnienie. Na kolejnych poziomach ilo´s´c danych mo ˙ze by´c niewystarczaj ˛aca do utworzenia dobrze działaj ˛acego kla-syfikatora. Dodatkowo im wi ˛ecej kategorii tym bardziej kosztowny jest sam proces klasyfikacji.

3.4. Klasyfikacja tekstu 29 To jakie kategorie zostan ˛a wybrane ma szczególnie du ˙zy wpływ na proces klasyfikacji zapyta ´n. Przy rozszerzaniu zapytania doklejona jest najcz ˛e´sciej nazwa kategorii jaka została przypisana. Trzeba mie´c na uwadze, ˙ze wybie-raj ˛ac zbyt ogóln ˛a kategorie mo ˙zemy doprowadzi´c do pogorszenia si ˛e zapyta-nia. Jest to spowodowane tym, ˙ze silniki wyszukiwarek tak naprawd ˛e nie interpretuj ˛a zapytania. Nie rozumiej ˛a o co tak naprawd ˛e pyta u ˙zytkownik, tylko poszukuj ˛a dokumentów w których wyst ˛epuj ˛a zadane słowa. Szcz

˛e-´sliwie je´sli dodana fraza jest bardzo popularna (wyst ˛epuj ˛a w du ˙zo wi ˛ekszej liczbie dokumentów ni ˙z bazowa cz ˛e´s´c zapytania) jest du ˙ze prawdopodobie ´ n-stwo, ˙ze zostanie całkowicie omini ˛eta. Takie zachowanie mo ˙zna zaobserwo-wa´c przy szczegółowych zapytaniach np. wpisuj ˛ac fraz ˛e “Query classifica-tion” oraz “Query classification computers” albo “Query Classification com-puter science” w wyszukiwarce Google wi ˛ekszo´s´c pocz ˛atkowych rezultatów jest bardzo podobna. Zupełnie inna sytuacja pojawia si ˛e gdy zapytanie jest bardziej ogólne i krótkie. Poł ˛aczenie słowa “programming” z fraz ˛a “computer science” prowadzi do wy´swietlenia rezultatów powi ˛azanych w wi ˛ekszo´sci z

“computer science”.

3.4.3. Klasyfikacja stron internetowych

Klasyfikacja stron internetowych jest du ˙zo trudniejsza ni ˙z statystyczne zadanie klasyfikacji tekstu. Zawarto´s´c strony internetowej to w du ˙zej cz ˛e´sci reklamy, czy inna tre´s´c dodana nie zwi ˛azana bezpo´srednio z jej tematem.

Istnieje wiele opracowa ´n zajmuj ˛acych si ˛e tym tematem. W´sród nich s ˛a takie prace jak: [10, 30]. W pracach zwi ˛azanych z personalizacj ˛a sam temat nie jest szczególnie zgł ˛ebiany. Wi ˛ekszo´s´c zastosowa ´n traktuje cał ˛a tre´s´c jako jeden tekst.

Zamiast klasyfikowa´c całe strony mo ˙zna spróbowa´c kategoryzowa´c je-dynie ich streszczenia. [34] W kontek´scie wyszukiwania bardzo wygodne byłoby traktowa´c jako tak ˛a form ˛e snippety zwracane przez wyszukiwarki.

Miało by to kilka istotnych zalet. Po pierwsze zaoszcz ˛edziłoby czas na zała-dowanie tre´sci stron. Po drugie klasyfikowany byłby znacznie krótszy tekst, co te ˙z mogłoby korzystnie wpłyn ˛a´c na wydajno´s´c całego procesu.

3.4.4. Klasyfikacja zapyta ´n

Klasyfikacja zapyta ´n jest szczególnym przypadkiem klasyfikacji tek-stu. Mamy tu do czynienia z bardzo krótkimi frazami, najcz ˛e´sciej dwu, trzy-wyrazowymi. Zastosowanie klasycznych algorytmów mo ˙ze w takim ra-zie by´c do´s´c trudne. Prac ˛e takie jak: [24] pokazały, ˙ze jest to wykonywalne

3.5. Ocena modelu 30

W dokumencie Profilowanie wyszukiwania wiedzy naukowej (Stron 31-35)