SYSTEMY WYSZUKIWANIA INFORMACJI

(1)

SYSTEMY WYSZUKIWANIA INFORMACJI

Agnieszka Nowak - Brzezi«ska

17 grudnia 2019

Metoda Saltona Wykªady 8, 9 i 10

(2)

Idea metody Saltona

(3)

Gªówne cechy metody Saltona

Metoda opracowana dla dokumentów i pyta« zadawanych w j¦zyku naturalnym, dlatego te» podstawowy moduª stanowi moduª analizy j¦zykowej, którego opracowanie jest niezwykle pracochªonne i wymaga rozwi¡zania szeregu problemów natury lingwistycznej.

Opisy obiektów s¡ tekstami w j¦zyku naturalnym.

Metoda polega na podziale wszystkich obiektów na grupy o podobnym opisie. Jest wiele metod grupowania. Ka»da grupa obiektów posiada swojego reprezentanta (wektor poj¦¢ charakterystycznych dla danej grupy, np. wektor centriodalny - centroid, prol). W przypadku otrzymania du»ej liczby grup stosuje si¦ dalsze ich ª¡czenie w grupy wi¦ksze, tworz¡c struktur¦ drzewiast¡. Poj¦cia charakteryzuj¡ce du»e grupy (pnie) zawieraj¡ zbiory wektorów poj¦¢ grup, a te dopiero - zbiory obiektów.

Wyszukiwanie odpowiedzi polega na porównaniu pytania z

reprezentantami grup obiektów, a nast¦pnie wybraniu grup o wektorze najbardziej zbli»onym do pytania. Obiekty wyst¦puj¡ce w tych grupach stanowi¡ tzw. odpowied¹ przybli»on¡ na pytanie. Nast¦pnie dokonuje si¦

przegl¡du zupeªnego wybranych obiektów dla znalezienia odpowiedzi dokªadnej, tzn. obiektów, których opisy dokªadnie odpowiadaj¡ pytaniu (zawieraj¡ identyczne poj¦cia jak w pytaniu).

(4)

System SMART

Metoda Saltona zostaªa zaimplementowana w systemieSMART- wyszukiwanie dokumentów opisanych w j¦zyku angielskim.

SMART

SMART- automatyczny system wyszukiwania dokumentów zaprojektowany na Uniwersytecie Harvarda w latach 1961 - 1964.

System przyjmuje dokumenty i »¡dania usªug sformuªowane w j¦zyku naturalnym, dokonuje automatycznej analizy tekstów przy u»yciu jednej z kilkudziesi¦ciu metod analizy j¦zykowej, kojarzy przeanalizowane dokumenty z kwerendami i wyszukuje dla u»ytkownika te pozycje, które uzna za najbardziej odpowiadaj¡ce zgªoszonym kwerendom.

(5)

PROCES WYSZUKIWANIA

Proces wyszukiwania w systemie SMART mo»na podzieli¢ na 5 etapów:

1 wprowadzenie tekstu drukowanego

2 grupowanie dokumentów dla celów przeszukiwania (wi¡zanie w grupy)

3 wybranie grupy dokumentów do wyszukiwania

4 przeszukiwanie grupy dokumentów

5 ocena wyszukiwania.

(6)

Macierz termin - dokument

(7)

Algorytmy grupowania

Grupowanie obiektów w grupy mo»e odbywa¢ si¦ wieloma

metodami. Najcz¦±ciej stosowanymi s¡ metoda Rocchia i metoda Doyle'a.

algorytm Rocchia algorytm Doyle'a

Zarówno proces grupowania, jak i proces porównywania pytania z pniami czy wektorami poj¦¢ odbywa si¦ poprzez znajdowanie wspóªczynników korelacji (podobie«stwa) pomi¦dzy poj¦ciami wyst¦puj¡cymi w pytaniu lub poj¦ciami wyst¦puj¡cymi w wektorze poj¦¢ danej grupy.

(8)

Miary korelacji (podobie«stwa)

Wspóªczynnik korelacji to warto±¢ z przedziaªu<0, 1 >,1dla identycznych obiektów,0gdy obiekty nie s¡ do siebie w ogóle podobne. Im wi¦ksze podobie«stwo obiektów tym wy»szy wspóªczynnik korelacji.

p(d , q) = d ∩ q d ∪ q p(d , q) = d ∩ q a p(d , q) = d ∩ q

q

W systemie SMART Saltona istniej¡ dwiemiary korelacji:

korelacja cosinusowa

cos(d , q) =

Pn k=1di· qi

pPn

k=1(di)²·Pn k=1(qi)² korelacja nakªadania

ovlap(d , q) = Pn

k=1min(di, qi) min(Pⁿk=1di,Pn

k=1qi)

gdzie: d iqton-wymiarowe wektory terminów reprezentuj¡cych analizowan¡ kwerend¦qi analizowany dokumentd.

(9)

Korelacja nakªadania

Gdy mamy do dyspozycji wektory binarne, dobrze jest stosowa¢ miar¦

nakªadania, gdy» jest ona dedykowana wªa±nie takim typom danych. Przy wektorach wa»onych lepiej jest stosowa¢ metryk¦ kosinusow¡. Dla dwóch wektorów binarnych d1 i d2:

[0 1 1 1 0]

oraz

[1 0 1 1 0]

podobie«stwo mierzone miar¡ nakªadania b¦dzie nast¦puj¡ce:

ovlap(d₁, d₂) = min(0, 1) + min(1, 0) + min(1, 1) + min(1, 1) + min(0, 0) min{0 + 1 + 1 + 1 + 0, 1 + 0 + 1 + 1 + 0} =

2

min{3, 3} = 2 3=0, 67

(10)

Korelacja cosinusowa

Dla dwóch wektorów wa»onych d1 i d2:

[0 3 1 2 4]

oraz

[0 3 2 1 4]

podobie«stwo mierzone miar¡ kosinusow¡ b¦dzie nast¦puj¡ce:

cos(d₁, d₂) = 0 · 0 + 3 · 3 + 1 · 2 + 2 · 1 + 4 · 4

p(0²+3²+1²+2²+4²) · (0²+3²+2²+1²+4²) =

√ 29

30 · 30=29 30 =0, 96

Warto±¢ 0, 96 oznacza, »e dwa wektory s¡ niemal identyczne, co jest zgodne ze stanem faktycznym.

Dodajmy przy tym od razu, »e gdy w strukturze dokumentów sprowadzamy reprezentantów grup i pni do postaci wektorów staªej dªugo±ci (binarnych b¡d¹ wa»onych) to pytanie zadane do systemu musi przyj¡¢ t¦ sam¡ form¦.

Wówczas cechom wyst¦puj¡cym w pytaniu zadanym przez u»ytkownika przypisujemy odpowiednie wagi za± pozostaªym cechom wag¦ zerow¡.

(11)

Miary korelacji - przykªad

cos(Document2, Document3) =

1·0+0·0+1·1+0·0

√

(0²+1²+0²+1²)·(1²+0²+1²+0²) = ^√¹

2·1 = _1.41¹ =0.707 ovlap(Document2, Document3) = 0 + 0 + 1 + 0

min{2, 1} = 1 1 =1

(12)

Przykªadowe zadanie egzaminacyjne !

(13)

Podobie«stwo dokumentów tekstowych - przykªad

doc1: Mr. Trump became president after winning the political election. Though he lost the support of some republican friends, Trump is friends with President Putin.

doc2: President Trump says Putin had no political interference is the election outcome. He says it was a witchhunt by political parties. He claimed President Putin is a friend who had nothing to do with the election.

doc3: Post elections, Vladimir Putin became President of Russia.

President Putin had served as the Prime Minister earlier in his political career.

documents = [doc1, doc2, doc3]

(14)

Macierz termin - dokument

Macierz podobie«stwa mi¦dzy dokumentami

sim() doc1 doc2 doc3

doc1 1 0.48927489 0.37139068 doc2 0.48927489 1 0.38829014 doc3 0.37139068 0.38829014 1

(15)

Podobie«stwo obiektów w systemie SMART - korelacja cosinusowa

Podobie«stwo dokumentów tekstowych

Vijaymeena, M. K.; Kavitha, K. (March 2016). Survey on Similarity Measures in Text Mining". Machine Learning and Applications: An International Journal. 3 (1):

1928.aircconline.com/mlaij/V3N1/3116mlaij03.pdf

(16)

STRUKTURA KARTOTEKI

Rozwa»amy system informacyjnyS =< X , A, V , q >. Opisy obiektów pogrupowane s¡ w grupy X_i , gdzie i =1, . . . , m przy czym speªniony jest warunek: X =Sm

i =1Xi

Struktura kartoteki ma wi¦c form¦ drzewiast¡(hierarchi¦) w której dokumenty podobne do siebie ª¡czone s¡ w grupy, dla których tworzy reprezentantów (centroid b¡d¹ prol). Je±li grup tak utworzonych jest du»o, traktowane s¡ one jak dokumenty i ponownie grupowane w grupy a kolejnym poziomie hierarchii (pnie).

C1 C2 ... Cn

X1

C^’1 ... C^’n Cⁿ1 ... Cⁿn

pień grupy

centroidy

obiekty

X ... X2 n1 X1 X2 X_n2 ... X1 X ... X2 nn

(17)

Centroid a prol

Ka»da grupaXi poprzedzona jest identykatorem grupy, który jest nazywanyCENTROIDEM(C_i ) lubPROFILEM (P_i):

X_i = (C_i, {t_x_i}). Centroid - denicja

Centroid - C_i to wektor poj¦¢ opisuj¡cych dokumenty danej grupy.

Stosowany do opisu grupy w algorytmie Rocchio'a.

Prol - denicja

Prol -P_i to wektor warto±ci pozycyjnych poj¦¢ opisuj¡cych dokumenty danej grupy. Stosowany do opisu grupy w algorytmie Doyle'a. Prol jest odpowiednikiem centroidu.

(18)

Reprezentant grupy w metodzie Rocchio'a

Ka»da grupaXi poprzedzona jest identykatorem grupy, który jest nazywany centroidem (C_i ).

Xi = (Ci, {txi})

Przy grupowaniu metod¡ Rocchia wybieramy obiekt stanowi¡cy tzw. centrum grupy, liczymy wspóªczynniki podobie«stwa ka»dego obiektu z centrum grupy, wybieramy minimalny zbiór opisów obiektów{t_x_i}_min o najwy»szym wspóªczynniku podobie«stwa z centrum grupy. Centroid tworzymy jako zbiór poj¦¢

(deskryptorów) wyst¦puj¡cych w wybranym zbiorze{t_x_i}_min dokumentów:

C_i = Y

i

d_i ∈ D, d_i ∈ {t_x_i}_min

!

gdzie: D - zbiór deskryptorów systemu S .

(19)

Algorytm Rocchio'a

I iteracja

dla potencjalnego centrium grupy II iteracja

dla centroidu

(20)

I iteracja

1 Ustalenie parametrów:p₁, p₂, n₁, n₂- dla centrum grupy,p₁_p, p₂_p, n₁_p, n₂_p- dla centroidu.

2 Wybranie potencjalnego centrum grupy:x_c.

3 Przeprowadzamy test g¦sto±ci dla centrum grupyxc,(co najmniejn₁dokumentów ma wspóªczynnik korelacji≥ p₁, an₂dokumentów≥ p₂). W tym celu obliczamy wspóªczynniki korelacji dokumentów z potencjalnym centrum grupy.

Je»eli zaªo»enia nie s¡ speªnione to konieczny jest wybór innego potencjalnego centrum grupy lub zmiana parametrów tesktu g¦sto±ci (punkt 3).

Je±li potencjalne centrum grupy przeszªo test g¦sto±ci: przechodzimy do punktu 4 Okre±lamy rang¦ dokumentów.5.

5 Wyznaczamym₁(ile dokumentów ma korelacj¦ zx_c≥ p₂),m₂(ile dokumentów ma korelacj¦ zxc≥ p₁).

Je±lim₁= m₂to Pmin równa si¦ najmniejszemu wspóªczynnikowi korelacji obiektu nale»¡cego dom₁,przechodzimy do punktu 11.

Je±lim₁6= m2to:

Obliczamy ró»nic¦ pomi¦dzy wspóªczynnikami korelacji obiektów s¡siednich w grupie maksymalnejm₂, bez obiektów grupy minimalnejm₁. Okre±lamy najwi¦ksz¡ ró»nic¦.

Minimalny wspóªczynnik korelacjipminjest równy odjemnej z najwi¦kszej ró»nicy. Je±li najwi¦ksza ró»nica powtarza si¦ to zap_minprzyjmujemy odjemn¡ o wi¦kszej warto±ci.

6 Tworzymy wst¦pn¡ grup¦ do której nale»¡ elementy o wspóªczynniku korelacji wi¦kszym b¡d¹ równymp_min.

7 Tworzymy wektor centroidalny (centroid), który stanowi sum¦ opisów obiektów nale»¡cych do grupy wst¦pnej.

(21)

II-ga iteracja algorytmu - dla tworzenia tzw. grupy poprawionej

. 1 Przeprowadzamy test g¦sto±ci dla centroidu, (co najmniejn₁pdokumentów ma wspóªczynnik korelacji≥ p₁_p, an₂_pdokumentów≥ p₂_p).

2 Obliczamy wspóªczynniki korelacji dokumentów z centroidem.

3 Okre±lamy rang¦ dokumentów.

4 Wyznaczamym₁p(ile dokumentów ma korelacj¦ z centroidem≥ p₂p), dlam₂p

odpowiednio: ≥ p₁p.

Je±lim₁_p= m₂_ptop_minrówna si¦ najmniejszemu wspóªczynnikowi korelacji obiektu nale»¡cego dom₁_p, przechodzimy do punktu 5.

Je±lim₁p6= m₂pto:

Obliczamy ró»nic¦ pomi¦dzy wspóªczynnikami korelacji obiektów s¡siednich w grupie maksymalnejm₂_p, bez obiektów grupy minimalnej m₁_p.

Okre±lamy najwi¦ksz¡ ró»nic¦.

Minimalny wspóªczynnik korelacjipminjest równy odjemnej z najwi¦kszej ró»nicy. Je±li najwi¦ksza ró»nica powtarza si¦ to zapminprzyjmujemy odjemn¡ o wi¦kszej warto±ci.

5 Tworzymy grup¦ poprawion¡ do której nale»¡ elementy o wspóªczynniku korelacji wi¦kszym b¡d¹ równymp_min.

6 Tworzymy wektor centroidalny, który stanowi sum¦ opisów obiektów nale»¡cych do grupy poprawionej.

7 Obiekty nie nale»¡ce do grupy poprawionej (swobodne),traktujemy jako wej±ciowe opisy obiektów i przechodzimy do punktu 3.

(22)

Przykªad

Wykorzystuj¡c opis (poni»ej) algorytmu Rocchia przeprowad¹ grupowanie 10 obiektów o nast¦puj¡cych opisach:

tx₁ = a1 b1 c1 d1 e1 t_x₂ = a1 b1 c1 d1 e2 tx₃ = a1 b1 c2 d1 e3 tx₄ = a1 b1 c3 d1 e1 t_x₅ = a1 b1 c1 d1 e3 tx₆ = a2 b1 c2 d1 e2 tx₇ = a2 b1 c3 d1 e3 t_x₈ = a2 b2 c3 d3 e3 tx₉ = a3 b3 c2 d2 e2 tx₁₀ = a3 b3 c2 d3 e2

(23)

I iteracja

Dla podanego wy»ej zbioru obiektów dane s¡ nast¦puj¡ce parametry:

a) Dla centrum grupy: n1 =5, n2 =3, p1=0, 2, p2=0, 3 b) Dla centroidu: n_1c =5, n_2c =3, p_1c =0, 25, p_2c =0, 35 Wybór potencjalnego centrum grupy xc

Jako potencjalne centrum grupy 1 przyjmij obiekt x₁. Wybór miary podobie«stwa (korelacji) ka»dego dokumentu z centrum grupy xc

p(x_c, x_i) = x_c∩ x_i x_c∪ x_i

Przeprowadzamy test g¦sto±ci dla centrum grupy (xc). Test ten mówi, »e co najmniej n₁ dokumentów ma wspóªczynnik wi¦kszy b¡d¹ równy od p₁, a n₂ dokumentów ma wspóªczynnik wi¦kszy b¡d¹ równy p2.

(24)

W tym celu obliczamy wspóªczynniki korelacji (podobie«stwa ka»dego dokumentu (xi) z wybranym centrum grupy xc) stosuj¡c wybran¡ wcze±niej miar¦ korelacji.

Gdy mamy 10 dokumentów w systemie to po kolei dla ka»dego dokumentu wyliczamy taki wspóªczynnik:

p(x₁, xc) =?

...

p(x₁₀, x_c) =?

W liczniku podajemy liczb¦ poj¦¢ wspólnym danego dokumentu z centrum grupy xc W mianowniku podajemy sum¦ poj¦¢, którymi s¡

opisane obydwa dokumenty: dany dokument xi i dokument stanowi¡cy centrum grupy.

(25)

Aby obliczy¢ wspóªczynnik korelacji obiektu 1 z centrum grupy który jest jednocze±nie obiektem 1 wykonujemy nast¦puj¡ce czynno±ci.

x₁ = a1 b1 c1 d1 e1 x_c = a1 b1 c1 d1 e1

Liczba poj¦¢ wspólnych = 5, bo s¡ to poj¦cia: (a1, b1, c1, d1, e1) Suma wszystkich poj¦¢ = 5, bo s¡ to poj¦cia: (a1, b1, c1, d1, e1) p(x_c, x₁) =5/5 = 1.0

p(x_c, x₂) =4/6 = 0.67 p(xc, x₃) =3/7 = 0.43 p(x_c, x₄) =4/6 = 0.67 p(x_c, x₅) =4/6 = 0.67 p(xc, x₆) =2/8 = 0.25 p(x_c, x₇) =2/8 = 0.25 p(x_c, x₈) =0/10 = 0 p(xc, x₉) =0/10 = 0 p(x_c, x₁₀) =0/10 = 0

(26)

Okre±lamy rang¦ dokumentów, czyli porz¡dkujemy dokumenty malej¡co wedªug obliczonych w kroku 5 wspóªczynników korelacji i nadajemy tak uªo»onym warto±ciom rangi od 1 do n.

Ranga 1: p(x₁, x_c) =1.0 Ranga 2: p(x₂, xc) =0.67 Ranga 3: p(x4, xc) =0.67 Ranga 4: p(x₅, x_c) =0.67 Ranga 5: p(x₃, xc) =0.43 Ranga 6: p(x6, xc) =0.25 Ranga 7: p(x₇, x_c) =0.25 Ranga 8: p(x₈, xc) =0.0 Ranga 9: p(x9, xc) =0.0 Ranga 10: p(x₁₀, x_c) =0.0

(27)

Przeprowadzamy test g¦sto±ci czyli sprawdzamy, czy na pewno:

n₁ dokumentów ma p >= p₁ i n₂ dokumentów ma wspóªczynnik p >= p₂ Je±li tak to znaczy, »e wybrane centrum grupy przeszedª test g¦sto±ci.

Je»eli zaªo»enia nie s¡ speªnione: wybieramy inny obiekt jako centrum grupy (xc).

Je»eli zaªo»enia s¡ speªnione: przechodzimy do punktu 5.

(28)

Obliczamy faktyczne rozmiary grupy. Wyznaczamy m1 (liczebno±¢ zbioru obiektów dla których elementy s¡ wi¦ksze b¡d¹ równe p2), m2 (liczebno±¢

zbioru obiektów dla których elementy s¡ wi¦ksze b¡d¹ równe p1).

m₁=5 za± m2=7 Obliczamy minimalny wspóªczynnik korelacji pmin: Je±li m1= m₂to:

to pminrówna si¦ najmniejszemu wspóªczynnikowi korelacji obiektu nale»¡cego do m1

Je±li m1< m₂to:

Obliczamy ró»nic¦ pomi¦dzy wspóªczynnikami korelacji obiektów s¡siednich w grupie maksymalnej m2,bez obiektów grupy minimalnej m1. Wybieramy najwi¦ksz¡ ró»nic¦ i obliczamy minimalny wspóªczynnik korelacji pminjako odjemn¡ z tej najwi¦kszej ró»nicy.

Je±li najwi¦ksza ró»nica powtarza si¦ to za pmin przyjmujemy odjemn¡ o wi¦kszej warto±ci.

W naszym przypadku: m1=5 a m2=7, zatem s¡ to ró»ne warto±ci, wi¦c, aby obliczy¢ wspóªczynnik korelacji pmin obliczamy ró»nic¦ mi¦dzy dokumentami na granicy tych grup.

5 ró»nica z 6: 0,43 0,25 = 0, 18 6 ró»nica z 7: 0,25 0,25 = 0 7 ró»nica z 8: 0,25 0 = 0,25

Minimalny wspóªczynnik korelacji pmin jest równy odjemnej z najwi¦kszej ró»nicy.

pmin= p₇(x₇) =0, 25

(29)

Wyznaczamy grup¦ wst¦pn¡ X

1w

:

Do grupy wst¦pnej b¦d¡ nale»aªy wszystkie te dokumenty, które miaªy wyliczony wspóªczynnik korelacji wi¦kszy lub równy pmin. S¡ to wszystkie obiekty grupy maksymalnej m₂:

x₁, x₂, x₃, x₄, x₅, x₆ i x7.

Wyznaczamy wst¦pnego reprezentanta grupy X₁ czyli centroid.

Centroid to zbiór wszystkich poj¦¢, którymi s¡ opisane dokumenty grupy minimalnej m1: Cw₁ = {a1, b1, c1, c2, c3, d1, e1, e2, e3}

(30)

DRUGA ITERACJA

Generujemy grup¦ poprawion¡:

W tym celu powtarzamy raz jeszcze caªy algorytm, z tym,

»e teraz centrum grupy stanowi teraz CENTROID C₁. Ustalenie parametrów testu g¦sto±ci dla centroidu:

p_1c =0, 25 ;p_2c =0, 35 ;n_1c =5 ;n_2c =3

(31)

Test g¦sto±ci dla centroidu:

W tym celu obliczamy wspóªczynniki korelacji (podobie«stwa) dokumentów grupy maksymalnej m2z centroidem C1.

P(x₁, C₁) =5/9 = 0.55 P(x₂, C₁) =5/9 = 0.55 P(x₃, C₁) =5/9 = 0.55 P(x₄, C₁) =5/9 = 0.55 P(x₅, C₁) =5/9 = 0.55 P(x₆, C₁) =4/10 = 0.4 P(x₇, C₁) =4/10 = 0.4 Okre±lamy rang¦ dokumentów:

Ranga1 p(x1, C₁) =0.55 Ranga2 p(x2, C₁) =0.55 Ranga3 p(x4, C₁) =0.55 Ranga4 p(x5, C₁) =0.55 Ranga5 p(x3, C₁) =0.55 Ranga6 p(x6, C₁) =0.4 Ranga7 p(x7, C₁) =0.4

(32)

Sprawdzamy, czy na pewno: n1c dokumentów ma p >= p1c i n2c dokumentów ma wspóªczynnik p >= p2c

Je±li tak to znaczy, »e wybrane centrum grupy przeszedª test g¦sto±ci. Je±li nie to zmieniamy parametry testu g¦sto±ci dla centroidu, b¡d¹ zaczynamy caªy algorytm od nowa ª¡cznie z wyborem nowego potencjalnego centrum grupy xc. Obliczamy faktyczne rozmiary grupy poprawionej:

Wyznaczamy m1 (liczebno±¢ zbioru obiektów dla których elementy s¡ wi¦ksze b¡d¹ równe p2), m2(liczebno±¢ zbioru obiektów dla których elementy s¡

wi¦ksze b¡d¹ równe P1). Je±li m1= m₂ to: pminrówna si¦ najmniejszemu wspóªczynnikowi korelacji obiektu nale»¡cego do m1czyli pmin= p₇(x₇) =0, 4 m₁= m₂=7 Wyznaczamy grup¦ poprawion¡ X1

Do tej grupy b¦d¡ nale»aªy wszystkie te dokumenty, które miaªy wyliczony wspóªczynnik korelacji wi¦kszy lub równy pmin.

S¡ to wszystkie obiekty grupy maksymalnej m2:

X₁= {x₁, x₂, x₃, x₄, x₅, x₆, x₇}Wyznaczamy reprezentanta grupy X1 czyli centroid

Centroid to zbiór wszystkich poj¦¢, którymi s¡ opisane wszystkie dokumenty grupy X1, czyli...

C₁= {a1, a2, b1, c1, c2, c3, d1, e1, e2, e3}

(33)

Wyniki

Powstaªa grupa:

X₁ = {x₁, x₂, x₃, x₄, x₅, x₆, x₇} Na jej czele stoi centroid

C₁ = {a1, a2, b1, c1, c2, c3, d1, e1, e2, e3}

Z dokumentów pozostaªych X \X₁ = {x₈, x₉, x₁₀} powinni±my tworzy¢ kolejne grupy.

Uwaga ! Ustalone na pocz¡tku parametry testu g¦sto±ci nie pozwol¡ utworzy¢ nast¦pnych grup, gdy» test g¦sto±ci wymaga by grupa maksymalna liczyªa co najmniej n₂ =5 dokumentów.

Nam zostaªy ju» tylko 3 dokumenty. Zatem na tym ko«czy si¦

algorytm.

(34)

Algorytm Doyle'a

Zakªadamy nast¦puj¡ce warto±ci:

m- liczba grup T- warto±¢ progowa

α- wspóªczynnik skaluj¡cy z przedziaªu -<0, 1 >

1 Dokonujemy wst¦pnego podziaªu zbioru dokumentów namgrup 2 dla ka»dej grupy wyznaczamy:

WektorS_j- wektor dokumentów

WektorC_j- wektor poj¦¢ wyst¦puj¡cych wj-tej grupie WektorFj- wektor cz¦sto±ci wyst¦powania poj¦¢

WektorRj- wektor rang przyporz¡dkowanych poj¦ciom grupy

WektorPj- wektor warto±ci pozycyjnych (PROFIL) gdzie:pi= (b − ri)wcze±niej wyznaczamy warto±¢ bazow¡b.

3 dla ka»degodiwyliczamy warto±¢ funkcji punktuj¡cejg (di, Pj)w ka»dej grupie zawieraj¡cej wszystkie poj¦cia opisuj¡ce obiektd_i.

wybieramy warto±¢ maksymaln¡ !!!

4 Na podstawie wyznaczonych warto±ci funkcji punktuj¡cej dokonaj wst¦pnego podziaªu dokumentów do grup tak, »e:

S_j= {d_i: g (d_i, P_j) ≥ Tj } T_j=

T dla Hj≤ T

H_j− α(Hj− T ) dla Hj> T Gdzie:H_j=max(g(di, P_j))

z reguªy powstajem +1grup (bomgrup + grupa dokumentów swobodnych) 5 Je±li podziaª wi +1-ej iteracji jest identyczny jak wi-tej to KONIEC algorytmu.

REZULTAT:m- grup dokumentów (na czele ka»dej grupy stoi PROFIL) i ewentualnie grupa dokumentów swobodnych (L).

(35)

Przykªad algorytmu Doyle'a

Dla podanego zbioru obiektów przeprowad¹ jedn¡ iteracj¦

grupowania algorytmem Doyle'a przy zaªo»eniach: liczba grup wynosi m = 3, wspóªczynnik α = 0, 5.

t_x₁ =(Pª,K)(TY,DR)(SP,5)(OZ,c) t_x₂ =(Pª,M)(TY,PR)(SP,2)(OZ,b) tx₃ =(Pª,M)(TY,MGR)(SP,5)(OZ,c) t_x₄ =(Pª,M)(TY,MGR)(SP,2)(OZ,a) t_x₅ =(Pª,M)(TY,PR)(SP,12)(OZ,d) tx₆ =(Pª,M)(TY,DR)(SP,5)(OZ,b) t_x₇ =(Pª,K)(TY,DR)(SP,2)(OZ,b) t_x₈ =(Pª,M)(TY,MGR)(SP,12)(OZ,c) tx₉ =(Pª,M)(TY,PR)(SP,5)(OZ,d) t_x₁₀ =(Pª,K)(TY,PR)(SP,2)(OZ,d)

(36)

I ITERACJA

Tworzymy wektory opisuj¡ce ka»d¡ grup¦:

X₁ C₁ F₁ R₁ P₁ X₂ C₂ F₂ R₂ P₂ X₃ C₃ F₃ R₃ P₃

x1 k 1 3 8 x5 M 2 1 10 x8 M 2 1 10

x2 M 3 1 10 x6 K 1 2 9 x9 K 1 2 9

x3 DR 1 3 8 x7 PR 1 2 9 x10 MGR 1 2 9

x4 PR 1 3 8 DR 2 1 10 PR 2 1 10

MGR 2 2 9 12 1 2 9 2 1 2 9

2 2 2 9 2 2 1 10 5 1 2 9

5 2 2 9 b 2 1 10 12 1 2 9

a 1 3 8 d 1 2 9 c 1 2 9

b 1 3 8 d 2 1 10

c 2 2 9

(37)

Obliczamy warto±¢ funkcji punktuj¡cej g(di, P_j) dla ka»dego dokumentu di i prolu Pj:

g (xi, Pj) P₁ P₂ P₃

x₁ 34 - -

x₂ 35 39 -

x₃ 37 - 37

x₄ 36 - -

x₅ - 37 39

x₆ 35 40 -

x₇ 33 39 -

x₈ - - 37

x₉ - - 39

x₁₀ - 37 38

(38)

Warto±¢ progowa T

Dla ka»dej grupy ustalamy warto±¢ progow¡ Tj, któr¡ musz¡

speªni¢ dokumenty aby wej±¢ do danej grupy. Warto±¢ progow¡

obliczamy wg jednego z poni»szych wzorów:

T = ^{min(g (d}ⁱ^,P^j))+max (g (di,Pj))

2 =37,

T = g (d_i, P_j) =36, 5.

Przyjmijmy wi¦c, »e T = 37.

(39)

Nowy podziaª na grupy ustalamy zgodnie ze wzorem podanym poni»ej. Do nowych grup b¦d¡ nale»e¢ obiekty, których warto±ci funkcji punktuj¡cej b¦d¡ ≥ Tj, czyli wi¦ksze b¡d¹ równe od warto±ci progowej j-tej grupy.

T_j =

T dla Hj ≤ T

H_j − α(H_j − T ) dla Hj > T Gdzie: Hj =max(g(di, P_j))

Wyznaczamy maksymaln¡ warto±¢ funkcji punktuj¡cej j-tej grupy:

Hj =max(g(di, Pj)) H₁ =37, H2 =40, H3 =39

Nast¦pnie warto±ci progowe danych grup (Tj), przy zaªo»eniu, »e α =0.5.

T₁= H₁− α(H₁− T ) =37

T₂= H₂− α(H₂− T ) =40 − 0, 5 ∗ (40 − 37) = 38, 5 T₃= H₃− α(H₃− T ) =39 − 0, 5 ∗ (39 − 37) = 38

(40)

OTRZYMANE GRUPY:

Porównuj¡c warto±ci funkcji punktuj¡cej z warto±ciami progowymi wedªug wzoru

Sj = {di : g (di, Pj) ≥ Tj }

otrzymujemy nowe grupy których jest m + 1 poniewa» tworzy si¦

jeszcze jedna grupa, grupa obiektów swobodnych (niesklasykowanych).

X₁= {x₃} X₂= {x₂, x₆, x₇} X₃= {x₅, x₉, x₁₀} Grupa obiektów swobodnych: L = {x1, x₄, x₈}

(41)

α - wspóªczynnik skaluj¡cy

α =0

T₁= H₁− α(H₁− T ) =37, T2= H₂− α(H₂− T ) =40 − 0 ∗ (40 − 37) = 40, T₃= H₃− α(H₃− T ) =39 − 0 ∗ (39 − 37) = 39

X₁= {x₃}, X2= {x₆}, X3= {x₅, x₉}, Grupa obiektów swobodnych:

L = {x₁, x₂, x₄, x₇, x₈, x₁₀}

α =0.5

T₁= H₁− α(H₁− T ) =37, T2= H₂− α(H₂− T ) =40 − 0 ∗ (40 − 37) = 40 , T₃= H₃− α(H₃− T ) =39 − 0 ∗ (39 − 37) = 39

X₁= {x₃}, X2= {x₂, x₆, x₇}, X3= {x₅, x₉, x₁₀}, Grupa obiektów swobodnych:

L = {x₁, x₄, x₈}

α =1

T₁= H₁− α(H₁− T ) =37, T2= H₂− α(H₂− T ) =40 − 1 ∗ (40 − 37) = 37, T₃= H₃− α(H₃− T ) =39 − 1 ∗ (39 − 37) = 37

X₁= {x₃}, X2= {x₂, x₆, x₇}, X3= {x₅, x₈, x₉, x₁₀}, Grupa obiektów swobodnych:

L = {x₁, x₄}

(42)

II ITERACJA

Aby wykona¢ kolejn¡ iteracj¦ algorytmu przyporz¡dkujemy obiekty swobodne do grup ale innych ni» wyst¦powaªy w poprzedniej iteracji, wtedy otrzymujemy nowy podziaª grup. Caªa operacja kolejnych iteracji si¦ ko«czy, kiedy otrzymujemy po raz kolejny ten sam podziaª.

Tworzymy wektory opisuj¡ce ka»d¡ grup¦:

X1 C1 F1 R1 P1 X2 C2 F2 R2 P2 X3 C3 F3 R3 P3

(43)

Obliczamy warto±¢ funkcji punktuj¡cej g(di, Pj)dla ka»dego dokumentu dii prolu Pj: g (xi , Pj ) P1 P2 P3

x1x2 x3x4 x5x6 x7x8 x10x9

Warto±c progowa: T =min(g (di ,Pj ))+max (g (di ,Pj ))

2 =

H₁=, H2=,H3= Warto±ci progowe grup:

T₁= T₂= T₃=

OTRZYMANE GRUPY:

X₁= {}

X₂= {}

,X3= {}

, oraz grupa obiektów swobodnych:.L = {}

(44)

Wyszukiwanie

Pytanie do systemu zadajemy w postaci termu t b¦d¡cego sum¡ termów skªadowych. Odpowied¹ na pytanie b¦dzie sum¡

odpowiedzi na termy skªadowe.

Proces znajdowania odpowiedzi na term skªadowy tj:

Porównujemy term skªadowy z centroidami grup i znajdujemy odpowied¹ przybli»on¡ Xj.

σ(t_j) ≈ X_j = {X_i⊆ X , t_j ≤ C_i}, gdzie: Xi= (C_i, {t_x_i}).

Odpowied¹ dokªadn¡ znajdujemy metod¡ przegl¡du zupeªnego obiektów wybranych grup:

σ(tj) = {xi ∈ Xj, tj≤ tx_i}.

(45)

Wyszukiwanie w systemie SMART Saltona

Wyszukiwanie informacji wedªug Saltona opiera si¦ na badaniu podobie«stwa (b¡d¹ korelacji) dokumentów z pytaniemq zadanym przez u»ytkownika. Stosuj¡c dowoln¡ miar¦ podobie«stwa b¡d¹ korelacji znajdujemy dokumenty o odpowiednio wysokim stopniu podobie«stwa i uznajemy je za relewantne wzgl¦dem pytaniaq . Dokument relewantny

Dokumentd jest relewantny wzgl¦dem pytaniaq wtedy i tylko wtedy gdy w opisie dokumentud wyst¦puj¡ wszystkie

niezaprzeczone deskryptory pytaniaq i w opisie tym nie wyst¦puje

»aden z deskryptorów zaprzeczonych pytaniem.

(46)

W tradycyjnych systemach nie realizuje si¦ ju» peªnego przeszukiwania dost¦pnych zbiorów dokumentów, ale s¡ one dzielone na pewne grupy, co pozwala ograniczy¢ przeszukiwanie do kilku z nich. Ta sama procedura mo»e by¢ równie» stosowana w automatycznym systemie - przez tworzenie grup zwi¡zanych dokumentów i wyszukiwania jedynie w ramach pewnych grup.

Przykªad takiej metody:

porównuj¡c pewne parametry wybranego dokumentu z odpowiednimi parametrami pozostaªych dokumentów, dokonuje si¦ wyboru i grupowania tych dokumentów, których parametry s¡ dostatecznie podobne.

Dla ka»dej utworzonej grupy wybiera si¦ pewien element reprezentatywny, zwany wektorem centroidalnym. Jest on po¹niej u»ywany do

reprezentowania caªego zbioru dokumentów tej grupy.

Wyszukiwanie przebiega w 2 etapach: pytanie porównuje si¦ z

reprezentantami wszystkich grup dokumentów, w drugim przeszukiwanie wszystkich dokumentów z grup o du»ym stopniu podobie«stwa z reprezentantem.

(47)

Metody wyszukiwania w metodzie Saltona

W zale»no±ci od tego, czy dysponujemy utworzon¡ wcze±niej struktur¡ grup dokumentów z ich reprezentantami (centroidem b¡d¹ prolem w zale»no±ci od tego jaki algorytm grupowania zostaª zastosowany) czy te» nie, wyszukiwanie informacji w metodzie Saltona realizowane jest wedªug jednej z podanych metod:

sekwencyjna- peªna (ang. full search), strukturalna (ang. tree search).

(48)

Metoda sekwencyjna

Metoda sekwencyjnanie bazuje na klasykacji dokumentów w grupy. Pytanie kierowane do systemu jest korelowane z ka»dym dokumentem oraz obliczany jest wspóªczynnik korelacji

(podobie«stwa) pytania z ka»dym dokumentem. Jako odpowied¹ system wybiera te dokumenty, dla których ów wspóªczynnik jest wi¦kszy od zaªo»onej warto±ci progowej (pmin). Metoda dokonuje przegl¡du zupeªnego wszystkich dokumentów, jest zatem

czasochªonna. Inn¡ jej wad¡ jest fakt, »e zªe dobranie warto±ci progowej (pmin ) mo»e negatywnie wpªyn¡¢ na efekty wyszukiwania.

Im mniejszy wspóªczynnik progowyp_min , tym wi¦cej dokumentów uznana b¦dzie za odpowied¹ na pytanie. Im jego warto±¢ b¦dzie wy»sza, tym mniej dokumentów speªni warunek wymagany (czyli warto±¢ podobie«stwa≥ p_min).

(49)

Wyszukiwanie strukturalne

Po powi¡zaniu dokumentów w zbiorze wyj±ciowym przeprowadza si¦

dwuetapow¡ operacj¦ wyszukiwania:

Pytanie najpierw porównuje si¦ z reprezentantami wszystkich grup.

Nast¦pnie pytanie jest porównywane z dokumentami z grup o najwy»szym wspóªczynniku korelacji, lub alternatywnie, z dokumentami z wszystkich grup takich, »e wspóªczynnik korelacji ich reprezentanta z pytaniem przekracza zadany próg.

(50)

Metoda strukturalna

Metoda strukturalnajest ±ci±le zwi¡zana ze struktur¡ bazy danych (struktur¡ pni i grup) i mo»e by¢ realizowana jedn¡ z trzech technik:

metod¡ pnia najbardziej obiecuj¡cego,

metod¡ porównywania pni (nazywan¡ te» metod¡ z nawrotami),

metod¡ minimalnej warto±ci progowej.

Idea metody jest nast¦puj¡ca. Obliczamy wspóªczynnik korelacji pytania z pniami i wybieramy pie« (lub pnie) najbardziej obiecuj¡cy, czyli ten o najwy»szym wspóªczynniku korelacji b¡d¹ korelacji wi¦kszej ni» pewna warto±¢ progowa. Wszystko zale»y od tego jak¡

technik¦ z tych wy»ej wymienionych wybrali±my.

(51)

Metoda pnia najbardziej obiecuj¡cego

Metodapnia najbardziej obiecuj¡cegojest zdecydowanie najbardziej popularna i najszybsza. Na ka»dym etapie wyznaczania korelacji pytania z reprezentantami grup b¡d¹ pni wybieramy tylko pie«

(b¡d¹ grup¦) najbardziej obiecuj¡cy, nawet je±li inny pie« czy grupa miaªy korelacj¦ tylko nieznacznie mniejsz¡. Oznacza to, »e

odpowied¹ systemu mo»e nie by¢ kompletna, bowiem mo»emy pomin¡¢ dokumenty stanowi¡ce odpowied¹ na pytanie tylko dlatego, »e nale»aªy do grupy o mniejszym ni» najwy»szy mo»liwy wspóªczynnik korelacji.

(52)

Metoda porównywania pni

Metodaporównywania pnipozwala zawsze werykowa¢ ju» na poziomie grup czy który± z pomini¦tych pni nie powinien by¢ jednak uj¦ty w dalszym przegl¡dzie. Zdarzy si¦ tak w sytuacji, gdy na poziomie pni wybrali±my ten o najwy»szym podobie«stwie z pytaniem jednak na poziomie grup wspóªczynnik korelacji z pytaniem b¦dzie mniejszy ni» dla którego± z pomini¦tych pni.

Wówczas wracamy do tak pomini¦tego pnia i sprawdzamy korelacj¦

pytania z wszystkimi grupami w ramach tego pnia. Ostatecznie jako odpowied¹ wybieramy wszystkie grupy o najwy»szym wspóªczynniku korelacji. Mo»na zauwa»y¢, »e metoda (w przypadku realizacji nawrotów) pochªania wi¦cej czasu. Jej zalet¡ jest jednak fakt, »e w szczególnym przypadku mo»e zwi¦kszy¢ kompletno±¢ odpowiedzi.

(53)

Metoda minimalnej warto±ci progowej p

^min

Metodaminimalnej warto±ci progowej p_minpozwala u»ytkownikowi decydowa¢ o efektywno±ci systemu. Na poziomie pni i grup wyznaczana jest korelacja pytania z reprezentantami i do dalszej analizy wybierane s¡ tylko te pnie czy grupy, dla których

wspóªczynnik korelacji byª nie mniejszy ni» zaªo»ona warto±¢

progowa. To u»ytkownik okre±la warto±¢pmin. Mo»e si¦ wi¦c zdarzy¢, »e warto±¢ podana w ten sposób b¦dzie albo za du»a albo za maªa. Za maªa sprawi, »e do odpowiedzi systemu zaliczone b¦d¡

tak»e dokumenty, które nie s¡ tak naprawd¦ relewantne wzgl¦dem pytania. Za du»a warto±¢p_min z kolei mo»e doprowadzi¢ do sytuacji, w której »aden z pni czy grup nie speªni wymaganej warto±ci minimalnej i u»ytkownikowi zostanie zwrócony pusty zbiór jako odpowied¹, podczas gdy tak naprawd¦ w systemie istniaªy dokumenty stanowi¡ce odpowied¹ na zadane pytanie. Konieczno±¢

ustalenia warto±ci progowej przez u»ytkownika mo»e by¢ wi¦c istotn¡ wad¡ tej metody. Oczywi±cie niska warto±¢p_min przekªada si¦ tak»e na wydªu»enie czasu przeszukiwania.

(54)

Przykªad wyszukiwania strukturalnego

Maj¡c reprezentacj¦ pni i grup:

poziom pni:

P1=[0, 10, 11, 2, 7, 3, 4, 0, 1, 0]

P2=[10, 0, 0, 9, 2, 11, 2, 10, 7, 0]

P3=[1, 0, 1, 12, 10, 3, 10, 4, 6, 11]

poziom grup:

G11=[0, 6, 7, 2, 3, 4, 0, 1, 3, 2]

G12=[1, 8, 9, 1, 4, 0, 2, 3, 2, 2, 1]

G21=[0, 1, 3, 12, 1, 6, 0, 9, 10, 1]

G22=[1, 3, 2, 6, 2, 5, 0, 10, 9, 3]

G31=[1, 0, 3, 9, 10, 0, 12, 2, 4, 0]

G32=[2, 1, 3, 10, 8, 1, 13, 1, 2, 1]

G33=[3, 4, 2, 11, 7, 0, 12, 2, 1, 3]

Chcemy omówi¢ sposób wyszukiwania dla pytania:

q = [5, 3, 0, 10, 6, 1, 13, 2, 0, 1]

(55)

Wykorzystamy odpowiedni wzór

na korelacj¦ (f. podobie«stwa) w omawianym procesie wyszukiwania.

(56)

Metoda pnia najbardziej obiecuj¡cego

Idea: porównujemy pytanie q z reprezentantami pni (P1,P2 i P3) i wybieramy pie« najbardziej obiecuj¡cy, czyli ten o najwy»szym wspóªczynniku korelacji z pytaniem q. Podstawiaj¡c do wzoru, warto±ci dla poszczególnych pni, uzyskujemy:

ovlap(q, P1) = 0+3+0+2+6+1+4+0+0+0

min{38,41} = ¹⁶₃₈ =0.42 ovlap(q, P2) = 5+0+0+9+2+1+2+2+0+0

min{51,41} = ²¹₄₁ =0.51 ovlap(q, P3) = 1+0+0+10+6+1+10+2+0+1

min{58,41} = ³¹₄₁ =0.76

Wyniki wskazuj¡, »e najbardziej obiecuj¡cy jest pie« P3, dlatego te»

nast¦pnie nale»y obliczy¢ podobie«stwo z grupami tego pnia.

ovlap(q, G31) = 1+0+0+9+6+0+12+2+0+0

min{41,41} = ³⁰₄₁ =0.73 ovlap(q, G32) = 2+1+0+10+6+1+13+1+0+1

min(42,41} = ³⁵₄₁ =0.85 ovlap(q, G33) = 3+3+0+10+6+0+12+2+0+1

min(45,41} = ³⁷₄₁ =0.90 Z tego wynika, »e najbardziej odpowiadaj¡c¡ grup¡ jest G33 i dokumenty zawarte w tej grupie zwrócone b¦d¡ u»ytkownikowi do dalszego przeszukiwania.

(57)

(58)

Metoda porównywania pni

Idea: podobna do metody pnia najbardziej obiecuj¡cego. Metoda jednak po wyborze w 1 kroku pnia najbardziej obiecuj¡cego i wyznaczaniu stopnia korelacji pytania Q z reprezentantami grup w wybranym pniu korelacja ta b¦dzie porównana z warto±ci korelacji pytania z pomini¦tymi pniami. Je±li który± z pomini¦tych pni miaªby korelacj¦ wi¦ksz¡ ni» aktualnie analizowane grupy, wrócimy do pomini¦tego pnia i wyznaczymy korelacj¦ jego grup z pytaniem.

Ostatecznie odpowiedzi¡ na pytanie Q b¦d¡ dokumenty grup o najwy»szym wspóªczynniku korelacji (najbardziej obiecuj¡ce, mo»e by¢ ich wiele).

(59)

Metoda porównywania pni c.d.

Podstawiaj¡c do wzoru, warto±ci dla poszczególnych pni, uzyskujemy: ovlap(q, P1) = 0+3+0+2+6+1+4+0+0+0

min{38,41} = ¹⁶₃₈ =0.42 ovlap(q, P2) = 5+0+0+9+2+1+2+2+0+0

min{51,41} = ²¹₄₁ =0.51 ovlap(q, P3) = 1+0+0+10+6+1+10+2+0+1

min{58,41} = ³¹₄₁ =0.76

Wyniki wskazuj¡, »e najbardziej obiecuj¡cy jest pie« P3, dlatego te»

nast¦pnie nale»y obliczy¢ podobie«stwo z grupami tego pnia.

ovlap(q, G31) = 1+0+0+9+6+0+12+2+0+0

min{41,41} = ³⁰₄₁ =0.73 ovlap(q, G32) = 2+1+0+10+6+1+13+1+0+1

min(42,41} = ³⁵₄₁ =0.85 ovlap(q, G33) = 3+3+0+10+6+0+12+2+0+1

min(45,41} = ³⁷₄₁ =0.90

Porównujemy teraz warto±ci tych korelacji z wspóªczynnikami przy pomini¦tych pniach P1 i P2. aden z pomini¦tych pni nie miaª korelacji wi¦kszej ni» te uzyskane dla grup w ramach pnia P3.

Zatem wybieramy grup¦ najbardziej obiecuj¡c¡ tylko w tym pniu i jest to podobnie jak w przypadku poprzedniej metody tylko grupa G33 . Dokumenty zawarte w tej grupie zwrócone b¦d¡

u»ytkownikowi do dalszego przeszukiwania.

(60)

(61)

Metoda minimalnej warto±ci progowej

Idea: ustalona b¦dzie minimalna warto±¢ progowap_min, jak¡ musz¡

speªni¢ pnie, grupy by zosta¢ uznane za odpowied¹ na pytanie.

Podobnie jak w przypadku poprzednich dwóch metod, wyszukiwanie w pierwszym kroku ma miejsce na najwy»szym poziomie hierarchii tj. na poziomie pni. Do dalszego przegl¡du wybrane s¡ pni, których korelacja z pytaniem speªnia zadany próg minimalny (p_min). Schodzimy na poziom grup (w wybranych pniach). Wyznaczamy podobie«stwo pytania z grupami (wybranych pni). Wybieramy grupy speªniaj¡ce zadany prógp_min. Zalety rozwi¡zania: to my sterujemy poziomem podobie«stwa. Wady: im wy»szy wspóªczynnikpmintym mniej grup/pni mo»e by¢ wybranych do dalszego przegl¡du i odwrotnie. Im ni»szy wspóªczynnikp_mintym wi¦cej grup/pni mo»e by¢ uznanych za odpowied¹ co utrudni przegl¡d wybranych dokumentów w realnym czasie.

(62)

Metoda minimalnej warto±ci progowej c.d.

Podstawiaj¡c do wzoru, warto±ci dla poszczególnych pni, uzyskujemy:

ovlap(q, P1) =0+3+0+2+6+1+4+0+0+0

min{38,41} =¹⁶₃₈ =0.42 ovlap(q, P2) =5+0+0+9+2+1+2+2+0+0

min{51,41} =²¹₄₁ =0.51 ovlap(q, P3) =1+0+0+10+6+1+10+2+0+1

min{58,41} =³¹₄₁=0.76 Mo»liwe przypadki:

dla pmin=0, 40 do dalszego przegl¡du wybierzemy wszystkie pnie:

zarówno pie« P1,P2jak i P3.

dla pmin=0, 50 do dalszego przegl¡du wybierzemy zarówno pie« P2jak i P₃.

dla pmin=0, 60 do dalszego przegl¡du wybierzemy tyko P3.

dla pmin=0, 80 do dalszego przegl¡du NIE wybierzemy »adnego pnia, a wi¦c i »adnej grupy a u»ytkownikowi zostanie zwrócona odpowied¹ w postaci braku dokumentów speªniaj¡cych kryteria zapytania.

pmin=0, 75 wyszukiwanie przebiegnie nast¦puj¡co: do dalszego przegl¡du wybierzemy tylko pie« P3. Wyznaczymy korelacj¦ pytania Q z grupami w wybranym pniu P3:

ovlap(q, G₃₁) =1+0+0+9+6+0+12+2+0+0

min{41,41} =³⁰₄₁=0, 73 ovlap(q, G₃₂) =2+1+0+10+6+1+13+1+0+1

min{42,41} =³⁵₄₁=0, 85 ovlap(q, G₃₃) =3+3+0+10+6+0+12+2+0+1

min{45,41} =³⁷₄₁=0, 90

Zadany próg pmin jest speªniony przez 2 z 3 grup tego pnia: G32i G33i dokumenty tych dwóch grup zostan¡ zwrócone u»ytkownikom jako odpowied¹.

(63)

(64)

Inny przykªad

Struktura przedstawiona poni»ej przedstawia system po grupowaniu dziewi¦ciu dokumentów o opisach: AC, ABD, A, BD, CE, ABD, BE, BC oraz BD. W wyniku powstaªy trzy grupy dokumentów uj¦te nast¦pnie w dwa pnie. Dla ka»dej grupy i pnia dysponujemy reprezentantem zªo»onym z poj¦¢ charakteryzuj¡cych dan¡ grup¦.

A, C, D

A, C C, D

B, C, E

B, D C, E

A, C A, B, D A A, B, D B, E B, C B, D

Rysunek:Struktura hierarchiczna jako wynik grupowania

(65)

Wyszukiwanie - przykªad

Sposób wyszukiwania dla takiej struktury dokumentów wygl¡daªby nast¦puj¡co. Zaªó»my, »e do systemu zadano pytanie postaci q = AC

Wyszukiwanie metod¡ pnia najbardziej obiecuj¡cego:

1 Na poziomie reprezentantów grup: wyznaczenie korelacji pytania q z reprezentantami pni, a wi¦c z wektorami: ACD oraz BCE.

2 W ramach wybranego najbardziej obiecuj¡cego pnia wyznaczenie korelacji pytania q z reprezentantami grup.

U»yjemy w tym celu prostej miary dopasowania (przedstawionej wcze±niej):

p(d , q) =d ∩ q d ∪ q

(66)

Wyszukiwanie - przykªad

I etap

Wyznaczenie korelacji pytania q z reprezentantami pni, a wi¦c z wektorami:

ACDoraz BCE. U»yjemy w tym celu prostej miary dopasowania (przedstawionej wcze±niej):

p(d , q) = d ∩ q d ∪ q

W naszym przypadku warto±¢ korelacji pytania t z reprezentantem pierwszego pnia wyniesie:

p(AC , ACD) =AC ∩ ACD AC ∪ ACD

= AC ACD = 2

3=0, 67 i odpowiednio z reprezentantem drugiego pnia:

p(AC , BCE ) = AC ∩ BCE AC ∪ BCE

= C

ABCE =1 4 =0, 25 Pie« najbardziej obiecuj¡cy to pie« pierwszy z reprezentatem ACD.

SYSTEMY WYSZUKIWANIA INFORMACJI