SYSTEMY WYSZUKIWANIA INFORMACJI
Agnieszka Nowak - Brzezi«ska
17 grudnia 2019
Metoda Saltona Wykªady 8, 9 i 10
Idea metody Saltona
Gªówne cechy metody Saltona
Metoda opracowana dla dokumentów i pyta« zadawanych w j¦zyku naturalnym, dlatego te» podstawowy moduª stanowi moduª analizy j¦zykowej, którego opracowanie jest niezwykle pracochªonne i wymaga rozwi¡zania szeregu problemów natury lingwistycznej.
Opisy obiektów s¡ tekstami w j¦zyku naturalnym.
Metoda polega na podziale wszystkich obiektów na grupy o podobnym opisie. Jest wiele metod grupowania. Ka»da grupa obiektów posiada swojego reprezentanta (wektor poj¦¢ charakterystycznych dla danej grupy, np. wektor centriodalny - centroid, prol). W przypadku otrzymania du»ej liczby grup stosuje si¦ dalsze ich ª¡czenie w grupy wi¦ksze, tworz¡c struktur¦ drzewiast¡. Poj¦cia charakteryzuj¡ce du»e grupy (pnie) zawieraj¡ zbiory wektorów poj¦¢ grup, a te dopiero - zbiory obiektów.
Wyszukiwanie odpowiedzi polega na porównaniu pytania z
reprezentantami grup obiektów, a nast¦pnie wybraniu grup o wektorze najbardziej zbli»onym do pytania. Obiekty wyst¦puj¡ce w tych grupach stanowi¡ tzw. odpowied¹ przybli»on¡ na pytanie. Nast¦pnie dokonuje si¦
przegl¡du zupeªnego wybranych obiektów dla znalezienia odpowiedzi dokªadnej, tzn. obiektów, których opisy dokªadnie odpowiadaj¡ pytaniu (zawieraj¡ identyczne poj¦cia jak w pytaniu).
System SMART
Metoda Saltona zostaªa zaimplementowana w systemieSMART- wyszukiwanie dokumentów opisanych w j¦zyku angielskim.
SMART
SMART- automatyczny system wyszukiwania dokumentów zaprojektowany na Uniwersytecie Harvarda w latach 1961 - 1964.
System przyjmuje dokumenty i »¡dania usªug sformuªowane w j¦zyku naturalnym, dokonuje automatycznej analizy tekstów przy u»yciu jednej z kilkudziesi¦ciu metod analizy j¦zykowej, kojarzy przeanalizowane dokumenty z kwerendami i wyszukuje dla u»ytkownika te pozycje, które uzna za najbardziej odpowiadaj¡ce zgªoszonym kwerendom.
PROCES WYSZUKIWANIA
Proces wyszukiwania w systemie SMART mo»na podzieli¢ na 5 etapów:
1 wprowadzenie tekstu drukowanego
2 grupowanie dokumentów dla celów przeszukiwania (wi¡zanie w grupy)
3 wybranie grupy dokumentów do wyszukiwania
4 przeszukiwanie grupy dokumentów
5 ocena wyszukiwania.
Macierz termin - dokument
Algorytmy grupowania
Grupowanie obiektów w grupy mo»e odbywa¢ si¦ wieloma
metodami. Najcz¦±ciej stosowanymi s¡ metoda Rocchia i metoda Doyle'a.
algorytm Rocchia algorytm Doyle'a
Zarówno proces grupowania, jak i proces porównywania pytania z pniami czy wektorami poj¦¢ odbywa si¦ poprzez znajdowanie wspóªczynników korelacji (podobie«stwa) pomi¦dzy poj¦ciami wyst¦puj¡cymi w pytaniu lub poj¦ciami wyst¦puj¡cymi w wektorze poj¦¢ danej grupy.
Miary korelacji (podobie«stwa)
Wspóªczynnik korelacji to warto±¢ z przedziaªu<0, 1 >,1dla identycznych obiektów,0gdy obiekty nie s¡ do siebie w ogóle podobne. Im wi¦ksze podobie«stwo obiektów tym wy»szy wspóªczynnik korelacji.
p(d , q) = d ∩ q d ∪ q p(d , q) = d ∩ q a p(d , q) = d ∩ q
q
W systemie SMART Saltona istniej¡ dwiemiary korelacji:
korelacja cosinusowa
cos(d , q) =
Pn k=1di· qi
pPn
k=1(di)2·Pn k=1(qi)2 korelacja nakªadania
ovlap(d , q) = Pn
k=1min(di, qi) min(Pnk=1di,Pn
k=1qi)
gdzie: d iqton-wymiarowe wektory terminów reprezentuj¡cych analizowan¡ kwerend¦qi analizowany dokumentd.
Korelacja nakªadania
Gdy mamy do dyspozycji wektory binarne, dobrze jest stosowa¢ miar¦
nakªadania, gdy» jest ona dedykowana wªa±nie takim typom danych. Przy wektorach wa»onych lepiej jest stosowa¢ metryk¦ kosinusow¡. Dla dwóch wektorów binarnych d1 i d2:
[0 1 1 1 0]
oraz
[1 0 1 1 0]
podobie«stwo mierzone miar¡ nakªadania b¦dzie nast¦puj¡ce:
ovlap(d1, d2) = min(0, 1) + min(1, 0) + min(1, 1) + min(1, 1) + min(0, 0) min{0 + 1 + 1 + 1 + 0, 1 + 0 + 1 + 1 + 0} =
2
min{3, 3} = 2 3=0, 67
Korelacja cosinusowa
Dla dwóch wektorów wa»onych d1 i d2:
[0 3 1 2 4]
oraz
[0 3 2 1 4]
podobie«stwo mierzone miar¡ kosinusow¡ b¦dzie nast¦puj¡ce:
cos(d1, d2) = 0 · 0 + 3 · 3 + 1 · 2 + 2 · 1 + 4 · 4
p(02+32+12+22+42) · (02+32+22+12+42) =
√ 29
30 · 30=29 30 =0, 96
Warto±¢ 0, 96 oznacza, »e dwa wektory s¡ niemal identyczne, co jest zgodne ze stanem faktycznym.
Dodajmy przy tym od razu, »e gdy w strukturze dokumentów sprowadzamy reprezentantów grup i pni do postaci wektorów staªej dªugo±ci (binarnych b¡d¹ wa»onych) to pytanie zadane do systemu musi przyj¡¢ t¦ sam¡ form¦.
Wówczas cechom wyst¦puj¡cym w pytaniu zadanym przez u»ytkownika przypisujemy odpowiednie wagi za± pozostaªym cechom wag¦ zerow¡.
Miary korelacji - przykªad
cos(Document2, Document3) =
1·0+0·0+1·1+0·0
√
(02+12+02+12)·(12+02+12+02) = √1
2·1 = 1.411 =0.707 ovlap(Document2, Document3) = 0 + 0 + 1 + 0
min{2, 1} = 1 1 =1
Przykªadowe zadanie egzaminacyjne !
Podobie«stwo dokumentów tekstowych - przykªad
doc1: Mr. Trump became president after winning the political election. Though he lost the support of some republican friends, Trump is friends with President Putin.
doc2: President Trump says Putin had no political interference is the election outcome. He says it was a witchhunt by political parties. He claimed President Putin is a friend who had nothing to do with the election.
doc3: Post elections, Vladimir Putin became President of Russia.
President Putin had served as the Prime Minister earlier in his political career.
documents = [doc1, doc2, doc3]
Macierz termin - dokument
Macierz podobie«stwa mi¦dzy dokumentami
sim() doc1 doc2 doc3
doc1 1 0.48927489 0.37139068 doc2 0.48927489 1 0.38829014 doc3 0.37139068 0.38829014 1
Podobie«stwo obiektów w systemie SMART - korelacja cosinusowa
Podobie«stwo dokumentów tekstowych
Vijaymeena, M. K.; Kavitha, K. (March 2016). Survey on Similarity Measures in Text Mining". Machine Learning and Applications: An International Journal. 3 (1):
1928.aircconline.com/mlaij/V3N1/3116mlaij03.pdf
STRUKTURA KARTOTEKI
Rozwa»amy system informacyjnyS =< X , A, V , q >. Opisy obiektów pogrupowane s¡ w grupy Xi , gdzie i =1, . . . , m przy czym speªniony jest warunek: X =Sm
i =1Xi
Struktura kartoteki ma wi¦c form¦ drzewiast¡(hierarchi¦) w której dokumenty podobne do siebie ª¡czone s¡ w grupy, dla których tworzy reprezentantów (centroid b¡d¹ prol). Je±li grup tak utworzonych jest du»o, traktowane s¡ one jak dokumenty i ponownie grupowane w grupy a kolejnym poziomie hierarchii (pnie).
C1 C2 ... Cn
X1
C’1 ... C’n Cn1 ... Cnn
pień grupy
centroidy
obiekty
X ... X2 n1 X1 X2 Xn2 ... X1 X ... X2 nn
Centroid a prol
Ka»da grupaXi poprzedzona jest identykatorem grupy, który jest nazywanyCENTROIDEM(Ci ) lubPROFILEM (Pi):
Xi = (Ci, {txi}). Centroid - denicja
Centroid - Ci to wektor poj¦¢ opisuj¡cych dokumenty danej grupy.
Stosowany do opisu grupy w algorytmie Rocchio'a.
Prol - denicja
Prol -Pi to wektor warto±ci pozycyjnych poj¦¢ opisuj¡cych dokumenty danej grupy. Stosowany do opisu grupy w algorytmie Doyle'a. Prol jest odpowiednikiem centroidu.
Reprezentant grupy w metodzie Rocchio'a
Ka»da grupaXi poprzedzona jest identykatorem grupy, który jest nazywany centroidem (Ci ).
Xi = (Ci, {txi})
Przy grupowaniu metod¡ Rocchia wybieramy obiekt stanowi¡cy tzw. centrum grupy, liczymy wspóªczynniki podobie«stwa ka»dego obiektu z centrum grupy, wybieramy minimalny zbiór opisów obiektów{txi}min o najwy»szym wspóªczynniku podobie«stwa z centrum grupy. Centroid tworzymy jako zbiór poj¦¢
(deskryptorów) wyst¦puj¡cych w wybranym zbiorze{txi}min dokumentów:
Ci = Y
i
di ∈ D, di ∈ {txi}min
!
gdzie: D - zbiór deskryptorów systemu S .
Algorytm Rocchio'a
I iteracja
dla potencjalnego centrium grupy II iteracja
dla centroidu
I iteracja
1 Ustalenie parametrów:p1, p2, n1, n2- dla centrum grupy,p1p, p2p, n1p, n2p- dla centroidu.
2 Wybranie potencjalnego centrum grupy:xc.
3 Przeprowadzamy test g¦sto±ci dla centrum grupyxc,(co najmniejn1dokumentów ma wspóªczynnik korelacji≥ p1, an2dokumentów≥ p2). W tym celu obliczamy wspóªczynniki korelacji dokumentów z potencjalnym centrum grupy.
Je»eli zaªo»enia nie s¡ speªnione to konieczny jest wybór innego potencjalnego centrum grupy lub zmiana parametrów tesktu g¦sto±ci (punkt 3).
Je±li potencjalne centrum grupy przeszªo test g¦sto±ci: przechodzimy do punktu 4 Okre±lamy rang¦ dokumentów.5.
5 Wyznaczamym1(ile dokumentów ma korelacj¦ zxc≥ p2),m2(ile dokumentów ma korelacj¦ zxc≥ p1).
Je±lim1= m2to Pmin równa si¦ najmniejszemu wspóªczynnikowi korelacji obiektu nale»¡cego dom1,przechodzimy do punktu 11.
Je±lim16= m2to:
Obliczamy ró»nic¦ pomi¦dzy wspóªczynnikami korelacji obiektów s¡siednich w grupie maksymalnejm2, bez obiektów grupy minimalnejm1. Okre±lamy najwi¦ksz¡ ró»nic¦.
Minimalny wspóªczynnik korelacjipminjest równy odjemnej z najwi¦kszej ró»nicy. Je±li najwi¦ksza ró»nica powtarza si¦ to zapminprzyjmujemy odjemn¡ o wi¦kszej warto±ci.
6 Tworzymy wst¦pn¡ grup¦ do której nale»¡ elementy o wspóªczynniku korelacji wi¦kszym b¡d¹ równympmin.
7 Tworzymy wektor centroidalny (centroid), który stanowi sum¦ opisów obiektów nale»¡cych do grupy wst¦pnej.
II-ga iteracja algorytmu - dla tworzenia tzw. grupy poprawionej
. 1 Przeprowadzamy test g¦sto±ci dla centroidu, (co najmniejn1pdokumentów ma wspóªczynnik korelacji≥ p1p, an2pdokumentów≥ p2p).
2 Obliczamy wspóªczynniki korelacji dokumentów z centroidem.
3 Okre±lamy rang¦ dokumentów.
4 Wyznaczamym1p(ile dokumentów ma korelacj¦ z centroidem≥ p2p), dlam2p
odpowiednio: ≥ p1p.
Je±lim1p= m2ptopminrówna si¦ najmniejszemu wspóªczynnikowi korelacji obiektu nale»¡cego dom1p, przechodzimy do punktu 5.
Je±lim1p6= m2pto:
Obliczamy ró»nic¦ pomi¦dzy wspóªczynnikami korelacji obiektów s¡siednich w grupie maksymalnejm2p, bez obiektów grupy minimalnej m1p.
Okre±lamy najwi¦ksz¡ ró»nic¦.
Minimalny wspóªczynnik korelacjipminjest równy odjemnej z najwi¦kszej ró»nicy. Je±li najwi¦ksza ró»nica powtarza si¦ to zapminprzyjmujemy odjemn¡ o wi¦kszej warto±ci.
5 Tworzymy grup¦ poprawion¡ do której nale»¡ elementy o wspóªczynniku korelacji wi¦kszym b¡d¹ równympmin.
6 Tworzymy wektor centroidalny, który stanowi sum¦ opisów obiektów nale»¡cych do grupy poprawionej.
7 Obiekty nie nale»¡ce do grupy poprawionej (swobodne),traktujemy jako wej±ciowe opisy obiektów i przechodzimy do punktu 3.
Przykªad
Wykorzystuj¡c opis (poni»ej) algorytmu Rocchia przeprowad¹ grupowanie 10 obiektów o nast¦puj¡cych opisach:
tx1 = a1 b1 c1 d1 e1 tx2 = a1 b1 c1 d1 e2 tx3 = a1 b1 c2 d1 e3 tx4 = a1 b1 c3 d1 e1 tx5 = a1 b1 c1 d1 e3 tx6 = a2 b1 c2 d1 e2 tx7 = a2 b1 c3 d1 e3 tx8 = a2 b2 c3 d3 e3 tx9 = a3 b3 c2 d2 e2 tx10 = a3 b3 c2 d3 e2
I iteracja
Dla podanego wy»ej zbioru obiektów dane s¡ nast¦puj¡ce parametry:
a) Dla centrum grupy: n1 =5, n2 =3, p1=0, 2, p2=0, 3 b) Dla centroidu: n1c =5, n2c =3, p1c =0, 25, p2c =0, 35 Wybór potencjalnego centrum grupy xc
Jako potencjalne centrum grupy 1 przyjmij obiekt x1. Wybór miary podobie«stwa (korelacji) ka»dego dokumentu z centrum grupy xc
p(xc, xi) = xc∩ xi xc∪ xi
Przeprowadzamy test g¦sto±ci dla centrum grupy (xc). Test ten mówi, »e co najmniej n1 dokumentów ma wspóªczynnik wi¦kszy b¡d¹ równy od p1, a n2 dokumentów ma wspóªczynnik wi¦kszy b¡d¹ równy p2.
W tym celu obliczamy wspóªczynniki korelacji (podobie«stwa ka»dego dokumentu (xi) z wybranym centrum grupy xc) stosuj¡c wybran¡ wcze±niej miar¦ korelacji.
Gdy mamy 10 dokumentów w systemie to po kolei dla ka»dego dokumentu wyliczamy taki wspóªczynnik:
p(x1, xc) =?
...
p(x10, xc) =?
W liczniku podajemy liczb¦ poj¦¢ wspólnym danego dokumentu z centrum grupy xc W mianowniku podajemy sum¦ poj¦¢, którymi s¡
opisane obydwa dokumenty: dany dokument xi i dokument stanowi¡cy centrum grupy.
Aby obliczy¢ wspóªczynnik korelacji obiektu 1 z centrum grupy który jest jednocze±nie obiektem 1 wykonujemy nast¦puj¡ce czynno±ci.
x1 = a1 b1 c1 d1 e1 xc = a1 b1 c1 d1 e1
Liczba poj¦¢ wspólnych = 5, bo s¡ to poj¦cia: (a1, b1, c1, d1, e1) Suma wszystkich poj¦¢ = 5, bo s¡ to poj¦cia: (a1, b1, c1, d1, e1) p(xc, x1) =5/5 = 1.0
p(xc, x2) =4/6 = 0.67 p(xc, x3) =3/7 = 0.43 p(xc, x4) =4/6 = 0.67 p(xc, x5) =4/6 = 0.67 p(xc, x6) =2/8 = 0.25 p(xc, x7) =2/8 = 0.25 p(xc, x8) =0/10 = 0 p(xc, x9) =0/10 = 0 p(xc, x10) =0/10 = 0
Okre±lamy rang¦ dokumentów, czyli porz¡dkujemy dokumenty malej¡co wedªug obliczonych w kroku 5 wspóªczynników korelacji i nadajemy tak uªo»onym warto±ciom rangi od 1 do n.
Ranga 1: p(x1, xc) =1.0 Ranga 2: p(x2, xc) =0.67 Ranga 3: p(x4, xc) =0.67 Ranga 4: p(x5, xc) =0.67 Ranga 5: p(x3, xc) =0.43 Ranga 6: p(x6, xc) =0.25 Ranga 7: p(x7, xc) =0.25 Ranga 8: p(x8, xc) =0.0 Ranga 9: p(x9, xc) =0.0 Ranga 10: p(x10, xc) =0.0
Przeprowadzamy test g¦sto±ci czyli sprawdzamy, czy na pewno:
n1 dokumentów ma p >= p1 i n2 dokumentów ma wspóªczynnik p >= p2 Je±li tak to znaczy, »e wybrane centrum grupy przeszedª test g¦sto±ci.
Je»eli zaªo»enia nie s¡ speªnione: wybieramy inny obiekt jako centrum grupy (xc).
Je»eli zaªo»enia s¡ speªnione: przechodzimy do punktu 5.
Obliczamy faktyczne rozmiary grupy. Wyznaczamy m1 (liczebno±¢ zbioru obiektów dla których elementy s¡ wi¦ksze b¡d¹ równe p2), m2 (liczebno±¢
zbioru obiektów dla których elementy s¡ wi¦ksze b¡d¹ równe p1).
m1=5 za± m2=7 Obliczamy minimalny wspóªczynnik korelacji pmin: Je±li m1= m2to:
to pminrówna si¦ najmniejszemu wspóªczynnikowi korelacji obiektu nale»¡cego do m1
Je±li m1< m2to:
Obliczamy ró»nic¦ pomi¦dzy wspóªczynnikami korelacji obiektów s¡siednich w grupie maksymalnej m2,bez obiektów grupy minimalnej m1. Wybieramy najwi¦ksz¡ ró»nic¦ i obliczamy minimalny wspóªczynnik korelacji pminjako odjemn¡ z tej najwi¦kszej ró»nicy.
Je±li najwi¦ksza ró»nica powtarza si¦ to za pmin przyjmujemy odjemn¡ o wi¦kszej warto±ci.
W naszym przypadku: m1=5 a m2=7, zatem s¡ to ró»ne warto±ci, wi¦c, aby obliczy¢ wspóªczynnik korelacji pmin obliczamy ró»nic¦ mi¦dzy dokumentami na granicy tych grup.
5 ró»nica z 6: 0,43 0,25 = 0, 18 6 ró»nica z 7: 0,25 0,25 = 0 7 ró»nica z 8: 0,25 0 = 0,25
Minimalny wspóªczynnik korelacji pmin jest równy odjemnej z najwi¦kszej ró»nicy.
pmin= p7(x7) =0, 25
Wyznaczamy grup¦ wst¦pn¡ X
1w:
Do grupy wst¦pnej b¦d¡ nale»aªy wszystkie te dokumenty, które miaªy wyliczony wspóªczynnik korelacji wi¦kszy lub równy pmin. S¡ to wszystkie obiekty grupy maksymalnej m2:
x1, x2, x3, x4, x5, x6 i x7.
Wyznaczamy wst¦pnego reprezentanta grupy X1 czyli centroid.
Centroid to zbiór wszystkich poj¦¢, którymi s¡ opisane dokumenty grupy minimalnej m1: Cw1 = {a1, b1, c1, c2, c3, d1, e1, e2, e3}
DRUGA ITERACJA
Generujemy grup¦ poprawion¡:
W tym celu powtarzamy raz jeszcze caªy algorytm, z tym,
»e teraz centrum grupy stanowi teraz CENTROID C1. Ustalenie parametrów testu g¦sto±ci dla centroidu:
p1c =0, 25 ;p2c =0, 35 ;n1c =5 ;n2c =3
Test g¦sto±ci dla centroidu:
W tym celu obliczamy wspóªczynniki korelacji (podobie«stwa) dokumentów grupy maksymalnej m2z centroidem C1.
P(x1, C1) =5/9 = 0.55 P(x2, C1) =5/9 = 0.55 P(x3, C1) =5/9 = 0.55 P(x4, C1) =5/9 = 0.55 P(x5, C1) =5/9 = 0.55 P(x6, C1) =4/10 = 0.4 P(x7, C1) =4/10 = 0.4 Okre±lamy rang¦ dokumentów:
Ranga1 p(x1, C1) =0.55 Ranga2 p(x2, C1) =0.55 Ranga3 p(x4, C1) =0.55 Ranga4 p(x5, C1) =0.55 Ranga5 p(x3, C1) =0.55 Ranga6 p(x6, C1) =0.4 Ranga7 p(x7, C1) =0.4
Sprawdzamy, czy na pewno: n1c dokumentów ma p >= p1c i n2c dokumentów ma wspóªczynnik p >= p2c
Je±li tak to znaczy, »e wybrane centrum grupy przeszedª test g¦sto±ci. Je±li nie to zmieniamy parametry testu g¦sto±ci dla centroidu, b¡d¹ zaczynamy caªy algorytm od nowa ª¡cznie z wyborem nowego potencjalnego centrum grupy xc. Obliczamy faktyczne rozmiary grupy poprawionej:
Wyznaczamy m1 (liczebno±¢ zbioru obiektów dla których elementy s¡ wi¦ksze b¡d¹ równe p2), m2(liczebno±¢ zbioru obiektów dla których elementy s¡
wi¦ksze b¡d¹ równe P1). Je±li m1= m2 to: pminrówna si¦ najmniejszemu wspóªczynnikowi korelacji obiektu nale»¡cego do m1czyli pmin= p7(x7) =0, 4 m1= m2=7 Wyznaczamy grup¦ poprawion¡ X1
Do tej grupy b¦d¡ nale»aªy wszystkie te dokumenty, które miaªy wyliczony wspóªczynnik korelacji wi¦kszy lub równy pmin.
S¡ to wszystkie obiekty grupy maksymalnej m2:
X1= {x1, x2, x3, x4, x5, x6, x7}Wyznaczamy reprezentanta grupy X1 czyli centroid
Centroid to zbiór wszystkich poj¦¢, którymi s¡ opisane wszystkie dokumenty grupy X1, czyli...
C1= {a1, a2, b1, c1, c2, c3, d1, e1, e2, e3}
Wyniki
Powstaªa grupa:
X1 = {x1, x2, x3, x4, x5, x6, x7} Na jej czele stoi centroid
C1 = {a1, a2, b1, c1, c2, c3, d1, e1, e2, e3}
Z dokumentów pozostaªych X \X1 = {x8, x9, x10} powinni±my tworzy¢ kolejne grupy.
Uwaga ! Ustalone na pocz¡tku parametry testu g¦sto±ci nie pozwol¡ utworzy¢ nast¦pnych grup, gdy» test g¦sto±ci wymaga by grupa maksymalna liczyªa co najmniej n2 =5 dokumentów.
Nam zostaªy ju» tylko 3 dokumenty. Zatem na tym ko«czy si¦
algorytm.
Algorytm Doyle'a
Zakªadamy nast¦puj¡ce warto±ci:
m- liczba grup T- warto±¢ progowa
α- wspóªczynnik skaluj¡cy z przedziaªu -<0, 1 >
1 Dokonujemy wst¦pnego podziaªu zbioru dokumentów namgrup 2 dla ka»dej grupy wyznaczamy:
WektorSj- wektor dokumentów
WektorCj- wektor poj¦¢ wyst¦puj¡cych wj-tej grupie WektorFj- wektor cz¦sto±ci wyst¦powania poj¦¢
WektorRj- wektor rang przyporz¡dkowanych poj¦ciom grupy
WektorPj- wektor warto±ci pozycyjnych (PROFIL) gdzie:pi= (b − ri)wcze±niej wyznaczamy warto±¢ bazow¡b.
3 dla ka»degodiwyliczamy warto±¢ funkcji punktuj¡cejg (di, Pj)w ka»dej grupie zawieraj¡cej wszystkie poj¦cia opisuj¡ce obiektdi.
wybieramy warto±¢ maksymaln¡ !!!
4 Na podstawie wyznaczonych warto±ci funkcji punktuj¡cej dokonaj wst¦pnego podziaªu dokumentów do grup tak, »e:
Sj= {di: g (di, Pj) ≥ Tj } Tj=
T dla Hj≤ T
Hj− α(Hj− T ) dla Hj> T Gdzie:Hj=max(g(di, Pj))
z reguªy powstajem +1grup (bomgrup + grupa dokumentów swobodnych) 5 Je±li podziaª wi +1-ej iteracji jest identyczny jak wi-tej to KONIEC algorytmu.
REZULTAT:m- grup dokumentów (na czele ka»dej grupy stoi PROFIL) i ewentualnie grupa dokumentów swobodnych (L).
Przykªad algorytmu Doyle'a
Dla podanego zbioru obiektów przeprowad¹ jedn¡ iteracj¦
grupowania algorytmem Doyle'a przy zaªo»eniach: liczba grup wynosi m = 3, wspóªczynnik α = 0, 5.
tx1 =(Pª,K)(TY,DR)(SP,5)(OZ,c) tx2 =(Pª,M)(TY,PR)(SP,2)(OZ,b) tx3 =(Pª,M)(TY,MGR)(SP,5)(OZ,c) tx4 =(Pª,M)(TY,MGR)(SP,2)(OZ,a) tx5 =(Pª,M)(TY,PR)(SP,12)(OZ,d) tx6 =(Pª,M)(TY,DR)(SP,5)(OZ,b) tx7 =(Pª,K)(TY,DR)(SP,2)(OZ,b) tx8 =(Pª,M)(TY,MGR)(SP,12)(OZ,c) tx9 =(Pª,M)(TY,PR)(SP,5)(OZ,d) tx10 =(Pª,K)(TY,PR)(SP,2)(OZ,d)
I ITERACJA
Tworzymy wektory opisuj¡ce ka»d¡ grup¦:
X1 C1 F1 R1 P1 X2 C2 F2 R2 P2 X3 C3 F3 R3 P3
x1 k 1 3 8 x5 M 2 1 10 x8 M 2 1 10
x2 M 3 1 10 x6 K 1 2 9 x9 K 1 2 9
x3 DR 1 3 8 x7 PR 1 2 9 x10 MGR 1 2 9
x4 PR 1 3 8 DR 2 1 10 PR 2 1 10
MGR 2 2 9 12 1 2 9 2 1 2 9
2 2 2 9 2 2 1 10 5 1 2 9
5 2 2 9 b 2 1 10 12 1 2 9
a 1 3 8 d 1 2 9 c 1 2 9
b 1 3 8 d 2 1 10
c 2 2 9
Obliczamy warto±¢ funkcji punktuj¡cej g(di, Pj) dla ka»dego dokumentu di i prolu Pj:
g (xi, Pj) P1 P2 P3
x1 34 - -
x2 35 39 -
x3 37 - 37
x4 36 - -
x5 - 37 39
x6 35 40 -
x7 33 39 -
x8 - - 37
x9 - - 39
x10 - 37 38
Warto±¢ progowa T
Dla ka»dej grupy ustalamy warto±¢ progow¡ Tj, któr¡ musz¡
speªni¢ dokumenty aby wej±¢ do danej grupy. Warto±¢ progow¡
obliczamy wg jednego z poni»szych wzorów:
T = min(g (di,Pj))+max (g (di,Pj))
2 =37,
T = g (di, Pj) =36, 5.
Przyjmijmy wi¦c, »e T = 37.
Nowy podziaª na grupy ustalamy zgodnie ze wzorem podanym poni»ej. Do nowych grup b¦d¡ nale»e¢ obiekty, których warto±ci funkcji punktuj¡cej b¦d¡ ≥ Tj, czyli wi¦ksze b¡d¹ równe od warto±ci progowej j-tej grupy.
Tj =
T dla Hj ≤ T
Hj − α(Hj − T ) dla Hj > T Gdzie: Hj =max(g(di, Pj))
Wyznaczamy maksymaln¡ warto±¢ funkcji punktuj¡cej j-tej grupy:
Hj =max(g(di, Pj)) H1 =37, H2 =40, H3 =39
Nast¦pnie warto±ci progowe danych grup (Tj), przy zaªo»eniu, »e α =0.5.
T1= H1− α(H1− T ) =37
T2= H2− α(H2− T ) =40 − 0, 5 ∗ (40 − 37) = 38, 5 T3= H3− α(H3− T ) =39 − 0, 5 ∗ (39 − 37) = 38
OTRZYMANE GRUPY:
Porównuj¡c warto±ci funkcji punktuj¡cej z warto±ciami progowymi wedªug wzoru
Sj = {di : g (di, Pj) ≥ Tj }
otrzymujemy nowe grupy których jest m + 1 poniewa» tworzy si¦
jeszcze jedna grupa, grupa obiektów swobodnych (niesklasykowanych).
X1= {x3} X2= {x2, x6, x7} X3= {x5, x9, x10} Grupa obiektów swobodnych: L = {x1, x4, x8}
α - wspóªczynnik skaluj¡cy
α =0
T1= H1− α(H1− T ) =37, T2= H2− α(H2− T ) =40 − 0 ∗ (40 − 37) = 40, T3= H3− α(H3− T ) =39 − 0 ∗ (39 − 37) = 39
X1= {x3}, X2= {x6}, X3= {x5, x9}, Grupa obiektów swobodnych:
L = {x1, x2, x4, x7, x8, x10}
α =0.5
T1= H1− α(H1− T ) =37, T2= H2− α(H2− T ) =40 − 0 ∗ (40 − 37) = 40 , T3= H3− α(H3− T ) =39 − 0 ∗ (39 − 37) = 39
X1= {x3}, X2= {x2, x6, x7}, X3= {x5, x9, x10}, Grupa obiektów swobodnych:
L = {x1, x4, x8}
α =1
T1= H1− α(H1− T ) =37, T2= H2− α(H2− T ) =40 − 1 ∗ (40 − 37) = 37, T3= H3− α(H3− T ) =39 − 1 ∗ (39 − 37) = 37
X1= {x3}, X2= {x2, x6, x7}, X3= {x5, x8, x9, x10}, Grupa obiektów swobodnych:
L = {x1, x4}
II ITERACJA
Aby wykona¢ kolejn¡ iteracj¦ algorytmu przyporz¡dkujemy obiekty swobodne do grup ale innych ni» wyst¦powaªy w poprzedniej iteracji, wtedy otrzymujemy nowy podziaª grup. Caªa operacja kolejnych iteracji si¦ ko«czy, kiedy otrzymujemy po raz kolejny ten sam podziaª.
Tworzymy wektory opisuj¡ce ka»d¡ grup¦:
X1 C1 F1 R1 P1 X2 C2 F2 R2 P2 X3 C3 F3 R3 P3
Obliczamy warto±¢ funkcji punktuj¡cej g(di, Pj)dla ka»dego dokumentu dii prolu Pj: g (xi , Pj ) P1 P2 P3
x1x2 x3x4 x5x6 x7x8 x10x9
Warto±c progowa: T =min(g (di ,Pj ))+max (g (di ,Pj ))
2 =
H1=, H2=,H3= Warto±ci progowe grup:
T1= T2= T3=
OTRZYMANE GRUPY:
X1= {}
X2= {}
,X3= {}
, oraz grupa obiektów swobodnych:.L = {}
Wyszukiwanie
Pytanie do systemu zadajemy w postaci termu t b¦d¡cego sum¡ termów skªadowych. Odpowied¹ na pytanie b¦dzie sum¡
odpowiedzi na termy skªadowe.
Proces znajdowania odpowiedzi na term skªadowy tj:
Porównujemy term skªadowy z centroidami grup i znajdujemy odpowied¹ przybli»on¡ Xj.
σ(tj) ≈ Xj = {Xi⊆ X , tj ≤ Ci}, gdzie: Xi= (Ci, {txi}).
Odpowied¹ dokªadn¡ znajdujemy metod¡ przegl¡du zupeªnego obiektów wybranych grup:
σ(tj) = {xi ∈ Xj, tj≤ txi}.
Wyszukiwanie w systemie SMART Saltona
Wyszukiwanie informacji wedªug Saltona opiera si¦ na badaniu podobie«stwa (b¡d¹ korelacji) dokumentów z pytaniemq zadanym przez u»ytkownika. Stosuj¡c dowoln¡ miar¦ podobie«stwa b¡d¹ korelacji znajdujemy dokumenty o odpowiednio wysokim stopniu podobie«stwa i uznajemy je za relewantne wzgl¦dem pytaniaq . Dokument relewantny
Dokumentd jest relewantny wzgl¦dem pytaniaq wtedy i tylko wtedy gdy w opisie dokumentud wyst¦puj¡ wszystkie
niezaprzeczone deskryptory pytaniaq i w opisie tym nie wyst¦puje
»aden z deskryptorów zaprzeczonych pytaniem.
W tradycyjnych systemach nie realizuje si¦ ju» peªnego przeszukiwania dost¦pnych zbiorów dokumentów, ale s¡ one dzielone na pewne grupy, co pozwala ograniczy¢ przeszukiwanie do kilku z nich. Ta sama procedura mo»e by¢ równie» stosowana w automatycznym systemie - przez tworzenie grup zwi¡zanych dokumentów i wyszukiwania jedynie w ramach pewnych grup.
Przykªad takiej metody:
porównuj¡c pewne parametry wybranego dokumentu z odpowiednimi parametrami pozostaªych dokumentów, dokonuje si¦ wyboru i grupowania tych dokumentów, których parametry s¡ dostatecznie podobne.
Dla ka»dej utworzonej grupy wybiera si¦ pewien element reprezentatywny, zwany wektorem centroidalnym. Jest on po¹niej u»ywany do
reprezentowania caªego zbioru dokumentów tej grupy.
Wyszukiwanie przebiega w 2 etapach: pytanie porównuje si¦ z
reprezentantami wszystkich grup dokumentów, w drugim przeszukiwanie wszystkich dokumentów z grup o du»ym stopniu podobie«stwa z reprezentantem.
Metody wyszukiwania w metodzie Saltona
W zale»no±ci od tego, czy dysponujemy utworzon¡ wcze±niej struktur¡ grup dokumentów z ich reprezentantami (centroidem b¡d¹ prolem w zale»no±ci od tego jaki algorytm grupowania zostaª zastosowany) czy te» nie, wyszukiwanie informacji w metodzie Saltona realizowane jest wedªug jednej z podanych metod:
sekwencyjna- peªna (ang. full search), strukturalna (ang. tree search).
Metoda sekwencyjna
Metoda sekwencyjnanie bazuje na klasykacji dokumentów w grupy. Pytanie kierowane do systemu jest korelowane z ka»dym dokumentem oraz obliczany jest wspóªczynnik korelacji
(podobie«stwa) pytania z ka»dym dokumentem. Jako odpowied¹ system wybiera te dokumenty, dla których ów wspóªczynnik jest wi¦kszy od zaªo»onej warto±ci progowej (pmin). Metoda dokonuje przegl¡du zupeªnego wszystkich dokumentów, jest zatem
czasochªonna. Inn¡ jej wad¡ jest fakt, »e zªe dobranie warto±ci progowej (pmin ) mo»e negatywnie wpªyn¡¢ na efekty wyszukiwania.
Im mniejszy wspóªczynnik progowypmin , tym wi¦cej dokumentów uznana b¦dzie za odpowied¹ na pytanie. Im jego warto±¢ b¦dzie wy»sza, tym mniej dokumentów speªni warunek wymagany (czyli warto±¢ podobie«stwa≥ pmin).
Wyszukiwanie strukturalne
Po powi¡zaniu dokumentów w zbiorze wyj±ciowym przeprowadza si¦
dwuetapow¡ operacj¦ wyszukiwania:
Pytanie najpierw porównuje si¦ z reprezentantami wszystkich grup.
Nast¦pnie pytanie jest porównywane z dokumentami z grup o najwy»szym wspóªczynniku korelacji, lub alternatywnie, z dokumentami z wszystkich grup takich, »e wspóªczynnik korelacji ich reprezentanta z pytaniem przekracza zadany próg.
Metoda strukturalna
Metoda strukturalnajest ±ci±le zwi¡zana ze struktur¡ bazy danych (struktur¡ pni i grup) i mo»e by¢ realizowana jedn¡ z trzech technik:
metod¡ pnia najbardziej obiecuj¡cego,
metod¡ porównywania pni (nazywan¡ te» metod¡ z nawrotami),
metod¡ minimalnej warto±ci progowej.
Idea metody jest nast¦puj¡ca. Obliczamy wspóªczynnik korelacji pytania z pniami i wybieramy pie« (lub pnie) najbardziej obiecuj¡cy, czyli ten o najwy»szym wspóªczynniku korelacji b¡d¹ korelacji wi¦kszej ni» pewna warto±¢ progowa. Wszystko zale»y od tego jak¡
technik¦ z tych wy»ej wymienionych wybrali±my.
Metoda pnia najbardziej obiecuj¡cego
Metodapnia najbardziej obiecuj¡cegojest zdecydowanie najbardziej popularna i najszybsza. Na ka»dym etapie wyznaczania korelacji pytania z reprezentantami grup b¡d¹ pni wybieramy tylko pie«
(b¡d¹ grup¦) najbardziej obiecuj¡cy, nawet je±li inny pie« czy grupa miaªy korelacj¦ tylko nieznacznie mniejsz¡. Oznacza to, »e
odpowied¹ systemu mo»e nie by¢ kompletna, bowiem mo»emy pomin¡¢ dokumenty stanowi¡ce odpowied¹ na pytanie tylko dlatego, »e nale»aªy do grupy o mniejszym ni» najwy»szy mo»liwy wspóªczynnik korelacji.
Metoda porównywania pni
Metodaporównywania pnipozwala zawsze werykowa¢ ju» na poziomie grup czy który± z pomini¦tych pni nie powinien by¢ jednak uj¦ty w dalszym przegl¡dzie. Zdarzy si¦ tak w sytuacji, gdy na poziomie pni wybrali±my ten o najwy»szym podobie«stwie z pytaniem jednak na poziomie grup wspóªczynnik korelacji z pytaniem b¦dzie mniejszy ni» dla którego± z pomini¦tych pni.
Wówczas wracamy do tak pomini¦tego pnia i sprawdzamy korelacj¦
pytania z wszystkimi grupami w ramach tego pnia. Ostatecznie jako odpowied¹ wybieramy wszystkie grupy o najwy»szym wspóªczynniku korelacji. Mo»na zauwa»y¢, »e metoda (w przypadku realizacji nawrotów) pochªania wi¦cej czasu. Jej zalet¡ jest jednak fakt, »e w szczególnym przypadku mo»e zwi¦kszy¢ kompletno±¢ odpowiedzi.
Metoda minimalnej warto±ci progowej p
minMetodaminimalnej warto±ci progowej pminpozwala u»ytkownikowi decydowa¢ o efektywno±ci systemu. Na poziomie pni i grup wyznaczana jest korelacja pytania z reprezentantami i do dalszej analizy wybierane s¡ tylko te pnie czy grupy, dla których
wspóªczynnik korelacji byª nie mniejszy ni» zaªo»ona warto±¢
progowa. To u»ytkownik okre±la warto±¢pmin. Mo»e si¦ wi¦c zdarzy¢, »e warto±¢ podana w ten sposób b¦dzie albo za du»a albo za maªa. Za maªa sprawi, »e do odpowiedzi systemu zaliczone b¦d¡
tak»e dokumenty, które nie s¡ tak naprawd¦ relewantne wzgl¦dem pytania. Za du»a warto±¢pmin z kolei mo»e doprowadzi¢ do sytuacji, w której »aden z pni czy grup nie speªni wymaganej warto±ci minimalnej i u»ytkownikowi zostanie zwrócony pusty zbiór jako odpowied¹, podczas gdy tak naprawd¦ w systemie istniaªy dokumenty stanowi¡ce odpowied¹ na zadane pytanie. Konieczno±¢
ustalenia warto±ci progowej przez u»ytkownika mo»e by¢ wi¦c istotn¡ wad¡ tej metody. Oczywi±cie niska warto±¢pmin przekªada si¦ tak»e na wydªu»enie czasu przeszukiwania.
Przykªad wyszukiwania strukturalnego
Maj¡c reprezentacj¦ pni i grup:
poziom pni:
P1=[0, 10, 11, 2, 7, 3, 4, 0, 1, 0]
P2=[10, 0, 0, 9, 2, 11, 2, 10, 7, 0]
P3=[1, 0, 1, 12, 10, 3, 10, 4, 6, 11]
poziom grup:
G11=[0, 6, 7, 2, 3, 4, 0, 1, 3, 2]
G12=[1, 8, 9, 1, 4, 0, 2, 3, 2, 2, 1]
G21=[0, 1, 3, 12, 1, 6, 0, 9, 10, 1]
G22=[1, 3, 2, 6, 2, 5, 0, 10, 9, 3]
G31=[1, 0, 3, 9, 10, 0, 12, 2, 4, 0]
G32=[2, 1, 3, 10, 8, 1, 13, 1, 2, 1]
G33=[3, 4, 2, 11, 7, 0, 12, 2, 1, 3]
Chcemy omówi¢ sposób wyszukiwania dla pytania:
q = [5, 3, 0, 10, 6, 1, 13, 2, 0, 1]
Wykorzystamy odpowiedni wzór
na korelacj¦ (f. podobie«stwa) w omawianym procesie wyszukiwania.
Metoda pnia najbardziej obiecuj¡cego
Idea: porównujemy pytanie q z reprezentantami pni (P1,P2 i P3) i wybieramy pie« najbardziej obiecuj¡cy, czyli ten o najwy»szym wspóªczynniku korelacji z pytaniem q. Podstawiaj¡c do wzoru, warto±ci dla poszczególnych pni, uzyskujemy:
ovlap(q, P1) = 0+3+0+2+6+1+4+0+0+0
min{38,41} = 1638 =0.42 ovlap(q, P2) = 5+0+0+9+2+1+2+2+0+0
min{51,41} = 2141 =0.51 ovlap(q, P3) = 1+0+0+10+6+1+10+2+0+1
min{58,41} = 3141 =0.76
Wyniki wskazuj¡, »e najbardziej obiecuj¡cy jest pie« P3, dlatego te»
nast¦pnie nale»y obliczy¢ podobie«stwo z grupami tego pnia.
ovlap(q, G31) = 1+0+0+9+6+0+12+2+0+0
min{41,41} = 3041 =0.73 ovlap(q, G32) = 2+1+0+10+6+1+13+1+0+1
min(42,41} = 3541 =0.85 ovlap(q, G33) = 3+3+0+10+6+0+12+2+0+1
min(45,41} = 3741 =0.90 Z tego wynika, »e najbardziej odpowiadaj¡c¡ grup¡ jest G33 i dokumenty zawarte w tej grupie zwrócone b¦d¡ u»ytkownikowi do dalszego przeszukiwania.
Metoda porównywania pni
Idea: podobna do metody pnia najbardziej obiecuj¡cego. Metoda jednak po wyborze w 1 kroku pnia najbardziej obiecuj¡cego i wyznaczaniu stopnia korelacji pytania Q z reprezentantami grup w wybranym pniu korelacja ta b¦dzie porównana z warto±ci korelacji pytania z pomini¦tymi pniami. Je±li który± z pomini¦tych pni miaªby korelacj¦ wi¦ksz¡ ni» aktualnie analizowane grupy, wrócimy do pomini¦tego pnia i wyznaczymy korelacj¦ jego grup z pytaniem.
Ostatecznie odpowiedzi¡ na pytanie Q b¦d¡ dokumenty grup o najwy»szym wspóªczynniku korelacji (najbardziej obiecuj¡ce, mo»e by¢ ich wiele).
Metoda porównywania pni c.d.
Podstawiaj¡c do wzoru, warto±ci dla poszczególnych pni, uzyskujemy: ovlap(q, P1) = 0+3+0+2+6+1+4+0+0+0
min{38,41} = 1638 =0.42 ovlap(q, P2) = 5+0+0+9+2+1+2+2+0+0
min{51,41} = 2141 =0.51 ovlap(q, P3) = 1+0+0+10+6+1+10+2+0+1
min{58,41} = 3141 =0.76
Wyniki wskazuj¡, »e najbardziej obiecuj¡cy jest pie« P3, dlatego te»
nast¦pnie nale»y obliczy¢ podobie«stwo z grupami tego pnia.
ovlap(q, G31) = 1+0+0+9+6+0+12+2+0+0
min{41,41} = 3041 =0.73 ovlap(q, G32) = 2+1+0+10+6+1+13+1+0+1
min(42,41} = 3541 =0.85 ovlap(q, G33) = 3+3+0+10+6+0+12+2+0+1
min(45,41} = 3741 =0.90
Porównujemy teraz warto±ci tych korelacji z wspóªczynnikami przy pomini¦tych pniach P1 i P2. aden z pomini¦tych pni nie miaª korelacji wi¦kszej ni» te uzyskane dla grup w ramach pnia P3.
Zatem wybieramy grup¦ najbardziej obiecuj¡c¡ tylko w tym pniu i jest to podobnie jak w przypadku poprzedniej metody tylko grupa G33 . Dokumenty zawarte w tej grupie zwrócone b¦d¡
u»ytkownikowi do dalszego przeszukiwania.
Metoda minimalnej warto±ci progowej
Idea: ustalona b¦dzie minimalna warto±¢ progowapmin, jak¡ musz¡
speªni¢ pnie, grupy by zosta¢ uznane za odpowied¹ na pytanie.
Podobnie jak w przypadku poprzednich dwóch metod, wyszukiwanie w pierwszym kroku ma miejsce na najwy»szym poziomie hierarchii tj. na poziomie pni. Do dalszego przegl¡du wybrane s¡ pni, których korelacja z pytaniem speªnia zadany próg minimalny (pmin). Schodzimy na poziom grup (w wybranych pniach). Wyznaczamy podobie«stwo pytania z grupami (wybranych pni). Wybieramy grupy speªniaj¡ce zadany prógpmin. Zalety rozwi¡zania: to my sterujemy poziomem podobie«stwa. Wady: im wy»szy wspóªczynnikpmintym mniej grup/pni mo»e by¢ wybranych do dalszego przegl¡du i odwrotnie. Im ni»szy wspóªczynnikpmintym wi¦cej grup/pni mo»e by¢ uznanych za odpowied¹ co utrudni przegl¡d wybranych dokumentów w realnym czasie.
Metoda minimalnej warto±ci progowej c.d.
Podstawiaj¡c do wzoru, warto±ci dla poszczególnych pni, uzyskujemy:
ovlap(q, P1) =0+3+0+2+6+1+4+0+0+0
min{38,41} =1638 =0.42 ovlap(q, P2) =5+0+0+9+2+1+2+2+0+0
min{51,41} =2141 =0.51 ovlap(q, P3) =1+0+0+10+6+1+10+2+0+1
min{58,41} =3141=0.76 Mo»liwe przypadki:
dla pmin=0, 40 do dalszego przegl¡du wybierzemy wszystkie pnie:
zarówno pie« P1,P2jak i P3.
dla pmin=0, 50 do dalszego przegl¡du wybierzemy zarówno pie« P2jak i P3.
dla pmin=0, 60 do dalszego przegl¡du wybierzemy tyko P3.
dla pmin=0, 80 do dalszego przegl¡du NIE wybierzemy »adnego pnia, a wi¦c i »adnej grupy a u»ytkownikowi zostanie zwrócona odpowied¹ w postaci braku dokumentów speªniaj¡cych kryteria zapytania.
pmin=0, 75 wyszukiwanie przebiegnie nast¦puj¡co: do dalszego przegl¡du wybierzemy tylko pie« P3. Wyznaczymy korelacj¦ pytania Q z grupami w wybranym pniu P3:
ovlap(q, G31) =1+0+0+9+6+0+12+2+0+0
min{41,41} =3041=0, 73 ovlap(q, G32) =2+1+0+10+6+1+13+1+0+1
min{42,41} =3541=0, 85 ovlap(q, G33) =3+3+0+10+6+0+12+2+0+1
min{45,41} =3741=0, 90
Zadany próg pmin jest speªniony przez 2 z 3 grup tego pnia: G32i G33i dokumenty tych dwóch grup zostan¡ zwrócone u»ytkownikom jako odpowied¹.
Inny przykªad
Struktura przedstawiona poni»ej przedstawia system po grupowaniu dziewi¦ciu dokumentów o opisach: AC, ABD, A, BD, CE, ABD, BE, BC oraz BD. W wyniku powstaªy trzy grupy dokumentów uj¦te nast¦pnie w dwa pnie. Dla ka»dej grupy i pnia dysponujemy reprezentantem zªo»onym z poj¦¢ charakteryzuj¡cych dan¡ grup¦.
A, C, D
A, C C, D
B, C, E
B, C, E
B, D C, E
A, C A, B, D A A, B, D B, E B, C B, D
Rysunek:Struktura hierarchiczna jako wynik grupowania
Wyszukiwanie - przykªad
Sposób wyszukiwania dla takiej struktury dokumentów wygl¡daªby nast¦puj¡co. Zaªó»my, »e do systemu zadano pytanie postaci q = AC
Wyszukiwanie metod¡ pnia najbardziej obiecuj¡cego:
1 Na poziomie reprezentantów grup: wyznaczenie korelacji pytania q z reprezentantami pni, a wi¦c z wektorami: ACD oraz BCE.
2 W ramach wybranego najbardziej obiecuj¡cego pnia wyznaczenie korelacji pytania q z reprezentantami grup.
U»yjemy w tym celu prostej miary dopasowania (przedstawionej wcze±niej):
p(d , q) =d ∩ q d ∪ q
Wyszukiwanie - przykªad
I etap
Wyznaczenie korelacji pytania q z reprezentantami pni, a wi¦c z wektorami:
ACDoraz BCE. U»yjemy w tym celu prostej miary dopasowania (przedstawionej wcze±niej):
p(d , q) = d ∩ q d ∪ q
W naszym przypadku warto±¢ korelacji pytania t z reprezentantem pierwszego pnia wyniesie:
p(AC , ACD) =AC ∩ ACD AC ∪ ACD
= AC ACD = 2
3=0, 67 i odpowiednio z reprezentantem drugiego pnia:
p(AC , BCE ) = AC ∩ BCE AC ∪ BCE
= C
ABCE =1 4 =0, 25 Pie« najbardziej obiecuj¡cy to pie« pierwszy z reprezentatem ACD.