• Nie Znaleziono Wyników

SYSTEMY WYSZUKIWANIA INFORMACJI

N/A
N/A
Protected

Academic year: 2021

Share "SYSTEMY WYSZUKIWANIA INFORMACJI"

Copied!
103
0
0

Pełen tekst

(1)

SYSTEMY WYSZUKIWANIA INFORMACJI

Agnieszka Nowak - Brzezi«ska

17 grudnia 2019

Metoda Saltona Wykªady 8, 9 i 10

(2)

Idea metody Saltona

(3)

Gªówne cechy metody Saltona

Metoda opracowana dla dokumentów i pyta« zadawanych w j¦zyku naturalnym, dlatego te» podstawowy moduª stanowi moduª analizy j¦zykowej, którego opracowanie jest niezwykle pracochªonne i wymaga rozwi¡zania szeregu problemów natury lingwistycznej.

Opisy obiektów s¡ tekstami w j¦zyku naturalnym.

Metoda polega na podziale wszystkich obiektów na grupy o podobnym opisie. Jest wiele metod grupowania. Ka»da grupa obiektów posiada swojego reprezentanta (wektor poj¦¢ charakterystycznych dla danej grupy, np. wektor centriodalny - centroid, prol). W przypadku otrzymania du»ej liczby grup stosuje si¦ dalsze ich ª¡czenie w grupy wi¦ksze, tworz¡c struktur¦ drzewiast¡. Poj¦cia charakteryzuj¡ce du»e grupy (pnie) zawieraj¡ zbiory wektorów poj¦¢ grup, a te dopiero - zbiory obiektów.

Wyszukiwanie odpowiedzi polega na porównaniu pytania z

reprezentantami grup obiektów, a nast¦pnie wybraniu grup o wektorze najbardziej zbli»onym do pytania. Obiekty wyst¦puj¡ce w tych grupach stanowi¡ tzw. odpowied¹ przybli»on¡ na pytanie. Nast¦pnie dokonuje si¦

przegl¡du zupeªnego wybranych obiektów dla znalezienia odpowiedzi dokªadnej, tzn. obiektów, których opisy dokªadnie odpowiadaj¡ pytaniu (zawieraj¡ identyczne poj¦cia jak w pytaniu).

(4)

System SMART

Metoda Saltona zostaªa zaimplementowana w systemieSMART- wyszukiwanie dokumentów opisanych w j¦zyku angielskim.

SMART

SMART- automatyczny system wyszukiwania dokumentów zaprojektowany na Uniwersytecie Harvarda w latach 1961 - 1964.

System przyjmuje dokumenty i »¡dania usªug sformuªowane w j¦zyku naturalnym, dokonuje automatycznej analizy tekstów przy u»yciu jednej z kilkudziesi¦ciu metod analizy j¦zykowej, kojarzy przeanalizowane dokumenty z kwerendami i wyszukuje dla u»ytkownika te pozycje, które uzna za najbardziej odpowiadaj¡ce zgªoszonym kwerendom.

(5)

PROCES WYSZUKIWANIA

Proces wyszukiwania w systemie SMART mo»na podzieli¢ na 5 etapów:

1 wprowadzenie tekstu drukowanego

2 grupowanie dokumentów dla celów przeszukiwania (wi¡zanie w grupy)

3 wybranie grupy dokumentów do wyszukiwania

4 przeszukiwanie grupy dokumentów

5 ocena wyszukiwania.

(6)

Macierz termin - dokument

(7)

Algorytmy grupowania

Grupowanie obiektów w grupy mo»e odbywa¢ si¦ wieloma

metodami. Najcz¦±ciej stosowanymi s¡ metoda Rocchia i metoda Doyle'a.

algorytm Rocchia algorytm Doyle'a

Zarówno proces grupowania, jak i proces porównywania pytania z pniami czy wektorami poj¦¢ odbywa si¦ poprzez znajdowanie wspóªczynników korelacji (podobie«stwa) pomi¦dzy poj¦ciami wyst¦puj¡cymi w pytaniu lub poj¦ciami wyst¦puj¡cymi w wektorze poj¦¢ danej grupy.

(8)

Miary korelacji (podobie«stwa)

Wspóªczynnik korelacji to warto±¢ z przedziaªu<0, 1 >,1dla identycznych obiektów,0gdy obiekty nie s¡ do siebie w ogóle podobne. Im wi¦ksze podobie«stwo obiektów tym wy»szy wspóªczynnik korelacji.

p(d , q) = d ∩ q d ∪ q p(d , q) = d ∩ q a p(d , q) = d ∩ q

q

W systemie SMART Saltona istniej¡ dwiemiary korelacji:

korelacja cosinusowa

cos(d , q) =

Pn k=1di· qi

pPn

k=1(di)2·Pn k=1(qi)2 korelacja nakªadania

ovlap(d , q) = Pn

k=1min(di, qi) min(Pnk=1di,Pn

k=1qi)

gdzie: d iqton-wymiarowe wektory terminów reprezentuj¡cych analizowan¡ kwerend¦qi analizowany dokumentd.

(9)

Korelacja nakªadania

Gdy mamy do dyspozycji wektory binarne, dobrze jest stosowa¢ miar¦

nakªadania, gdy» jest ona dedykowana wªa±nie takim typom danych. Przy wektorach wa»onych lepiej jest stosowa¢ metryk¦ kosinusow¡. Dla dwóch wektorów binarnych d1 i d2:

[0 1 1 1 0]

oraz

[1 0 1 1 0]

podobie«stwo mierzone miar¡ nakªadania b¦dzie nast¦puj¡ce:

ovlap(d1, d2) = min(0, 1) + min(1, 0) + min(1, 1) + min(1, 1) + min(0, 0) min{0 + 1 + 1 + 1 + 0, 1 + 0 + 1 + 1 + 0} =

2

min{3, 3} = 2 3=0, 67

(10)

Korelacja cosinusowa

Dla dwóch wektorów wa»onych d1 i d2:

[0 3 1 2 4]

oraz

[0 3 2 1 4]

podobie«stwo mierzone miar¡ kosinusow¡ b¦dzie nast¦puj¡ce:

cos(d1, d2) = 0 · 0 + 3 · 3 + 1 · 2 + 2 · 1 + 4 · 4

p(02+32+12+22+42) · (02+32+22+12+42) =

29

30 · 30=29 30 =0, 96

Warto±¢ 0, 96 oznacza, »e dwa wektory s¡ niemal identyczne, co jest zgodne ze stanem faktycznym.

Dodajmy przy tym od razu, »e gdy w strukturze dokumentów sprowadzamy reprezentantów grup i pni do postaci wektorów staªej dªugo±ci (binarnych b¡d¹ wa»onych) to pytanie zadane do systemu musi przyj¡¢ t¦ sam¡ form¦.

Wówczas cechom wyst¦puj¡cym w pytaniu zadanym przez u»ytkownika przypisujemy odpowiednie wagi za± pozostaªym cechom wag¦ zerow¡.

(11)

Miary korelacji - przykªad

cos(Document2, Document3) =

1·0+0·0+1·1+0·0

(02+12+02+12)·(12+02+12+02) = 1

2·1 = 1.411 =0.707 ovlap(Document2, Document3) = 0 + 0 + 1 + 0

min{2, 1} = 1 1 =1

(12)

Przykªadowe zadanie egzaminacyjne !

(13)

Podobie«stwo dokumentów tekstowych - przykªad

doc1: Mr. Trump became president after winning the political election. Though he lost the support of some republican friends, Trump is friends with President Putin.

doc2: President Trump says Putin had no political interference is the election outcome. He says it was a witchhunt by political parties. He claimed President Putin is a friend who had nothing to do with the election.

doc3: Post elections, Vladimir Putin became President of Russia.

President Putin had served as the Prime Minister earlier in his political career.

documents = [doc1, doc2, doc3]

(14)

Macierz termin - dokument

Macierz podobie«stwa mi¦dzy dokumentami

sim() doc1 doc2 doc3

doc1 1 0.48927489 0.37139068 doc2 0.48927489 1 0.38829014 doc3 0.37139068 0.38829014 1

(15)

Podobie«stwo obiektów w systemie SMART - korelacja cosinusowa

Podobie«stwo dokumentów tekstowych

Vijaymeena, M. K.; Kavitha, K. (March 2016).  Survey on Similarity Measures in Text Mining". Machine Learning and Applications: An International Journal. 3 (1):

1928.aircconline.com/mlaij/V3N1/3116mlaij03.pdf

(16)

STRUKTURA KARTOTEKI

Rozwa»amy system informacyjnyS =< X , A, V , q >. Opisy obiektów pogrupowane s¡ w grupy Xi , gdzie i =1, . . . , m przy czym speªniony jest warunek: X =Sm

i =1Xi

Struktura kartoteki ma wi¦c form¦ drzewiast¡(hierarchi¦) w której dokumenty podobne do siebie ª¡czone s¡ w grupy, dla których tworzy reprezentantów (centroid b¡d¹ prol). Je±li grup tak utworzonych jest du»o, traktowane s¡ one jak dokumenty i ponownie grupowane w grupy a kolejnym poziomie hierarchii (pnie).

C1 C2 ... Cn

X1

C1 ... Cn Cn1 ... Cnn

pień grupy

centroidy

obiekty

X ... X2 n1 X1 X2 Xn2 ... X1 X ... X2 nn

(17)

Centroid a prol

Ka»da grupaXi poprzedzona jest identykatorem grupy, który jest nazywanyCENTROIDEM(Ci ) lubPROFILEM (Pi):

Xi = (Ci, {txi}). Centroid - denicja

Centroid - Ci to wektor poj¦¢ opisuj¡cych dokumenty danej grupy.

Stosowany do opisu grupy w algorytmie Rocchio'a.

Prol - denicja

Prol -Pi to wektor warto±ci pozycyjnych poj¦¢ opisuj¡cych dokumenty danej grupy. Stosowany do opisu grupy w algorytmie Doyle'a. Prol jest odpowiednikiem centroidu.

(18)

Reprezentant grupy w metodzie Rocchio'a

Ka»da grupaXi poprzedzona jest identykatorem grupy, który jest nazywany centroidem (Ci ).

Xi = (Ci, {txi})

Przy grupowaniu metod¡ Rocchia wybieramy obiekt stanowi¡cy tzw. centrum grupy, liczymy wspóªczynniki podobie«stwa ka»dego obiektu z centrum grupy, wybieramy minimalny zbiór opisów obiektów{txi}min o najwy»szym wspóªczynniku podobie«stwa z centrum grupy. Centroid tworzymy jako zbiór poj¦¢

(deskryptorów) wyst¦puj¡cych w wybranym zbiorze{txi}min dokumentów:

Ci = Y

i

di ∈ D, di ∈ {txi}min

!

gdzie: D - zbiór deskryptorów systemu S .

(19)

Algorytm Rocchio'a

I iteracja

dla potencjalnego centrium grupy II iteracja

dla centroidu

(20)

I iteracja

1 Ustalenie parametrów:p1, p2, n1, n2- dla centrum grupy,p1p, p2p, n1p, n2p- dla centroidu.

2 Wybranie potencjalnego centrum grupy:xc.

3 Przeprowadzamy test g¦sto±ci dla centrum grupyxc,(co najmniejn1dokumentów ma wspóªczynnik korelacji≥ p1, an2dokumentów≥ p2). W tym celu obliczamy wspóªczynniki korelacji dokumentów z potencjalnym centrum grupy.

Je»eli zaªo»enia nie s¡ speªnione to konieczny jest wybór innego potencjalnego centrum grupy lub zmiana parametrów tesktu g¦sto±ci (punkt 3).

Je±li potencjalne centrum grupy przeszªo test g¦sto±ci: przechodzimy do punktu 4 Okre±lamy rang¦ dokumentów.5.

5 Wyznaczamym1(ile dokumentów ma korelacj¦ zxc≥ p2),m2(ile dokumentów ma korelacj¦ zxc≥ p1).

Je±lim1= m2to Pmin równa si¦ najmniejszemu wspóªczynnikowi korelacji obiektu nale»¡cego dom1,przechodzimy do punktu 11.

Je±lim16= m2to:

Obliczamy ró»nic¦ pomi¦dzy wspóªczynnikami korelacji obiektów s¡siednich w grupie maksymalnejm2, bez obiektów grupy minimalnejm1. Okre±lamy najwi¦ksz¡ ró»nic¦.

Minimalny wspóªczynnik korelacjipminjest równy odjemnej z najwi¦kszej ró»nicy. Je±li najwi¦ksza ró»nica powtarza si¦ to zapminprzyjmujemy odjemn¡ o wi¦kszej warto±ci.

6 Tworzymy wst¦pn¡ grup¦ do której nale»¡ elementy o wspóªczynniku korelacji wi¦kszym b¡d¹ równympmin.

7 Tworzymy wektor centroidalny (centroid), który stanowi sum¦ opisów obiektów nale»¡cych do grupy wst¦pnej.

(21)

II-ga iteracja algorytmu - dla tworzenia tzw. grupy poprawionej

. 1 Przeprowadzamy test g¦sto±ci dla centroidu, (co najmniejn1pdokumentów ma wspóªczynnik korelacji≥ p1p, an2pdokumentów≥ p2p).

2 Obliczamy wspóªczynniki korelacji dokumentów z centroidem.

3 Okre±lamy rang¦ dokumentów.

4 Wyznaczamym1p(ile dokumentów ma korelacj¦ z centroidem≥ p2p), dlam2p

odpowiednio: ≥ p1p.

Je±lim1p= m2ptopminrówna si¦ najmniejszemu wspóªczynnikowi korelacji obiektu nale»¡cego dom1p, przechodzimy do punktu 5.

Je±lim1p6= m2pto:

Obliczamy ró»nic¦ pomi¦dzy wspóªczynnikami korelacji obiektów s¡siednich w grupie maksymalnejm2p, bez obiektów grupy minimalnej m1p.

Okre±lamy najwi¦ksz¡ ró»nic¦.

Minimalny wspóªczynnik korelacjipminjest równy odjemnej z najwi¦kszej ró»nicy. Je±li najwi¦ksza ró»nica powtarza si¦ to zapminprzyjmujemy odjemn¡ o wi¦kszej warto±ci.

5 Tworzymy grup¦ poprawion¡ do której nale»¡ elementy o wspóªczynniku korelacji wi¦kszym b¡d¹ równympmin.

6 Tworzymy wektor centroidalny, który stanowi sum¦ opisów obiektów nale»¡cych do grupy poprawionej.

7 Obiekty nie nale»¡ce do grupy poprawionej (swobodne),traktujemy jako wej±ciowe opisy obiektów i przechodzimy do punktu 3.

(22)

Przykªad

Wykorzystuj¡c opis (poni»ej) algorytmu Rocchia przeprowad¹ grupowanie 10 obiektów o nast¦puj¡cych opisach:

tx1 = a1 b1 c1 d1 e1 tx2 = a1 b1 c1 d1 e2 tx3 = a1 b1 c2 d1 e3 tx4 = a1 b1 c3 d1 e1 tx5 = a1 b1 c1 d1 e3 tx6 = a2 b1 c2 d1 e2 tx7 = a2 b1 c3 d1 e3 tx8 = a2 b2 c3 d3 e3 tx9 = a3 b3 c2 d2 e2 tx10 = a3 b3 c2 d3 e2

(23)

I iteracja

Dla podanego wy»ej zbioru obiektów dane s¡ nast¦puj¡ce parametry:

a) Dla centrum grupy: n1 =5, n2 =3, p1=0, 2, p2=0, 3 b) Dla centroidu: n1c =5, n2c =3, p1c =0, 25, p2c =0, 35 Wybór potencjalnego centrum grupy xc

Jako potencjalne centrum grupy 1 przyjmij obiekt  x1. Wybór miary podobie«stwa (korelacji) ka»dego dokumentu z centrum grupy xc

p(xc, xi) = xc∩ xi xc∪ xi

Przeprowadzamy test g¦sto±ci dla centrum grupy (xc). Test ten mówi, »e co najmniej n1 dokumentów ma wspóªczynnik wi¦kszy b¡d¹ równy od p1, a n2 dokumentów ma wspóªczynnik wi¦kszy b¡d¹ równy p2.

(24)

W tym celu obliczamy wspóªczynniki korelacji (podobie«stwa ka»dego dokumentu (xi) z wybranym centrum grupy xc) stosuj¡c wybran¡ wcze±niej miar¦ korelacji.

Gdy mamy 10 dokumentów w systemie to po kolei dla ka»dego dokumentu wyliczamy taki wspóªczynnik:

p(x1, xc) =?

...

p(x10, xc) =?

W liczniku podajemy liczb¦ poj¦¢ wspólnym danego dokumentu z centrum grupy xc W mianowniku podajemy sum¦ poj¦¢, którymi s¡

opisane obydwa dokumenty: dany dokument xi i dokument stanowi¡cy centrum grupy.

(25)

Aby obliczy¢ wspóªczynnik korelacji obiektu 1 z centrum grupy  który jest jednocze±nie obiektem 1 wykonujemy nast¦puj¡ce czynno±ci.

x1 = a1 b1 c1 d1 e1 xc = a1 b1 c1 d1 e1

Liczba poj¦¢ wspólnych = 5, bo s¡ to poj¦cia: (a1, b1, c1, d1, e1) Suma wszystkich poj¦¢ = 5, bo s¡ to poj¦cia: (a1, b1, c1, d1, e1) p(xc, x1) =5/5 = 1.0

p(xc, x2) =4/6 = 0.67 p(xc, x3) =3/7 = 0.43 p(xc, x4) =4/6 = 0.67 p(xc, x5) =4/6 = 0.67 p(xc, x6) =2/8 = 0.25 p(xc, x7) =2/8 = 0.25 p(xc, x8) =0/10 = 0 p(xc, x9) =0/10 = 0 p(xc, x10) =0/10 = 0

(26)

Okre±lamy rang¦ dokumentów, czyli porz¡dkujemy dokumenty malej¡co wedªug obliczonych w kroku 5 wspóªczynników korelacji i nadajemy tak uªo»onym warto±ciom rangi od 1 do n.

Ranga 1: p(x1, xc) =1.0 Ranga 2: p(x2, xc) =0.67 Ranga 3: p(x4, xc) =0.67 Ranga 4: p(x5, xc) =0.67 Ranga 5: p(x3, xc) =0.43 Ranga 6: p(x6, xc) =0.25 Ranga 7: p(x7, xc) =0.25 Ranga 8: p(x8, xc) =0.0 Ranga 9: p(x9, xc) =0.0 Ranga 10: p(x10, xc) =0.0

(27)

Przeprowadzamy test g¦sto±ci  czyli sprawdzamy, czy na pewno:

n1 dokumentów ma p >= p1 i n2 dokumentów ma wspóªczynnik p >= p2 Je±li tak to znaczy, »e wybrane centrum grupy przeszedª test g¦sto±ci.

Je»eli zaªo»enia nie s¡ speªnione: wybieramy inny obiekt jako centrum grupy (xc).

Je»eli zaªo»enia s¡ speªnione: przechodzimy do punktu 5.

(28)

Obliczamy faktyczne rozmiary grupy. Wyznaczamy m1 (liczebno±¢ zbioru obiektów dla których elementy s¡ wi¦ksze b¡d¹ równe p2), m2 (liczebno±¢

zbioru obiektów dla których elementy s¡ wi¦ksze b¡d¹ równe p1).

m1=5 za± m2=7 Obliczamy minimalny wspóªczynnik korelacji pmin: Je±li m1= m2to:

to pminrówna si¦ najmniejszemu wspóªczynnikowi korelacji obiektu nale»¡cego do m1

Je±li m1< m2to:

Obliczamy ró»nic¦ pomi¦dzy wspóªczynnikami korelacji obiektów s¡siednich w grupie maksymalnej m2,bez obiektów grupy minimalnej m1. Wybieramy najwi¦ksz¡ ró»nic¦ i obliczamy minimalny wspóªczynnik korelacji pminjako odjemn¡ z tej najwi¦kszej ró»nicy.

Je±li najwi¦ksza ró»nica powtarza si¦ to za pmin przyjmujemy odjemn¡ o wi¦kszej warto±ci.

W naszym przypadku: m1=5 a m2=7, zatem s¡ to ró»ne warto±ci, wi¦c, aby obliczy¢ wspóªczynnik korelacji pmin obliczamy ró»nic¦ mi¦dzy dokumentami na granicy tych grup.

5 ró»nica z 6: 0,43  0,25 = 0, 18 6 ró»nica z 7: 0,25  0,25 = 0 7 ró»nica z 8: 0,25  0 = 0,25

Minimalny wspóªczynnik korelacji pmin jest równy odjemnej z najwi¦kszej ró»nicy.

pmin= p7(x7) =0, 25

(29)

Wyznaczamy grup¦ wst¦pn¡ X

1w

:

Do grupy wst¦pnej b¦d¡ nale»aªy wszystkie te dokumenty, które miaªy wyliczony wspóªczynnik korelacji wi¦kszy lub równy pmin. S¡ to wszystkie obiekty grupy maksymalnej m2:

x1, x2, x3, x4, x5, x6 i x7.

Wyznaczamy wst¦pnego reprezentanta grupy X1  czyli centroid.

Centroid to zbiór wszystkich poj¦¢, którymi s¡ opisane dokumenty grupy minimalnej m1: Cw1 = {a1, b1, c1, c2, c3, d1, e1, e2, e3}

(30)

DRUGA ITERACJA

Generujemy grup¦ poprawion¡:

W tym celu powtarzamy raz jeszcze caªy algorytm, z tym,

»e teraz centrum grupy stanowi teraz CENTROID C1. Ustalenie parametrów testu g¦sto±ci dla centroidu:

p1c =0, 25 ;p2c =0, 35 ;n1c =5 ;n2c =3

(31)

Test g¦sto±ci dla centroidu:

W tym celu obliczamy wspóªczynniki korelacji (podobie«stwa) dokumentów grupy maksymalnej m2z centroidem C1.

P(x1, C1) =5/9 = 0.55 P(x2, C1) =5/9 = 0.55 P(x3, C1) =5/9 = 0.55 P(x4, C1) =5/9 = 0.55 P(x5, C1) =5/9 = 0.55 P(x6, C1) =4/10 = 0.4 P(x7, C1) =4/10 = 0.4 Okre±lamy rang¦ dokumentów:

Ranga1 p(x1, C1) =0.55 Ranga2 p(x2, C1) =0.55 Ranga3 p(x4, C1) =0.55 Ranga4 p(x5, C1) =0.55 Ranga5 p(x3, C1) =0.55 Ranga6 p(x6, C1) =0.4 Ranga7 p(x7, C1) =0.4

(32)

Sprawdzamy, czy na pewno: n1c dokumentów ma p >= p1c i n2c dokumentów ma wspóªczynnik p >= p2c

Je±li tak to znaczy, »e wybrane centrum grupy przeszedª test g¦sto±ci. Je±li nie to zmieniamy parametry testu g¦sto±ci dla centroidu, b¡d¹ zaczynamy caªy algorytm od nowa ª¡cznie z wyborem nowego potencjalnego centrum grupy xc. Obliczamy faktyczne rozmiary grupy poprawionej:

Wyznaczamy m1 (liczebno±¢ zbioru obiektów dla których elementy s¡ wi¦ksze b¡d¹ równe p2), m2(liczebno±¢ zbioru obiektów dla których elementy s¡

wi¦ksze b¡d¹ równe P1). Je±li m1= m2 to: pminrówna si¦ najmniejszemu wspóªczynnikowi korelacji obiektu nale»¡cego do m1czyli pmin= p7(x7) =0, 4 m1= m2=7 Wyznaczamy grup¦ poprawion¡ X1

Do tej grupy b¦d¡ nale»aªy wszystkie te dokumenty, które miaªy wyliczony wspóªczynnik korelacji wi¦kszy lub równy pmin.

S¡ to wszystkie obiekty grupy maksymalnej m2:

X1= {x1, x2, x3, x4, x5, x6, x7}Wyznaczamy reprezentanta grupy X1  czyli centroid

Centroid to zbiór wszystkich poj¦¢, którymi s¡ opisane wszystkie dokumenty grupy X1, czyli...

C1= {a1, a2, b1, c1, c2, c3, d1, e1, e2, e3}

(33)

Wyniki

Powstaªa grupa:

X1 = {x1, x2, x3, x4, x5, x6, x7} Na jej czele stoi centroid

C1 = {a1, a2, b1, c1, c2, c3, d1, e1, e2, e3}

Z dokumentów pozostaªych X \X1 = {x8, x9, x10} powinni±my tworzy¢ kolejne grupy.

Uwaga ! Ustalone na pocz¡tku parametry testu g¦sto±ci nie pozwol¡ utworzy¢ nast¦pnych grup, gdy» test g¦sto±ci wymaga by grupa maksymalna liczyªa co najmniej n2 =5 dokumentów.

Nam zostaªy ju» tylko 3 dokumenty. Zatem na tym ko«czy si¦

algorytm.

(34)

Algorytm Doyle'a

Zakªadamy nast¦puj¡ce warto±ci:

m- liczba grup T- warto±¢ progowa

α- wspóªczynnik skaluj¡cy z przedziaªu -<0, 1 >

1 Dokonujemy wst¦pnego podziaªu zbioru dokumentów namgrup 2 dla ka»dej grupy wyznaczamy:

WektorSj- wektor dokumentów

WektorCj- wektor poj¦¢ wyst¦puj¡cych wj-tej grupie WektorFj- wektor cz¦sto±ci wyst¦powania poj¦¢

WektorRj- wektor rang przyporz¡dkowanych poj¦ciom grupy

WektorPj- wektor warto±ci pozycyjnych (PROFIL) gdzie:pi= (b − ri)wcze±niej wyznaczamy warto±¢ bazow¡b.

3 dla ka»degodiwyliczamy warto±¢ funkcji punktuj¡cejg (di, Pj)w ka»dej grupie zawieraj¡cej wszystkie poj¦cia opisuj¡ce obiektdi.

wybieramy warto±¢ maksymaln¡ !!!

4 Na podstawie wyznaczonych warto±ci funkcji punktuj¡cej dokonaj wst¦pnego podziaªu dokumentów do grup tak, »e:

Sj= {di: g (di, Pj) ≥ Tj } Tj=

 T dla Hj≤ T

Hj− α(Hj− T ) dla Hj> T Gdzie:Hj=max(g(di, Pj))

z reguªy powstajem +1grup (bomgrup + grupa dokumentów swobodnych) 5 Je±li podziaª wi +1-ej iteracji jest identyczny jak wi-tej to KONIEC algorytmu.

REZULTAT:m- grup dokumentów (na czele ka»dej grupy stoi PROFIL) i ewentualnie grupa dokumentów swobodnych (L).

(35)

Przykªad algorytmu Doyle'a

Dla podanego zbioru obiektów przeprowad¹ jedn¡ iteracj¦

grupowania algorytmem Doyle'a przy zaªo»eniach: liczba grup wynosi m = 3, wspóªczynnik α = 0, 5.

tx1 =(Pª,K)(TY,DR)(SP,5)(OZ,c) tx2 =(Pª,M)(TY,PR)(SP,2)(OZ,b) tx3 =(Pª,M)(TY,MGR)(SP,5)(OZ,c) tx4 =(Pª,M)(TY,MGR)(SP,2)(OZ,a) tx5 =(Pª,M)(TY,PR)(SP,12)(OZ,d) tx6 =(Pª,M)(TY,DR)(SP,5)(OZ,b) tx7 =(Pª,K)(TY,DR)(SP,2)(OZ,b) tx8 =(Pª,M)(TY,MGR)(SP,12)(OZ,c) tx9 =(Pª,M)(TY,PR)(SP,5)(OZ,d) tx10 =(Pª,K)(TY,PR)(SP,2)(OZ,d)

(36)

I ITERACJA

Tworzymy wektory opisuj¡ce ka»d¡ grup¦:

X1 C1 F1 R1 P1 X2 C2 F2 R2 P2 X3 C3 F3 R3 P3

x1 k 1 3 8 x5 M 2 1 10 x8 M 2 1 10

x2 M 3 1 10 x6 K 1 2 9 x9 K 1 2 9

x3 DR 1 3 8 x7 PR 1 2 9 x10 MGR 1 2 9

x4 PR 1 3 8 DR 2 1 10 PR 2 1 10

MGR 2 2 9 12 1 2 9 2 1 2 9

2 2 2 9 2 2 1 10 5 1 2 9

5 2 2 9 b 2 1 10 12 1 2 9

a 1 3 8 d 1 2 9 c 1 2 9

b 1 3 8 d 2 1 10

c 2 2 9

(37)

Obliczamy warto±¢ funkcji punktuj¡cej g(di, Pj) dla ka»dego dokumentu di i prolu Pj:

g (xi, Pj) P1 P2 P3

x1 34 - -

x2 35 39 -

x3 37 - 37

x4 36 - -

x5 - 37 39

x6 35 40 -

x7 33 39 -

x8 - - 37

x9 - - 39

x10 - 37 38

(38)

Warto±¢ progowa T

Dla ka»dej grupy ustalamy warto±¢ progow¡ Tj, któr¡ musz¡

speªni¢ dokumenty aby wej±¢ do danej grupy. Warto±¢ progow¡

obliczamy wg jednego z poni»szych wzorów:

T = min(g (di,Pj))+max (g (di,Pj))

2 =37,

T = g (di, Pj) =36, 5.

Przyjmijmy wi¦c, »e T = 37.

(39)

Nowy podziaª na grupy ustalamy zgodnie ze wzorem podanym poni»ej. Do nowych grup b¦d¡ nale»e¢ obiekty, których warto±ci funkcji punktuj¡cej b¦d¡ ≥ Tj, czyli wi¦ksze b¡d¹ równe od warto±ci progowej j-tej grupy.

Tj =

 T dla Hj ≤ T

Hj − α(Hj − T ) dla Hj > T Gdzie: Hj =max(g(di, Pj))

Wyznaczamy maksymaln¡ warto±¢ funkcji punktuj¡cej j-tej grupy:

Hj =max(g(di, Pj)) H1 =37, H2 =40, H3 =39

Nast¦pnie warto±ci progowe danych grup (Tj), przy zaªo»eniu, »e α =0.5.

T1= H1− α(H1− T ) =37

T2= H2− α(H2− T ) =40 − 0, 5 ∗ (40 − 37) = 38, 5 T3= H3− α(H3− T ) =39 − 0, 5 ∗ (39 − 37) = 38

(40)

OTRZYMANE GRUPY:

Porównuj¡c warto±ci funkcji punktuj¡cej z warto±ciami progowymi wedªug wzoru

Sj = {di : g (di, Pj) ≥ Tj }

otrzymujemy nowe grupy których jest m + 1 poniewa» tworzy si¦

jeszcze jedna grupa, grupa obiektów swobodnych (niesklasykowanych).

X1= {x3} X2= {x2, x6, x7} X3= {x5, x9, x10} Grupa obiektów swobodnych: L = {x1, x4, x8}

(41)

α - wspóªczynnik skaluj¡cy

α =0

T1= H1− α(H1− T ) =37, T2= H2− α(H2− T ) =40 − 0 ∗ (40 − 37) = 40, T3= H3− α(H3− T ) =39 − 0 ∗ (39 − 37) = 39

X1= {x3}, X2= {x6}, X3= {x5, x9}, Grupa obiektów swobodnych:

L = {x1, x2, x4, x7, x8, x10}

α =0.5

T1= H1− α(H1− T ) =37, T2= H2− α(H2− T ) =40 − 0 ∗ (40 − 37) = 40 , T3= H3− α(H3− T ) =39 − 0 ∗ (39 − 37) = 39

X1= {x3}, X2= {x2, x6, x7}, X3= {x5, x9, x10}, Grupa obiektów swobodnych:

L = {x1, x4, x8}

α =1

T1= H1− α(H1− T ) =37, T2= H2− α(H2− T ) =40 − 1 ∗ (40 − 37) = 37, T3= H3− α(H3− T ) =39 − 1 ∗ (39 − 37) = 37

X1= {x3}, X2= {x2, x6, x7}, X3= {x5, x8, x9, x10}, Grupa obiektów swobodnych:

L = {x1, x4}

(42)

II ITERACJA

Aby wykona¢ kolejn¡ iteracj¦ algorytmu przyporz¡dkujemy obiekty swobodne do grup ale innych ni» wyst¦powaªy w poprzedniej iteracji, wtedy otrzymujemy nowy podziaª grup. Caªa operacja kolejnych iteracji si¦ ko«czy, kiedy otrzymujemy po raz kolejny ten sam podziaª.

Tworzymy wektory opisuj¡ce ka»d¡ grup¦:

X1 C1 F1 R1 P1 X2 C2 F2 R2 P2 X3 C3 F3 R3 P3

(43)

Obliczamy warto±¢ funkcji punktuj¡cej g(di, Pj)dla ka»dego dokumentu dii prolu Pj: g (xi , Pj ) P1 P2 P3

x1x2 x3x4 x5x6 x7x8 x10x9

Warto±c progowa: T =min(g (di ,Pj ))+max (g (di ,Pj ))

2 =

H1=, H2=,H3= Warto±ci progowe grup:

T1= T2= T3=

OTRZYMANE GRUPY:

X1= {}

X2= {}

,X3= {}

, oraz grupa obiektów swobodnych:.L = {}

(44)

Wyszukiwanie

Pytanie do systemu zadajemy w postaci termu t b¦d¡cego sum¡ termów skªadowych. Odpowied¹ na pytanie b¦dzie sum¡

odpowiedzi na termy skªadowe.

Proces znajdowania odpowiedzi na term skªadowy tj:

Porównujemy term skªadowy z centroidami grup i znajdujemy odpowied¹ przybli»on¡ Xj.

σ(tj) ≈ Xj = {Xi⊆ X , tj ≤ Ci}, gdzie: Xi= (Ci, {txi}).

Odpowied¹ dokªadn¡ znajdujemy metod¡ przegl¡du zupeªnego obiektów wybranych grup:

σ(tj) = {xi ∈ Xj, tj≤ txi}.

(45)

Wyszukiwanie w systemie SMART Saltona

Wyszukiwanie informacji wedªug Saltona opiera si¦ na badaniu podobie«stwa (b¡d¹ korelacji) dokumentów z pytaniemq zadanym przez u»ytkownika. Stosuj¡c dowoln¡ miar¦ podobie«stwa b¡d¹ korelacji znajdujemy dokumenty o odpowiednio wysokim stopniu podobie«stwa i uznajemy je za relewantne wzgl¦dem pytaniaq . Dokument relewantny

Dokumentd jest relewantny wzgl¦dem pytaniaq wtedy i tylko wtedy gdy w opisie dokumentud wyst¦puj¡ wszystkie

niezaprzeczone deskryptory pytaniaq i w opisie tym nie wyst¦puje

»aden z deskryptorów zaprzeczonych pytaniem.

(46)

W tradycyjnych systemach nie realizuje si¦ ju» peªnego przeszukiwania dost¦pnych zbiorów dokumentów, ale s¡ one dzielone na pewne grupy, co pozwala ograniczy¢ przeszukiwanie do kilku z nich. Ta sama procedura mo»e by¢ równie» stosowana w automatycznym systemie - przez tworzenie grup zwi¡zanych dokumentów i wyszukiwania jedynie w ramach pewnych grup.

Przykªad takiej metody:

porównuj¡c pewne parametry wybranego dokumentu z odpowiednimi parametrami pozostaªych dokumentów, dokonuje si¦ wyboru i grupowania tych dokumentów, których parametry s¡ dostatecznie podobne.

Dla ka»dej utworzonej grupy wybiera si¦ pewien element reprezentatywny, zwany wektorem centroidalnym. Jest on po¹niej u»ywany do

reprezentowania caªego zbioru dokumentów tej grupy.

Wyszukiwanie przebiega w 2 etapach: pytanie porównuje si¦ z

reprezentantami wszystkich grup dokumentów, w drugim przeszukiwanie wszystkich dokumentów z grup o du»ym stopniu podobie«stwa z reprezentantem.

(47)

Metody wyszukiwania w metodzie Saltona

W zale»no±ci od tego, czy dysponujemy utworzon¡ wcze±niej struktur¡ grup dokumentów z ich reprezentantami (centroidem b¡d¹ prolem w zale»no±ci od tego jaki algorytm grupowania zostaª zastosowany) czy te» nie, wyszukiwanie informacji w metodzie Saltona realizowane jest wedªug jednej z podanych metod:

sekwencyjna- peªna (ang. full search), strukturalna (ang. tree search).

(48)

Metoda sekwencyjna

Metoda sekwencyjnanie bazuje na klasykacji dokumentów w grupy. Pytanie kierowane do systemu jest korelowane z ka»dym dokumentem oraz obliczany jest wspóªczynnik korelacji

(podobie«stwa) pytania z ka»dym dokumentem. Jako odpowied¹ system wybiera te dokumenty, dla których ów wspóªczynnik jest wi¦kszy od zaªo»onej warto±ci progowej (pmin). Metoda dokonuje przegl¡du zupeªnego wszystkich dokumentów, jest zatem

czasochªonna. Inn¡ jej wad¡ jest fakt, »e zªe dobranie warto±ci progowej (pmin ) mo»e negatywnie wpªyn¡¢ na efekty wyszukiwania.

Im mniejszy wspóªczynnik progowypmin , tym wi¦cej dokumentów uznana b¦dzie za odpowied¹ na pytanie. Im jego warto±¢ b¦dzie wy»sza, tym mniej dokumentów speªni warunek wymagany (czyli warto±¢ podobie«stwa≥ pmin).

(49)

Wyszukiwanie strukturalne

Po powi¡zaniu dokumentów w zbiorze wyj±ciowym przeprowadza si¦

dwuetapow¡ operacj¦ wyszukiwania:

Pytanie najpierw porównuje si¦ z reprezentantami wszystkich grup.

Nast¦pnie pytanie jest porównywane z dokumentami z grup o najwy»szym wspóªczynniku korelacji, lub alternatywnie, z dokumentami z wszystkich grup takich, »e wspóªczynnik korelacji ich reprezentanta z pytaniem przekracza zadany próg.

(50)

Metoda strukturalna

Metoda strukturalnajest ±ci±le zwi¡zana ze struktur¡ bazy danych (struktur¡ pni i grup) i mo»e by¢ realizowana jedn¡ z trzech technik:

metod¡ pnia najbardziej obiecuj¡cego,

metod¡ porównywania pni (nazywan¡ te» metod¡ z nawrotami),

metod¡ minimalnej warto±ci progowej.

Idea metody jest nast¦puj¡ca. Obliczamy wspóªczynnik korelacji pytania z pniami i wybieramy pie« (lub pnie) najbardziej obiecuj¡cy, czyli ten o najwy»szym wspóªczynniku korelacji b¡d¹ korelacji wi¦kszej ni» pewna warto±¢ progowa. Wszystko zale»y od tego jak¡

technik¦ z tych wy»ej wymienionych wybrali±my.

(51)

Metoda pnia najbardziej obiecuj¡cego

Metodapnia najbardziej obiecuj¡cegojest zdecydowanie najbardziej popularna i najszybsza. Na ka»dym etapie wyznaczania korelacji pytania z reprezentantami grup b¡d¹ pni wybieramy tylko pie«

(b¡d¹ grup¦) najbardziej obiecuj¡cy, nawet je±li inny pie« czy grupa miaªy korelacj¦ tylko nieznacznie mniejsz¡. Oznacza to, »e

odpowied¹ systemu mo»e nie by¢ kompletna, bowiem mo»emy pomin¡¢ dokumenty stanowi¡ce odpowied¹ na pytanie tylko dlatego, »e nale»aªy do grupy o mniejszym ni» najwy»szy mo»liwy wspóªczynnik korelacji.

(52)

Metoda porównywania pni

Metodaporównywania pnipozwala zawsze werykowa¢ ju» na poziomie grup czy który± z pomini¦tych pni nie powinien by¢ jednak uj¦ty w dalszym przegl¡dzie. Zdarzy si¦ tak w sytuacji, gdy na poziomie pni wybrali±my ten o najwy»szym podobie«stwie z pytaniem jednak na poziomie grup wspóªczynnik korelacji z pytaniem b¦dzie mniejszy ni» dla którego± z pomini¦tych pni.

Wówczas wracamy do tak pomini¦tego pnia i sprawdzamy korelacj¦

pytania z wszystkimi grupami w ramach tego pnia. Ostatecznie jako odpowied¹ wybieramy wszystkie grupy o najwy»szym wspóªczynniku korelacji. Mo»na zauwa»y¢, »e metoda (w przypadku realizacji nawrotów) pochªania wi¦cej czasu. Jej zalet¡ jest jednak fakt, »e w szczególnym przypadku mo»e zwi¦kszy¢ kompletno±¢ odpowiedzi.

(53)

Metoda minimalnej warto±ci progowej p

min

Metodaminimalnej warto±ci progowej pminpozwala u»ytkownikowi decydowa¢ o efektywno±ci systemu. Na poziomie pni i grup wyznaczana jest korelacja pytania z reprezentantami i do dalszej analizy wybierane s¡ tylko te pnie czy grupy, dla których

wspóªczynnik korelacji byª nie mniejszy ni» zaªo»ona warto±¢

progowa. To u»ytkownik okre±la warto±¢pmin. Mo»e si¦ wi¦c zdarzy¢, »e warto±¢ podana w ten sposób b¦dzie albo za du»a albo za maªa. Za maªa sprawi, »e do odpowiedzi systemu zaliczone b¦d¡

tak»e dokumenty, które nie s¡ tak naprawd¦ relewantne wzgl¦dem pytania. Za du»a warto±¢pmin z kolei mo»e doprowadzi¢ do sytuacji, w której »aden z pni czy grup nie speªni wymaganej warto±ci minimalnej i u»ytkownikowi zostanie zwrócony pusty zbiór jako odpowied¹, podczas gdy tak naprawd¦ w systemie istniaªy dokumenty stanowi¡ce odpowied¹ na zadane pytanie. Konieczno±¢

ustalenia warto±ci progowej przez u»ytkownika mo»e by¢ wi¦c istotn¡ wad¡ tej metody. Oczywi±cie niska warto±¢pmin przekªada si¦ tak»e na wydªu»enie czasu przeszukiwania.

(54)

Przykªad wyszukiwania strukturalnego

Maj¡c reprezentacj¦ pni i grup:

poziom pni:

P1=[0, 10, 11, 2, 7, 3, 4, 0, 1, 0]

P2=[10, 0, 0, 9, 2, 11, 2, 10, 7, 0]

P3=[1, 0, 1, 12, 10, 3, 10, 4, 6, 11]

poziom grup:

G11=[0, 6, 7, 2, 3, 4, 0, 1, 3, 2]

G12=[1, 8, 9, 1, 4, 0, 2, 3, 2, 2, 1]

G21=[0, 1, 3, 12, 1, 6, 0, 9, 10, 1]

G22=[1, 3, 2, 6, 2, 5, 0, 10, 9, 3]

G31=[1, 0, 3, 9, 10, 0, 12, 2, 4, 0]

G32=[2, 1, 3, 10, 8, 1, 13, 1, 2, 1]

G33=[3, 4, 2, 11, 7, 0, 12, 2, 1, 3]

Chcemy omówi¢ sposób wyszukiwania dla pytania:

q = [5, 3, 0, 10, 6, 1, 13, 2, 0, 1]

(55)

Wykorzystamy odpowiedni wzór

na korelacj¦ (f. podobie«stwa) w omawianym procesie wyszukiwania.

(56)

Metoda pnia najbardziej obiecuj¡cego

Idea: porównujemy pytanie q z reprezentantami pni (P1,P2 i P3) i wybieramy pie« najbardziej obiecuj¡cy, czyli ten o najwy»szym wspóªczynniku korelacji z pytaniem q. Podstawiaj¡c do wzoru, warto±ci dla poszczególnych pni, uzyskujemy:

ovlap(q, P1) = 0+3+0+2+6+1+4+0+0+0

min{38,41} = 1638 =0.42 ovlap(q, P2) = 5+0+0+9+2+1+2+2+0+0

min{51,41} = 2141 =0.51 ovlap(q, P3) = 1+0+0+10+6+1+10+2+0+1

min{58,41} = 3141 =0.76

Wyniki wskazuj¡, »e najbardziej obiecuj¡cy jest pie« P3, dlatego te»

nast¦pnie nale»y obliczy¢ podobie«stwo z grupami tego pnia.

ovlap(q, G31) = 1+0+0+9+6+0+12+2+0+0

min{41,41} = 3041 =0.73 ovlap(q, G32) = 2+1+0+10+6+1+13+1+0+1

min(42,41} = 3541 =0.85 ovlap(q, G33) = 3+3+0+10+6+0+12+2+0+1

min(45,41} = 3741 =0.90 Z tego wynika, »e najbardziej odpowiadaj¡c¡ grup¡ jest G33 i dokumenty zawarte w tej grupie zwrócone b¦d¡ u»ytkownikowi do dalszego przeszukiwania.

(57)
(58)

Metoda porównywania pni

Idea: podobna do metody pnia najbardziej obiecuj¡cego. Metoda jednak po wyborze w 1 kroku pnia najbardziej obiecuj¡cego i wyznaczaniu stopnia korelacji pytania Q z reprezentantami grup w wybranym pniu korelacja ta b¦dzie porównana z warto±ci korelacji pytania z pomini¦tymi pniami. Je±li który± z pomini¦tych pni miaªby korelacj¦ wi¦ksz¡ ni» aktualnie analizowane grupy, wrócimy do pomini¦tego pnia i wyznaczymy korelacj¦ jego grup z pytaniem.

Ostatecznie odpowiedzi¡ na pytanie Q b¦d¡ dokumenty grup o najwy»szym wspóªczynniku korelacji (najbardziej obiecuj¡ce, mo»e by¢ ich wiele).

(59)

Metoda porównywania pni c.d.

Podstawiaj¡c do wzoru, warto±ci dla poszczególnych pni, uzyskujemy: ovlap(q, P1) = 0+3+0+2+6+1+4+0+0+0

min{38,41} = 1638 =0.42 ovlap(q, P2) = 5+0+0+9+2+1+2+2+0+0

min{51,41} = 2141 =0.51 ovlap(q, P3) = 1+0+0+10+6+1+10+2+0+1

min{58,41} = 3141 =0.76

Wyniki wskazuj¡, »e najbardziej obiecuj¡cy jest pie« P3, dlatego te»

nast¦pnie nale»y obliczy¢ podobie«stwo z grupami tego pnia.

ovlap(q, G31) = 1+0+0+9+6+0+12+2+0+0

min{41,41} = 3041 =0.73 ovlap(q, G32) = 2+1+0+10+6+1+13+1+0+1

min(42,41} = 3541 =0.85 ovlap(q, G33) = 3+3+0+10+6+0+12+2+0+1

min(45,41} = 3741 =0.90

Porównujemy teraz warto±ci tych korelacji z wspóªczynnikami przy pomini¦tych pniach P1 i P2. ›aden z pomini¦tych pni nie miaª korelacji wi¦kszej ni» te uzyskane dla grup w ramach pnia P3.

Zatem wybieramy grup¦ najbardziej obiecuj¡c¡ tylko w tym pniu i jest to podobnie jak w przypadku poprzedniej metody  tylko grupa G33 . Dokumenty zawarte w tej grupie zwrócone b¦d¡

u»ytkownikowi do dalszego przeszukiwania.

(60)
(61)

Metoda minimalnej warto±ci progowej

Idea: ustalona b¦dzie minimalna warto±¢ progowapmin, jak¡ musz¡

speªni¢ pnie, grupy by zosta¢ uznane za odpowied¹ na pytanie.

Podobnie jak w przypadku poprzednich dwóch metod, wyszukiwanie w pierwszym kroku ma miejsce na najwy»szym poziomie hierarchii tj. na poziomie pni. Do dalszego przegl¡du wybrane s¡ pni, których korelacja z pytaniem speªnia zadany próg minimalny (pmin). Schodzimy na poziom grup (w wybranych pniach). Wyznaczamy podobie«stwo pytania z grupami (wybranych pni). Wybieramy grupy speªniaj¡ce zadany prógpmin. Zalety rozwi¡zania: to my sterujemy poziomem podobie«stwa. Wady: im wy»szy wspóªczynnikpmintym mniej grup/pni mo»e by¢ wybranych do dalszego przegl¡du i odwrotnie. Im ni»szy wspóªczynnikpmintym wi¦cej grup/pni mo»e by¢ uznanych za odpowied¹ co utrudni przegl¡d wybranych dokumentów w realnym czasie.

(62)

Metoda minimalnej warto±ci progowej c.d.

Podstawiaj¡c do wzoru, warto±ci dla poszczególnych pni, uzyskujemy:

ovlap(q, P1) =0+3+0+2+6+1+4+0+0+0

min{38,41} =1638 =0.42 ovlap(q, P2) =5+0+0+9+2+1+2+2+0+0

min{51,41} =2141 =0.51 ovlap(q, P3) =1+0+0+10+6+1+10+2+0+1

min{58,41} =3141=0.76 Mo»liwe przypadki:

dla pmin=0, 40 do dalszego przegl¡du wybierzemy wszystkie pnie:

zarówno pie« P1,P2jak i P3.

dla pmin=0, 50 do dalszego przegl¡du wybierzemy zarówno pie« P2jak i P3.

dla pmin=0, 60 do dalszego przegl¡du wybierzemy tyko P3.

dla pmin=0, 80 do dalszego przegl¡du NIE wybierzemy »adnego pnia, a wi¦c i »adnej grupy a u»ytkownikowi zostanie zwrócona odpowied¹ w postaci braku dokumentów speªniaj¡cych kryteria zapytania.

pmin=0, 75 wyszukiwanie przebiegnie nast¦puj¡co: do dalszego przegl¡du wybierzemy tylko pie« P3. Wyznaczymy korelacj¦ pytania Q z grupami w wybranym pniu P3:

ovlap(q, G31) =1+0+0+9+6+0+12+2+0+0

min{41,41} =3041=0, 73 ovlap(q, G32) =2+1+0+10+6+1+13+1+0+1

min{42,41} =3541=0, 85 ovlap(q, G33) =3+3+0+10+6+0+12+2+0+1

min{45,41} =3741=0, 90

Zadany próg pmin jest speªniony przez 2 z 3 grup tego pnia: G32i G33i dokumenty tych dwóch grup zostan¡ zwrócone u»ytkownikom jako odpowied¹.

(63)
(64)

Inny przykªad

Struktura przedstawiona poni»ej przedstawia system po grupowaniu dziewi¦ciu dokumentów o opisach: AC, ABD, A, BD, CE, ABD, BE, BC oraz BD. W wyniku powstaªy trzy grupy dokumentów uj¦te nast¦pnie w dwa pnie. Dla ka»dej grupy i pnia dysponujemy reprezentantem zªo»onym z poj¦¢ charakteryzuj¡cych dan¡ grup¦.

A, C, D

A, C C, D

B, C, E

B, C, E

B, D C, E

A, C A, B, D A A, B, D B, E B, C B, D

Rysunek:Struktura hierarchiczna jako wynik grupowania

(65)

Wyszukiwanie - przykªad

Sposób wyszukiwania dla takiej struktury dokumentów wygl¡daªby nast¦puj¡co. Zaªó»my, »e do systemu zadano pytanie postaci q = AC

Wyszukiwanie metod¡ pnia najbardziej obiecuj¡cego:

1 Na poziomie reprezentantów grup: wyznaczenie korelacji pytania q z reprezentantami pni, a wi¦c z wektorami: ACD oraz BCE.

2 W ramach wybranego najbardziej obiecuj¡cego pnia wyznaczenie korelacji pytania q z reprezentantami grup.

U»yjemy w tym celu prostej miary dopasowania (przedstawionej wcze±niej):

p(d , q) =d ∩ q d ∪ q

(66)

Wyszukiwanie - przykªad

I etap

Wyznaczenie korelacji pytania q z reprezentantami pni, a wi¦c z wektorami:

ACDoraz BCE. U»yjemy w tym celu prostej miary dopasowania (przedstawionej wcze±niej):

p(d , q) = d ∩ q d ∪ q

W naszym przypadku warto±¢ korelacji pytania t z reprezentantem pierwszego pnia wyniesie:

p(AC , ACD) =AC ∩ ACD AC ∪ ACD

= AC ACD = 2

3=0, 67 i odpowiednio z reprezentantem drugiego pnia:

p(AC , BCE ) = AC ∩ BCE AC ∪ BCE

= C

ABCE =1 4 =0, 25 Pie« najbardziej obiecuj¡cy to pie« pierwszy z reprezentatem ACD.

Cytaty

Powiązane dokumenty

Istotą tego aforyzmu jest po- stulat, by liczby naturalne traktować jako pojęcia pierwotne, nie wymagające definicji, wszystkie zaś pozostałe typy liczb powinny być definiowane, a

Wielomian stopnia nieparzystego posiada przynajmniej jeden pierwiastek..

Wielomian stopnia nieparzystego posiada przynajmniej jeden pierwiastek rzeczywisty..

Tablica zakotwicze« jest identyczna z tym tylko zastrze»eniem, »e jej pierwsza kolumna zawiera adres ostatniego obiektu zawieraj¡cego w opisie deskryptor d i.. Wybranie

Następnym krokiem jest utworzenie grup poprawionych (j-tą Następnym krokiem jest utworzenie grup poprawionych (j-tą grupę poprawioną oznaczamy przez Sj’). Na grupę Sj’..

Domyślny inicjalizujący pola klasy dowolnymi wartościami, a także drugi inicjalizowany czterema parametrami: imie, nazwisko, stanowisko, stazPracy. Klasa

Dla wszystkich obiektów klasy Ksiazka powinna zostać wywołana metoda PrzedstawSie(), natomiast dla obiektów klasy Film na ekran powinno zostać wypisane nazwisko reżysera oraz

(a) Jeżeli obiekt jest określony przez nazwę, stosujemy operator w postaci kropki, wpisywanej pomiędzy na- zwą obiektu a nazwą składowej, na przykład wywo- łanie