SYSTEMY SYSTEMY WYSZUKIWANIA WYSZUKIWANIA INFORMACJIINFORMACJI

(1)

SYSTEMY SYSTEMY

WYSZUKIWANIA WYSZUKIWANIA

INFORMACJI INFORMACJI

METODA DOYLE’A METODA DOYLE’A

Łukasz Kajzer, WSTI GR. 5CZ, styczeń 2007

(2)

Trochę czystej teorii…

 Metoda Doyle'a Metoda Doyle'a to metoda wyszukiwania to metoda wyszukiwania informacji w bazie danych.

informacji w bazie danych.

 Na początek przedstawię algorytm Na początek przedstawię algorytm

słowny tej metody, a później zajmiemy słowny tej metody, a później zajmiemy

się konkretnym przykładem

się konkretnym przykładem  

(3)

Algorytm słowny Doyle’a Algorytm słowny Doyle’a

1.1. Dokonujemy wstępnego podziału dokumentów na m Dokonujemy wstępnego podziału dokumentów na m grup.

grup.

2.2. Dla każdej z grup wypisujemy zbiór obiektów ją Dla każdej z grup wypisujemy zbiór obiektów ją tworzących - Sj, oraz zbiór deskryptorów

tworzących - Sj, oraz zbiór deskryptorów

występujących w opisach dokumentów tejże grupy - występujących w opisach dokumentów tejże grupy -

Cj; gdzie j oznacza numer grupy. Następnie dla Cj; gdzie j oznacza numer grupy. Następnie dla

każdej z grup zliczamy ilość deskryptorów każdej z grup zliczamy ilość deskryptorów

opisujących jej elementy; zapamiętujemy największą opisujących jej elementy; zapamiętujemy największą

wartość i inkrementujemy ją - otrzymamy wartość wartość i inkrementujemy ją - otrzymamy wartość

bazową – b.

(4)

Algorytm słowny Doyle’a Algorytm słowny Doyle’a

3.3. Dla każdego deskryptora, każdej z grup, dokonujemy Dla każdego deskryptora, każdej z grup, dokonujemy zliczenia liczby wystąpień danego deskryptora w

zliczenia liczby wystąpień danego deskryptora w opisach dokumentów tejże grupy. Tworzymy w ten opisach dokumentów tejże grupy. Tworzymy w ten

sposób wektor częstości i oznaczamy (dla j-tej grupy) sposób wektor częstości i oznaczamy (dla j-tej grupy)

przez Fj.

4.4. W ramach grupy przydzielamy każdemu z W ramach grupy przydzielamy każdemu z

deskryptorów odpowiednią rangę. Rangę 1 otrzymuje deskryptorów odpowiednią rangę. Rangę 1 otrzymuje

deskryptor o największej częstości wystąpień, rangę deskryptor o największej częstości wystąpień, rangę

2 kolejny, itd. W przypadku takiej samej częstości 2 kolejny, itd. W przypadku takiej samej częstości

wystąpień dla dwu, lub więcej, deskryptorów wystąpień dla dwu, lub więcej, deskryptorów

przydzielamy im tą samą rangę. Otrzymujemy wektor przydzielamy im tą samą rangę. Otrzymujemy wektor

rangi opisujący grupę i oznaczamy przez Rj.

(5)

Algorytm słowny Doyle’a Algorytm słowny Doyle’a

5.5. Kolejnym krokiem jest obliczenie wektora profilu Kolejnym krokiem jest obliczenie wektora profilu grupy - Pj. Poszczególne współrzędne wektora grupy - Pj. Poszczególne współrzędne wektora

otrzymamy poprzez wyliczenie różnicy pomiędzy otrzymamy poprzez wyliczenie różnicy pomiędzy

wartością bazową – b a rangą, dla każdego z wartością bazową – b a rangą, dla każdego z

deskryptorów.

6.6. Obliczamy wartość funkcji punktującej – g(di,Pj) dla Obliczamy wartość funkcji punktującej – g(di,Pj) dla każdego dokumentu i każdego profilu. Wartość

każdego dokumentu i każdego profilu. Wartość

funkcji punktującej jest sumą wartości współrzędnych funkcji punktującej jest sumą wartości współrzędnych

wektora profilu, odpowiadającym deskryptorom wektora profilu, odpowiadającym deskryptorom

opisującym system, dla tegoż dokumentu w danej opisującym system, dla tegoż dokumentu w danej grupie. Obliczamy wartość funkcji punktującej dla grupie. Obliczamy wartość funkcji punktującej dla

każdego dokumentu z każdym profilem.

(6)

Algorytm słowny Doyle’a Algorytm słowny Doyle’a

7.7. Dla każdego dokumentu zapamiętujemy największą wartość Dla każdego dokumentu zapamiętujemy największą wartość funkcji g(di,Pj), oraz numer profilu, z którym ją uzyskano.

funkcji g(di,Pj), oraz numer profilu, z którym ją uzyskano.

8.8. Dla każdej z grup dokonujemy obliczenia współczynnika Hj, Dla każdej z grup dokonujemy obliczenia współczynnika Hj, gdzie Hj = max(g(di,Pj)).

gdzie Hj = max(g(di,Pj)).

9.9. Obliczamy wartość progową funkcji punktującej dla każdej z Obliczamy wartość progową funkcji punktującej dla każdej z grup:

grup:

 gdzie T jest założoną wartością progowa, a jest gdzie T jest założoną wartością progowa, a jest 

nazywana mocą związania dokumentów w grupę, 0< <1.  nazywana mocą związania dokumentów w grupę, 0< <1.  Jednym ze sposobów obliczenia wartości T polega na Jednym ze sposobów obliczenia wartości T polega na obliczeniu jej z wzoru: T =

obliczeniu jej z wzoru: T = max[max(g(di,Pj))+min(g(di,Pj))] div 2.

max[max(g(di,Pj))+min(g(di,Pj))] div 2.

(7)

Algorytm słowny Doyle’a Algorytm słowny Doyle’a

7.7. Następnym krokiem jest utworzenie grup poprawionych (j-tą Następnym krokiem jest utworzenie grup poprawionych (j-tą grupę poprawioną oznaczamy przez Sj’). Na grupę Sj’

grupę poprawioną oznaczamy przez Sj’). Na grupę Sj’

składają się takie dokumenty, których wartość funkcji składają się takie dokumenty, których wartość funkcji punktującej z profilem Pj jest większa od wyliczonej punktującej z profilem Pj jest większa od wyliczonej uprzednio wartości Tj.

uprzednio wartości Tj.

8.8. W ten sposób oprócz zakładanych wcześniej m grup W ten sposób oprócz zakładanych wcześniej m grup otrzymaliśmy jeszcze jedną grupę, na którą składają się otrzymaliśmy jeszcze jedną grupę, na którą składają się

dokumenty, które w procesie grupowania nie znalazły się w dokumenty, które w procesie grupowania nie znalazły się w żadnej z utworzonych grup. Grupę tą nazywamy grupą

żadnej z utworzonych grup. Grupę tą nazywamy grupą dokumentów swobodnych.

dokumentów swobodnych.

9.9. Algorytm należy powtarzać do momentu, w którym skład Algorytm należy powtarzać do momentu, w którym skład utworzonych grup nie ulegnie zmianie.

utworzonych grup nie ulegnie zmianie.

(8)

… … no to może konkrety :) no to może konkrety :)

 Pewnie wielu z Was pomyśli sobie teraz – Pewnie wielu z Was pomyśli sobie teraz –

„ Ale o co chodzi ??”.

Znam to doskonale – moje początki także Znam to doskonale – moje początki także były trudne. Czas więc rozwiać wszelakie były trudne. Czas więc rozwiać wszelakie

wątpliwości pokazując algorytm Doyle’a wątpliwości pokazując algorytm Doyle’a

krok po kroku na przykładzie.

Pozostało wziąć głęboki wdech i Pozostało wziąć głęboki wdech i

zaczynamy…

(9)

UWAGA ! ! ! UWAGA ! ! !

Słownictwo użyte podczas przykładu Słownictwo użyte podczas przykładu

NIE JEST NIE JEST

prawidłowym słownictwem w Systemach prawidłowym słownictwem w Systemach Wyszukiwania Informacji, jednakże pozwala Wyszukiwania Informacji, jednakże pozwala

szybko i prosto zrozumieć praktyczne szybko i prosto zrozumieć praktyczne rozwiązywanie problemów metodą Doyle’a.

rozwiązywanie problemów metodą Doyle’a.

Wszystkie stwierdzenia potoczne należy odnieść Wszystkie stwierdzenia potoczne należy odnieść

w kontekście przedstawionego Algorytmu w kontekście przedstawionego Algorytmu

Słownego !!!

(10)

Przykład zastosowania Przykład zastosowania

metody Doyle’a metody Doyle’a

 Rzeczy, które znać musimy przed Rzeczy, które znać musimy przed

przystąpieniem do wyjaśnienia (dla osób, przystąpieniem do wyjaśnienia (dla osób, które od razu przejdą do tego podpunktu) które od razu przejdą do tego podpunktu)

 S S

_j_j

– wektor dokumentów – wektor dokumentów

 C C

_j_j

– wektor pojęć – wektor pojęć

 R R

_j_j

– wektor rang – wektor rang

 P P

_j_j

– profil (odpowiednik centroidu) – profil (odpowiednik centroidu)

 F F

_j_j

– wektor częstotliwości – wektor częstotliwości

(11)

Tak wygląda przykładowy Tak wygląda przykładowy

zadany nam problem zadany nam problem

w postaci tabeli…

c1 c2 c3 c4 c5 c6 c7 c8 c9 c10

d1 d2 d3 d4 d5 d6 d7 d8 d9

1 1 1 1

1 1 1

1

(12)

Pierwszym krokiem jest Pierwszym krokiem jest

ustalenie sobie grup S ustalenie sobie grup S

c1 c2 c3 c4 c5 c6 c7 c8 c9 c10

d1

1

d2 d3 d4 d5 d6 d7 d8 d9

1

1 1

1 1 1

S

₁

S

₂

S

₃

(13)

W kolejnym kroku tworzymy tabele, w której W kolejnym kroku tworzymy tabele, w której

reprezentujemy podane na początku wartości reprezentujemy podane na początku wartości SS_j_j – ta kolumna symbolizuje numer grupy (u – ta kolumna symbolizuje numer grupy (u nas nas 1,2,3)1,2,3)

CC_j_j – wektor pojęć, czyli spisujemy w kolumnie, – wektor pojęć, czyli spisujemy w kolumnie, które C mieszczą się w konkretnych

które C mieszczą się w konkretnych grupach

grupach

FF_j_j – wektor częstotliwości to nic innego jak – wektor częstotliwości to nic innego jak

liczba „1” występująca w danej kolumnie liczba „1” występująca w danej kolumnie CC

PP_j_j – profil to różnica pomiędzy wartością – profil to różnica pomiędzy wartością bazową

bazową (łatwo ją wyznaczyć, gdyż jest do (łatwo ją wyznaczyć, gdyż jest do wartość

wartość najdłuższego wektora C z grup najdłuższego wektora C z grup powiększona o 1) a wektorem rang…

powiększona o 1) a wektorem rang…

RR_j_j––rangi przypisuje się podobnie jak pozycje w rangi przypisuje się podobnie jak pozycje w zawodach sportowych – im większy

zawodach sportowych – im większy wektor

wektor częstotliwości, tym wyższa ranga (1 częstotliwości, tym wyższa ranga (1 oznacza najwyższą)

oznacza najwyższą)

(14)

Tak prezentuje się nasza tabela Tak prezentuje się nasza tabela zgodnie z poprzednimi założeniami zgodnie z poprzednimi założeniami

S1 C1 F1 R1 P1 S2 C2 F2 R2 P2 S3 C3 F3 R3 P3 d1 C1 2 1 5 d4 C4 1 3 3 d7 C6 2 2 4 d2 C2 2 1 5 d5 C5 2 2 4 d8 C8 2 2 4 d3 C3 2 1 5 d6 C6 2 2 4 d9 C9 3 1 5

C4 2 1 5 C7 3 1 5 C

10 2 2 4 C8 1 3 3

(15)

Na podstawie poprzedniej tabelki generujemy Na podstawie poprzedniej tabelki generujemy

kolejną tzw. funkcję punktującą g(d

kolejną tzw. funkcję punktującą g(d_i_i,P,P_j_j). ).

Jak to wygląda praktycznie ? Jak to wygląda praktycznie ?

Otóż bierzemy rząd np. d

Otóż bierzemy rząd np. d₁₁a następnie a następnie sumujemy wszystkie wartości P

sumujemy wszystkie wartości P₁₁ z tabeli biorąc z tabeli biorąc pod uwagę te wektory C w których „1”

pod uwagę te wektory C w których „1”

występuje w danym rzędzie. Ponieważ „1”

mamy w C

mamy w C₁₁, C, C₃₃, C, C₄₄których wartość Pktórych wartość P₁₁ dla dla

wszystkich jest 5, więc suma 5+5+5 daje nam wszystkich jest 5, więc suma 5+5+5 daje nam

15 co umieszczamy w tabeli. Analogicznie 15 co umieszczamy w tabeli. Analogicznie

postępujemy z d

postępujemy z d_x_x w pozostałych grupach. w pozostałych grupach.

(16)

Musimy stworzyć taką oto tabelę, Musimy stworzyć taką oto tabelę,

a następnie wyznaczyć H

_max_max

P1 P2 P3

d1 15 3 0

d2 10 0 0

d3 15 3 0

d4 0 13 4

d5 5 12 4

d6 0 12 4

d7 0 4 13

d8 0 3 13

d9 0 7 13

(17)

HH_max_max wyznacza największa wartość funkcji wyznacza największa wartość funkcji punktującej dla danej grupy (u nas P

punktującej dla danej grupy (u nas P₁₁15, 15, PP₂₂13, P13, P₃₃13)13)

Obszary zaznaczone na czerwono to wartości Obszary zaznaczone na czerwono to wartości

mieszczące się w zakresie wartości mieszczące się w zakresie wartości

uśrednionej.

Wartość uśredniona, można przyjąć, iż jest to Wartość uśredniona, można przyjąć, iż jest to

(max+min)/2 co dla naszego przypadku (max+min)/2 co dla naszego przypadku

wyznacza wartość 9 ((15+3)/2=9) wyznacza wartość 9 ((15+3)/2=9)

Wykorzystamy ją teraz do wyznaczenia progu Wykorzystamy ją teraz do wyznaczenia progu

klasyfikacji klasyfikacji

T T

_j_j

= H = H

_j_j

– – α α (H (H

_j_j

– T) – T)

αα to tzw. czynnik skalujący przyjmowany empirycznie to tzw. czynnik skalujący przyjmowany empirycznie pomiędzy 0 a 1

pomiędzy 0 a 1

(18)

Wyznaczamy kolejne T

Wyznaczamy kolejne T₁₁, T, T₂₂, T, T₃₃ dla dla poszczególnych grup tj.

poszczególnych grup tj.

TT₁₁ = 15 - 0,5 (15 – 9) = 15 – 3 = 12 = 15 - 0,5 (15 – 9) = 15 – 3 = 12 TT₂₂= 13 – 0,5 (13 – 9) = 13 – 2 = 11= 13 – 0,5 (13 – 9) = 13 – 2 = 11 TT₃₃ = 13 – 0,5 (13 – 9) = 13 – 2 = 11 = 13 – 0,5 (13 – 9) = 13 – 2 = 11 a następnie sprawdzamy czy funkcja a następnie sprawdzamy czy funkcja

punktująca jest > od T punktująca jest > od T_j_j

g (dg (d_i_i,P,P_j_j) ≥ T) ≥ T_j_j więc:

więc:

SS₁₁′′ = {d = {d₁₁,d,d₃₃}} SS₂₂′′ = {d = {d₄₄,d,d₅₅,d,d₆₆}}

SS₃₃′′ = = {d{d₇₇,d,d₈₈,d,d₉₉}}

(19)

Mam nadzieję, że ten krótki pokaż pomoże Mam nadzieję, że ten krótki pokaż pomoże komuś zrozumieć na czym polega metoda komuś zrozumieć na czym polega metoda

Doyl’a Doyl’a 

WSTI LUTY 2007