SYSTEMY WYSZUKIWANIA INFORMACJI
Agnieszka Nowak - Brzezi«ska
17 pa¹dziernika 2019
Metoda list prostych Wykªad 3
Metoda list prostych
Idea metody
Tworzenie kartoteki wyszukiwawczej Formuªowanie zapyta«
Wyszukiwanie odpowiedzi na zadane pytania Ocena metody:
czas wyszukiwania redundancja zaj¦to±¢ pami¦ci aktualizacja informacji Wady i zalety metody Modykacje
Metoda list prostych
zwana równie» metod¡ przegl¡du zupeªnego,
kolejno±¢ pami¦tania informacji w bazie danych systemu jest dowolna (np. zgodna z kolejno±ci¡ napªywania informacji), informacje mog¡ by¢ pami¦tane w postaci dokumentów
¹ródªowych lub w postaci dokumentów wtórnych, pytanie zadane do systemu porównywane jest z opisem ka»dego obiektu w bazie danych i jako odpowied¹ wybiera si¦
te obiekty, których opis jest zgodny z pytaniem,
znalezienie odpowiedzi na pytanie zadane do systemu wymaga w tej metodzie dokonania przegl¡du wszystkich opisów
obiektów w bazie danych (przegl¡d zupeªny).
Metoda list prostych
TWORZENIE KARTOTEKI WYSZUKIWAWCZEJ
Opis metody
W metodzie list prostych informacje o obiektach systemu S s¡
pami¦tane w dowolnej kolejno±ci (np. w kolejno±ci napªywania informacji).
Informacja o obiekcie ρx to funkcja w postaci termu tx : tx = (a1, v1) · (a2, v2), . . . , (am, vm), gdzie(ai ∈ A, vi ∈ Vai,m- liczba atrybutów systemu).
Term tx b¦dzie nazywanyopisem obiektu x w j¦zykuLS .
atwo zauwa»y¢, »e je»elitx jest opisem obiektu w systemieS , za± ti jest termem skªadowym, to zachodzi ti = tx wtedy i tylko wtedy, kiedy w opisie obiektux i w termie skªadowym ti wyst¦puj¡ te same deskryptory.
Je»eli w opisie obiektu x wyst¦puj¡ co najmniej deskryptory termu skªadowego ti , toti ≤ tx .
Przykªad systemu informacyjnego
Na potrzeby caªego wykªadu b¦dziemy odwoªywa¢ si¦ do poni»szego systemu:
Kartoteka wyszukiwawcza dla uporz¡dkowanych opisów obiektów
tx1 = (a, a1)(b, b1)(c, c1) tx2 = (a, a1)(b, b1)(c, c2) tx3 = (a, a2)(b, b2)(c, c3) tx4 = (a, a2)(b, b2)(c, c4) tx5 = (a, a1)(b, b2)(c, c1) tx6 = (a, a1)(b, b2)(c, c2) tx7 = (a, a2)(b, b2)(c, c3) tx8 = (a, a2)(b, b2)(c, c4)
Kartoteka wyszukiwawcza dla nieuporz¡dkowanych opisów obiektów
tx1 = (b, b1)(a, a1)(c, c1) tx2 = (c, c2)(a, a1)(b, b1) tx3 = (a, a2)(c, c3)(b, b2) tx4 = (a, a2)(b, b2)(c, c4) tx5 = (b, b2)(c, c1)(a, a1) tx6 = (b, b2)(a, a1)(c, c2) tx7 = (a, a2)(b, b2)(c, c3) tx8 = (c, c4)(b, b2)(a, a2)
Proces wyszukiwania
ZADANIE PYTA DO SYSTEMU I WYSZUKIWANIE ODPOWIEDZI NA PYTANIA
Pytania do systemu S w metodzie list prostych
Pytania zadawane s¡ w postaci termówt , które w ogólno±ci maj¡
posta¢ sumy termów skªadowych:
t = t1+ t2. . . + tm gdzieti jest termem skªadowym.
Niech przykªadowe pytanie do systemuS b¦dzie postaci:
t = (wiek, 33) · (kolor oczu, niebieski) + (wzrost, 170) · (pªe¢, kobieta) · (wiek, 33) · (kolor oczu, niebieski).
Czyli:
t = t1+ t2 gdzie:
t1 = (wiek, 33) · (kolor oczu, niebieski)
t2 = (wzrost, 170) · (pªe¢, kobieta) · (wiek, 33) · (kolor oczu, niebieski)
Metody wyszukiwania informacji
Dla pytania postacit = t1+ t2+ . . . + tm , gdzieti to term skªadowy pytaniat
metoda I: σ(ti) = {x ∈ X : ti ≤ tx} za±
σ(t) = σ(t1) ∪ . . . ∪ σ(tm) metoda II: σ(t) = {x ∈ X , W
ti∈tti ≤ tx}
Metoda I
Przegl¡damy kolejne opisy obiektów i wybieramy te, które zawieraj¡
w swoim opisie pierwszy term skªadowy pytaniat czyli t1 (a potem to samo powtarzamy dla kolejnych pyta« skªadowych (t2. . . tm):
σ(ti) = {x ∈ X : ti ≤ tx}
Zbiór obiektów b¦d¡cy sum¡ kolejno uzyskanych odpowiedzi na termy skªadowe jest dopiero odpowiedzi¡ na peªne pytaniet .
σ(t) = σ(t1) ∪ σ(t2) ∪ . . . ∪ σ(tm)
Metoda II
Porównujemy peªne pytaniet z opisami obiektów i wybieramy obiekty zawieraj¡ce w swoim opisie przynajmniej jeden term skªadowy pytaniat.
σ(t) = {x ∈ X , _
ti∈t
ti ≤ tx}
Zbiór obiektów b¦d¡cy sum¡ kolejno uzyskanych odpowiedzi na termy skªadowe jest dopiero odpowiedzi¡ na peªne pytaniet .
Sªowny algorytm dla pyta« w postaci termów skªadowych
W przykªadowym systemie...
Kartoteka wyszukiwawcza
tx1 = (a, a1)(b, b1)(c, c1) tx2 = (a, a1)(b, b1)(c, c2) tx3 = (a, a2)(b, b2)(c, c3) tx4 = (a, a2)(b, b2)(c, c4) tx5 = (a, a1)(b, b2)(c, c1) tx6 = (a, a1)(b, b2)(c, c2) tx7 = (a, a2)(b, b2)(c, c3) tx8 = (a, a2)(b, b2)(c, c4)
Do systemu S zadamy pytanie t = (c, c1)(a, a1) + (b, b1)
Pytanie t = (c, c
1)(a, a
1) + (b, b
1) - metoda I
t = (c, c1)(a, a1) + (b, b1) t = t1+ t2
t1 = (c, c1)(a, a1) Sprawdzamy kolejne opisy obiektów znajduj¡c obiekty zawieraj¡ce term skªadowy t1:
t1 ≤ tx1, t1 tx2, t1 tx3, t1 tx4, t1 ≤ tx5, t1 tx6, t1 tx7, t1 tx8,
σ(t1) = {x1, x5}
Sprawdzamy kolejne opisy obiektów znajduj¡c obiekty zawieraj¡ce term skªadowy t2:
t2 ≤ tx1, t2 ≤ tx2, t2 tx3, t2 tx4, t2 tx5, t2 tx6, t2 tx7, t2 tx8,
σ(t2) = {x1, x2}
Odpowied¹ na pytanie t jest sum¡ uzyskanych odpowiedzi:
σ(t) = σ(t1) ∪ σ(t2) = {x1, x5} ∪ {x1, x2} = {x1, x2, x5}.
Pytanie t = (c, c
1)(a, a
1) + (b, b
1) - metoda II
t = (c, c1)(a, a1) + (b, b1)
Sprawdzamy kolejne opisy obiektów znajduj¡c obiekty zawieraj¡ce conajmniej jeden term skªadowy pytania t, a wi¦c albo t1 albo t2: t1 ≤ tx1 wi¦c obiekt x1 jest odpowiedzi¡ na pytanie t
t1 tx2 wi¦c sprawdzamy zawieranie t2 w opisie obiektu x2: t2 ≤ tx2, wi¦c obiekt x2 jest znaczeniem termu t
t1 tx3 oraz t2 tx3 zatem obiekt x3 nie jest znaczeniem termu t t1 tx4 oraz t2 tx4 zatem obiekt x4 nie jest znaczeniem termu t t1 ≤ tx5 zatem obiekt x5 jest znaczeniem termu t
t1 tx6 oraz t2 tx6 zatem obiekt x6 nie jest znaczeniem termu t t1 tx7 oraz t2 tx7 zatem obiekt x7 nie jest znaczeniem termu t t1 tx8 oraz t2 tx8 zatem obiekt x8 nie jest znaczeniem termu t Zatem σ(t) = {x1, x2, x5}.
Czas wyszukiwania
metoda I: wymagam -krotnego przegl¡du wszystkich opisów obiektów (m - liczba termów skªadowych). redni czas wyszukiwania:
τ = N · m · τ0,
N- liczba opisów obiektów w systemie,m - liczba termów skªadowych w pytaniu t,τ0 - ±redni czas przegl¡du jednego opisu obiektu.
metoda II: wymaga jednokrotnego przegl¡du wszystkich opisów obiektów, zatem:
τ = N · τ00
gdzie: τ00 - ±redni czas przegl¡du jednego opisu obiektu (mo»e by¢ znacznie dªu»szy ni» w metodzie I).
Ocena klasycznej metody list prostych
Zalety:
prostota i ªatwo±¢ implementacji metody, brak redundancji i maªa zaj¦to±¢ pami¦ci, krótkie czasy wyszukiwania dla pyta« ogólnych, aktualizacja stosunkowo ªatwa do realizacji.
Wady:
dªugi czas wyszukiwania odpowiedzi na pytania szczegóªowe.