• Nie Znaleziono Wyników

SYSTEMY WYSZUKIWANIA INFORMACJI

N/A
N/A
Protected

Academic year: 2021

Share "SYSTEMY WYSZUKIWANIA INFORMACJI"

Copied!
20
0
0

Pełen tekst

(1)

SYSTEMY WYSZUKIWANIA INFORMACJI

Agnieszka Nowak - Brzezi«ska

17 pa¹dziernika 2019

Metoda list prostych Wykªad 3

(2)

Metoda list prostych

Idea metody

Tworzenie kartoteki wyszukiwawczej Formuªowanie zapyta«

Wyszukiwanie odpowiedzi na zadane pytania Ocena metody:

czas wyszukiwania redundancja zaj¦to±¢ pami¦ci aktualizacja informacji Wady i zalety metody Modykacje

(3)

Metoda list prostych

zwana równie» metod¡ przegl¡du zupeªnego,

kolejno±¢ pami¦tania informacji w bazie danych systemu jest dowolna (np. zgodna z kolejno±ci¡ napªywania informacji), informacje mog¡ by¢ pami¦tane w postaci dokumentów

¹ródªowych lub w postaci dokumentów wtórnych, pytanie zadane do systemu porównywane jest z opisem ka»dego obiektu w bazie danych i jako odpowied¹ wybiera si¦

te obiekty, których opis jest zgodny z pytaniem,

znalezienie odpowiedzi na pytanie zadane do systemu wymaga w tej metodzie dokonania przegl¡du wszystkich opisów

obiektów w bazie danych (przegl¡d zupeªny).

(4)

Metoda list prostych

TWORZENIE KARTOTEKI WYSZUKIWAWCZEJ

(5)

Opis metody

W metodzie list prostych informacje o obiektach systemu S s¡

pami¦tane w dowolnej kolejno±ci (np. w kolejno±ci napªywania informacji).

Informacja o obiekcie ρx to funkcja w postaci termu tx : tx = (a1, v1) · (a2, v2), . . . , (am, vm), gdzie(ai ∈ A, vi ∈ Vai,m- liczba atrybutów systemu).

Term tx b¦dzie nazywanyopisem obiektu x w j¦zykuLS .

Šatwo zauwa»y¢, »e je»elitx jest opisem obiektu w systemieS , za± ti jest termem skªadowym, to zachodzi ti = tx wtedy i tylko wtedy, kiedy w opisie obiektux i w termie skªadowym ti wyst¦puj¡ te same deskryptory.

Je»eli w opisie obiektu x wyst¦puj¡ co najmniej deskryptory termu skªadowego ti , toti ≤ tx .

(6)

Przykªad systemu informacyjnego

Na potrzeby caªego wykªadu b¦dziemy odwoªywa¢ si¦ do poni»szego systemu:

(7)

Kartoteka wyszukiwawcza dla uporz¡dkowanych opisów obiektów

tx1 = (a, a1)(b, b1)(c, c1) tx2 = (a, a1)(b, b1)(c, c2) tx3 = (a, a2)(b, b2)(c, c3) tx4 = (a, a2)(b, b2)(c, c4) tx5 = (a, a1)(b, b2)(c, c1) tx6 = (a, a1)(b, b2)(c, c2) tx7 = (a, a2)(b, b2)(c, c3) tx8 = (a, a2)(b, b2)(c, c4)

(8)

Kartoteka wyszukiwawcza dla nieuporz¡dkowanych opisów obiektów

tx1 = (b, b1)(a, a1)(c, c1) tx2 = (c, c2)(a, a1)(b, b1) tx3 = (a, a2)(c, c3)(b, b2) tx4 = (a, a2)(b, b2)(c, c4) tx5 = (b, b2)(c, c1)(a, a1) tx6 = (b, b2)(a, a1)(c, c2) tx7 = (a, a2)(b, b2)(c, c3) tx8 = (c, c4)(b, b2)(a, a2)

(9)

Proces wyszukiwania

ZADANIE PYTA‹ DO SYSTEMU I WYSZUKIWANIE ODPOWIEDZI NA PYTANIA

(10)

Pytania do systemu S w metodzie list prostych

Pytania zadawane s¡ w postaci termówt , które w ogólno±ci maj¡

posta¢ sumy termów skªadowych:

t = t1+ t2. . . + tm gdzieti jest termem skªadowym.

Niech przykªadowe pytanie do systemuS b¦dzie postaci:

t = (wiek, 33) · (kolor oczu, niebieski) + (wzrost, 170) · (pªe¢, kobieta) · (wiek, 33) · (kolor oczu, niebieski).

Czyli:

t = t1+ t2 gdzie:

t1 = (wiek, 33) · (kolor oczu, niebieski)

t2 = (wzrost, 170) · (pªe¢, kobieta) · (wiek, 33) · (kolor oczu, niebieski)

(11)

Metody wyszukiwania informacji

Dla pytania postacit = t1+ t2+ . . . + tm , gdzieti to term skªadowy pytaniat

metoda I: σ(ti) = {x ∈ X : ti ≤ tx} za±

σ(t) = σ(t1) ∪ . . . ∪ σ(tm) metoda II: σ(t) = {x ∈ X , W

ti∈tti ≤ tx}

(12)

Metoda I

Przegl¡damy kolejne opisy obiektów i wybieramy te, które zawieraj¡

w swoim opisie pierwszy term skªadowy pytaniat czyli t1 (a potem to samo powtarzamy dla kolejnych pyta« skªadowych (t2. . . tm):

σ(ti) = {x ∈ X : ti ≤ tx}

Zbiór obiektów b¦d¡cy sum¡ kolejno uzyskanych odpowiedzi na termy skªadowe jest dopiero odpowiedzi¡ na peªne pytaniet .

σ(t) = σ(t1) ∪ σ(t2) ∪ . . . ∪ σ(tm)

(13)

Metoda II

Porównujemy peªne pytaniet z opisami obiektów i wybieramy obiekty zawieraj¡ce w swoim opisie przynajmniej jeden term skªadowy pytaniat.

σ(t) = {x ∈ X , _

ti∈t

ti ≤ tx}

Zbiór obiektów b¦d¡cy sum¡ kolejno uzyskanych odpowiedzi na termy skªadowe jest dopiero odpowiedzi¡ na peªne pytaniet .

(14)

Sªowny algorytm dla pyta« w postaci termów skªadowych

(15)

W przykªadowym systemie...

(16)

Kartoteka wyszukiwawcza

tx1 = (a, a1)(b, b1)(c, c1) tx2 = (a, a1)(b, b1)(c, c2) tx3 = (a, a2)(b, b2)(c, c3) tx4 = (a, a2)(b, b2)(c, c4) tx5 = (a, a1)(b, b2)(c, c1) tx6 = (a, a1)(b, b2)(c, c2) tx7 = (a, a2)(b, b2)(c, c3) tx8 = (a, a2)(b, b2)(c, c4)

Do systemu S zadamy pytanie t = (c, c1)(a, a1) + (b, b1)

(17)

Pytanie t = (c, c

1

)(a, a

1

) + (b, b

1

) - metoda I

t = (c, c1)(a, a1) + (b, b1) t = t1+ t2

t1 = (c, c1)(a, a1) Sprawdzamy kolejne opisy obiektów znajduj¡c obiekty zawieraj¡ce term skªadowy t1:

t1 ≤ tx1, t1  tx2, t1 tx3, t1  tx4, t1 ≤ tx5, t1 tx6, t1  tx7, t1 tx8,

σ(t1) = {x1, x5}

Sprawdzamy kolejne opisy obiektów znajduj¡c obiekty zawieraj¡ce term skªadowy t2:

t2 ≤ tx1, t2 ≤ tx2, t2 tx3, t2  tx4, t2  tx5, t2 tx6, t2  tx7, t2 tx8,

σ(t2) = {x1, x2}

Odpowied¹ na pytanie t jest sum¡ uzyskanych odpowiedzi:

σ(t) = σ(t1) ∪ σ(t2) = {x1, x5} ∪ {x1, x2} = {x1, x2, x5}.

(18)

Pytanie t = (c, c

1

)(a, a

1

) + (b, b

1

) - metoda II

t = (c, c1)(a, a1) + (b, b1)

Sprawdzamy kolejne opisy obiektów znajduj¡c obiekty zawieraj¡ce conajmniej jeden term skªadowy pytania t, a wi¦c albo t1 albo t2: t1 ≤ tx1 wi¦c obiekt x1 jest odpowiedzi¡ na pytanie t

t1  tx2 wi¦c sprawdzamy zawieranie t2 w opisie obiektu x2: t2 ≤ tx2, wi¦c obiekt x2 jest znaczeniem termu t

t1  tx3 oraz t2 tx3 zatem obiekt x3 nie jest znaczeniem termu t t1  tx4 oraz t2 tx4 zatem obiekt x4 nie jest znaczeniem termu t t1 ≤ tx5 zatem obiekt x5 jest znaczeniem termu t

t1  tx6 oraz t2 tx6 zatem obiekt x6 nie jest znaczeniem termu t t1  tx7 oraz t2 tx7 zatem obiekt x7 nie jest znaczeniem termu t t1  tx8 oraz t2 tx8 zatem obiekt x8 nie jest znaczeniem termu t Zatem σ(t) = {x1, x2, x5}.

(19)

Czas wyszukiwania

metoda I: wymagam -krotnego przegl¡du wszystkich opisów obiektów (m - liczba termów skªadowych). ‘redni czas wyszukiwania:

τ = N · m · τ0,

N- liczba opisów obiektów w systemie,m - liczba termów skªadowych w pytaniu t,τ0 - ±redni czas przegl¡du jednego opisu obiektu.

metoda II: wymaga jednokrotnego przegl¡du wszystkich opisów obiektów, zatem:

τ = N · τ00

gdzie: τ00 - ±redni czas przegl¡du jednego opisu obiektu (mo»e by¢ znacznie dªu»szy ni» w metodzie I).

(20)

Ocena klasycznej metody list prostych

Zalety:

prostota i ªatwo±¢ implementacji metody, brak redundancji i maªa zaj¦to±¢ pami¦ci, krótkie czasy wyszukiwania dla pyta« ogólnych, aktualizacja stosunkowo ªatwa do realizacji.

Wady:

dªugi czas wyszukiwania odpowiedzi na pytania szczegóªowe.

Cytaty

Powiązane dokumenty

Znaczący ślad tej dyskusji znajdujemy na łamach „Przeglądu Tygodniowego”, nazy- wanego „trybuną” warszawskich pozytywistów, która w pierwszej dekadzie istnie- nia

Mimo ¿e na œwiecie powstaje wiele publikacji oraz patentów na temat regeneracji odpadów gumowych, mechanizm dewulkanizacji, ze wzglêdu na jego z³o¿ony charakter, jest wci¹¿

nie zwiększa się ani redundancja ani zajętość pamięci, skraca się czas przeglądu opisu obiektu w porównaniu do metody klasycznej - nie trzeba dla każdego deskryptora pytania

Zatem dla deskryptorów ze zbioru D 0 znajdujemy zbiór obiektów zgodnie z metod¡ list inwersyjnych.. Przedstawiona modykacja ze wzgl¦du na zmniejszon¡ liczb¦ list inwersyjnych

Dekompozycja obiektowa dostarcza mniejszej zaj¦to±ci pami¦ci w podsystemach, oraz krótszego czasu przeci¦cia list inwersyjnych (gdy» listy takie zawieraj¡ z reguªy mniejsz¡

Tablica zakotwicze« jest identyczna z tym tylko zastrze»eniem, »e jej pierwsza kolumna zawiera adres ostatniego obiektu zawieraj¡cego w opisie deskryptor d i.. Wybranie

Je»eli grupa si¦ rozpadªa, to obiekty tej grupy b¦d¡ stanowi¢ obiekty swobodne i konieczne jest ponowne przeprowadzenie klasykacji obiektów. Aktualizacja zwi¡zana ze zmian¡

Następnym krokiem jest utworzenie grup poprawionych (j-tą Następnym krokiem jest utworzenie grup poprawionych (j-tą grupę poprawioną oznaczamy przez Sj’). Na grupę Sj’..