SYSTEMY WYSZUKIWANIA INFORMACJI

(1)

SYSTEMY WYSZUKIWANIA INFORMACJI

Agnieszka Nowak - Brzezi«ska 17 listopada 2019

Metoda list inwersyjnych - Dekompozycje

Wykªad 6

(2)

Tworzenie kartoteki wyszukiwawczej - na egzamin !

Kartotek¦ wyszukiwawcz¡ tworz¡ listy inwersyjne. Listy inwersyjne tworzymy dla wszystkich deskryptorów ze zbioru D . Lista

inwersyjna zawiera adresy tych wszystkich obiektów, które w swoim opisie posiadaj¡ deskryptor d

_i

, dla którego tworzona jest lista.

Lista inwersyjna - denicja

List¦ adresów obiektów, które zawieraj¡ w swoim opisie deskryptor d

_i

nazywamy list¡ inwersyjn¡ α(d

_i

) .

α(d

_i

) = {n

₁

, n

₂

, . . . , n

_i

} , gdzie n

_i

- adres kolejnego obiektu, który

w swoim opisie zawiera deskryptor d

i

.

(3)

Redundancja

Metoda, ta wnosi du»¡ redundancj¦ (powtarzanie si¦ obiektów w listach inwersyjnych), któr¡ mo»na zapisa¢ wzorem:

R = P

r

i =1

α(d

i

) − N N gdzie:

r - liczba deskryptorów w systemie,

N - liczba obiektów (lub adresów)

α(d

i

) - dªugo±¢ listy inwersyjnej.

(4)

Dekompozycja - idea

Denicja (ang.):

Decomposition is the process by which organic substances are broken down into simpler organic matter. Decomposition in computer science, also known as factoring, is breaking a complex problem or system into parts that are easier to conceive,

understand, program, and maintain.

(5)

Dekompozycja obiektowa

Je»eli system wyszukiwania informacji S = hX , A, V , ρi mo»emy zdekomponowa¢ w taki sposób, i» otrzymamy podsystemy o zmniejszonej liczbie obiektów to znaczy:

S =

n

[

i =1

S

_i

gdzie:

S

_i

= hX

_i

, A

_i

, V

_i

, ρ

_i

i ,

X

_i

⊆ X , i S

_i

X

_i

= X ,

A

_i

≡ A oraz V

i

≡ V ,

ρ

i

= X

i

× A

_i

→ V

_i

,

ρ

i

= ρ|

Xi

.

(6)

Dekompozycja obiektowa

Stosujemy metod¦ list inwersyjnych w podsystemach.

S

S1 S₂ . . . S_n

Rysunek:Dekompozycja systemu informacyjnego

(7)

Dekompozycja obiektowa

Pytanie do systemu zadajemy w postaci sumy termów skªadowych. Rozpatrzmy zatem pytanie skªadowe ti

Je»eliti dotyczy tylko obiektów okre±lonego podsystemuSi , to odpowied¹ na pytanieti znajdujemy w systemieSi :

σ(ti) =\

j

α(dj)|X_i, dla ti = d₁· d₂· . . . · dk,1 ≤ j ≤ k.

Je»eliti dotyczy kilku podsystemów, to odpowied¹ uzyskujemy jako sum¦

odpowiedzi z podsystemów:

σ(ti) =\

j

α(dj)|S₁∪\

j

α(dj)|S₂∪ . . . ∪\

j

α(dj)|S_n

co jest równoznaczne z zapisem:

σ(ti) =\

j

α(dj)|X₁∪\

j

α(dj)|X₂∪ . . . ∪\

j

α(dj)|Xn

(8)

Dekompozycja obiektowa - analiza

Listy inwersyjne tworzone w podsystemach s¡ na ogóª znacznie krótsze, co przyspiesza wyszukiwanie i zmniejsza zaj¦to±¢ pami¦ci w obr¦bie podsystemu.

Odpowied¹ na pytanie t jest tworzona w systemieSpo wyszukaniu odpowiedzi z podsystemów.

σ(t) =

m

[

i =1 n

[

l =1

\

d_j∈t_i

α(dj)|S_l.

Wzór na redundancj¦ w przypadku tej modykacji przyjmuje posta¢:

Rl= Pr

i =1α(di)|X_l− N N

Taka modykacja stosowana jest przede wszystkim dla systemów wyszukiwania o du»ych zbiorach obiektów, które opisane s¡ takimi samymi atrybutami.

Wtedy wygodniej jest podzieli¢ ten zbiór obiektów na podzbiory. Podziaª taki mo»e wynika¢ np. z miejsca przechowywania obiektów (rozproszona baza danych) lub narzucaj¡cego si¦ podziaªu na kilka klas wynikaj¡cego z innych przesªanek (innych cech ni» okre±lone atrybutami).

(9)

Rozpatrzymy przykªadowy system wyszukiwania S dotycz¡cy pracowników pewnej uczelni wy»szej. Dane s¡:

X = {1, . . . , 20} - zbiór obiektów - pracownicy uczelni wy»szej,

A = {A

₁

, A

₂

, A

₃

, A

₄

, A

₅

} - zbiór atrybutów, gdzie: A

1

- pªe¢, A

₂

- wiek, A

₃

- wyksztaªcenie, A

₄

- wykonywana praca, A

₅

- tytuª naukowy.

Zbiór warto±ci atrybutów:

V

A₁

= {M, K },

V

_A₂

= { 20, 20 ≤ V

A₂

≤ 35, > 35} = {a, b, c}, V

_A₃

= {P, S , W }

V

_A₄

= {D, T , A}

V

A₅

= {BT , MR, DR, DC , PR} .

(10)

Opisy obiektów:

tx1= (A₁, M) · (A₂, b) · (A₃, W ) · (A₄, D) · (A₅, PR) tx2= (A₁, K ) · (A₂, c) · (A₃, S ) · (A₄, A) · (A₅, BT ) tx3= (A₁, K ) · (A₂, b) · (A₃, P) · (A₄, A) · (A₅, BT ) tx4= (A₁, M) · (A₂, a) · (A₃, S ) · (A₄, T ) · (A₅, BT ) tx5= (A₁, M) · (A₂, b) · (A₃, W ) · (A₄, D) · (A₅, MR) tx6= (A₁, M) · (A₂, c) · (A₃, W ) · (A₄, D) · (A₅, DR) tx7= (A₁, K ) · (A₂, c) · (A₃, W ) · (A₄, D) · (A₅, DR) tx8= (A₁, M) · (A₂, c) · (A₃, W ) · (A₄, D) · (A₅, DC ) tx9= (A₁, K ) · (A₂, b) · (A₃, W ) · (A₄, D) · (A₅, DR) tx10= (A₁, M) · (A₂, b) · (A₃, W ) · (A₄, D) · (A₅, MR) tx11= (A₁, K ) · (A₂, b) · (A₃, W ) · (A₄, D) · (A₅, DR) tx12= (A₁, K ) · (A₂, b) · (A₃, S ) · (A₄, T ) · (A₅, BT ) tx13= (A₁, M) · (A₂, b) · (A₃, S ) · (A₄, T ) · (A₅, BT ) tx14= (A₁, K ) · (A₂, b) · (A₃, W ) · (A₄, D) · (A₅, DR) tx15= (A₁, M) · (A₂, c) · (A₃, W ) · (A₄, D) · (A₅, DC ) t_x16= (A₁, M) · (A₂, c) · (A₃, W ) · (A₄, D) · (A₅, DC ) t_x17= (A₁, M) · (A₂, c) · (A₃, W ) · (A₄, D) · (A₅, PR) t_x18= (A₁, M) · (A₂, b) · (A₃, W ) · (A₄, D) · (A₅, DR) t_x19= (A₁, K ) · (A₂, b) · (A₃, W ) · (A₄, D) · (A₅, MR) t_x20= (A₁, K ) · (A₂, b) · (A₃, W ) · (A₄, D) · (A₅, DR).

(11)

S

₁

S

₂

Rysunek:Dekompozycja systemu informacyjnego S na dwa podsystemy

(12)

W pierwszym uj¦to obiekty {x

₁

, . . . , x

₁₀

} , w drugim pozostaªe {x

₁₁

, . . . , x

₂₀

} .

S

₁

=< X

⁰

, A

⁰

, V

⁰

, ρ

⁰

> , S

₂

=< X

⁰⁰

, A

⁰⁰

, V

⁰⁰

, ρ

⁰⁰

> , X

⁰

= {x

₁

, . . . , x

₁₀

} , X

⁰⁰

= {x

₁₁

, . . . , x

₂₀

} ,

A

⁰

≡ A , A

⁰⁰

≡ A ,

A

⁰

= {A

₁

, A

₂

, A

₃

, A

₄

, A

₅

} , A

⁰⁰

= {A

₁

, A

₂

, A

₃

, A

₄

, A

₅

} , V

_A₁

= {K , M} , V

_A₁

= {K , M} ,

V

_A₂

= {a, b, c} , V

_A₂

= {a, b, c} , V

A₃

= {P, S , W } , V

A₃

= {P, S , W } , V

_A₄

= {D, T , A} , V

_A₄

= {D, T , A} ,

V

_A₅

= {BT , MR, DR, DC , PR} , V

A₅

= {BT , MR, DR, DC , PR} .

(13)

System S1:

tx1= (A₁, M) · (A₂, b) · (A₃, W ) · (A₄, D) · (A₅, PR) t_x2= (A₁, K ) · (A₂, c) · (A₃, S ) · (A₄, A) · (A₅, BT ) tx3= (A₁, K ) · (A₂, b) · (A₃, P) · (A₄, A) · (A₅, BT ) t_x4= (A₁, M) · (A₂, a) · (A₃, S ) · (A₄, T ) · (A₅, BT ) tx5= (A₁, M) · (A₂, b) · (A₃, W ) · (A₄, D) · (A₅, MR) tx6= (A₁, M) · (A₂, c) · (A₃, W ) · (A₄, D) · (A₅, DR) tx7= (A₁, K ) · (A₂, c) · (A₃, W ) · (A₄, D) · (A₅, DR) tx8= (A₁, M) · (A₂, c) · (A₃, W ) · (A₄, D) · (A₅, DC ) t_x9= (A₁, K ) · (A₂, b) · (A₃, W ) · (A₄, D) · (A₅, DR) tx10= (A₁, M) · (A₂, b) · (A₃, W ) · (A₄, D) · (A₅, MR)

(14)

System S2:

tx11= (A₁, K ) · (A₂, b) · (A₃, W ) · (A₄, D) · (A₅, DR) t_x12= (A₁, K ) · (A₂, b) · (A₃, S ) · (A₄, T ) · (A₅, BT ) tx13= (A₁, M) · (A₂, b) · (A₃, S ) · (A₄, T ) · (A₅, BT ) t_x14= (A₁, K ) · (A₂, b) · (A₃, W ) · (A₄, D) · (A₅, DR) tx15= (A₁, M) · (A₂, c) · (A₃, W ) · (A₄, D) · (A₅, DC ) tx16= (A₁, M) · (A₂, c) · (A₃, W ) · (A₄, D) · (A₅, DC ) tx17= (A₁, M) · (A₂, c) · (A₃, W ) · (A₄, D) · (A₅, PR) tx18= (A₁, M) · (A₂, b) · (A₃, W ) · (A₄, D) · (A₅, DR) t_x19= (A₁, K ) · (A₂, b) · (A₃, W ) · (A₄, D) · (A₅, MR) tx20= (A₁, K ) · (A₂, b) · (A₃, W ) · (A₄, D) · (A₅, DR).

(15)

Odpowiednio utworzono listy inwersyjne dla podsystemów.

Przykªadowe listy inwersyjne w podsystemach s¡ nast¦puj¡ce:

Podsystem S1: Podsystem S2:

α₁(A₁, K ) = {x₂, x₃, x₇, x₉}, α₂(A₁, K ) = {x₁₁, x₁₂, x₁₄, x₁₉, x₂₀}, α₁(A₁, M) = {x₁, x₄, x₅, x₆, x₈, x₁₀}, α₂(A₁, M) = {x₁₃, x₁₅, x₁₆, x₁₇, x₁₈}, α₁(A₂, a) = {x₄}, α₂(A₂, a) = {∅},

α₁(A₂, b) = {x₁, x₃, x₅, x₉, x₁₀}, α₂(A₂, b) = {x₁₁, x₁₂, x₁₃, x₁₄, x₁₈, x₁₉, x₂₀}, α₁(A₂, c) = {x₂, x₆, x₇, x₈}, α₂(A₂, c) = {x₁₅, x₁₆, x₁₇},

α₁(A₃, W ) = {x₁, x₅, x₆, x₇, x₈, x₉, x₁₀}, α₂(A₃, W ) = {x₁₁, x₁₄, x₁₅, x₁₆, x₁₇, x₁₈, x₁₉, x₂₀}, α₁(A₃, S) = {x₂, x₄} α₂(A₃, S) = {x₁₂, x₁₃},

α₁(A₃, P) = {x₃}, α₂(A₃, P) = {∅},

α₁(A₄, D) = {x₁, x₅, x₆, x₇, x₈, x₉, x₁₀}, α₂(A₄, D) = {x₁₁, x₁₄, x₁₅, x₁₆, x₁₇, x₁₈, x₁₉, x₂₀}, α₁(A₄, A) = {x₂, x₃}, α₂(A₄, A) = {∅},

α₁(A₄, T ) = {x₄}, α₂(A₄, T ) = {x₁₂, x₁₃}, α₁(A₅, PR) = {x₁}, α₂(A₅, PR) = {x₁₇},

α₁(A₅, BT ) = {x₂, x₃, x₄}, α₂(A₅, DR) = {x₁₁, x₁₄, x₁₈, x₂₀}, α₁(A₅, DR) = {x₆, x₇, x₉}. α₂(A₅, BT ) = {x₁₂, x₁₃}. α₁(A₅, DC ) = {x₈}, α₂(A₅, DC ) = {x₁₅, x₁₆}, α₁(A₅, MR) = {x₅, x₁₀}. α₂(A₅, MR) = {x₁₉}.

(16)

a) pytanie dotyczy obiektów z kilku podsystemów:

Do systemu zadano pytanie postaci:

ti= (A₂, b) · (A₃, W ) · (A₄, D).

Odpowied¹ na pytanie ti b¦dzie wyszukiwana w obu podsystemach S1 i S2: σ(ti) =\

j

α(dj)|S₁∪\

j

α(dj)|S₂

w podsystemie S1 jako przeci¦cie list:

σ(t_i₁) = α₁(A₂, b) ∩ α₁(A₃, W ) ∩ α₁(A₄, D),

σ(t_i₁) = {x₁, x₃, x₅, x₉, x₁₀} ∩ {x₁, x₅, x₆, x₇, x₈, x₉, x₁₀} ∩ {x₁, x₅, x₆, x₇, x₈, x₉, x₁₀} = {x₁, x₅, x₉, x₁₀}.

w podsystemie S₂ jako przeci¦cie list:

σ(ti₂) = α₂(A₂, b) ∩ α₂(A₃, W ) ∩ α₂(A₄, D), σ(ti₂) = {x₁₁, x₁₂, x₁₃, x₁₄, x₁₈, x₁₉, x₂₀} ∩ {x₁₁, x₁₄, x₁₅, x₁₆, x₁₇, x₁₈, x₁₉, x₂₀} ∩

{x₁₁, x₁₄, x₁₅, x₁₆, x₁₇, x₁₈, x₁₉, x₂₀} = {x₁₁, x₁₄, x₁₈, x₁₉, x₂₀}. Odpowied¹ na pytanie ti jest sum¡ odpowiedzi z podsystemów S1i S2:

σ(ti) = σ(ti₁) ∪ σ(ti₂), zatem

σ(ti) = {x₁, x₅, x₉, x₁₀} ∪ {x₁₁, x₁₄, x₁₈, x₁₉, x₂₀} = {x₁, x₅, x₉, x₁₀, x₁₁, x₁₄, x₁₈, x₁₉, x₂₀}.

(17)

b) pytanie dotyczy tylko obiektów z jednego podsystemu:

Gdyby pytanie skªadowe dotyczyªo tylko obiektów okre±lonego podsystemu Si, to odpowied¹ na pytanie ti znajdujemy w systemie Si:

σ(ti) =\

j

α(dj)|X_i, dla ti= d₁· d₂· . . . · dk, 1 ≤ j ≤ k.

Je±li wi¦c pytanie ti miaªoby posta¢:

ti = (A₃, P)

odpowied¹ b¦dzie wyszukiwana tylko w podsystemie S1:

σ(ti) =\

j

α(dj)|S₁= α₁(A₃, P) = {x₃}.

(18)

Dekompozycja atrybutowa

System S =< X , A, V , ρ > dzielimy na podsystemy S

_i

tak, »e:

S = S

i

S

_i

,

S

i

= hX

i

, A

i

, V

i

, ρ

i

i , X

i

≡ X ,

A

_i

⊆ A oraz S

i

A

_i

= A, V

_i

⊆ V ,

ρ

_i

= X

_i

× A

_i

→ V

_i

,

ρ

_i

= ρ|

_X_i×A_i

, ρ

i

= ρ|

_A_i

.

(19)

W takim przypadku z ka»dym podsystemem S

i

systemu S zwi¡zany jest zbiór deskryptorów D

_i

.

Listy inwersyjne α(d

_i

) , (d

_i

∈ D

_i

) tworzymy oddzielnie dla ka»dego podsystemu S

i

. Tak jak poprzednio pytanie do systemu zadawane jest w postaci sumy termów skªadowych. Odpowied¹ σ(t) jest sum¡ odpowiedzi na pytania skªadowe. Odpowied¹ na pytanie skªadowe t

i

, znajdujemy w nast¦puj¡cy sposób:

je»eli t

_i

= d

₁

· d

₂

· . . . · d

_k

i d

₁

, d

₂

, . . . , d

_k

∈ D

_i

to odpowied¹ jest przeci¦ciem list inwersyjnych podsystemu S

_i

:

σ(t

_i

) = α

_i

(d

₁

) ∩ α

_i

(d

₂

) ∩ . . . ∩ α

_i

(d

_k

)

je»eli t

_i

= d

₁

· d

₂

· . . . · d

_k

i d

₁

, d

₂

, . . . , d

_l

∈ D

_i

, a d

_{l +1}

, . . . , d

_k

∈ D /

_i

1 ≤ l ≤ k , to odpowied¹ znajdujemy w systemie S

_i

, jako odpowied¹ przybli»on¡:

σ(t

_i

) = (α

_i

(d

₁

) ∩ α

_i

(d

₂

) ∩ . . . ∩ α

_i

(d

_k

))|

_D

.

(20)

Dokªadn¡ odpowied¹ mo»na w wybranym zbiorze obiektów znale¹¢ metod¡

przegl¡du zupeªnego.

W wy»ej omawianym przypadku odpowied¹ na pytanie skªadoweti mo»na te»

znale¹¢ jako cz¦±¢ wspóln¡ odpowiedzi z kilku podsystemówSi . A wi¦c:

σ(ti) = σ(ti₁) ∩ σ(ti₂) ∩ . . . ∩ σ(ti_n) gdzie:

σ(ti₁) = (α₁(d₁) ∩ α₁(d₂) ∩ . . . ∩ α₁(dk))|D₁, D₁∈ S₁ jest odpowiedzi¡ na pytanieti znalezion¡ w systemieS₁ , natomiast

σ(ti₂) = (α₂(d₁) ∩ α₂(d₂) ∩ . . . ∩ α₂(dk))|D₂, D₂∈ S₂ jest odpowiedzi¡ znalezion¡ w systemieS₂ itd.

Ogólnie:

σ(ti) =

n

\

j =1

σ(ti_j)

σ(ti_j) = (αj(d₁) ∩ αj(d₂) ∩ . . . ∩ αj(dk))|D_j

gdzieDj⊆ Di Dj∈ Sj a n liczba podsystemów, których dotyczy pytanie.

(21)

Odpowied¹ na pytanie t

_i

mo»na znale¹¢ jako cz¦±¢ wspóln¡

odpowiedzi z kilku podsystemów S

i

: σ(t

_i

) =

n

\

l =1

\

dj∈ti

α(d

_j

)|

_S_l

.

Odpowied¹ na pytanie t b¦dzie za± sum¡ odpowiedzi uzyskanych na pytania skªadowe:

σ(t) =

m

[

i =1 n

\

l =1

\

dj∈t_i

α(d

_j

)|

_S_l

.

Redundancja R przyjmuje posta¢:

R = P

r

i =1

α(d

i

)|

Dj

− N

N

(22)

Kiedy stosujemy ?

W przypadku, gdy pytania zadawane do systemu specykuj¡ tylko warto±ci pewnego podzbioru atrybutów.

Tego typu dekompozycja jest stosowana przede wszystkim wówczas, gdy istnieje wielu u»ytkowników systemu i ka»dy

dysponuje j¦zykiem o wªasnym podzbiorze deskryptorów, to znaczy,

»e napªywaj¡ce pytania do systemu dotycz¡ tylko pewnych

atrybutów. Wtedy zgodnie z typem pyta« (lub j¦zykiem

u»ytkownika) tworzymy podsystemy o takim samym zbiorze

obiektów i mniejszym zbiorze atrybutów.

(23)

Przykªad

W systemie wyszukiwania S dotycz¡cym pracowników pewnej uczelni wy»szej, gdzie dane s¡:

X = {1, . . . , 20} - zbiór obiektów - pracownicy uczelni wy»szej, A = {A₁, A₂, A₃, A₄, A₅}- zbiór atrybutów, gdzie: A1 - pªe¢, A₂ - wiek, A3 - wyksztaªcenie, A4 - wykonywana praca, A5 - tytuª naukowy.

A zbiór warto±ci atrybutów:

VA₁= {M, K },

VA₂= {20, 20 ≤ VA₂≤35, > 35} = {a, b, c}, VA₃= {P, S , W }

VA₄= {D, T , A}

VA₅= {BT , MR, DR, DC , PR}.

Podzielimy system na 2 podsystemy rozdzielaj¡c pªe¢, wiek oraz wyksztaªcenie od informacji dotycz¡cych tytuªu naukowego i wykonywanej pracy.

S₁=< X⁰, A⁰, V⁰, ρ⁰ >, S₂=< X⁰⁰, A⁰⁰, V⁰⁰, ρ⁰⁰>, X⁰= {x₁, . . . , x₂₀}, X⁰⁰= {x₁, . . . , x₂₀},

X⁰≡ X, X⁰⁰≡ X,

A⁰= {A₁, A₂, A₃}, A⁰⁰= {A₄, A₅}, VA₁= {K , M}, VA₄= {A, D, T },

(24)

System S

1

Kartoteka wyszukiwawcza:

Podsystem S1:

α₁(A₁, K ) = {x₂, x₃, x₇, x₉, x₁₁, x₁₂, x₁₄, x₁₉, x₂₀}, α₁(A₁, M) = {x₁, x₄, x₅, x₆, x₈, x₁₀, x₁₃, x₁₅, x₁₆, x₁₇, x₁₈}, α₁(A₂, a) = {x₄},

α₁(A₂, b) = {x₁, x₃, x₅, x₉, x₁₀, x₁₁, x₁₂, x₁₃, x₁₄, x₁₈, x₁₉, x₂₀}, α₁(A₂, c) = {x₂, x₆, x₇, x₈, x₁₅, x₁₆},

α₁(A₃, W ) = {x₁, x₅÷ x₁₁, x₁₄÷ x₂₀}, α₁(A₃, S ) = {x₂, x₄, x₁₂, x₁₃},

α₁(A₃, P) = {x₃}.

(25)

System S

2

Kartoteka Wyszukiwawcza:

Podsystem S2:

α₂(A₄, A) = {x₂, x₃},

α₂(A₄, D) = {x₁, x₅÷ x₁₁, x₁₄÷ x₂₀}, α₂(A₄, T ) = {x₄, x₁₂, x₁₃},

α₂(A₅, PR) = {x₁, x₁₇},

α₂(A₅, DR) = {x₆, x₇x₉, x₁₁, x₁₄, x₁₈, x₂₀}, α₂(A₅, DC ) = {x₈, x₁₅, x₁₆},

α₂(A₅, BT ) = {x₂, x₃, x₄, x₁₂, x₁₃}, α₂(A₅, MR) = {x₅, x₁₀, x₁₉}.

(26)

Wyszukiwanie

Do systemu zadano pytanie postaci:

ti = (A₁, K ) · (A₂, c) · (A₅, DC ).

Odpowied¹ na pytanie ti mo»na znale¹¢ w podsystemie S1 jako przeci¦cie list:

σ(ti₁) = α₁(A₁, K ) ∩ α₁(A₂, c), σ(ti₁) =

{x₂, x₃, x₇, x₉, x₁₁, x₁₂, x₁₄, x₁₉, x₂₀} ∩ {x₂, x₆, x₇, x₈, x₁₅, x₁₆}, σ(ti₁) = {x₂, x₇}.

Nast¦pnie w opisach tych dwóch obiektów sprawdzamy zawieranie si¦

pozostaªych deskryptorów pytania.

tx₂ ti, tx₇ ti, st¡d σ(ti) = {∅}

Odpowied¹ mo»na te» znale¹¢ z podsystemu S2jako list¦:

σ(ti₂) = α₂(A₅, DC ) = {x₈, x₁₅, x₁₆}.

i sprawdzi¢ czy obiekty te zawieraj¡ w swoim opisie pozostaªe deskryptory pytania ti, to znaczy: (A1, K )oraz (A2, c)

tx₈≥ ti, tx₁₅≥ ti, tx₁₆≥ ti, st¡d σ(ti) = {x₈, x₁₅, x₁₆}

Wtedy odpowied¹ na pytanie ti jest cz¦±ci¡ wspóln¡ odpowiedzi z podsystemów S₁ i S2:

σ(ti) = σ(ti₁) ∩ σ(ti₂), zatem

σ(ti) = {∅} ∩ {x₈, x₁₅, x₁₆} = {∅}.

(27)

Parametry metody list inwersyjnych

Struktura bazy danych jest w metodzie list inwersyjnych bardziej zªo»ona ni» w metodzie list prostych. Poza

pami¦taniem opisów obiektów istnieje konieczno±¢ pami¦tania w kartotece wyszukiwawczej systemu list inwersyjnych

utworzonych dla deskryptorów systemu.

Metoda wnosi du»¡ redundancj¦:

R = P

r

i =1

α(d

_i

) − N N

gdzie: d

i

∈ D , r - liczba deskryptorów systemu, N - liczba obiektów (lub adresów obiektów) systemu S.

modykacje zmniejszaj¡ redundancj¦ w podsystemach przy zachowaniu lub niewielkim zmniejszeniu szybko±ci

wyszukiwania informacji.

(28)

Aktualizacja bazy danych

aktualizacja wymaga dokonania zmian w listach inwersyjnych (usuni¦cie listy, utworzenie nowej listy, reorganizacja

istniej¡cych list) niezale»nie od dodania, czy usuni¦cia samego opisu obiektu w bazie danych.

W przypadku zmian w opisie obiektu aktualizacja sprowadza si¦ do usuni¦cia obiektu z nieaktualnym opisem, wprowadzenia obiektu z aktualnym opisem i zmiany odpowiednich list

inwersyjnych. Wprowadzenie modykacji metody wyszukiwania

powoduje caªo±ciow¡ reorganizacj¦ bazy danych.

(29)

Czas wyszukiwania

Czas wyszukiwania informacji w metodzie list inwersyjnych jest bardzo krótki.

W przypadku gdy pytanie jest zadane w postaci t = d1+ d₂+ . . . + dk, odpowied¹ jest natychmiastowa i czas wyszukiwania τ jest równy czasowi wyszukiwania list τw:

τ = τw.

W przypadku gdy t = t1+ t₂+ . . . + tm, to znaczy pytanie jest sum¡ pyta«

skªadowych postaci ti = d₁· d₂· . . . · dk (pytanie skªadowe ti jest iloczynem deskryptorów), czas odpowiedzi na pytanie t jest dªu»szy, gdy» dochodzi czas potrzebny na znalezienie cz¦±ci wspólnej wyszukanych list. Czas wyszukiwania:

τ =

m

X

i =1

τw_i+ τp_i

gdzie: τw - czas wyszukania list, τp - czas porównywania wyszukanych list.

Czas wyszukiwania zale»y od pytania ti, to znaczy od liczby deskryptorów w pytaniu. Czas porównywnia zale»y od liczby deskryptorów pytania ti, oraz od dªugo±ci list zwi¡zanych z tym pytaniem.

Zwykle zachodzi zale»no±¢ τp > τw oraz τp ro±nie ze wzrostem liczby deskryptorów w pytaniu i dªugo±ci list. Modykacje mog¡ prowadzi¢ do dodania czasu przegl¡du list, zatem czas wyszukiwania: τ⁰= τ + τ₀, gdzie

(30)

Korzy±ci z dekompozycji

Warto dokona¢ porównania parametrów takich jak zaj¦to±¢ pami¦ci dla kartoteki wyszukiwawczej, redundancj¦ oraz czasy wyszukiwania dla systemów bez dekompozycji i systemów odpowiednio

zdekomponowanych: obiektowo b¡d¹ atrybutowo.

(31)

Tablica:Porównanie parametrów oceny systemów informacyjnych parametr metodasyczna kla- dekompozycja

obiektowa dekompozycja atrybutowa zaj¦to±¢ pami¦ci ? bajtów S₁:? bajtów S₁:? bajtów

S₂:? bajtów S₂:? bajtów

redundancja ? S₁:? S₁:?

S₂:? S₁:? czas wyszukiwania

czas wyszukania listy in-

wersyjnej τw= S₁: τw= S₁: τw=

S₂: τw= S₂: τw= czas przeci¦cia list inwer-

syjnych τp τp⁰ τp

τ_p⁰< τp

(32)

Zakªadamy, »e adres pojedynczego obiektu b¦dziemy pami¦ta¢ na jednym bajcie oraz »e czas wyszukania jednej listy inwersyjnej τw to jedna sekunda.

redni czas przeci¦cia kilku list inwersyjnych b¦dziemy okre±la¢ jako τp.

Czas wyszukania (dla przykªadowego pytania ti omawianego wcze±niej) wi¡»e si¦ ze znalezieniem odpowiedniej list inwersyjnej.

Dekompozycja obiektowa dostarcza mniejszej zaj¦to±ci pami¦ci w podsystemach, oraz krótszego czasu przeci¦cia list inwersyjnych (gdy» listy takie zawieraj¡ z reguªy mniejsz¡ liczb¦ adresów).

Dekompozycja atrybutowa pozwala zmniejszy¢ zarówno zaj¦to±¢

pami¦ci w podsystemach jak i redundancj¦. Znacznie zmniejsza tak»e czas wyszukania list inwersyjnych, gdy» maj¡c mniej list w ka»dym podsystemie szybciej docieramy do tych zawieraj¡cych deskryptory pytania ti.

SYSTEMY WYSZUKIWANIA INFORMACJI