SYSTEMY WYSZUKIWANIA INFORMACJI

(1)

SYSTEMY WYSZUKIWANIA INFORMACJI

Agnieszka Nowak - Brzezińska

24 października 2019

Metoda list prostych Wykład 4

(2)

Modyfikacje metody list prostych

uporządkowanie opisów obiektów,

grupowanie obiektów wg wybranego atrybutu, podział połówkowy,

odcinkowanie, odcedzanie

organizacja zwarta.

(3)

Modyfikacja związana z uporządkowaniem opisów obiektów

Cel: zawsze zachowana będzie ustalona kolejność atrybutów w opisie obiektów. Wtedy w termach składowych pytania atrybuty muszą występować w takiej kolejności, jak w opisach obiektów.

Wynik: Wystarczy porównać odpowiednie pozycje opisów obiektów z termami składowymi, aby sprawdzić zawieranie się termu

składowego w opisie obiektu. Prowadzi to do skrócenia czasu porównywania opisu obiektu z odpowiednim termem składowym pytania.

(4)

System S

(5)

System S z uporządkowaniem opisów obiektów

Kartoteka wyszukiwawcza po uporządkowanie opisów obiektów:

t_x₁ = (a, a1)(b, b1)(c, c1) t_x₂ = (a, a₁)(b, b₁)(c, c₂) tx3 = (a, a2)(b, b2)(c, c3) tx4 = (a, a2)(b, b2)(c, c4) t_x₅ = (a, a₁)(b, b₂)(c, c₁) tx6 = (a, a1)(b, b2)(c, c2) tx7 = (a, a2)(b, b2)(c, c3) t_x₈ = (a, a₂)(b, b₂)(c, c₄)

(6)

Ocena metody list prostych z uporządkowaniem opisów obiektów

Zalety:

nie zwiększa się ani redundancja ani zajętość pamięci, skraca się czas przeglądu opisu obiektu w porównaniu do metody klasycznej - nie trzeba dla każdego deskryptora pytania od początku przeglądać opisu każdego obiektu.

Wady:

długi czas wyszukiwania odpowiedzi na pytania szczegółowe.

trudniejsza aktualizacja ze względu na konieczność uporządkowania opisów obiektów.

(7)

Grupowanie obiektów według wybranego atrybutu

Cel: wybór atrybutu, który uporządkuje obiekty w kartotece.

Warunki, które musi spełnić wybrany atrybut:

atrybut musi w miarę często występować w pytaniach, atrybut powinien być wielowartościowy,

i w miarę równomiernie dzielić kartotekę wyszukiwawczą.

Założenia te pozwalają zawęzić przeszukiwanie do przeglądu grup o niewielkiej liczbie obiektów.

Wynik: Zmieni się kolejność obiektów w systemie. Obok siebie umieszczone będę obiekty o tej samej wartości tego wybranego atrybutu.

Przy równomiernym występowaniu określonych wartości

atrybutu a_i w opisach obiektów średni czas wyszukiwania wynosi:

τ = N · τ0

k ,

(8)

Grupowanie obiektów według wybranego atrybutu

Spośrod zbioru atrybutówA systemuS wybieramy atrybut ai

i porządkujemy tak opisy obiektów, aby w opisach tych atrybutai

znajdował się na pierwszym miejscu. Następnie grupujemy obiekty o jednakowej wartościvj atrybutu tak, że:

X_v_j = {x ∈ X , ρ_x(a_i) = v_j, v_j ∈ V_a_i}.

Oczywiście tak otrzymane zbioryX_v_j są rozłączne, a ich suma daje pełny zbiórX.

Dzięki takiemu zgrupowaniu obiektów dla większości odpowiedzi wystarczy dokonać przeglądu zupełnego tylko w wybranej grupie X_v_j .

Gdy term składowy nie zawiera wartości atrybutuai wtedy musimy dokonać przeglądu zupełnego utworzonych grup.

(9)

System S z grupowaniem obiektów wg wybranego atrybutu

Kartoteka wyszukiwawcza w metodzie klasycznej ...

tx1 = (a, a1)(b, b1)(c, c1) t_x₂ = (a, a1)(b, b1)(c, c2) t_x₃ = (a, a₂)(b, b₂)(c, c₃) tx4 = (a, a2)(b, b2)(c, c4) t_x₅ = (a, a1)(b, b2)(c, c1) t_x₆ = (a, a₁)(b, b₂)(c, c₂) tx7 = (a, a2)(b, b2)(c, c3) t_x₈ = (a, a2)(b, b2)(c, c4)

Wybieramy atrybut c do grupowania obiektów, gdyż ...(wyjaśnione na wykładzie)

(10)

System S z grupowaniem obiektów wg wybranego atrybutu

Kartoteka wyszukiwawcza po grupowaniu obiektów wg atrybutu c...

Etap 1: atrybut c idzie na pierwsze miejsce w opisie każdego obiektu...

t_x₁ = (c, c₁)(a, a₁)(b, b₁) tx2 = (c, c2)(a, a1)(b, b1) t_x₃ = (c, c3)(a, a2)(b, b2) t_x₄ = (c, c₄)(a, a₂)(b, b₂) tx5 = (c, c1)(a, a1)(b, b2) t_x₆ = (c, c2)(a, a1)(b, b2) t_x₇ = (c, c₃)(a, a₂)(b, b₂) tx8 = (c, c4)(a, a2)(b, b2)

(11)

System S z grupowaniem obiektów wg wybranego atrybutu

Kartoteka wyszukiwawcza po grupowaniu obiektów wg atrybutu c...

Etap 2: zmieniamy uporządkowanie obiektów w kartotece...

t_x₁ = (c, c₁)(a, a₁)(b, b₁) tx5 = (c, c1)(a, a1)(b, b2) t_x₂ = (c, c2)(a, a1)(b, b1) t_x₆ = (c, c₂)(a, a₁)(b, b₂) tx3 = (c, c3)(a, a2)(b, b2) t_x₇ = (c, c3)(a, a2)(b, b2) t_x₄ = (c, c₄)(a, a₂)(b, b₂) tx8 = (c, c4)(a, a2)(b, b2)

teraz obiekty są już uporządkowane.

(12)

Wyszukiwanie odpowiedzi na pytaniaw kartotece z grupowaniem obiektów

Po grupowaniu wg atrybutu c powstały 4 grupy:

Xc1 = {x1, x5} X_c₂ = {x₂, x₆} Xc3 = {x3, x7} Xc4 = {x4, x8}

Dla pytania t = (c, c1)(a, a1) + (b, b1) mamy t = t₁+ t2

dla termu składowego t₁ = (c, c1)(a, a1) zawężamy

wyszukiwanie tylko do zbioru X_c₁ a więc obiektów {x₁, x₅}:

t1 ≤ t_x₁, t1≤ t_x₅

dla termu składowego t₂ = (b, b₁) który nie zawiera atrybutu c musimy dokonać przeglądu zupełnego wszystkich opisów obiektów:t₂≤ t_x₁, t2 ≤ t_x₂, t2 tx3, t2 tx4, t2 tx5, t2 t_x₆, t₂ ≤ t_x₇, t₂ tx8

Odpowiedz na pytanie t:

σ(t) = σ(t₁) ∪ σ(t₂) = {x₁, x₅} ∪ {x₁, x₂} = {x₁, x₂, x₅}

(13)

Możliwa implementacja kartoteki wyszukiwawczej z grupowaniem obiektów wg wybranego atrybutu

Nadajemy obiektom nowe uporządkowanie:

1:t_x₁ = (c, c1)(a, a1)(b, b1) 2:t_x₅ = (c, c1)(a, a1)(b, b2) 3:t_x₂ = (c, c₂)(a, a₁)(b, b₁) 4:t_x₆ = (c, c2)(a, a1)(b, b2) 5:t_x₃ = (c, c3)(a, a2)(b, b2) 6:t_x₇ = (c, c₃)(a, a₂)(b, b₂) 7:t_x₄ = (c, c4)(a, a2)(b, b2) 8:t_x₈ = (c, c4)(a, a2)(b, b2) Powstaje tablica adresowa:

(14)

Ocena metody list prostych z grupowaniem obiektów wg wybranego atrybutu

Zalety:

brak redundancji i mała zajętość pamięci,

skraca się czas wyszukiwania dla pytań zawierających atrybut grupujący.

Wady:

trudniejsza aktualizacja ze względu na powstałe grupy obiektów.

(15)

Metoda odcinkowa

Metoda polega na grupowaniu obiektów wg więcej niż jednego atrybutu.

Zalety:

skraca się czas wyszukiwania dla pytań zawierających atrybuty grupujące.

Wady:

trudniejsza aktualizacja ze względu na powstałe grupy obiektów (odcinki).

(16)

Metoda podziału połówkowego

stosowana wprost dla atrybutów numerycznych, opisy obiektów można przedstawić w postaci ciągu liczb naturalnych.

Ciągi te porządkujemy w kolejności rosnącej lub malejącej i numerujemy kolejnymi liczbami naturalnymi od1 do r . Porównując term składowy t_i , pytania z opisem obiektu w połowie bazy danych ([^x₂]) można podać algorytm wskazujący w której ”połowie” zbioru obiektów znajduje się obiekt, zawierający w opisie term składowy t_i.

Metoda stosowana jednokrotnie wymaga przeglądu zupełnego połowy opisów obiektów.

metoda pozwala skrócić czas wyszukiwania odpowiedzi na pytanie t w stosunku do metody klasycznej 2^k -krotnie zgodnie ze wzorem:

τ = N · τ0

2^k

gdzie: N - liczba obiektów,τ0 - średni czas przeglądu jednego opisu obiektu

(17)

Podział połówkowy - wyszukiwanie

(18)

(19)

(20)

(21)

(22)

Ocena metody list prostych z podziałem połówkowym

Konieczność porządkowania pytań tak jak i opisów obiektów sprawia, że metoda nie będzie chętnie stosowana. Można wykorzystać pewne założenia metody ale ograniczyć się do porządkowania tylko jednego wybranego atrybutu bądź kilku atrybutów w opisie obiektów.

(23)

Ocena metody list prostych z podziałem połówkowym

Zalety:

skraca się czas wyszukiwania bo przeglądamy tylko wybrany fragment kartoteki.

Wady:

możliwa utrata kompletności wyszukiwania,

trudniejsza aktualizacja ze względu na powstałe grupy obiektów,

pytania muszą zawierać atrybut porządkujący opisy obiektów.

(24)

Kompletność wyszukiwania - co to takiego ?

Przez wyszukiwanie kompletne będziemy rozumieć taką metodę, która na zadane do systemu pytanie potrafi znaleźć wszystkie obiekty będące odpowiedzią (na to pytanie). Jeśli choć jeden obiekt (który był odpowiedzią) nie zostanie wyszukany to powiemy, że odpowiedź systemu nie jest kompletna.

(25)

(26)

Pozostałe modyfikacje

Odcedzanie: statyczne, dynamiczne, hiperdynamiczne Organizacja zwarta

Założenia:

Pytania do systemu się powtarzają

Mamy pewien okres obserwacji systemu i wiemy więc jakie obiekty stanowiły odpowiedź na takie pytania

Efekt: Porządkujemy obiekty w KW tak, że na górze kartoteki powinny być te obiekty, które najczęściej są odpowiedzią na pytania a te, które najrzadziej odpowiednio niżej w KW

(27)

Techniki odcedzania

przyspieszenie udzielania odpowiedzi na pytania wówczas, gdy znamy typowych użytkowników systemu i możemy dzięki temu określić zbiór pytań standardowych,

po utworzeniu nowego uporządkowania w zbiorze obiektów należy podać dodatkowy parametr usprawniający proces wyszukiwania. W zależności od stosowanej techniki może to być:

1 Wielkość obszaru do przeszukania (w obrębie kartoteki wyszukiwawczej)

2 Liczba obiektów relewantnych

3 Parametr określający efektywność procesu wyszukiwania, np.

kompletność odpowiedzi.

(28)

(29)

System S z odcedzaniem statycznym

Kartoteka wyszukiwawcza:

t_x₁ = (a, a1)(b, b1)(c, c1) t_x₅ = (a, a₁)(b, b₂)(c, c₁) tx6 = (a, a1)(b, b2)(c, c2) tx2 = (a, a1)(b, b1)(c, c2) t_x₃ = (a, a₂)(b, b₂)(c, c₃) tx4 = (a, a2)(b, b2)(c, c4) tx7 = (a, a2)(b, b2)(c, c3) t_x₈ = (a, a₂)(b, b₂)(c, c₄)

(30)

Ocena modyfikacji odcedzania statycznego

Wady: zwiększona zajętość pamięci na macierz pomocniczą, konieczność obliczania częstości występowania obiektów w odpowiedziach na pytania.

Zalety: kolejność pytań nie ma wpływu na uporządkowanie obiektów – jedynie częstość występowania obiektów w odpowiedziach na pytania.

(31)

(32)

(33)

(34)

(35)

(36)

(37)

Ocena modyfikacji

Wady: kolejność występowania obiektów na początku ma wpływ na wynikowe uporządkowanie obiektów, kolejność zadawania pytań też ma znaczenie.

Zalety: uporządkowanie kartoteki zmienia się na bieżąco po każdym pytaniu – a więc nie ma zwiększonej zajętości pamięci.

(38)

(39)

rozwiążmy razem...

(40)

Ocena

Wady: Ostatnie pytanie jest decydującym !!!

Zalety: uporządkowanie kartoteki zmienia się na bieżąco po każdym pytaniu – a więc nie ma zwiększonej zajętości pamięci.

(41)

(42)

Jaka jest kompletność ?

W metodzie klasycznej znaczenie termu t = (a, a1)(b, b2) jest następujące: σ(t) = {x₅, x6}

Przy zastosowaniu odcedzania statycznego znaczeniem tego termu jest zbiór: σ(t) = {x5, x6}

A więc przeszukując tylko 50% KW dostaliśmy tę samą odpowiedź, czyli kompletność jest na poziomie 100%

(43)

Inny przypadek

W metodzie klasycznej znaczenie termu t = (a, a1)(b, b2) jest następujące: σ(t) = {x₅, x6}

Przy zastosowaniu odcedzania statycznego i parametru k = 25% KW znaczeniem tego termu jest zbiór: σ(t) = {x5} A więc przeszukując tylko 25% KW dostaliśmy niekompletną odpowiedź: kompletność jest na poziomie 50%.

(44)

Wnioski:

Gdy nie przeszukujemy całej KW zyskujemy na czasie wyszukiwania (bo się on skraca) ale ryzykujemy utratą

kompletności odpowiedzi (bo możemy nie wyszukać wszystkich obiektów, które w swoim opisie zawierają termy

pytania).

(45)

Organizacja zwarta

Organizacja zwarta to uporządkowanie danych tak, aby obszary obiektów spełniających określone w pytaniu wymagania znajdowały się obok siebie (tworzą spójne obszary w KW).

Wprowadzenie tej modyfikacji wymaga predykcji pytań.

Jeżeli pytanie nie należy do zbioru pytań standardowych, wówczas dokonujemy typowego przeszukiwania, zgodnie z metodą list prostych.

Tylko w przypadku pytań standardowych możemy uzyskać przyspieszenie w uzyskaniu odpowiedzi na te pytania.

(46)

Definicja formalna organizacji zwartej

NiechT = {t₁, . . . , t_m}będzie zbiorem pytań standardowych. Dla każdegoti(i = 1, . . . , m) i jest indeksem pytania ti. NiechP(t), gdziet ∈ T oznacza podzbiór zbioru obiektów X , stanowiących odpowiedź na pytaniet . Wówczas przyjmujemy

P(T ) =Sm

i =1P(ti). Jeżeli istnieje uporządkowanie liniowe:

x₁, x₂, . . . , x_n

obiektów w zbiorzeX takich, że:

^

t∈T

_

s,p

P(t) = {x_s, x_s+1, . . . , x_s+p}

gdzie: s - numer lub indeks początku,p - rozmiar obszaru spójnego, to powiemy, że zbiór pytańT ma własność zwartości w zbiorze obiektówX.

(47)

Definicja formalna organizacji zwartej

Interpretacja macierzowa własności zwartości zbioru pytań względem zbioru obiektów wyznaczona jest przez macierz M = [m_ij], w której:

mij =

1 jeżeli x_j ∈ P(t_i) 0 jeżeli x_j ∈ P(t/ _i)

, gdziej = 1, . . . , |X |,i = 1, . . . , m.

Proszę zauważyć, że kolumnom odpowiadają pytania standardowe ti , zaś wierszom obiektyxj . Własność zwartości zbioru pytańT w zbiorze obiektówX można sformułować następująco: jeżeli istnieje taka permutacja wierszy w macierzyM , że w każdej kolumnie jedynki występują na kolejnych pozycjach (nie są przedzielone zerami), to zbiórT ma własność zwartości w zbiorze

(48)

(49)

(50)

(51)

(52)

(53)

(54)

Organizacja zwarta jest wtedy zaletą gdy zadajemy pytania w oparciu o pytania, które tworzyły całą organizację i budują tablicę TA (inaczej konieczny jest przegląd zupełny KW). Nie zawsze daje się zbudować zwarte obszary obiektów.

(55)

PODSUMOWANIE METODY LIST PROSTYCH

(56)

Redundancja i zajętość pamięci

Redundancja w metodzie list prostych nie występuje.

Każdy obiekt w bazie danych pamiętany jest tylko raz.

Zajętość pamięci wynika w tej metodzie jedynie z liczby obiektów w bazie danych.

(57)

Aktualizacja bazy danych

Aktualizacja związana z dodaniem lub usunięciem obiektu dla metody list prostych bez modyfikacji jest łatwa.

Aktualizacja związana ze zmianą opisu obiektu jest dość skomplikowana i najłatwiej dokonać jej przez usunięcie nieaktualnego opisu i dopisanie aktualnego. Wprowadzenie modyfikacji metody, zmian atrybutów lub ich wartości jest równoznaczne z reorganizacją bazy danych (ponowne zakładanie bazy danych).

(58)

Czas wyszukiwania

Czas wyszukiwania w metodzie list prostych jest bardzo duży.

W metodzie klasycznej konieczny jest pełny przegląd wszystkich opisów obiektów w bazie danych. Czas wyszukiwania:

τ = N · τ0,

gdzie: N- liczba obiektów w bazie,τ₀ -średni czas przeglądu jednego opisu obiektu. W przypadku modyfikacji związanej z uporządkowaniem opisów czas jest podobny, a tylko czasτ0 jest mniejszy. W przypadku grupowania obiektów czas ten wynosi średnio:

τ⁰ = N · τ0

k

gdziek - liczba grup. W przypadku podziału połówkowego stosowanego wielokrotnie:

τ⁰⁰ = N · τ0

2^k

gdziek - liczba stosowanych podziałów połówkowych.