SYSTEMY WYSZUKIWANIA INFORMACJI

(1)

SYSTEMY WYSZUKIWANIA INFORMACJI

Agnieszka Nowak - Brzezińska

17 października 2019

Wykład 2

Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI

(2)

Prosty język deskryptorowy

Języki informacyjno-wyszukiwawcze (JIW) – język sztuczny o wyspecjalizowanych funkcjach odtwarzania treści i formy dokumentów oraz treści zapytań użytkowników a także wyszukiwania dokumentów w zbiorze informacyjnym w odpowiedzi na zapytanie użytkownika.

Rodzaje JIW: Języki deskryptorowe, Języki słów kluczowych, Języki haseł przedmiotowych, i inne.

Do opisu obiektów oraz do zadawania pytań i generowania odpowiedzi w systemie wyszukiwania informacji S zdefiniowany został język informacyjny L_S. Jest on prostym językiem deskryptorowym określonym jako para (alfabet, gramatyka).

(3)

Alfabet języka L

S

Alfabet języka L_S składa, się z następujących symboli:

1 0,1- stałe,

2 A - zbiór nazw atrybutów,

V - zbiór nazw wartości atrybutów. (W dalszym ciągu zbiór nazw atrybutów i zbiór nazw wartości atrybutów będzie nazywany: zbiorem atrybutów, zbiorem wartości atrybutów).

3 + ,·, v - symbole operacji logicznych ”lub”, ”i”, ”nie”,

4 (,)- nawiasy.

(4)

Gramatyka języka L

S

Gramatyka językaLS zadana jest przez określenie zbioru

dopuszczalnych słów (termów) języka i ich znaczenia (wartości).

Zbiór termówT_S języka L_S określony jest w następujący sposób:

1 stale 0,1są termami w L_S ,

2 każdy deskryptor(a, v ), gdziea ∈ A,v ∈ V_a- jest termem w L_S,

3 jeżeli t, t⁰są termami t, t⁰ ∈ T_S to:

v t- jest termem wL_S, t + t⁰- jest termem w L_S, t · t⁰ - jest termem wL_S. Przykładem termu językaL_S jest:

t = (Wydawnictwo, PWN),

t = (Wydawnictwo, PWN) · (Rok wydania, 2003),

(5)

Znaczenie termów

Znaczenie termów określa funkcja σ odwzorowująca zbiór termów TS systemu S w zbiór obiektów X :

σ : T_S → P(X ) (P(X )− rodzina podzbiorów zbioru X).

Funkcjaσ jest określona w następujący sposób:

1 σ(0) = ∅ σ(1) = X,

2 σ(a, v ) = { x ∈ X : ρx(a) = v },

3 σ(v t) = X \σ(t), σ(t + t⁰) = σ(t) ∪ σ(t⁰), σ(t · t⁰) = σ(t) ∩ σ(t⁰).

(6)

Znaczenie termów c.d.

Znaczeniem termu będącego stałą 0 jest zbiór pusty, a termu będącego stałą1 - pełny zbiór obiektów.

Znaczeniem (wartością) deskryptora jest zbiór obiektów, w których opisie dany deskryptor występuje.

Znaczeniem negacji termu jest dopełnienie zbioru obiektów opisanych tym termem do zbioru pełnego.

Wartością (znaczeniem) sumy (iloczynu) termów jest suma (iloczyn) zbiorów obiektów będących wartościami tych termów.

(7)

Term elementarny

Termt będziemy nazywaćelementarnym, jeżeli tma postać:

t = (a1, v1) · (a2, v2), . . . , (am, vm), gdzieai ∈ A, v_i ∈ V_a_i. Zbiór termów elementarnych oznaczać będziemyTE. Przykładem termu elementarnego dla systemu o trzech atrybutach:

Wydawnictwo, Rok wydania i Dziedzina, będzie term postaci:

t = (Wydawnictwo, PWN) · (Rok wydania, 2003) · (Dziedzina, informatyka).

(8)

Jeżeli atrybutami w pewnym systemie są np.: wiek, wzrost, kolor oczu, płeć, a wartościami tych atrybutów są przykładowo: 33 lata, 182 cm. niebieski, kobieta, wówczas odpowiedni term elementarny można zapisać jako:

t = (wiek, 33) · (wzrost, 182) · (kolor oczu, niebieski) · (płeć, kobieta).

(9)

Własności termów elementarnych

Jeżeli przezd_j oznaczymy deskryptor(a_j, v_j) , to term elementarny można zapisać jako iloczyn deskryptorów z każdego atrybutu:

t = d₁· d₂· . . . · d_m .

Termy elementarne mają następujące własności:

1 V

t,t⁰∈T_E,t6=t⁰(σ(t) ∩ σ(t⁰) = ∅),

2 S

t∈TEσ(t) = X

(10)

Normalizacja termów

Normalizacja tekstu – proces przetwarzania tekstów, nadający mu spójną formę, ułatwiającą dalszą interpretację. Często stosowana jako etap wstępny do późniejszego parsowania.

Założeniem normalizacji jest zmiana formy przetwarzanego tekstu z formy pisanej na mówioną. W takim ujęciu

zagadnienie to przypomina tłumaczenie automatyczne, gdzie tłumaczony jest tekst pisany na tekst mówiony.

Normalizacja termów- proces przetwarzania termów, nadający im formę sumy termów elementarnych, co pozwala na szybkie wyszukiwanie odpowiedzi na pytania w postaci termów elementarnych (m.in. w metodzie składowych atomowych).

(11)

Term normalny i term składowy

Termt nazywać będziemynormalnymjeśli jest on sumą termów elementarnych: t = t1+ t2+ . . . + tm, ti ∈ T_E(i = 1, . . . , m).

Termt będący iloczynem wartości różnych atrybutów językaL_S o postacit = d₁· d₂· . . . · d_k, k ≤ m nazywać będziemytermem składowym. Zatem term składowy nie musi zawierać wszystkich atrybutów systemuS . Term elementarny stanowi szczególny przypadek termu składowego. Na przykład dla systemu o 4 atrybutach: wiek, wzrost, kolor oczu, płeć, term składowy może mieć postać:

ts = (wiek, 33) · (kolor oczu, niebieski), lub

t_s⁰ = (wzrost, 170) · (płeć, kobieta) · (kolor oczu, niebieski).

Odpowiedzią na podany termt_s będzie zbiór osób posiadających wyżej wymienione cechy, tzn. w wieku 33 lat i o kolorze oczu niebieskim, a na termt_s⁰ odpowiedzią będzie zbiór kobiet o wzroście 170 i niebieskich oczach.

(12)

Równość i zawieranie termów w systemie S

Powiemy, że termyt it⁰ są równe w systemie S - (symbolicznie t = t⁰ ) wtedy i tylko wtedy, gdy wartości termów są równe:

t = t⁰ ⇔ σ(t) = σ(t⁰)

Termt jest zawartyw t⁰ (t ≤ t⁰) wtedy i tylko wtedy, gdy zbiór obiektów odpowiadający wartości termut⁰ jest zawarty w zbiorze obiektów odpowiadających wartości termut :

t ≤ t⁰ ⇔ σ(t⁰) ⊆ σ(t)

(13)

Równość i zawieranie termów w systemie S - przykład

Weźmy pod uwagę dwa termy:

ts = (wiek, 33) · (kolor oczu, niebieski),

t = (wzrost, 170) · (płeć, kobieta) · (wiek, 33) · (kolor oczu, niebieski).

Odpowiedzią na pytanie t będą zatem te osoby, które są

odpowiedzią na pytanie t_s i spełniają dodatkowe warunki ((wzrost, 170) i (płeć, kobieta)). Łatwo zauważyć, że t_s ≤ t, gdyż

σ(t) ⊆ σ(ts).

(14)

Znaczenie termów - przykłady:

Niech alfabetem dla systemu S będą: Stałe: 0 i 1 Symbole: +,

*,∼, →, ↔ Atrybuty: {a, b, c} i ich wartości:

{v 1, v 2, w 1, w 2, u1, u2, u3}

Termy:

(a, v 1) + ((b, w 2) ∗ (c, u2))

∼ [(a, v 2) ∗ (a, v 1)] ∗ (c , u3) (b, w 1) + (c, u1)

(15)

Znaczenie termów - przykłady:

Wtedy znaczeniem termu:

(a, v 1) + ((b, w 2) ∗ (c, u2)) będzie:

σS((a, v 1) + ((b, w 2) ∗ (c, u2)) =

{x₁, x3, x4, x6} ∪ ({x₃, x4, x5} ∩ {x₁}) = {x₁, x3, x4, x6}

(16)

Znaczenie termów - przykłady:

Wtedy znaczeniem termu:

∼ [(a, v 2) ∗ (a, v 1)] ∗ (c , u3) będzie:

σS(∼ [(a, v 2) ∗ (a, v 1)] ∗ (c, u3)) =∼ ∅ ∪ {x2, x5, x6} = X

(17)

Przykład systemu informacyjnego

(18)

Zastosowanie modelu funkcyjnego do opisu metod wyszukiwania informacji

Stosując założenia systemu funkcyjnego, zdefiniowane pojęcia oraz prosty język deskryptorowy przedstawimy opis znanych metod wyszukiwania informacji, zwracając szczególną uwagę na sam proces wyszukiwania.

Omawiając metody wyszukiwania informacji z punktu widzenia systemu wyszukiwania informacji przeanalizujemy następujące parametry tych metod, istotne przy wyborze metody wyszukiwania w realizowanym systemie:

1 Strukturę (organizację) bazy danych

2 Redundancję i zajętość pamięci

3 Aktualizację bazy danych

4 Czas wyszukiwania informacji

(19)

Ad 1. Problem struktury bazy danych będzie rozpatrywany jedynie z punktu widzenia organizacji kartoteki wyszukiwawczej dla danej metody wyszukiwania - nie będziemy tu wchodzić w szeroki problem struktur danych i baz danych.

Ad 2. Redundancję będziemy rozpatrywać jako redundancję obiektową (powielenie się opisu obiektów w bazie danych) lub adresową (powielenie się adresów). Zajętość pamięci będziemy rozpatrywać głównie jako zajętość pamięci związaną

z wprowadzaną kartoteką wyszukiwawczą.

Ad 3. W procesie aktualizacji będziemy uwzględniać aktualizację związaną ze zmianą liczby obiektów w bazie danych (dodanie obiektu, usunięcie obiektu), aktualizację związaną ze zmianą opisu deskryptorowego obiektu.

Ad 4. Czas wyszukiwania będzie to czas potrzebny na znalezienie odpowiedzi na pytanie skierowane do systemu.

(20)

Przegląd metod wyszukiwania informacji

MLP MLI MLŁ Salton MSA

(21)

Metoda list prostych

W metodzie list prostych, zwanej również metodą przeglądu

zupełnego, kolejność pamiętania informacji w bazie danych systemu jest dowolna (np. zgodna z kolejnością napływania informacji).

Informacje mogą być pamiętane w postaci dokumentów źródłowych lub w postaci dokumentów wtórnych. Do systemu zadawane jest pytanie dotyczące obiektu o wskazanym opisie. Pytanie to

porównywane jest z opisem każdego obiektu w bazie danych i jako odpowiedź wybiera się te obiekty, których opis jest zgodny

z pytaniem.

Znalezienie odpowiedzi na pytanie zadane do systemu wymaga w tej metodzie dokonania przeglądu wszystkich opisów obiektów w bazie danych (przegląd zupełny).

(22)

Metoda list inwersyjnych

Opisy obiektów w tej metodzie są określone przez podanie wartości cech, za pomocą których opisujemy obiekty w systemie -

deskryptorów. Dla każdego deskryptora w systemie tworzona jest lista obiektów zawierających w swoim opisie ten deskryptor (lista inwersyjna). Listy inwersyjne pozwalają szybko znaleźć odpowiedź na pytanie zadane do systemu. Jeżeli pytamy o obiekty mające w swoim opisie określony deskryptor, to dla znalezienia odpowiedzi wystarczy znaleźć właściwą listę inwersyjną. Jeżeli pytanie dotyczy obiektów opisanych kilkoma deskryptorami, to aby otrzymać odpowiedź, należy znaleźć listy inwersyjne dla wszystkich deskryptorów występujących w pytaniu. Obiekty występujące równocześnie we wszystkich znalezionych listach stanowią

odpowiedź na pytanie. Zatem dla znalezienia odpowiedzi na pytanie skierowane do systemu wystarczy wykonać pewne operacje na listach inwersyjnych. Jest ona stosowana bardzo często

(23)

Metoda list łańcuchowych

Obiekty opisane są za pomocą deskryptorów, tak jak w metodzie list inwersyjnych. Opisy obiektów pamiętane są w bazie danych w dowolnej kolejności (tak jak w metodzie list prostych). Przy każdym deskryptorze w opisie obiektu umieszczone są odsyłacze wskazujące kolejny obiekt, w którego opisie dany deskryptor występuje. W ten sposób w bazie danych łatwo znaleźć tzw.

”łańcuch” będący zbiorem obiektów, których opisy zawierają dany deskryptor. Jeżeli pytanie do systemu dotyczy obiektów

zawierających w swoim opisie równocześnie kilka deskryptorów, to należy znaleźć ”łańcuchy” obiektów dla każdego deskryptora występującego w pytaniu, a następnie obiekty występujące równocześnie we wszystkich tych łańcuchach. Wyszukane w ten sposób obiekty będą stanowić odpowiedź na pytanie. Metoda daje szybką odpowiedź szczególnie na pytanie jednodeskryptorowe.

Metoda list łańcuchowych stosowana jest często w rozwiązaniach programowych systemów, niejednokrotnie w wersjach nieco zmodyfikowanych.

(24)

Metoda Saltona

W metodzie Saltona następuje podział wszystkich obiektów na grupy o podobnym opisie. Każda grupa jest poprzedzona określonym wektorem pojęć charakterystycznych dla danej grupy (wektor centroidalny, profil).

Wyszukiwanie odpowiedzi polega na porównaniu pytania z wektorami pojęć charakteryzujących poszczególne grupy obiektów, a następnie wybraniu grup o wektorze najbardziej zbliżonym do pytania. Obiekty występujące w tych grupach stanowią tzw. odpowiedź przybliżoną na pytanie. Następnie dokonuje się przeglądu zupełnego wybranych obiektów dla znalezienia odpowiedzi dokładnej, tzn. obiektów, których opisy dokładnie odpowiadają pytaniu.

Proces grupowania i porównywania pytania z pniami czy wektorami pojęć odbywa się poprzez znajdowanie współczynników

podobieństwa pomiędzy pojęciami występującymi w opisach

(25)

Metoda składowych atomowych

Wszystkie obiekty w bazie danych dzielimy na tzw. ”składowe atomowe”, tzn. podzbiory obiektów o identycznym opisie. W bazie danych pamiętane są adresy składowych atomowych

i odpowiadające im zbiory obiektów.

Dla zadanego pytania łatwo znaleźć adres odpowiedniej składowej atomowej a przez to odpowiedź na zadane pytanie.

Wyszukiwanie odpowiedzi na pytanie odbywa się szybko.

(26)

Bibliografia

(27)

Bibliografia

(28)

Bibliografia

(29)

Bibliografia

(30)

Bibliografia

(31)

Bibliografia podstawowa:

Pawlak Z.: Systemy informacyjne. Podstawy teoretyczne, Warszawa, WNT, 1983.

Salton G.: SMART automatyczny system wyszukiwania informacji, Warszawa, WNT, 1975.

Wakulicz-Deja A., Boryczka U., Nowak - Brzezińska A.:

Podstawy Systemów Wyszukiwania Informacji. Analiza metod, EXIT, Warszawa, 2014.

Grzelak K., Kochańska J.: System wyszukiwania informacji metodą składowych atomowych MSAWYSZ, Warszawa : Instytut Podstaw Informatyki Polskiej Akademii Nauk, 1983.

(32)

Bibliografia dodatkowa:

Dąbrowski M., Laus-Mączyńska K.: Metody wyszukiwania i klasyfikacji informacji, Warszawa, WNT, 1978.

Van Rijsbergen C.J.: Information Retrieval, Butterworth-Heinemann, ISBN 0408709294, 2009.

Wakulicz-Deja A.: Metody wyszukiwania informacji.

Zagadnienie implementacji, (skrypt U. Śl.) Katowice, 1985.

Kłopotek M.A.: Inteligentne wyszukiwarki internetowe.

Akademicka Oficyna Wydawnicza Exit, Warszawa 2001, ISBN 83-87674-31-1.

Wakulicz-Deja A.: Podstawy systemów wyszukiwania

informacji. Analiza metod., Akademicka Oficyna Wydawnicza,