SYSTEMY WYSZUKIWANIA INFORMACJI
Agnieszka Nowak - Brzezińska
17 października 2019
Wykład 2
Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI
Prosty język deskryptorowy
Języki informacyjno-wyszukiwawcze (JIW) – język sztuczny o wyspecjalizowanych funkcjach odtwarzania treści i formy dokumentów oraz treści zapytań użytkowników a także wyszukiwania dokumentów w zbiorze informacyjnym w odpowiedzi na zapytanie użytkownika.
Rodzaje JIW: Języki deskryptorowe, Języki słów kluczowych, Języki haseł przedmiotowych, i inne.
Do opisu obiektów oraz do zadawania pytań i generowania odpowiedzi w systemie wyszukiwania informacji S zdefiniowany został język informacyjny LS. Jest on prostym językiem deskryptorowym określonym jako para (alfabet, gramatyka).
Alfabet języka L
SAlfabet języka LS składa, się z następujących symboli:
1 0,1- stałe,
2 A - zbiór nazw atrybutów,
V - zbiór nazw wartości atrybutów. (W dalszym ciągu zbiór nazw atrybutów i zbiór nazw wartości atrybutów będzie nazywany: zbiorem atrybutów, zbiorem wartości atrybutów).
3 + ,·, v - symbole operacji logicznych ”lub”, ”i”, ”nie”,
4 (,)- nawiasy.
Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI
Gramatyka języka L
SGramatyka językaLS zadana jest przez określenie zbioru
dopuszczalnych słów (termów) języka i ich znaczenia (wartości).
Zbiór termówTS języka LS określony jest w następujący sposób:
1 stale 0,1są termami w LS ,
2 każdy deskryptor(a, v ), gdziea ∈ A,v ∈ Va- jest termem w LS,
3 jeżeli t, t0są termami t, t0 ∈ TS to:
v t- jest termem wLS, t + t0- jest termem w LS, t · t0 - jest termem wLS. Przykładem termu językaLS jest:
t = (Wydawnictwo, PWN),
t = (Wydawnictwo, PWN) · (Rok wydania, 2003),
Znaczenie termów
Znaczenie termów określa funkcja σ odwzorowująca zbiór termów TS systemu S w zbiór obiektów X :
σ : TS → P(X ) (P(X )− rodzina podzbiorów zbioru X).
Funkcjaσ jest określona w następujący sposób:
1 σ(0) = ∅ σ(1) = X,
2 σ(a, v ) = { x ∈ X : ρx(a) = v },
3 σ(v t) = X \σ(t), σ(t + t0) = σ(t) ∪ σ(t0), σ(t · t0) = σ(t) ∩ σ(t0).
Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI
Znaczenie termów c.d.
Znaczeniem termu będącego stałą 0 jest zbiór pusty, a termu będącego stałą1 - pełny zbiór obiektów.
Znaczeniem (wartością) deskryptora jest zbiór obiektów, w których opisie dany deskryptor występuje.
Znaczeniem negacji termu jest dopełnienie zbioru obiektów opisanych tym termem do zbioru pełnego.
Wartością (znaczeniem) sumy (iloczynu) termów jest suma (iloczyn) zbiorów obiektów będących wartościami tych termów.
Term elementarny
Termt będziemy nazywaćelementarnym, jeżeli tma postać:
t = (a1, v1) · (a2, v2), . . . , (am, vm), gdzieai ∈ A, vi ∈ Vai. Zbiór termów elementarnych oznaczać będziemyTE. Przykładem termu elementarnego dla systemu o trzech atrybutach:
Wydawnictwo, Rok wydania i Dziedzina, będzie term postaci:
t = (Wydawnictwo, PWN) · (Rok wydania, 2003) · (Dziedzina, informatyka).
Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI
Jeżeli atrybutami w pewnym systemie są np.: wiek, wzrost, kolor oczu, płeć, a wartościami tych atrybutów są przykładowo: 33 lata, 182 cm. niebieski, kobieta, wówczas odpowiedni term elementarny można zapisać jako:
t = (wiek, 33) · (wzrost, 182) · (kolor oczu, niebieski) · (płeć, kobieta).
Własności termów elementarnych
Jeżeli przezdj oznaczymy deskryptor(aj, vj) , to term elementarny można zapisać jako iloczyn deskryptorów z każdego atrybutu:
t = d1· d2· . . . · dm .
Termy elementarne mają następujące własności:
1 V
t,t0∈TE,t6=t0(σ(t) ∩ σ(t0) = ∅),
2 S
t∈TEσ(t) = X
Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI
Normalizacja termów
Normalizacja tekstu – proces przetwarzania tekstów, nadający mu spójną formę, ułatwiającą dalszą interpretację. Często stosowana jako etap wstępny do późniejszego parsowania.
Założeniem normalizacji jest zmiana formy przetwarzanego tekstu z formy pisanej na mówioną. W takim ujęciu
zagadnienie to przypomina tłumaczenie automatyczne, gdzie tłumaczony jest tekst pisany na tekst mówiony.
Normalizacja termów- proces przetwarzania termów, nadający im formę sumy termów elementarnych, co pozwala na szybkie wyszukiwanie odpowiedzi na pytania w postaci termów elementarnych (m.in. w metodzie składowych atomowych).
Term normalny i term składowy
Termt nazywać będziemynormalnymjeśli jest on sumą termów elementarnych: t = t1+ t2+ . . . + tm, ti ∈ TE(i = 1, . . . , m).
Termt będący iloczynem wartości różnych atrybutów językaLS o postacit = d1· d2· . . . · dk, k ≤ m nazywać będziemytermem składowym. Zatem term składowy nie musi zawierać wszystkich atrybutów systemuS . Term elementarny stanowi szczególny przypadek termu składowego. Na przykład dla systemu o 4 atrybutach: wiek, wzrost, kolor oczu, płeć, term składowy może mieć postać:
ts = (wiek, 33) · (kolor oczu, niebieski), lub
ts0 = (wzrost, 170) · (płeć, kobieta) · (kolor oczu, niebieski).
Odpowiedzią na podany termts będzie zbiór osób posiadających wyżej wymienione cechy, tzn. w wieku 33 lat i o kolorze oczu niebieskim, a na termts0 odpowiedzią będzie zbiór kobiet o wzroście 170 i niebieskich oczach.
Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI
Równość i zawieranie termów w systemie S
Powiemy, że termyt it0 są równe w systemie S - (symbolicznie t = t0 ) wtedy i tylko wtedy, gdy wartości termów są równe:
t = t0 ⇔ σ(t) = σ(t0)
Termt jest zawartyw t0 (t ≤ t0) wtedy i tylko wtedy, gdy zbiór obiektów odpowiadający wartości termut0 jest zawarty w zbiorze obiektów odpowiadających wartości termut :
t ≤ t0 ⇔ σ(t0) ⊆ σ(t)
Równość i zawieranie termów w systemie S - przykład
Weźmy pod uwagę dwa termy:
ts = (wiek, 33) · (kolor oczu, niebieski),
t = (wzrost, 170) · (płeć, kobieta) · (wiek, 33) · (kolor oczu, niebieski).
Odpowiedzią na pytanie t będą zatem te osoby, które są
odpowiedzią na pytanie ts i spełniają dodatkowe warunki ((wzrost, 170) i (płeć, kobieta)). Łatwo zauważyć, że ts ≤ t, gdyż
σ(t) ⊆ σ(ts).
Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI
Znaczenie termów - przykłady:
Niech alfabetem dla systemu S będą: Stałe: 0 i 1 Symbole: +,
*,∼, →, ↔ Atrybuty: {a, b, c} i ich wartości:
{v 1, v 2, w 1, w 2, u1, u2, u3}
Termy:
(a, v 1) + ((b, w 2) ∗ (c, u2))
∼ [(a, v 2) ∗ (a, v 1)] ∗ (c , u3) (b, w 1) + (c, u1)
Znaczenie termów - przykłady:
Wtedy znaczeniem termu:
(a, v 1) + ((b, w 2) ∗ (c, u2)) będzie:
σS((a, v 1) + ((b, w 2) ∗ (c, u2)) =
{x1, x3, x4, x6} ∪ ({x3, x4, x5} ∩ {x1}) = {x1, x3, x4, x6}
Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI
Znaczenie termów - przykłady:
Wtedy znaczeniem termu:
∼ [(a, v 2) ∗ (a, v 1)] ∗ (c , u3) będzie:
σS(∼ [(a, v 2) ∗ (a, v 1)] ∗ (c, u3)) =∼ ∅ ∪ {x2, x5, x6} = X
Przykład systemu informacyjnego
Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI
Zastosowanie modelu funkcyjnego do opisu metod wyszukiwania informacji
Stosując założenia systemu funkcyjnego, zdefiniowane pojęcia oraz prosty język deskryptorowy przedstawimy opis znanych metod wyszukiwania informacji, zwracając szczególną uwagę na sam proces wyszukiwania.
Omawiając metody wyszukiwania informacji z punktu widzenia systemu wyszukiwania informacji przeanalizujemy następujące parametry tych metod, istotne przy wyborze metody wyszukiwania w realizowanym systemie:
1 Strukturę (organizację) bazy danych
2 Redundancję i zajętość pamięci
3 Aktualizację bazy danych
4 Czas wyszukiwania informacji
Ad 1. Problem struktury bazy danych będzie rozpatrywany jedynie z punktu widzenia organizacji kartoteki wyszukiwawczej dla danej metody wyszukiwania - nie będziemy tu wchodzić w szeroki problem struktur danych i baz danych.
Ad 2. Redundancję będziemy rozpatrywać jako redundancję obiektową (powielenie się opisu obiektów w bazie danych) lub adresową (powielenie się adresów). Zajętość pamięci będziemy rozpatrywać głównie jako zajętość pamięci związaną
z wprowadzaną kartoteką wyszukiwawczą.
Ad 3. W procesie aktualizacji będziemy uwzględniać aktualizację związaną ze zmianą liczby obiektów w bazie danych (dodanie obiektu, usunięcie obiektu), aktualizację związaną ze zmianą opisu deskryptorowego obiektu.
Ad 4. Czas wyszukiwania będzie to czas potrzebny na znalezienie odpowiedzi na pytanie skierowane do systemu.
Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI
Przegląd metod wyszukiwania informacji
MLP MLI MLŁ Salton MSA
Metoda list prostych
W metodzie list prostych, zwanej również metodą przeglądu
zupełnego, kolejność pamiętania informacji w bazie danych systemu jest dowolna (np. zgodna z kolejnością napływania informacji).
Informacje mogą być pamiętane w postaci dokumentów źródłowych lub w postaci dokumentów wtórnych. Do systemu zadawane jest pytanie dotyczące obiektu o wskazanym opisie. Pytanie to
porównywane jest z opisem każdego obiektu w bazie danych i jako odpowiedź wybiera się te obiekty, których opis jest zgodny
z pytaniem.
Znalezienie odpowiedzi na pytanie zadane do systemu wymaga w tej metodzie dokonania przeglądu wszystkich opisów obiektów w bazie danych (przegląd zupełny).
Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI
Metoda list inwersyjnych
Opisy obiektów w tej metodzie są określone przez podanie wartości cech, za pomocą których opisujemy obiekty w systemie -
deskryptorów. Dla każdego deskryptora w systemie tworzona jest lista obiektów zawierających w swoim opisie ten deskryptor (lista inwersyjna). Listy inwersyjne pozwalają szybko znaleźć odpowiedź na pytanie zadane do systemu. Jeżeli pytamy o obiekty mające w swoim opisie określony deskryptor, to dla znalezienia odpowiedzi wystarczy znaleźć właściwą listę inwersyjną. Jeżeli pytanie dotyczy obiektów opisanych kilkoma deskryptorami, to aby otrzymać odpowiedź, należy znaleźć listy inwersyjne dla wszystkich deskryptorów występujących w pytaniu. Obiekty występujące równocześnie we wszystkich znalezionych listach stanowią
odpowiedź na pytanie. Zatem dla znalezienia odpowiedzi na pytanie skierowane do systemu wystarczy wykonać pewne operacje na listach inwersyjnych. Jest ona stosowana bardzo często
Metoda list łańcuchowych
Obiekty opisane są za pomocą deskryptorów, tak jak w metodzie list inwersyjnych. Opisy obiektów pamiętane są w bazie danych w dowolnej kolejności (tak jak w metodzie list prostych). Przy każdym deskryptorze w opisie obiektu umieszczone są odsyłacze wskazujące kolejny obiekt, w którego opisie dany deskryptor występuje. W ten sposób w bazie danych łatwo znaleźć tzw.
”łańcuch” będący zbiorem obiektów, których opisy zawierają dany deskryptor. Jeżeli pytanie do systemu dotyczy obiektów
zawierających w swoim opisie równocześnie kilka deskryptorów, to należy znaleźć ”łańcuchy” obiektów dla każdego deskryptora występującego w pytaniu, a następnie obiekty występujące równocześnie we wszystkich tych łańcuchach. Wyszukane w ten sposób obiekty będą stanowić odpowiedź na pytanie. Metoda daje szybką odpowiedź szczególnie na pytanie jednodeskryptorowe.
Metoda list łańcuchowych stosowana jest często w rozwiązaniach programowych systemów, niejednokrotnie w wersjach nieco zmodyfikowanych.
Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI
Metoda Saltona
W metodzie Saltona następuje podział wszystkich obiektów na grupy o podobnym opisie. Każda grupa jest poprzedzona określonym wektorem pojęć charakterystycznych dla danej grupy (wektor centroidalny, profil).
Wyszukiwanie odpowiedzi polega na porównaniu pytania z wektorami pojęć charakteryzujących poszczególne grupy obiektów, a następnie wybraniu grup o wektorze najbardziej zbliżonym do pytania. Obiekty występujące w tych grupach stanowią tzw. odpowiedź przybliżoną na pytanie. Następnie dokonuje się przeglądu zupełnego wybranych obiektów dla znalezienia odpowiedzi dokładnej, tzn. obiektów, których opisy dokładnie odpowiadają pytaniu.
Proces grupowania i porównywania pytania z pniami czy wektorami pojęć odbywa się poprzez znajdowanie współczynników
podobieństwa pomiędzy pojęciami występującymi w opisach
Metoda składowych atomowych
Wszystkie obiekty w bazie danych dzielimy na tzw. ”składowe atomowe”, tzn. podzbiory obiektów o identycznym opisie. W bazie danych pamiętane są adresy składowych atomowych
i odpowiadające im zbiory obiektów.
Dla zadanego pytania łatwo znaleźć adres odpowiedniej składowej atomowej a przez to odpowiedź na zadane pytanie.
Wyszukiwanie odpowiedzi na pytanie odbywa się szybko.
Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI
Bibliografia
Bibliografia
Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI
Bibliografia
Bibliografia
Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI
Bibliografia
Bibliografia podstawowa:
Pawlak Z.: Systemy informacyjne. Podstawy teoretyczne, Warszawa, WNT, 1983.
Salton G.: SMART automatyczny system wyszukiwania informacji, Warszawa, WNT, 1975.
Wakulicz-Deja A., Boryczka U., Nowak - Brzezińska A.:
Podstawy Systemów Wyszukiwania Informacji. Analiza metod, EXIT, Warszawa, 2014.
Grzelak K., Kochańska J.: System wyszukiwania informacji metodą składowych atomowych MSAWYSZ, Warszawa : Instytut Podstaw Informatyki Polskiej Akademii Nauk, 1983.
Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI
Bibliografia dodatkowa:
Dąbrowski M., Laus-Mączyńska K.: Metody wyszukiwania i klasyfikacji informacji, Warszawa, WNT, 1978.
Van Rijsbergen C.J.: Information Retrieval, Butterworth-Heinemann, ISBN 0408709294, 2009.
Wakulicz-Deja A.: Metody wyszukiwania informacji.
Zagadnienie implementacji, (skrypt U. Śl.) Katowice, 1985.
Kłopotek M.A.: Inteligentne wyszukiwarki internetowe.
Akademicka Oficyna Wydawnicza Exit, Warszawa 2001, ISBN 83-87674-31-1.
Wakulicz-Deja A.: Podstawy systemów wyszukiwania
informacji. Analiza metod., Akademicka Oficyna Wydawnicza,