• Nie Znaleziono Wyników

SYSTEMY WYSZUKIWANIA INFORMACJI

N/A
N/A
Protected

Academic year: 2021

Share "SYSTEMY WYSZUKIWANIA INFORMACJI"

Copied!
32
0
0

Pełen tekst

(1)

SYSTEMY WYSZUKIWANIA INFORMACJI

Agnieszka Nowak - Brzezińska

17 października 2019

Wykład 2

Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI

(2)

Prosty język deskryptorowy

Języki informacyjno-wyszukiwawcze (JIW) – język sztuczny o wyspecjalizowanych funkcjach odtwarzania treści i formy dokumentów oraz treści zapytań użytkowników a także wyszukiwania dokumentów w zbiorze informacyjnym w odpowiedzi na zapytanie użytkownika.

Rodzaje JIW: Języki deskryptorowe, Języki słów kluczowych, Języki haseł przedmiotowych, i inne.

Do opisu obiektów oraz do zadawania pytań i generowania odpowiedzi w systemie wyszukiwania informacji S zdefiniowany został język informacyjny LS. Jest on prostym językiem deskryptorowym określonym jako para (alfabet, gramatyka).

(3)

Alfabet języka L

S

Alfabet języka LS składa, się z następujących symboli:

1 0,1- stałe,

2 A - zbiór nazw atrybutów,

V - zbiór nazw wartości atrybutów. (W dalszym ciągu zbiór nazw atrybutów i zbiór nazw wartości atrybutów będzie nazywany: zbiorem atrybutów, zbiorem wartości atrybutów).

3 + ,·, v - symbole operacji logicznych ”lub”, ”i”, ”nie”,

4 (,)- nawiasy.

Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI

(4)

Gramatyka języka L

S

Gramatyka językaLS zadana jest przez określenie zbioru

dopuszczalnych słów (termów) języka i ich znaczenia (wartości).

Zbiór termówTS języka LS określony jest w następujący sposób:

1 stale 0,1są termami w LS ,

2 każdy deskryptor(a, v ), gdziea ∈ A,v ∈ Va- jest termem w LS,

3 jeżeli t, t0są termami t, t0 ∈ TS to:

v t- jest termem wLS, t + t0- jest termem w LS, t · t0 - jest termem wLS. Przykładem termu językaLS jest:

t = (Wydawnictwo, PWN),

t = (Wydawnictwo, PWN) · (Rok wydania, 2003),

(5)

Znaczenie termów

Znaczenie termów określa funkcja σ odwzorowująca zbiór termów TS systemu S w zbiór obiektów X :

σ : TS → P(X ) (P(X )− rodzina podzbiorów zbioru X).

Funkcjaσ jest określona w następujący sposób:

1 σ(0) = ∅ σ(1) = X,

2 σ(a, v ) = { x ∈ X : ρx(a) = v },

3 σ(v t) = X \σ(t), σ(t + t0) = σ(t) ∪ σ(t0), σ(t · t0) = σ(t) ∩ σ(t0).

Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI

(6)

Znaczenie termów c.d.

Znaczeniem termu będącego stałą 0 jest zbiór pusty, a termu będącego stałą1 - pełny zbiór obiektów.

Znaczeniem (wartością) deskryptora jest zbiór obiektów, w których opisie dany deskryptor występuje.

Znaczeniem negacji termu jest dopełnienie zbioru obiektów opisanych tym termem do zbioru pełnego.

Wartością (znaczeniem) sumy (iloczynu) termów jest suma (iloczyn) zbiorów obiektów będących wartościami tych termów.

(7)

Term elementarny

Termt będziemy nazywaćelementarnym, jeżeli tma postać:

t = (a1, v1) · (a2, v2), . . . , (am, vm), gdzieai ∈ A, vi ∈ Vai. Zbiór termów elementarnych oznaczać będziemyTE. Przykładem termu elementarnego dla systemu o trzech atrybutach:

Wydawnictwo, Rok wydania i Dziedzina, będzie term postaci:

t = (Wydawnictwo, PWN) · (Rok wydania, 2003) · (Dziedzina, informatyka).

Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI

(8)

Jeżeli atrybutami w pewnym systemie są np.: wiek, wzrost, kolor oczu, płeć, a wartościami tych atrybutów są przykładowo: 33 lata, 182 cm. niebieski, kobieta, wówczas odpowiedni term elementarny można zapisać jako:

t = (wiek, 33) · (wzrost, 182) · (kolor oczu, niebieski) · (płeć, kobieta).

(9)

Własności termów elementarnych

Jeżeli przezdj oznaczymy deskryptor(aj, vj) , to term elementarny można zapisać jako iloczyn deskryptorów z każdego atrybutu:

t = d1· d2· . . . · dm .

Termy elementarne mają następujące własności:

1 V

t,t0∈TE,t6=t0(σ(t) ∩ σ(t0) = ∅),

2 S

t∈TEσ(t) = X

Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI

(10)

Normalizacja termów

Normalizacja tekstu – proces przetwarzania tekstów, nadający mu spójną formę, ułatwiającą dalszą interpretację. Często stosowana jako etap wstępny do późniejszego parsowania.

Założeniem normalizacji jest zmiana formy przetwarzanego tekstu z formy pisanej na mówioną. W takim ujęciu

zagadnienie to przypomina tłumaczenie automatyczne, gdzie tłumaczony jest tekst pisany na tekst mówiony.

Normalizacja termów- proces przetwarzania termów, nadający im formę sumy termów elementarnych, co pozwala na szybkie wyszukiwanie odpowiedzi na pytania w postaci termów elementarnych (m.in. w metodzie składowych atomowych).

(11)

Term normalny i term składowy

Termt nazywać będziemynormalnymjeśli jest on sumą termów elementarnych: t = t1+ t2+ . . . + tm, ti ∈ TE(i = 1, . . . , m).

Termt będący iloczynem wartości różnych atrybutów językaLS o postacit = d1· d2· . . . · dk, k ≤ m nazywać będziemytermem składowym. Zatem term składowy nie musi zawierać wszystkich atrybutów systemuS . Term elementarny stanowi szczególny przypadek termu składowego. Na przykład dla systemu o 4 atrybutach: wiek, wzrost, kolor oczu, płeć, term składowy może mieć postać:

ts = (wiek, 33) · (kolor oczu, niebieski), lub

ts0 = (wzrost, 170) · (płeć, kobieta) · (kolor oczu, niebieski).

Odpowiedzią na podany termts będzie zbiór osób posiadających wyżej wymienione cechy, tzn. w wieku 33 lat i o kolorze oczu niebieskim, a na termts0 odpowiedzią będzie zbiór kobiet o wzroście 170 i niebieskich oczach.

Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI

(12)

Równość i zawieranie termów w systemie S

Powiemy, że termyt it0 są równe w systemie S - (symbolicznie t = t0 ) wtedy i tylko wtedy, gdy wartości termów są równe:

t = t0 ⇔ σ(t) = σ(t0)

Termt jest zawartyw t0 (t ≤ t0) wtedy i tylko wtedy, gdy zbiór obiektów odpowiadający wartości termut0 jest zawarty w zbiorze obiektów odpowiadających wartości termut :

t ≤ t0 ⇔ σ(t0) ⊆ σ(t)

(13)

Równość i zawieranie termów w systemie S - przykład

Weźmy pod uwagę dwa termy:

ts = (wiek, 33) · (kolor oczu, niebieski),

t = (wzrost, 170) · (płeć, kobieta) · (wiek, 33) · (kolor oczu, niebieski).

Odpowiedzią na pytanie t będą zatem te osoby, które są

odpowiedzią na pytanie ts i spełniają dodatkowe warunki ((wzrost, 170) i (płeć, kobieta)). Łatwo zauważyć, że ts ≤ t, gdyż

σ(t) ⊆ σ(ts).

Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI

(14)

Znaczenie termów - przykłady:

Niech alfabetem dla systemu S będą: Stałe: 0 i 1 Symbole: +,

*,∼, →, ↔ Atrybuty: {a, b, c} i ich wartości:

{v 1, v 2, w 1, w 2, u1, u2, u3}

Termy:

(a, v 1) + ((b, w 2) ∗ (c, u2))

∼ [(a, v 2) ∗ (a, v 1)] ∗ (c , u3) (b, w 1) + (c, u1)

(15)

Znaczenie termów - przykłady:

Wtedy znaczeniem termu:

(a, v 1) + ((b, w 2) ∗ (c, u2)) będzie:

σS((a, v 1) + ((b, w 2) ∗ (c, u2)) =

{x1, x3, x4, x6} ∪ ({x3, x4, x5} ∩ {x1}) = {x1, x3, x4, x6}

Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI

(16)

Znaczenie termów - przykłady:

Wtedy znaczeniem termu:

∼ [(a, v 2) ∗ (a, v 1)] ∗ (c , u3) będzie:

σS(∼ [(a, v 2) ∗ (a, v 1)] ∗ (c, u3)) =∼ ∅ ∪ {x2, x5, x6} = X

(17)

Przykład systemu informacyjnego

Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI

(18)

Zastosowanie modelu funkcyjnego do opisu metod wyszukiwania informacji

Stosując założenia systemu funkcyjnego, zdefiniowane pojęcia oraz prosty język deskryptorowy przedstawimy opis znanych metod wyszukiwania informacji, zwracając szczególną uwagę na sam proces wyszukiwania.

Omawiając metody wyszukiwania informacji z punktu widzenia systemu wyszukiwania informacji przeanalizujemy następujące parametry tych metod, istotne przy wyborze metody wyszukiwania w realizowanym systemie:

1 Strukturę (organizację) bazy danych

2 Redundancję i zajętość pamięci

3 Aktualizację bazy danych

4 Czas wyszukiwania informacji

(19)

Ad 1. Problem struktury bazy danych będzie rozpatrywany jedynie z punktu widzenia organizacji kartoteki wyszukiwawczej dla danej metody wyszukiwania - nie będziemy tu wchodzić w szeroki problem struktur danych i baz danych.

Ad 2. Redundancję będziemy rozpatrywać jako redundancję obiektową (powielenie się opisu obiektów w bazie danych) lub adresową (powielenie się adresów). Zajętość pamięci będziemy rozpatrywać głównie jako zajętość pamięci związaną

z wprowadzaną kartoteką wyszukiwawczą.

Ad 3. W procesie aktualizacji będziemy uwzględniać aktualizację związaną ze zmianą liczby obiektów w bazie danych (dodanie obiektu, usunięcie obiektu), aktualizację związaną ze zmianą opisu deskryptorowego obiektu.

Ad 4. Czas wyszukiwania będzie to czas potrzebny na znalezienie odpowiedzi na pytanie skierowane do systemu.

Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI

(20)

Przegląd metod wyszukiwania informacji

MLP MLI MLŁ Salton MSA

(21)

Metoda list prostych

W metodzie list prostych, zwanej również metodą przeglądu

zupełnego, kolejność pamiętania informacji w bazie danych systemu jest dowolna (np. zgodna z kolejnością napływania informacji).

Informacje mogą być pamiętane w postaci dokumentów źródłowych lub w postaci dokumentów wtórnych. Do systemu zadawane jest pytanie dotyczące obiektu o wskazanym opisie. Pytanie to

porównywane jest z opisem każdego obiektu w bazie danych i jako odpowiedź wybiera się te obiekty, których opis jest zgodny

z pytaniem.

Znalezienie odpowiedzi na pytanie zadane do systemu wymaga w tej metodzie dokonania przeglądu wszystkich opisów obiektów w bazie danych (przegląd zupełny).

Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI

(22)

Metoda list inwersyjnych

Opisy obiektów w tej metodzie są określone przez podanie wartości cech, za pomocą których opisujemy obiekty w systemie -

deskryptorów. Dla każdego deskryptora w systemie tworzona jest lista obiektów zawierających w swoim opisie ten deskryptor (lista inwersyjna). Listy inwersyjne pozwalają szybko znaleźć odpowiedź na pytanie zadane do systemu. Jeżeli pytamy o obiekty mające w swoim opisie określony deskryptor, to dla znalezienia odpowiedzi wystarczy znaleźć właściwą listę inwersyjną. Jeżeli pytanie dotyczy obiektów opisanych kilkoma deskryptorami, to aby otrzymać odpowiedź, należy znaleźć listy inwersyjne dla wszystkich deskryptorów występujących w pytaniu. Obiekty występujące równocześnie we wszystkich znalezionych listach stanowią

odpowiedź na pytanie. Zatem dla znalezienia odpowiedzi na pytanie skierowane do systemu wystarczy wykonać pewne operacje na listach inwersyjnych. Jest ona stosowana bardzo często

(23)

Metoda list łańcuchowych

Obiekty opisane są za pomocą deskryptorów, tak jak w metodzie list inwersyjnych. Opisy obiektów pamiętane są w bazie danych w dowolnej kolejności (tak jak w metodzie list prostych). Przy każdym deskryptorze w opisie obiektu umieszczone są odsyłacze wskazujące kolejny obiekt, w którego opisie dany deskryptor występuje. W ten sposób w bazie danych łatwo znaleźć tzw.

”łańcuch” będący zbiorem obiektów, których opisy zawierają dany deskryptor. Jeżeli pytanie do systemu dotyczy obiektów

zawierających w swoim opisie równocześnie kilka deskryptorów, to należy znaleźć ”łańcuchy” obiektów dla każdego deskryptora występującego w pytaniu, a następnie obiekty występujące równocześnie we wszystkich tych łańcuchach. Wyszukane w ten sposób obiekty będą stanowić odpowiedź na pytanie. Metoda daje szybką odpowiedź szczególnie na pytanie jednodeskryptorowe.

Metoda list łańcuchowych stosowana jest często w rozwiązaniach programowych systemów, niejednokrotnie w wersjach nieco zmodyfikowanych.

Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI

(24)

Metoda Saltona

W metodzie Saltona następuje podział wszystkich obiektów na grupy o podobnym opisie. Każda grupa jest poprzedzona określonym wektorem pojęć charakterystycznych dla danej grupy (wektor centroidalny, profil).

Wyszukiwanie odpowiedzi polega na porównaniu pytania z wektorami pojęć charakteryzujących poszczególne grupy obiektów, a następnie wybraniu grup o wektorze najbardziej zbliżonym do pytania. Obiekty występujące w tych grupach stanowią tzw. odpowiedź przybliżoną na pytanie. Następnie dokonuje się przeglądu zupełnego wybranych obiektów dla znalezienia odpowiedzi dokładnej, tzn. obiektów, których opisy dokładnie odpowiadają pytaniu.

Proces grupowania i porównywania pytania z pniami czy wektorami pojęć odbywa się poprzez znajdowanie współczynników

podobieństwa pomiędzy pojęciami występującymi w opisach

(25)

Metoda składowych atomowych

Wszystkie obiekty w bazie danych dzielimy na tzw. ”składowe atomowe”, tzn. podzbiory obiektów o identycznym opisie. W bazie danych pamiętane są adresy składowych atomowych

i odpowiadające im zbiory obiektów.

Dla zadanego pytania łatwo znaleźć adres odpowiedniej składowej atomowej a przez to odpowiedź na zadane pytanie.

Wyszukiwanie odpowiedzi na pytanie odbywa się szybko.

Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI

(26)

Bibliografia

(27)

Bibliografia

Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI

(28)

Bibliografia

(29)

Bibliografia

Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI

(30)

Bibliografia

(31)

Bibliografia podstawowa:

Pawlak Z.: Systemy informacyjne. Podstawy teoretyczne, Warszawa, WNT, 1983.

Salton G.: SMART automatyczny system wyszukiwania informacji, Warszawa, WNT, 1975.

Wakulicz-Deja A., Boryczka U., Nowak - Brzezińska A.:

Podstawy Systemów Wyszukiwania Informacji. Analiza metod, EXIT, Warszawa, 2014.

Grzelak K., Kochańska J.: System wyszukiwania informacji metodą składowych atomowych MSAWYSZ, Warszawa : Instytut Podstaw Informatyki Polskiej Akademii Nauk, 1983.

Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI

(32)

Bibliografia dodatkowa:

Dąbrowski M., Laus-Mączyńska K.: Metody wyszukiwania i klasyfikacji informacji, Warszawa, WNT, 1978.

Van Rijsbergen C.J.: Information Retrieval, Butterworth-Heinemann, ISBN 0408709294, 2009.

Wakulicz-Deja A.: Metody wyszukiwania informacji.

Zagadnienie implementacji, (skrypt U. Śl.) Katowice, 1985.

Kłopotek M.A.: Inteligentne wyszukiwarki internetowe.

Akademicka Oficyna Wydawnicza Exit, Warszawa 2001, ISBN 83-87674-31-1.

Wakulicz-Deja A.: Podstawy systemów wyszukiwania

informacji. Analiza metod., Akademicka Oficyna Wydawnicza,

Cytaty

Powiązane dokumenty

Je»eli grupa si¦ rozpadªa, to obiekty tej grupy b¦d¡ stanowi¢ obiekty swobodne i konieczne jest ponowne przeprowadzenie klasykacji obiektów. Aktualizacja zwi¡zana ze zmian¡

Następnym krokiem jest utworzenie grup poprawionych (j-tą Następnym krokiem jest utworzenie grup poprawionych (j-tą grupę poprawioną oznaczamy przez Sj’). Na grupę Sj’..

”Dla każdego x, jeśli x jest Człowiekiem, to każdy y, jeżeli y jest książką, to x nie przeczytał

 Jeśli wiemy, że kulek czerwonych jest 2 razy mniej niż zielonych (bo czerwonych jest 20 a zielonych 40) to prawdopodobieństwo tego, że kolejna (nowa) kulka będzie koloru

W naszym przypadku, jest dziwnie, bo akurat w sąsiedztwie kulki X jest więcej kulek czerwonych niż zielonych, mimo, iż kulek zielonych jest ogólnie 2 razy więcej niż

 Głównym celem regresji jest zbudowanie modelu, który podobnie jak wcześniej model klasyfikacji posłuży do predykcji jednej zmiennej na podstawie znanych

 diss logical flag: if TRUE (default for dist or dissimilarity objects), then x is assumed to be a dissimilarity matrix.. If FALSE, then x is treated as a matrix of observations by

 diss logical flag: if TRUE (default for dist or dissimilarity objects), then x is assumed to be a dissimilarity matrix.. If FALSE, then x is treated as a matrix of observations by