• Nie Znaleziono Wyników

SYSTEMY WYSZUKIWANIA INFORMACJI

N/A
N/A
Protected

Academic year: 2021

Share "SYSTEMY WYSZUKIWANIA INFORMACJI"

Copied!
40
0
0

Pełen tekst

(1)

SYSTEMY WYSZUKIWANIA INFORMACJI

Agnieszka Nowak - Brzezińska

5 października 2019

Wykład 1

(2)

Celem systemu wyszukiwania informacji jest dostarczenie

użytkownikowi poszukiwanej przez niego informacji. Użytkownik, który ma szereg pytań, powinien na nie otrzymać odpowiedź w jak najkrótszym czasie.

Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI

(3)

Rodzaje dokumentów

Dokument źródłowy - opis obiektu w postaci źródłowej (język naturalny); dokument na wejściu systemu (np. ankiety) Dokument wtórny - dokument opracowany na podstawie dokumentu źródłowego przystosowany do konkretnego systemu informatycznego; dokument gdzie wszystkie informacje z dokumentu źródłowego są kodowane; są to informacje skrócone.

Dokument wyszukiwawczy - jest to dokument opracowany na podstawie dokumentu wtórnego; przystosowany do konkretnej metody wyszukiwania informacji.

(4)

Podstawowe pojęcia

kartoteka wyszukiwawcza,

system kompletny i system selektywny,

dokument relewantny a dokument nierelewantny,

kompletność i dokładność odpowiedzi systemu wyszukiwania informacji.

Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI

(5)

Funkcyjny model systemu wyszukiwania informacji

definicja systemu wyszukiwania informacji, funkcja informacji,

pojęcie deskryptora, nierozróżnialność obiektów,

równoważność atrybutów w systemie, zależności między atrybutami, język deskryptorowy,

pojęcie termu, rozdziaje termów, redundancja i zajętość pamięci.

(6)

Dokument relewantny

Dokument relewantny- dokumentd jest relewantny względem pytaniaq , jeżeli w opisie dokumentud występują wszystkie niezaprzeczone deskryptory pytaniaq i w opisie tym nie występuje żaden z deskryptorów zaprzeczonych pytaniaq(o ile qzawiera deskryptory zaprzeczone).

Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI

(7)

Redundancja

według https://sjp.pwn.pl/: redundancjato cecha komunikatu zawierającego więcej informacji, niż jest to niezbędne do przekazania jego treści

według https://pl.wikipedia.org/: Redundancja(łac.

redundantia – ’powódź’, ’nadmiar’, ’zbytek’) – nadmiarowość w stosunku do tego, co konieczne lub zwykłe. Określenie może odnosić się zarówno do nadmiaru zbędnego lub szkodliwego, niecelowo zużywającego zasoby, jak i do pożądanego

zabezpieczenia na wypadek uszkodzenia części systemu.

Nadmiarowość informacji w teorii informacji- W teorii informacji redundancja to ilość informacji przekraczająca wymagane do rozwiązania problemu minimum. Bardziej formalnie – liczba bitów w wiadomości minus liczba bitów faktycznej informacji.

nasza definicja: redundancja to nadmiar informacji w

(8)

Zajętość pamięci

Zajętość pamięcibędziemy rozumieć jako liczbę jednostek pamięci potrzebną na zapamiętanie kartoteki wyszukiwawczej.

Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI

(9)

Czas wyszukiwania

Czas wyszukiwaniabędziemy rozumieć jako liczbę jednostek czasu potrzebną na wyszukanie odpowiedzi na zadane do systemu pytanie.

(10)

Funkcyjny model systemu wyszukiwania informacji

Funkcyjny model wyszukiwania informacji oparty na prostych pojęciach i zależnościach funkcyjnych pomiędzy atrybutami i wartościami atrybutów.

W każdym systemie informacyjnym wyróżniamy zbiór (skończony) obiektów, o których system ma zawierać informacje.

Jest to zbiór elementów jednego rodzaju (książek, ludzi, etc.) czyli w systemie nie występują jednocześnie obiektu różnego rodzaju.

Każdy system powinien zawierać określone informacje o ustalonych obiektach - czyli własności w postaci atrybutów i ich wartości.

Atrybutem może być cecha np. kolor oczu, rok urodzenia, stan cywilny, płeć itp.

Wartością atrybutu płeć może być "kobieta"i "mężczyzna".

Każdy obiekt jest charakteryzowany przez podanie wartości dla danego zbioru atrybutów.

Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI

(11)

Definicja systemu informacyjnego

W każdym systemie informacyjnym będziemy wyróżniać skończony zbiór obiektówX i skończony zbiór atrybutówA . Z każdym atrybutem anależącym do zbioruA zwiążemy zbiór jego wartości Va - zwany dziedziną atrybutu a.

Zakładamy, że dziedzina każdego atrybutu jest conajmniej dwuelementowa.

Do opisu własności obiektów systemu wprowadzimy

dwuargumentową funkcjęρ , która każdemu obiektowix ∈ X i atrybutowia ∈ A przyporządkowuje wartośćv należącą do dziedzinyVa atrybutua .

(12)

Formalna definicja systemu informacyjnego

Przez system informacjyjny będziemy rozumieli czwórkę S = hX , A, V , ρi,

gdzieX = {x1, . . . , xn} - skończony zbiór obiektów systemu S, A = {a1, . . . , am}- skończony zbiór atrybutów systemuS, V =S

a∈AVa, Va - zbiór wartości atrybutua(dziedzina atrybutu),

ρ : X × A → V - funkcja informacji, przy czym dla każdego x ∈ X oraza ∈ A ρ(x , a) ∈ Va .

Funkcjaρ musi być całkowita tzn. określona dla wszystkich wartości argumentówx oraz a.

Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI

(13)

Przykład systemu informacyjnego

Obiektami w systemie mogą być np. zbiór książek, zbiór osób itp.

Atrybutami mogą być np. Wydawnictwo, Rok wydania, Dziedzina, Wykształcenie, Rok urodzenia itp.

Przykładowe wartości atrybutów:

VWydawnictwo = {PWN, WNT , . . . , }, VRokwydania= {2002, 2003, 2009, . . . , }, VDziedzina=

{Informatyka, Matematyka, Elektronika, . . . , }

HH HH

HH X

A Wydawnictwo Rok wydania Dziedzina

x1 PWN 2002 Informatyka

x2 WNT 2003 Matematyka

x3 PWN 2009 Elektronika

(14)

Funkcja informacji

Funkcja informacji przyporządkowuje każdemu obiektowi i atrybutowi odpowiednią wartość i przedstawiona może być za pomocą tabelki:

H HH

HHH X

A A1 A2 A3 x1 v11 v12 v13 x2 v21 v22 v23

x3 v31 v32 v33

gdzie (vij- i-ta wartość j-tego atrybutu).

Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI

(15)

Funkcja informacji - przykład

GdyX = {x1, x2, x3} są książkami, otrzymamy:

HH HH

HH X

A Wydawnictwo Rok wydania Dziedzina

x1 PWN 2002 Informatyka

x2 WNT 2003 Matematyka

x3 PWN 2009 Elektronika

Informacją o obiekcie x ∈ X jest zatem funkcja ρx : A → V , taka, że ρx(a) = ρ(x , a) dla każdego a ∈ A .

(16)

Funkcja informacji, deskryptor, opis obiektu

Parę (a, v ), gdzie: a ∈ A , v ∈ Va nazywać będziemy deskryptorem.

Przykładem deskryptorów może być: (Rok wydania, 2003), (Wydawnictwo, PWN) itp.

Funkcjęρx będziemy nazywali informacją o obiekciex w systemieS . Jest to zbiór wartości wszystkich atrybutów danego obiektu, czyli zbiór deskryptorów. Zbiór deskryptorów wyznaczony przez

informacje o obiekciex będziemy nazywać opisem obiektu x w systemieS . Kolejność deskryptorów w opisie obiektu nie jest istotna.

Opis obiektu x2: (Wydawnictwo, PWN)(Rok wydania, 2003)(Dziedzina, Matematyka) itp.

Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI

(17)

Własności systemów informacyjnych

Informacją w systemieS będziemy nazywać każdą funkcję ρo argumentach w zbiorze atrybutów Aoraz i wartościach należących do zbioru V , taką, że ρ(a) ∈ Va .

Jeśli wszystkie zbiory X ,AiV są skończone, to w każdym systemie może być tylko skończona liczba różnych informacji.

Liczba wszystkich możliwych (różnych) informacji w systemie jest oczywiście równa: d

a∈Acard (Va) .

Przykład: Gdy system S ma 3 atrybutya1 z 2 wartościami oraz a2 ia3 z 3 wartościami to posiada od 2 × 3 × 3 = 18 różnych informacji.

Każda informacja ρ wyznacza pewien zbiór obiektówXρ

takich, że Xρ= {x ∈ X : ρx = ρ}a więc obiektów mających w systemie jednakową informację (opis) - czyli są nierozróżnialne.

Gdy danej informacji nie odpowiada żaden obiekt mówimy, że informacja jest pusta i zapisujemy jakoXρ= ∅ . W

(18)

Przykład

Va = {p1, p2},Vb= {q1, q2, q3}oraz Vc = {r 1, r 2, r 3}.

(a, p1)(b, q1)(c, r 1) (a, p1)(b, q1)(c, r 2) (a, p1)(b, q1)(c, r 3) (a, p1)(b, q2)(c, r 1) ...

(a, p2)(b, q3)(c, r 2) (a, p2)(b, q3)(c, r 3)

Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI

(19)

Wszystkie 18 informacji:

(a, p1)(b, q1)(c, r 1) (a, p1)(b, q1)(c, r 2) (a, p1)(b, q1)(c, r 3) (a, p1)(b, q2)(c, r 1) (a, p1)(b, q2)(c, r 2) (a, p1)(b, q2)(c, r 3) (a, p1)(b, q3)(c, r 1) (a, p1)(b, q3)(c, r 2) (a, p1)(b, q3)(c, r 3) (a, p2)(b, q1)(c, r 1) (a, p2)(b, q1)(c, r 2) (a, p2)(b, q1)(c, r 3) (a, p2)(b, q2)(c, r 1) (a, p2)(b, q2)(c, r 2) (a, p2)(b, q2)(c, r 3) (a, p2)(b, q3)(c, r 1) (a, p2)(b, q3)(c, r 2) (a, p2)(b, q3)(c, r 3)

(20)

System kompletny i system selektywny

System jest kompletnywtedy i tylko wtedy gdy każda

informacja jest niepusta (czyli gdy każdej informacji odpowiada conajmniej jeden obiekt).

System jest selektywny wtedy i tylko wtedy gdy każdej informacji odpowiada co najwyżej jeden obiekt.np. system informacji bibliotecznej jest na ogół nieselektywny, zaś informacji telekomunikacyjnej selektywny.

Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI

(21)

Przykład systemu kompletnego

Dla A = {a, b, c}

i Va= {p1, p2}, Vb = {q1, q2, q3} oraz Vc = {r 1, r 2, r 3}

(22)

Przykład systemu niekompletnego

Dla A = {a, b, c}

i Va= {p1, p2}, Vb = {q1, q2, q3} oraz Vc = {r 1, r 2, r 3}

Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI

(23)

Przykład systemu selektywnego

Dla A = {a, b, c}

i Va= {p1, p2}, Vb = {q1, q2, q3} oraz Vc = {r 1, r 2, r 3}

(24)

Przykład systemu nieselektywnego

Dla A = {a, b, c}

i Va= {p1, p2}, Vb = {q1, q2, q3} oraz Vc = {r 1, r 2, r 3}

Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI

(25)

Przykłady

Dla A = {a, b, c} i Va = {p1, p2}, Vb= {q1, q2, q3} oraz Vc = {r 1, r 2, r 3}

funkcja ρ : ρ(a) = p1, ρ(b) = q2, ρ(c) = r 1 lub opis:

(a, p1)(b, q2)(c, r 1)

jest informacją w systemie S oraz Xρ= {x 1, x 3}

Xρ= {x ∈ X : ρx = ρ} = {x ∈ X : ∀a∈Aρx(a) = ρ(a)} =

\a ∈ A{x ∈ X : ρ(x , a) = ρ(a)} =

{x ∈ X : ρ(x, a) = p1}∩{x ∈ X : ρ(x, b) = q2}∩{x ∈ X : ρ(x, c) = r 1} = {x1, x2, x3} ∩ {x1, x3} ∩ {x1, x3} = {x1, x3}

(26)

Nierozróżnialność obiektów

Powiemy, że obiekty x , y ∈ X są nierozróżnialnew systemie S ze względu na atrybut a ∈ Awtedy i tylko wtedy, gdy:

ρx(a) = ρy (a)

.

Nierozróżnialność obiektówx iy ze względu na atrybutabędziemy zapisywać jako: xa ye 1.Zauważmy, że w opisanym przykładzie x1 i x3 są nierozróżnialne ze względu na atrybut ”Wydawnictwo”.

x1Wydawnictwo x^ 3 ⇔ ρx1(Wydawnictwo) = ρx3(Wydawnictwo).

Obiekty x , y ∈ Xbędziemy nazywać nierozróżnialnymi w systemie S, x

Sey, wtedy i tylko wtedy, gdyρx = ρy.

1

a to symbol relacji nierozróżnialności ze względu na atrybut ae

Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI

(27)

Nierozróżnialność obiektów - przykład

Obiekty x1 i x4 są nierozróżnialne w systemie S ze względu na atrybut a gdyż:

(x1 ea x4) ⇔ ρx1(a) = ρx4(a)

Obiekty x1 i x3 są nierozróżnialne w systemie S (ze względu na KAŻDY atrybut a ∈ A):

(x1 S xe 3) ⇔ ∀a∈Ax1(a) = ρx3(a)) ⇔ ρx1 = ρx3

(28)

Nierozróżnialność obiektów - przykład

H HH

HHH X

A Wydawnictwo Rok wydania Dziedzina

x1 PWN 2002 Informatyka

x2 WNT 2003 Matematyka

x3 PWN 2009 Elektronika

Dodając książkę x4: HH

HH HH X

A Wydawnictwo Rok wydania Dziedzina

x4 PWN 2002 Informatyka

to zachodzix1Sex4, gdyż:

^

a∈A

ρx1(a) = ρx4(a)2 to znaczy ρx1 = ρx4.

2V to symbol kwantyfikatora ogólnego (ang. all )

Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI

(29)

Równoważność obiektów

Zauważmy, że podane tu relacjeaei Sesą relacjami równoważności w systemie wyszukiwaniaS określonymi na zbiorze obiektówX . Relacje te spełniają następujący warunek:

S =˜ \

a∈A

a.e

Stąd też możemy mówić o równoważności dwóch obiektów x , y ∈ Xze względu na atrybuta : x

eaylub równoważności dwóch obiektówx , y ∈ Xw systemie wyszukiwania S : x

Sey.

(30)

Równoważność atrybutów

Każda relacja równoważności dzieli zbiór obiektówX systemuS na rozłączne klasy. Zauważmy, że można mówić dalej o równoważności dwóch atrybutów w systemieS.

Atrybutya, b ∈ Asą równoważne w systemieS : (a ∼ b)wtedy i tylko wtedy, gdya = ee b. To znaczy dwa atrybuty są równoważne, gdy podzbiory obiektów wyznaczone przez te atrybuty w systemieS są identyczne.

Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI

(31)

Równoważność systemów wyszukiwania informacji

Dwa systemySi S0są równoważne, jeśli mają ten sam zbiór obiektówX, a wyznaczone przez nie na tym zbiorze relacje równoważności są identyczne.

Zapisujemy to następująco:

S v S0 ⇔ eS = eS0

Jeżeli systemyS iS0 mają ten sam zbiór obiektów to są

równoważne (S ∼ S0 ) wtedy i tylko wtedy gdy generują tę samą relację równoważności na zbiorzeX, tj. S = ˜˜ S0.

Jeżeli systemyS iS0 mają ten sam zbiór obiektów to powiemy, że systemS jest dokładniejszy niż S0 wtedy i tylko wtedy gdyS ⊂ ˜˜ S0.

(32)

Relacja nierozróżnialności

Każda relacja nierozróżnialności (określona na zbiorze obiektówX) dzieli zbiór, na którym jest określona, a więc zbiór obiektów, na rozłączne klasy, zwane blokami (klasami) elementarnymi.

Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI

(33)

Relacja nierozróżnialności

(34)

Relacja nierozróżnialności

Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI

(35)

Klasa równoważności

Klasą równoważności nazywamy najmniejszy zbiór obiektów opisywalny w systemie, taki, który da się opisać przez atrybuty systemu.

Klasa równoważności- zbiór obiektów nierozróżnialnych w systemie.

(36)

Zależności między atrybutami - przykłady:

numer telefonu jest jednoznacznie wyzaczony przez nazwisko, imię oraz adres posiadacza telefonu

nazwisko wykłdowcy, dzień tygodnia i godzina jednoznacznie wyznaczają wykład prowadzony przez tego wykładowcę adres pacjenta w systemie informacji medycznej jednoznacznie wyznacza adres przychodni lekarskiej, do której on należy.

Wniosek: nie wszystkie atrybuty w systemie grają tę samą rolę.

Niektóre mogą być wyznaczone na podstawie pozostałych.

Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI

(37)

Zależności między atrybutami

Definicja:

Jeli wartość atrybutuamoże być wyznaczona na podstawie wartości atrybutówb1, b2, . . . , bk w systemie S , to powiemy, że atrybuta jest zależny od atrybutówb1, b2, . . . , bk i zapiszemy:

b1, b2, . . . , bk → a .

(38)

Zależności między atrybutami

Jeśliaib są atrybutami w systemie informacyjnym S to:

b zależy oda(a → b) gdy a ⊆ ˜˜ b

a ib są niezależne gdy nie zachodzi żadna z relacji: a ⊆ ˜˜ b ani b ⊆ ˜˜ a

Atrybutya ib są równoważne wS (a ∼ b ) gdy: a = ˜˜ b

Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI

(39)

Jeśli a → b

To istnieje funkcja o argumentach w zbiorze wartości atrybutu „a”

oraz przyjmująca wartości ze zbioru „b”, która jednocześnie przyporządkowuje wartościom atrybutu „a” wartości „b”. Często mówi się wtedy o zależnościach funkcjonalnych (funkcyjnych).

Jeżeli „b” zależy od „a” to istnieje funkcja:

fab: Va → Vb

ρx(b) = fabx(a)) ↔ Xb,ρx(b)⊃ Xa,ρx(a)

(40)

Definicja zależności między atrybutami:

a → b ⇔ ˜a ⊆ ˜b

Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI

Cytaty

Powiązane dokumenty

Znalezienie odpowiedzi na pytanie zadane do systemu wymaga w tej metodzie dokonania przeglądu wszystkich opisów obiektów w bazie danych (przegląd zupełny).. Agnieszka Nowak -

znalezienie odpowiedzi na pytanie zadane do systemu wymaga w tej metodzie dokonania przegl¡du wszystkich opisów. obiektów w bazie danych

nie zwiększa się ani redundancja ani zajętość pamięci, skraca się czas przeglądu opisu obiektu w porównaniu do metody klasycznej - nie trzeba dla każdego deskryptora pytania

Zatem dla deskryptorów ze zbioru D 0 znajdujemy zbiór obiektów zgodnie z metod¡ list inwersyjnych.. Przedstawiona modykacja ze wzgl¦du na zmniejszon¡ liczb¦ list inwersyjnych

Dekompozycja obiektowa dostarcza mniejszej zaj¦to±ci pami¦ci w podsystemach, oraz krótszego czasu przeci¦cia list inwersyjnych (gdy» listy takie zawieraj¡ z reguªy mniejsz¡

Tablica zakotwicze« jest identyczna z tym tylko zastrze»eniem, »e jej pierwsza kolumna zawiera adres ostatniego obiektu zawieraj¡cego w opisie deskryptor d i.. Wybranie

Je»eli grupa si¦ rozpadªa, to obiekty tej grupy b¦d¡ stanowi¢ obiekty swobodne i konieczne jest ponowne przeprowadzenie klasykacji obiektów. Aktualizacja zwi¡zana ze zmian¡

System jest kompletny wtedy i tylko wtedy gdy każdej informacji odpowiada co najmniej.