SYSTEMY WYSZUKIWANIA INFORMACJI
Agnieszka Nowak - Brzezińska
5 października 2019
Wykład 1
Celem systemu wyszukiwania informacji jest dostarczenie
użytkownikowi poszukiwanej przez niego informacji. Użytkownik, który ma szereg pytań, powinien na nie otrzymać odpowiedź w jak najkrótszym czasie.
Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI
Rodzaje dokumentów
Dokument źródłowy - opis obiektu w postaci źródłowej (język naturalny); dokument na wejściu systemu (np. ankiety) Dokument wtórny - dokument opracowany na podstawie dokumentu źródłowego przystosowany do konkretnego systemu informatycznego; dokument gdzie wszystkie informacje z dokumentu źródłowego są kodowane; są to informacje skrócone.
Dokument wyszukiwawczy - jest to dokument opracowany na podstawie dokumentu wtórnego; przystosowany do konkretnej metody wyszukiwania informacji.
Podstawowe pojęcia
kartoteka wyszukiwawcza,
system kompletny i system selektywny,
dokument relewantny a dokument nierelewantny,
kompletność i dokładność odpowiedzi systemu wyszukiwania informacji.
Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI
Funkcyjny model systemu wyszukiwania informacji
definicja systemu wyszukiwania informacji, funkcja informacji,
pojęcie deskryptora, nierozróżnialność obiektów,
równoważność atrybutów w systemie, zależności między atrybutami, język deskryptorowy,
pojęcie termu, rozdziaje termów, redundancja i zajętość pamięci.
Dokument relewantny
Dokument relewantny- dokumentd jest relewantny względem pytaniaq , jeżeli w opisie dokumentud występują wszystkie niezaprzeczone deskryptory pytaniaq i w opisie tym nie występuje żaden z deskryptorów zaprzeczonych pytaniaq(o ile qzawiera deskryptory zaprzeczone).
Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI
Redundancja
według https://sjp.pwn.pl/: redundancjato cecha komunikatu zawierającego więcej informacji, niż jest to niezbędne do przekazania jego treści
według https://pl.wikipedia.org/: Redundancja(łac.
redundantia – ’powódź’, ’nadmiar’, ’zbytek’) – nadmiarowość w stosunku do tego, co konieczne lub zwykłe. Określenie może odnosić się zarówno do nadmiaru zbędnego lub szkodliwego, niecelowo zużywającego zasoby, jak i do pożądanego
zabezpieczenia na wypadek uszkodzenia części systemu.
Nadmiarowość informacji w teorii informacji- W teorii informacji redundancja to ilość informacji przekraczająca wymagane do rozwiązania problemu minimum. Bardziej formalnie – liczba bitów w wiadomości minus liczba bitów faktycznej informacji.
nasza definicja: redundancja to nadmiar informacji w
Zajętość pamięci
Zajętość pamięcibędziemy rozumieć jako liczbę jednostek pamięci potrzebną na zapamiętanie kartoteki wyszukiwawczej.
Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI
Czas wyszukiwania
Czas wyszukiwaniabędziemy rozumieć jako liczbę jednostek czasu potrzebną na wyszukanie odpowiedzi na zadane do systemu pytanie.
Funkcyjny model systemu wyszukiwania informacji
Funkcyjny model wyszukiwania informacji oparty na prostych pojęciach i zależnościach funkcyjnych pomiędzy atrybutami i wartościami atrybutów.
W każdym systemie informacyjnym wyróżniamy zbiór (skończony) obiektów, o których system ma zawierać informacje.
Jest to zbiór elementów jednego rodzaju (książek, ludzi, etc.) czyli w systemie nie występują jednocześnie obiektu różnego rodzaju.
Każdy system powinien zawierać określone informacje o ustalonych obiektach - czyli własności w postaci atrybutów i ich wartości.
Atrybutem może być cecha np. kolor oczu, rok urodzenia, stan cywilny, płeć itp.
Wartością atrybutu płeć może być "kobieta"i "mężczyzna".
Każdy obiekt jest charakteryzowany przez podanie wartości dla danego zbioru atrybutów.
Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI
Definicja systemu informacyjnego
W każdym systemie informacyjnym będziemy wyróżniać skończony zbiór obiektówX i skończony zbiór atrybutówA . Z każdym atrybutem anależącym do zbioruA zwiążemy zbiór jego wartości Va - zwany dziedziną atrybutu a.
Zakładamy, że dziedzina każdego atrybutu jest conajmniej dwuelementowa.
Do opisu własności obiektów systemu wprowadzimy
dwuargumentową funkcjęρ , która każdemu obiektowix ∈ X i atrybutowia ∈ A przyporządkowuje wartośćv należącą do dziedzinyVa atrybutua .
Formalna definicja systemu informacyjnego
Przez system informacjyjny będziemy rozumieli czwórkę S = hX , A, V , ρi,
gdzieX = {x1, . . . , xn} - skończony zbiór obiektów systemu S, A = {a1, . . . , am}- skończony zbiór atrybutów systemuS, V =S
a∈AVa, Va - zbiór wartości atrybutua(dziedzina atrybutu),
ρ : X × A → V - funkcja informacji, przy czym dla każdego x ∈ X oraza ∈ A ρ(x , a) ∈ Va .
Funkcjaρ musi być całkowita tzn. określona dla wszystkich wartości argumentówx oraz a.
Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI
Przykład systemu informacyjnego
Obiektami w systemie mogą być np. zbiór książek, zbiór osób itp.
Atrybutami mogą być np. Wydawnictwo, Rok wydania, Dziedzina, Wykształcenie, Rok urodzenia itp.
Przykładowe wartości atrybutów:
VWydawnictwo = {PWN, WNT , . . . , }, VRokwydania= {2002, 2003, 2009, . . . , }, VDziedzina=
{Informatyka, Matematyka, Elektronika, . . . , }
HH HH
HH X
A Wydawnictwo Rok wydania Dziedzina
x1 PWN 2002 Informatyka
x2 WNT 2003 Matematyka
x3 PWN 2009 Elektronika
Funkcja informacji
Funkcja informacji przyporządkowuje każdemu obiektowi i atrybutowi odpowiednią wartość i przedstawiona może być za pomocą tabelki:
H HH
HHH X
A A1 A2 A3 x1 v11 v12 v13 x2 v21 v22 v23
x3 v31 v32 v33
gdzie (vij- i-ta wartość j-tego atrybutu).
Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI
Funkcja informacji - przykład
GdyX = {x1, x2, x3} są książkami, otrzymamy:
HH HH
HH X
A Wydawnictwo Rok wydania Dziedzina
x1 PWN 2002 Informatyka
x2 WNT 2003 Matematyka
x3 PWN 2009 Elektronika
Informacją o obiekcie x ∈ X jest zatem funkcja ρx : A → V , taka, że ρx(a) = ρ(x , a) dla każdego a ∈ A .
Funkcja informacji, deskryptor, opis obiektu
Parę (a, v ), gdzie: a ∈ A , v ∈ Va nazywać będziemy deskryptorem.
Przykładem deskryptorów może być: (Rok wydania, 2003), (Wydawnictwo, PWN) itp.
Funkcjęρx będziemy nazywali informacją o obiekciex w systemieS . Jest to zbiór wartości wszystkich atrybutów danego obiektu, czyli zbiór deskryptorów. Zbiór deskryptorów wyznaczony przez
informacje o obiekciex będziemy nazywać opisem obiektu x w systemieS . Kolejność deskryptorów w opisie obiektu nie jest istotna.
Opis obiektu x2: (Wydawnictwo, PWN)(Rok wydania, 2003)(Dziedzina, Matematyka) itp.
Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI
Własności systemów informacyjnych
Informacją w systemieS będziemy nazywać każdą funkcję ρo argumentach w zbiorze atrybutów Aoraz i wartościach należących do zbioru V , taką, że ρ(a) ∈ Va .
Jeśli wszystkie zbiory X ,AiV są skończone, to w każdym systemie może być tylko skończona liczba różnych informacji.
Liczba wszystkich możliwych (różnych) informacji w systemie jest oczywiście równa: d
a∈Acard (Va) .
Przykład: Gdy system S ma 3 atrybutya1 z 2 wartościami oraz a2 ia3 z 3 wartościami to posiada od 2 × 3 × 3 = 18 różnych informacji.
Każda informacja ρ wyznacza pewien zbiór obiektówXρ
takich, że Xρ= {x ∈ X : ρx = ρ}a więc obiektów mających w systemie jednakową informację (opis) - czyli są nierozróżnialne.
Gdy danej informacji nie odpowiada żaden obiekt mówimy, że informacja jest pusta i zapisujemy jakoXρ= ∅ . W
Przykład
Va = {p1, p2},Vb= {q1, q2, q3}oraz Vc = {r 1, r 2, r 3}.
(a, p1)(b, q1)(c, r 1) (a, p1)(b, q1)(c, r 2) (a, p1)(b, q1)(c, r 3) (a, p1)(b, q2)(c, r 1) ...
(a, p2)(b, q3)(c, r 2) (a, p2)(b, q3)(c, r 3)
Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI
Wszystkie 18 informacji:
(a, p1)(b, q1)(c, r 1) (a, p1)(b, q1)(c, r 2) (a, p1)(b, q1)(c, r 3) (a, p1)(b, q2)(c, r 1) (a, p1)(b, q2)(c, r 2) (a, p1)(b, q2)(c, r 3) (a, p1)(b, q3)(c, r 1) (a, p1)(b, q3)(c, r 2) (a, p1)(b, q3)(c, r 3) (a, p2)(b, q1)(c, r 1) (a, p2)(b, q1)(c, r 2) (a, p2)(b, q1)(c, r 3) (a, p2)(b, q2)(c, r 1) (a, p2)(b, q2)(c, r 2) (a, p2)(b, q2)(c, r 3) (a, p2)(b, q3)(c, r 1) (a, p2)(b, q3)(c, r 2) (a, p2)(b, q3)(c, r 3)
System kompletny i system selektywny
System jest kompletnywtedy i tylko wtedy gdy każda
informacja jest niepusta (czyli gdy każdej informacji odpowiada conajmniej jeden obiekt).
System jest selektywny wtedy i tylko wtedy gdy każdej informacji odpowiada co najwyżej jeden obiekt.np. system informacji bibliotecznej jest na ogół nieselektywny, zaś informacji telekomunikacyjnej selektywny.
Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI
Przykład systemu kompletnego
Dla A = {a, b, c}
i Va= {p1, p2}, Vb = {q1, q2, q3} oraz Vc = {r 1, r 2, r 3}
Przykład systemu niekompletnego
Dla A = {a, b, c}
i Va= {p1, p2}, Vb = {q1, q2, q3} oraz Vc = {r 1, r 2, r 3}
Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI
Przykład systemu selektywnego
Dla A = {a, b, c}
i Va= {p1, p2}, Vb = {q1, q2, q3} oraz Vc = {r 1, r 2, r 3}
Przykład systemu nieselektywnego
Dla A = {a, b, c}
i Va= {p1, p2}, Vb = {q1, q2, q3} oraz Vc = {r 1, r 2, r 3}
Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI
Przykłady
Dla A = {a, b, c} i Va = {p1, p2}, Vb= {q1, q2, q3} oraz Vc = {r 1, r 2, r 3}
funkcja ρ : ρ(a) = p1, ρ(b) = q2, ρ(c) = r 1 lub opis:
(a, p1)(b, q2)(c, r 1)
jest informacją w systemie S oraz Xρ= {x 1, x 3}
Xρ= {x ∈ X : ρx = ρ} = {x ∈ X : ∀a∈Aρx(a) = ρ(a)} =
\a ∈ A{x ∈ X : ρ(x , a) = ρ(a)} =
{x ∈ X : ρ(x, a) = p1}∩{x ∈ X : ρ(x, b) = q2}∩{x ∈ X : ρ(x, c) = r 1} = {x1, x2, x3} ∩ {x1, x3} ∩ {x1, x3} = {x1, x3}
Nierozróżnialność obiektów
Powiemy, że obiekty x , y ∈ X są nierozróżnialnew systemie S ze względu na atrybut a ∈ Awtedy i tylko wtedy, gdy:
ρx(a) = ρy (a)
.
Nierozróżnialność obiektówx iy ze względu na atrybutabędziemy zapisywać jako: xa ye 1.Zauważmy, że w opisanym przykładzie x1 i x3 są nierozróżnialne ze względu na atrybut ”Wydawnictwo”.
x1Wydawnictwo x^ 3 ⇔ ρx1(Wydawnictwo) = ρx3(Wydawnictwo).
Obiekty x , y ∈ Xbędziemy nazywać nierozróżnialnymi w systemie S, x
Sey, wtedy i tylko wtedy, gdyρx = ρy.
1
a to symbol relacji nierozróżnialności ze względu na atrybut ae
Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI
Nierozróżnialność obiektów - przykład
Obiekty x1 i x4 są nierozróżnialne w systemie S ze względu na atrybut a gdyż:
(x1 ea x4) ⇔ ρx1(a) = ρx4(a)
Obiekty x1 i x3 są nierozróżnialne w systemie S (ze względu na KAŻDY atrybut a ∈ A):
(x1 S xe 3) ⇔ ∀a∈A(ρx1(a) = ρx3(a)) ⇔ ρx1 = ρx3
Nierozróżnialność obiektów - przykład
H HH
HHH X
A Wydawnictwo Rok wydania Dziedzina
x1 PWN 2002 Informatyka
x2 WNT 2003 Matematyka
x3 PWN 2009 Elektronika
Dodając książkę x4: HH
HH HH X
A Wydawnictwo Rok wydania Dziedzina
x4 PWN 2002 Informatyka
to zachodzix1Sex4, gdyż:
^
a∈A
ρx1(a) = ρx4(a)2 to znaczy ρx1 = ρx4.
2V to symbol kwantyfikatora ogólnego (ang. all )
Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI
Równoważność obiektów
Zauważmy, że podane tu relacjeaei Sesą relacjami równoważności w systemie wyszukiwaniaS określonymi na zbiorze obiektówX . Relacje te spełniają następujący warunek:
S =˜ \
a∈A
a.e
Stąd też możemy mówić o równoważności dwóch obiektów x , y ∈ Xze względu na atrybuta : x
eaylub równoważności dwóch obiektówx , y ∈ Xw systemie wyszukiwania S : x
Sey.
Równoważność atrybutów
Każda relacja równoważności dzieli zbiór obiektówX systemuS na rozłączne klasy. Zauważmy, że można mówić dalej o równoważności dwóch atrybutów w systemieS.
Atrybutya, b ∈ Asą równoważne w systemieS : (a ∼ b)wtedy i tylko wtedy, gdya = ee b. To znaczy dwa atrybuty są równoważne, gdy podzbiory obiektów wyznaczone przez te atrybuty w systemieS są identyczne.
Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI
Równoważność systemów wyszukiwania informacji
Dwa systemySi S0są równoważne, jeśli mają ten sam zbiór obiektówX, a wyznaczone przez nie na tym zbiorze relacje równoważności są identyczne.
Zapisujemy to następująco:
S v S0 ⇔ eS = eS0
Jeżeli systemyS iS0 mają ten sam zbiór obiektów to są
równoważne (S ∼ S0 ) wtedy i tylko wtedy gdy generują tę samą relację równoważności na zbiorzeX, tj. S = ˜˜ S0.
Jeżeli systemyS iS0 mają ten sam zbiór obiektów to powiemy, że systemS jest dokładniejszy niż S0 wtedy i tylko wtedy gdyS ⊂ ˜˜ S0.
Relacja nierozróżnialności
Każda relacja nierozróżnialności (określona na zbiorze obiektówX) dzieli zbiór, na którym jest określona, a więc zbiór obiektów, na rozłączne klasy, zwane blokami (klasami) elementarnymi.
Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI
Relacja nierozróżnialności
Relacja nierozróżnialności
Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI
Klasa równoważności
Klasą równoważności nazywamy najmniejszy zbiór obiektów opisywalny w systemie, taki, który da się opisać przez atrybuty systemu.
Klasa równoważności- zbiór obiektów nierozróżnialnych w systemie.
Zależności między atrybutami - przykłady:
numer telefonu jest jednoznacznie wyzaczony przez nazwisko, imię oraz adres posiadacza telefonu
nazwisko wykłdowcy, dzień tygodnia i godzina jednoznacznie wyznaczają wykład prowadzony przez tego wykładowcę adres pacjenta w systemie informacji medycznej jednoznacznie wyznacza adres przychodni lekarskiej, do której on należy.
Wniosek: nie wszystkie atrybuty w systemie grają tę samą rolę.
Niektóre mogą być wyznaczone na podstawie pozostałych.
Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI
Zależności między atrybutami
Definicja:
Jeli wartość atrybutuamoże być wyznaczona na podstawie wartości atrybutówb1, b2, . . . , bk w systemie S , to powiemy, że atrybuta jest zależny od atrybutówb1, b2, . . . , bk i zapiszemy:
b1, b2, . . . , bk → a .
Zależności między atrybutami
Jeśliaib są atrybutami w systemie informacyjnym S to:
b zależy oda(a → b) gdy a ⊆ ˜˜ b
a ib są niezależne gdy nie zachodzi żadna z relacji: a ⊆ ˜˜ b ani b ⊆ ˜˜ a
Atrybutya ib są równoważne wS (a ∼ b ) gdy: a = ˜˜ b
Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI
Jeśli a → b
To istnieje funkcja o argumentach w zbiorze wartości atrybutu „a”
oraz przyjmująca wartości ze zbioru „b”, która jednocześnie przyporządkowuje wartościom atrybutu „a” wartości „b”. Często mówi się wtedy o zależnościach funkcjonalnych (funkcyjnych).
Jeżeli „b” zależy od „a” to istnieje funkcja:
fab: Va → Vb
ρx(b) = fab(ρx(a)) ↔ Xb,ρx(b)⊃ Xa,ρx(a)
Definicja zależności między atrybutami:
a → b ⇔ ˜a ⊆ ˜b
Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI