Uniwersytet Śląski

(1)

Uniwersytet Śląski ¹

Systemy Wyszukiwania Informacji

Agnieszka Nowak – Brzezińska

agnieszka.nowak@us.edu.pl

Instytut Informatyki, Zakład Systemów Informatycznych

Uniwersytet Śląski

(2)

Warunki zaliczenia przedmiotu

• Obowiązkowa obecność na wykładach

• Obowiązkowa obecność i sumienna praca na laboratorium

• Egzamin pisemny i ustny

(3)

Literatura

http://zsi.tech.us.edu.pl/~nowak/swibio/index.html

(4)

Baza danych a system informacyjny

4

X A Rok wydania Wydawnictwo Dziedzina

X₁ 1987 PWN Informatyka

X₂ 1990 WNT Informatyka

X₃ 1987 PWN Elektronika

X₄ 1990 WNT Informatyka

atrybut

Wartość atrybutu

obiekt

Nazwa obiektu

(5)

Obiektami najczęściej są dokumenty w

których chcemy wyszukiwać

informacji

5

(6)

Budowa SWI

Celem systemu wyszukiwania informacji jest dostarczenie użytkownikowi poszukiwanej przez niego informacji.

Użytkownik, który ma szereg pytań, powinien na nie otrzymać odpowiedź w jak najkrótszym czasie.

Dokument

źródłowy (Opis, plan, rysunek, informacja

słowna, słyszana)

dokument wtórny, który ma tę samą wagę informacyjną, ale w znacznie skróconej, zakodowanej i skompresowanej formie

jest najważniejszym modułem. Dba o to, aby wyszukać informacje w jak najkrótszym czasie, z jak największą dokładnością i jak najmniejszą ilością szumu informacyjnego.

przekazuje użytkownikowi uzyskane informacje w dowolnym języku dogodnym dla użytkownika.

(7)

Dokumenty - rodzaje

• Dokument źródłowy - opis obiektu w postaci źródłowej (język naturalny); dokument na wejściu systemu (np.

ankiety)

• Dokument wtórny - dokument opracowany na podstawie dokumentu źródłowego przystosowany do konkretnego systemu informatycznego; dokument gdzie wszystkie informacje z dokumentu źródłowego są kodowane; są to informacje skrócone.

• Dokument wyszukiwawczy - jest to dokument opracowany na podstawie dokumentu wtórnego;

przystosowany do konkretnej metody wyszukiwania

informacji.

(8)

Definicja SI

(9)

Dziedzina atrybutu

• Z każdym atrybutem „a” należącym do zbioru A zwiążemy zbiór wartości tego atrybutu (V _a ).

• Dziedzina atrybutu „a” jest co najmniej dwuelementowa, tzn. każdy atrybut może przyjmować co najmniej jedną z 2 możliwych wartości.

• Dziedziną V _a atrybutu „a” w systemie S będzie zbiór V _a określony jako:

V

_a

= {v  V: dla których istnieje x  X, takie, że  (x,a)=v}

(10)

Funkcja informacji 

• Będzie to funkcja dwuargumentowa, dla opisu własności obiektów.

• Każdemu obiektowi x X i atrybutowi a  A przyporządkowuje wartość v należącą do dziedziny V_a.

(11)

Przykłady SI

X A Rok wydania Wydawnictwo Dziedzina

X₁ 1987 PWN Informatyka

X₂ 1990 WNT Informatyka

X₃ 1987 PWN Elektronika

X₄ 1990 WNT Informatyka

X = {x1,x2,x3,x4}

A = {Rok wydania, Wydawnictwo, Dziedzina}

Vrok wydania = {1987,1990}

V Wydawnictwo = {PWN, WNT}

V Dziedzina = {Informatyka, Elektronika}

(12)

Deskryptor

• Parę (a,v) gdzie a jest atrybutem ze zbioru A, v  V _{a –} jest wartością atrybutu a należącą do

dziedziny - nazywamy deskryptorem.

(Dziedzina, Elektronika)

(Wydawnictwo, PWN)

(13)

Informacja o obiekcie w systemie S

• To funkcja  _x o argumentach w A i wartościach w V taka, że  _x (a) = (x,a) wprowadzona dla każdego x  X.

• Jest to po prostu zbiór wartości wszystkich atrybutów obiektu w danym systemie.

• Np.

Czyli jest to zbiór deskryptorów !!!

(14)

Opis obiektu X w systemie S

• To zbiór deskryptorów wyznaczony przez informację o obiekcie.

• Różnica jest formalna: informacja o obiekcie to

pewna funkcja, a opis obiektu to termin (twór

językowy).

(15)

Definicja informacji w systemie S

• Informacją w systemie S będzie każda funkcja

 o argumentach w zbiorze atrybutów A oraz wartościach należących do V , taka, że  (a)  V _a.

• Wszystkich możliwych informacji w systemie będzie:

) ( _a

A a

V

 card



(16)

Przykład

Zakładając, że w naszym systemie S mamy następujący zbiór atrybutów: A = {a,b,c} oraz zbiory wartości dla

poszczególnych atrybutów:

V

_a

= {p1,p2}, V

_b

= {q1,q2,q3} oraz V

_c

={r1,r2,r3}

(a,p1)(b,q1)(c,r1) (a,p1)(b,q1)(c,r2) (a,p1)(b,q1)(c,r3) (a,p1)(b,q2)(c,r1) (a,p1)(b,q2)(c,r2) (a,p1)(b,q2)(c,r3) (a,p1)(b,q3)(c,r1) (a,p1)(b,q3)(c,r2) (a,p1)(b,q3)(c,r3)

(a,p2)(b,q1)(c,r1) (a,p2)(b,q1)(c,r2) (a,p2)(b,q1)(c,r3) (a,p2)(b,q2)(c,r1) (a,p2)(b,q2)(c,r2) (a,p2)(b,q2)(c,r3) (a,p2)(b,q3)(c,r1) (a,p2)(b,q3)(c,r2) (a,p2)(b,q3)(c,r3)

18 3

* 3

* 2

) (

* ) (

) (







c b

a A a

a

V card V

card V

card

V

 card

(17)

Własności informacji w systemie

• Każda informacja  wyznacza pewien zbiór obiektów X _ takich, że X _ = {x  X:  _x = }

Czyli obiektów mających w systemie jednakową informację.

• Informacja  jest pusta gdy nie odpowiada jej

żaden obiekt w systemie: X _ = {}

(18)

System jest selektywny

System jest selektywny wtedy i tylko wtedy gdy każdej informacji odpowiada co najwyżej

jeden obiekt.

(19)

System kompletny

System jest kompletny wtedy i tylko wtedy gdy każdej informacji odpowiada co najmniej

jeden obiekt.

Inna definicja:

System jest kompletny wtedy i tylko wtedy gdy

każda informacja w systemie jest niepusta.

(20)

Przykład – czy system jest selektywny ?

X A b C

X1 P1 Q2 R1

X2 P1 Q3 R2

X3 P1 Q2 R1

x4 p2 q1 r3

Jeśli:

A = {a,b,c}

Va = {p1,p2}, Vb = {q1,q2,q3} oraz Vc={r1,r2,r3}

wówczas:

Funkcja  taka, że

(a)=p1, (b)=q2, (c) = r1 lub opis:

(a,p1)(b,q2)(c,r1)

jest informacją w systemie S oraz X  = {x1,x3}

X  = {x X: x = } = {x X:  a  A x(a) = (a)} =  a  A {x X: (x,a) = (a) }=

{x X: (x,a) = p1 }  {x X: (x,b) = q2 }  {x X: (x,c) = r1 } = {x1,x2,x3}  {x1,x3}

 {x1,x3} = {x1,x3}

System nie jest selektywny

(21)

Przykład – czy system jest kompletny ?

X A b C

X1 P1 Q2 R1

X2 P1 Q3 R2

X3 P1 Q2 R1

x4 p2 q1 r3

Jeśli:

A = {a,b,c}

Va = {p1,p2}, Vb = {q1,q2,q3} oraz Vc={r1,r2,r3}

wówczas:

Liczba możliwych informacji w systemie wynosi:

System nie jest kompletny

18 3

* 3

*

2 

I istnieje przynajmniej jedna taka informacja, np.: (a,p1)(b,q1)(c,r1)

Której nie odpowiada żaden z obiektów w systemie, inaczej powiemy, że jest ona informacją pustą.

(22)

Równoważność obiektów w systemie

• A więc:

) ( )

(

~ )

( y a a

x a  

_x

 

_y

• Obiekty x,y  X są nierozróżnialne w systemie S ze względu na atrybut a  A:

)) ( )

( (

~ )

( y a a

x S

_x _y

A

a

   





• Obiekty x,y  X są nierozróżnialne w systemie S ze względu na KAŻDY atrybut a  A:

y

x

x S ~ )    

(

(23)

Równoważność obiektów w systemie

) ( )

(

~ )

(

1

x

4 1

a

4

a

x a  

_x

 

_x

• Obiekty x1 i x4 są nierozróżnialne w systemie S ze względu na atrybut „a” gdyż:

3

3 1

1

~ ) ( ( ) ( ))

(

_x _x _x _x

A

a

a a

S x

x         



• Obiekty x1 i x3 są nierozróżnialne w systemie S ze względu na KAŻDY atrybut a  A:

X A b C

X1 P1 Q2 R1 X2 P2 Q3 R2 X3 P1 Q2 R1 x4 P1 q1 r3

(24)

Relacja równoważności

• Jest określona na zbiorze obiektów X.

• Każda taka relacja dzieli zbiór, na którym jest określona, a więc zbiór obiektów, na rozłączne klasy, które będziemy nazywać blokami (klasami) elementarnymi.

a B X1 P1 Q1 X2 P1 Q1 X3 P1 Q2 X4 P2 Q1 X5 P2 Q1 x6 p2 q2

a X1 P1 X2 P1 X3 P1

a X4 P2 X5 P2 x6 p2

B1={x1,x2,x3}

B2={x4,x5,x6}

(25)

Klasa równoważności

• Klasą równoważności nazywamy najmniejszy zbiór obiektów opisywalny w systemie, taki, który da się opisać przez atrybuty sytemu.

• Klasa równoważności - zbiór obiektów

nierozróżnialnych w systemie. Klasę

równoważności (dla zbioru atrybutów A) tworzą

obiekty nierozróżnialne względem siebie biorąc

pod uwagę atrybuty ze zbioru A (a więc obiekty

mające identyczne wartości dla atrybutów ze

zbioru A).

(26)

Relacja równoważności

B3={x1,x2,x4,x5}

B4={x3,x6}

B X1 Q1 X2 Q1 X4 Q1 X5 Q1

B X3 Q2 x6 q2

(27)

Relacja równoważności

B5={x1,x2}

B6={x3}

a B X1 P1 Q1 X2 P1 Q1

a B X3 P1 Q2

a B X4 P2 Q1 X5 P2 Q1

a B x6 p2 q2

B7={x4,x5}

B8={x6}

Zbior y ele men tarne

(28)

Równoważność dwóch systemów

• Jeżeli systemy S i S’ mają ten sam zbiór obiektów to są równoważne (S ~ S’) wtedy i tylko wtedy gdy generują tę samą relację równoważności na zbiorze X, tj.

'

~

S S ^

• Jeżeli systemy S i S’ mają ten sam zbiór obiektów to powiemy, że system S jest dokładniejszy niż S’ wtedy i tylko wtedy gdy

'

~

S

S ^

(29)

Zależność atrybutów

Jeśli „a” i „b” są atrybutami w systemie informacyjnym to:

a) „b” zależy od „a” (ab)  gdy

b) „a” i „b” są niezależne gdy nie zachodzi żadna z relacji:

c) Atrybuty „a” i „b” są równoważne w S (a ~ b) gdy:

b a

~



a b

b

a ^ani

~

 

b a

~



(30)

Jeśli a  b…

• To istnieje funkcja o argumentach w zbiorze wartości atrybutu

„a” oraz przyjmująca wartości ze zbioru „b”, która jednocześnie przyporządkowuje wartościom atrybutu „a”

wartości „b”.

• Często mówi się wtedy o zależnościach funkcjonalnych (funkcyjnych).

• Jeżeli „b” zależy od „a” to istnieje funkcja:

b a

b

a

V V

f : 

) ( , )

(

))

,

( (

)

(

_a^b _x _b _b _a _a

x

b f  a X

__x

X

__x

   

(31)

Przykład

• X= {x1,x2,..,x8}

• A = {a,b,c}

• Va = {p1,p2}

• Vb={q1,q2}

• Vc={r1,r2,r3,r4}

a b C

X1 P1 Q1 R1

X2 P1 Q1 R2

X3 P2 Q1 R3

X4 P2 Q1 R4

X5 P1 Q2 R1

X6 P1 Q2 R2

X7 P2 Q2 R3

x8 p2 q2 R4

}}

8 , 4 { }, 7 , 3 { }, 6 , 2 { }, 5 , 1 {{

}}

8 , 7 , 6 , 5 { }, 4 , 3 , 2 , 1 {{

}}

8 , 7 , 4 , 3 { }, 6 , 5 , 2 , 1 {{

~

x x x

x x

x

x x x x x

x x x

x x x x x

x x x

c b a



a c

b c

c a

c b

a b

b a

~





ca

(32)

Przykład

a b C

X1 P1 Q1 R1

X2 P1 Q1 R2

X3 P2 Q1 R3

X4 P2 Q1 R4

X5 P1 Q2 R1

X6 P1 Q2 R2

X7 P2 Q2 R3

x8 p2 q2 R4

c  a

Gdy (C=r1) wówczas (a=p1)

Gdy (C=r2) wówczas (a=p1)

Gdy (C=r3) wówczas (a=p2)

Gdy (C=r4) wówczas (a=p2)

(33)

• Na tym koniec 1 wykładu….

• Reszta w następny wtorek 

33

(34)

Język deskryptorowy L _s = <A,G>

(35)

Syntaktyka

(36)

Semantyka

(37)

Przykłady

• Niech system S będzie systemem informacyjnym:

a b C

X1 V1 W1 U2 X2 V2 W1 U3 X3 V1 W2 U1 X4 V1 W2 U1 X5 V2 W2 U3 X6 v1 w1 u3 Alfabetem będą:

Stałe: 0 i 1

Symbole: +, *,~, ,  Atrybuty: {a, b, c}

I ich wartości: {v1,v2,w1,w2,u1,u2,u3}

To w naszym języku termami będą wyrażenia:

) , ( )

, (

) , ( )

, (

) , ( ) , (

) , (

* )]

, (

* ) , [(

~

) , (

* ) ,

( ) , (

2 2

3 1

1 1

3 1

2

2 2

1

w b v

a

u c w

b

u c w

b

u c v

a v

a

u c w

b v

a







(38)

Przykłady cd.

• Wtedy znaczeniem tych termów będą zbiory:

a b C

X1 V1 W1 U2 X2 V2 W1 U3 X3 V1 W2 U1 X4 V1 W2 U1 X5 V2 W2 U3 X6 v1 w1 u3

) ,

(

* ) ,

( )

,

( a v ₁  b w ₂ c u ₂

} 6 ,

4 ,

3 ,

1 {

}) 1 {

} 5 ,

4 ,

3 ({

} 6 ,

4 ,

3 ,

1 {

)) ,

(

* ) ,

( )

,

(( ₁ ₂ ₂

x x

u c w

b v

s a









 

(39)

Przykłady cd.

• Wtedy znaczeniem termu:

a b C

X1 V1 W1 U2 X2 V2 W1 U3 X3 V1 W2 U1 X4 V1 W2 U1 X5 V2 W2 U3 x6 v1 w1 u3

X x

x x

u c v

a v

s a







 }

6 ,

5 ,

2 {

} {

~

)) ,

( )]

, (

* ) ,

[(

(~ ₂ ₁ ₃





) ,

(

* )]

, (

* ) ,

[(

~ a v ₂ a v ₁ c u ₃

będzie zbiór:

(40)

Przykłady cd.

• Wtedy znaczeniem termu:

a b C

X1 V1 W1 U2 X2 V2 W1 U3 X3 V1 W2 U1 X4 V1 W2 U1 X5 V2 W2 U3 X6 v1 w1 u3

} 6 ,

5 ,

4 ,

3 ,

2 {

} 6 ,

5 ,

2 {

}) 6 ,

2 ,

1 {

(

)) ,

( )

,

(( ₁ ₃

x x

x

x x

X

u c w

s b









 

) ,

( )

,

( b w ₁  c u ₃

będzie zbiór:

(41)

Rodzaje termów

(42)

Reguły przekształcania termów

(43)

Przykład przekształcenia termów

) ,

( )]

, (

* ) ,

[(

~ ₁ ₂ ₁

1 a v b w c u

t _ 

) ,

( )

, (

~ )

, (

~ ₁ ₂ ₁

2 a v b w c u

t _  

) ,

( )

, ( )

,

( ₂ ₁ ₁

3 a v b w c u

t _  

(44)

Konieczność normalizacji termu t4 sprawi, że będzie on miał postać:













) , )(

, )(

, (

) , )(

, )(

, (

) , )(

, )(

, (

) , )(

, )(

, (

) , )(

, )(

, (

) , )(

, )(

, (

) , )(

, )(

, (

) , )(

, )(

, (

) , )(

, )(

, (

)]

, ( ) , [(

* )]

, ( ) , [(

* ) , (

)]

, ( ) , [(

* )]

, ( ) , [(

* ) , (

)]

, ( ) , [(

* )]

, ( ) , [(

* ) , (

2 2

2

1 2

2

2 1

2

1 1

2

2 2

1

1 2

1

2 1

1

1 1

1

1 1

1

2 1

1

2 1

1

2 1

2 4

u c w b v

a

u c w b v

a

u c w b v

a

u c w b v

a

u c w b v a

v a v

a w

b w

b u

c

u c u

c v

a v

a w

b

u c u

c w

b w

b v

a

t

(45)

Wtedy znaczeniem termu t4 będzie:

} 4 , 3 { )) ,

)(

, )(

, ((

} 6 , 5 { )) ,

)(

, )(

, ((

} 1 { )) ,

)(

, )(

, ((

1 2

1

1 1

2

2 1

1

x x u

c w b v a

x x u

c w b v

a

x u

c w b v a

s s s





Pozostałe termy są puste a więc:

} 6 , 5 , 4 , 3 , 1 { }

4 , 3 { }

6 , 5 { }

1 { )

( t

₁

x x x x x x x x x x

s

   



a b C

X1 V1 W1 U2 X2 V2 W1 U3 X3 V1 W2 U1 X4 V1 W2 U1 X5 V2 W1 U1 X6 V2 w1 U1

(46)

Równość i zawieranie się termów

(47)

Termy t1 i t2 są równe:

a b C

) , )(

, (

) , )(

, )(

, (

1 1

2

2 1

1 1

w b v a t

u c w b v a t



} 1 { )) ,

)(

, ((

) (

} 1 { )) ,

)(

, )(

, ((

) (

1 1

2

2 1

1 1

x w

b v a t

x u

c w b v a t





(48)

Zawieranie się termów t1 i t2:

a b C

) , (

) , )(

, )(

, (

1 2

2 1

1 1

v a t

u c w b v a t



} 4 , 3 , 1 { )) , ((

) (

} 1 { )) ,

)(

, )(

, ((

) (

1 2

2 1

1 1

x x x v

a t

x u

c w b v a t





1 2

2 1 ) ( )

( t   t  t  t



(49)

Parametry SWI

1. Struktura bazy danych

2. Redundancja i zajętość pamięci:

• Obiektowa (powielenie się opisu obiektów w BD)

• Atrybutowa (powielenie się adresów obiektów w BD) 3. Aktualizacja bazy danych

4. Czas wyszukiwania

Uniwersytet Śląski

Systemy Wyszukiwania Informacji

Agnieszka Nowak – Brzezińska