• Nie Znaleziono Wyników

Uniwersytet Śląski

N/A
N/A
Protected

Academic year: 2021

Share "Uniwersytet Śląski"

Copied!
49
0
0

Pełen tekst

(1)

Uniwersytet Śląski 1

Systemy Wyszukiwania Informacji

Agnieszka Nowak – Brzezińska

agnieszka.nowak@us.edu.pl

Instytut Informatyki, Zakład Systemów Informatycznych

Uniwersytet Śląski

(2)

Warunki zaliczenia przedmiotu

• Obowiązkowa obecność na wykładach

• Obowiązkowa obecność i sumienna praca na laboratorium

• Egzamin pisemny i ustny

(3)

Literatura

http://zsi.tech.us.edu.pl/~nowak/swibio/index.html

(4)

Baza danych a system informacyjny

4

X A Rok wydania Wydawnictwo Dziedzina

X1 1987 PWN Informatyka

X2 1990 WNT Informatyka

X3 1987 PWN Elektronika

X4 1990 WNT Informatyka

atrybut

Wartość atrybutu

obiekt

Nazwa obiektu

(5)

Obiektami najczęściej są dokumenty w

których chcemy wyszukiwać

informacji

5

(6)

Budowa SWI

Celem systemu wyszukiwania informacji jest dostarczenie użytkownikowi poszukiwanej przez niego informacji.

Użytkownik, który ma szereg pytań, powinien na nie otrzymać odpowiedź w jak najkrótszym czasie.

Dokument

źródłowy (Opis, plan, rysunek, informacja

słowna, słyszana)

dokument wtórny, który ma tę samą wagę informacyjną, ale w znacznie skróconej, zakodowanej i skompresowanej formie

jest najważniejszym modułem. Dba o to, aby wyszukać informacje w jak najkrótszym czasie, z jak największą dokładnością i jak najmniejszą ilością szumu informacyjnego.

przekazuje użytkownikowi uzyskane informacje w dowolnym języku dogodnym dla użytkownika.

(7)

Dokumenty - rodzaje

• Dokument źródłowy - opis obiektu w postaci źródłowej (język naturalny); dokument na wejściu systemu (np.

ankiety)

• Dokument wtórny - dokument opracowany na podstawie dokumentu źródłowego przystosowany do konkretnego systemu informatycznego; dokument gdzie wszystkie informacje z dokumentu źródłowego są kodowane; są to informacje skrócone.

• Dokument wyszukiwawczy - jest to dokument opracowany na podstawie dokumentu wtórnego;

przystosowany do konkretnej metody wyszukiwania

informacji.

(8)

Definicja SI

(9)

Dziedzina atrybutu

• Z każdym atrybutem „a” należącym do zbioru A zwiążemy zbiór wartości tego atrybutu (V a ).

• Dziedzina atrybutu „a” jest co najmniej dwuelementowa, tzn. każdy atrybut może przyjmować co najmniej jedną z 2 możliwych wartości.

• Dziedziną V a atrybutu „a” w systemie S będzie zbiór V a określony jako:

V

a

= {v V: dla których istnieje x X, takie, że (x,a)=v}

(10)

Funkcja informacji 

• Będzie to funkcja dwuargumentowa, dla opisu własności obiektów.

• Każdemu obiektowi x X i atrybutowi a  A przyporządkowuje wartość v należącą do dziedziny Va.

(11)

Przykłady SI

X A Rok wydania Wydawnictwo Dziedzina

X1 1987 PWN Informatyka

X2 1990 WNT Informatyka

X3 1987 PWN Elektronika

X4 1990 WNT Informatyka

X = {x1,x2,x3,x4}

A = {Rok wydania, Wydawnictwo, Dziedzina}

Vrok wydania = {1987,1990}

V Wydawnictwo = {PWN, WNT}

V Dziedzina = {Informatyka, Elektronika}

(12)

Deskryptor

• Parę (a,v) gdzie a jest atrybutem ze zbioru A, v  V a – jest wartością atrybutu a należącą do

dziedziny - nazywamy deskryptorem.

(Dziedzina, Elektronika)

(Wydawnictwo, PWN)

(13)

Informacja o obiekcie w systemie S

• To funkcja  x o argumentach w A i wartościach w V taka, że  x (a) = (x,a) wprowadzona dla każdego x  X.

• Jest to po prostu zbiór wartości wszystkich atrybutów obiektu w danym systemie.

• Np.

Czyli jest to zbiór deskryptorów !!!

(14)

Opis obiektu X w systemie S

• To zbiór deskryptorów wyznaczony przez informację o obiekcie.

• Różnica jest formalna: informacja o obiekcie to

pewna funkcja, a opis obiektu to termin (twór

językowy).

(15)

Definicja informacji w systemie S

• Informacją w systemie S będzie każda funkcja

 o argumentach w zbiorze atrybutów A oraz wartościach należących do V , taka, że  (a)  V a.

• Wszystkich możliwych informacji w systemie będzie:

) ( a

A a

V

card

(16)

Przykład

Zakładając, że w naszym systemie S mamy następujący zbiór atrybutów: A = {a,b,c} oraz zbiory wartości dla

poszczególnych atrybutów:

V

a

= {p1,p2}, V

b

= {q1,q2,q3} oraz V

c

={r1,r2,r3}

(a,p1)(b,q1)(c,r1) (a,p1)(b,q1)(c,r2) (a,p1)(b,q1)(c,r3) (a,p1)(b,q2)(c,r1) (a,p1)(b,q2)(c,r2) (a,p1)(b,q2)(c,r3) (a,p1)(b,q3)(c,r1) (a,p1)(b,q3)(c,r2) (a,p1)(b,q3)(c,r3)

(a,p2)(b,q1)(c,r1) (a,p2)(b,q1)(c,r2) (a,p2)(b,q1)(c,r3) (a,p2)(b,q2)(c,r1) (a,p2)(b,q2)(c,r2) (a,p2)(b,q2)(c,r3) (a,p2)(b,q3)(c,r1) (a,p2)(b,q3)(c,r2) (a,p2)(b,q3)(c,r3)

18 3

* 3

* 2

) (

* ) (

* ) (

) (

c b

a A a

a

V card V

card V

card

V

card

(17)

Własności informacji w systemie

• Każda informacja  wyznacza pewien zbiór obiektów X takich, że X = {x  X:  x = }

Czyli obiektów mających w systemie jednakową informację.

• Informacja  jest pusta gdy nie odpowiada jej

żaden obiekt w systemie: X = {}

(18)

System jest selektywny

System jest selektywny wtedy i tylko wtedy gdy każdej informacji odpowiada co najwyżej

jeden obiekt.

(19)

System kompletny

System jest kompletny wtedy i tylko wtedy gdy każdej informacji odpowiada co najmniej

jeden obiekt.

Inna definicja:

System jest kompletny wtedy i tylko wtedy gdy

każda informacja w systemie jest niepusta.

(20)

Przykład – czy system jest selektywny ?

X A b C

X1 P1 Q2 R1

X2 P1 Q3 R2

X3 P1 Q2 R1

x4 p2 q1 r3

Jeśli:

A = {a,b,c}

Va = {p1,p2}, Vb = {q1,q2,q3} oraz Vc={r1,r2,r3}

wówczas:

Funkcja  taka, że

(a)=p1, (b)=q2, (c) = r1 lub opis:

(a,p1)(b,q2)(c,r1)

jest informacją w systemie S oraz X  = {x1,x3}

X  = {x X: x = } = {x X:  a  A x(a) = (a)} =  a  A {x X: (x,a) = (a) }=

{x X: (x,a) = p1 }  {x X: (x,b) = q2 }  {x X: (x,c) = r1 } = {x1,x2,x3}  {x1,x3}

 {x1,x3} = {x1,x3}

System nie jest selektywny

(21)

Przykład – czy system jest kompletny ?

X A b C

X1 P1 Q2 R1

X2 P1 Q3 R2

X3 P1 Q2 R1

x4 p2 q1 r3

Jeśli:

A = {a,b,c}

Va = {p1,p2}, Vb = {q1,q2,q3} oraz Vc={r1,r2,r3}

wówczas:

Liczba możliwych informacji w systemie wynosi:

System nie jest kompletny

18 3

* 3

*

2 

I istnieje przynajmniej jedna taka informacja, np.: (a,p1)(b,q1)(c,r1)

Której nie odpowiada żaden z obiektów w systemie, inaczej powiemy, że jest ona informacją pustą.

(22)

Równoważność obiektów w systemie

• A więc:

) ( )

(

~ )

( y a a

x a  

x

 

y

• Obiekty x,y  X są nierozróżnialne w systemie S ze względu na atrybut a  A:

)) ( )

( (

~ )

( y a a

x S

x y

A

a

   

• Obiekty x,y  X są nierozróżnialne w systemie S ze względu na KAŻDY atrybut a  A:

y

y

x

x S ~ )    

(

(23)

Równoważność obiektów w systemie

) ( )

(

~ )

(

1

x

4 1

a

4

a

x a  

x

 

x

• Obiekty x1 i x4 są nierozróżnialne w systemie S ze względu na atrybut „a” gdyż:

3

3 1

3 1

1

~ ) ( ( ) ( ))

(

x x x x

A

a

a a

S x

x         

• Obiekty x1 i x3 są nierozróżnialne w systemie S ze względu na KAŻDY atrybut a  A:

X A b C

X1 P1 Q2 R1 X2 P2 Q3 R2 X3 P1 Q2 R1 x4 P1 q1 r3

(24)

Relacja równoważności

• Jest określona na zbiorze obiektów X.

• Każda taka relacja dzieli zbiór, na którym jest określona, a więc zbiór obiektów, na rozłączne klasy, które będziemy nazywać blokami (klasami) elementarnymi.

a B X1 P1 Q1 X2 P1 Q1 X3 P1 Q2 X4 P2 Q1 X5 P2 Q1 x6 p2 q2

a X1 P1 X2 P1 X3 P1

a X4 P2 X5 P2 x6 p2

B1={x1,x2,x3}

B2={x4,x5,x6}

(25)

Klasa równoważności

• Klasą równoważności nazywamy najmniejszy zbiór obiektów opisywalny w systemie, taki, który da się opisać przez atrybuty sytemu.

• Klasa równoważności - zbiór obiektów

nierozróżnialnych w systemie. Klasę

równoważności (dla zbioru atrybutów A) tworzą

obiekty nierozróżnialne względem siebie biorąc

pod uwagę atrybuty ze zbioru A (a więc obiekty

mające identyczne wartości dla atrybutów ze

zbioru A).

(26)

Relacja równoważności

a B X1 P1 Q1 X2 P1 Q1 X3 P1 Q2 X4 P2 Q1 X5 P2 Q1 x6 p2 q2

B3={x1,x2,x4,x5}

B4={x3,x6}

B X1 Q1 X2 Q1 X4 Q1 X5 Q1

B X3 Q2 x6 q2

(27)

Relacja równoważności

a B X1 P1 Q1 X2 P1 Q1 X3 P1 Q2 X4 P2 Q1 X5 P2 Q1 x6 p2 q2

B5={x1,x2}

B6={x3}

a B X1 P1 Q1 X2 P1 Q1

a B X3 P1 Q2

a B X4 P2 Q1 X5 P2 Q1

a B x6 p2 q2

B7={x4,x5}

B8={x6}

Zbior y ele men tarne

(28)

Równoważność dwóch systemów

• Jeżeli systemy S i S’ mają ten sam zbiór obiektów to są równoważne (S ~ S’) wtedy i tylko wtedy gdy generują tę samą relację równoważności na zbiorze X, tj.

'

~

~

S S

• Jeżeli systemy S i S’ mają ten sam zbiór obiektów to powiemy, że system S jest dokładniejszy niż S’ wtedy i tylko wtedy gdy

'

~

~

S

S

(29)

Zależność atrybutów

Jeśli „a” i „b” są atrybutami w systemie informacyjnym to:

a) „b” zależy od „a” (ab)  gdy

b) „a” i „b” są niezależne gdy nie zachodzi żadna z relacji:

c) Atrybuty „a” i „b” są równoważne w S (a ~ b) gdy:

b a

~

~

a b

b

a ani

~

~

~

~

 

b a

~

~

(30)

Jeśli a  b…

• To istnieje funkcja o argumentach w zbiorze wartości atrybutu

„a” oraz przyjmująca wartości ze zbioru „b”, która jednocześnie przyporządkowuje wartościom atrybutu „a”

wartości „b”.

• Często mówi się wtedy o zależnościach funkcjonalnych (funkcyjnych).

• Jeżeli „b” zależy od „a” to istnieje funkcja:

b a

b

a

V V

f : 

) ( , )

(

))

,

( (

)

(

ab x b b a a

x

b fa X

x

X

x

   

(31)

Przykład

• X= {x1,x2,..,x8}

• A = {a,b,c}

• Va = {p1,p2}

• Vb={q1,q2}

• Vc={r1,r2,r3,r4}

a b C

X1 P1 Q1 R1

X2 P1 Q1 R2

X3 P2 Q1 R3

X4 P2 Q1 R4

X5 P1 Q2 R1

X6 P1 Q2 R2

X7 P2 Q2 R3

x8 p2 q2 R4

}}

8 , 4 { }, 7 , 3 { }, 6 , 2 { }, 5 , 1 {{

}}

8 , 7 , 6 , 5 { }, 4 , 3 , 2 , 1 {{

}}

8 , 7 , 4 , 3 { }, 6 , 5 , 2 , 1 {{

~

~

~

x x x

x x

x x

x

x x x x x

x x x

x x x x x

x x x

c b a

a c

b c

c a

c b

a b

b a

~

~

~

~

~

~

~

~

~

~

~

~

ca

(32)

Przykład

a b C

X1 P1 Q1 R1

X2 P1 Q1 R2

X3 P2 Q1 R3

X4 P2 Q1 R4

X5 P1 Q2 R1

X6 P1 Q2 R2

X7 P2 Q2 R3

x8 p2 q2 R4

c  a

Gdy (C=r1) wówczas (a=p1)

Gdy (C=r2) wówczas (a=p1)

Gdy (C=r3) wówczas (a=p2)

Gdy (C=r4) wówczas (a=p2)

(33)

• Na tym koniec 1 wykładu….

• Reszta w następny wtorek 

33

(34)

Język deskryptorowy L s = <A,G>

(35)

Syntaktyka

(36)

Semantyka

(37)

Przykłady

Niech system S będzie systemem informacyjnym:

a b C

X1 V1 W1 U2 X2 V2 W1 U3 X3 V1 W2 U1 X4 V1 W2 U1 X5 V2 W2 U3 X6 v1 w1 u3 Alfabetem będą:

Stałe: 0 i 1

Symbole: +, *,~, ,  Atrybuty: {a, b, c}

I ich wartości: {v1,v2,w1,w2,u1,u2,u3}

To w naszym języku termami będą wyrażenia:

) , ( )

, (

) , ( )

, (

) , ( ) , (

) , (

* )]

, (

* ) , [(

~

) , (

* ) ,

( ) , (

2 2

3 1

1 1

3 1

2

2 2

1

w b v

a

u c w

b

u c w

b

u c v

a v

a

u c w

b v

a

(38)

Przykłady cd.

• Wtedy znaczeniem tych termów będą zbiory:

a b C

X1 V1 W1 U2 X2 V2 W1 U3 X3 V1 W2 U1 X4 V1 W2 U1 X5 V2 W2 U3 X6 v1 w1 u3

) ,

(

* ) ,

( )

,

( a v 1b w 2 c u 2

} 6 ,

4 ,

3 ,

1 {

}) 1 {

} 5 ,

4 ,

3 ({

} 6 ,

4 ,

3 ,

1 {

)) ,

(

* ) ,

( )

,

(( 1 2 2

x x

x x

x x

x x

x x

x x

u c w

b v

s a

 

(39)

Przykłady cd.

• Wtedy znaczeniem termu:

a b C

X1 V1 W1 U2 X2 V2 W1 U3 X3 V1 W2 U1 X4 V1 W2 U1 X5 V2 W2 U3 x6 v1 w1 u3

X x

x x

u c v

a v

s a

 }

6 ,

5 ,

2 {

} {

~

)) ,

( )]

, (

* ) ,

[(

(~ 2 1 3

) ,

(

* )]

, (

* ) ,

[(

~ a v 2 a v 1 c u 3

będzie zbiór:

(40)

Przykłady cd.

• Wtedy znaczeniem termu:

a b C

X1 V1 W1 U2 X2 V2 W1 U3 X3 V1 W2 U1 X4 V1 W2 U1 X5 V2 W2 U3 X6 v1 w1 u3

} 6 ,

5 ,

4 ,

3 ,

2 {

} 6 ,

5 ,

2 {

}) 6 ,

2 ,

1 {

(

)) ,

( )

,

(( 1 3

x x

x x

x

x x

x x

x x

X

u c w

s b

 

) ,

( )

,

( b w 1c u 3

będzie zbiór:

(41)

Rodzaje termów

(42)

Reguły przekształcania termów

(43)

Przykład przekształcenia termów

) ,

( )]

, (

* ) ,

[(

~ 1 2 1

1 a v b w c u

t

) ,

( )

, (

~ )

, (

~ 1 2 1

2 a v b w c u

t  

) ,

( )

, ( )

,

( 2 1 1

3 a v b w c u

t  

(44)

Konieczność normalizacji termu t4 sprawi, że będzie on miał postać:

) , )(

, )(

, (

) , )(

, )(

, (

) , )(

, )(

, (

) , )(

, )(

, (

) , )(

, )(

, (

) , )(

, )(

, (

) , )(

, )(

, (

) , )(

, )(

, (

) , )(

, )(

, (

)]

, ( ) , [(

* )]

, ( ) , [(

* ) , (

)]

, ( ) , [(

* )]

, ( ) , [(

* ) , (

)]

, ( ) , [(

* )]

, ( ) , [(

* ) , (

2 2

2

1 2

2

2 1

2

1 1

2

2 2

1

1 2

1

2 1

1

1 1

1

1 1

1

2 1

2 1

1

2 1

2 1

1

2 1

2 1

2 4

u c w b v

a

u c w b v

a

u c w b v

a

u c w b v

a

u c w b v a

u c w b v a

u c w b v a

u c w b v a

u c w b v a

v a v

a w

b w

b u

c

u c u

c v

a v

a w

b

u c u

c w

b w

b v

a

t

(45)

Wtedy znaczeniem termu t4 będzie:

} 4 , 3 { )) ,

)(

, )(

, ((

} 6 , 5 { )) ,

)(

, )(

, ((

} 1 { )) ,

)(

, )(

, ((

1 2

1

1 1

2

2 1

1

x x u

c w b v a

x x u

c w b v

a

x u

c w b v a

s s s

Pozostałe termy są puste a więc:

} 6 , 5 , 4 , 3 , 1 { }

4 , 3 { }

6 , 5 { }

1 { )

( t

1

x x x x x x x x x x

s

   

a b C

X1 V1 W1 U2 X2 V2 W1 U3 X3 V1 W2 U1 X4 V1 W2 U1 X5 V2 W1 U1 X6 V2 w1 U1

(46)

Równość i zawieranie się termów

(47)

Termy t1 i t2 są równe:

a b C

X1 V1 W1 U2 X2 V2 W1 U3 X3 V1 W2 U1 X4 V1 W2 U1 X5 V2 W1 U1 X6 V2 w1 U1

) , )(

, (

) , )(

, )(

, (

1 1

2

2 1

1 1

w b v a t

u c w b v a t

} 1 { )) ,

)(

, ((

) (

} 1 { )) ,

)(

, )(

, ((

) (

1 1

2

2 1

1 1

x w

b v a t

x u

c w b v a t

(48)

Zawieranie się termów t1 i t2:

a b C

X1 V1 W1 U2 X2 V2 W1 U3 X3 V1 W2 U1 X4 V1 W2 U1 X5 V2 W1 U1 X6 V2 w1 U1

) , (

) , )(

, )(

, (

1 2

2 1

1 1

v a t

u c w b v a t

} 4 , 3 , 1 { )) , ((

) (

} 1 { )) ,

)(

, )(

, ((

) (

1 2

2 1

1 1

x x x v

a t

x u

c w b v a t

1 2

2

1 ) ( )

( t   ttt

(49)

Parametry SWI

1. Struktura bazy danych

2. Redundancja i zajętość pamięci:

• Obiektowa (powielenie się opisu obiektów w BD)

• Atrybutowa (powielenie się adresów obiektów w BD) 3. Aktualizacja bazy danych

4. Czas wyszukiwania

Cytaty

Powiązane dokumenty

Udowodnić, że średnia arytmetyczna tych liczb jest równa n+1 r

[r]

(Fakt ten nosi nazwę Twierdzenia

(Fakt ten nosi nazwę Twierdzenia

(5) ‘rodek okr¦gu opisanego na trójk¡cie le»y na prostej przechodz¡cej przez jeden z jego wierzchoªków i ±rodek przeciwlegªego boku wtedy i tylko wtedy, gdy trójk¡t jest ....

Niech H oznacza

Zastanów si¦, jak wygl¡da twierdzenie o arytmetyce granic, gdy s¡ one niewªa±ciwe.. Jego granica

Utrata zwi¸ azk´ ow fazowych (tzw. koherencji) zredukowanego opera- tora stanu w wyniku ewolucji uk ladu rozszerzonego jest nazywana dekoherencj¸