Uniwersytet Śląski 1
Systemy Wyszukiwania Informacji
Agnieszka Nowak – Brzezińska
agnieszka.nowak@us.edu.pl
Instytut Informatyki, Zakład Systemów Informatycznych
Uniwersytet Śląski
Warunki zaliczenia przedmiotu
• Obowiązkowa obecność na wykładach
• Obowiązkowa obecność i sumienna praca na laboratorium
• Egzamin pisemny i ustny
Literatura
http://zsi.tech.us.edu.pl/~nowak/swibio/index.html
Baza danych a system informacyjny
4
X A Rok wydania Wydawnictwo Dziedzina
X1 1987 PWN Informatyka
X2 1990 WNT Informatyka
X3 1987 PWN Elektronika
X4 1990 WNT Informatyka
atrybut
Wartość atrybutu
obiekt
Nazwa obiektu
Obiektami najczęściej są dokumenty w
których chcemy wyszukiwać
informacji
5
Budowa SWI
Celem systemu wyszukiwania informacji jest dostarczenie użytkownikowi poszukiwanej przez niego informacji.
Użytkownik, który ma szereg pytań, powinien na nie otrzymać odpowiedź w jak najkrótszym czasie.
Dokument
źródłowy (Opis, plan, rysunek, informacja
słowna, słyszana)
dokument wtórny, który ma tę samą wagę informacyjną, ale w znacznie skróconej, zakodowanej i skompresowanej formie
jest najważniejszym modułem. Dba o to, aby wyszukać informacje w jak najkrótszym czasie, z jak największą dokładnością i jak najmniejszą ilością szumu informacyjnego.
przekazuje użytkownikowi uzyskane informacje w dowolnym języku dogodnym dla użytkownika.
Dokumenty - rodzaje
• Dokument źródłowy - opis obiektu w postaci źródłowej (język naturalny); dokument na wejściu systemu (np.
ankiety)
• Dokument wtórny - dokument opracowany na podstawie dokumentu źródłowego przystosowany do konkretnego systemu informatycznego; dokument gdzie wszystkie informacje z dokumentu źródłowego są kodowane; są to informacje skrócone.
• Dokument wyszukiwawczy - jest to dokument opracowany na podstawie dokumentu wtórnego;
przystosowany do konkretnej metody wyszukiwania
informacji.
Definicja SI
Dziedzina atrybutu
• Z każdym atrybutem „a” należącym do zbioru A zwiążemy zbiór wartości tego atrybutu (V a ).
• Dziedzina atrybutu „a” jest co najmniej dwuelementowa, tzn. każdy atrybut może przyjmować co najmniej jedną z 2 możliwych wartości.
• Dziedziną V a atrybutu „a” w systemie S będzie zbiór V a określony jako:
V
a= {v V: dla których istnieje x X, takie, że (x,a)=v}
Funkcja informacji
• Będzie to funkcja dwuargumentowa, dla opisu własności obiektów.
• Każdemu obiektowi x X i atrybutowi a A przyporządkowuje wartość v należącą do dziedziny Va.
Przykłady SI
X A Rok wydania Wydawnictwo Dziedzina
X1 1987 PWN Informatyka
X2 1990 WNT Informatyka
X3 1987 PWN Elektronika
X4 1990 WNT Informatyka
X = {x1,x2,x3,x4}
A = {Rok wydania, Wydawnictwo, Dziedzina}
Vrok wydania = {1987,1990}
V Wydawnictwo = {PWN, WNT}
V Dziedzina = {Informatyka, Elektronika}
Deskryptor
• Parę (a,v) gdzie a jest atrybutem ze zbioru A, v V a – jest wartością atrybutu a należącą do
dziedziny - nazywamy deskryptorem.
(Dziedzina, Elektronika)
(Wydawnictwo, PWN)
Informacja o obiekcie w systemie S
• To funkcja x o argumentach w A i wartościach w V taka, że x (a) = (x,a) wprowadzona dla każdego x X.
• Jest to po prostu zbiór wartości wszystkich atrybutów obiektu w danym systemie.
• Np.
Czyli jest to zbiór deskryptorów !!!
Opis obiektu X w systemie S
• To zbiór deskryptorów wyznaczony przez informację o obiekcie.
• Różnica jest formalna: informacja o obiekcie to
pewna funkcja, a opis obiektu to termin (twór
językowy).
Definicja informacji w systemie S
• Informacją w systemie S będzie każda funkcja
o argumentach w zbiorze atrybutów A oraz wartościach należących do V , taka, że (a) V a.
• Wszystkich możliwych informacji w systemie będzie:
) ( a
A a
V
card
Przykład
Zakładając, że w naszym systemie S mamy następujący zbiór atrybutów: A = {a,b,c} oraz zbiory wartości dla
poszczególnych atrybutów:
V
a= {p1,p2}, V
b= {q1,q2,q3} oraz V
c={r1,r2,r3}
(a,p1)(b,q1)(c,r1) (a,p1)(b,q1)(c,r2) (a,p1)(b,q1)(c,r3) (a,p1)(b,q2)(c,r1) (a,p1)(b,q2)(c,r2) (a,p1)(b,q2)(c,r3) (a,p1)(b,q3)(c,r1) (a,p1)(b,q3)(c,r2) (a,p1)(b,q3)(c,r3)
(a,p2)(b,q1)(c,r1) (a,p2)(b,q1)(c,r2) (a,p2)(b,q1)(c,r3) (a,p2)(b,q2)(c,r1) (a,p2)(b,q2)(c,r2) (a,p2)(b,q2)(c,r3) (a,p2)(b,q3)(c,r1) (a,p2)(b,q3)(c,r2) (a,p2)(b,q3)(c,r3)
18 3
* 3
* 2
) (
* ) (
* ) (
) (
c b
a A a
a
V card V
card V
card
V
card
Własności informacji w systemie
• Każda informacja wyznacza pewien zbiór obiektów X takich, że X = {x X: x = }
Czyli obiektów mających w systemie jednakową informację.
• Informacja jest pusta gdy nie odpowiada jej
żaden obiekt w systemie: X = {}
System jest selektywny
System jest selektywny wtedy i tylko wtedy gdy każdej informacji odpowiada co najwyżej
jeden obiekt.
System kompletny
System jest kompletny wtedy i tylko wtedy gdy każdej informacji odpowiada co najmniej
jeden obiekt.
Inna definicja:
System jest kompletny wtedy i tylko wtedy gdy
każda informacja w systemie jest niepusta.
Przykład – czy system jest selektywny ?
X A b C
X1 P1 Q2 R1
X2 P1 Q3 R2
X3 P1 Q2 R1
x4 p2 q1 r3
Jeśli:
A = {a,b,c}
Va = {p1,p2}, Vb = {q1,q2,q3} oraz Vc={r1,r2,r3}
wówczas:
Funkcja taka, że
(a)=p1, (b)=q2, (c) = r1 lub opis:
(a,p1)(b,q2)(c,r1)
jest informacją w systemie S oraz X = {x1,x3}
X = {x X: x = } = {x X: a A x(a) = (a)} = a A {x X: (x,a) = (a) }=
{x X: (x,a) = p1 } {x X: (x,b) = q2 } {x X: (x,c) = r1 } = {x1,x2,x3} {x1,x3}
{x1,x3} = {x1,x3}
System nie jest selektywny
Przykład – czy system jest kompletny ?
X A b C
X1 P1 Q2 R1
X2 P1 Q3 R2
X3 P1 Q2 R1
x4 p2 q1 r3
Jeśli:
A = {a,b,c}
Va = {p1,p2}, Vb = {q1,q2,q3} oraz Vc={r1,r2,r3}
wówczas:
Liczba możliwych informacji w systemie wynosi:
System nie jest kompletny
18 3
* 3
*
2
I istnieje przynajmniej jedna taka informacja, np.: (a,p1)(b,q1)(c,r1)
Której nie odpowiada żaden z obiektów w systemie, inaczej powiemy, że jest ona informacją pustą.
Równoważność obiektów w systemie
• A więc:
) ( )
(
~ )
( y a a
x a
x
y• Obiekty x,y X są nierozróżnialne w systemie S ze względu na atrybut a A:
)) ( )
( (
~ )
( y a a
x S
x yA
a
• Obiekty x,y X są nierozróżnialne w systemie S ze względu na KAŻDY atrybut a A:
y
y
xx S ~ )
(
Równoważność obiektów w systemie
) ( )
(
~ )
(
1x
4 1a
4a
x a
x
x• Obiekty x1 i x4 są nierozróżnialne w systemie S ze względu na atrybut „a” gdyż:
3
3 1
3 1
1
~ ) ( ( ) ( ))
(
x x x xA
a
a a
S x
x
• Obiekty x1 i x3 są nierozróżnialne w systemie S ze względu na KAŻDY atrybut a A:
X A b C
X1 P1 Q2 R1 X2 P2 Q3 R2 X3 P1 Q2 R1 x4 P1 q1 r3
Relacja równoważności
• Jest określona na zbiorze obiektów X.
• Każda taka relacja dzieli zbiór, na którym jest określona, a więc zbiór obiektów, na rozłączne klasy, które będziemy nazywać blokami (klasami) elementarnymi.
a B X1 P1 Q1 X2 P1 Q1 X3 P1 Q2 X4 P2 Q1 X5 P2 Q1 x6 p2 q2
a X1 P1 X2 P1 X3 P1
a X4 P2 X5 P2 x6 p2
B1={x1,x2,x3}
B2={x4,x5,x6}
Klasa równoważności
• Klasą równoważności nazywamy najmniejszy zbiór obiektów opisywalny w systemie, taki, który da się opisać przez atrybuty sytemu.
• Klasa równoważności - zbiór obiektów
nierozróżnialnych w systemie. Klasę
równoważności (dla zbioru atrybutów A) tworzą
obiekty nierozróżnialne względem siebie biorąc
pod uwagę atrybuty ze zbioru A (a więc obiekty
mające identyczne wartości dla atrybutów ze
zbioru A).
Relacja równoważności
a B X1 P1 Q1 X2 P1 Q1 X3 P1 Q2 X4 P2 Q1 X5 P2 Q1 x6 p2 q2
B3={x1,x2,x4,x5}
B4={x3,x6}
B X1 Q1 X2 Q1 X4 Q1 X5 Q1
B X3 Q2 x6 q2
Relacja równoważności
a B X1 P1 Q1 X2 P1 Q1 X3 P1 Q2 X4 P2 Q1 X5 P2 Q1 x6 p2 q2
B5={x1,x2}
B6={x3}
a B X1 P1 Q1 X2 P1 Q1
a B X3 P1 Q2
a B X4 P2 Q1 X5 P2 Q1
a B x6 p2 q2
B7={x4,x5}
B8={x6}
Zbior y ele men tarne
Równoważność dwóch systemów
• Jeżeli systemy S i S’ mają ten sam zbiór obiektów to są równoważne (S ~ S’) wtedy i tylko wtedy gdy generują tę samą relację równoważności na zbiorze X, tj.
'
~
~
S S
• Jeżeli systemy S i S’ mają ten sam zbiór obiektów to powiemy, że system S jest dokładniejszy niż S’ wtedy i tylko wtedy gdy
'
~
~
S
S
Zależność atrybutów
Jeśli „a” i „b” są atrybutami w systemie informacyjnym to:
a) „b” zależy od „a” (ab) gdy
b) „a” i „b” są niezależne gdy nie zachodzi żadna z relacji:
c) Atrybuty „a” i „b” są równoważne w S (a ~ b) gdy:
b a
~
~
a b
b
a ani
~
~
~
~
b a
~
~
Jeśli a b…
• To istnieje funkcja o argumentach w zbiorze wartości atrybutu
„a” oraz przyjmująca wartości ze zbioru „b”, która jednocześnie przyporządkowuje wartościom atrybutu „a”
wartości „b”.
• Często mówi się wtedy o zależnościach funkcjonalnych (funkcyjnych).
• Jeżeli „b” zależy od „a” to istnieje funkcja:
b a
b
a
V V
f :
) ( , )
(
))
,( (
)
(
ab x b b a ax
b f a X
xX
x
Przykład
• X= {x1,x2,..,x8}
• A = {a,b,c}
• Va = {p1,p2}
• Vb={q1,q2}
• Vc={r1,r2,r3,r4}
a b C
X1 P1 Q1 R1
X2 P1 Q1 R2
X3 P2 Q1 R3
X4 P2 Q1 R4
X5 P1 Q2 R1
X6 P1 Q2 R2
X7 P2 Q2 R3
x8 p2 q2 R4
}}
8 , 4 { }, 7 , 3 { }, 6 , 2 { }, 5 , 1 {{
}}
8 , 7 , 6 , 5 { }, 4 , 3 , 2 , 1 {{
}}
8 , 7 , 4 , 3 { }, 6 , 5 , 2 , 1 {{
~
~
~
x x x
x x
x x
x
x x x x x
x x x
x x x x x
x x x
c b a
a c
b c
c a
c b
a b
b a
~
~
~
~
~
~
~
~
~
~
~
~
ca
Przykład
a b C
X1 P1 Q1 R1
X2 P1 Q1 R2
X3 P2 Q1 R3
X4 P2 Q1 R4
X5 P1 Q2 R1
X6 P1 Q2 R2
X7 P2 Q2 R3
x8 p2 q2 R4
c a
Gdy (C=r1) wówczas (a=p1)
Gdy (C=r2) wówczas (a=p1)
Gdy (C=r3) wówczas (a=p2)
Gdy (C=r4) wówczas (a=p2)
• Na tym koniec 1 wykładu….
• Reszta w następny wtorek
33
Język deskryptorowy L s = <A,G>
Syntaktyka
Semantyka
Przykłady
• Niech system S będzie systemem informacyjnym:
a b C
X1 V1 W1 U2 X2 V2 W1 U3 X3 V1 W2 U1 X4 V1 W2 U1 X5 V2 W2 U3 X6 v1 w1 u3 Alfabetem będą:
Stałe: 0 i 1
Symbole: +, *,~, , Atrybuty: {a, b, c}
I ich wartości: {v1,v2,w1,w2,u1,u2,u3}
To w naszym języku termami będą wyrażenia:
) , ( )
, (
) , ( )
, (
) , ( ) , (
) , (
* )]
, (
* ) , [(
~
) , (
* ) ,
( ) , (
2 2
3 1
1 1
3 1
2
2 2
1
w b v
a
u c w
b
u c w
b
u c v
a v
a
u c w
b v
a
Przykłady cd.
• Wtedy znaczeniem tych termów będą zbiory:
a b C
X1 V1 W1 U2 X2 V2 W1 U3 X3 V1 W2 U1 X4 V1 W2 U1 X5 V2 W2 U3 X6 v1 w1 u3
) ,
(
* ) ,
( )
,
( a v 1 b w 2 c u 2
} 6 ,
4 ,
3 ,
1 {
}) 1 {
} 5 ,
4 ,
3 ({
} 6 ,
4 ,
3 ,
1 {
)) ,
(
* ) ,
( )
,
(( 1 2 2
x x
x x
x x
x x
x x
x x
u c w
b v
s a
Przykłady cd.
• Wtedy znaczeniem termu:
a b C
X1 V1 W1 U2 X2 V2 W1 U3 X3 V1 W2 U1 X4 V1 W2 U1 X5 V2 W2 U3 x6 v1 w1 u3
X x
x x
u c v
a v
s a
}
6 ,
5 ,
2 {
} {
~
)) ,
( )]
, (
* ) ,
[(
(~ 2 1 3
) ,
(
* )]
, (
* ) ,
[(
~ a v 2 a v 1 c u 3
będzie zbiór:
Przykłady cd.
• Wtedy znaczeniem termu:
a b C
X1 V1 W1 U2 X2 V2 W1 U3 X3 V1 W2 U1 X4 V1 W2 U1 X5 V2 W2 U3 X6 v1 w1 u3
} 6 ,
5 ,
4 ,
3 ,
2 {
} 6 ,
5 ,
2 {
}) 6 ,
2 ,
1 {
(
)) ,
( )
,
(( 1 3
x x
x x
x
x x
x x
x x
X
u c w
s b
) ,
( )
,
( b w 1 c u 3
będzie zbiór:
Rodzaje termów
Reguły przekształcania termów
Przykład przekształcenia termów
) ,
( )]
, (
* ) ,
[(
~ 1 2 1
1 a v b w c u
t
) ,
( )
, (
~ )
, (
~ 1 2 1
2 a v b w c u
t
) ,
( )
, ( )
,
( 2 1 1
3 a v b w c u
t
Konieczność normalizacji termu t4 sprawi, że będzie on miał postać:
) , )(
, )(
, (
) , )(
, )(
, (
) , )(
, )(
, (
) , )(
, )(
, (
) , )(
, )(
, (
) , )(
, )(
, (
) , )(
, )(
, (
) , )(
, )(
, (
) , )(
, )(
, (
)]
, ( ) , [(
* )]
, ( ) , [(
* ) , (
)]
, ( ) , [(
* )]
, ( ) , [(
* ) , (
)]
, ( ) , [(
* )]
, ( ) , [(
* ) , (
2 2
2
1 2
2
2 1
2
1 1
2
2 2
1
1 2
1
2 1
1
1 1
1
1 1
1
2 1
2 1
1
2 1
2 1
1
2 1
2 1
2 4
u c w b v
a
u c w b v
a
u c w b v
a
u c w b v
a
u c w b v a
u c w b v a
u c w b v a
u c w b v a
u c w b v a
v a v
a w
b w
b u
c
u c u
c v
a v
a w
b
u c u
c w
b w
b v
a
t
Wtedy znaczeniem termu t4 będzie:
} 4 , 3 { )) ,
)(
, )(
, ((
} 6 , 5 { )) ,
)(
, )(
, ((
} 1 { )) ,
)(
, )(
, ((
1 2
1
1 1
2
2 1
1
x x u
c w b v a
x x u
c w b v
a
x u
c w b v a
s s s
Pozostałe termy są puste a więc:
} 6 , 5 , 4 , 3 , 1 { }
4 , 3 { }
6 , 5 { }
1 { )
( t
1x x x x x x x x x x
s
a b C
X1 V1 W1 U2 X2 V2 W1 U3 X3 V1 W2 U1 X4 V1 W2 U1 X5 V2 W1 U1 X6 V2 w1 U1
Równość i zawieranie się termów
Termy t1 i t2 są równe:
a b C
X1 V1 W1 U2 X2 V2 W1 U3 X3 V1 W2 U1 X4 V1 W2 U1 X5 V2 W1 U1 X6 V2 w1 U1
) , )(
, (
) , )(
, )(
, (
1 1
2
2 1
1 1
w b v a t
u c w b v a t
} 1 { )) ,
)(
, ((
) (
} 1 { )) ,
)(
, )(
, ((
) (
1 1
2
2 1
1 1
x w
b v a t
x u
c w b v a t
Zawieranie się termów t1 i t2:
a b C
X1 V1 W1 U2 X2 V2 W1 U3 X3 V1 W2 U1 X4 V1 W2 U1 X5 V2 W1 U1 X6 V2 w1 U1
) , (
) , )(
, )(
, (
1 2
2 1
1 1
v a t
u c w b v a t
} 4 , 3 , 1 { )) , ((
) (
} 1 { )) ,
)(
, )(
, ((
) (
1 2
2 1
1 1