Dekompozycja w systemach wyszukiwania informacji METODY DEKOMPOZYCJI:

(1)

Dekompozycja w systemach wyszukiwania informacji

METODY DEKOMPOZYCJI:

 ATRYBUTOWA

 OBIEKTOWA

 HIERARCHICZNA (zależna i wymuszona)

Dekompozycje mają cel wtedy kiedy zachodzi któryś z poniższych warunków:

 Duża liczba obiektów,

 Kiedy rozproszenie BD jest z góry narzucone

 Duża liczba pytao dotyczy określonych podsystemów (może to wynikad z fizycznego rozproszenia).

 Przy dekompozycji mamy do czynienia ze skomplikowaniem struktury BD.

(2)

Dekompozycja obiektowa

 System informacyjny dekomponujemy obiektowo gdy w systemie tym operujemy na bardzo dużej liczbie obiektów

 Obiekty opisane są tymi samymi atrybutami, przy czym liczba atrybutów jest niewielka.

Założenia dekompozycji obiektowej

Dla dalszych rozważań przedstawiony zostanie model dekompozycji obiektowej zgodnie z założeniami systemu funkcyjnego. Został on przyjęty, ponieważ opis obiektów oraz przyjęta metoda wyszukiwania oparte są o system funkcyjny.

System informacyjny

S = < X, A, V,  >

dzieli się na podsystemy

S

₁

, S

₂

, ... , S

_n, gdzie:

S

_i

= < X

_i

, A, V, 

i

>

S = S

1

 S

2

 ... S

n

,

_n

S =  S

i

,

^{i = 1}

X

_i

 X,

 X

i

= X,

i



i

= X

i

x A  V.



i

=  X

i

Zbiór obiektów X w systemie S jest .sumą podzbiorów obiektów Xi każdego podsystemu Si. Zbiory atrybutów w podsystemach Si są identyczne ze zbiorem atrybutów systemu głównego S.

(3)

Funkcja informacji w podsystemach:



_i

= X

_i

x A  V.



_i

=  

_Xi

jest zawężeniem funkcji informacji systemu głównego wynikającym ze zmniejszonych zbiorów obiektów.

Pytanie do systemu zadawane jest w postaci normalnej:

t = t

1

+ t

2

+ t +...+ t

m

.

Odpowiedź na pytanie jest sumą odpowiedzi na pytania składowe:

(t) = (t

1

)  (t

2

)  ...  (t

m

).

 Jeżeli term elementarny ti dotyczy wyłącznie obiektów jednego podsystemu to pytanie jest kierowane do tego podsystemu i tam znajdowana jest odpowiedź.

(t

_i

) = (t

_i

) 

_Si

= (t

_i

) 

_Xi

 Jeżeli term elementarny ti dotyczy obiektów z kilku podsystemów to pytanie jest kierowane do tych podsystemów, a odpowiedź otrzymujemy jako sumę odpowiedzi z podsystemów.

_m

(t

i

) =  (t

i

) 

Si

=  (t

i

) 

Xi

,

^{i = 1}

gdzie m. - liczba podsystemów, których dotyczy pytanie.

W każdym podsystemie znajduje się mniejsza liczba obiektów, niż w systemie centralnym. Aktualizacja przy tej dekompozycji jest prosta, natomiast redundancja nie występuje.

(4)

Czas odpowiedzi:

 na pytanie ogólne

k



_e4

=  

_e3i

i=1

gdzie:



e3i — czas znajdowania odpowiedzi w i – tym podsystemie,

k

— liczba podsystemów, których dotyczy pytanie.

 na pytanie szczegółowe

k



_og4

= 

_n

+  

_e4i

i=1

gdzie:

k — liczba podsystemów, których dotyczy pytanie.

W każdym podsystemie znajduje się mniejsza liczba obiektów, niż w systemie centralnym. Aktualizacja przy tej dekompozycji jest

prosta, natomiast redundancja nie występuje

(5)

Przykład:

Przykładem tej dekompozycji może być system obsługujący bibliotekę oraz jej filie. W systemie takim obiekty zostaną podzielone na grupy, przy czym niektóre z obiektów mogą się powielać w kilku grupach. Zbiór atrybutów jest taki sam we wszystkich podsystemach. Obiekty rozróżnione są kluczem, którym jest nr_indeksu. Nasz przykładowy system może wyglądać następująco:

 biblioteka główna,

 biblioteka wydziału techniki,

 biblioteka wydziału nauk o ziemi,

 biblioteka wydziału filologii,

 biblioteka wydziału fizyki,

 biblioteka wydziału nauk społecznych.

 Zdefiniujmy nasz system jako czwórkę:



 S = < X, A, V,  > gdzie:



 X — zbiór obiektów { x1, x2, ..., xn}

 A — zbiór atrybutów {a1, a2, ... a7} gdzie:

 a₁ — Nr_indeksu,

 a2 — Nazwisko,

 a₃ — Imię,

 a₄ — Adres_zamieszkania,

 a5 — Nr_telefonu,

 a₆ — Wydział,

 a₇ — Kierunek studiów.

(6)



 V — zbiór wartości atrybutów,

  — funkcja informacji,



 Taki system dzielimy na podsystemy, gdzie każdy podsystem to odpowiednio:

 podsystem S1 to biblioteka główna,

 podsystem S2 to biblioteka wydziału techniki,

 podsystem S₃ to biblioteka wydziału nauk o ziemi,

 podsystem S4 to biblioteka wydziału filologii,

 podsystem S5 to biblioteka wydziału fizyki,

 podsystem S6 to biblioteka wydziału nauk społecznych.



(7)



S1 = <X1,A,V,q> S2 = <X2,A,V,q>

S3 = <X3,A,V,q>

S4 = <X4,A,V,q>

S5 = <X5,A,V,q>

S6 = <X6,A,V,q>

S = <X,A,V,q>

(8)

 Zdefiniujemy teraz odpowiednio wszystkie podsystemy:

 S₁ = < X₁, A, V, ₁ >

 gdzie:

 X1 — zbiór obiektów { x1, x2, ..., xi}

 a3 — Imię,

 a6 — Wydział,



S1 = <X1,A,V,q>

S = <X,A,V,q>

(9)

 S2 = < X2, A, V, 2 >

 gdzie:

 X2 — zbiór obiektów { x_i+1, x_i+2,..., x_j}

 a1 — Nr_indeksu,

 a₂ — Nazwisko,

 a3 — Imię,

 a4 — Adres_zamieszkania,

 a₅ — Nr_telefonu,

 a7 — Kierunek studiów.

S2 = <X2,A,V,q>

S = <X,A,V,q>

(10)

 S

₃

= < X

₃

, A, V, 

₃

>

 gdzie:

 X3 — zbiór obiektów { xj+1, xj+2, ..., xk}

 A — zbiór atrybutów {a1, a₂, ... a₇} gdzie:

 a₃ — Imię,

 S

4

= < X

₄

, A, V, 

4

>

 gdzie:

 X₄ — zbiór obiektów { x_k+1, x_k+2,..., x_p}

 a3 — Imię,

S3 = <X3,A,V,q>

S4 = <X4,A,V,q>

S = <X,A,V,q>

(11)

 S

5

= < X

₅

, A, V, 

5

>

 X5 — zbiór obiektów { xp+1, xp+2, ..., xq}

 a3 — Imię,

 S

₆

= < X

₆

, A, V, 

₆

>

X₆ — zbiór obiektów { x_q+1, x_q+2,..., x_n}

 a3 — Imię,



 Odpowiedzi otrzymujemy z jednego podsystemu - gdy pytanie dotyczy obiektów z jednego podsystemu, lub jako sumę odpowiedzi z kilku podsystemów jeżeli pytanie dotyczy obiektów z kilu podsystemów

S6 = <X6,A,V,q>

S = <X,A,V,q>

S5 = <X5,A,V,q>

S = <X,A,V,q>

(12)

Dekompozycja atrybutowa

W systemie można dokonać dekompozycji atrybutowej gdy np. użytkowników systemu da się podzielić ze względu na rodzaj zadawanych pytań. Pytania pojedynczego użytkownika ( lub grupy użytkowników ), dotyczą innych grup atrybutów systemu S, lecz tego samego zbioru obiektów.

Założenia dekompozycji atrybutowej

Dla dalszych rozważań przedstawiony zostanie model dekompozycji atrybutowej zgodnie z założeniami systemu funkcyjnego.

Został on przyjęty, ponieważ opis obiektów oraz przyjęta metoda wyszukiwania oparte są o system funkcyjny.

System informacyjny S = < X, A, V,  > dzieli się na podsystemy S1, S2, ... , Sn,

gdzie:

S

_i

= < X, A

_i

, V

_i

, 

i

>

S = S

₁

 S

2

 ... S

n

_n

S =  S

_i

ⁱ⁼¹

Zbiór obiektów X w każdym podsystemie jest identyczny ze zbiorem obiektów w systemie S.

(13)

Zbiory atrybutów podsystemów są podzbiorami zbioru atrybutów systemu głównego S, a suma tych podzbiorów (z każdego podsystemu), daje pełny zbiór atrybutów systemu S.

 A

_i

 A tak, że  A

_i

= A

0 < i <= n

ⁱ

Zbiory wartości atrybutów w podsystemach są podzbiorami zbioru wartości systemu S, co wynika bezpośrednio z faktu ograniczenia w podsystemach zbioru atrybutów, a nie jest absolutnie związane z obcięciami zbiorów wartości dla poszczególnych atrybutów.

 V

_i

 V

0 < i <= n

Funkcja informacji w podsystemach:



_i

= X x A

_i

 V

_i



i

=  

X x Ai

jest zawężeniem funkcji informacji systemu głównego wynikającym ze zmniejszonych zbiorów atrybutów i wartości atrybutów.

W każdym podsystemie Si systemu S jest określony inny zbiór deskryptorów D, oraz w ramach podsystemu możliwe jest stosowanie wybranej metody wyszukiwania informacji

(14)

Wyszukiwanie informacji w systemie z dekompozycją atrybutową

Pytanie do systemu zadawane jest w postaci normalnej. Odpowiedź na pytanie składowe otrzymać możemy na dwa sposoby:

1. Gdy dotyczy ono wyłącznie atrybutów z jednego podsystemu jest kierowane do tego podsystemu i tam znajdowana jest odpowiedź.

(t

_j

) = (t

_j

)

_Si

2. Gdy atrybuty pytania składowego należą do różnych podsystemów, wówczas pytanie kierowane jest do podsystemów przez obcinanie zbioru atrybutów w danych podsystemach. Odpowiedzią końcową na term składowy jest przecięcie zbioru obiektów stanowiących odpowiedź z podsystemów.

(t

_j

) = (t

_j

)

_S1

 (t

_j

)

_S2

 ...  (t

_j

)

_Sn

3. Jeżeli możliwe jest określenie, do których podsystemów należy zadać pytanie, tzn. do których podsystemów należą atrybuty pytania, to odpowiedzią na nie będzie część wspólna odpowiedzi z wybranych podsystemów

(t

_j

) = (t

_j

)

_S1

 (t

_j

)

_S2

 ...  (t

_j

)

_Sm

gdzie m < n

W każdym podsystemie znajduje się mniejsza liczba atrybutów, niż w systemie centralnym, tym samym krótsze są opisy obiektów. Aktualizacja przy tej dekompozycji jest znacznie utrudniona, natomiast redundancja w ramach podsystemów zależy od przyjętej metody wyszukiwania informacji, a w ramach całego systemu wzrasta ze względu na występowanie obiektu w każdym podsystemie.

(15)

Czas odpowiedzi:

 na pytanie ogólne

k



_og5

= 

_ni

+  

_e5i

i=1

gdzie:



_ni

—

czas niezbędny na ewentualną normalizację termu w podsystemie,

k

— liczba podsystemów, których dotyczy pytanie.

 na pytanie szczegółowe

k



_e5

=  

_e3i

+ 

_p

i=1

gdzie:



p — czas niezbędny na znalezienie części wspólnej odpowiedzi z podsystemów.

W każdym podsystemie znajduje się mniejsza liczba atrybutów, niż w systemie centralnym, tym samym krótsze

są opisy obiektów. Aktualizacja przy tej dekompozycji jest znacznie utrudniona, natomiast redundancja w

ramach podsystemów zależy od przyjętej metody wyszukiwania informacji, a w ramach całego systemu wzrasta

ze względu na występowanie obiektu w każdym podsystemie.

(16)

Przykład:

Na potrzeby przykładu zdefiniujemy system zawierający kompleksową informacje o każdym obywatelu zamieszkującym dany kraj. System udziela informacji odpowiednim grupom użytkowników mających dostęp tylko do wybranych informacji np.

 Policja ma dostęp do danych personalnych oraz do kartoteki karnej,

 Urząd skarbowy ma dostęp do części danych osobowych oraz do danych o sytuacji materialnej,

 Służba zdrowia ma dostęp do danych medycznych,

 Urząd statystyczny ma dostęp do części danych personalnych Obiekty rozróżnione są kluczem, którym jest Nr_pesel.

(17)

Definiujemy system jako czwórkę S = < X, A, V,  > gdzie:

X — zbiór obiektów { x1, x2, ..., xn}

A — zbiór atrybutów {a1, a2, ... a17} gdzie:

a1 — Nr_pesel, a2 — Nazwisko, a3 — Imię,

a4 — Data_urodzenia, a5 — Miejsce_urodzenia, a6 — Adres_zamieszkania,

a7 — Nr_telefonu, a8 — Imię_ojca, a9 — Imię_matki,

a10 — Nazwisko_panieńskie_matki, a11 — Stan_cywilny,

a12 — Rysopis,

a13 — Stosunek_do_służby_wojskowej, a14 — Miejsce_zatrudnienia,

a15 — Wykształcenie, a16 — Karalność, a17 — Dochody, a18 — Stan_zdrowia.

V — zbiór wartości atrybutów,

 — funkcja informacji,

Ponieważ mamy cztery grupy użytkowników, którzy potrzebują informacje o różnych sprawach, dlatego aby ułatwić im pracę i przyspieszyć czas wyszukiwania dzielimy system na cztery podsystemy:

S1 = < X, A1, V1, 1 >

S2 = < X, A2, V2, 2 >

S3 = < X, A3, V3, 3 >

S4 = < X, A4, V4, 4 >

S

S2 S3 S4

S1

(18)

System S1 przechowuje informacje interesujące Policję tj. dane personalne osoby oraz informacje o karalności osoby.

S1 = < X, A1, V1, 1 >

gdzie:

A1 — zbiór atrybutów {a1, a2, ... a16} gdzie:

a1 — Nr_pesel, a2 — Nazwisko, a3 — Imię,

a₄ — Data_urodzenia, a₅ — Miejsce_urodzenia, a₆ — Adres_zamieszkania, a₇ — Nr_telefonu,

a₈ — Imię_ojca,

a9 — Imię_matki,

a10 — Nazwisko_panieńskie_matki, a11 — Stan_cywilny,

a₁₂ — Rysopis,

a₁₃ — Stosunek_do_służby_wojskowej, a₁₄ — Miejsce_zatrudnienia,

a₁₅ — Wykształcenie, a₁₆ — Karalność,

V₁ — zbiór wartości atrybutów,

1 — funkcja informacji,

S

S1 S2 S3 S4

S1= < X, A

₁

, V

₁

, 

₁

>

(19)

System S2 przechowuje informacje interesujące Urząd skarbowy tj. dane osobowe oraz informacje o dochodach danej osoby.

S2 = < X, A2, V2, 2 >

gdzie:

A2 — zbiór atrybutów {a1,a14, a15, a17} gdzie:

a1 — Nr_pesel,

a14 — Miejsce_zatrudnienia, a15 — Wykształcenie, a₁₇ — Dochody V₂ — zbiór wartości atrybutów,

2 — funkcja informacji,

S

S1 S2 S3 S4

S2= < X, A

₂

, V

₂

, 

₂

>

(20)

System S3 przechowuje informacje interesujące Służbę zdrowia tj. dane osobowe oraz informacje o stanie zdrowia danej osoby.

S3 = < X, A3, V3, 3 >

gdzie:

X — zbiór obiektów { x1, x2, ..., xn} A3 — zbiór atrybutów {a1,a14, a18,} gdzie:

a1 — Nr_pesel,

a14 — Miejsce_zatrudnienia, a18 — Stan_zdrowia.

S

S1 S2 S3 S4

S3= < X, A

₃

, V

₃

, 

₃

>

(21)

System S4 przechowuje informacje interesujące Urząd statystyczny tj. dane osobowe.

S4 = < X, A4, V4, 4 >

gdzie:

X — zbiór obiektów { x1, x2, ..., xn} A4 — zbiór atrybutów {a1,a13, a15,} gdzie:

a1 — Nr_pesel,

a₁₃ — Stosunek_do_służby_wojskowej, a₁₅ — Wykształcenie,

Odpowiedzi na pytania otrzymujemy odpowiednio jako odpowiedź z jednego podsystemu lub jako część wspólną odpowiedzi z kilku podsystemów.

S

S1 S2 S3 S4 S4= < X, A

₄

, V

₄

, 

₄

>

(22)

Wnioski

 Metody te stosowane tylko w określonych przypadkach pozwalają na usprawnienie pracy tych systemów oraz na zmniejszenie czasu wyszukiwania odpowiedzi na zadane pytanie do systemu.

 Parametry określające zajętość pamięci oraz redundancję w systemie zależą od przyjętej metody wyszukiwania na najniższym poziome zdekomponowanego systemu.

(23)

Łączenie podsystemów w jeden system

S

S1 S2

…

(24)

Warunki łączenia systemów informacyjnych:

(25)

(26)

Zakładamy, że istnieje system funkcyjny S =<X,A,V,q> i system S 0 =<X 0 ,A 0 ,V 0 ,q 0 >.

Deﬁnicja podsystemu mówi, że S ₀ jest podsystemem systemu S, gdy ten zbiór X ₀ ⊆ X,

A ₀ ⊆ A, oraz q 0 = q _{|(X0× A0)} , S ₀ = S| _{(X0× A0).}

(27)

Jeżeli dany system S ₀ jest podsystemem systemu S oraz zbiory obiektów są identyczne X = X 0 to powiemy, że S 0 jest podsystemem systemu S z ograniczonymi atrybutami S 0

⊆ S, S ₀ = S|A ₀ .

(28)

Jeżeli dany system S ₀ jest podsystemem systemu S oraz zbiory atrybutów są

identyczne A = A 0 to powiemy, że S 0 jest podsystemem systemu S z ograniczonymi

obiektami S ₀ ⊆ S S ₀ = S| _X0

(29)

MSA dla systemu po dekompozycji obiektowej

S

0

⊆ S S

0

= S|

X0,

A = A

0,

Lsa = m

1

* m

2

* … * m

n

gdzie m

i

= card V

ai

Lsa

_S

**= 2 * 3 * 2 * 3 = 36 Lsa**

_S0

**= 2 * 3 * 2 * 3 = 36**

Uwaga!

Najczęściej gdy już dokonuje się dekompozycji obiektowej to stosuje się z góry modyfikację dodatkową z pamiętaniem tylko niepustych składowych atomowych, więc siłą rzeczy finalnie tych składowych atomowych powstałych będzie