• Nie Znaleziono Wyników

Dorota Wilk-Kołodziejczyk, Renata Uryga, Agnieszka Smolarek-Grzyb

Wprowadzenie

Ze względu na złożoność problemów przetwarzania informacji zmusze-ni jesteśmy często do posługiwazmusze-nia się dużymi zbiorami danych. Niektóre operacje na takich zbiorach oraz przechowywanie danych możliwe są do

realizacji dzięki technologii relacyjnych baz danych1. Systemy zarządzania

relacyjnymi bazami danych są obecnie bardzo ważnymi narzędziami pracy

i nieodzownymi elementami nowoczesnych aplikacji2. Ułatwiają zarządzanie

i przechowywanie dużej ilości danych. W relacyjnych bazach danych powią-zania między tablicami są realizowane poprzez atrybuty wspólne. Oznacza to, że atrybut o danej nazwie może występować w kilku relacjach. Jednym z najpopularniejszych systemów zarządzania relacyjną bazą danych używa-ną głównie w aplikacjach internetowych jest MySQL, który może obsługiwać mające miliony rekordów duże bazy danych. Ponadto cechuje go szybkość,

łatwość użycia, bezpieczeństwo, duże zastosowanie3.

W dalszym ciągu jednak logiczne przetwarzanie danych stanowi bardziej przedmiot badań naukowych niż praktyki inżynierskiej, pomimo że badania modelu logicznego baz danych zostały podjęte stosunkowo wcześnie. Inte-ligentna analiza danych oraz generacja reguł z przykładów stanowią jedne z najbardziej zaawansowanych kierunków badań.

W rozdziale tym omówiono metody i narzędzia analizy oraz wspomaga-nia projektowawspomaga-nia baz danych i baz wiedzy. Do tego wykorzystano wspólny model reprezentacji danych i wiedzy. Oparty jest on na tablicowym

schema-1 P. Beynon-Davies, Database Systems, MacMillan Press Ltd. 1996, wyd. polskie: Systemy baz

danych, Wydawnictwa Naukowo-Techniczne, Warszawa 1998.

2 Bach M., Kozielski S., Translacja zapytań do baz danych sformułowanych w języku

natu-ralnym na zapytania w języku SQL, Konferencja Naukowa, Technologie przetwarzania

danych, Wydawnictwo Politechniki Poznańskiej, Poznań 2005.

3 W. Traczyk, Jak uczyć się z różnorodnych przykładów, Inżynieria Wiedzy i Systemy

Eksper-towe, red. Z. Bubnicki i A. Grzech, Oficyna Wydawnicza Politechniki Wrocławskiej, t. 1,

cie relacyjnych baz danych. Bazy te analizowane są pod kątem weryfi kacji jakościowych własności teoretycznych, do których należą: zupełność, nad-miarowość, spójność, efektywność reprezentacji, możliwość agregacji, po-stać rozwinięcia specyfi kacji. Celem tej analizy jest dążenie do zapewnienia określonego poziomu jakości baz danych i baz wiedzy.

4.1. Systemy tablicowe

W rozdziale rozważany jest taki model bazowy, który jest wspólny dla reprezentacji danych i wiedzy. W rozważaniach wykorzystano pojedynczą

tablicę. Niech A={A1, A2,………An} będzie określonym zbiorem własności

o dziedzinach odpowiednio D1,D2,……Dn, gdzie Di jest dziedziną atrybutu

A1 dla i=1,2,….,n. Rozważane są dwa rodzaje dziedzin: nieuporządkowane

zbiory nazw (nominalne) oraz uporządkowane liniowo (dyskretne). Rozwa-ża się tylko dziedziny skończone. Przy opisie własności obiektów podaje się wartości wszystkich atrybutów lub warunki, które własności te muszą

speł-niać. Podstawowy zapis faktu mówiącego, że wartość atrybutu A1 wynosi t,

ma postać A1=t, gdzie t  Di. Zapis ten dopuszcza istotne rozszerzenie w

sto-sunku do klasycznego relacyjnego modelu danych – wartości atrybutów nie muszą być atomiczne, a więc reprezentacja warunków, jakie muszą spełniać poszczególne atrybuty, dopuszcza specyfi kację intensjonalną, a wartości te mogą należeć do zbioru lub przedziału.

Ogólny schemat reprezentacji informacji jest wspólny dla danych i wie-dzy i ma postać tablicy, której kolumny etykietowane są wybranymi atrybu-tami, zaś wiersze tablicy odpowiadają opisom kolejnych obiektów lub reguł wnioskowania. Postać takiej tablicy, nazywanej również (atrybutową) tablicą decyzyjną jest w ogólnym przypadku następująca:

A1 A2 … Aj … An H

t1,1 t1,2  t1,j … t1,n h1

t2,1 t2,2 … t2,j … t2,n h2

: : : : :

ti,1 ti,2 … ti,j … ti,n h2

: : : : :

tm,1 tm,2 … tm,j … tm,n hm

Rysunek 3. Schemat tablicowej reprezentacji danych i wiedzy Źródło: opracowanie własne.

W tablicy opisanych jest m reguł. Zakłada się, że są to obiekty jednorodne, tzn. każdy z nich opisywany jest poprzez podanie wartości tego samego zestawu atrybutów. W tablicy mogą być reprezentowane zarówno dane (wartości atrybu-tów są atomiczne), jak i wzorce danych (wartości atrybuatrybu-tów są wtedy podzbiora-mi dziedzin), oraz reguły wnioskowania; w przypadku reguł wybrany atrybut H (lub kilka atrybutów) ma charakter konkluzji, a poprzedzające atrybuty defi niu-ją prewarunki reguły. W przypadku danych i wzorców danych kolumna etykie-towana atrybutem H nie występuje, natomiast informacja zawarta w rekordach tabeli jest deklarowana jako prawdziwa (konkluzje reguł bez prewarunków). Najistotniejsze rozszerzenia w stosunku do relacyjnych baz danych obejmują dopuszczenie nieatomicznych wartości danych (takich jak zbiory czy przedzia-ły) oraz interpretacji rekordów jako reguł wnioskowania.

4.2. Model systemu tablicowego – model logiczny

Jakościowe własności systemów tablicowych defi niowane są na poziomie logicznym. Rozważmy pojedynczą tablicę według schematu przedstawione-go na rysunku 1. Jeżeli tablica ta reprezentuje informację będącą uogólnie-niem bazy danych, to semantyka każdego rekordu defi niowana jest formułą logiczną postaci:

1=[A1 = ti,1] [ A2 = ti,2] … [An = ti,n] (5)

Zapis postaci Aj=ti,j oznacza, że formuła i jest prawdziwa dla wszystkich

wartości atomicznych należących do zbioru Ti,j. Tak więc, jeżeli Ti,j = {d1,d2,

…,dk}, Aj = Ti,j oznacza, że Ai=d1  Ai = d2  …  Ai =dk. Taki sposób zapisu

stanowi skrót ekstensjonalnej reprezentacji, w której pojedynczemu wier-szowi tablicy odpowiadałoby k wierszy, takich, że w każdym z nich wartość

atrybutu Ai byłaby równa odpowiedniej wartości atomicznej. Tablicy

nato-miast odpowiada formuła

 = 1  2 …  m (6)

Jeżeli w tablicy reprezentowane są reguły, to semantyka każdego wiersza defi niowana jest formułą postaci

4.4. Praktyczne zastosowanie systemów tablicowych

W pracy wykorzystano model tablic atrybutowych (decyzyjnych), wspól-ny dla baz dawspól-nych i baz wiedzy. Na rysunku pokazano postać tablicy

atrybu-towej, której kolumny etykietowane są wybranymi atrybutami (Ai), a wiersze

odpowiadają opisom kolejnych obiektów (oj) (w tablicach decyzyjnych są to

reguły wnioskowania).

Rysunek 4. Tablica atrybutowa wad odlewniczych Źródło: opracowanie własne.

Rysunek 5. Fragment tabeli zawierającej specyfi kacje zbiorów wartości dla poszcze-gólnych atrybutów wad

Źródło: opracowanie własne.

W tej metodzie identyfi kacja wady jest dokonywana na podstawie warto-ści jej atrybutów. Analizując opisy wad zamieszczone w dokumentach źró-dłowych, sporządzono listę atrybutów wad, które wystąpiły w którymkol-wiek z branych pod uwagę systemów, zapisano je w zbiorze A.

A={rodzaj uszkodzenia, wielkość, liczebność, widoczność, kształt, loka-lizacja, czas powstania}

Dla każdego z tych atrybutów zdefi niowano zbiory wartości, fragment tablicy ilustruje rysunek 5. Oczywiście nie są to zbiory równoliczne, np. wy-specyfi kowano 42 wartości dla atrybutu „rodzaj uszkodzenia”, a tylko trzy dla atrybutu „wielkość”.

Istotna różnica pomiędzy klasycznymi tablicami decyzyjnymi a st-worzonymi tu tablicami atrybutowymi polega na tym, iż jak pokazano na rysunku 4, w naszej tablicy występują miejsca puste. Rysunek ten wskazuje także na logiczny model defi niowania nazwy za pomocą atrybutów jako ko-niunkcja określonych wartości atrybutów.

4.4. Weryfi kacja własności jakościowych