Izabela Superson Adam Niewiadomski
Politechnika Łódzka
POZYSKIWANIE WIEDZY Z RELACYJNYCH BAZ DANYCH: WIELOPODMIOTOWE
PODSUMOWANIA LINGWISTYCZNE
Wprowadzenie
Obecnie trudno wyobrazić sobie jakąkolwiek instytucję, przedsiębiorstwo lub placówkę społeczną, która byłaby w stanie sprawnie funkcjonować bez ob- szernej bazy skomputeryzowanych danych. Niesie to za sobą konieczność analizy oraz przetwarzania dużych zbiorów danych. Ponadto oczekujemy szybkich wyników, przedstawionych w maksymalnie skompresowany, zwięzły sposób, zro- zumiały dla szerokiego grona odbiorców. Z pomocą przychodzą podsumowania lingwistyczne relacyjnych baz danych, czyli zdania w języku naturalnym opisujące znaczenie wybranych danych, np. Około połowa [badanych] dzieci to chłopcy.
Większość dziewczynek w wieku wczesnoszkolnym, w odniesieniu do chłopców, jest wysokiego wzrostu. Zastosowanie podsumowań lingwistycznych może znacząco usprawnić proces zarządzania wiedzą. Za pomocą odpowiednich algorytmów można pozyskać wiedzę na temat zbioru danych w postaci intuicyjnego komu- nikatu w języku naturalnym. Dzięki zastosowaniu nieprecyzyjnych wyrażeń liczbowych, takich jak większość, wysoki wzrost, wiek wczesnoszkolny, otrzymuje się komunikat bardziej przyjazny i zrozumiały, bez konieczności posiadania dodat- kowej wiedzy na temat analizowanych danych, ponieważ jest wyrażony językiem naturalnym, a nie liczbami, przez co staje się on komunikatywny i czytelny dla statystycznego odbiorcy. Jeżeli w powyższym przykładzie użytoby precyzyj- nych liczb, np. 5679 dziewczynek w wieku od 7 do 12 lat, w odniesieniu do chłopców, jest wzrostu od 153 do 165 cm, komunikat mógłby stać się niejasny dla osoby nieposiadającej wiedzy na temat analizowanych danych. Jak łatwo zauważyć, taki komunikat nie daje żadnej praktycznej wiedzy na temat danych użytkownikowi, który nie wie ile jest dziewczynek w analizowanej bazie (nie można określić jaką część zbioru dziewczynek stanowi liczba 5679), jaką część
stanowią dzieci w wieku od 7 do 12 lat oraz czy przedział 153-165 cm traktować jako średni wzrost, czy może już wysoki. Niewymagane są żadne operacje wstępne, takie jak np. sprawdzenie podstawowej wiedzy na temat danych, a zatem z meto- dy tej mogą korzystać wszyscy użytkownicy, również nieposiadający wiedzy z zakresu informatyki, a jedynie umiejętność obsługi komputera. Zastosowanie tej metody skutkuje wzrostem jakości otrzymywanej wiedzy, ponieważ eliminuje błędy ludzkie oraz wynikające z zastosowania bardzo skomplikowanych i złożo- nych algorytmów, przy jednoczesnym skróceniu czasu, jaki byłby potrzebny na analizę obszernej bazy danych innymi metodami. Jest to krok w kierunku interfej- sów naturalnych, przyjaznych użytkownikowi, gdyż opartych na języku naturalnym.
Celem pracy jest przedstawienie możliwości analizy dużych zbiorów da- nych za pomocą logiki rozmytej oraz zaprezentowanie wyników tej analizy za pomocą języka naturalnego.
1. Podsumowania lingwistyczne relacyjnych baz danych:
przegląd literatury
Ponad trzydzieści lat temu R.R. Yager zaproponował koncepcję podsumo- wań lingwistycznych (relacyjnych) baz danych1, np. ponad połowa koszykarzy jest bardzo wysoka. Była to odpowiedź na potrzebę szybkiego interpretowania informacji i pozyskiwania wiedzy z dużych zbiorów danych. Głównym atutem tej metody jest to, że pozyskana wiedza jest zaprezentowana w formie przyjaz- nej dla statystycznego użytkownika systemów komputerowych. Nie odnosi się ona do żadnej ze statystycznych metod agregacji danych (średnia, wariancja, odchylenie standardowe itp.), lecz – zamiast tego – opiera się na rozmytych mode- lach wyrażeń w języku naturalnym. Nawet jeżeli takie wyrażenia są mniej precyzyj- ne niż liczby, np. ponad połowa obiektów zamiast 55,6% obiektów lub bardzo wysoki chłopiec zamiast chłopiec o wzroście 195 cm, to są one popularnie stosowane i dostarczają prostą w odbiorze wiedzę na temat podsumowywanych danych.
Koncepcja lingwistycznych podsumowań baz danych opiera się na rachunku Zadeha dotyczącym wyrażeń kwantyfikowanych lingwistycznie. Istnieją dwie, pod- stawowe formy podsumowań lingwistycznych (opierające się na dwóch formach wyrażeń kwantyfikowanych lingwistycznie), zaprezentowano je m.in. w pracach2:
1 R.R. Yager, A New Approach to the Summarization of Data, „ Information Science” 1982, 28, s. 69-86.
2 J. Kacprzyk, R.R. Yager, Linguistic Summaries of Data Using Fuzzy Logic, „International Journal of General Systems” 2001, 30, s. 133-154; J. Kacprzyk, R.R. Yager, S. Zadrożny, A Fuzzy Logic Based Approach to Linguistic Summaries of Databases, „International Journal of Applied Mathematics and Computer Science” 2000, 10, s. 813-834; J. Kacprzyk, R.R. Yager,
Q P jest/są S [T] (1) Np. Wielu chłopców jest wysokich [0.83], i
Q P będących W jest/są S [T] (2) Np. Wielu chłopców będących nastolatkami, jest wysokich [0.63].
W obu formach (1) i (2) Q jest kwantyfikatorem lingwistycznym, np. Znacznie więcej niż 900, reprezentowanym przez operator agregacji, np. kwantyfikator roz- myty (zbiór rozmyty o odpowiednich właściwościach) lub operator OWA3, P jest podmiotem podsumowania, np. mężczyźni, samochody lub jakiekolwiek inne obiekty opisane w podsumowywanej bazie danych, S jest sumaryzatorem – wyraże- niem lingwistycznym dotyczącym właściwości obiektów, reprezentowanym przez zbiór rozmyty. Symbol W, pojawiający się jedynie w formie (2), jest kwalifikato- rem, reprezentowanym przez zbiór rozmyty, który reprezentuje dodatkowe wła- ściwości obiektów biorących udział w podsumowaniu. T [0, 1] jest stopnień prawdziwości i wyznacza prawdziwość podsumowania (jak bardzo jest bliskie prawdzie). Wartości T są wyznaczane na podstawie rachunku Zadeha dotyczą- cego wyrażeń kwantyfikowanych lingwistycznie oraz innych metod opisanych w pracach4. Niniejsza praca jest za krótka żeby móc opisać wszystkie z istnieją- cych metod oraz aplikacji dotyczących podsumowań lingwistycznych relacyj- nych baz danych, przykłady takich metod lub aplikacji można znaleźć np. w pra- cach5. Ponadto, nie jesteśmy w stanie zaprezentować wszystkich koncepcji dotyczących podsumowań danych opartych na zbiorach rozmytych, ale przyjmu- jących inne założenia niż Yager, np.6.
S. Zadrożny, Fuzzy Linguistic Summaries of Databases for an Efficient Business Data Analysis and Decision Support [w:] Knowledge Discovery for Business Information Systems, eds. W. Abramo- wicz, J. Zurada, Kluwer Academic Publisher, Boston 2001, s. 129-152; J. Kacprzyk, S. Zadrożny, Flexible Querying Using Fuzzy Logic: An Implementation for Microsoft Access [w:] Flexible Query Answering Systems, eds. T. Andreasen, H. Christiansen, H.L. Larsen, Kluwer, Boston 1997, s. 247-275.
3 R.R. Yager, On Ordered Weighted Averaging Operators in Multicriteria Decision Making,
„ IEEE Transactions on Systems, Man, and Cybernetics” 1988, 18, s. 183-190.
4 J. Kacprzyk , R.R. Yager, Linguistic Summaries of Data Using Fuzzy Logic, op. cit.; A. Niewiadom- ski, News Generating via Fuzzy Summarization of Databases, „Lecture Notes in Computer Science” 2006, 3831, s. 419-429.
5 Flexible Query Answering System, eds. T. Andreasen, H. Christiansen, H.L. Larsen, Kluwer, Boston 1997, s. 247-275; A. Niewiadomski, News Generating…, op. cit.
6 P. Bosc, O. Pivert, Fuzzy Querying in Conventional Databases [w:] Fuzzy Logic for the Mana- gement of Uncertainty, eds. L.A. Zadeh, J. Kacprzyk, Wiley, New York 1992, s. 645-671;
A. Niewiadomski, Six New Informativeness Indices of Data Linguistic Summaries [w:] Advan- ces in Intelligent Web Mastering, eds. P.S. Szczepaniak, K. Węgrzyn-Wolska, Springer-Verlag, 2007, s. 254-259; G. Raschia, N. Mouaddib, SAINTETIQ: A Fuzzy Set-Based Approach to Da- tabase Summarization, „Fuzzy Sets and Systems” 2002, 129, s.137-162; D. Rasmussen, R.R. Yager, A fuzzy SQL Summary Language for Data Discovery [w:] Fuzzy Information Engineering:
A Guided Tour of Application’s, eds. D. Dubois, H. Prade, R.R. Yager, Wiley, New York 1997, s. 253-264.
Najw podmioto szość chło to, że po i P2, natom rów, kwan istotne roz dotąd – um
Dalsz przedstaw cyjnych b się do wię mowywan są repreze w bazie D z uwagi n perymentu zentować podsumow kładowy niezaawan sumowan
2. Wielo wielo 2.1. Relac
Ninie relacyjnyc Wprowad że baza z będących prezentuje zbiór ozna da się z kr m Є N jest butów V1,
ważniejszym we podsumo opców w odn odsumowania miast modele ntyfikatorów zszerzenie istn możliwiały po za część pr wiony pomys baz danych.
ęcej niż jedn nej bazie dan entowane pr D lub zbiory na pewien atr u z użyciem oraz wyzn wań lingwis wynik dział nsowani tech
ia generowan
opodmioto opodmiotow
cyjne bazy d
ejszy podpun ch baz danyc dza oznaczen zawierająca dzbiorami kr e dokładnie aczono jako Y
rotek di, i = t liczbą krote ,…, Vn posiad
elementem z owania lingw niesieniu do
a będą doty e lingwistycz
itp.) są utw niejących kon odsumowywa racy jest zor sł wielopodm Skonstruow nego podmio nych D, np. P
rzez zbiory y wyznaczon
rybut, np. ko m stworzonej naczyć użyte tycznych re ania aplikacj hnicznie uży ne przez pro
owość w re we podsum danych oraz
nkt systematy ch, opartych nia, jakie będ
dane, które rotek (zwykl
jeden obiek Y = {y1, …, y
1, 2, …, m, k ek w tabeli D
dające odpow
zaprezentow wistyczne re
dziewczynek yczyć więcej znych wyraże worzone za p ncepcji podsu anie danych n rganizowana miotowych p wano i wyzn otu P repreze
P1 i P2 lub P krotek zgro ne za pomoc obiety i mężc
w tym celu eczność oraz
lacyjnych b ji dla użytej ytkownicy m
gram.
elacyjnych mowania l wielopodm
yzuje oznaczna podejściu dą stosowane mają zostać le nazywany kt (np. dzie ym}. Tabela D które stanowi D’. Każda krot wiednio dzied
wanym w nin elacyjnych b k jest wysokie ej niż jedneg eń nieprecyzy pomocą zbior umowywania na podstawie a następując podsumowań naczono pods entowanego
1 w odniesien madzone w cą selekcji, f
czyźni. Sekc u aplikacji, c z wydajność az danych.
j bazy danyc mogą korzyst
bazach da ingwistycz iotowość
zenia i przyb u klasycznym e w dalszej cpodsumowa ych rekordam
cko, osobę, D’ istniejąca w
ią wiersze tab tka di składa dziny X1,…, X
niejszej pracy baz danych, ego wzrostu.
go podmiotu yjnych (dla su rów rozmyty
baz danych, tylko jedego co: w Sekcj lingwistycz sumowania
przez krotki niu do P2. Po
oddzielnych filtrowania k cja 3 zawiera co pomoże n ć wielopodm
Zaprezentuje ch oraz w ja tać i wpływa
anych ora zne
bliża pojęcia m, czyli Cod części pracy.
ane składa s mi), a jedna samochód w bazie danyc
beli: D’ = {d się z n N wa Xn. Wartości
y są wielo- np. Więk- . Oznacza
P1, np. P1 umaryzato- ych. Jest to
które – jak podmiotu.
i 2 został znych rela-
odnoszące i w podsu-
odmioty te h tabelach krotek itp., a opis eks- nam zapre- miotowych
emy przy- aki sposób ać na pod-
z
dotyczące dda (1970).
Założono, się z tabel, krotka re- itp.). Taki ch skła- d1, …, dm}T, artości atry-
i atrybutów
wyrażają jako kolu przyjąć da osoby w c Vj(yi) Xj, i o elementa
Przyk to część w cie opisan dwóch zb padku atr podział zb
Przykła ID
1. Dzie 2. Chło 3. Chło 4. Dzie 5. Dzie
Podzbió ID
2. Chło 3. Chło
Podzbió ID
1. Dzie 4. Dzie 5. Dzie
właściwości umny tabeli.
any atrybut, centymetrach i Є {1, 2, …, ach z Y = {y1
kładowa baz większej bazy
nym w pun biorów podm rybutem służ bioru danych
adowa baza da P ewczynka opiec opiec ewczynka ewczynka
ór bazy danyc P opiec
opiec
ór bazy danyc P ewczynka ewczynka ewczynka
i obiektu, np Dziedziny np. zbiór X1 h”. Wartość , m}, j Є {1, 2 1, …, ym} po
za danych w y danych, bi nkcie 2. Tab miotów dla po
żącym do ek h na dwa pod
anych D zawie Płeć
ch D zaprezen repreze Płeć
ch D zaprezen reprezen Płeć
. wzrost, wy atrybutów s = [50, 200]
atrybutu Vj 2, …, n}. Baz siada następu
w formie (3) iorąca udział bela prezentu
odsumowań kstrakcji jest dzbiory prze
erająca dane d
ntowanej w tab entujących ch
ntowanej w tab ntujących dzie
płatę, koszt i są zbiorami ] może być d
dla obiektu za danych D ującą postać:
jest przedst ł w podsumo uje również
wielopodmio atrybut „Pł dstawione w
dotyczące dzie Wiek
7 8 13
8 18
b. 1, utworzon hłopców
Wiek 8 13
b. 1, utworzon ewczynki
Wiek 7 8 18
itp. oraz są t wartości, ja dziedziną V1
yi jest oznac zawierająca
tawiona w t owaniu w ek możliwość otowych. W łeć”, który u w tab. 2 i 3.
eci w wieku sz Wz 13 12 15 14 16
ny przez wybó Wz 12 15
ny przez wybó Wz 13 14 16
traktowane akie może
= „wzrost czona jako informacje
(3)
tab. 1. Jest sperymen-
ekstrakcji tym przy- umożliwia
Tabela 1 zkolnym zrost
30 20 50 40 60
Tabela 2 ór krotek
zrost 20 50
Tabela 3 ór krotek
zrost 30 40 60
Należ ciu techni zarządzan temie mog normalny optymaliz filtrowani wybraneg wi podzia Szcze oddzielnyc D. Podzbi podsumow
2.2. Nowe lingw
Pierwgdzie Q j nia i S1 j prawdziw
gdzie:
Analogicz
jest obiek reprezentu
ży podkreśli icznym jako nia bazą dan głoby okazać ych tabel w re zacji baz da ia wykonanej go atrybutu, ał obiektów n
ególnie istotn ch podzbioró iory reprezent waniach lingw
e formy pod wistyczne
wsza z zapropjest kwantyf jest sumary wości podsum
znie:
ktem repreze ujących odpo
ć, że tab. 2 i o rozdzielony nych. Utworz ć się nieefekt elacyjnej baz anych. Przed ej na tabeli D
w tym przyp na „chłopców ne z punktu w w obiektów, tują różne po wistycznych z
sumowań: w
ponowanych Q P1 w od fikatorem roz yzatorem rep mowania w fo
entującym po owiednio pod
i 3 nie reprez ych zbiorów zenie oraz pr tywne, zwłas zie danych, s dstawione tab D’ (reprezen
padku będzi w” i „dziewcz widzenia ninie
przechowyw odmioty P1 or zaprezentowan
wielopodmio
h form podsu dniesieniu do zmytym, P1 prezentowany
ormie (4) jes
. Notacja odmiot P1. dmioty P1 or
zentują rzecz rekordów) rzechowywa szcza w odni stanowiących bele są jedyn ntowanej prze ie to atrybut
zynki”.
ejszej pracy je wanych wcześ
raz P2, użyte nych w kolejn
otowe podsu
umowań ma p o P2 jest S1
i P2 są pod ym przez zb st obliczany z
o oraz raz P2:
zywistych tab zawartych w anie tych tab iesieniu do tz h popularne nie rezultatem
ez tab. 1) pr
„Płeć”, któr est wyznacze śniej jako jed w wielopodm nym podpunk
umowania
postać:dmiotami po biór rozmyty za pomocą w
znacza, że k są liczba
bel (w uję- w systemie
bel w sys- zw. postaci
kryterium m operacji rzy użyciu ry umożli- enie dwóch, den w bazie miotowych kcie.
(4) odsumowa-
y. Stopień wzoru (5):
(6)
krotka ami krotek
(5)
gdzie ti:
Przykład:
Vj = Płeć
gdzie Q = Drug stępującą
gdzie Q j nia, S2 jes S1 jest su pomocą w
ć. Przykład p Większoś
Większość, P
ga forma w postać:
Q P est kwantyfi st kwalifikato umaryzatorem wzoru (12):
odsumowani ść chłopców
wysoki P1 = chłopcy,
ielopodmioto
P1 w odniesien ikatorem rela orem odnosz m. Stopień p
ia w formie ( w odniesien ego wzrostu , P2 = dziewc owych pods
niu do P2 będ atywnym, P1 zącym się do prawdziwośc
(4):
iu do dziewc [0.456]
czynki, S1 = w sumowań lin
dących S2 jes
1 i P2 są pod obu podmio ci podsumow
czynek jest
wysoki wzrost
ngwistyczny
st S1, dmiotami po otów P1 i P2, wania jest ob
(7)
(8)
(9)
(10)
t.
ych ma na-
(11) odsumowa-
natomiast bliczany za
(12)
gdzie:
Wzory o analogicz
gdzie Q = wzr
Pods czących w podmioty przypadku tować chł kator S2. Trzecia z
Stopień pr
gdzie S2 j
raz oznacze ne jak dla fo Około dwóch
będących n
= około dwó rost, S2 = nas
sumowania w wybranych c
muszą spełn u krotki, któ łopców i dzi zaproponow
Q
rawdziwości
jest kwalifik enia
ormy (4). Prz h trzecich ch nastolatkami óch trzecich,
stoletni wiek.
w formie (11 cech S1 podm
niać (cechy, re będą bran iewczynki w wanych form
będących S
i formy (15)
katorem odn
, zykład podsu hłopców w od
i, jest wysoki P1 = chłopc .
1) umożliwia miotów, w z
które musz ne pod uwagę w wieku nasto ma następuj
S2 w odniesi
jest podany
noszącym się
umowania w dniesieniu do iego wzrostu cy, P2 = dzi
ają otrzymyw ależności od ą posiadać o ę podczas an oletnim, o cz ącą postać:
eniu do P2 je
wzorem:
ę jedynie do
, formie (11):
o dziewczyne u [0.39]
ewczynki, S1
wanie inform d warunków, oba podmioty nalizy muszą
zym decyduj
est S1
o podmiotu ,
(13)
są
ek
(14)
1 = wysoki
macji doty- , jakie oba y). W tym ą reprezen-
je kwalifi-
(15)
(16)
P1.
Przykład t
w gdzie Q = S2 =
Pods czących w podmiotu ją podmio przez kwa
Czwa miotowyc
Jak możn kwantyfik
gdzie P1 i zentujący
W gdzie P1 = Podsumow dwóch po mytych, n podsumow
takiego pods Około po w odniesieni
= około poło
= nastoletni
sumowania w wybranych c u P1. Oznacza
oty P1 i P2, alifikator.
artą formą s ch jest:
na zauważy katora. Stopie
i P2 są podm ych odpowied
Więcej chłopc
= chłopcy, P
wania w fo odmiotów be
np. kwantyfi wań, których
sumowania:
ołowa chłopc iu do dziewcz owa, P1 = c
wiek.
w formie (1 cech podmiot
a to, że krotk ale jedynie spośród zap
Więc yć, forma (1
eń prawdziw
miotami pods dnio podmiot
ców niż dziew P2 = dziewczy
ormie (18) ez konieczno
ikatorów. Ta h treść jest ba
ców będących zynek, jest wy chłopcy, P2 =
5) umożliwi tów w zależ ki biorące ud e podmiot P proponowany
cej P1 niż P2 j 18) nie wym wości jest pod
sumowania, ty P1 i P2, Przykład pod
wczynek jest ynki, S1 = wy
umożliwiaj ości użycia d akie podejści
ardzo intuicy
h nastolatkam wysokiego wz
=dziewczynk
iają generow ności od pos dział w pods P1 musi posi
ych form po
jest S1 maga zastos dany za pom
i
dsumowania
wysokiego w ysoki wzrost.
ą użytkown dodatkowych ie umożliwia yjna.
mi
rostu [0.256 ki, S1 = wyso
wanie inform siadanych w
umowaniu r adać cechy odsumowań
sowania dod mocą wzoru (1
są liczbą kro
a w formie (1
wzrostu [0.75
nikowi poró h miar lub m a szybkie ge
(17) ],
oki wzrost,
macji doty- właściwości
reprezentu- narzucone wielopod-
(18) datkowego 19):
,
(19) otek repre-
19):
56] (20)
ównywanie modeli roz- enerowanie
2.3. Różnice pomiędzy klasycznymi formami podsumowań a formami wielopodmiotowymi
Należy zauważyć, że żadna z klasycznych form podsumowań nie pozwala na porównywanie dwóch, różnych podmiotów, pod względem posiadanych przez nie cech, np. chłopcy i dziewczynki i ich wzrost, wiek itp. Z drugiej stro- ny, takie relacje mogą być przedstawione w łatwy i czytelny sposób za pomocą podsumowań wielopodmiotowych. Dla klasycznych podsumowań jedyną moż- liwością jest zastosowanie jako kwalifikator W wyodrębnionego podzbioru obiektów, np. chłopcy lub dziewczynki (wzór (2) ), np. Około połowa CHŁOPCÓW jest wysokiego wzrostu, gdzie W = CHŁOPCY.
3. Lingwistyczne opisywanie oraz podsumowywanie baz danych za pomocą podsumowań wielopodmiotowych: przykład zastosowania
3.1. Cele oraz metody aplikacji
Aplikacja utworzona w celu testowania nowych form podsumowań, została napisana z użyciem języka Java w wersji 1.7. Baza danych użyta w ekspery- mencie zawiera dane dotyczące dzieci w wieku od 7 do 18 roku życia. Dane zawierają m.in. wzrost, wagę, datę urodzenia, warunki w jakich żyją, takie jak liczba pomieszczeń w mieszkaniu, liczba osób w rodzinie, sytuacja finansowa itp. Baza zawiera dane dotyczące 13 956 dzieci, w tym 6 991 chłopców oraz 6 965 dziewczynek.
Podsumowania generowane w ramach eksperymentu pokazują zależność wzrostu od wieku i płci dziecka. Podmioty biorące udział w podsumowaniach to chłopcy i dziewczynki. Proces logicznego podziału danych na dwa podzbiory jest widoczny w tab. 1-3. Kwantyfikatory relatywne zastosowane w podsumo- waniach to: większość, około dwóch trzecich, około połowy. Propozycja funkcji przynależności zastosowanych dla kwantyfikatorów większość oraz około dwóch trzecich zaprezentowano na rys. 1-2.
Wygenerowane podsumowania opierają się na kwalifikatorach i sumaryza- torach reprezentowanych przez zbiory rozmyte. Przykładowe sumaryzatory użyte w podsumowaniach:
− wysoki (wzrost)
− niski (wzrost)
− wczesnoszkolny (wiek)
− nastoletni (wiek)
Etykieta KI_WZRO
gdzie:
Etykieta n
gdzie:
Analogicz
wysoki (wzr OST:
niski (wzrost)
znie, etykieta
rost) jest re
jest reprezen
a nastoletni (
eprezentowa
ntowana przez
(wiek) jest re
ana przez zb
z zbiór rozmy
eprezentowan
biór rozmyt
yty NISKI WZ
na przez zbió ,
ty WYSO-
(22)
ZROST:
(24)
ór:
, (21)
(23)
, (25)
Rys. 1. Funk
Rys. 2. Funk
gdzie:
kcja przynależn
kcja przynależn
ności kwantyfik
ności kwantyfik
katora WIĘKSZO
katora OKOŁO D OŚĆ
DWÓCH TRZEECI
(26)
Etykieta w
gdzie:
Wykresy STOLETN
Rys. 3. Funk
wczesnoszkol
funkcji prz NI WIEK są w
kcja przynależn
lny (wiek) je
zynależności widoczne na
ności etykiety W
st reprezento
i dla zbioró rys. 3-4.
WYSOKI WZRO ,
owana przez
ów WYSOK
OST
zbiór:
KI WZROST
(28)
T oraz NA- (27)
Rys. 4. Funkcja przynależności etykiety NASTOLETNI WIEK
3.2. Otrzymane rezultaty oraz ich interpretacja
Wynik działania aplikacji został zaprezentowany w tab. 4. Dla każdego podsumowania obliczono i podano jego stopień prawdziwości (kolumna T) oraz zastosowaną formę podsumowania (kolumna „Forma podsumowania”), odno- szącą się do zaprezentowanych wzorów (4), (11), (15), (18) dotyczących pierw- szej, drugiej, trzeciej oraz czwartej formy podsumowań wielopodmiotowych oraz (1) i (2) odnoszących się do klasycznych form podsumowań.
Zgodnie z opinią eksperta, wyniki są intuicyjnie poprawne. Pierwszych 8 podsumowań zostało zbudowanych za pomocą formy pierwszej dla nowych podsumowań wielopodmiotowych (wzór (4)). Analizując ich stopnie prawdzi- wości, można dojść do wniosku, że nie istnieją znaczne dysproporcje pomiędzy wielkością zbiorów chłopców i dziewcząt.
Kolejne podsumowania, od 9 do 16, świadczą o tym, że jest więcej wysokich dziewczynek niż chłopców w grupie dzieci w wieku wczesnoszkolnym, np. pod- sumowanie 9 zawiera przeciwne założenie (większość wysokich chłopców) i posiada bardzo niski stopień prawdziwości. Sytuacja wygląda inaczej wśród nastolatków: grupa wysokich chłopców jest większa niż wysokich dziewczynek (podsumowanie 10). Jednakże nie można powiedzieć, że w porównaniu do chłopców, większość nastoletnich dziewczynek jest niska, co jest zgodne z prawdą, ponieważ taka sytuacja oznaczałaby, że jest dużo nastoletnich dziew-
cząt o wzroście z przedziału od 103 cm do 150 cm (czytelnik musi mieć na uwa- dze, że dzieci w bazie danych posiadają wzrost z przedziału od 103 cm do 195 cm, zatem niskie dziecko w tym przypadku posiada wzrost z przedziału od 103 do 150).
Nr. Podsumowanie T Forma
podsumowania
1 2 3 4
1. Większość dziewczynek w odniesieniu do
chłopców jest w wieku wczesnoszkolnym 0.495
(4) 2. Większość chłopców w odniesieniu do
dziewczynek jest wieku wczesnoszkolnym 0.505 3. Większość dziewczynek w odniesieniu do
chłopców jest w wieku nastoletnim 0.511 4. Około połowa chłopców w odniesieniu do
dziewczynek jest w wieku nastoletnim 0.994 5. Większość dziewczynek w odniesieniu do
chłopców jest wysokiego wzrostu 0.206 6. Większość chłopców w odniesieniu do
dziewczynek jest wysokiego wzrostu 0.298 7. Większość dziewczynek w odniesieniu do
chłopców jest niskiego wzrostu 0.249 8. Około dwie trzecie chłopców w odniesieniu do
dziewczynek jest niskiego wzrostu 0.043 9. Większość chłopców w odniesieniu do
dziewczynek, będących w wieku wczesnoszkol- nym jest wysokiego wzrostu
0.004
(11) 10. Większość chłopców w odniesieniu do
dziewczynek, będących w wieku nastoletnim jest wysokiego wzrostu
0.129
11.
Większość dziewczynek w odniesieniu do chłopców, będących w wieku wczesnoszkolnym
jest niskiego wzrostu 0.124
12.
Około połowa dziewczynek w odniesieniu do chłopców, będących w wieku nastoletnim jest niskiego wzrostu
0
13. Większość dziewczynek będących w wieku wczesnoszkolnym, w odniesieniu do chłopców jest niskiego wzrostu
0.101
(15) 14.
Większość dziewczynek będących w wieku nastoletnim, w odniesieniu do chłopców jest
niskiego wzrostu 0.004
15.
Większość chłopców będących w wieku nastoletnim, w odniesieniu do dziewczynek jest wysokiego wzrostu
0.098
16. Około dwie trzecie chłopców będących w wieku wczesnoszkolnym, w odniesieniu do dziewczynek jest wysokiego wzrostu
0
17. Więcej chłopców niż dziewczynek jest wysokiego
wzrostu 0.534 (18)
1 2 3 4 18. Więcej dziewczynek niż chłopców jest niskiego
wzrostu 0.5
19. Więcej chłopców niż dziewczynek jest w wieku
nastoletnim 0.49
20. Więcej dziewczynek niż chłopców jest w wieku
nastoletnim 0.51
21. Więcej chłopców niż dziewczynek jest w wieku
wczesnoszkolnym 0.506
22. Około połowa dzieci to dziewczynki 1 23. Większość dzieci jest w wieku wczesnoszkolnym 0,32 (1) 24. Około dwie trzecie chłopców jest wysokiego
wzrostu 0
25. Większość chłopców będących wysokiego wzro-
stu jest w wieku nastoletnim 0,031 (2)
Podsumowania od 17 do 20 potwierdzają brak znacznych dysproporcji po- między liczbą wysokich chłopców i wysokich dziewcząt oraz nastoletnich chłopców i nastoletnich dziewcząt. Zgodnie z podsumowaniem 17 i 18, jest nieco więcej wysokich chłopców niż wysokich dziewczynek oraz odnosząc się do podsumowań 19 i 20 – nastoletnich dziewcząt w bazie jest kilka więcej niż nastoletnich chłopców. Podsumowanie 21 potwierdza, że nastoletnich dziew- czynek jest nieco więcej (liczba chłopców w wieku wczesnoszkolnym jest nieco większa niż dziewczynek).
Wykorzystanie klasycznych form podsumowań, tj. (1) i (2), wzbogaca wy- niki o dodatkowe informacje. Rozszerzenie tab. 4 o podsumowania od 22 do 25 uzupełnia informacje na temat analizowanego zbioru danych. Przykładem jest potwierdzenie braku dysproporcji pomiędzy zbiorami chłopców i dziewczynek.
Dedykowany algorytm może w łatwy sposób wyznaczyć stopnie prawdziwości, wybrać najlepsze z nich (niosące najwięcej informacji) oraz zaprezentować je w jasnej i czytelnej formie, np. Około połowa dzieci to dziewczynki. Większość chłopców w odniesieniu do dziewczynek jest wysokiego wzrostu. Około dwóch trze- cich dziewczynek, będących w wieku wczesnoszkolnym, w odniesieniu do chłopców jest wysokiego wzrostu. Ostatni wniosek pokazuje, że nowe formy podsumowań nie wykluczają klasycznych, ale mogą być stosowane równolegle w celu rozszerzenia oraz ulepszenia procesu ekstrakcji wiedzy dotyczącej dużych zbiorów danych.
Literatura
Bosc P., Pivert O., Fuzzy Querying in Conventional Databases [w:] Fuzzy Logic for the Ma- nagement of Uncertainty, eds. L.A. Zadeh, J. Kacprzyk, Wiley, New York 1992.
Flexible Query Answering System, eds. T. Andreasen, H. Christiansen, H.L. Larsen, Kluwer, Boston 1997.
Kacprzyk J., Yager R.R., Linguistic Summaries of Data Using Fuzzy Logic, „Interna- tional Journal of General Systems” 2001, 30.
Kacprzyk J., Yager R.R., Zadrożny S., A Fuzzy Logic Based Approach to Linguistic Summa- ries of Databases, „International Journal of Applied Mathematics and Computer science” 2000, 10.
Kacprzyk J., Yager R.R., Zadrożny S., Fuzzy Linguistic Summaries of Databases for an Efficient Business Data Analysis and Decision Support [ w:]: Knowledge Di- scovery for Business Information Systems, eds. W. Abramowicz, J. Zurada, Kluwer Academic Publisher, Boston 2001.
Kacprzyk J., Zadrożny S., Flexible Querying Using Fuzzy Logic: An Implementation for Microsoft Access [ w : ] Flexible Query Answering Systems, eds. T. Andreasen, H. Christiansen, H.L. Larsen, Kluwer, Boston 1997.
Niewiadomski A., News Generating via Fuzzy Summarization of Databases, „Lecture Notes in Computer Science” 2006, 3831.
Niewiadomski A., Six New Informativeness Indices of Data Linguistic Summaries [w:] Advances in Intelligent Web Mastering, eds. P.S. Szczepaniak, K. Węgrzyn-Wolska, Springer-Verlag, 2007.
Raschia G., Mouaddib N., SAINTETIQ: A Fuzzy Set-Based Approach to Database Summarization, „Fuzzy Sets and Systems” 2002, 129.
Rasmussen D., Yager R.R., A fuzzy SQL Summary Language for Data Discovery [w:] Fuzzy Information Engineering: A Guided Tour of Application’s, eds. D. Dubois, H. Prade, R.R. Yager, Wiley, New York 1997.
Yager R.R., A New Approach to the Summarization of Data, „Information Science” 1982, 28.
Yager R.R., On Ordered Weighted Averaging Operators in Multicriteria Decision Making, „ IEEE Transactions on Systems, Man, and Cybernetics” 1988, 18.
ACQUIRING KNOWLEDGE FROM RELATIONAL DATABASES:
MULTI-SUBJECT LINGUISTIC SUMMARIES Summary
The aim of this article is to show how fuzzy logic based algorithms can be applied to analyze large datasets and present its results in a human-friendly form: using natural language. A new concept of linguistic summaries is demonstrated: multi-subject linguistic summaries of relational databases, that extends the classic manner. This paper focuses on new, interesting forms of linguistic summaries, which are represented by equations (4), (11), (15) and (18). This article also contains discussion about calculating degrees of truth of the new forms. From the potential end user point of view simplified form of presenting results using natural language expressions is the most important thing. This paper includes demon- stration and description of standalone application that generates analysis of large dataset and presents results using short and intuitive expressions in natural language. Possibilities given by the multi-subject linguistic summaries, e.g. description and comparison of more than one subject in one summarization, makes them great extension and complementation of existing forms of linguistic summaries.