POZYSKIWANIE WIEDZY Z RELACYJNYCH BAZ DANYCH: WIELOPODMIOTOWE PODSUMOWANIA LINGWISTYCZNE

(1)

Izabela Superson Adam Niewiadomski

Politechnika Łódzka

POZYSKIWANIE WIEDZY Z RELACYJNYCH BAZ DANYCH: WIELOPODMIOTOWE

PODSUMOWANIA LINGWISTYCZNE

Wprowadzenie

Obecnie trudno wyobrazić sobie jakąkolwiek instytucję, przedsiębiorstwo lub placówkę społeczną, która byłaby w stanie sprawnie funkcjonować bez obszernej bazy skomputeryzowanych danych. Niesie to za sobą konieczność analizy oraz przetwarzania dużych zbiorów danych. Ponadto oczekujemy szybkich wyników, przedstawionych w maksymalnie skompresowany, zwięzły sposób, zro- zumiały dla szerokiego grona odbiorców. Z pomocą przychodzą podsumowania lingwistyczne relacyjnych baz danych, czyli zdania w języku naturalnym opisujące znaczenie wybranych danych, np. Około połowa [badanych] dzieci to chłopcy.

Większość dziewczynek w wieku wczesnoszkolnym, w odniesieniu do chłopców, jest wysokiego wzrostu. Zastosowanie podsumowań lingwistycznych może znacząco usprawnić proces zarządzania wiedzą. Za pomocą odpowiednich algorytmów można pozyskać wiedzę na temat zbioru danych w postaci intuicyjnego komu- nikatu w języku naturalnym. Dzięki zastosowaniu nieprecyzyjnych wyrażeń liczbowych, takich jak większość, wysoki wzrost, wiek wczesnoszkolny, otrzymuje się komunikat bardziej przyjazny i zrozumiały, bez konieczności posiadania dodat- kowej wiedzy na temat analizowanych danych, ponieważ jest wyrażony językiem naturalnym, a nie liczbami, przez co staje się on komunikatywny i czytelny dla statystycznego odbiorcy. Jeżeli w powyższym przykładzie użytoby precyzyj- nych liczb, np. 5679 dziewczynek w wieku od 7 do 12 lat, w odniesieniu do chłopców, jest wzrostu od 153 do 165 cm, komunikat mógłby stać się niejasny dla osoby nieposiadającej wiedzy na temat analizowanych danych. Jak łatwo zauważyć, taki komunikat nie daje żadnej praktycznej wiedzy na temat danych użytkownikowi, który nie wie ile jest dziewczynek w analizowanej bazie (nie można określić jaką część zbioru dziewczynek stanowi liczba 5679), jaką część

(2)

stanowią dzieci w wieku od 7 do 12 lat oraz czy przedział 153-165 cm traktować jako średni wzrost, czy może już wysoki. Niewymagane są żadne operacje wstępne, takie jak np. sprawdzenie podstawowej wiedzy na temat danych, a zatem z metody tej mogą korzystać wszyscy użytkownicy, również nieposiadający wiedzy z zakresu informatyki, a jedynie umiejętność obsługi komputera. Zastosowanie tej metody skutkuje wzrostem jakości otrzymywanej wiedzy, ponieważ eliminuje błędy ludzkie oraz wynikające z zastosowania bardzo skomplikowanych i złożo- nych algorytmów, przy jednoczesnym skróceniu czasu, jaki byłby potrzebny na analizę obszernej bazy danych innymi metodami. Jest to krok w kierunku interfej- sów naturalnych, przyjaznych użytkownikowi, gdyż opartych na języku naturalnym.

Celem pracy jest przedstawienie możliwości analizy dużych zbiorów danych za pomocą logiki rozmytej oraz zaprezentowanie wyników tej analizy za pomocą języka naturalnego.

1. Podsumowania lingwistyczne relacyjnych baz danych:

przegląd literatury

Ponad trzydzieści lat temu R.R. Yager zaproponował koncepcję podsumo- wań lingwistycznych (relacyjnych) baz danych¹, np. ponad połowa koszykarzy jest bardzo wysoka. Była to odpowiedź na potrzebę szybkiego interpretowania informacji i pozyskiwania wiedzy z dużych zbiorów danych. Głównym atutem tej metody jest to, że pozyskana wiedza jest zaprezentowana w formie przyjaz- nej dla statystycznego użytkownika systemów komputerowych. Nie odnosi się ona do żadnej ze statystycznych metod agregacji danych (średnia, wariancja, odchylenie standardowe itp.), lecz – zamiast tego – opiera się na rozmytych mode- lach wyrażeń w języku naturalnym. Nawet jeżeli takie wyrażenia są mniej precyzyj- ne niż liczby, np. ponad połowa obiektów zamiast 55,6% obiektów lub bardzo wysoki chłopiec zamiast chłopiec o wzroście 195 cm, to są one popularnie stosowane i dostarczają prostą w odbiorze wiedzę na temat podsumowywanych danych.

Koncepcja lingwistycznych podsumowań baz danych opiera się na rachunku Zadeha dotyczącym wyrażeń kwantyfikowanych lingwistycznie. Istnieją dwie, pod- stawowe formy podsumowań lingwistycznych (opierające się na dwóch formach wyrażeń kwantyfikowanych lingwistycznie), zaprezentowano je m.in. w pracach²:

1 R.R. Yager, A New Approach to the Summarization of Data, „ Information Science” 1982, 28, s. 69-86.

2 J. Kacprzyk, R.R. Yager, Linguistic Summaries of Data Using Fuzzy Logic, „International Journal of General Systems” 2001, 30, s. 133-154; J. Kacprzyk, R.R. Yager, S. Zadrożny, A Fuzzy Logic Based Approach to Linguistic Summaries of Databases, „International Journal of Applied Mathematics and Computer Science” 2000, 10, s. 813-834; J. Kacprzyk, R.R. Yager,

(3)

Q P jest/są S [T] (1) Np. Wielu chłopców jest wysokich [0.83], i

Q P będących W jest/są S [T] (2) Np. Wielu chłopców będących nastolatkami, jest wysokich [0.63].

W obu formach (1) i (2) Q jest kwantyfikatorem lingwistycznym, np. Znacznie więcej niż 900, reprezentowanym przez operator agregacji, np. kwantyfikator roz- myty (zbiór rozmyty o odpowiednich właściwościach) lub operator OWA³, P jest podmiotem podsumowania, np. mężczyźni, samochody lub jakiekolwiek inne obiekty opisane w podsumowywanej bazie danych, S jest sumaryzatorem – wyraże- niem lingwistycznym dotyczącym właściwości obiektów, reprezentowanym przez zbiór rozmyty. Symbol W, pojawiający się jedynie w formie (2), jest kwalifikato- rem, reprezentowanym przez zbiór rozmyty, który reprezentuje dodatkowe wła- ściwości obiektów biorących udział w podsumowaniu. T [0, 1] jest stopnień prawdziwości i wyznacza prawdziwość podsumowania (jak bardzo jest bliskie prawdzie). Wartości T są wyznaczane na podstawie rachunku Zadeha dotyczą- cego wyrażeń kwantyfikowanych lingwistycznie oraz innych metod opisanych w pracach⁴. Niniejsza praca jest za krótka żeby móc opisać wszystkie z istnieją- cych metod oraz aplikacji dotyczących podsumowań lingwistycznych relacyjnych baz danych, przykłady takich metod lub aplikacji można znaleźć np. w pracach⁵. Ponadto, nie jesteśmy w stanie zaprezentować wszystkich koncepcji dotyczących podsumowań danych opartych na zbiorach rozmytych, ale przyjmu- jących inne założenia niż Yager, np.⁶.

S. Zadrożny, Fuzzy Linguistic Summaries of Databases for an Efficient Business Data Analysis and Decision Support [w:] Knowledge Discovery for Business Information Systems, eds. W. Abramo- wicz, J. Zurada, Kluwer Academic Publisher, Boston 2001, s. 129-152; J. Kacprzyk, S. Zadrożny, Flexible Querying Using Fuzzy Logic: An Implementation for Microsoft Access [w:] Flexible Query Answering Systems, eds. T. Andreasen, H. Christiansen, H.L. Larsen, Kluwer, Boston 1997, s. 247-275.

3 R.R. Yager, On Ordered Weighted Averaging Operators in Multicriteria Decision Making,

„ IEEE Transactions on Systems, Man, and Cybernetics” 1988, 18, s. 183-190.

4 J. Kacprzyk , R.R. Yager, Linguistic Summaries of Data Using Fuzzy Logic, op. cit.; A. Niewiadom- ski, News Generating via Fuzzy Summarization of Databases, „Lecture Notes in Computer Science” 2006, 3831, s. 419-429.

5 Flexible Query Answering System, eds. T. Andreasen, H. Christiansen, H.L. Larsen, Kluwer, Boston 1997, s. 247-275; A. Niewiadomski, News Generating…, op. cit.

6 P. Bosc, O. Pivert, Fuzzy Querying in Conventional Databases [w:] Fuzzy Logic for the Mana- gement of Uncertainty, eds. L.A. Zadeh, J. Kacprzyk, Wiley, New York 1992, s. 645-671;

A. Niewiadomski, Six New Informativeness Indices of Data Linguistic Summaries [w:] Advan- ces in Intelligent Web Mastering, eds. P.S. Szczepaniak, K. Węgrzyn-Wolska, Springer-Verlag, 2007, s. 254-259; G. Raschia, N. Mouaddib, SAINTETIQ: A Fuzzy Set-Based Approach to Da- tabase Summarization, „Fuzzy Sets and Systems” 2002, 129, s.137-162; D. Rasmussen, R.R. Yager, A fuzzy SQL Summary Language for Data Discovery [w:] Fuzzy Information Engineering:

A Guided Tour of Application’s, eds. D. Dubois, H. Prade, R.R. Yager, Wiley, New York 1997, s. 253-264.

(4)

Najw podmioto szość chło to, że po i P₂, natom rów, kwan istotne roz dotąd – um

Dalsz przedstaw cyjnych b się do wię mowywan są repreze w bazie D z uwagi n perymentu zentować podsumow kładowy niezaawan sumowan

2. Wielo wielo 2.1. Relac

Ninie relacyjnyc Wprowad że baza z będących prezentuje zbiór ozna da się z kr m Є N jest butów V1,

ważniejszym we podsumo opców w odn odsumowania miast modele ntyfikatorów zszerzenie istn możliwiały po za część pr wiony pomys baz danych.

ęcej niż jedn nej bazie dan entowane pr D lub zbiory na pewien atr u z użyciem oraz wyzn wań lingwis wynik dział nsowani tech

ia generowan

opodmioto opodmiotow

cyjne bazy d

ejszy podpun ch baz danyc dza oznaczen zawierająca d

zbiorami kr e dokładnie aczono jako Y

rotek di, i = t liczbą krote ,…, Vn posiad

elementem z owania lingw niesieniu do

a będą doty e lingwistycz

itp.) są utw niejących kon odsumowywa racy jest zor sł wielopodm Skonstruow nego podmio nych D, np. P

rzez zbiory y wyznaczon

rybut, np. ko m stworzonej naczyć użyte tycznych re ania aplikacj hnicznie uży ne przez pro

owość w re we podsum danych oraz

nkt systematy ch, opartych nia, jakie będ

dane, które rotek (zwykl

jeden obiek Y = {y₁, …, y

1, 2, …, m, k ek w tabeli D

dające odpow

zaprezentow wistyczne re

dziewczynek yczyć więcej znych wyraże worzone za p ncepcji podsu anie danych n rganizowana miotowych p wano i wyzn otu P repreze

P₁ i P2 lub P krotek zgro ne za pomoc obiety i mężc

w tym celu eczność oraz

lacyjnych b ji dla użytej ytkownicy m

gram.

elacyjnych mowania l wielopodm

yzuje oznacz

na podejściu dą stosowane mają zostać le nazywany kt (np. dzie y_m}. Tabela D które stanowi D’. Każda krot wiednio dzied

wanym w nin elacyjnych b k jest wysokie ej niż jedneg eń nieprecyzy pomocą zbior umowywania na podstawie a następując podsumowań naczono pods entowanego

1 w odniesien madzone w cą selekcji, f

czyźni. Sekc u aplikacji, c z wydajność az danych.

j bazy danyc mogą korzyst

bazach da ingwistycz iotowość

zenia i przyb u klasycznym e w dalszej c

podsumowa ych rekordam

cko, osobę, D’ istniejąca w

ią wiersze tab tka di składa dziny X1,…, X

niejszej pracy baz danych, ego wzrostu.

go podmiotu yjnych (dla su rów rozmyty

baz danych, tylko jedego co: w Sekcj lingwistycz sumowania

przez krotki niu do P₂. Po

oddzielnych filtrowania k cja 3 zawiera co pomoże n ć wielopodm

Zaprezentuje ch oraz w ja tać i wpływa

anych ora zne

bliża pojęcia m, czyli Cod części pracy.

ane składa s mi), a jedna samochód w bazie danyc

beli: D’ = {d się z n N wa Xn. Wartości

y są wielo- np. Więk- . Oznacza

P₁, np. P₁ umaryzato- ych. Jest to

które – jak podmiotu.

i 2 został znych rela-

odnoszące i w podsu-

odmioty te h tabelach krotek itp., a opis eks- nam zapre- miotowych

emy przy- aki sposób ać na pod-

z

dotyczące dda (1970).

Założono, się z tabel, krotka re- itp.). Taki ch skła- d₁, …, d_m}^T, artości atry-

i atrybutów

(5)

wyrażają jako kolu przyjąć da osoby w c Vj(yi) Xj, i o elementa

Przyk to część w cie opisan dwóch zb padku atr podział zb

Przykła ID

1. Dzie 2. Chło 3. Chło 4. Dzie 5. Dzie

Podzbió ID

2. Chło 3. Chło

Podzbió ID

1. Dzie 4. Dzie 5. Dzie

właściwości umny tabeli.

any atrybut, centymetrach i Є {1, 2, …, ach z Y = {y1

kładowa baz większej bazy

nym w pun biorów podm rybutem służ bioru danych

adowa baza da P ewczynka opiec opiec ewczynka ewczynka

ór bazy danyc P opiec

opiec

ór bazy danyc P ewczynka ewczynka ewczynka

i obiektu, np Dziedziny np. zbiór X₁ h”. Wartość , m}, j Є {1, 2 1, …, ym} po

za danych w y danych, bi nkcie 2. Tab miotów dla po

żącym do ek h na dwa pod

anych D zawie Płeć

ch D zaprezen repreze Płeć

ch D zaprezen reprezen Płeć

. wzrost, wy atrybutów s = [50, 200]

atrybutu V_j 2, …, n}. Baz siada następu

w formie (3) iorąca udział bela prezentu

odsumowań kstrakcji jest dzbiory prze

erająca dane d

ntowanej w tab entujących ch

ntowanej w tab ntujących dzie

płatę, koszt i są zbiorami ] może być d

dla obiektu za danych D ującą postać:

jest przedst ł w podsumo uje również

wielopodmio atrybut „Pł dstawione w

dotyczące dzie Wiek

7 8 13

8 18

b. 1, utworzon hłopców

Wiek 8 13

b. 1, utworzon ewczynki

Wiek 7 8 18

itp. oraz są t wartości, ja dziedziną V₁

y_i jest oznac zawierająca

tawiona w t owaniu w ek możliwość otowych. W łeć”, który u w tab. 2 i 3.

eci w wieku sz Wz 13 12 15 14 16

ny przez wybó Wz 12 15

ny przez wybó Wz 13 14 16

traktowane akie może

= „wzrost czona jako informacje

(3)

tab. 1. Jest sperymen-

ekstrakcji tym przy- umożliwia

Tabela 1 zkolnym zrost

30 20 50 40 60

Tabela 2 ór krotek

zrost 20 50

Tabela 3 ór krotek

zrost 30 40 60

(6)

Należ ciu techni zarządzan temie mog normalny optymaliz filtrowani wybraneg wi podzia Szcze oddzielnyc D. Podzbi podsumow

2.2. Nowe lingw

Pierw

gdzie Q j nia i S₁ j prawdziw

gdzie:

Analogicz

jest obiek reprezentu

ży podkreśli icznym jako nia bazą dan głoby okazać ych tabel w re zacji baz da ia wykonanej go atrybutu, ał obiektów n

ególnie istotn ch podzbioró iory reprezent waniach lingw

e formy pod wistyczne

wsza z zaprop

jest kwantyf jest sumary wości podsum

znie:

ktem repreze ujących odpo

ć, że tab. 2 i o rozdzielony nych. Utworz ć się nieefekt elacyjnej baz anych. Przed ej na tabeli D

w tym przyp na „chłopców ne z punktu w w obiektów, tują różne po wistycznych z

sumowań: w

ponowanych Q P₁ w od fikatorem roz yzatorem rep mowania w fo

entującym po owiednio pod

i 3 nie reprez ych zbiorów zenie oraz pr tywne, zwłas zie danych, s dstawione tab D’ (reprezen

padku będzi w” i „dziewcz widzenia ninie

przechowyw odmioty P₁ or zaprezentowan

wielopodmio

h form podsu dniesieniu do zmytym, P₁ prezentowany

ormie (4) jes

. Notacja odmiot P₁. dmioty P₁ or

zentują rzecz rekordów) rzechowywa szcza w odni stanowiących bele są jedyn ntowanej prze ie to atrybut

zynki”.

ejszej pracy je wanych wcześ

raz P₂, użyte nych w kolejn

otowe podsu

umowań ma p o P₂ jest S1

i P₂ są pod ym przez zb st obliczany z

o oraz raz P₂:

zywistych tab zawartych w anie tych tab iesieniu do tz h popularne nie rezultatem

ez tab. 1) pr

„Płeć”, któr est wyznacze śniej jako jed w wielopodm nym podpunk

umowania

postać:

dmiotami po biór rozmyty za pomocą w

znacza, że k są liczba

bel (w uję- w systemie

bel w sys- zw. postaci

kryterium m operacji rzy użyciu ry umożli- enie dwóch, den w bazie miotowych kcie.

(4) odsumowa-

y. Stopień wzoru (5):

(6)

krotka ami krotek

(5)

(7)

gdzie ti:

Przykład:

V_j = Płeć

gdzie Q = Drug stępującą

gdzie Q j nia, S₂ jes S₁ jest su pomocą w

ć. Przykład p Większoś

Większość, P

ga forma w postać:

Q P est kwantyfi st kwalifikato umaryzatorem wzoru (12):

odsumowani ść chłopców

wysoki P₁ = chłopcy,

ielopodmioto

P₁ w odniesien ikatorem rela orem odnosz m. Stopień p

ia w formie ( w odniesien ego wzrostu , P₂ = dziewc owych pods

niu do P₂ będ atywnym, P₁ zącym się do prawdziwośc

(4):

iu do dziewc [0.456]

czynki, S₁ = w sumowań lin

dących S₂ jes

1 i P₂ są pod obu podmio ci podsumow

czynek jest

wysoki wzrost

ngwistyczny

st S₁, dmiotami po otów P₁ i P₂, wania jest ob

(7)

(8)

(9)

(10)

t.

ych ma na-

(11) odsumowa-

natomiast bliczany za

(12)

(8)

gdzie:

Wzory o analogicz

gdzie Q = wzr

Pods czących w podmioty przypadku tować chł kator S₂. Trzecia z

Stopień pr

gdzie S₂ j

raz oznacze ne jak dla fo Około dwóch

będących n

= około dwó rost, S₂ = nas

sumowania w wybranych c

muszą spełn u krotki, któ łopców i dzi zaproponow

Q

rawdziwości

jest kwalifik enia

ormy (4). Prz h trzecich ch nastolatkami óch trzecich,

stoletni wiek.

w formie (11 cech S₁ podm

niać (cechy, re będą bran iewczynki w wanych form

będących S

i formy (15)

katorem odn

, zykład podsu hłopców w od

i, jest wysoki P₁ = chłopc .

1) umożliwia miotów, w z

które musz ne pod uwagę w wieku nasto ma następuj

S₂ w odniesi

jest podany

noszącym się

umowania w dniesieniu do iego wzrostu cy, P₂ = dzi

ają otrzymyw ależności od ą posiadać o ę podczas an oletnim, o cz ącą postać:

eniu do P₂ je

wzorem:

ę jedynie do

, formie (11):

o dziewczyne u [0.39]

ewczynki, S₁

wanie inform d warunków, oba podmioty nalizy muszą

zym decyduj

est S₁

o podmiotu ,

(13)

są

ek

(14)

1 = wysoki

macji doty- , jakie oba y). W tym ą reprezen-

je kwalifi-

(15)

(16)

P₁.

(9)

Przykład t

w gdzie Q = S₂ =

Pods czących w podmiotu ją podmio przez kwa

Czwa miotowyc

Jak możn kwantyfik

gdzie P₁ i zentujący

W gdzie P₁ = Podsumow dwóch po mytych, n podsumow

takiego pods Około po w odniesieni

= około poło

= nastoletni

sumowania w wybranych c u P₁. Oznacza

oty P₁ i P₂, alifikator.

artą formą s ch jest:

na zauważy katora. Stopie

i P₂ są podm ych odpowied

Więcej chłopc

= chłopcy, P

wania w fo odmiotów be

np. kwantyfi wań, których

sumowania:

ołowa chłopc iu do dziewcz owa, P₁ = c

wiek.

w formie (1 cech podmiot

a to, że krotk ale jedynie spośród zap

Więc yć, forma (1

eń prawdziw

miotami pods dnio podmiot

ców niż dziew P₂ = dziewczy

ormie (18) ez konieczno

ikatorów. Ta h treść jest ba

ców będących zynek, jest wy chłopcy, P₂ =

5) umożliwi tów w zależ ki biorące ud e podmiot P proponowany

cej P₁ niż P2 j 18) nie wym wości jest pod

sumowania, ty P₁ i P₂, Przykład pod

wczynek jest ynki, S₁ = wy

umożliwiaj ości użycia d akie podejści

ardzo intuicy

h nastolatkam wysokiego wz

=dziewczynk

iają generow ności od pos dział w pods P₁ musi posi

ych form po

jest S₁ maga zastos dany za pom

i

dsumowania

wysokiego w ysoki wzrost.

ą użytkown dodatkowych ie umożliwia yjna.

mi

rostu [0.256 ki, S₁ = wyso

wanie inform siadanych w

umowaniu r adać cechy odsumowań

sowania dod mocą wzoru (1

są liczbą kro

a w formie (1

wzrostu [0.75

nikowi poró h miar lub m a szybkie ge

(17) ],

oki wzrost,

macji doty- właściwości

reprezentu- narzucone wielopod-

(18) datkowego 19):

,

(19) otek repre-

19):

56] (20)

ównywanie modeli roz- enerowanie

(10)

2.3. Różnice pomiędzy klasycznymi formami podsumowań a formami wielopodmiotowymi

Należy zauważyć, że żadna z klasycznych form podsumowań nie pozwala na porównywanie dwóch, różnych podmiotów, pod względem posiadanych przez nie cech, np. chłopcy i dziewczynki i ich wzrost, wiek itp. Z drugiej stro- ny, takie relacje mogą być przedstawione w łatwy i czytelny sposób za pomocą podsumowań wielopodmiotowych. Dla klasycznych podsumowań jedyną moż- liwością jest zastosowanie jako kwalifikator W wyodrębnionego podzbioru obiektów, np. chłopcy lub dziewczynki (wzór (2) ), np. Około połowa CHŁOPCÓW jest wysokiego wzrostu, gdzie W = CHŁOPCY.

3. Lingwistyczne opisywanie oraz podsumowywanie baz danych za pomocą podsumowań wielopodmiotowych: przykład zastosowania

3.1. Cele oraz metody aplikacji

Aplikacja utworzona w celu testowania nowych form podsumowań, została napisana z użyciem języka Java w wersji 1.7. Baza danych użyta w ekspery- mencie zawiera dane dotyczące dzieci w wieku od 7 do 18 roku życia. Dane zawierają m.in. wzrost, wagę, datę urodzenia, warunki w jakich żyją, takie jak liczba pomieszczeń w mieszkaniu, liczba osób w rodzinie, sytuacja finansowa itp. Baza zawiera dane dotyczące 13 956 dzieci, w tym 6 991 chłopców oraz 6 965 dziewczynek.

Podsumowania generowane w ramach eksperymentu pokazują zależność wzrostu od wieku i płci dziecka. Podmioty biorące udział w podsumowaniach to chłopcy i dziewczynki. Proces logicznego podziału danych na dwa podzbiory jest widoczny w tab. 1-3. Kwantyfikatory relatywne zastosowane w podsumo- waniach to: większość, około dwóch trzecich, około połowy. Propozycja funkcji przynależności zastosowanych dla kwantyfikatorów większość oraz około dwóch trzecich zaprezentowano na rys. 1-2.

Wygenerowane podsumowania opierają się na kwalifikatorach i sumaryza- torach reprezentowanych przez zbiory rozmyte. Przykładowe sumaryzatory użyte w podsumowaniach:

− wysoki (wzrost)

− niski (wzrost)

− wczesnoszkolny (wiek)

− nastoletni (wiek)

(11)

Etykieta KI_WZRO

gdzie:

Etykieta n

gdzie:

Analogicz

wysoki (wzr OST:

niski (wzrost)

znie, etykieta

rost) jest re

jest reprezen

a nastoletni (

eprezentowa

ntowana przez

(wiek) jest re

ana przez zb

z zbiór rozmy

eprezentowan

biór rozmyt

yty NISKI WZ

na przez zbió ,

ty WYSO-

(22)

ZROST:

(24)

ór:

, (21)

(23)

, (25)

(12)

Rys. 1. Funk

Rys. 2. Funk

gdzie:

kcja przynależn

ności kwantyfik

katora WIĘKSZO

katora OKOŁO D OŚĆ

DWÓCH TRZEECI

(26)

(13)

Etykieta w

gdzie:

Wykresy STOLETN

Rys. 3. Funk

wczesnoszkol

funkcji prz NI WIEK są w

kcja przynależn

lny (wiek) je

zynależności widoczne na

ności etykiety W

st reprezento

i dla zbioró rys. 3-4.

WYSOKI WZRO ,

owana przez

ów WYSOK

OST

zbiór:

KI WZROST

(28)

T oraz NA- (27)

(14)

Rys. 4. Funkcja przynależności etykiety NASTOLETNI WIEK

3.2. Otrzymane rezultaty oraz ich interpretacja

Wynik działania aplikacji został zaprezentowany w tab. 4. Dla każdego podsumowania obliczono i podano jego stopień prawdziwości (kolumna T) oraz zastosowaną formę podsumowania (kolumna „Forma podsumowania”), odno- szącą się do zaprezentowanych wzorów (4), (11), (15), (18) dotyczących pierwszej, drugiej, trzeciej oraz czwartej formy podsumowań wielopodmiotowych oraz (1) i (2) odnoszących się do klasycznych form podsumowań.

Zgodnie z opinią eksperta, wyniki są intuicyjnie poprawne. Pierwszych 8 podsumowań zostało zbudowanych za pomocą formy pierwszej dla nowych podsumowań wielopodmiotowych (wzór (4)). Analizując ich stopnie prawdzi- wości, można dojść do wniosku, że nie istnieją znaczne dysproporcje pomiędzy wielkością zbiorów chłopców i dziewcząt.

Kolejne podsumowania, od 9 do 16, świadczą o tym, że jest więcej wysokich dziewczynek niż chłopców w grupie dzieci w wieku wczesnoszkolnym, np. podsumowanie 9 zawiera przeciwne założenie (większość wysokich chłopców) i posiada bardzo niski stopień prawdziwości. Sytuacja wygląda inaczej wśród nastolatków: grupa wysokich chłopców jest większa niż wysokich dziewczynek (podsumowanie 10). Jednakże nie można powiedzieć, że w porównaniu do chłopców, większość nastoletnich dziewczynek jest niska, co jest zgodne z prawdą, ponieważ taka sytuacja oznaczałaby, że jest dużo nastoletnich dziew-

(15)

cząt o wzroście z przedziału od 103 cm do 150 cm (czytelnik musi mieć na uwa- dze, że dzieci w bazie danych posiadają wzrost z przedziału od 103 cm do 195 cm, zatem niskie dziecko w tym przypadku posiada wzrost z przedziału od 103 do 150).

Nr. Podsumowanie T Forma

podsumowania

1 2 3 4

1. Większość dziewczynek w odniesieniu do

chłopców jest w wieku wczesnoszkolnym 0.495

(4) 2. Większość chłopców w odniesieniu do

dziewczynek jest wieku wczesnoszkolnym 0.505 3. Większość dziewczynek w odniesieniu do

chłopców jest w wieku nastoletnim 0.511 4. Około połowa chłopców w odniesieniu do

dziewczynek jest w wieku nastoletnim 0.994 5. Większość dziewczynek w odniesieniu do

chłopców jest wysokiego wzrostu 0.206 6. Większość chłopców w odniesieniu do

dziewczynek jest wysokiego wzrostu 0.298 7. Większość dziewczynek w odniesieniu do

chłopców jest niskiego wzrostu 0.249 8. Około dwie trzecie chłopców w odniesieniu do

dziewczynek jest niskiego wzrostu 0.043 9. Większość chłopców w odniesieniu do

dziewczynek, będących w wieku wczesnoszkolnym jest wysokiego wzrostu

0.004

(11) 10. Większość chłopców w odniesieniu do

dziewczynek, będących w wieku nastoletnim jest wysokiego wzrostu

0.129

11.

Większość dziewczynek w odniesieniu do chłopców, będących w wieku wczesnoszkolnym

jest niskiego wzrostu 0.124

12.

Około połowa dziewczynek w odniesieniu do chłopców, będących w wieku nastoletnim jest niskiego wzrostu

0

13. Większość dziewczynek będących w wieku wczesnoszkolnym, w odniesieniu do chłopców jest niskiego wzrostu

0.101

(15) 14.

Większość dziewczynek będących w wieku nastoletnim, w odniesieniu do chłopców jest

niskiego wzrostu 0.004

15.

Większość chłopców będących w wieku nastoletnim, w odniesieniu do dziewczynek jest wysokiego wzrostu

0.098

16. Około dwie trzecie chłopców będących w wieku wczesnoszkolnym, w odniesieniu do dziewczynek jest wysokiego wzrostu

0

17. Więcej chłopców niż dziewczynek jest wysokiego

wzrostu 0.534 (18)

(16)

1 2 3 4 18. Więcej dziewczynek niż chłopców jest niskiego

wzrostu 0.5

19. Więcej chłopców niż dziewczynek jest w wieku

nastoletnim 0.49

20. Więcej dziewczynek niż chłopców jest w wieku

nastoletnim 0.51

21. Więcej chłopców niż dziewczynek jest w wieku

wczesnoszkolnym 0.506

22. Około połowa dzieci to dziewczynki 1 23. Większość dzieci jest w wieku wczesnoszkolnym 0,32 (1) 24. Około dwie trzecie chłopców jest wysokiego

wzrostu 0

25. Większość chłopców będących wysokiego wzro-

stu jest w wieku nastoletnim 0,031 (2)

Podsumowania od 17 do 20 potwierdzają brak znacznych dysproporcji po- między liczbą wysokich chłopców i wysokich dziewcząt oraz nastoletnich chłopców i nastoletnich dziewcząt. Zgodnie z podsumowaniem 17 i 18, jest nieco więcej wysokich chłopców niż wysokich dziewczynek oraz odnosząc się do podsumowań 19 i 20 – nastoletnich dziewcząt w bazie jest kilka więcej niż nastoletnich chłopców. Podsumowanie 21 potwierdza, że nastoletnich dziewczynek jest nieco więcej (liczba chłopców w wieku wczesnoszkolnym jest nieco większa niż dziewczynek).

Wykorzystanie klasycznych form podsumowań, tj. (1) i (2), wzbogaca wyniki o dodatkowe informacje. Rozszerzenie tab. 4 o podsumowania od 22 do 25 uzupełnia informacje na temat analizowanego zbioru danych. Przykładem jest potwierdzenie braku dysproporcji pomiędzy zbiorami chłopców i dziewczynek.

Dedykowany algorytm może w łatwy sposób wyznaczyć stopnie prawdziwości, wybrać najlepsze z nich (niosące najwięcej informacji) oraz zaprezentować je w jasnej i czytelnej formie, np. Około połowa dzieci to dziewczynki. Większość chłopców w odniesieniu do dziewczynek jest wysokiego wzrostu. Około dwóch trze- cich dziewczynek, będących w wieku wczesnoszkolnym, w odniesieniu do chłopców jest wysokiego wzrostu. Ostatni wniosek pokazuje, że nowe formy podsumowań nie wykluczają klasycznych, ale mogą być stosowane równolegle w celu rozszerzenia oraz ulepszenia procesu ekstrakcji wiedzy dotyczącej dużych zbiorów danych.

Literatura

Bosc P., Pivert O., Fuzzy Querying in Conventional Databases [w:] Fuzzy Logic for the Ma- nagement of Uncertainty, eds. L.A. Zadeh, J. Kacprzyk, Wiley, New York 1992.

Flexible Query Answering System, eds. T. Andreasen, H. Christiansen, H.L. Larsen, Kluwer, Boston 1997.

(17)

Kacprzyk J., Yager R.R., Linguistic Summaries of Data Using Fuzzy Logic, „Interna- tional Journal of General Systems” 2001, 30.

Kacprzyk J., Yager R.R., Zadrożny S., A Fuzzy Logic Based Approach to Linguistic Summa- ries of Databases, „International Journal of Applied Mathematics and Computer science” 2000, 10.

Kacprzyk J., Yager R.R., Zadrożny S., Fuzzy Linguistic Summaries of Databases for an Efficient Business Data Analysis and Decision Support [ w:]: Knowledge Di- scovery for Business Information Systems, eds. W. Abramowicz, J. Zurada, Kluwer Academic Publisher, Boston 2001.

Kacprzyk J., Zadrożny S., Flexible Querying Using Fuzzy Logic: An Implementation for Microsoft Access [ w : ] Flexible Query Answering Systems, eds. T. Andreasen, H. Christiansen, H.L. Larsen, Kluwer, Boston 1997.

Niewiadomski A., News Generating via Fuzzy Summarization of Databases, „Lecture Notes in Computer Science” 2006, 3831.

Niewiadomski A., Six New Informativeness Indices of Data Linguistic Summaries [w:] Advances in Intelligent Web Mastering, eds. P.S. Szczepaniak, K. Węgrzyn-Wolska, Springer-Verlag, 2007.

Raschia G., Mouaddib N., SAINTETIQ: A Fuzzy Set-Based Approach to Database Summarization, „Fuzzy Sets and Systems” 2002, 129.

Rasmussen D., Yager R.R., A fuzzy SQL Summary Language for Data Discovery [w:] Fuzzy Information Engineering: A Guided Tour of Application’s, eds. D. Dubois, H. Prade, R.R. Yager, Wiley, New York 1997.

Yager R.R., A New Approach to the Summarization of Data, „Information Science” 1982, 28.

Yager R.R., On Ordered Weighted Averaging Operators in Multicriteria Decision Making, „ IEEE Transactions on Systems, Man, and Cybernetics” 1988, 18.

ACQUIRING KNOWLEDGE FROM RELATIONAL DATABASES:

MULTI-SUBJECT LINGUISTIC SUMMARIES Summary

The aim of this article is to show how fuzzy logic based algorithms can be applied to analyze large datasets and present its results in a human-friendly form: using natural language. A new concept of linguistic summaries is demonstrated: multi-subject linguistic summaries of relational databases, that extends the classic manner. This paper focuses on new, interesting forms of linguistic summaries, which are represented by equations (4), (11), (15) and (18). This article also contains discussion about calculating degrees of truth of the new forms. From the potential end user point of view simplified form of presenting results using natural language expressions is the most important thing. This paper includes demon- stration and description of standalone application that generates analysis of large dataset and presents results using short and intuitive expressions in natural language. Possibilities given by the multi-subject linguistic summaries, e.g. description and comparison of more than one subject in one summarization, makes them great extension and complementation of existing forms of linguistic summaries.