• Nie Znaleziono Wyników

Dotychczasowe badania nad zastosowaniem wiedzy dziedzinowejwiedzy dziedzinowej

Literatura w dziedzinie odkrywania wiedzy z danych dostarcza wielu przykªadów zastosowania wiedzy dziedzinowej w procesie KDD. W podrozdziale przedstawione zostan¡ podej±cia do tego zagadnienia dla procesu KDD oraz osobno w zadaniu klasykacji i tworzenia odlegªo±ci semantycznej, które s¡ tematem rozprawy.

Przegl¡d istniej¡cych podej±¢ do problemu odkrywania wiedzy z wyko-rzystaniem wiedzy dziedzinowej

Ró»ni badacze przedstawili sugestie dotycz¡ce roli wiedzy dziedzinowej w KDD.

Brachman i Anand [27] zwrócili uwag¦, »e wiedza dziedzinowa powinna prowadzi¢

proces KDD i nim kierowa¢. Fayyad i wsp. [52] sugeruj¡, »e zastosowanie wie-dzy dziedzinowej jest wa»ne we wszystkich etapach procesu odkrywania wiewie-dzy.

Domingos [47] sugeruje wykorzystanie tej wiedzy jako najbardziej obiecuj¡cego podej±cia do zaw¦»ania odkrywania wiedzy oraz dla unikni¦cia znanego problemu nadmiernego dopasowania odkrytych modeli do zbioru ucz¡cego. Yoon i wsp. [171]

proponuj¡ nast¦puj¡c¡ klasykacj¦ wiedzy dziedzinowej: wiedza mi¦dzyatrybu-towa, która opisuje zale»no±ci mi¦dzy atrybutami, wiedza kategorii dziedzinowych, która reprezentuje u»yteczne kategorie warto±ci atrybutów i wiedza korelacji dzie-dzinowych sugeruj¡ca korelacje mi¦dzy atrybutami. W podobny sposób Anand i wsp. [8] identykuj¡ nast¦puj¡ce formy wiedzy dziedzinowej: reguªy relacji mi¦-dzy atrybutami AR-rules (ang. Attribute Relationship Rules), hierarchiczne drzewa uogólniania HG-Trees (ang. Hierarchical Generalization Trees) i wi¦zy EBC (ang.

Environment-Based Constraints). Przykªadem wi¦zu jest okre±lenie stopnia za-ufania do ró»nych ¹ródeª danych. Autorzy zastosowali wiedz¦ dziedzinow¡ w celu zmniejszenia przestrzeni poszukiwa« przed faz¡ eksploracji danych, co daªo bar-dziej intuicyjne wzorce. W innym badaniu, Ambrosino i Buchanan [7] badali, czy dodanie wiedzy dziedzinowej poprawia indukcj¦ reguª w przewidywaniu ryzyka zgonu u pacjentów z pozaszpitalnym zapaleniem pªuc. Rozszerzone modele osi¡-gaªy znacznie lepsze wyniki (ni»szy ±redni bª¡d) ni» modele bez wiedzy. Zastoso-wanie wiedzy dziedzinowej polegaªo na dodaniu nowych atrybutów, które zostaªy pozyskane na podstawie istniej¡cych atrybutów. Wedªug Pohle [115] techniki eks-ploracji danych s¡ skuteczne w generowaniu u»ytecznych statystyk oraz znajdowa-niu wzorców w du»ych zbiorach danych, ale nie s¡ tak skuteczne w interpretacji tych wyników, w czym mo»e pomóc wiedza dziedzinowa. Dybowski i wsp. [49] ba-dali, w jaki sposób mo»na ª¡czy¢ techniki eksploracji danych z wiedz¡ dziedzinow¡, aby skonstruowa¢ bardziej u»yteczne, efektywne i skuteczne systemy wspomaga-nia decyzji. W innym badaniu, Weiss i wsp. [165] poª¡czyli system ekspertowy z metodami eksploracji danych do uzyskania lepszej identykacji przyszªych

klien-tów. Opracowali system ekspertowy prowadz¡cy wywiady z menad»erami maªych i ±rednich przedsi¦biorstw, który na podstawie ich odpowiedzi, zaleca rozpozna-wanie przyszªych klientów. Pary pytanie-odpowied¹ i zalecane rozwi¡zania byªy przechowywane jako przykªady przeznaczone do eksploracji metod¡ indukcji re-guª. Badanie pokazaªo, w jaki sposób baza wiedzy mo»e by¢ wykorzystywana do naprowadzania procesu odkrywania wiedzy. Autorzy wskazuj¡, »e techniki opra-cowane w badaniu mog¡ by¢ przydatne dla systemów konsultacyjnych. Znaczenie ludzkiej inteligencji w eksploracji danych zostaªo zbadane przez Sharma i Osei-Bryson [133]. Naukowcy zidentykowali dwana±cie procesów eksploracji danych, które wymagaj¡ ludzkiej inteligencji. Uznano, »e DM wymaga ludzkiej inteligencji w celu wygenerowania wa»nych wyników. Chien i Chen [37] wspóªpracowali z eks-pertami dziedzinowymi nad utworzeniem specycznej procedury rekrutacji pra-cowników i strategiami zarz¡dzania zasobami ludzkimi z wykorzystaniem technik eksploracji danych. Ich wyniki zostaªy z powodzeniem zastosowane w rzeczywistej dziaªalno±ci gospodarczej. Singh i Nagpal [137] zaproponowali algorytm IAR (ang.

Interactive Association Rule Mining), stanowi¡cy modykacj¦ algorytmu Apriori.

W podej±ciu tym ekspert dziedzinowy wskazuje interesuj¡ce go atrybuty. Transak-cje niezawieraj¡ce tych atrybutów s¡ usuwane, co prowadzi do odkrywania tylko reguª z wybranymi atrybutami. W wyniku zastosowania takiego podej±cia genero-wano mniej zbiorów cz¦stych (ang. frequent itemsets), uzyskuj¡c w wyniku krótszy czas odkrywania reguª. Na podstawie przegl¡du przedstawionego przez Cao i wsp.

w [35], mo»na stwierdzi¢, »e przeprowadzono wiele innych bada« wskazuj¡cych na wa»ne znaczenie wiedzy dziedzinowej w eksploracji danych. Równie» w publi-kacjach [13, 16] przedstawiono podej±cia maj¡ce na celu poprawienie za pomoc¡

wiedzy dziedzinowej jako±ci klasycznych metod konstruowania klasykatorów, ta-kie jak wprowadzanie podpowiedzianych przez eksperta wag klas decyzyjnych czy dyskretyzacja atrybutów wsparta za pomoc¡ wiedzy dziedzinowej.

Przegl¡d istniej¡cych podej±¢ do klasykacji z wykorzystaniem wiedzy dziedzinowej

W jednym z pierwszych bada« na ten temat, Pazzani i Kibler [108] opracowali algo-rytm uczenia ogólnego przeznaczenia o nazwie FOCL (ang. First Order Combined Learner), który ª¡czyª uczenie oparte na wyja±nieniach z uczeniem indukcyjnym.

W pó¹niejszej pracy, Pazzani i wsp. [109] przeprowadzili eksperyment porównu-j¡cy FOCL z wiedz¡ dziedzinow¡ z FOCL bez tej wiedzy. Jako wiedz¦ dziedzi-now¡ zastosowano fragment bazy wiedzy systemu ekspertowego. Autorzy stwier-dzili, »e wª¡czenie wiedzy dziedzinowej znacz¡co zmniejsza liczb¦ bª¦dnych

klasy-kacji, gdy powi¦ksza si¦ zbiory treningowe. Hirsh i Noordewier [69] zastosowali wiedz¦ dziedzinow¡ dotycz¡c¡ biologii molekularnej do wyra»ania danych za po-moc¡ cech wy»szego poziomu. Prowadzili oni eksperymenty z cechami wy»szego

poziomu i bez nich, stosuj¡c drzewa decyzyjne C4.5 i sztuczne sieci neuronowe z propagacj¡ wsteczn¡ w zadaniach klasykacji sekwencji DNA (promotorowych i typu splice-junction). Dane surowe (sekwencje 60 nukleotydów) zast¡piono 19 cechami, takimi jak np. obecno±¢ wzorców GTG/CAC (zwi¡zane z interakcjami DNA-biaªko), wªa±ciwo±ci zyczne i chemiczne sekwencji (proporcja A i T wpªy-waj¡ca na temperatur¦ rozwijania helis DNA), ksztaªt helisy DNA (na podstawie pewnej kolejno±ci zasad). Odsetek bª¦dów metody C4.5 wynosiª 20.4% dla cech niskopoziomowych i 8.7% dla wysokopoziomowych podczas klasykacji promoto-rów oraz 13.2% dla cech niskopoziomowych i 4.2% dla wysoko-poziomowych pod-czas klasykacji splice-junctions. Podobne wyniki uzyskano dla sieci neuronowych.

W przypadku obu metod, wykorzystanie cech wy»szego poziomu daªo w wyniku znacz¡co ni»sze wska¹niki bª¦dów. Ciekawe, »e poª¡czenie obu typów cech daªo gorsze wyniki ni» dla samych tylko cech wysokiego poziomu: 10.6% i 5.1%, od-powiednio dla promotorów i splice-junction. Ware i wsp. zaproponowali w [163]

interaktywne podej±cie do budowy drzew decyzyjnych, w których podziaªy w¦zªów wskazywane s¡ przez u»ytkownika (eksperta). System na ka»dym etapie budowy drzewa umo»liwia wizualizacj¦ danych w w¦zªach i aktualizuje je stosownie do wy-branych podziaªów. Wyniki w postaci dokªadno±ci klasykacji ACC (patrz Rozdz.

3.3), uzyskane za pomoc¡ takiego podej±cia dla zbioru Iris (z repozytorium [158]), powszechnie stosowanego do testowania metod klasykacji, byªy porównywalne z wynikami metody C4.5, ale uzyskiwano mniejsze rozmiary drzew. Zastosowanie abstrakcyjnych atrybutów do budowy drzew decyzyjnych zaproponowali Zhang i wsp. w [176]. W podej±ciu tym wykorzystywana jest hierarchiczna taksonomia warto±ci atrybutów AVT (ang. attribute value taxonomy), w której na wy»szych poziomach znajduj¡ si¦ atrybuty abstrakcyjne, stanowi¡ce zgrupowane warto±ci ni»szego poziomu (np. sok jabªkowy i sok pomara«czowy reprezentuj¡ abstrak-cyjny atrybut: sok owocowy). Algorytm wybiera nie tylko atrybut, ale tak»e jego poziom abstrakcji. Rola eksperta polega na utworzeniu taksonomii atrybutów sta-nowi¡cej sposób reprezentacji wiedzy dziedzinowej. Wykorzystanie tego podej±cia np. do danych dotycz¡cych nowotworów zªo±liwych piersi daªo zmniejszenie odsetka bª¦dów klasykacji metody C4.5 z 34% do 29% [175]. W badaniach przeprowadzo-nych przez Sinha i Zhao [138] zastosowano wiedz¦ dziedzinow¡ przy wyznaczaniu zdolno±ci kredytowej z wykorzystaniem 7 metod klasykacji (naiwny klasyka-tor Bayesa, regresja logistyczna, drzewa i tablice decyzyjne, sztuczne sieci neuro-nowe, metoda k-najbli»szych s¡siadów i SVM. Wiedza dziedzinowa miaªa posta¢

dodatkowego atrybutu wyznaczonego na podstawie reguª eksperta (ocena mo»li-wo±ci spªaty kredytu w zakresie 0-100%). Ustalono, »e istnieje zale»no±¢ pomi¦dzy sposobem klasykacji a wiedz¡ dziedzinow¡. Badacze stwierdzili, »e zastosowanie wiedzy dziedzinowej ma wi¦kszy wpªyw na wydajno±¢ niektórych metod eksplo-racji danych, ni» innych. Z wyj¡tkiem drzew decyzyjnych uzyskano statystycznie

istotn¡ popraw¦ jako±ci klasykacji w porównaniu z modelami bez wiedzy dzie-dzinowej. Zhao i in. [177] zbadali wpªyw zastosowania wiedzy dziedzinowej na wyniki przewidywania upadªo±ci banków. W oparciu o wiedz¦ dziedzinow¡ skon-struowano 26 nowych zmiennych (wska¹niki nansowe), których zastosowanie w 4 badanych metodach klasykacji (regresja logistyczna, drzewa decyzyjne, sztuczne sieci neuronowe i metoda k-najbli»szych s¡siadów) daªo statystycznie istotn¡ po-praw¦ jako±ci klasykacji. Wyniki ich bada« wykazaªy, »e takie podej±cie znacznie poprawia wydajno±¢ klasykatora, przy czym byªa ona najmniejsza dla drzew de-cyzyjnych. Podej±cie zaproponowane przez Redouane i wsp. w [124] polega na podziale zbioru danych przez eksperta dziedzinowego na niezale»ne semantycznie cz¦±ci. Ka»da cz¦±¢ jest traktowana jako szum informacyjny dla pozostaªych

cz¦-±ci zbioru i dlatego dla ka»dej z nich budowane jest osobne drzewo decyzyjne.

Podej±cie to zastosowano do klasykacji chorób gruczoªu tarczowego, oddzielaj¡c infekcje tego narz¡du wyst¦puj¡ce u dorosªych od tych wyst¦puj¡cych u dzieci.

Uzyskane w ten sposób ±rednie ACC dla podzbiorów wynosiªo 68%, natomiast dla caªego zbioru: 66%.

Przegl¡d istniej¡cych podej±¢ do konstrukcji odlegªo±ci z wykorzysta-niem wiedzy dziedzinowej

Przegl¡d istniej¡cych podej±¢ do wyznaczania odlegªo±ci mi¦dzy poj¦ciami przed-stawiono w [110] oraz [152]. Miary podobie«stwa semantycznego i pokrewie«stwa podzielono tam na takie rodzaje jak: oparte na ±cie»kach w ontologii poj¦¢, oparte na zawarto±ci informacji oraz na wektorach kontekstowych. Rada i wsp. [121]

de-niuj¡ poj¦cie odlegªo±ci semantycznej jako dªugo±¢ najkrótszej ±cie»ki ª¡cz¡cej dwa poj¦cia w ontologii poj¦¢. Im dªu»sza ±cie»ka, tym bardziej oddalone seman-tycznie s¡ poj¦cia. Miar¦ podobie«stwa semantycznego pomi¦dzy poj¦ciami opart¡

na dªugo±ci oraz gª¦boko±ci ±cie»ki zaproponowali Wu i Palmer w [170]. Podej±cie to wykorzystuje liczb¦ kraw¦dzi typu 'is-a' od poj¦¢ do najbli»szego wspólnego przodka LCS (ang. lowest common subsumer) oraz liczb¦ kraw¦dzi do korzenia taksonomii. Leacock i Chodorow [86] zaproponowali miar¦ podobie«stwa seman-tycznego opart¡ na najkrótszej ±cie»ce w leksykalnej bazie danych WordNet [169].

Dªugo±¢ ±cie»ki jest skalowana z wykorzystaniem maksymalnej gª¦boko±ci takso-nomii do warto±ci z przedziaªu od 0 do 1, a podobie«stwo jest wyliczane jako ujemny logarytm z tej warto±ci. Miara podobie«stwa oparta na poj¦ciu

zawarto-±ci informacji IC (ang. Information Content) zostaªa przedstawiona przez Resnika w [125]. IC b¦d¡ca miernikiem specyczno±ci poj¦cia, jest obliczana dla ka»dego poj¦cia w hierarchii na podstawie cz¦sto±ci wyst¦powania tego poj¦cia w szerszym kontek±cie. Wykorzystuj¡c poj¦cie IC, Resnik proponuje miar¦, w której podo-bie«stwo semantyczne dwóch poj¦¢ jest proporcjonalne do ilo±ci informacji, któr¡

dziel¡. Lin w [88] zaproponowaª rozszerzenie pracy Resnika, poprzez skalowanie

zawarto±ci informacyjnej poj¦cia nadrz¦dnego LCS przez zawarto±¢ informacyjn¡

poszczególnych poj¦¢. Hsu i wsp. [70] przedstawili reprezentacj¦ odlegªo±ci w po-staci hierarchii odlegªo±ci stanowi¡cej rozszerzenie hierarchii poj¦¢ poprzez nadanie wag poª¡czeniom. Odlegªo±¢ mi¦dzy dwiema warto±ciami atrybutu (kategorycz-nego lub numerycz(kategorycz-nego) jest mierzona jako caªkowita waga poª¡cze« na ±cie»ce mi¦dzy dwoma w¦zªami poj¦¢. Wagi okre±lane s¡ przez eksperta (wiedza dziedzi-nowa). Proponowane podej±cie zastosowane w algorytmie grupowania z u»yciem hierarchicznej metody aglomeracyjnej lepiej ukazywaªo podobie«stwo struktury danych.

Wymienione metody wyznaczania odlegªo±ci semantycznej z wykorzystaniem WD dotycz¡ budowy odlegªo±ci mi¦dzy poj¦ciami lub warto±ciami atrybutów, przez co znajduj¡ zastosowanie np. w dyskretyzacji atrybutów. Proponowana nato-miast w rozprawie metoda konstrukcji odlegªo±ci ontologicznej stanowi odmienne podej±cie, maj¡ce na celu porównywanie podobie«stwa mi¦dzy obiektami przyna-le»¡cymi do poj¦¢, podobnie jak w metodzie mierzenia podobie«stwa pomi¦dzy planami we wcze±niejszej pracy autorki rozprawy [16].

Jak pokazano w przedstawionym przegl¡dzie literatury na temat zastosowa-nia WD w procesie KDD, wiedza dziedzinowa jest stosowana w ró»nym stopniu na wielu etapach i w zró»nicowanej postaci. Trzeba tak»e zwróci¢ uwag¦ na fakt,

»e wiele obecnych narz¦dzi do odkrywania wiedzy nie umo»liwia reprezentowania wiedzy dziedzinowej. Wykorzystanie tej wiedzy w praktyce jest najcz¦±ciej obsªu-giwane r¦cznie, poprzez wyeliminowanie np. zb¦dnych atrybutów dla konkretnego problemu decyzyjnego [103].

2.6.1 Problemy we wdra»aniu wiedzy dziedzinowej do pro-cesu odkrywania wiedzy

Pomimo wielu doniesie« o mo»liwo±ciach poprawiania efektywno±ci odkrywania wiedzy z danych z wykorzystaniem wiedzy dziedzinowej, wci¡» nie opracowano jednolitej metodologii jej zastosowania. Wynika to z wielu przyczyn, w±ród któ-rych mo»na wyró»ni¢ trudno±ci z dost¦pem do ekspertów, pozyskiwaniem wiedzy od ekspertów, jej reprezentacj¡ i ró»ne obszary zastosowa«. Nabywanie wiedzy jest zwykle trudnym i czasochªonnym zadaniem [164], poniewa» eksperci cz¦sto nie potra¡ wyrazi¢ heurystyk lub zasad, które sªu»¡ im do skutecznego rozwi¡-zania problemów decyzyjnych. To zjawisko nazywane jest w¡skim gardªem w pro-cesie akwizycji wiedzy (ang. knowledge acquisition bottleneck) [138]. Co wi¦cej, im bardziej kompetentnym staje si¦ ekspert, tym mniej jest on w stanie opisa¢

wykorzystywan¡ przez siebie wiedz¦ do rozwi¡zywania problemów [74]. Istotny jest tak»e ograniczony czas, który ekspert mo»e po±wi¦ci¢ na opisywanie swojej wiedzy. W±ród metod maj¡cych na celu rozwi¡zanie przedstawionych problemów w pozyskiwaniu wiedzy opracowano na gruncie in»ynierii wiedzy wiele technik uªa-twiaj¡cych to zadanie. Nale»¡ do nich m.in.: przeprowadzanie wywiadów, proto-koªy analiz czy obserwacje. Zwraca si¦ uwag¦ tak»e na odpowiedni dobór eksperta, od którego wiedza b¦dzie pozyskiwana. Wybór powinien opiera¢ si¦ na osi¡gni¦-ciach i do±wiadczeniu eksperta, a tak»e ªatwo±ci komunikacji z in»ynierem wiedzy.

Niestety, wiedza dziedzinowa cz¦sto jest nieformalna i trudno strukturyzowalna.

Trudno jest zatem wciela¢ t¦ wiedz¦ do standardowych metod eksploracji danych.

Z drugiej strony nale»y zachowa¢ pewn¡ ostro»no±¢ przy stosowaniu wiedzy dziedzinowej w odkrywaniu wiedzy z danych, o czym ju» wspomniano w tym roz-dziale.

Rozdziaª 3

Wybrane metody tworzenia