• Nie Znaleziono Wyników

Agregacja wyników zespoªu klasykatorów

Metody formalne przedstawione w p. 3.3 daj¡ podstaw¦ dwóm wariantom wnioskowania omawianego w p. 3.2: bazuj¡cemu na funkcjach prawdopodo-bie«stwa albo na funkcjach przekonania. W kolejnych punktach scharaktery-zowano obydwa te warianty. W p. 3.4.3 szczegóªowo przedstawiono podej±cie opracowane w rozprawie.

3.4.1 Zastosowanie funkcji prawdopodobie«stwa

Wagi konkluzji we wnioskowaniu (3.10-3.12) mog¡ by¢ uto»samiane z funk-cjami prawdopodobie«stwa()Pr() oraz przeksztaªcane z u»yciem praw-dopodobie«stw warunkowych Pr(j). Znajomo±¢ zagregowanych wag agr() konkluzji ko«cowych w postaci rozkªadu prawdopodobie«stwa Pr(Cjs) po-zwala warto±ciowa¢ poszczególne decyzjedi 2Dna podstawie wielko±ci strat oczekiwanychL(dijs), obliczanych wedªug formuªy (3.30) podanej na s. 47.

Jak opisano w p. 3.1, proponowana procedura selekcji danych skªada si¦ z zespoªu klasykatorówTci;cj konstruowanych na podstawie zbiorów ucz¡cych zawieraj¡cych wyª¡cznie przykªady obiektów dwóch klas ci;cj 2 C.

Klasy-kacja obiektów z u»yciem klasykatora Tci;cj mo»e przynosi¢ uzasadnione, cho¢ obarczone niepewno±ci¡ statystyczn¡, wyniki w odniesieniu do obiektów nale»¡cych faktycznie do klas ci i cj. Rozstrzygni¦cia klasykatora Tci;cj co do obiektów z klasck 6=ci i ck 6= cj w ogólno±ci dokonywane b¦d¡ w sposób

3.4 Agregacja wyników zespoªu klasykatorów 51 nieokre±lony. Wynik klasykatora Tci;cj mo»na zatem u»y¢ do aktualizacji wag konkluzji wskazuj¡cych na przynale»no±¢ obiektu do klas ci i cj. In-nymi sªowy, wi¡»emy wyniki klasykacji z rozkªadem prawdopodobie«stwa warunkowego Pr(cijfci;cjg;s)

ci;cj(ci) = Pr(cijfci;cjg;s) = Pr(cijs)

Pr(cijs) + Pr(cjjs) (3.42.1)

ci;cj(cj) = 1?ci;cj(ci) (3.42.2) przy czym druga równo±¢ wynika wprost z denicji prawdopodobie«stwa wa-runkowego; upraszczamy tu notacj¦, zapisuj¡cci;cj w miejsce symboluTci;cj

stosowanego w p. 3.2.

Poszukiwane przez nas zagregowane wagi agr(ci) odpowiadaj¡ rozkªa-dowi prawdopodobie«stwa warunkowego Pr(Cjs)

agr(ci)= Pr(cdf ijs) dla ka»dego ci 2C (3.43) W rezultacie wykonania serii testówTci;cji<jpowstaje wi¦c zbiór warto±ci wagci;cj(ci). Ich agregacja (3.12) wymaga okre±lenia agr(ci) = Pr(cijs), co prowadzi do nast¦puj¡cego ukªadu równa« ([Hastie 1998])

agr(ci)

agr(ci) +agr(cj) = ci;cj(ci) dla wszystkich (3.44.1)

fci;cjgC;i < j

X

ci2Cagr(ci) = 1 (3.44.2)

przy warunku:

0 agr(ci) 1 dla ka»degoci 2C (3.44.3) Formuªy (3.44.1) i (3.44.2) deniuj¡jCj (jCj ?1)=2+1 równa« zawieraj¡cych

jCj niewiadomych (agr(ci)). Zadanie jest wi¦c nadokre±lone, i w ogólno±ci mo»e nie mie¢ rozwi¡zania. Poszukiwa¢ wi¦c mo»na rozwi¡zania, które jest najbli»sze, w okre±lonym sensie, speªnienia wszystkich ogranicze«.

Estymowanie prawdopodobie«stw a posteriori Pr(cijs) w zadaniach kla-sykacji zbioru klas C takiego, »e jCj > 2, rozwi¡zywanych z u»yciem ze-spoªu klasykatorów binarnych (ang. pairwise classiers) ma bogat¡ litera-tur¦. Mo»na tu wymieni¢ nast¦puj¡ce prace: [Refregier 1991], [Price 1994], [Friedman 1996], [Hastie 1998], [Cutzu 2003] i [Wu 2004]. Wi¦kszo±¢ z pro-ponowanych w tym celu metod jest kosztowna obliczeniowo, niektóre z nich wymagaj¡ wielokrotnego przetworzenia zbioru ucz¡cego zawieraj¡cego przy-kªady wszystkich separowanych klas ([Moreira 1998]).

52 Rozdziaª 3. Proponowana metoda selekcji

3.4.2 Zastosowanie funkcji przekonania

Wagi konkluzji we wnioskowaniu (3.10-3.12) mo»na zinterpretowa¢ jako war-to±ci funkcji podstawowego przypisania prawdopodobie«stwa (m). Podej±cie takie zapewnia spójny opis stanu niepewno±ci wynikaj¡cego zarówno z przy-padkowo±ci zdarze«, jak i, z braku ogólnych kompetencji klasykatorów. Ten brak kompetencji spowodowany jest faktem, »e przy uczeniu klasykatora uwzgl¦dniono wyª¡cznie przykªady dwóch spo±ród wielu istniej¡cych klas.

Podej±cie to wymaga by wagi konkluzji opartych na wyniku testu Tci;cj sta-nowiªy poprawne podstawowe przypisanie prawdopodobie«stwa okre±lone na zbiorzeCci;cj =fci;cjg (dziedzinie konkluzji testu)

ci;cj(A) = mci;cj(A) dla ACci;cj C (3.45) Natomiast zagregowane wagi konkluzji zespoªu testów musz¡ tworzy¢ pod-stawowe przypisanie prawdopodobie«stwa okre±lone na zbiorzeC

agr(A)=df magr(A) dla AC (3.46) Funkcja magr musi by¢ logicznie spójna z funkcjamimci;cj.

Ogólniejsza w porównaniu z teori¡ funkcji prawdopodobie«stwa aksjoma-tyka teorii funkcji przekonania oraz wielo±¢ jej interpretacji: jako uogólnionej funkcji prawdopodobie«stwa [Dempster 1967], jako reprezentacji przesªanki (ang. body of evidence) [Shafer 1976] czy subiektywna [Smets 1994], czyni¡

z funkcji przekonania narz¦dzie znajduj¡ce szerokie zastosowanie w zaga-dnieniach klasykacji. W literaturze podano ró»ne schematy post¦powania zmierzaj¡cego do przedstawienia niepewno±ci towarzysz¡cej wynikowi

klasy-kacji w postaci funkcji podstawowego przypisania prawdopodobie«stwa. Ich podstawowe elementy przedstawiaj¡ p. 3.4.2.1-3, za± p. 3.4.2.4 omawia szcze-gólne uwarunkowania ewentualnych zastosowa« w proponowanej w rozprawie procedurze selekcji z danych masowych.

3.4.2.1 Dziedzina konkluzji

Dziedzin¦ konkluzji zwi¡zanych z danym klasykatorem okre±laj¡:

 przyj¦ta kategoryzacja wyj±ciowa klasykatora, czyli zbiór wszystkich roz-wa»anych klas 10 oraz

 zbiór elementów ogniskowych (ang. focal elements)11, czyli lista podzbiorów klas spo±ród kategoryzacji wyj±ciowej, którym znaj¡c rezultat dziaªania

kla-10Kategoryzacja wyj±ciowa stanowi frame of discernment wnioskowa« prowadzonych na podstawie wyników danego klasykatora, w rozumieniu tego poj¦cia podanym przez Shafera [Shafer 1976] s. 36.

11Formalnie, jest to zbiór potencjalnych elementów ogniskowych funkcji bpa reprezen-tuj¡cej wynik klasykatora.

3.4 Agregacja wyników zespoªu klasykatorów 53

sykatora, mo»na przypisa¢ bezpo±rednio i niepodzielnie niezerow¡ warto±¢

prawdopodobie«stwa.

Najpeªniejsz¡ w danym zagadnieniu kategoryzacj¦ wyj±ciow¡ klasykato-rów okre±la zbiór etykiet wszystkich wyró»nianych klas C = fc1;c2;:::;cng. Zakªadamy tu, i» zbiórC jest sko«czony oraz, »e a priori wymienione w nim klasy wyczerpuj¡co kategoryzuj¡ mo»liwe do zaobserwowania obiekty, zatem nie ulega on rozszerzeniu podczas wnioskowania (ang. closed world assump-tion).

W zadaniach wieloklasowych, w których klasykatory przypisuj¡ badane obiekty bezpo±rednio do klasci, kategoryzacja wyj±ciowa klasykatorów jest identyczna ze zbioremC, a w±ród elementów ogniskowych znajduj¡ si¦ zbiory jednoelementowe ffc1g;:::;fcig;:::;fcngg. W zadaniach wieloklasowych rozwi¡zywanychzespoªami klasykatorów binarnych, kategoryzacje wyj±ciowe wªa±ciwe dla poszczególnych klasykatorów Tci;cj, fci;cjg  C, i<j, de-niowane s¡ jako Cci;cj  fci;cjg albo Cci;cj  C 12. Kategoryzacja

wyj-±ciowa Cci;cj  fci;cjg daje mo»liwo±¢ okre±lenia na niej funkcji podsta-wowego przypisania prawdopodobie«stwa mci;cj zogniskowanej na zbiorach

ffcig;fcjg;fci;cjgg. W konsekwencji nie ka»da para spo±ród zbioru funkcji

fmci;cj: fci;cjg C, i<j g jest kombinowalna zgodnie z reguª¡ Dempstera.

Z tego powodu kategoryzacje wyj±ciowe Cci;cj  fci;cjg znajduj¡ zastoso-wanie raczej w rozwi¡zaniach, w których funkcje przekonania interpretuje si¦ w terminach prawdopodobie«stwa, co szerzej omówiono w p. 3.4.2.2 . Dla rozwi¡za«, w których z wynikami klasykatorów wi¡»e si¦ funkcje bpa msci;cj interpretowane jako reprezentacja przesªanek, dogodn¡ jest kategory-zacja wyj±ciowa Cci;cj  C. Umieszczenie zbioru C w±ród elementów ogni-skowych ka»dej z funkcji f msci;cj: fci;cjg  C, i<j g czyni je wszystkie wzajemnie kombinowalnymi.

3.4.2.2 Wagi o znaczeniu prawdopodobie«stwa

Je»eli stosowany kla-sykator Ti badaj¡c obiekt s o wektorze cech s podaje na wyj±ciu zarówno etykiet¦ klasy ck, jak i pewn¡ liczb¦ o znaczeniu warto±ci prawdopodobie«-stwa a posteriori Pr(s 2 ckjs), to w naturalny sposób liczby te mo»na zin-terpretowa¢ jako warto±ci funkcji bpa mTi(ck) interpretowanej jako uogól-niona funkcja prawdopodobie«stwa [Hastie 1998]. Schemat konstrukcji ta-kiej funkcji bpa mTi(ck), ale dla klasykatorów podaj¡cych na wyj±ciu je-dynie etykiet¦ klasy, podali Xu i in. [Xu 1992]. Proponuj¡ oni, by funk-cj¦ podstawowego przypisania prawdopodobie«stwa konstruowa¢ na podsta-wie macierzy bª¦dów klasykatorów, stworzonych indywidualnie dla ka»dej z klas ck 2 C. Przyjmuj¡ oni, »e je»eli klasykator Ti zaliczy badany obiekt

12Pomijaj¡c dla uproszczenia opisu rozwi¡zania po±rednie, w których2<jCci;cjj<jCj.

54 Rozdziaª 3. Proponowana metoda selekcji

do klasy ck, wówczas: mTi(fckg) = TPRTi:ck, mTi(fckg) = FNRTi:ck oraz mTi(C) = 1?TPRTi:ck ?FNRTi:ck 13.

3.4.2.3 Wagi o znaczeniu stopnia przekonania

Quost i wspóªau-torzy [Quost 2007] zaproponowali podej±cie do agregacji wyników klasy-katorów interpretowanych jako funkcje przekonania rozumiane jako repre-zentacja przesªanek. Operacj¦ agregowania funkcji mTi sprowadzaj¡ oni do zadania rozwi¡zania ukªadu równa«, przez analogi¦ do zadania (3.44.1-3.44.2). Mianowicie, przyjmuje si¦, »e ka»da z funkcji bpa reprezentuj¡cych wyniki poszczególnych testów Tci;cj jest rezultatem kombinacji, z u»yciem reguªy Dempstera, pewnej nieznanej funkcji bpa magr okre±lonej na 2C i funkcji bpa mfci;cjg reprezentuj¡cej przesªank¦ stanowi¡c¡, »e klasa danego obiektu nale»y do zbiorufci;cjg. Wówczas operacja (3.12) agregacji funkcji mci;cj sprowadza si¦ do wyznaczenia warto±ci tej nieznanej funkcji bpa magr:

agr(A) = magr(A) dla wszystkich A 22C. Wymaga to rozwi¡zania ukªadu równa«

magrmfci;cjg = mci;cj(A) dla ka»degoACci;cj, dla (3.47.1)

wszystkichfci;cjgC;i < j

magr(;) = 0 (3.47.2)

X

ACmagr(A) = 1 (3.47.3)

przy warunku:

0 magr(A) 1 dla ka»degoA C (3.47.4) Liczba równa« zdeniowanych formuª¡ (3.47.1) odpowiada liczbie wszystkich niepustych podzbiorów zbioru Cci;cj pomno»onej przez liczb¦ agregowanych funkcji mci;cj, czyli (j2Cci;cjj?1)jCj(jCj?1)=2, za± liczba niewiadomych (magr(A)) wynosi j2Cj?1. Zadanie jest nadokre±lone i w ogólno±ci nie ma rozwi¡zania, a uzyskanie rozwi¡za« przybli»onych wymaga zastosowania ko-sztownych obliczeniowo algorytmów optymalizacyjnych ([Quost 2007]).

Rogova [Rogova 1994] i Den÷ux [Den÷ux 1995] podaj¡ inny, bli»szy na-szemu podej±ciu, schemat post¦powania w przypadku, w którym klasyka-tory uwa»ane s¡ za ¹ródªa niezale»nych przesªanek homogenicznych prze-mawiaj¡cych za albo przeciw przynale»no±ci badanego obiektu do

okre-±lonych klas. Jego punktem wyj±cia s¡ konstrukcje funkcji podstawowego

13W formuªach: TPRTi:ck oznacza odsetek danych testowych klasy cksklasykowanych poprawnie, za± FNRTi:ckodsetek danych testowych klasy cksklasykowanych bª¦dnie. Xu i wspóªautorzy ([Xu 1992]) dopuszczaj¡ sytuacj¦, w której klasykator nie daje rozstrzy-gni¦cia w zbiorzeC; w tym celu uzupeªniaj¡C o dodatkow¡ klas¦ obiektów odrzuconych, czyni to mo»liwym prawdziwo±¢ relacji1?TPRTi:ck?FNRTi:ck>0; por. p. 1.5.

3.4 Agregacja wyników zespoªu klasykatorów 55 przypisania prawdopodobie«stwa msTi:ck zogniskowanych na zbiorach fckg i

C, koduj¡cych przesªanki za przynale»no±ci¡ do klasy ck

msTi:ck(fckg) =sTi:ck, msTi:ck(C) = 1?sTi:ck (3.48) oraz funkcji msTi::cl zogniskowanych na zbiorach fclg i C, koduj¡cych prze-sªanki przeciw przynale»no±ci do klasycl

msTi::cl(fclg) =sTi::cl, msTi::cl(C) = 1?sTi::cl (3.49) gdzie warto±ci sTi: obliczane s¡ na podstawie wyniku klasykatora w ró»ny sposób, zale»ny od przyj¦tej metody. Metoda wyznaczania warto±ci sTi:

zastosowana w rozprawie opisana jest na s. 65.

FunkcjemsTi:ck i msTi::cl s¡ skªadane zgodnie z reguª¡ Dempstera do po-staci separowalnej funkcji wsparciamsTi koduj¡cej nalnie wynik klasykatora Ti

msTi =M

ck msTi:ck M

cl msTi::cl (3.50) W formule (3.50) przyj¦to odr¦bne indeksy sumowania ck i cl dla

podkre-±lenia, »e nie jest koniecznym uwzgl¦dnianie takiej samej liczby przesªanek przemawiaj¡cych za, co przesªanek przemawiaj¡cych przeciw zaliczeniu badanego obiektu do danej klasy. Zagregowany wynik zespoªu klasykato-rówTi reprezentuje funkcja wsparcia

msagr =M

Ti msTi (3.51)

Opisywany schemat post¦powania znajduje zastosowanie zarówno w przy-padku klasykatorów wieloklasowych, jak i klasykatorów binarnych. W przypadku klasykatorów binarnychTi  Tci;cj. Odpowiednie dla klasyka-toraTci;cj funkcje wsparcia msTci;cj zwykle konstruowane s¡ przy uwzgl¦dnie-niu w (3.50) wyª¡cznie skªadników zck;cl 2fci;cjg, przy czym nie wszystkie ze skªadników, odpowiadaj¡cych czterem mo»liwym kombinacjom indeksów k i l, musz¡ by¢ uwzgl¦dniane.

Formuªy (3.48) i (3.49) prowadz¡ do skonstruowania u»ytecznych funk-cji ms(), o ile racjonalnie i trafnie okre±lone s¡ stopnie wsparcia sTi:ck i sTi::cl, jakiego udziela wynik klasykatora tezom za i przeciw przyna-le»no±ci badanego obiektu do poszczególnych klas [Rogova 1994]. W ogól-no±ci nale»y przyj¡¢, »e aby te stopnie wsparcia mo»na byªo okre±li¢ nie-zb¦dne s¡ odpowiednie specykacje obiektów s w poszczególnych klasach ci 2 C, które mog¡ by¢ modelowane jako zale»no±ci funkcyjne Fci(s) o tej wªasno±ci, »e gdy Fci(s0) > Fci(s) to uprawnione jest twierdzenie, i»

Pl(s0 2ci)> Pl(s2ci), a w uzasadnionych przypadkach równie» twierdzenie

56 Rozdziaª 3. Proponowana metoda selekcji

silniejsze, »e Bel(s0 2 ci) > Bel(s 2 ci). Speªnienie tych warunków pozwala przyjmowa¢ intuicyjnie, »e Pl(s 2 ci) oraz Bel(s 2 ci) s¡ rosn¡cymi funk-cjami Fci(s). Je»eli dokonywana ocena stopni przekonania ma wykazywa¢

zwi¡zek z wynikami klasykatorów racjonalnym jest by wi¡za¢ specykacj¦

Fci z wielko±ciami na podstawie, których algorytm klasykatora przypisuje badane obiekty do okre±lonych klas. W przypadku stosowania klasykato-rów dyskryminacyjnych specykacja Fci mo»e by¢ zwi¡zana monotoniczn¡

relacj¡ z wielko±ci¡ stanowi¡c¡ argument funkcji dyskryminacyjnej klasy-katora. W przypadku innych metod klasykacji, jako specykacja Fci przyj-mowana zwykle bywa jaka± miara podobie«stwa lub odmienno±ci wzgl¦dem obiektów referencyjnych zdeniowanych dla poszczególnych klas ci. Miara ta wyznaczana jest w przestrzeni cech S3 s (klasykacja na podstawie po-równa« odlegªo±ci inter- i intra-klasowych [Mandler 1988], klasykacja me-tod¡ k-NN [Den÷ux 1995]) albo w abstrakcyjnej przestrzeni wielko±ci  wag

 podawanych na wyj±ciu klasykatora (klasykacja metod¡ sieci neurono-wych [Rogova 1994]). Dla klasykatorów ucz¡cych si¦ podstaw¡ stworzenia opisu zwi¡zków pomi¦dzy funkcjami przekonania a specykacjamiFci musz¡

by¢ zbiory przykªadów poprawnie sklasykowanych obiektów.

3.4.2.4 Zastosowanie w procedurze selekcji danych

Rozwa»ane w rozprawie zagadnienie odró»nia si¦ od typowego zadania klasykacji tym, »e nie jest w nimwymagane przypisanie przez klasykator obiektu do konkretnej klasy ci 2 C, lecz wystarczy stwierdzenie, »e nale»y on do podzbioru klas akceptowanychC+ albo podzbioru klas dyskwalikowanychC?.

W tak postawionym zadaniu teoria funkcji przekonania dostarcza dwóch naturalnych strategii decyzyjnych. Jedna z nich nakazuje przypisa¢ klasyko-wany obiekt do podzbioru klasCd = argCi2fC+;C?gmaxfBel(Ci)g, za± druga do podzbioru Cd = argCi2fC+;C?gmaxfPl(Ci)g. Strategie te odpowiadaj¡ podej-mowaniu decyzji na podstawie analizy strat oczekiwanych: dolnejLi górnej L, zdeniowanych formuªami (3.32.1) i (3.32.2) na s. 48, obliczanymi przy funkcji strat przyjmuj¡cej warto±ci l(d+;ci) = 0 i l(d?;ci) = 1 gdy ci 2 C+

oraz l(d+;ci) = 1 i l(d?;ci) = 0 gdyci 2C?

L(djs) = 1?Pl(Cd) (3.52.1) L(djs) = 1?Bel(Cd) (3.52.2) W tym przypadku minimalizacja warto±ci L oznacza wybór rozwi¡zania w najwi¦kszym stopniu domniemywanego, za± minimalizacja warto±ci L wy-bór rozwi¡zania o najwy»szym stopniu przekonania. W ogólno±ci strategie (3.52.1) i (3.52.2) nie s¡ sobie równowa»ne [Den÷ux 1995]. Klasykacja do-konywana na podstawie arbitralnie przyj¦tej strategii  porówna« warto±ci Bel, Pl lub straty oczekiwanej L obliczanej wedªug której± z wariantowych

3.4 Agregacja wyników zespoªu klasykatorów 57 formuªL LL  staje si¦ tym bardziej obiektywne, im ±rednio mniejsza ró»nica warto±ci wyst¦puje pomi¦dzy Bel(Cd) a Pl(Cd).

Je»eli znacz¡ce prawdopodobie«stwo magr przypisane jest bezpo±rednio zbiorowiC, to nale»y oczekiwa¢, i» warto±¢ Pl(Cd) znacz¡co przekroczy war-to±¢ Bel(Cd). Natomiast w przypadku gdy magr(C) 0, a prawdopodobie«-stwo magr pozostaje rozproszone pomi¦dzy wiele podzbiorów AC, w tym takich, »eA C+ albo A  C?, wzrastaj¡ szanse, »e rozbie»no±¢ pomi¦dzy warto±ciami Bel(Cd) i Pl(Cd) zmaleje.

Gdy wyniki klasykatorów s¡ interpretowane jako funkcje przekonania (czy odpowiadaj¡ce im funkcje bpa) nale»y liczy¢ si¦ z wyst¡pieniem ich formalnej sprzeczno±ci. Wyst¡pienie formalnej sprzeczno±ci wyników

klasy-katorów agregowanych drog¡ obliczenia sumy ortogonalnej reprezentuj¡cych je funkcji podstawowego przypisania prawdopodobie«stwa m =m1m2

mn, przejawia si¦ jako niezerowa warto±¢ wielko±ci

 = X

Bi1;Bi2;:::;BinC Bi1\Bi2\\Bin=;

m1(Bi1)m2(Bi2)mn(Bin) (3.53) wyst¦puj¡cej w formule (3.27) deniuj¡cej sum¦ ortogonaln¡, gdzie czynnik 1=(1 ?) zapewnia normalizacj¦ funkcji m (s. 46). Warto±ci   1 czy-ni¡ funkcj¦ m nierelewantn¡, a w przypadku peªnej sprzeczno±ci  = 1 nieokre±lon¡. Lefevre i in. [Lefevre 2002] identykuj¡ trzy gªówne ¹ródªa po-wstawania formalnego koniktu uwidaczniaj¡cego si¦ jako znacz¡ce warto±ci

. W kontek±cie agregacji wyników klasykatorów mo»na je wskaza¢ jako:

 same klasykatory: gdy badany obiekt przypisuj¡ one bª¦dnie albo w sposób przypadkowy; to drugie ma miejsce gdy obiekt ten nie reprezentuje »adnej z klas, do których rozpoznawania dany klasykator zostaª skonstruowany;

 modele funkcji przekonania: gdy nietrafnie wi¡»¡, nawet poprawny, wynik klasykacji ze stopniem wsparcia;

 arytmetyka reguªy kombinacji: narastanie warto±ci wraz z liczb¡ skªada-nych funkcji mi jest ubocznym efektem dziaªa« (3.53), wyst¦puj¡cym nawet wówczas, gdy warto±¢  wyznaczana dla zªo»enia par funkcji mimj jest nieznaczna.

W przypadku agregowania wyników zespoªu klasykatorów binarnych, uczonych na przykªadach reprezentantów jedynie dwóch klas, a stosowa-nych do badania populacji wieloklasowej, nale»y zakªada¢ wyst¡pienie wszy-stkich trzech wymienionych ¹ródeª koniktu. Jako metoda unikni¦cia for-malnej sprzeczno±ci przesªanek, w literaturze proponowane jest u»ycie in-nych ni» sumowanie ortogonalne sformuªowa« reguªy kombinacji (por. np.

[Yager 1987], [Dubois 1988]). Powstaj¡ce przy u»yciu tych reguª kombinacji

58 Rozdziaª 3. Proponowana metoda selekcji

funkcje podstawowego przypisania prawdopodobie«stwa nie s¡ jednak unor-mowane, wobec czego nie mog¡ bezpo±rednio posªu»y¢ do obliczania warto±ci strat oczekiwanych. W rozprawie jako sposób ograniczenia stopnia formal-nej sprzeczno±ci przesªanek proponuje si¦: konstruowanie funkcji wsparcia msci;cj wyª¡cznie na podstawie przesªanek nie prowadz¡cych do koniktu oraz racjonalne zmniejszenie liczby agregowanych klasykatorów.

3.4.3 Rozwi¡zanie proponowane w rozprawie

Uwzgl¦dniaj¡c uwagi przedstawione w punktach 3.4.1 i 3.4.2, przyj¦to by wy-niki klasykatorówTi skªadaj¡cych si¦ na procedur¦ selekcjonuj¡c¡ z danych masowych interpretowa¢ pod postaci¡ wag Ti (por. p. 3.2) uto»samianych z funkcjami podstawowego przypisania prawdopodobie«stwamsTi interpreto-wanymi jako reprezentacja przesªanek. Skonstruowanie tego rodzaju funkcji jest mniej kosztowne obliczeniowo ni» funkcji przekonania rozumianej jako uogólniony rozkªad prawdopodobie«stwa.

U»yty zostanie schemat post¦powania przedstawiony w p. 3.4.2.3. Jego punktem wyj±cia s¡ konstrukcje (3.48) i (3.49) prostych funkcji wsparcia BelsTi:ck koduj¡cych wynik klasykatora traktowany jako niezale»ne prze-sªanki przemawiaj¡ce za przynale»no±ci¡ badanego obiektu s do poszcze-gólnych klasck

msTi:ck(fckg) = BelsTi:ck(s2fckg) = sTi:ck (3.54) oraz funkcji BelsTi::cl koduj¡cych wynik jako niezale»ne przesªanki przeciw

przynale»no±ci obiektus do poszczególnych klas cl

msTi::cl(fclg) = BelsTi::cl(s 62fclg) = sTi::cl (3.55) Zagadnienie wyznaczenia warto±ci liczbowych stopni wsparcia sTi:ck oraz sTi::cl omawia si¦ w dalszej cz¦±ci niniejszego rozdziaªu.

Z zaªo»enia wynik klasykatora konstruowanego na podstawie danych ucz¡cych reprezentuj¡cych klasy ci i cj nie b¦dzie bezpo±rednio interpreto-wany jako wsparcie udzielane tezom (stwierdzeniom) o przynale»no±ci b¡d¹ nieprzynale»no±ci badanych obiektów do klas innych ni» te dwie klasy. Za-tem w przypadku klasykatora binarnegoTi Tci;cj, przy ograniczeniu inter-pretacji wyników do pary klas fci;cjg, rozwa»ane s¡ funkcje podstawowego przypisania prawdopodobie«stwa zdeniowane formuªami (3.56) (zgodnie z

3.4 Agregacja wyników zespoªu klasykatorów 59 3.29 na s. 47)

przesªanki za przesªanki przeciw

tezas2fckg; ck 2fci;cjg tezas62fclg; cl 2fci;cjg

msci;cj:ck(fckg) =sci;cj:ck msci;cj::cl(fclg) =sci;cj::cl

msci;cj:ci( C ) = 1?sci;cj:ck msci;cj::ci( C ) = 1?sci;cj::cl

msci;cj:ck( A ) = 0 msci;cj::cl( A ) = 0

dla pozostaªychA C dla pozostaªychA C

(3.56)

Funkcje msci;cj:ck i msci;cj::cl s¡ skªadane zgodnie z reguª¡ Dempstera do postaci reprezentuj¡cej ª¡czny wynik klasykatora. Formuªa (3.50) podana na s. 55 przyjmuje w tym przypadku posta¢

msci;cj = (msci;cj:cimsci;cj:cj)(msci;cj::ci msci;cj::cj) (3.57) Racjonalne jest pomini¦cie cz¦±ci skªadników w formule (3.57). Miano-wicie rozwa»aj¡c wzajemne relacje mi¦dzy poszczególnymi przesªankami za-kodowanymi jako skªadniki sumy ortogonalnej (3.57) zauwa»amy, »e uwzgl¦-dnianie jednocze±nie przesªanek wspieraj¡cych prawdziwo±¢ tez przecz¡cych sobie wprost: s2fcig^s62fcig lub s 2fcjg^s 62fcjg, powoduje, »e:

- je»eli badany obiekt jest z du»¡ wiarygodno±ci¡ rozpoznawany jako reprezen-tant jednej z klasfci;cjg, a stosowanymodel interpretacji wyników adekwat-nie wi¡»e wyniki klasykatora ze stopniami wsparcia sci;cj:ci oraz sci;cj::ci, to jedna z tych wielko±ci musi mie¢ warto±¢ blisk¡ 1, a druga 0; w efekcie dla jednej ze skªadanych funkcji b¦dzie zachodzi¢ms(;:)(C)1, funkcja taka nie wnosi istotnych informacji do wnioskowania;

- je»eli wynik klasykacji nie jest jednoznaczny  klasykator jest niskiej ja-ko±ci, analizuje obiekt w odniesieniu, do którego nie jest kompetentny lub nieadekwatnie wi¡zane s¡ jego wyniki z przyznawanymi stopniami wsparcia

 wówczas ka»dej z tych dwóch przecz¡cych sobie przesªanek, przyznany zo-stanie znacz¡cy stopie« wsparcia sci;cj:ci  sci;cj::ci, co czyni powstaj¡c¡

funkcj¦ms()nierelewantn¡.

Podobnie, uwzgl¦dnienie w formule (3.57) skªadników koduj¡cych zna-czenie przesªanek s 2 fcig^s 62 fcjg lub s 62 fcig^s 2 fcjg doprowadzi do powstania analogicznych jak opisane powy»ej efektów tyle, »e na eta-pie agregowania wyników poszczególnych klasykatorów tworz¡cych zespóª.

Mianowicie, w sumowaniu ortogonalnym: msc1;c2  msck;ci msci;cj 

mscj;clmscn?1;cn, w którymk <i <j <l, konfrontowane s¡ przesªanki s2fcig^s62fcig oraz s2fcjg^s62fcjg.

60 Rozdziaª 3. Proponowana metoda selekcji

Wobec powy»szego, racjonalnym jest by ograniczy¢ rozwa»ania do mo»-liwo±ci, w których w formule (3.57) uwzgl¦dniane s¡ wyª¡cznie pary skªadni-ków, koduj¡cych przesªanki

s 2fcig ^ s2fcjg jako: mincci;cjs = msci;cj:ci msci;cj:cj (3.58.1) lub

s62fcig ^ s 62fcjg jako: mexcci;cjs = msci;cj::ci msci;cj::cj (3.58.2) Powstaj¡ce w ten sposób funkcje zogniskowane s¡ na zbiorach

mincci;cjs : fcig;fcjg; C (3.59.1) mexcci;cjs : fcig;fcjg; fci;cjg; C (3.59.2) Porównanie powy»szych list podzbiorów uzasadnia przyj¦t¡ nomenklatur¦, zgodnie z któr¡ podej±cie, w którympowstaªa funkcjamincci;cjsnazywa¢ b¦dziemy inkluzywnym(inc), a podej±cie prowadz¡ce do powstania funkcjimexcci;cjs eks-kluzywnym (exc). Poniewa» Belsci;cj(s62fcig) = 1?Plsci;cj(s2fcig) podej±cia inkluzywne i ekskluzywne odpowiadaj¡ sytuacjom, w których ten sam wy-nik klasykatora interpretowany jest albo ze stanowiska uprawniaj¡cego do formuªowania silnych twierdze« o charakterze przekonania Belsci;cj(s2fcig), albo ze stanowiska ostro»nego, w którym dopuszczane s¡ jedynie sªabsze twierdzenia o charakterze domniemania Plsci;cj(s2fcig).

Analizuj¡crozkªad elementówogniskowych prostych funkcji wsparcia (3.56) zauwa»amy, i» przy obliczaniu sumy ortogonalnejmincci;cjs=msci;cj:cimsci;cj:cj

konikt przesªanek wyra»ony wielko±ci¡, zdeniowan¡ przez (3.53) na s. 57, wynosi  = sci;cj:ci sci;cj:cj > 0, jako »e fcig\fcjg =;. Natomiast sumo-wanie ortogonalne prostych funkcji wsparcia tworzonych w podej±ciu eksklu-zywnymmexcci;cjs =msci;cj::ci msci;cj::cj nie rodzi koniktu; w ich przypadku

 = 0. Wielko±¢ , potencjalnie niesie pewn¡ informacj¦  wysoka warto±¢  mo»e oznacza¢, »e bie»¡co analizowany obiekt nie jest reprezentantem »adnej z dwóch klas na podstawie, których powstaª dany klasykator. W

podej-±ciu inkluzywnym normalizacja funkcjimincci;cjs czynnikiem 1=(1?) 6= 1 t¦

informacj¦ zaciera 14. Natomiast podej±cie ekskluzywne dostarcza nieskom-plikowanej obliczeniowo intuicyjnej metody, w której wykluczenie mo»liwo±ci

14By t¦ informacj¦ wykorzysta¢ i jednocze±nie zapewni¢ unormowanie funkcji pod-stawowego przypisania prawdopodobie«stwa, w literaturze proponowane s¡ ró»ne spo-soby wykorzystania wielko±ci  do wyznaczenia: wspóªczynników relewantno±ci (wag istotno±ci) poszczególnych klasykatorów binarnych do bie»¡co analizowanych danych (Quost i in. ([Quost 2007])), lub wspóªczynników dyskontuj¡cych (ang. discounting; [Shafer 1976] ss. 251-255) funkcj¦ przekonania. W wi¦kszo±ci przypadków metody te s¡

kosztowne obliczeniowo.

3.4 Agregacja wyników zespoªu klasykatorów 61 przynale»enia badanego obiektu zarówno do klasyci jak icj, jest interpreto-wane nie jako konikt > 0, ale jako niezerowe wsparcie dla tezy, i» badany obiekt jest reprezentantem której± z klas w zbiorzefci;cjg.

Zagregowany wynik zespoªu klasykatorówTci;cjreprezentowanyjest funk-cj¡ podstawowego przypisania prawdopodobie«stwamagr sobliczan¡ odpowie-dnio do przyj¦tego podej±cia jako

mincagr s = M

fci;cjgC;i<jmincci;cjs (3.60.1) lub

mexcagr s = M

fci;cjgC;i<jmexcci;cjs (3.60.2) Sumowanie ortogonalne w (3.60.1) i (3.60.2) agreguje wyniki zespoªu

zªo-»onego z klasykatorów binarnych separuj¡cych wszystkie ró»ne pary klas diagnostycznychTci;cj : fci;cjg C;i<j. Przy tym zaªo»eniu, teza o

zªo-»onego z klasykatorów binarnych separuj¡cych wszystkie ró»ne pary klas diagnostycznychTci;cj : fci;cjg C;i<j. Przy tym zaªo»eniu, teza o