• Nie Znaleziono Wyników

3.5 Redagowanie zbiorów ucz¡cych

W przyj¦tym w rozprawie podej±ciu podstaw¦ logiczn¡ konstrukcji zespoªu klasykatorów daje klasykacja diagnostycznaC. Stosownie do niej powinna powsta¢ odpowiednia kolekcja zbiorów danych fZc1;Zc2;:::;ZcLg spo±ród, których ka»dy Zci zawiera przykªady obiektów wyª¡cznie jednej z klas ci 2

C. Zbiory danych ucz¡cych dla klasykatora Tci;cj tworzy¢ b¦d¡ sumy par zbiorówfZci[Zcjg.

Klasykacja diagnostyczna podlega optymalizacji. Powinna gwaranto-wa¢, by liczno±¢ zbiorów fZci [ Zcjg pozwalaªa konstruowa¢ klasykatory Tci;cj przy dopuszczalnej wielko±ci oblicze«, a jednocze±nie by ka»dy ze zbio-rów Zci zawieraª dostateczn¡ liczb¦ przykªadów, by wyczerpuj¡co odzwier-ciedla¢ rozkªad cech P(Sjci). Ponadto po»¡dane jest by wszystkie zbiory Zci byªy w przybli»eniu równoliczne, co zapobiegnie powstawaniu obci¡»e«

klasykatorów Tci;cj uczonych na podstawie poª¡cze« zbiorów fZci [Zcjg. Klasykacje diagnostyczne wynikaj¡ z probabilistycznych modeli teore-tycznychscharakteryzowanychna s. 22, ukazuj¡cych dan¡ selekcjonowan¡ po-pulacj¦ jako mieszanin¦(1.13) podpopulacjiF =fF+;F?g=ff1;f2;:::;fng. Teoretyczne kategoryzacje mog¡ by¢ jednak zbyt szczegóªowe, by w praktyce u»ywa¢ ich bezpo±rednio jako klasykacji diagnostycznych. Prowadziªyby one do zbyt licznych zespoªów testów. Zatem w ogólno±ci, je±li F = ffkg

jest kategoryzacj¡ wprowadzon¡ w probabilistycznym modelu teoretycznym P(F;S), to wówczas u»yteczna klasykacja diagnostyczna C = fC+;C?g =

fc1;c2;:::;cLgmo»e powsta¢ tak, by ka»da z klasci 2C odpowiadaªa pew-nemu podzbiorowi klas fk 2 F, rozª¡cznemu z podzbiorami reprezentu-j¡cymi pozostaªe klasy cj 2 C, j 6= i. Nie wyklucza to mo»liwo±ci, by ci = ffkg. Prawdopodobie«stwo wyst¡pienia w populacji reprezentantów klasy diagnostycznej ci oraz rozkªad warunkowy ich cech wynosz¡ odpowie-dnio

P(ci) = X

fk2ciP(fk) oraz P(Sjci) = X

fk2ciP(fk)P(Sjfk) (3.66) przy zachowaniu unormowaniaPLi=1P(ci) = 1.

Klasykacja diagnostyczna C gwarantowaªaby skonstruowanie najdokªa-dniejszych (przy danym zestawie cech S) klasykatorów separuj¡cych pary klas ci;cj, je±li zostaªaby zaprojektowana tak by rozkªady warunkowe cech P(Sjci) i P(Sjcj) nakªadaªy si¦ na siebie w jak najmniejszymstopniu16. Prze-analizowanie wariantów ª¡czenia klas fk w nadklasy ci, tak by rozkªady

wa-16Kryterium takie wskazuje [Sobczak 1985] ss. 62-99. Jest ono adekwatne dla rozwa»a-nych zagadnie«, gdy» mo»na go u»y¢ a priori przed skonstruowaniem klasykatorów. Sto-pie« nakªadania si¦ rozkªadów prawdopodobie«stwa pozwalaj¡ oceni¢ odpowiednie miary statystyczne.

68 Rozdziaª 3. Proponowana metoda selekcji

runkowe cech P(Sjci) i P(Sjcj) nakªadaªy si¦ na siebie w jak najmniejszym stopniu mo»e okaza¢ si¦ zadaniem kosztownym obliczeniowo. Dlatego mo»na rozwa»y¢ posªu»enie si¦ wiedz¡ teoretyczn¡ w danej dziedzinie, i przyj¡¢,

»e dane kreowane przez mechanizmy o zbli»onej naturze fk1  fk2 powinny odznacza¢ si¦ zbli»onymi rozkªadami cech P(Sjfk1) ' P(Sjfk2), i odwrot-nie, odbiegaj¡ce od siebie mechanizmy powinny przejawia¢ si¦ odmiennymi cechami w przestrzeni S.

Je±li zamierzeniem jest zbudowanie zespoªu selekcjonuj¡cego sel (3.61), w którym klasykatory Tci;cj separuj¡ce klasy fci;cjg : ci;cj 2 C+ lub ci;cj 2 C? nie s¡ wykorzystywane, to d¡»enie by klasykacja diagnostyczna zapewniaªa dobr¡ separacj¦ ka»dej pary klas fci;cjg  C, nie jest celowe.

W tym przypadku wystarczaj¡cym jest by ±rednie zró»nicowanie cech

pomi-¦dzy klasami w parachfci;cjg: ci 2C+; cj 2C? byªo wi¦ksze ni» w parach

fci;cjg: ci;cj 2C+ lub ci;cj 2C?.

W zagadnieniach selekcjonowania danych o szczególnie wielkim rozmia-rze, poª¡czonym z dysproporcjami prawdopodobie«stw wyst¡pie« zarówno klas jak i cech w klasach, po»¡danym mo»e by¢ zbudowanie zbiorów przykªa-dówZci o charakterze minimalnej reprezentacji danych, omówionej w p. 1.2.

Zminimalizowaniereprezentacji dodatkowo zmniejszy koszt oblicze« niezb¦d-nych do optymalizacjiklasykatorów, a ponadto mo»e zapewni¢ kompensacj¦

niezrównowa»enia klas i cech wyst¦puj¡cych w rzeczywistej populacji. Po-ni»ej zaproponowano procedur¦ redagowania zbiorów ucz¡cych, redukuj¡c¡

liczb¦ ich elementów przy jednoczesnej dbaªo±ci by zawarte w nich przykªady reprezentowaªy peªn¡ ró»norodno±¢ klas i cech. Metoda przewidziana jest do stosowania w zadaniach, w których dost¦pna jest (praktycznie) nieograni-czona liczba przykªadowych danych.

Punktem wyj±cia proponowanej metody redagowania zbiorów (danych) ucz¡cych jest skwantowanie przestrzeni cech S, czyli przedstawienie jej jako sko«czonej sumy rozª¡cznych podzbiorów [sk], z których ka»dy b¦dzie iden-tykowany przez wektor referencyjnysk, tak by S = Sk[sk]. Je±li podstaw¡

klasykowania danych s¡ porównania z przykªadami, to racjonalnym jest po-st¦powanie by, obiekty o podobnych cechach przypisywa¢ do tej samej klasy.

Uto»samiaj¡c podobie«stwo z blisko±ci¡ punktów w przestrzeni cech, repre-zentatywny dla danej klasy ci zbiór przykªadów Zci mo»na stworzy¢ umie-szczaj¡c w nim po jednym reprezentancie ka»dego stwierdzonego w oryginal-nym zbiorze przykªadów zwi¡zku ([sk];fj) dla ka»dej klasyfj 2ci, niezale»nie od faktycznego rozkªadu prawdopodobie«stw P([sk];fj) oraz P(fj). Wyboru reprezentantów mo»na dokona¢ losowo z oryginalnych zbiorów danych. W skonstruowanych t¡ drog¡ zbiorach przykªadów Zci nie zostaje wyró»niona

»adna klasa fj czy kombinacja cech [sk]. Odpowiadaj¡ one próbom pobiera-nym z mieszaniny podpopulacji, w której P(fj) =const oraz P(Sjfj) =const

3.5 Redagowanie zbiorów ucz¡cych 69 w obr¦bie no±nika rozkªadu cech podpopulacji fj.

By poddawanie zbiorów redagowaniu byªo racjonalnym, koszt zwi¡zanych z nim oblicze« musi mie±ci¢ si¦ w zaªo»onych granicach. W rozprawie do kwantowania przestrzeni cech na podstawie analizy zbiorów przykªadów pro-ponuje si¦ zastosowanie samoorganizuj¡cych si¦ map Kohonena (ang. Self-Organizing Maps (SOM)), [Kohonen 1990]. W praktyce, koszt obliczeniowy tej metody jest ni»szy od kwadratowego wzgl¦dem liczby przykªadów.

W¦zªy wytrenowanej sieci Kohonenafs1;s2;:::;sngs¡ wektorami w prze-strzeni cech S =fskg, rozmieszczonymi tak, by w ich otoczeniu znajdowaªy si¦ wektory odpowiadaj¡ce przykªadom. G¦sto±¢ w¦zªów sieci w S jest pro-porcjonalna do g¦sto±ci rozkªadu danych P(S) [Carreira 1997]. Mapa SOM aproksymuje no±nik rozkªadu populacji i jednocze±nie wyznacza granice ko-mórek [sk] jego kwantowania. Komórk¡ [sk] nazywany jest tu obszar prze-strzeni otaczaj¡cy w¦zeª sieci sk, zawieraj¡cy wszystkie punkty w S le»¡ce bli»ej tego w¦zªa ni» któregokolwiek z pozostaªych w¦zªów sj; j 6= k. Cz¦±¢

komórek pozostaje przy tym nieograniczona. Nie stanowi to jednak prze-szkody formalnej, poniewa» nie b¦d¡ na nich estymowane g¦sto±ci rozkªadów.

Sie¢ Kohonena kwantuje przestrze« w sposób efektywnie dopasowany do kon-kretnych danych. Ka»da z komórek otaczaj¡cych w¦zeª wytrenowanej sieci powinna zawiera¢ zbli»ony odsetek ogólnej liczby przykªadów. Tym samym nie powinny powstawa¢ komórki puste. Nierównomierny podziaª przestrzeni zwykle pozwala osi¡gn¡¢ t¦ sam¡ ±redni¡ dokªadno±¢ odtworzenia kwantowa-nych wielko±ci, przy wprowadzeniu mniejszejliczbykomórek ni» w przypadku kwantyzacji równomiernej [Sobczak 1985]. Porównanie zasad obu sposobów kwantowania przestrzeni przedstawia rys. 3.2.

Liczb¦ w¦zªów sieci nale»y dobra¢ w konkretnym zagadnieniu tak, by teoretycznie umo»liwiªa ona osi¡gni¦cie w skwantowanej przestrzeni S iden-tykacji obiektów równie szczegóªowej, jak nominalnie zapewniona przez sto-sowane w danym zagadnieniu techniki pomiarów i obserwacji o sko«czonej rozdzielczo±ci17.

W populacji o zró»nicowanych cechach, pewne ich kombinacje mog¡ zo-sta¢ uznane za typowe. Kryterium oceny czy dany wektor cech s jest ty-powy w podpopulacji fi powinno wynika¢ z wªasno±ci rozkªadu prawdopo-dobie«stwa warunkowego P(Sjfi). Gdy rozkªady te nie s¡ znane a priori, odpowiednie kryterium mo»e wi¡za¢ si¦ ze statystyk¡ podlegaj¡c¡ estyma-cji na podstawie zbiorów przykªadów Zfi. W rozprawie przyj¦to by wektor cech s uznawa¢ za typowy w podpopulacji fi, o ile speªniony jest waru-nek P(sjfi)  P(Sjfi), gdzie P(Sjfi) oznacza ±redni¡ warto±¢ dyskretnego rozkªadu P(Sjfi), S =Sk[sk]. Zatem typow¡ b¦dzie kombinacja cech

obser-17W praktyce zapewnienie równie dokªadnej identykacji zwykle nie b¦dzie mo»liwe, ze wzgl¦du na to, »e przeksztaªcenie kwantuj¡ce podlega ograniczeniom opisanym na s. 16.

70 Rozdziaª 3. Proponowana metoda selekcji

Rys. 3.2: Kwantowanie wielowymiarowej przestrzeni cech S: równomierne (po le-wej) oraz nierównomierne za pomoc¡ jednowymiarowej sieci Kohonena mapuj¡cej dane o pewnym rozkªadzie w S (po prawej); przedstawione dane zostaªy wygene-rowane komputerowo

wowana ±rednio cz¦±ciej ni» nale»aªoby oczekiwa¢ gdyby wyst¡pienie ka»dej z kombinacji byªo równie prawdopodobne. ‘rednia P(Sjfi) = 1=q, gdzie q oznacza liczb¦ komórek [sk] skªadaj¡cych si¦ na no±nik rozkªadu P(Sjfi).

Wielko±¢q mo»e by¢ przybli»ona przez liczb¦ ^q komórek o niezerowej zawar-to±ci w histogramie ^P(SjZfi) aproksymuj¡cym rozkªad P(Sjfi), zbudowanym na podstawie zbioru przykªadów Zfi. ‘rednia P(Sjfi) jest te» w pewnym stopniu niezale»na od konkretnej realizacji kwantyzacji przestrzeni S. Mia-nowicie, ró»ne realizacje sieci Kohonena o jednakowej liczbie w¦zªów, po-winny dzieli¢ zbiór ucz¡cy (trenuj¡cy) równomiernie pomi¦dzy komórki, a ich w¦zªy powinny lokalizowa¢ si¦ w skupieniach przykªadowych wektorów, czyli zawsze w tych samych obszarach przestrzeni S. W rezultacie, w ka»-dej realizacji sieci kwantuj¡cej przestrze« obserwacji S, przykªady zawarte w Zfi b¦d¡ zajmowa¢ zbli»on¡ liczb¦ komórekq, zatem stosunekjZfij=q b¦dzie przyjmowaª zbli»one warto±ci, a wektor uznawany za typowy w jednej z rea-lizacji kwantyzacji przestrzeni, z du»ym prawdopodobie«stwem znajdzie si¦

w±ród wektorów uznanych za typowe w innych realizacjach. Usuni¦cie ze zbiorów danych ucz¡cych wektorów o cechach nieuznanych za typowe prowa-dzi do standaryzacji zbiorów ucz¡cych.

Stosuj¡c opisan¡ powy»ej metod¦ redagowania zbiorów ucz¡cych w roz-prawie proponuje si¦ by klasykatory SVM powstawaªy na podstawie zbio-rów zawieraj¡cych wyª¡cznie przykªady o cechach typowych, natomiast by do walidacji wersji maszyn SVM sªu»yªy zbiory zawieraj¡ce równie» wektory, które nie zostaªy uznane za typowe. Rozkªady cech w zbiorach przykªadów zredagowanych dla potrzeb skonstruowania klasykatora SVM przedstawia

3.5 Redagowanie zbiorów ucz¡cych 71 rys. 3.3.

P(k)

k

1 5 10

0 0.1

0.2 Rys. 3.3: Rozkªad przykªadowych danych

pomi¦dzy komórki nierównomiernie skwan-towanej przestrzeni cech: obszar zacienio-wany  rozkªad przykªadów w oryginalnym zbiorze odzwierciedlaj¡cym wªasno±ci sta-tystyczne populacji; linia pogrubiona  roz-kªad przyroz-kªadów w zbiorze ucz¡cym; linia szara  rozkªad przykªadów w zbiorze wa-lidacyjnym. Kolejno±¢ przedziaªów histo-gramów odpowiada numeracji w¦zªów sieci Kohonena przedstawionej na rys. 3.2

Uczenie maszyn SVM na zbiorach zawieraj¡cych wyª¡cznie przykªady ty-powe, a walidowanie ich wersji na zbiorach peªniejszych, powinno prowadzi¢

do wyboru wersji maszyn, które lepiej uogólniaj¡ zbiór ucz¡cy. Mo»na przy-puszcza¢, »e tak wybrane wersje maszyn SVM b¦d¡ mie¢te» wi¦ksz¡ zdolno±¢

poprawnego reagowania na nowe obiekty o kombinacjach cech, które w ogóle nie wyst¡piªy w±ród przykªadowych danych.

72 Rozdziaª 3. Proponowana metoda selekcji

Rozdziaª 4

Analiza wªasno±ci

zaproponowanej metody

Wªasno±ci zespoªów klasykatorów konstruowanych proponowan¡ w rozpra-wie metod¡ zbadano analizuj¡c zbiór danych Abalone, zaczerpni¦ty z bi-blioteki UCI ([Asuncion 2007]). Zbiór Abalone zawiera dane biometryczne 4177 osobników pewnego gatunku ±limaka morskiego. Dane te przedstawiono bli»ej w dodatku A. Ka»dy osobnik  pojedyncza dana w zbiorze  opisany jest: jedn¡ cech¡ nominaln¡ przyjmuj¡c¡ 3 warto±ci (M,F,I),7 cechaminume-rycznymi o warto±ciach ci¡gªych oraz jedn¡ cech¡ dyskretn¡ nazwan¡ Rings.

Warto±¢ cechy Rings jest dodatni¡ liczb¡ caªkowit¡, która w danych zawar-tych w zbiorze Abalone przyjmuje warto±ci mieszcz¡ce si¦ w przedziale od 1 do 29.

W opisywanych w literaturze badaniach z dziedziny uczenia maszyno-wego, dane Abalone wykorzystywane s¡ zwykle w ten sposób, »e na pod-stawie znanych warto±ci 7 cech numerycznych ci¡gªych i cechy nominalnej, przewidywana jest warto±¢ cechy Rings. W badaniach dotycz¡cych klasyka-torów dokonywany jest przy tym umowny podziaª zakresu zmienno±ci cechy dyskretnej Rings na przedziaªy  uto»samiane z ró»nymi klasami  a zada-niem klasykatora jest przypisanie danych do przedziaªu odpowiadaj¡cego warto±ci cechy Rings.

4.1 Opis testowego zbioru danych

W rozprawie dane Abalone potraktowano jako prób¦ pobran¡ z populacji sta-nowi¡cej mieszanin¦ 29 podpopulacji, z których ka»da skªada si¦ z obiektów o tej samej warto±ci cechy Rings

P(S) =iX=29

i=1 P(Rings=i)P(SjRings=i) (4.1) 73

74 Rozdziaª 4. Analiza wªasno±ci zaproponowanej metody

warto±ci P(Rings =i) mo»na uzna¢ jako równe cz¦sto±ciom wyst¦powania przykªadów o danej warto±ci cechy Rings w zbiorze Abalone.

Dane przyj¦to reprezentowa¢ z u»yciem nast¦puj¡cych wektorów s 2 S.

Dla ka»dej warto±ci cechy nominalnej, M, F i I, przyj¦to 7 odr¦bnych wspóª-rz¦dnych odpowiadaj¡cych poszczególnym siedmiu cechom numerycznym.

Je±li, na przykªad, warto±¢ cechy nominalnej równa jest M, to siedem pierw-szych skªadowych wektora s zawiera warto±ci siedmiu cech numerycznych, za± pozostaªe 14 skªadowych wektorasprzyjmuje warto±¢ 0. Tak wi¦c, prze-strze« danychS ma posta¢

S = SMSF SI (4.2)

gdzie ka»da z przestrzeni SM, SF, SI jest 7 wymiarowa i w ka»dym 21 wy-miarowym wektorze cechs2S co najwy»ej 7 kolejnych wspóªrz¦dnych (1-7, 8-14, 15-21) przyjmuje warto±¢ ró»n¡ od 0.

Zbiór danych Abalone podzielono (losowo) na zbiór ucz¡cy i zbiór te-stowy, licz¡ce odpowiednio 3133 i 1044 przykªadów. Stosunkowo niewielka zªo»ono±¢ danych Abalone pozwala skonstruowa¢ dla nich jednolite klasyka-tory selekcjonuj¡ce, optymalizowane na peªnym zbiorze ucz¡cym. Klasyka-tory takie posªu»¡ jako referencyjne przy badaniu wªasno±ci proponowanych w rozprawie zespoªów klasykatorów.

Rozwa»ono dwa modelowe przypadki selekcjonowania danych:

 przypadek danych o zrównowa»onej cz¦sto±ci wyst¦powania separowa-nych klas (akceptowana:dyskwalikowana  1:1), stawiaj¡c zadanie wyselekcjonowania danych s o warto±ci cechy Rings9, równowa»nie odrzucenie danych z Rings>9;

 przypadek danych o niezrównowa»onej cz¦sto±ci wyst¦powania separo-wanych klas (akceptowana:dyskwalikowana 1:4), stawiaj¡c zadanie wyselekcjonowania danych s o warto±ci cechy Rings7, a odrzucenie danych z Rings>7.

Przedstawienie danych Abalone jako mieszaniny (4.1) podpopulacji wy-ró»nianych przez warto±¢ cechy Rings pozwala poda¢ dla nich klasykacje diagnostyczne drog¡ grupowania podpopulacji fs : Rings =ig w nadklasy.

W przypadku selekcjonowania danych zrównowa»onych pierwotn¡ kategory-zacj¦ binarn¡

C

2 =fC+;C?g=ffs :Rings9g;fs :Rings > 9gg=ffc1=2g;fc2=2gg (4.3) (ci=2 oznacza i-t¡ klas¦ w klasykacji C2) zdekomponowano dziel¡c ka»d¡ z klas c1=2 i c2=2 wariantowo na 2 lub 3 podklasy, tworz¡c odpowiednie

klasy-kacje diagnostyczne

C

4 =fC+;C?g = ffc1=4;c2=4g;fc3=4;c4=4gg (4.4.1)

4.1 Opis testowego zbioru danych 75

C

6 =fC+;C?g = ffc1=6;c2=6;c3=6g;fc4=6;c5=6;c6=6gg (4.4.2) Z denicji w klasykacjiCL, L=2;4;6, klas¦ ci=L,i=1;:::;L tworz¡ dane o warto±ci cechy Ring w okre±lonym przedziale warto±ci. Granice przedziaªów deniuj¡ce klasy diagnostyczne podano w tabl. 4.1.

Podobnie w przypadku selekcjonowania danych niezrównowa»onych (ang.

unbalanced), pierwotn¡ kategoryzacj¦ binarn¡:

C

u2 =fC+u;C?ug=ffs :Rings7g;fs :Rings> 7gg=ffu1=2g;fu2=2gg

(4.5) zdekomponowano dziel¡c podlegaj¡c¡ dyskwalikacji klas¦ u2=2, obejmuj¡c¡

dane fs : Rings> 7g, na 3, 4 lub 5 podklas, wprowadzaj¡c klasykacje dia-gnostyczne

Cu4 =fC+u;C?ug = ffc1=4g;fc2=4;c3=4;c4=4gg (4.6.1)

C

u5 =fC+u;C?ug = ffc1=5g;fc2=5;c3=5;c4=5;c5=5gg (4.6.2)

C

u6 =fC+u;C?ug = ffc1=6g;fc2=6;c3=6;c4=6;c5=6;c6=6gg (4.6.3) przy czym poszczególne klasyc1=4,c1=5 ic1=6 s¡ identyczne zu1=2, a ró»ne ich oznaczenia przyj¦to dla zachowania spójno±ci notacji. Tak jak w przypadku danych zrównowa»onych, klasyui=2,ci=L deniniowane s¡ tu przez przedziaªy warto±ci cechy Rings wyszczególnione w tabl. 4.1.

Tabl. 4.1: Denicja klas diagnostycznych przyj¦tych dla danych Abalone jako przedziaªy warto±ci cechy Rings

klasa przedziaª zmienno±ci cechy Rings w klasie

i=L i = 1 2 3 4 5 6

ci=2 1  9 10  29 ui=2 1  7 8  29

ci=4 1  7 8  9 10  11 12  29

ci=5 1  7 8  9 10 11  12 13  29

ci=6 1  7 8 9 10 11  12 13 29

Selekcjonowanie danych Abalone analizowano zakªadaj¡c funkcj¦ strat l, o znaczeniu zdeniowanym na s. 47, zadan¡ poni»sz¡ macierz¡

0

@

l(d+;C+) l(d+;C?) l(d?;C+) l(d?;C?)

1

A= 0 1

 0

!

(4.7) przy czym symbole d+ i d? oznaczaj¡ podj¦t¡ decyzj¦: odpowiednio, o za-akceptowaniu i zdyskwalikowaniu analizowanej danej. Rozró»niane s¡ dwa stany ±wiata: C+iC?odpowiadaj¡ce przypadkom, w których dana faktycznie

76 Rozdziaª 4. Analiza wªasno±ci zaproponowanej metody

nale»y do klasy akceptowanej, albo odpowiednio do klasy dyskwalikowanej.

Staªa > 0 jest równa warto±ci stosunku kosztu bª¦dnego odrzucenia (zdys-kwalikowania) danej do kosztu bª¦dnego zaakceptowania danej.

Przy badaniu wªasno±ci zespoªów klasykatorów, dla uproszczenia nie uzale»niano kosztów bª¦dnego przypisania danych od przynale»no±ci do po-szczególnychklas wprowadzonych w ramachklasykacji diagnostycznych (4.4.1-4.4.2) dekomponuj¡cych klasyC+3ci i C?3cj. Przyj¦to mianowicie, »e

dla klasci 2C+ : l(d+; ci) = 0 oraz l(d?; ci) = (4.8.1) gdzie  > 0 jest staª¡ zdeniowan¡ jak w (4.7), natomiast

dla klascj 2C? : l(d+; cj) = 1 oraz l(d?; cj) = 0 (4.8.2) Analogiczne zaªo»enia co do kosztów decyzji przyj¦to dla przypadku danych o niezrównowa»onych cz¦sto±ciach wyst¦powania klas, w którym obowi¡zuj¡

klasykacjeCuL=fC+u;C?ug.

4.2 Eksperyment obliczeniowy i analiza jego