• Nie Znaleziono Wyników

specyczno±ci gotowego klasykatora.

1.5 Ocena skuteczno±ci selekcji

Selekcjonuj¡cwst¦pnie dane mo»na popeªni¢ bª¦dy dwojakiego rodzaju: odrzu-ci¢ dane istotne, albo zaakceptowa¢ nieistotne. Obydwa rodzaje bª¦dów zwy-kle maj¡ ró»ny wpªyw na powodzenie zadania, w którym selekcja z danych jest pierwszym krokiem. Zatem przy ocenie skuteczno±ci procedury selekcji z danych, obok ±redniego prawdopodobie«stwa poprawnej klasykacji zna-czenie maj¡ jej czuªo±¢ (ang. sensitivity) i specyczno±¢ (ang. specicity).

Warto±ci tych wska¹ników okre±lone z u»yciem zbioru testowego pozwalaj¡

oceni¢ jako±¢ klasykatora. Wska¹niki te s¡ równie» u»yteczne na etapie kon-struowania klasykatora, gdzie stanowi¡ podstaw¦ do okre±lenia jego ró»nych parametrów (z u»yciem zbioru walidacyjnego).

Jako±¢ procedury selekcjonuj¡cej dane masowe nale»y ocenia¢ z zasto-sowaniem odpowiednio licznego zbioru testowego rozª¡cznego ze zbiorem ucz¡cym u»ytym do konstrukcji klasykatora 10. Poddaj¡c przykªady ze zbioru testowego selekcji oraz zliczaj¡c przy tym decyzje podj¦te popraw-nie oraz decyzje podj¦te bª¦dpopraw-nie, osobno dla przykªadów danych istotnych i przykªadów danych nieistotnych, otrzymuje si¦ cztery liczbyskªadaj¡ce si¦ na tzw. macierz bª¦dów (ang. confusion matrix) klasykatora, której budow¦

obja±nia rys. 1.2 [Fawcett 2006]. Na gªównej przek¡tnej macierzy bª¦dów podawane s¡ liczby decyzji poprawnych: akceptacji danych istotnych True Positive (TP) oraz dyskwalikacji danych nieistotnych True Negative (TN).

Natomiast poza gªówn¡ przek¡tn¡ macierzy bª¦dów znajduj¡ si¦ liczby da-nych bª¦dnie zdyskwalikowada-nychFalse Negative (FN) oraz danych bª¦dnie zaakceptowanychFalse Positive (FP). Suma zawarto±ci wszystkich pól ma-cierzy bª¦dów jest równa liczno±ci zbioru testowego.

Macierz bª¦dów jest podstaw¡ obliczania wielu powszechnie stosowanych wska¹ników oceny klasykatorów. Podstawowym wska¹nikiem jest dokªad-no±¢ klasykacji (ang. accuracy (ACC)), wyra»ona w nast¦puj¡cy sposób z odwoªaniem do elementów macierzy bª¦dów

ACC= TP+TN

TP+FN+FP+TN (1.14)

dyskwalikacji, mo»e to by¢: próba wyªudzenia wypªaty w bankomacie, produkt z wad¡, sygnaª wywoªany wzbudzeniem aparatury pomiarowej.

10Kosztowne obliczeniowo metody testowania polegaj¡ce na wielokrotnej resubstytucji elementów zbioru ucz¡cego (przykªadowo walidacja krzy»owa) s¡ nieadekwatne w zastoso-waniu do analizy danych masowych, w których przypadku ograniczeniem nie jest dost¦p-no±¢ dªugich serii danych, tylko caªkowita wielko±¢ oblicze«, w której nale»y uwzgl¦dnia¢

równie» koszt oceny i testowania gotowych klasykatorów.

24 Rozdziaª 1. Dane masowe i ich selekcja na bie»¡co

dyskwalikacja akceptacja

istotny nieistotny

decyzja stan faktyczny

FNTP

TNFP

Rys. 1.2: Macierz bª¦dów klasykatora selekcjonuj¡cego dane

Wska¹nikczuªo±ci klasykatora wyra»ony jest wprost wielko±ci¡ znan¡ jako true positive rate(TPR), okre±lon¡ wzorem

TPR= TP

TP+FN (1.15)

Wska¹nikspecyczno±ci klasykatora zwi¡zany jest z wielko±ci¡ znan¡ jako false positive rate(FPR), okre±lon¡ wzorem

FPR= FP

FP+TN (1.16)

przy czym specyczno±¢ = 1?FPR 11.

Dokªadno±¢ ACC jest estymatoremprawdopodobie«stwa poprawnego skla-sykowania danych Pc, czyli ryzyka klasykacji danego formuª¡ (1.2) na s. 8, obliczanego przy symetrycznej funkcji strat. Wynika to ze spostrze»enia, »e liczba poprawnych decyzji klasykatora binarnego odnotowywana w dªugich seriach testów powinna mie¢ rozkªad Bernoulliego. Je±li przy klasykowaniu zbioru licz¡cegom = TP+FN+FP+TN przykªadowych danych odnotowane zostaªo mc = TP + TN poprawnych decyzji, estymatorem prawdopodobie«-stwa poprawnego sklasykowania danych Pc jest

^Pc =mc=m = ACC (1.17)

a jego odchylenie standardowe wynosi

^Pc =q^Pc(1?^Pc)=m (1.18)

11Cz¦±¢ wska¹ników wyst¦puje w literaturze pod kilkoma ró»nymi nazwami. Na przy-kªad czuªo±¢ znana jest równie» jakokompletno±¢ (ang. recall). Mo»na wymieni¢ inne wska¹niki, które okazuj¡ si¦ przydatne w konkretnych zastosowaniach: precyzja (ang.

precision) zdeniowana jest jako TP/(TP+FP). Miara F-score okre±lona jest wzorem F-score = 2=[1=precision +1=recall], za± Balanced Accuracy (BAC) wyra»a si¦ wzorem BAC=(czuªo±¢+specyczno±¢)=2, a ±redniag-mean=pczuªo±¢specyczno±¢ .

1.5 Ocena skuteczno±ci selekcji 25 Podobnie, wska¹niki czuªo±ci TPR i specyczno±ci 1-FPR s¡ estymato-rami prawdopodobie«stw, »e zostan¡ sklasykowane poprawnie dane, odpo-wiednio: istotne oraz nieistotne.

Je±li zbiory testowe powstaj¡, tak jak opisano to na s. 22, w drodze mo-delowania pozyskiwanych danych masowych jako mieszaniny (1.13) zbioru podpopulacjiF =ff1;f2;:::;fng, wielko±ci charakteryzuj¡ce jako±¢ selekcji populacji ª¡cznej mo»na estymowa¢ drog¡ u±redniania warto±ci otrzymanych dla poszczególnych podpopulacji fi. Je±li ^Pc(fi) jest estymatorem warto±ci danego wska¹nika dla podpopulacji fi, to estymatorem dla caªej populacji b¦dzie

^Pc =Xn

i=1P(fi)^Pc(fi) (1.19) Wariancja tego estymatora wyra»a si¦ wzorem

var(^Pc) =Xn

i=1P2(fi)var(^Pc(fi)) (1.20) Relacj¦ pomi¦dzy czuªo±ci¡ a specyczno±ci¡ klasykatora mo»na zobra-zowa¢ na pªaszczy¹nie jako punkt o odci¦tej i rz¦dnej równym odpowiednio warto±ciom FPR i TPR. Zbiór punktów (FPR, TPR) wyznaczonych dla ró»-nych warto±ci parametrów opisuj¡cych rodzin¦ klasykatorów skªada si¦ na krzyw¡ 12 zwan¡ w j. ang. Receiver Operating Characteristic Curve (ROC) [Fawcett 2006]. Rys. 1.3 przedstawia wykres ROC trzech rodzin binarnych klasykatorów bayesowskich, dziaªaj¡cych w warunkach równych prawdo-podobie«stw a priori klas, analizuj¡cych obiekty, których populacja repre-zentowana jest wariantowo w trzech ró»nych jednowymiarowych przestrze-niach cech o ró»nej informatywno±ci, mierzonej ilo±ci¡ informacji wzajemnej.

Krzywe ROC rodzin u»ytecznych klasykatorów musz¡ przebiega¢, przynaj-mniej cz¦±ciowo, powy»ej prostej TPR=FPR. Pokrywanie si¦ krzywej z t¡

prost¡ w caªym zakresie zmienno±ci parametrów steruj¡cych czuªo±ci¡ i spe-cyczno±ci¡ klasykatora oznaczaªoby, i» proporcje obiektów w wyselekcjono-wanym zbiorze byªyby takie same jak przed selekcj¡ co czyniªoby klasykator bezu»ytecznym. Im bardziej krzywa ROC danego klasykatora zbli»a si¦ do ªamanej ª¡cz¡cej punkty (0,0)-(0,1)-(1,1), tym lepsze ma on ogólne

wªa±ciwo-±ci. Dla klasykatorów, w których u»yto bayesowskiej reguªy decyzyjnej, w punkcie odpowiadaj¡cym minimalnemu ±redniemu bª¦dowi rozpoznania przy symetrycznejfunkcji strat, styczna do krzywej ROC przebiega nachylona pod k¡tem 45 wzgl¦dem osi odci¦tych.

12W ogólno±ci jest to zbiór punktów, który przyjmuje posta¢ krzywej o ile rodzin¦ kla-sykatorów mo»na sparametryzowa¢ w sposób ci¡gªy.

26 Rozdziaª 1. Dane masowe i ich selekcja na bie»¡co

Ksztaªt krzywej ROC wyznaczonej dla danego klasykatora nie zale»y od wzgl¦dnej cz¦sto±ci wyst¦powania w zbiorze testowym przykªadów reprezen-tuj¡cych poszczególne klasy. Dlatego krzywa ROC jest dobrym narz¦dziem wizualizacji wªasno±ci klasykatorów przeznaczonych do selekcjonowania po-pulacji takich jak (1.13), zªo»onych z podpopo-pulacji fi wymieszanych w pro-porcjach P(fi), w szczególno±ci gdy proporcje te s¡ niezrównowa»one lub nie-znane a priori, albo zmieniaj¡ si¦ w czasie. Skalarnym wska¹nikiem pozwa-laj¡cym porównywa¢ skuteczno±¢ klasykatorów na podstawie wykresów ich krzywych ROC jest pole powierzchni pod krzyw¡ (ang. Area Under the ROC Curve) AUC. Przy porównaniach, za lepsze nale»y uznawa¢ klasykatory o wy»szych warto±ciach AUC. Dla u»ytecznych klasykatorów 0:5 < AUC1.

−10 −5 0 5 10

Rys. 1.3: Wykres ROC trzech rodzin klasykatorów (po prawej) sªu»¡cych do wy-selekcjonowania z ogóªu populacji obiektów okre±lonej klasy (+). Ka»d¡ z rodzin tworz¡ klasykatory bayesowskie o zmiennej warto±ci progowejs, analizuj¡ce ce-chy o ró»nej informatywno±ci, mierzonej ilo±ci¡ informacji wzajemnejI1 >I2 >I3 (zdeniowanej przez (1.8) na s. 16). Warto±ci cechy w klasach podlegaj¡ jedno-wymiarowym rozkªadom normalnym ukazanym po lewej. ‘redni bª¡d klasykacji osi¡ga warto±¢ minimaln¡ gdys =s0

Podane na s. 16 zwi¡zki warto±ci ryzyka klasykacji z ilo±ci¡ informacji dost¦pnej (równowa»nie: utraconej) pozwalaj¡ wysnu¢ pewne wnioski co do rozwa»anych procedur selekcji. Uwzgl¦dniaj¡c, i» kres dolny ryzyka klasyka-cji jest niemalej¡c¡ funkcj¡ straty informaklasyka-cji I, mo»na si¦ spodziewa¢, »e na wykresie ROC krzywe klasykatorów dysponuj¡cych wi¦ksz¡ ilo±ci¡ informa-cji powinny przebiega¢ powy»ej krzywychopisuj¡cych klasykatory pracuj¡ce w oparciu o dane mniej informatywne. Wªasno±¢ t¦ ilustruje rys. 1.3.

1.5 Ocena skuteczno±ci selekcji 27 Rozwa»aj¡c zatem hipotetyczne zadanie, w którym do selekcji obiektów pewnej populacji u»ywane s¡ dwie rodziny klasykatorów, przy czym pierw-sza z nich D1 otrzymuje na wej±ciu (w zbiorze ucz¡cym) wi¦cej informacji o klasykowanych obiektach ni» druga D2. W takich warunkach nale»y si¦

spodziewa¢, »e na odpowiednim wykresie ROC, punkty reprezentuj¡ce kla-sykatory Dx dysponuj¡ce po±redni¡ ilo±ci¡ informacji b¦d¡ le»e¢ w pasie wyznaczonym przez styczne do krzywych ROC rodzin D1 i D2, poprowa-dzone w punktach odpowiadaj¡cych klasykatorom osi¡gaj¡cym minimalne

±rednie bª¦dy rozpoznania, jak przedstawiono to na rys. 1.4. Wªasno±¢ t¦

powinny przejawia¢ wszelkie klasykatory Dx, o ile wykorzystuj¡ dost¦pn¡

im informacj¦ racjonalnie i mo»liwie najpeªniej. Spostrze»enie to pozwala dokona¢ przewidywa« co do wªasno±ci projektowanych klasykatorów w rze-czywistych zastosowaniach. Jako referencyjne klasykatory D1 i D2 mog¡

posªu»y¢ klasykatory bayesowskie przygotowane w oparciu o modele te-oretyczne selekcjonowanych danych, zakªadaj¡ce odpowiednio idealizacj¦ i uproszczenie rzeczywistego zagadnienia.

FPR

TPR

0 0.25 0.5 0.75 1

0 0.25 0.5 0.75 1

D1

D2

Dx

Rys. 1.4: Zacieniony pas wyznacza ob-szar przebiegu krzywych ROC klasykato-rówDx, które dysponuj¡ ilo±ci¡ informacji wej±ciowej wi¦ksz¡ ni» klasykatoryD2, ale mniejsz¡ ni» D1

28 Rozdziaª 1. Dane masowe i ich selekcja na bie»¡co

Rozdziaª 2

Postawienie zadania

Konstrukcja klasykatorów selekcjonuj¡cychdane masowe na podstawie zbio-rów danych ucz¡cych uwarunkowana jest ograniczeniem (1.6) podanym na s. 10, w którym wielko±ci¡ limituj¡c¡ jest rzeczywisty czas wykonywania oblicze«tmax. Ograniczenie to okre±la wielko±¢ oblicze«, czyli ª¡czn¡ liczb¦

operacji, które mo»na wykona¢ w trakcie konstrukcji klasykatora w czasie tmax. Wielko±¢ oblicze« z kolei determinuje zªo»ono±¢ najwi¦kszego zada-nia, które mo»e by¢ przy tym rozwi¡zywane wprost, czyli w takim trybie, w którym przez caªy czas trwania oblicze« w pami¦ci komputera przechowy-wane s¡ kompletne dane ucz¡ce oraz kolejne wyniki cz¡stkowe. Je±li zadanie to realizowane jest przez wiele pracuj¡cych równolegle procesorów, to zakªada si¦, »e procesory te korzystaj¡ z pami¦ci wspóªdzielonej.

Wielko±¢ oblicze«, wykonalnych przy pomocy dost¦pnych komputerów w akceptowalnym czasie, mo»na oszacowa¢ uwzgl¦dniaj¡c, »e wspóªcze±nie dost¦pne na rynku procesory osi¡gaj¡ wydajno±¢ oblicze« rz¦du 1 TFLOP / sekund¦ oraz przyjmuj¡c dla ustalenia uwagi, »e czas oblicze« nie powinien przekracza¢ 100 godzin. Prowadzi to do oszacowania wielko±ci oblicze« na poziomietmax=1017 FLOP 1.

Z drugiej strony, szacuj¡c potrzeby obliczeniowe, jako odniesienie mo»na przyj¡¢ zadania wymagaj¡ce uwzgl¦dnieniam=106 przykªadów opisanych w N=103 wymiarowej przestrzeni cech. W ich przypadku skonstruowanie kla-sykatora standardow¡ metod¡ wymaga wykonania oblicze« o koszcie rz¦du

O(Nm2) =O(1015) FLOP.

Zestawienie dokonanych oszacowa« wielko±ci oblicze« i potrzeb pokazuje,

»e zadania o skali porównywalnej z przyj¦tym jako odniesienie mog¡ oka-za¢ si¦ najwi¦kszymi daj¡cymi si¦ obecnie rozwi¡zywa¢ wprost za pomoc¡

1Od ang. Floating point Operation(FLOP). Szacowana w ten sposób wielko±¢ oblicze«

b¦dzie wzrasta¢ wraz z rozwojem technologii procesorów. Wydajno±¢ rz¦du 1 TFLOP/s zapewniaj¡ obecnie ukªady zbudowane z kilku wielordzeniowych procesorów, w rodzaju AMD HemlockXT 5970.

29

30 Rozdziaª 2. Postawienie zadania

powszechnie dost¦pnych komputerów. Stanowi to potencjalne ograniczenie praktycznych zastosowa« metod uczenia maszynowego w celu selekcjonowa-nia danych masowych. Nale»y pami¦ta¢, »e uzyskanie rozwi¡zaselekcjonowa-nia uznanego za optymalne poprzedzone jest zwykle sprawdzeniem wielu wariantów roz-wi¡za«.

Zadaniem postawionym w rozprawie jest opracowanie i eksperymentalna werykacja ogólnej metody wst¦pnego selekcjonowania danych masowych o skali, przy której próby skonstruowania wprost odpowiednich standardo-wych klasykatorów mog¡ przekracza¢ postulowan¡ wielko±¢ oblicze«. Istot¡

opracowanej metody jest uwzgl¦dnienie wiedzy dziedzinowej i zastosowanie zespoªu prostych klasykatorów (testów), przy czym konstrukcja ka»dego z nich jest wzgl¦dnie ªatwo realizowalna wprost. Opracowana metoda obejmuje oryginalny sposób ª¡cznego uwzgl¦dnienia wyników testów z zastosowaniem teorii Dempstera-Shafera. Wyniki testów traktowane s¡ jako przesªanki do podj¦cia ko«cowej decyzji o akceptacji (przekazaniu do dalszego przetwarza-nia) lub odrzuceniu danych.

Zakªada si¦, »e konstrukcja ka»dego z testów powinna by¢ odr¦bnym zada-niem obliczeniowym, na tyle maªo kosztownym by mogªo zosta¢ rozwi¡zane wprost w czasie rzeczywistym t  tmax. Odr¦bno±¢ zada« konstrukcji po-szczególnych testów ma umo»liwi¢ jednoczesne ich rozwi¡zywanie z zastoso-waniem rozproszonych systemów obliczeniowych, w których nie ma globalnej pami¦ci. Do takich systemów nale»¡ popularne rozwi¡zania wieloproceso-rowe z pami¦ci¡ lokaln¡, o architekturze typu blade, oraz komputery po-ª¡czone sieciami w tzw. gridy (ang. grids) ([Karbowski 2009] s. 14 i nast.).

Równolegªo±¢ oblicze« ma umo»liwi¢ zako«czenie konstrukcji caªej procedury selekcjonuj¡cej w czasie nie przekraczaj¡cymtmax.

Proponowana w rozprawie metoda przyjmuje uniwersaln¡ zasad¦ heu-rystyczn¡ rozkªadania i skªadanie na nowo, zalecaj¡c¡ zbyt trudne zada-nie podzieli¢ na odpowiednio wiele ªatwiejszych, rozwi¡zywanych oddzielzada-nie ([Polya 1964] s. 207 i nast.). Zasada rozkªadania i skªadania jest ju» znana i stosowana jako metoda redukcji kosztów oblicze« przy konstrukcji klasyka-torów. Przykªademmo»e tu by¢ wspomniana na s. 20 metoda SMO konstruk-cji klasykatorów SVM. Zgodnie z podan¡ wcze±niej nieformalnie denicj¡, optymalizacja metod¡ SMO jest jednak zadaniem realizowanymwprost, gdy»

przez caªy czas trwania oblicze« wymaga przechowywania w pami¦ci zbioru ucz¡cego i wyników cz¡stkowych, które ostatecznie s¡ skªadane do postaci jednolitego klasykatora. Natomiast w proponowanej w rozprawie metodzie rozwi¡zania prostych zada« skªadowych, przyjmuj¡ce posta¢ testów, nie zo-staj¡ zªo»one do postaci jednolitego klasykatora, lecz pozozo-staj¡ zespoªem niezale»nych klasykatorów. Zatem dekompozycji podlega zarówno proces konstruowania procedury selekcjonuj¡cej jak i jej dziaªania.

31 Wyró»nikiem proponowanej metody jest równie» to, »e podstaw¡ przy-j¦tego w niej podziaªu zadania klasykacji nie s¡ samoistne wªasno±ci cjonowanych danych. Podstaw¦ dekompozycji stanowi zaªo»enie, »e selek-cjonowana populacja jest mieszanin¡ obiektów nale»¡cych do wielu ró»nych znanych klas. Przyj¦cie takiego zaªo»enia wymaga stosownej wiedzy dzie-dzinowej. W tym sensie metoda wymaga wst¦pnego ukierunkowania wiedz¡

ludzk¡, zwerykowan¡ lub postulowan¡ w postaci hipotez. Zaªo»enie, i» taka wiedza istnieje jest jednak uprawnione, jak wyja±niono to w p. 1.4.

Autorzy pracy [Saita 1998] uwa»aj¡, »e badania w dziedzinie uczenia ma-szynowego powinny by¢ prowadzone w powi¡zaniu z rzeczywistymi zada-niami praktycznymi. Ich zdaniem standardowe zbiory danych z otwartych bibliotek mog¡ sªu»y¢ do badania wªa±ciwo±ci algorytmów (w rodzaju ±re-dniej zªo»ono±ci obliczeniowej czy stabilno±ci numerycznej) natomiast wyniki uzyskane na tych zbiorach nie daj¡ podstawy do formuªowania rozstrzyga-j¡cych wniosków o przydatno±ci danego algorytmu (lub jego przewagi nad innymi) w ewentualnych rzeczywistych zastosowaniach. Tworz¡c skuteczne narz¦dzie selekcjonuj¡ce nale»y jednocze±nie odpowiednio dobiera¢ reprezen-tacj¦ danych i techniki klasykacji. Wniosek ten wspóªgra z rozwa»aniami dotycz¡cymi powstawania strat informacji, przytoczonymi na s. 17 rozprawy.

Dobr¡ praktyk¡ jest równie» porównywanie skuteczno±ci rozwi¡za« uzyska-nych metod¡ uczenia maszynowego ze skuteczno±ci¡ metod opracowauzyska-nych przez ekspertów w danej dziedzinie, je±li istniej¡.

Podzielaj¡c powy»sze uwagi, proponowan¡ w rozprawie metod¦ selek-cji przedyskutowano i zwerykowano zarówno z u»yciem standardowego te-stowego zbioru danych Abalone, pochodz¡cego z popularnej biblioteki UCI [Asuncion 2007], jak równie» na przykªadzie zadania wzorowanego na rze-czywistym zadaniu selekcjonowania danych pomiarowych w eksperymentach z dziedziny zyki cz¡stek elementarnych. Odtworzono przy tym kolejne etapy powstawania aplikacji przy wspóªpracy jej przyszªego u»ytkownika, eksperta merytorycznego w danej dziedzinie bada« oraz konstruktora algo-rytmu ([Saita 1998] ss. 137-141). W procesie tym, problem zdeniowany przez u»ytkownika przeksztaªcany jest przez ekspertów w zadanie uczenia maszynowego, a jego rozwi¡zanie powstaje w powi¡zaniu z analiz¡ sposobu pozyskiwania danych oraz wst¦pnego ich przetwarzania.

32 Rozdziaª 2. Postawienie zadania

Rozdziaª 3

Proponowana metoda selekcji

Wykonanie zadania postawionego w rozprawie wymaga opracowania sposobu konstruowania zespoªu klasykatorów, które zªo»¡ si¦ na efektywn¡ procedur¦

wst¦pnej selekcji z danych masowych. Posªugiwanie si¦ zespoªem klasyka-torów sªu»y pokonaniu ogranicze« jakie wprowadza pojedynczy klasykator.

Historycznie jako pierwsze t¡ drog¡ zacz¦to pokonywa¢ ograniczenia dokªad-no±ci klasykacji. Umo»liwia to fakt, »e ró»ne klasykatory bª¦dnie rozpo-znaj¡ niekoniecznie te same dane. Mo»na zatem oczekiwa¢, »e odpowiednie uwzgl¦dnianiewyników wielu klasykatorów cz¦±ciejb¦dzie prowadzi¢ do roz-strzygni¦¢ poprawnych ni» opieranie si¦ na wynikach tylko jednego klasyka-tora. W ramach tego podej±cia przestudiowano teoretycznie i zwerykowano praktycznie liczne rozwi¡zania. Ich przegl¡du wraz ze wskazaniem

bibliogra-i dokonuje Kuncheva [Kuncheva 2004]. Zespoªy klasykatorów stosowane s¡ równie» w zagadnieniach analizy danych wielkoskalowych, w sytuacjach gdy skonstruowanie wystarczaj¡co dokªadnych pojedynczych klasykatorów nie jest mo»liwe, gdy» koszt niezb¦dnych oblicze« przekracza dopuszczaln¡

wielko±¢. Rozwi¡zanie zespoªowe w tym przypadku polega na u»yciu zbioru klasykatorów o mniejszej ni» po»¡dana dokªadno±ci, zoptymalizowanych w sensie minimalizacji bª¦du generalizacji (1.4) w stopniu, na który pozwala dopuszczalna wielko±¢ niepodzielnego zadania obliczeniowego. W podej±ciu takim obowi¡zuj¡ te same zasady budowy efektywnego zespoªu jak w typo-wych konstrukcjach sªu»¡cych podniesieniu dokªadno±ci klasykacji.

Procedura selekcji proponowana w rozprawie nawi¡zuje do konstrukcji zespoªów, w których nowe dane analizowane s¡ niezale»nie przez wszystkie klasykatory, a ich wyniki agregowane s¡ do postaci rozstrzygni¦cia ko«-cowego. Aby zespóª o takiej konstrukcji byª efektywny nie mo»e skªada¢

si¦ z klasykatorów identycznych. Zaobserwowano równie», »e zagregowany wynik wielu dokªadnych klasykatorów nie zawsze przewy»sza wynik

najdo-33

34 Rozdziaª 3. Proponowana metoda selekcji

kªadniejszego spo±ród nich 1. Dokªadno±¢ rozpoznania mo»na podnie±¢ za pomoc¡ zespoªu zró»nicowanych klasykatorów, opracowanych na podstawie ró»nych przykªadów i/lub uogólniaj¡cych przykªady w odmienny sposób. W szczególno±ci na efektywny zespóª mog¡ si¦ skªada¢ klasykatory, które in-dywidualnie osi¡gaj¡ dokªadno±¢ niewiele wi¦ksz¡ ni» 1/2, zwane sªabymi.

Czynnikiem, który nale»y równie» rozwa»y¢ konstruuj¡c procedur¦ selek-cjonuj¡c¡ dane masowe jest rzeczywisty czas jej wykonania na etapie u»ytko-wania. Korzystn¡ strategi¡ jest stworzenie zespoªu (nawet licznego) szybko dziaªaj¡cych w czasie rzeczywistym klasykatorów, które mogªyby pracowa¢

równolegle i dla których koszt agregacji ich decyzji byªby mo»liwieniski. Pro-cedury o tych wªasno±ciach mogªyby by¢ stosowane na bie»¡co w systemach pozyskuj¡cych dane masowe.

Punkty 3.1 i 3.2 rozprawy omawiaj¡ zaªo»enia podziaªu zada« pomi¦dzy czªonków zespoªu oraz stosown¡ do tych zaªo»e« metod¦ agregowania indywi-dualnych wyników. Uzupeªnia je p. 3.3 omawiaj¡cy metody opisu stanu nie-pewno±ci. Peªn¡ procedur¦ selekcjonuj¡c¡ proponowan¡ w rozprawie przed-stawia p. 3.4. W p. 3.5 proponowana jest metoda redagowania zbiorów ucz¡cych dla klasykatorów dyskryminacyjnych przeznaczonych dla danych pochodz¡cych z przestrzeni w wielkim wymiarze.

1Inne metody zastosowania zespoªów klasykatorów to: sekwencyjna, w której zasa-dniczo stosowany jest jeden (gªówny) klasykator, a kolejne dopiero wtedy kiedy nie da on wyniku o odpowiednio wysokim poziomie zaufania;divide-and-conquer, przydatna gdy z wiedzy ekspertów wynika lub zostaªo to w pewien sposób ustalone, »e w ogólno±ci trud-nymi do sklasykowania s¡ obiekty (dane) o okre±lonych zestawach cech, pozwala to na podstawie pobie»nej analizy wst¦pnej kierowa¢ nowe dane na wej±cia odpowiednio wyspe-cjalizowanych klasykatorów w zespole.

3.1 Konstrukcja zespoªu klasykatorów 35

3.1 Konstrukcja zespoªu klasykatorów

Klasykatory w zespole mo»na zró»nicowa¢ wybieraj¡c dla ka»dego z nich odmienne:

 dane ucz¡ce,

 algorytm,

 parametry (np. warunki pocz¡tkowe optymalizacji).

W przypadku klasykacji danych masowych  wobec praktycznie nieograni-czonej dost¦pno±ci danych  najefektywniej jest ró»nicowa¢ klasykatory w zespole z u»yciem ró»nych zbiorów danych ucz¡cych, tworz¡cych kolekcj¦Z

Z =fZ1;Z2;:::;ZMg (3.1) gdzieM oznacza liczb¦ klasykatorów w zespole. Przyjmuje si¦ przy tym, »e liczno±¢ ka»dego ze zbiorówjZij pozwoli zoptymalizowa¢ odpowiadaj¡cy mu klasykator w czasie ograniczonym warunkiemt < tmax.

Swobod¦ wyboru algorytmu, jako metody zró»nicowania klasykatorów w zespole, ogranicza wielki wymiar przestrzeni cech selekcjonowanych da-nych. Jak uzasadnia si¦ w p. 1.3 wªa±ciwe s¡ tu algorytmy dyskryminacyjne, ze wskazaniem na maszyny SVM. W ich przypadku wybór parametrów (wa-runków pocz¡tkowych optymalizacji) mo»na uto»sami¢ z wyborem danych ucz¡cych.

Wªasno±ci indywidualnych klasykatorów, ich zdolno±¢ uogólniania da-nych ucz¡cych oraz ich wzajemne relacje warunkuj¡ sposób agregacji wyni-ków. W zwi¡zku z tym projektowanie zespoªu klasykatorów powinno obej-mowa¢ oba te elementy jednocze±nie.

Spo±ród podej±¢ do konstrukcji zespoªów klasykatorów dwa s¡ szczegól-nie przydatne w zastosowaniu do selekcji z danych masowych, gdzie liczba dost¦pnych danych ucz¡cych jest praktycznie nieograniczona2. Jedn¡ z mo»-liwo±ci jest zbudowanie zespoªu klasykatorów w podej±ciu bayesowskim( Ba-yesian committee[Tresp 2001b]), w którym zakªada si¦, »e poprawny sposób agregacji wyników, okre±laj¡cy decyzj¦d zespoªu, nie musi uwzgl¦dnia¢

Spo±ród podej±¢ do konstrukcji zespoªów klasykatorów dwa s¡ szczegól-nie przydatne w zastosowaniu do selekcji z danych masowych, gdzie liczba dost¦pnych danych ucz¡cych jest praktycznie nieograniczona2. Jedn¡ z mo»-liwo±ci jest zbudowanie zespoªu klasykatorów w podej±ciu bayesowskim( Ba-yesian committee[Tresp 2001b]), w którym zakªada si¦, »e poprawny sposób agregacji wyników, okre±laj¡cy decyzj¦d zespoªu, nie musi uwzgl¦dnia¢