specyczno±ci gotowego klasykatora.
1.5 Ocena skuteczno±ci selekcji
Selekcjonuj¡cwst¦pnie dane mo»na popeªni¢ bª¦dy dwojakiego rodzaju: odrzu-ci¢ dane istotne, albo zaakceptowa¢ nieistotne. Obydwa rodzaje bª¦dów zwy-kle maj¡ ró»ny wpªyw na powodzenie zadania, w którym selekcja z danych jest pierwszym krokiem. Zatem przy ocenie skuteczno±ci procedury selekcji z danych, obok ±redniego prawdopodobie«stwa poprawnej klasykacji zna-czenie maj¡ jej czuªo±¢ (ang. sensitivity) i specyczno±¢ (ang. specicity).
Warto±ci tych wska¹ników okre±lone z u»yciem zbioru testowego pozwalaj¡
oceni¢ jako±¢ klasykatora. Wska¹niki te s¡ równie» u»yteczne na etapie kon-struowania klasykatora, gdzie stanowi¡ podstaw¦ do okre±lenia jego ró»nych parametrów (z u»yciem zbioru walidacyjnego).
Jako±¢ procedury selekcjonuj¡cej dane masowe nale»y ocenia¢ z zasto-sowaniem odpowiednio licznego zbioru testowego rozª¡cznego ze zbiorem ucz¡cym u»ytym do konstrukcji klasykatora 10. Poddaj¡c przykªady ze zbioru testowego selekcji oraz zliczaj¡c przy tym decyzje podj¦te popraw-nie oraz decyzje podj¦te bª¦dpopraw-nie, osobno dla przykªadów danych istotnych i przykªadów danych nieistotnych, otrzymuje si¦ cztery liczbyskªadaj¡ce si¦ na tzw. macierz bª¦dów (ang. confusion matrix) klasykatora, której budow¦
obja±nia rys. 1.2 [Fawcett 2006]. Na gªównej przek¡tnej macierzy bª¦dów podawane s¡ liczby decyzji poprawnych: akceptacji danych istotnych True Positive (TP) oraz dyskwalikacji danych nieistotnych True Negative (TN).
Natomiast poza gªówn¡ przek¡tn¡ macierzy bª¦dów znajduj¡ si¦ liczby da-nych bª¦dnie zdyskwalikowada-nychFalse Negative (FN) oraz danych bª¦dnie zaakceptowanychFalse Positive (FP). Suma zawarto±ci wszystkich pól ma-cierzy bª¦dów jest równa liczno±ci zbioru testowego.
Macierz bª¦dów jest podstaw¡ obliczania wielu powszechnie stosowanych wska¹ników oceny klasykatorów. Podstawowym wska¹nikiem jest dokªad-no±¢ klasykacji (ang. accuracy (ACC)), wyra»ona w nast¦puj¡cy sposób z odwoªaniem do elementów macierzy bª¦dów
ACC= TP+TN
TP+FN+FP+TN (1.14)
dyskwalikacji, mo»e to by¢: próba wyªudzenia wypªaty w bankomacie, produkt z wad¡, sygnaª wywoªany wzbudzeniem aparatury pomiarowej.
10Kosztowne obliczeniowo metody testowania polegaj¡ce na wielokrotnej resubstytucji elementów zbioru ucz¡cego (przykªadowo walidacja krzy»owa) s¡ nieadekwatne w zastoso-waniu do analizy danych masowych, w których przypadku ograniczeniem nie jest dost¦p-no±¢ dªugich serii danych, tylko caªkowita wielko±¢ oblicze«, w której nale»y uwzgl¦dnia¢
równie» koszt oceny i testowania gotowych klasykatorów.
24 Rozdziaª 1. Dane masowe i ich selekcja na bie»¡co
dyskwalikacja akceptacja
istotny nieistotny
decyzja stan faktyczny
FNTP
TNFP
Rys. 1.2: Macierz bª¦dów klasykatora selekcjonuj¡cego dane
Wska¹nikczuªo±ci klasykatora wyra»ony jest wprost wielko±ci¡ znan¡ jako true positive rate(TPR), okre±lon¡ wzorem
TPR= TP
TP+FN (1.15)
Wska¹nikspecyczno±ci klasykatora zwi¡zany jest z wielko±ci¡ znan¡ jako false positive rate(FPR), okre±lon¡ wzorem
FPR= FP
FP+TN (1.16)
przy czym specyczno±¢ = 1?FPR 11.
Dokªadno±¢ ACC jest estymatoremprawdopodobie«stwa poprawnego skla-sykowania danych Pc, czyli ryzyka klasykacji danego formuª¡ (1.2) na s. 8, obliczanego przy symetrycznej funkcji strat. Wynika to ze spostrze»enia, »e liczba poprawnych decyzji klasykatora binarnego odnotowywana w dªugich seriach testów powinna mie¢ rozkªad Bernoulliego. Je±li przy klasykowaniu zbioru licz¡cegom = TP+FN+FP+TN przykªadowych danych odnotowane zostaªo mc = TP + TN poprawnych decyzji, estymatorem prawdopodobie«-stwa poprawnego sklasykowania danych Pc jest
^Pc =mc=m = ACC (1.17)
a jego odchylenie standardowe wynosi
^Pc =q^Pc(1?^Pc)=m (1.18)
11Cz¦±¢ wska¹ników wyst¦puje w literaturze pod kilkoma ró»nymi nazwami. Na przy-kªad czuªo±¢ znana jest równie» jakokompletno±¢ (ang. recall). Mo»na wymieni¢ inne wska¹niki, które okazuj¡ si¦ przydatne w konkretnych zastosowaniach: precyzja (ang.
precision) zdeniowana jest jako TP/(TP+FP). Miara F-score okre±lona jest wzorem F-score = 2=[1=precision +1=recall], za± Balanced Accuracy (BAC) wyra»a si¦ wzorem BAC=(czuªo±¢+specyczno±¢)=2, a ±redniag-mean=pczuªo±¢specyczno±¢ .
1.5 Ocena skuteczno±ci selekcji 25 Podobnie, wska¹niki czuªo±ci TPR i specyczno±ci 1-FPR s¡ estymato-rami prawdopodobie«stw, »e zostan¡ sklasykowane poprawnie dane, odpo-wiednio: istotne oraz nieistotne.
Je±li zbiory testowe powstaj¡, tak jak opisano to na s. 22, w drodze mo-delowania pozyskiwanych danych masowych jako mieszaniny (1.13) zbioru podpopulacjiF =ff1;f2;:::;fng, wielko±ci charakteryzuj¡ce jako±¢ selekcji populacji ª¡cznej mo»na estymowa¢ drog¡ u±redniania warto±ci otrzymanych dla poszczególnych podpopulacji fi. Je±li ^Pc(fi) jest estymatorem warto±ci danego wska¹nika dla podpopulacji fi, to estymatorem dla caªej populacji b¦dzie
^Pc =Xn
i=1P(fi)^Pc(fi) (1.19) Wariancja tego estymatora wyra»a si¦ wzorem
var(^Pc) =Xn
i=1P2(fi)var(^Pc(fi)) (1.20) Relacj¦ pomi¦dzy czuªo±ci¡ a specyczno±ci¡ klasykatora mo»na zobra-zowa¢ na pªaszczy¹nie jako punkt o odci¦tej i rz¦dnej równym odpowiednio warto±ciom FPR i TPR. Zbiór punktów (FPR, TPR) wyznaczonych dla ró»-nych warto±ci parametrów opisuj¡cych rodzin¦ klasykatorów skªada si¦ na krzyw¡ 12 zwan¡ w j. ang. Receiver Operating Characteristic Curve (ROC) [Fawcett 2006]. Rys. 1.3 przedstawia wykres ROC trzech rodzin binarnych klasykatorów bayesowskich, dziaªaj¡cych w warunkach równych prawdo-podobie«stw a priori klas, analizuj¡cych obiekty, których populacja repre-zentowana jest wariantowo w trzech ró»nych jednowymiarowych przestrze-niach cech o ró»nej informatywno±ci, mierzonej ilo±ci¡ informacji wzajemnej.
Krzywe ROC rodzin u»ytecznych klasykatorów musz¡ przebiega¢, przynaj-mniej cz¦±ciowo, powy»ej prostej TPR=FPR. Pokrywanie si¦ krzywej z t¡
prost¡ w caªym zakresie zmienno±ci parametrów steruj¡cych czuªo±ci¡ i spe-cyczno±ci¡ klasykatora oznaczaªoby, i» proporcje obiektów w wyselekcjono-wanym zbiorze byªyby takie same jak przed selekcj¡ co czyniªoby klasykator bezu»ytecznym. Im bardziej krzywa ROC danego klasykatora zbli»a si¦ do ªamanej ª¡cz¡cej punkty (0,0)-(0,1)-(1,1), tym lepsze ma on ogólne
wªa±ciwo-±ci. Dla klasykatorów, w których u»yto bayesowskiej reguªy decyzyjnej, w punkcie odpowiadaj¡cym minimalnemu ±redniemu bª¦dowi rozpoznania przy symetrycznejfunkcji strat, styczna do krzywej ROC przebiega nachylona pod k¡tem 45 wzgl¦dem osi odci¦tych.
12W ogólno±ci jest to zbiór punktów, który przyjmuje posta¢ krzywej o ile rodzin¦ kla-sykatorów mo»na sparametryzowa¢ w sposób ci¡gªy.
26 Rozdziaª 1. Dane masowe i ich selekcja na bie»¡co
Ksztaªt krzywej ROC wyznaczonej dla danego klasykatora nie zale»y od wzgl¦dnej cz¦sto±ci wyst¦powania w zbiorze testowym przykªadów reprezen-tuj¡cych poszczególne klasy. Dlatego krzywa ROC jest dobrym narz¦dziem wizualizacji wªasno±ci klasykatorów przeznaczonych do selekcjonowania po-pulacji takich jak (1.13), zªo»onych z podpopo-pulacji fi wymieszanych w pro-porcjach P(fi), w szczególno±ci gdy proporcje te s¡ niezrównowa»one lub nie-znane a priori, albo zmieniaj¡ si¦ w czasie. Skalarnym wska¹nikiem pozwa-laj¡cym porównywa¢ skuteczno±¢ klasykatorów na podstawie wykresów ich krzywych ROC jest pole powierzchni pod krzyw¡ (ang. Area Under the ROC Curve) AUC. Przy porównaniach, za lepsze nale»y uznawa¢ klasykatory o wy»szych warto±ciach AUC. Dla u»ytecznych klasykatorów 0:5 < AUC1.
−10 −5 0 5 10
Rys. 1.3: Wykres ROC trzech rodzin klasykatorów (po prawej) sªu»¡cych do wy-selekcjonowania z ogóªu populacji obiektów okre±lonej klasy (+). Ka»d¡ z rodzin tworz¡ klasykatory bayesowskie o zmiennej warto±ci progowejs, analizuj¡ce ce-chy o ró»nej informatywno±ci, mierzonej ilo±ci¡ informacji wzajemnejI1 >I2 >I3 (zdeniowanej przez (1.8) na s. 16). Warto±ci cechy w klasach podlegaj¡ jedno-wymiarowym rozkªadom normalnym ukazanym po lewej. redni bª¡d klasykacji osi¡ga warto±¢ minimaln¡ gdys =s0
Podane na s. 16 zwi¡zki warto±ci ryzyka klasykacji z ilo±ci¡ informacji dost¦pnej (równowa»nie: utraconej) pozwalaj¡ wysnu¢ pewne wnioski co do rozwa»anych procedur selekcji. Uwzgl¦dniaj¡c, i» kres dolny ryzyka klasyka-cji jest niemalej¡c¡ funkcj¡ straty informaklasyka-cji I, mo»na si¦ spodziewa¢, »e na wykresie ROC krzywe klasykatorów dysponuj¡cych wi¦ksz¡ ilo±ci¡ informa-cji powinny przebiega¢ powy»ej krzywychopisuj¡cych klasykatory pracuj¡ce w oparciu o dane mniej informatywne. Wªasno±¢ t¦ ilustruje rys. 1.3.
1.5 Ocena skuteczno±ci selekcji 27 Rozwa»aj¡c zatem hipotetyczne zadanie, w którym do selekcji obiektów pewnej populacji u»ywane s¡ dwie rodziny klasykatorów, przy czym pierw-sza z nich D1 otrzymuje na wej±ciu (w zbiorze ucz¡cym) wi¦cej informacji o klasykowanych obiektach ni» druga D2. W takich warunkach nale»y si¦
spodziewa¢, »e na odpowiednim wykresie ROC, punkty reprezentuj¡ce kla-sykatory Dx dysponuj¡ce po±redni¡ ilo±ci¡ informacji b¦d¡ le»e¢ w pasie wyznaczonym przez styczne do krzywych ROC rodzin D1 i D2, poprowa-dzone w punktach odpowiadaj¡cych klasykatorom osi¡gaj¡cym minimalne
±rednie bª¦dy rozpoznania, jak przedstawiono to na rys. 1.4. Wªasno±¢ t¦
powinny przejawia¢ wszelkie klasykatory Dx, o ile wykorzystuj¡ dost¦pn¡
im informacj¦ racjonalnie i mo»liwie najpeªniej. Spostrze»enie to pozwala dokona¢ przewidywa« co do wªasno±ci projektowanych klasykatorów w rze-czywistych zastosowaniach. Jako referencyjne klasykatory D1 i D2 mog¡
posªu»y¢ klasykatory bayesowskie przygotowane w oparciu o modele te-oretyczne selekcjonowanych danych, zakªadaj¡ce odpowiednio idealizacj¦ i uproszczenie rzeczywistego zagadnienia.
FPR
TPR
0 0.25 0.5 0.75 1
0 0.25 0.5 0.75 1
D1
D2
Dx
Rys. 1.4: Zacieniony pas wyznacza ob-szar przebiegu krzywych ROC klasykato-rówDx, które dysponuj¡ ilo±ci¡ informacji wej±ciowej wi¦ksz¡ ni» klasykatoryD2, ale mniejsz¡ ni» D1
28 Rozdziaª 1. Dane masowe i ich selekcja na bie»¡co
Rozdziaª 2
Postawienie zadania
Konstrukcja klasykatorów selekcjonuj¡cychdane masowe na podstawie zbio-rów danych ucz¡cych uwarunkowana jest ograniczeniem (1.6) podanym na s. 10, w którym wielko±ci¡ limituj¡c¡ jest rzeczywisty czas wykonywania oblicze«tmax. Ograniczenie to okre±la wielko±¢ oblicze«, czyli ª¡czn¡ liczb¦
operacji, które mo»na wykona¢ w trakcie konstrukcji klasykatora w czasie tmax. Wielko±¢ oblicze« z kolei determinuje zªo»ono±¢ najwi¦kszego zada-nia, które mo»e by¢ przy tym rozwi¡zywane wprost, czyli w takim trybie, w którym przez caªy czas trwania oblicze« w pami¦ci komputera przechowy-wane s¡ kompletne dane ucz¡ce oraz kolejne wyniki cz¡stkowe. Je±li zadanie to realizowane jest przez wiele pracuj¡cych równolegle procesorów, to zakªada si¦, »e procesory te korzystaj¡ z pami¦ci wspóªdzielonej.
Wielko±¢ oblicze«, wykonalnych przy pomocy dost¦pnych komputerów w akceptowalnym czasie, mo»na oszacowa¢ uwzgl¦dniaj¡c, »e wspóªcze±nie dost¦pne na rynku procesory osi¡gaj¡ wydajno±¢ oblicze« rz¦du 1 TFLOP / sekund¦ oraz przyjmuj¡c dla ustalenia uwagi, »e czas oblicze« nie powinien przekracza¢ 100 godzin. Prowadzi to do oszacowania wielko±ci oblicze« na poziomietmax=1017 FLOP 1.
Z drugiej strony, szacuj¡c potrzeby obliczeniowe, jako odniesienie mo»na przyj¡¢ zadania wymagaj¡ce uwzgl¦dnieniam=106 przykªadów opisanych w N=103 wymiarowej przestrzeni cech. W ich przypadku skonstruowanie kla-sykatora standardow¡ metod¡ wymaga wykonania oblicze« o koszcie rz¦du
O(Nm2) =O(1015) FLOP.
Zestawienie dokonanych oszacowa« wielko±ci oblicze« i potrzeb pokazuje,
»e zadania o skali porównywalnej z przyj¦tym jako odniesienie mog¡ oka-za¢ si¦ najwi¦kszymi daj¡cymi si¦ obecnie rozwi¡zywa¢ wprost za pomoc¡
1Od ang. Floating point Operation(FLOP). Szacowana w ten sposób wielko±¢ oblicze«
b¦dzie wzrasta¢ wraz z rozwojem technologii procesorów. Wydajno±¢ rz¦du 1 TFLOP/s zapewniaj¡ obecnie ukªady zbudowane z kilku wielordzeniowych procesorów, w rodzaju AMD HemlockXT 5970.
29
30 Rozdziaª 2. Postawienie zadania
powszechnie dost¦pnych komputerów. Stanowi to potencjalne ograniczenie praktycznych zastosowa« metod uczenia maszynowego w celu selekcjonowa-nia danych masowych. Nale»y pami¦ta¢, »e uzyskanie rozwi¡zaselekcjonowa-nia uznanego za optymalne poprzedzone jest zwykle sprawdzeniem wielu wariantów roz-wi¡za«.
Zadaniem postawionym w rozprawie jest opracowanie i eksperymentalna werykacja ogólnej metody wst¦pnego selekcjonowania danych masowych o skali, przy której próby skonstruowania wprost odpowiednich standardo-wych klasykatorów mog¡ przekracza¢ postulowan¡ wielko±¢ oblicze«. Istot¡
opracowanej metody jest uwzgl¦dnienie wiedzy dziedzinowej i zastosowanie zespoªu prostych klasykatorów (testów), przy czym konstrukcja ka»dego z nich jest wzgl¦dnie ªatwo realizowalna wprost. Opracowana metoda obejmuje oryginalny sposób ª¡cznego uwzgl¦dnienia wyników testów z zastosowaniem teorii Dempstera-Shafera. Wyniki testów traktowane s¡ jako przesªanki do podj¦cia ko«cowej decyzji o akceptacji (przekazaniu do dalszego przetwarza-nia) lub odrzuceniu danych.
Zakªada si¦, »e konstrukcja ka»dego z testów powinna by¢ odr¦bnym zada-niem obliczeniowym, na tyle maªo kosztownym by mogªo zosta¢ rozwi¡zane wprost w czasie rzeczywistym t tmax. Odr¦bno±¢ zada« konstrukcji po-szczególnych testów ma umo»liwi¢ jednoczesne ich rozwi¡zywanie z zastoso-waniem rozproszonych systemów obliczeniowych, w których nie ma globalnej pami¦ci. Do takich systemów nale»¡ popularne rozwi¡zania wieloproceso-rowe z pami¦ci¡ lokaln¡, o architekturze typu blade, oraz komputery po-ª¡czone sieciami w tzw. gridy (ang. grids) ([Karbowski 2009] s. 14 i nast.).
Równolegªo±¢ oblicze« ma umo»liwi¢ zako«czenie konstrukcji caªej procedury selekcjonuj¡cej w czasie nie przekraczaj¡cymtmax.
Proponowana w rozprawie metoda przyjmuje uniwersaln¡ zasad¦ heu-rystyczn¡ rozkªadania i skªadanie na nowo, zalecaj¡c¡ zbyt trudne zada-nie podzieli¢ na odpowiednio wiele ªatwiejszych, rozwi¡zywanych oddzielzada-nie ([Polya 1964] s. 207 i nast.). Zasada rozkªadania i skªadania jest ju» znana i stosowana jako metoda redukcji kosztów oblicze« przy konstrukcji klasyka-torów. Przykªademmo»e tu by¢ wspomniana na s. 20 metoda SMO konstruk-cji klasykatorów SVM. Zgodnie z podan¡ wcze±niej nieformalnie denicj¡, optymalizacja metod¡ SMO jest jednak zadaniem realizowanymwprost, gdy»
przez caªy czas trwania oblicze« wymaga przechowywania w pami¦ci zbioru ucz¡cego i wyników cz¡stkowych, które ostatecznie s¡ skªadane do postaci jednolitego klasykatora. Natomiast w proponowanej w rozprawie metodzie rozwi¡zania prostych zada« skªadowych, przyjmuj¡ce posta¢ testów, nie zo-staj¡ zªo»one do postaci jednolitego klasykatora, lecz pozozo-staj¡ zespoªem niezale»nych klasykatorów. Zatem dekompozycji podlega zarówno proces konstruowania procedury selekcjonuj¡cej jak i jej dziaªania.
31 Wyró»nikiem proponowanej metody jest równie» to, »e podstaw¡ przy-j¦tego w niej podziaªu zadania klasykacji nie s¡ samoistne wªasno±ci cjonowanych danych. Podstaw¦ dekompozycji stanowi zaªo»enie, »e selek-cjonowana populacja jest mieszanin¡ obiektów nale»¡cych do wielu ró»nych znanych klas. Przyj¦cie takiego zaªo»enia wymaga stosownej wiedzy dzie-dzinowej. W tym sensie metoda wymaga wst¦pnego ukierunkowania wiedz¡
ludzk¡, zwerykowan¡ lub postulowan¡ w postaci hipotez. Zaªo»enie, i» taka wiedza istnieje jest jednak uprawnione, jak wyja±niono to w p. 1.4.
Autorzy pracy [Saita 1998] uwa»aj¡, »e badania w dziedzinie uczenia ma-szynowego powinny by¢ prowadzone w powi¡zaniu z rzeczywistymi zada-niami praktycznymi. Ich zdaniem standardowe zbiory danych z otwartych bibliotek mog¡ sªu»y¢ do badania wªa±ciwo±ci algorytmów (w rodzaju ±re-dniej zªo»ono±ci obliczeniowej czy stabilno±ci numerycznej) natomiast wyniki uzyskane na tych zbiorach nie daj¡ podstawy do formuªowania rozstrzyga-j¡cych wniosków o przydatno±ci danego algorytmu (lub jego przewagi nad innymi) w ewentualnych rzeczywistych zastosowaniach. Tworz¡c skuteczne narz¦dzie selekcjonuj¡ce nale»y jednocze±nie odpowiednio dobiera¢ reprezen-tacj¦ danych i techniki klasykacji. Wniosek ten wspóªgra z rozwa»aniami dotycz¡cymi powstawania strat informacji, przytoczonymi na s. 17 rozprawy.
Dobr¡ praktyk¡ jest równie» porównywanie skuteczno±ci rozwi¡za« uzyska-nych metod¡ uczenia maszynowego ze skuteczno±ci¡ metod opracowauzyska-nych przez ekspertów w danej dziedzinie, je±li istniej¡.
Podzielaj¡c powy»sze uwagi, proponowan¡ w rozprawie metod¦ selek-cji przedyskutowano i zwerykowano zarówno z u»yciem standardowego te-stowego zbioru danych Abalone, pochodz¡cego z popularnej biblioteki UCI [Asuncion 2007], jak równie» na przykªadzie zadania wzorowanego na rze-czywistym zadaniu selekcjonowania danych pomiarowych w eksperymentach z dziedziny zyki cz¡stek elementarnych. Odtworzono przy tym kolejne etapy powstawania aplikacji przy wspóªpracy jej przyszªego u»ytkownika, eksperta merytorycznego w danej dziedzinie bada« oraz konstruktora algo-rytmu ([Saita 1998] ss. 137-141). W procesie tym, problem zdeniowany przez u»ytkownika przeksztaªcany jest przez ekspertów w zadanie uczenia maszynowego, a jego rozwi¡zanie powstaje w powi¡zaniu z analiz¡ sposobu pozyskiwania danych oraz wst¦pnego ich przetwarzania.
32 Rozdziaª 2. Postawienie zadania
Rozdziaª 3
Proponowana metoda selekcji
Wykonanie zadania postawionego w rozprawie wymaga opracowania sposobu konstruowania zespoªu klasykatorów, które zªo»¡ si¦ na efektywn¡ procedur¦
wst¦pnej selekcji z danych masowych. Posªugiwanie si¦ zespoªem klasyka-torów sªu»y pokonaniu ogranicze« jakie wprowadza pojedynczy klasykator.
Historycznie jako pierwsze t¡ drog¡ zacz¦to pokonywa¢ ograniczenia dokªad-no±ci klasykacji. Umo»liwia to fakt, »e ró»ne klasykatory bª¦dnie rozpo-znaj¡ niekoniecznie te same dane. Mo»na zatem oczekiwa¢, »e odpowiednie uwzgl¦dnianiewyników wielu klasykatorów cz¦±ciejb¦dzie prowadzi¢ do roz-strzygni¦¢ poprawnych ni» opieranie si¦ na wynikach tylko jednego klasyka-tora. W ramach tego podej±cia przestudiowano teoretycznie i zwerykowano praktycznie liczne rozwi¡zania. Ich przegl¡du wraz ze wskazaniem
bibliogra-i dokonuje Kuncheva [Kuncheva 2004]. Zespoªy klasykatorów stosowane s¡ równie» w zagadnieniach analizy danych wielkoskalowych, w sytuacjach gdy skonstruowanie wystarczaj¡co dokªadnych pojedynczych klasykatorów nie jest mo»liwe, gdy» koszt niezb¦dnych oblicze« przekracza dopuszczaln¡
wielko±¢. Rozwi¡zanie zespoªowe w tym przypadku polega na u»yciu zbioru klasykatorów o mniejszej ni» po»¡dana dokªadno±ci, zoptymalizowanych w sensie minimalizacji bª¦du generalizacji (1.4) w stopniu, na który pozwala dopuszczalna wielko±¢ niepodzielnego zadania obliczeniowego. W podej±ciu takim obowi¡zuj¡ te same zasady budowy efektywnego zespoªu jak w typo-wych konstrukcjach sªu»¡cych podniesieniu dokªadno±ci klasykacji.
Procedura selekcji proponowana w rozprawie nawi¡zuje do konstrukcji zespoªów, w których nowe dane analizowane s¡ niezale»nie przez wszystkie klasykatory, a ich wyniki agregowane s¡ do postaci rozstrzygni¦cia ko«-cowego. Aby zespóª o takiej konstrukcji byª efektywny nie mo»e skªada¢
si¦ z klasykatorów identycznych. Zaobserwowano równie», »e zagregowany wynik wielu dokªadnych klasykatorów nie zawsze przewy»sza wynik
najdo-33
34 Rozdziaª 3. Proponowana metoda selekcji
kªadniejszego spo±ród nich 1. Dokªadno±¢ rozpoznania mo»na podnie±¢ za pomoc¡ zespoªu zró»nicowanych klasykatorów, opracowanych na podstawie ró»nych przykªadów i/lub uogólniaj¡cych przykªady w odmienny sposób. W szczególno±ci na efektywny zespóª mog¡ si¦ skªada¢ klasykatory, które in-dywidualnie osi¡gaj¡ dokªadno±¢ niewiele wi¦ksz¡ ni» 1/2, zwane sªabymi.
Czynnikiem, który nale»y równie» rozwa»y¢ konstruuj¡c procedur¦ selek-cjonuj¡c¡ dane masowe jest rzeczywisty czas jej wykonania na etapie u»ytko-wania. Korzystn¡ strategi¡ jest stworzenie zespoªu (nawet licznego) szybko dziaªaj¡cych w czasie rzeczywistym klasykatorów, które mogªyby pracowa¢
równolegle i dla których koszt agregacji ich decyzji byªby mo»liwieniski. Pro-cedury o tych wªasno±ciach mogªyby by¢ stosowane na bie»¡co w systemach pozyskuj¡cych dane masowe.
Punkty 3.1 i 3.2 rozprawy omawiaj¡ zaªo»enia podziaªu zada« pomi¦dzy czªonków zespoªu oraz stosown¡ do tych zaªo»e« metod¦ agregowania indywi-dualnych wyników. Uzupeªnia je p. 3.3 omawiaj¡cy metody opisu stanu nie-pewno±ci. Peªn¡ procedur¦ selekcjonuj¡c¡ proponowan¡ w rozprawie przed-stawia p. 3.4. W p. 3.5 proponowana jest metoda redagowania zbiorów ucz¡cych dla klasykatorów dyskryminacyjnych przeznaczonych dla danych pochodz¡cych z przestrzeni w wielkim wymiarze.
1Inne metody zastosowania zespoªów klasykatorów to: sekwencyjna, w której zasa-dniczo stosowany jest jeden (gªówny) klasykator, a kolejne dopiero wtedy kiedy nie da on wyniku o odpowiednio wysokim poziomie zaufania;divide-and-conquer, przydatna gdy z wiedzy ekspertów wynika lub zostaªo to w pewien sposób ustalone, »e w ogólno±ci trud-nymi do sklasykowania s¡ obiekty (dane) o okre±lonych zestawach cech, pozwala to na podstawie pobie»nej analizy wst¦pnej kierowa¢ nowe dane na wej±cia odpowiednio wyspe-cjalizowanych klasykatorów w zespole.
3.1 Konstrukcja zespoªu klasykatorów 35
3.1 Konstrukcja zespoªu klasykatorów
Klasykatory w zespole mo»na zró»nicowa¢ wybieraj¡c dla ka»dego z nich odmienne:
dane ucz¡ce,
algorytm,
parametry (np. warunki pocz¡tkowe optymalizacji).
W przypadku klasykacji danych masowych wobec praktycznie nieograni-czonej dost¦pno±ci danych najefektywniej jest ró»nicowa¢ klasykatory w zespole z u»yciem ró»nych zbiorów danych ucz¡cych, tworz¡cych kolekcj¦Z
Z =fZ1;Z2;:::;ZMg (3.1) gdzieM oznacza liczb¦ klasykatorów w zespole. Przyjmuje si¦ przy tym, »e liczno±¢ ka»dego ze zbiorówjZij pozwoli zoptymalizowa¢ odpowiadaj¡cy mu klasykator w czasie ograniczonym warunkiemt < tmax.
Swobod¦ wyboru algorytmu, jako metody zró»nicowania klasykatorów w zespole, ogranicza wielki wymiar przestrzeni cech selekcjonowanych da-nych. Jak uzasadnia si¦ w p. 1.3 wªa±ciwe s¡ tu algorytmy dyskryminacyjne, ze wskazaniem na maszyny SVM. W ich przypadku wybór parametrów (wa-runków pocz¡tkowych optymalizacji) mo»na uto»sami¢ z wyborem danych ucz¡cych.
Wªasno±ci indywidualnych klasykatorów, ich zdolno±¢ uogólniania da-nych ucz¡cych oraz ich wzajemne relacje warunkuj¡ sposób agregacji wyni-ków. W zwi¡zku z tym projektowanie zespoªu klasykatorów powinno obej-mowa¢ oba te elementy jednocze±nie.
Spo±ród podej±¢ do konstrukcji zespoªów klasykatorów dwa s¡ szczegól-nie przydatne w zastosowaniu do selekcji z danych masowych, gdzie liczba dost¦pnych danych ucz¡cych jest praktycznie nieograniczona2. Jedn¡ z mo»-liwo±ci jest zbudowanie zespoªu klasykatorów w podej±ciu bayesowskim( Ba-yesian committee[Tresp 2001b]), w którym zakªada si¦, »e poprawny sposób agregacji wyników, okre±laj¡cy decyzj¦d zespoªu, nie musi uwzgl¦dnia¢
Spo±ród podej±¢ do konstrukcji zespoªów klasykatorów dwa s¡ szczegól-nie przydatne w zastosowaniu do selekcji z danych masowych, gdzie liczba dost¦pnych danych ucz¡cych jest praktycznie nieograniczona2. Jedn¡ z mo»-liwo±ci jest zbudowanie zespoªu klasykatorów w podej±ciu bayesowskim( Ba-yesian committee[Tresp 2001b]), w którym zakªada si¦, »e poprawny sposób agregacji wyników, okre±laj¡cy decyzj¦d zespoªu, nie musi uwzgl¦dnia¢