• Nie Znaleziono Wyników

5.2 Realizacja procedury selekcji

5.2.1 Klasykacja diagnostyczna

Klasykacj¦ diagnostyczn¡ C =fc1;c2;:::;cLg, która staªa si¦ podstaw¡ do dekompozycji zadania selekcji wst¦pnej testowych danych masowych, stwo-rzono na podstawie kategoryzacji schematów przebiegu procesów zycznych

F = ff1;f2;:::;fng wprowadzonej w p. 5.1.1. W tym celu pogrupowano schematyfi w rozª¡czne klasy cj = Sifi. Przesªanki, którymi si¦ przy tym kierowano przedstawiono w dodatku B.2. Klasykacj¦ diagnostyczn¡ przy-gotowano w wariantach dopasowanych do zada« poszczególnych procedur selekcji. Klasy diagnostyczne cj 2C otrzymaªy umowne oznaczenia.

Dla procedury, której zadaniem jest wyselekcjonowanie z danych wszy-stkich zaobserwowanych wyst¡pie« cz¡stki Higgsa, niezale»nie od tego na jakie obiekty si¦ ona rozpadªa (h ! X), podzbiór akceptowanych schema-tówfi przebiegu zjawisk zycznych przedstawiono jako 3 klasy diagnostyczne

C

+ = fch;chz;chwzg. Podobnie pogrupowano podzbiór schematów

dyskwali-kowanychC? =fcqcdj;cq1wz;c2wzg, otrzymuj¡c zbiór L = 6 klas

C =fch;chz;chwz;cqcdj;c1wz;c2wzg (5.5) W przypadku procedur przeznaczonych do selekcji przypadków zaobser-wowania cz¡stek Higgsa rozpadaj¡cych si¦ w szczególny sposób, schematy fi procesów zwi¡zanych z powstaniem i odpowiednim wariantem rozpadu cz¡stki Higgsa uj¦to w jedn¡ klas¦ procesów akceptowanych, a pozostaªe, dys-kwalikowane schematy procesów, przedstawiono jako 6 klas, tworz¡c zbiór L = 7 klas diagnostycznych:

 przy selekcji przypadków rozpadu na dwa fotony (h ! 2 ), wprowadzono klas¦ procesów akceptowanychfch2 g tworz¡c

C

(h!2 ) =fch2 ;cqcdj;c1wz;c2wz;chnh2 ;chz;chwzg (5.6)

 przy selekcji przypadków rozpadu na cztery lekkie cz¡stki (h ! 4l), wpro-wadzono klas¦ procesów akceptowanychfch4lg tworz¡c

C

(h!4l) =fch4l;cqcdj;c1wz;c2wz;ch;chz;chwznh4lg (5.7) zachodz¡ tu zwi¡zkich =fch2 ;chnh2 goraz chwz =fch4l;chwznh4lg. Prawdo-podobie«stwa P(cj) wyst¦powania w danych reprezentantów poszczególnych klas diagnostycznych zestawia tabl. 5.1. Podkre±li¢ nale»y znacz¡ce niezrów-nowa»enie prawdopodobie«stw wyst¦powania w danych klas procesów akcep-towanych w stosunku do pozostaªych.

108 Rozdziaª 5. Eksperymentalna werykacja zaproponowanej metody

Wprowadzona klasykacja diagnostyczna umo»liwia podziaª zadania se-lekcji pomi¦dzy zespoªy licz¡ce L(L?1)=2, czyli 15 albo 21, klasykatorów binarnych (testów) Tcj;ck, separuj¡cych klasy diagnostyczne cj 6=ck. W±ród nich jest odpowiednio 9 i 6 testówTcj;ck separuj¡cych klasy, z których jedna nale»y do podzbioru klas akceptowanych, a druga do podzbioru klas dyskwa-likowanych, czylicj 2C+ i ck 2C? lub cj 2C? i ck 2C+.

Tabl. 5.1: Charakterystyka klas diagnostycznychcj stworzonych przez poª¡czenie wybranych schematów przebiegu procesów zycznychcj=Sifi,fi 2F. Prawdo-podobie«stwo wyst¦powania reprezentantów poszczególnych klas diagnostycznych w±ród danych testowych obliczono jakoP(cj)=Pfi2cjP(fi)

Klasa Liczba P(cj) Liczba przykªadów cj schematówfi optymalizacja walidacja

C 113 1 16767 98742

C

+ 80 3:15 10?8 14024 86073

C

? 33 1?P(C+) 2743 12669

cqcdj 3 0.99992 154 246

c1wz 15 8:13 10?5 1102 6199

c2wz 15 3:75 10?8 1487 6224

ch 20 2:76 10?8 3301 17974

chz 15 3:58 10?11 3820 27112

chwz 45 3:88 10?9 6903 40987

ch2 5 1:19 10?10 1855 8440

chnh2 15 2:75 10?8 1446 9534

ch4l 5 3:41 10?12 1250 4750

chwznh4l 40 3:88 10?9 5653 36237

5.2.2 Maszyny SVM i modele funkcji wsparcia

Stosownie do wprowadzonej w p. 5.2.1 klasykacji diagnostycznej opracowano testyTci;cj separuj¡ce parami klasyci;ci 2Cw przestrzeni cech S, a nast¦pnie zwi¡zane z testami funkcje, których warto±ci interpretowane s¡ jako stopie«

przekonania o przynale»no±ci (odpowiednio nieprzynale»no±ci) testowanych danych do jednej z separowanych klas.

Testy Tci;cj konstruowano jako maszyny wektorów podpieraj¡cych SVM z elastycznym marginesem regularyzowanym staª¡ C, i j¡drem radialnym K(si;sk) = exp(? (ksi?skk)2), gdzie staªa rzeczywista > 0 jest parame-trem metody, asi;sk 2S. Posªu»ono si¦ w tym celu oprogramowaniem LIB-SVM [Chang 2001]. Zbiory ucz¡ce i waliduj¡ce zredagowano metod¡ opisan¡

w p. 3.5. (Zbiory ucz¡ce zawieraªy wyª¡cznie przykªady o cechach uznanych

5.2 Realizacja procedury selekcji 109 za typowe w klasachfi 2F.) Dla ka»dego z konstruowanych testów, w iden-tyczny sposób przygotowano trzy równoliczne, ale rozª¡czne zbiory ucz¡ce.

Równie» zbiór waliduj¡cy nie zawieraª elementów wspólnych z »adnym ze zbiorów ucz¡cych. Liczby przykªadów z poszczególnych klas diagnostycz-nych, które znajdowaªy si¦ w zbiorach ucz¡cych podaje tabl. 5.1.

Podczas konstruowania testów dla ka»dej sprawdzanej pary warto±ci pa-rametrów ( ;C) niezale»nie optymalizowano trzy realizacje SVM, ka»d¡ na podstawie innego zbioru ucz¡cego. Nast¦pnie przy u»yciu ka»dej z nich kla-sykowano elementy zbioru walidacyjnego, wyznaczaj¡c dokªadno±¢ klasy-kacji ACC, zdeniowan¡ jako (1.14) na s. 23. Nast¦pnie, dla otrzymanych trzech warto±ci wska¹nika dokªadno±ci obliczano ±redni¡hACCioraz odchyle-nie standardowe hACCi. Za najlepsz¡ uznawano t¦ kombinacj¦ ( , C), dla której ±rednia hACCi przyjmowaªa najwi¦ksz¡ warto±¢, przy czym po»¡dane byªo jednocze±nie maªe odchylenie standardowehACCiw wybranym punkcie ( , C) i jego bezpo±rednim otoczeniu 3. Rys. 5.10 ilustruje zale»no±ci

pomi-¦dzy uzyskiwan¡ warto±ci¡ ±redni¡ hACCi a warto±ciami parametrów i C w przeprowadzonych eksperymentach obliczeniowych.

Rys. 5.10: Wpªyw wyboru warto±ci parametrów j¡dra radialnego i regularyzacji C klasykatora SVM separuj¡cego klas¦ch2 odchnh2 na uzyskiwan¡ dokªadno±¢

klasykacji. Przedstawiono warstwice warto±ci ±redniej dokªadno±ci klasykacji

hACCioraz jej odchylenia standardowegohACCi, wyra»onych w %. ‘redni¡ obli-czano na podstawie wyników trzech realizacji klasykatora SVM, otrzymanych na podstawie trzech ró»nych zbiorów ucz¡cych. Wykresy daj¡ podstaw¦ by wspóª-rz¦dne punktu oznaczonego koªem (96.11.21%) uzna¢ za bliskie warto±ciom opty-malnym pary parametrów( ;C)

3Stabilno±¢ wyników pomimo wymiany danych ucz¡cych ±wiadczy o standaryzacji me-tody redagowania zbiorów ucz¡cych.

110 Rozdziaª 5. Eksperymentalna werykacja zaproponowanej metody

Ustalono, i» warto±¢ = 0:001, lub jej bliska, zapewnia najwi¦ksz¡ ±re-dni¡ dokªadno±¢ klasykacji danych testowych w przypadku wszystkich kon-struowanych maszyn SVM 4. Wªasno±ci uzyskanych maszyn SVM, separu-j¡cych klasy diagnostyczne, zebrano w tabl. 5.2 na s. 111. Tabl. 5.2 podaje równie» informacje o zªo»ono±ci maszyn SVM, wyra»onej liczb¡ wektorów podpieraj¡cychnSV oraz o stopniu uogólnienia przykªadów, za który mo»na uwa»a¢ stosunek liczbywektorów podpieraj¡cych do liczno±ci zbioru ucz¡cego nSV/nV.

Spo±ród trzech realizacji maszyn SVM wyuczonych przy zaªo»eniu uzna-nej za najlepsz¡ kombinacji ( , C), do dalszych prac wybrano te realizacje, które klasykowaªy zbiór waliduj¡cy z dokªadno±ci¡ najbli»sz¡ warto±ci ±re-dniej hACCi. W tabl. 5.2, w kolumnie ACC0 podano dokªadno±¢ z jak¡ te wybrane realizacje SVM klasykuj¡ dane ze zbiorów walidacyjnych, a ich czuªo±¢ i specyczno±¢ podaj¡ odpowiednio kolumny TPR0 i TNR0. Odchy-lenie standardowe ACC0 dokªadno±ci obliczono zgodnie z formuª¡ (1.18) podan¡ na s. 24. Dla wi¦kszo±ci skonstruowanych maszyn SVM zachodzi

hACCi > ACC0. Zatem przy przewidywaniach rzeczywistej jako±ci two-rzonego testu podstawowe znaczenie ma ocena reprezentatywno±ci zbiorów ucz¡cych.

Za pomoc¡ wybranych jako najbli»szych ±redniej realizacji maszyn SVM Tci;cj przeanalizowano odpowiednie podzbiory danych ucz¡cych, by zgodnie z procedur¡ opisan¡ na s. 64, zbudowa¢ histogramy rozkªadu wielko±ci  stanowi¡cej argument funkcji decyzyjnej klasykatora SVMy=sgn(?0)5. Analiz¦ t¦ przeprowadzono dla ka»dej z wybranych maszyny SVM, odpowie-dnio dla obydwu separowanych przez ni¡ klas diagnostycznych. Otrzymane histogramy unormowano i wyznaczono ich dystrybuanty, do których dopa-sowano 6 funkcje logistyczne cdfdci;cj:ck() = 1=[1 + exp[ (?)]]. Rezultaty opisanych operacji przedstawiaj¡ rysunki 5.11.a i 5.11.b. Parametry dopaso-wanych funkcji logistycznych podaje tabl. 5.3 na s. 114.

4Niecelowym jest precyzyjne dostrajanie warto±ci ( ;C), je±li obserwowana przy tym poprawa dokªadno±ci klasykacji jest mniejsza ni» bª¡d wynikaj¡cy z wyboru sko«czonej próby ucz¡cej.

5Przyjmuj¡c w (1.10) na s. 19 =PnSVi yi iK(si;s)oraz 0=?b.

6U»yto w tym celu procedurynlint w oprogramowaniu MATLAB Statistics Toolbox, b¦d¡cej implementacj¡ nieliniowej metody najmniejszych kwadratów Gaussa-Newtona.

5.2 Realizacja procedury selekcji 111

Test hACCi hACCi ACC0 ACC0 TPR0 TNR0 C nSV nBSV nSV=nV

T1wz;qcdj 86.71 0.74 86.45 0.97 95.66 77.24 104 164 19 0.131

T1wz;2wz 75.55 1.41 76.21 0.84 65.16 87.26 102 1413 1079 0.546

T2wz;qcdj 89.31 0.76 89.27 0.76 97.65 80.89 104 198 13 0.121

Th;qcdj 93.36 0.47 93.36 0.42 98.91 87.80 104 318 13 0.092

Th;1wz 86.12 1.21 86.04 0.52 91.39 80.69 101 2021 1740 0.459 Th;2wz 89.66 0.21 89.66 0.44 87.03 92.29 102 1447 858 0.302 Th;hz 65.83 1.10 66.18 0.56 67.11 65.24 105 3635 150 0.510

Th;hwz 70.15 0.48 70.13 0.45 68.74 71.52 102 6212 4733 0.609

Thz;qcdj 88.69 0.70 88.32 0.51 99.80 76.83 104 324 7 0.082

Thz;1wz 83.99 1.47 84.05 0.52 88.98 79.13 102 1787 1214 0.363 Thz;2wz 98.33 0.43 98.28 0.18 99.17 97.38 103 1101 22 0.207

Thz;hwz 87.75 0.55 87.98 0.31 89.37 86.59 102 4900 2390 0.457

Thwz;qcdj 85.53 0.69 85.39 0.42 99.64 71.14 104 290 18 0.041

Thwz;1wz 79.75 0.72 80.02 0.45 80.44 79.61 101 3836 3478 0.479 Thwz;2wz 83.56 0.33 83.55 0.40 78.21 88.88 102 3404 2475 0.406

Th2 ;qcdj 94.11 0.92 94.20 0.52 99.77 88.62 102 222 2 0.111

Th2 ;1wz 98.04 0.33 98.23 0.24 98.63 97.84 102 484 120 0.164 Th2 ;2wz 99.03 0.22 99.02 0.17 98.51 99.53 102 437 17 0.131 Th2 ;hnh2 96.10 1.21 95.69 0.32 93.03 98.35 102 845 122 0.211 Th2 ;hz 87.67 2.42 87.06 0.45 79.86 94.25 102 1506 536 0.265

Th2 ;hwz 96.26 1.26 95.68 0.22 91.88 99.47 102 1072 256 0.122

Th4l;qcdj 99.71 0.11 99.75 0.13 99.92 99.59 102 147 21 0.105

Th4l;1wz 94.66 1.38 95.22 0.44 93.07 97.37 102 447 89 0.190 Th4l;2wz 88.67 1.61 87.79 0.63 79.35 96.24 102 611 201 0.223 Th4l;h 88.44 2.18 88.27 0.48 79.35 97.20 102 958 336 0.211 Th4l;hz 87.52 2.48 87.65 0.46 80.00 95.30 102 1184 377 0.234

Th4l;hwznh4l 83.21 3.16 83.48 0.43 71.73 95.23 102 1334 595 0.181

Tabl. 5.2: Wªasno±ci uzyskanych testówTci;cj (SVM) separuj¡cych klasy diagno-styczne ci i cj. W tabl. (w %): hACCi warto±¢ ±rednia dokªadno±ci 3 realizacji maszyny, uczonych na ró»nych zbiorach ucz¡cych;hACCiodchylenie standardowe dokªadno±ci; wielko±ci ACC0, TPR0, TNR0 to odpowiednio: dokªadno±¢, czuªo±¢

i specyczno±¢ klasykacji, osi¡gane przez realizacj¦ maszyny, której dokªadno±¢

byªa najbli»sza ±redniejhACCi. W ka»dym przypadku = 0:001. Podano rów-nie»: nV  liczb¦ przykªadów w zbiorze ucz¡cym, nSV  liczb¦ wektorów podpie-raj¡cych oraz nBSV  liczb¦ wektorów podpiepodpie-raj¡cych le»¡cych poza pªaszczyzn¡

kanoniczn¡ maszyny SVM

112 Rozdziaª 5. Eksperymentalna werykacja zaproponowanej metody

−0.29 −0.28 −0.27 −0.26 −0.25 −0.24 −0.23 0

0.03 0.04 0.05 0.06 0.07 0.08 0.09 0

Rys. 5.11.a: Unormowane histogramy rozkªadu wielko±cistanowi¡cej argument funkcji decyzyjnej y=sgn(?0) maszyn SVM skonstruowanych jako klasykatory Tci;cj;kw koznacza dªugo±¢ wektora deniuj¡cego pªaszczyzn¦ kanoniczn¡ maszyny SVM. Histogram zacieniowany odpowiada klasie ci, linia pionowa przebiega przez punkty o odci¦tej 0=kw k. Przedstawiono równie» wykresy funkcji logistycznych

d

cdfci;cj:ck aproksymuj¡cych dystrybuanty g¦sto±ci rozkªadów zmiennej. Rysunek kontynuowany jest na nast¦pnej stronie

5.2 Realizacja procedury selekcji 113

Th, qcdj

ρ/|w|

−0.17 −0.16 −0.15 −0.14 −0.13 −0.12 −0.11 0

−0.49 −0.48 −0.47 −0.46 −0.45 −0.44 −0.43 0

−0.135 −0.13 −0.125 −0.12 −0.115 −0.11 0

0.01 0.02 0.03 0.04 0.05 0.06 0.07 0

Rys. 5.11.b: Kontynuacja rys. 5.11.a z poprzedniej strony

114 Rozdziaª 5. Eksperymentalna werykacja zaproponowanej metody

Tabl. 5.3: Parametry funkcji cdfdci;cj:ck() = 1=[1+exp[ (?)]] aproksymu-j¡cych dystrybuanty g¦sto±ci rozkªadów wielko±ci  stanowi¡cej argument funkcji decyzyjnej y=sgn(?0) maszyn SVM skonstruowanych jako klasykatoryTci;cj

ck = ci cj 0

ci;cj:  

1wz;qcdj: -213.084 -0.306 -801.924 -0.320 -0.318

1wz;2wz: -315.233 0.044 -307.564 0.037 0.041

2wz;qcdj: -182.145 -0.281 -486.905 -0.303 -0.299 h;qcdj: -274.565 -0.145 -1142.750 -0.160 -0.157 h;1wz: -145.255 -0.682 -266.207 -0.703 -0.699 h;2wz: -184.308 -0.466 -703.209 -0.480 -0.476 h;hz: -2447.000 -0.122 -2719.180 -0.122 -0.122 h;hwz: -545.597 -0.202 -754.528 -0.205 -0.204 hz;qcdj: -201.604 -0.357 -488.268 -0.379 -0.376 hz;1wz: -227.906 -0.491 -492.173 -0.502 -0.500 hz;2wz: -607.723 -0.216 -2864.730 -0.223 -0.221 hz;hwz: -1181.530 -0.094 -1711.650 -0.099 -0.097 hwz;qcdj: -169.124 -0.339 -553.517 -0.359 -0.358 hwz;1wz: -133.959 -0.543 -304.049 -0.559 -0.555 hwz;2wz: -320.795 -0.197 -1471.250 -0.203 -0.201 h2 ;qcdj: -174.129 -0.539 -369.550 -0.574 -0.564 h2 ;1wz: -250.256 -0.539 -378.122 -0.562 -0.553 h2 ;2wz: -255.579 -0.400 -660.858 -0.426 -0.415 h2 ;hnh2 : -429.014 -0.211 -374.184 -0.227 -0.218 h2 ;hz: -514.292 -0.189 -358.808 -0.198 -0.192 h2 ;hwz: -537.940 -0.254 -438.640 -0.268 -0.259 h4l;qcdj : -140.308 -0.508 -1070.740 -0.551 -0.535 h4l;1wz: -180.803 -0.333 -383.017 -0.353 -0.344 h4l;2wz: -205.209 -0.336 -379.207 -0.353 -0.343 h4l;h: -314.734 -0.041 -230.084 -0.057 -0.045 h4l;hz: -386.033 0.071 -280.651 0.059 0.068 h4l;hwznh4l: -374.066 0.013 -308.660 0.002 0.012

5.2.3 Rezultaty selekcji

Procedury selekcji przygotowano z zastosowaniem omówionych w p. 5.2.2 klasykatorów i dopasowa« funkcji logistycznych. Powstaªy one w czterech wariantach wynikaj¡cych z zastosowania: inkluzywnego (inc) albo eksklu-zywnego (exc) podej±cia do konstrukcji funkcji podstawowego przypisania prawdopodobie«stwa oraz wyboru klasykatorów wchodz¡cych w skªad ze-spoªu: wszystkich (procedura uniwersalnauni), albo wyª¡cznie separuj¡cych klasy diagnostyczne implikuj¡ce przeciwstawne decyzje (procedura selekcjo-nuj¡ca sel). Rozstrzygni¦cia o zaakceptowaniu albo zdyskwalikowaniu se-lekcjonowanych danych zapadaªy na podstawie porówna« warto±ci strat ocze-kiwanych (3.40), s. 50, obliczanych z u»yciem operatora OWA zdeniowanego

5.2 Realizacja procedury selekcji 115 przez (3.41.2) na s. 50. Funkcj¦ strat l okre±lono na iloczynie kartezja«skim zbioru klas decyzyjnych fakceptacja, dyskwalikacjag i zbioru klas diagno-stycznychci 2C, jako

l(akceptacja jci 2C+) = 0; l(akceptacja jci 2C?) = 1

l(dyskwalikacja jci 2C+) =; l(dyskwalikacja jci 2C?) = 0 (5.8) parametr> 0 oznacza tu stosunek kosztu bª¦dnych decyzji o dyskwalikacji i o akceptacji.

Skonstruowane procedury przebadano dokonuj¡c z ich u»yciem selekcji w odniesieniu do kolekcji przykªadowych zbiorów danych rozª¡cznych ze zbio-rami ucz¡cymi. Ka»dy z czterech wariantów procedury przebadano przy zaªo»eniu kilku warto±ci parametru . Rysunki 5.12 i 5.13 obrazuj¡ cha-rakterystyki procedur, wyra»one z u»yciem wska¹ników False Positive Rate (FPR) iTrue Positive Rate (TPR), ª¡cznie pokazanych w postaci krzywych ROC. Wspóªrz¦dne punktu (FPR, TPR) b¦d¡ skrótowo nazywane punktem pracy procedury lub klasykatora. Rysunki 5.12 i 5.13 mo»na odnie±¢ do wy-kresów na rys. 5.9 na s. 106, ukazuj¡cych teoretyczne ograniczenia obszaru pªaszczyzny, w którym powinny zawiera¢ si¦ krzywe ROC klasykatorów, które racjonalnie wykorzystywaªyby informacj¦ wej±ciow¡ dost¦pn¡ w roz-wa»anym przykªadzie obliczeniowym. Na rysunkach 5.12 i 5.13 analogiczne granice zaznaczono liniamici¡gªymi (granice obszaru s¡ wizualnie znieksztaª-cone w wyniku zastosowania skali logarytmicznej). Punkty pracy procedur skonstruowanych w rozprawie le»¡ w granicach teoretycznych przewidywa«, i ukªadaj¡ sie na pewnej krzywej. Przedstawione w p. 4.2 wnioski wynikaj¡ce z analizy standardowego zbioru danych Abalone, pozwalaj¡ przypuszcza¢, »e taki przebieg miaªaby krzywa ROC rodziny binarnych klasykatorów bay-esowskich u»ytych do selekcji danych testowych przy uwzgl¦dnieniu funkcji strat (5.8). Uzyskane wyniki potwierdzaj¡ równie» prawidªowo±ci obserwo-wane na rys. 4.7, mianowicie punkty pracy procedury zbudoobserwo-wanej w warian-cieinc-uni, agreguj¡cej wyniki peªnego zestawu testów, kodowane w

podej-±ciu inkluzywnym, systematycznie ukªadaj¡ si¦ na wykresie poni»ej punktów pracy pozostaªych procedur.

Innego rodzaju werykacj¦ otrzymanych wyników stanowi porównanie ich z wynikami selekcji przeprowadzonej klasykatorem opracowanym przez ekspertów zyków bez odwoªywania si¦ do metod uczenia maszynowego, na podstawie wiedzy teoretycznej o przedmiocie bada«. Porównania takiego dokonano przeprowadzaj¡c selekcj¦ zbiorów danych testowych algorytmem opracowanym przez Go±ciª¦ ([Go±ciªo 2000]), na wczesnym etapie projek-towania eksperymentu CMS, przy podobnych zaªo»eniach upraszczaj¡cych jakie przyj¦to w symulacji przeprowadzonej w rozprawie.

116 Rozdziaª 5. Eksperymentalna werykacja zaproponowanej metody

h → X

FPR

TPR

I/H = 0.448

I/H = 0.155

10−3 10−2 10−1 100

0 0.05 0.1 0.15 0.2 0.25 0.3

Rys. 5.12: Selekcja z danych ±ladów wszelkich wyst¡pie« cz¡stki Higgsa. Pªa-szczyzna ROC z naniesionymi punktami pracy procedur o funkcji strat sparame-tryzowanych warto±ci¡ , równ¡ stosunkowi kosztu bª¦dnego zdyskwalikowania do kosztu bª¦dnego zaakceptowania danych. Przedstawiono rezultaty dla procedur skonstruowanych przy ró»nym wyborze klasykatorów skªadaj¡cych si¦ na zespóª:

kwadraty  uni wszystkie klasykatory, koªa  sel wyª¡cznie klasykatory sepa-ruj¡ce klasy diagnostyczne implikuj¡ce przeciwstawne decyzje oraz podej±ciu do kodowania ich wyników: symbole wypeªnione  inc podej±cie inkluzywne, symbole puste  exc podej±cie ekskluzywne. Rombem oznaczono punkt pracy procedury, w której wyniki testów agregowane s¡ poprzez proste gªosowanie. Kolejne sym-bole tego samego ksztaªtu, przechodz¡c od mniejszych ku wi¦kszym warto±ciom FPR, odpowiadaj¡ wzrostowi warto±ci  o rz¡d wielko±ci; symbole przekre±lone (+) przedstawiaj¡ punkty pracy przy =1. Bª¦dy wyznaczonych warto±ci TPR oszacowano jako<0:01i nie uwidoczniono ich na wykresie. Linie ci¡gªe wyznaczaj¡

granice obszaru, wewn¡trz którego powinny przebiega¢ krzywe ROC klasykato-rów u»ytecznych w rozwa»anym zagadnieniu, wielko±ci I=H charakteryzuje ilo±¢

informacji dost¦pnej w wektorach cech (patrz opis rys. 5.9 na s. 106)

5.2 Realizacja procedury selekcji 117

Rys. 5.13: Selekcja z danych ±ladów wyst¡pie« cz¡stek Higgsa, które ulegªy roz-padowi na 2 fotony (h!2 ) lub na 4 lekkie cz¡stki (h!4l). Pªaszczyzny ROC z naniesionymi punktami pracy procedur o funkcji strat sparametryzowanych

warto-±ci¡ , równ¡ stosunkowi kosztu bª¦dnego zdyskwalikowania do kosztu bª¦dnego zaakceptowania danych. Przedstawiono rezultaty dla procedur skonstruowanych przy ró»nym wyborze klasykatorów skªadaj¡cych si¦ na zespóª: kwadraty  uni wszystkie klasykatory, koªa  sel wyª¡cznie klasykatory separuj¡ce klasy dia-gnostyczne implikuj¡ce przeciwstawne decyzje oraz podej±ciu do kodowania ich wyników: symbole wypeªnione  inc podej±cie inkluzywne, symbole puste  exc podej±cie ekskluzywne. Rombem oznaczono punkt pracy procedury, w której wy-niki testów agregowanes¡ poprzez proste gªosowanie. Kolejne symbole tego samego ksztaªtu, przechodz¡c od mniejszych ku wi¦kszym warto±ciom FPR, odpowiadaj¡

wzrostowi warto±ci  o rz¡d wielko±ci; symbole przekre±lone (+) przedstawiaj¡

punkty pracy przy  = 1. Bª¦dy wyznaczonych warto±ci TPR oszacowano jako

<0:01i nie uwidoczniono ich na wykresie. Linie ci¡gªe wyznaczaj¡ granice obszaru, wewn¡trz którego powinny przebiega¢ krzywe ROC klasykatorów u»ytecznych w rozwa»anym zagadnieniu, wielko±ci I=H charakteryzuje ilo±¢ informacji dost¦pnej w wektorach cech (patrz opis rys. 5.9 na s. 106)

118 Rozdziaª 5. Eksperymentalna werykacja zaproponowanej metody

FPR

TPR

log λ

−1 0 4

h 2γ

log λ

−4 0 1

h 4l

h 2γ h 4l

10−11 10−10 10−9 10−8 10−7 10−6 10−5

0.2 0.4 0.6 0.8 1

Rys. 5.14: Krzywe ROC procedur selekcjonuj¡cych z danych testowych ±lady wy-st¡pie« cz¡stek Higgsa, które ulegªy rozpadowi na 2 fotony (h!2 ) lub na 4 lek-kie cz¡stki (h!4l). Kwadratami oznaczono punkty pracy procedur otrzymanych proponowanymi w rozprawie metodami, w zespoªach sel  zªo»onych wyª¡cznie z klasykatorów separuj¡cych klasy diagnostyczne implikuj¡ce przeciwstawne decy-zje  przy podej±ciu ekskluzywnym exc do kodowania wyników. Kolejne punkty odpowiadaj¡ selekcji prowadzonej przy zaªo»eniu ró»nych warto±ci parametru  oznaczaj¡cego stosunek kosztu bª¦dnej dyskwalikacji danych poszukiwanych do kosztu bª¦dnego zaakceptowania danych nieistotnych. Trójk¡ty obrazuj¡ punkty pracy klasykatora reguªowego [Go±ciªo 2000], odpowiednio jego wersji o wy»szej i ni»szej czuªo±ci (trójk¡ty odwrócone podstaw¡ do góry). Bª¦dy wyznaczonych warto±ci TPR oszacowano jako<0:01i nie uwidoczniono ich na wykresie

Stosuj¡c klasykator opisany w pracy [Go±ciªo 2000] nale»y w struktu-rze selekcjonowanych danych zidentykowa¢ okre±lone symptomy posiada-j¡ce interpretacj¦ zyczn¡, a nast¦pnie sprawdzi¢ czy wyst¦puj¡ one w kom-binacjach, które kwalikowaªyby dane jako istotne. Zestaw reguª logicznych deniuj¡cych odpowiednie kombinacje symptomów w klasykatorze u»ytym do porówna« podaje dodatek B.4. Dla uproszczenia klasykator ten b¦dzie nazywany klasykatorem reguªowym.

Wykresy krzywych ROC procedur opracowanych w rozprawie oraz

klasy-katora reguªowego zestawia rys. 5.14. Wska¹niki jako±ci selekcji prowadzo-nej algorytmem reguªowym na wykresie zaznaczono trójk¡tami, odpowiednio dla jego wersji o wy»szej i ni»szej czuªo±ci (trójk¡ty odwrócone podstaw¡ do góry). Jak mo»na stwierdzi¢, procedury opracowane w rozprawie w porów-naniu z algorytmem reguªowym, przy tej samej czuªo±ci (TPR) wykrywania w selekcjonowanych danych ±ladów wyst¡pie« poszukiwanych zjawisk zycz-nych (rozpadów h ! 2 lub h ! 4l) akceptuj¡ od 100 do 10 tysi¦cy razy (2-4 rz¦dy wielko±ci) mniej nieistotnych danych (FPR).

Rozdziaª 6

Podsumowanie

W rozdziale 2 rozprawy postawiono zadanie opracowania metody selekcjono-wania danych masowych o zªo»ono±ci, przy której skonstruowanie odpowie-dnio dokªadnych standardowych klasykatorów na podstawie danych ucz¡cych nie jest w praktyce wykonalne. Jako rozwi¡zanie tak postawionego zadania, w rozdziale 3 rozprawy zaproponowano metod¦, w której podstaw¦ selekcji daj¡ zagregowane wyniki zespoªu klasykatorów niezale»nie analizuj¡cych dane. Zaªo»eniem proponowanej metody jest, by ka»dy z klasykatorów tworz¡cych zespóª powstaª na podstawie zbioru zawieraj¡cego jedynie wy-brane przykªady danych, mniej licznego ni» byªby konieczny do zbudowania standardowego klasykatora selekcjonuj¡cego. Wyró»nikami proponowanej metody s¡:

 zasada podziaªu zadania pomi¦dzy klasykatory oraz

 sposób agregowania ich wyników.

Przyj¦to mianowicie by podstaw¦ podziaªu (dekompozycji) zadania po-mi¦dzy klasykatory dawaªa wiedza dziedzinowa, pozwalaj¡ca rozpatrywa¢

selekcjonowane dane jako mieszanin¦ obiektów wielu, wi¦cej ni» dwóch, ró»-nych kategorii. Agregacj¦ wyników klasykatorów prowadzi si¦ na podstawie teorii Dempstera-Shafera. W tym zakresie wykazano, i» jedno z mo»liwych podej±¢ do kodowania wyników klasykatorów w postaci funkcji podstawo-wego przypisania prawdopodobie«stwa, nazwane w rozprawieekskluzywnym, wykazuje istotnie lepsze wªasno±ci u»ytkowe.

Zalet¡ zdekomponowanej procedury selekcji danych jest mo»liwo±¢ jej dy-namicznej rozbudowy przez doª¡czenie do zespoªu nowych klasykatorów, bez konieczno±ci rekonstrukcji uprzednio przygotowanych.

Ogólne wªasno±ci proponowanej metody przebadano w zastosowaniu do standardowego zbioru danych, zaczerpni¦tego z otwartej biblioteki, co opi-suje rozdziaª 4, a mo»liwo±¢ jej praktycznego zastosowania sprawdzono w eksperymencie obliczeniowym z zastosowaniem danych symulacyjnych, opi-sanym w rozdziale 5. Prawidªowo±ci stwierdzone w wynikach selekcji danych

119

120 Rozdziaª 6. Podsumowanie

standardowych potwierdziªy si¦ w zastosowaniu do danych uzyskanych z sy-mulacji. Pozwala to przypuszcza¢, »e zaproponowana w rozprawie metoda mo»e znale¹¢ zastosowanie przy selekcjirzeczywistychdanych masowych. Po-ni»ej przedyskutowano podstawowe aspekty proponowanej metody selekcji danych.

Stopie« dekompozycji

Stopie« dekompozycji oryginalnego zadania se-lekcji danych okre±lony jest liczb¡ wprowadzonych klas diagnostycznychjCj. Zadanie selekcji danych o wielkiej zªo»ono±ci mo»e wymaga¢ wysokiego stop-nia dekompozycji. Nale»y bra¢ pod uwag¦, »e wraz ze wzrostem stopstop-nia dekompozycji oryginalnego zadania mo»e nast¦powa¢ degradacja jako±ci se-lekcji. Przewidywania podane w p. 3.4.3, potwierdzone wynikami uzyskanymi przy analizie standardowych danych, pozwalaj¡ przypuszcza¢, »e kodowanie wyników klasykatorów tworz¡cych zespóª w podej±ciu okre±lanym w rozpra-wie jako ekskluzywne, prowadzi do powstawania procedur selekcji, których jako±¢ nie podlega znacz¡cej degradacji wraz ze wzrostem stopnia dekompo-zycji oryginalnego zadania. Mo»na te» zakªada¢, »e jako±¢ takich procedur nie b¦dzie znacz¡co odbiega¢ od tej, któr¡ mo»na by osi¡gn¡¢ selekcjonuj¡c dane optymalnym klasykatorem statystycznym  gdyby takowy mo»na byªo w praktyce zbudowa¢.

Czynnikiem ograniczaj¡cym de facto stopie« dekompozycji oryginalnego zadania, a poprzez to zakres zastosowa« proponowanej metody, jest koszt oblicze« zwi¡zanych z agregowaniem wyników zespoªu klasykatorów. Koszt agregowania przy zastosowaniu reguªy Dempstera, w przybli»eniu wzrasta bowiem wykªadniczo z liczb¡ klas diagnostycznychjCj.

Modykacje rozwi¡za« szczegóªowych

W proponowanej metodzie mo-dykacji mog¡ podlega¢ zastosowane rozwi¡zania szczegóªowe.

1. Kompetencje klasykatorów w zespole.

W rozprawie rozwa»ano zespoªy zbudowane z klasykatorów Tci;cj sepa-ruj¡cych paryfci;cjgklas diagnostycznychci;cj 2C. W pewnych zadaniach celowym mo»e by¢ u»ycie klasykatorów TCi;Cj separuj¡cych nie pojedyncze klasy diagnostyczne, ale nadklasyfCi;Cjg, zbudowane jako zbiory kilku klas diagnostycznychck 2C 1. W ogólno±ci nadklasaCk C ijCkj1, gdziek=i

1Jak przedstawiono to na s. 39 proponowane w rozprawie podej±cie do budowy zespoªu klasykatorów selekcjonuj¡cego dane wykazuje analogi¦ ze standardowym zagadnieniem przypisywania danych do wielu klas (wieloklasowym). Mo»liwo±¢ podniesienia dokªadno±ci klasykacji w standardowych zagadnieniach wieloklasowych, przez zastosowanie zespoªów klasykatorów przypisuj¡cych dane do nakªadaj¡cych si¦ nadklas, zbudowanych z klas wªa±ciwej (docelowej) kategoryzacji, byªa przedmiotem opisanych w literaturze bada«, por. np. [Ahmadzadeh 2003], [Podolak 2008].

121 lub j; racjonalnym jednak jest przyjmowa¢ by Ck C+ albo Ck C?. Sepa-rowane nadklasy mog¡ by¢ ró»noliczne jCij 6= jCjj, nie mniej jednak, nale»y d¡»y¢ do zrównowa»enia liczb przykªadów reprezentuj¡cych te nadklasy w zbiorach ucz¡cych klasykatorów TCi;Cj. Funkcje podstawowego przypisania prawdopodobie«stwa, jako okre±lone na wszystkich podzbiorach C, pozwa-laj¡ zakodowa¢ wyniki klasykatorów separuj¡cych dowolne podzbiory klas

Ck C.

2. Powi¡zanie stopnia wsparcia udzielanego tezom o przynale»no±ci, b¡d¹ o nieprzynale»no±ci obiektu do klasy, z wynikiem klasykatora SVM.

W rozprawie stopie« wsparcia udzielanego odpowiednim tezom zwi¡zano z wielko±ci¡  dyskryminowan¡ w funkcji decyzyjnej y=sgn( ?0)

klasy-katora SVM, poprzez zale»no±¢ logistyczn¡ cdf= 1=[1 + exp[ (? )]].

Mo»na przypuszcza¢, »e w pewnych zastosowaniach wystarczaj¡cym b¦dzie

Mo»na przypuszcza¢, »e w pewnych zastosowaniach wystarczaj¡cym b¦dzie