• Nie Znaleziono Wyników

Zastosowanie zredagowanych zbiorów ucz¡cych

Praktyczne zastosowanie zaproponowanej w p. 3.5 metody redagowania zbio-rów ucz¡cych zbadano wykorzystuj¡c najliczniej wyst¦puj¡ce w oryginalnym zbiorze Abalone dane o warto±ci cechy Rings= 9 oraz Rings= 10. Zaªo»ono umownie, »e reprezentuj¡ one odpowiednio pewne klasy a i b, a zadaniem konstruowanych klasykatorów b¦dzie odró»nianie od siebie danych pocho-dz¡cych z tych klas. Dane przyj¦to reprezentowa¢ w przestrzeni cech zde-niowanej tak jak w (4.2) na s. 74, jako S = SM SF SI. Przestrze« S skwantowano na podstawie zbioru zawieraj¡cego przykªady danych z klasy a i b, metod¡ SOM opisan¡ w p. 3.5. Ka»d¡ z trzech skªadowych prze-strzeni kwantowano niezale»nie, konstruuj¡c trzy odr¦bne jednowymiarowe sieci neuronowe Kohonena, odpowiednio dla SM, SF i SI. Liczb¦ w¦zªów sieci dobrano eksperymentalnie jako równ¡ 30, sprawdzaj¡c ±redni bª¡d od-tworzenia skwantowanych danych. Kwantyzacj¦ ka»dej z tych skªadowych przestrzeni uzupeªniono jedn¡ komórk¡, która formalnie odpowiada warto±ci niezdeniowanej w tej przestrzeni skªadowej. (Zabieg taki pozwala rozró»-ni¢ przypadek, w którym wspóªrz¦dne wektora cech s¡ równe 0, poniewa»

umownie nadano im t¦ warto±¢ jako niezdeniowanym w danej przestrzeni skªadowej, od przypadku gdy wspóªrz¦dne s¡ zdeniowane w tej przestrzeni skªadowej i osi¡gaj¡ warto±ci równe lub bliskie 0.) T¡ drog¡ przestrze« S zostaªa podzielona na 313131 komórek [sk], które odpowiednio ponume-rowano. Stosuj¡c otrzyman¡ kwantyzacj¦ przestrzeni S wyznaczono histo-gramy rozkªadów warunkowych wektorów cech danych w klasach a i b, a na ich podstawie ustalono, które kombinacje cech nale»y uzna¢ za typowe, zgodnie z kryterium typowo±ci danych opisanym na s. 69. Histogramy otrzymane w opisany sposób ukazuje rys. 4.8.

Wybieraj¡c losowo odpowiednie liczby przykªadów danych z klas a i b skonstruowano seri¦ zbiorów ZP(a):P(b), tak by w ka»dym z nich przykªady z klasa i b wyst¡piªy w innej, okre±lonej proporcji P(a):P(b), przy zachowaniu unormowania P(a)+P(b) = 1. Gdy zakªadano P(a)>P(b), odpowiedni zbiór ZP(a):P(b) zawieraª wszystkie dost¦pne (w cz¦±ci ucz¡cej zbioru danych Aba-lone) przykªady klasya i odpowiednio mniejsz¡ liczb¦ przykªadów z klasy b.

Dla zaªo»e« P(a)<P(b) zale»no±ci te byªy odpowiednio odwrócone. Poszcze-gólne zbiory ZP(a):P(b) mo»na rozwa»a¢ jako próby pobierane z modelowej populacji stanowi¡cej mieszanin¦ (4.9), na wzór (1.13) opisanej na s. 22, o ró»nych prawdopodobie«stwach wyst¡pienia klasa i b

P(S) = P(a)P(Sja) + P(b)P(Sjb) (4.9) Obok serii zbiorów ZP(a):P(b), przygotowano równie» zbiór zredagowany zgodnie z procedur¡ opisan¡ w punkcie 3.5, zawieraj¡cy wyª¡cznie przykªady o cechach uznanych za typowe w klasach a i b. Liczba przykªadów z klas a

4.3 Zastosowanie zredagowanych zbiorów ucz¡cych 91

k

P(sk | a)

1 10 20 30 40 50 60 70 80 90

0 0.01 0.02 0.03 0.04

k

P(sk | b)

1 10 20 30 40 50 60 70 80 90

0 0.01 0.02 0.03 0.04

Rys. 4.8: Histogramy rozkªadów warunkowych wektorów cech danych w klasacha ib(zacieniowane), z naªo»onymi histogramami rozkªadów cech typowych w klasach (linia pogrubiona); komórki przestrzeni[sk]o numerachk>90 nie zawieraj¡ danych

i b w zbiorze zredagowanym nie zale»y od proporcji P(a):P(b). Na podsta-wie ka»dego z serii stworzonych zbiorów ZP(a):P(b) skonstruowano dwukla-sow¡ maszyn¦ SVM. Nast¦pnie, przy jej u»yciu sklasykowano dane w zbio-rze testowym zawieraj¡cym przykªady separowanych klas w odpowiedniej proporcji P(a):P(b). Podobnie skonstruowano maszyn¦ SVM na podstawie zbioru zredagowanego, a nast¦pnie przy jej u»yciu sklasykowano ka»dy z serii zbiorów testowych o ró»nych proporcjach danych 4. Uzyskane wyniki przedstawia rys. 4.9. Ukazano na nim wykresy trzech wielko±ci charaktery-zuj¡cych jako±¢ klasykatora: prawdopodobie«stwa bª¦dnej klasykacji Perr,

±redniej straty oczekiwanej (ryzyka) oraz czuªo±ci (TPR). Jak mo»na

zauwa-»y¢, w przypadku maszyny SVM skonstruowanej na zbiorze zredagowanym warto±ci tych wielko±ci nie ulegaj¡ istotnym zmianomwraz ze zmieniaj¡c¡ si¦

proporcj¡ cz¦sto±ci wyst¦powania klas w danych, do których selekcjonowania maszyny tej u»yto. W przypadku selekcjonowania danych zrównowa»onych (P(a)  0:5), maszyna SVM skonstruowana na zbiorze zredagowanym

wy-4Konstruowano maszyny z elastycznym marginesem, o jednej staªej regularyzacyjnej, z gaussowskim j¡drem radialnym; wykorzystano oprogramowanie [Chang 2001]. Badaj¡c jako±¢ maszyn SVM, niezale»nie klasykowano zbiory testowe zawieraj¡ce wyª¡cznie przy-kªady z klasy a i z klasy b (wszystkie dost¦pne w cz¦±ci testowej zbioru danych Abalone).

Warto±ci prawdopodobie«stwa bª¦dnej klasykacji i ±redniej straty oczekiwanej oraz ich odchylenia standardowe obliczono zgodnie z formuªami (1.19) i (1.20) podanymi na s. 25, zakªadaj¡c odpowiednie warto±ci prawdopodobie«stwP(a)iP(b).

92 Rozdziaª 4. Analiza wªasno±ci zaproponowanej metody

kazuje nieznacznie ni»sz¡ jako±¢ ni» SVM skonstruowane na zbiorach niere-dagowanych  warto±ci Perr i ryzyka s¡ wy»sze, a TPR ni»sze. Natomiast w zastosowaniu do danych niezrównowa»onych (P(a) < 0:25 lub P(a) > 0:75), ryzyko u»ycia SVM skonstruowanej na zbiorze zredagowanym jest istotnie ni»sze ni» w przypadku SVM opracowanych na zbiorach nieredagowanych.

P(a)

Rys. 4.9: Wielko±ci charakteryzuj¡ce jako±¢ maszyn SVM separuj¡cych dane z klas a i b, w przypadkach gdy wyst¦puj¡ one w zbiorach testowych ze wzgl¦dn¡

cz¦sto±ci¡P(a)orazP(b)=1?P(a). Przedstawiono wyniki dla maszyn SVM kon-struowanych na serii zbiorów ucz¡cych zawieraj¡cych przykªady w odpowiednich proporcjachP(a):P(b) (koªa) oraz maszyny SVM skonstruowanej na zbiorze zre-dagowanym (kwadraty). Na wykresach: Perr  prawdopodobie«stwo bª¦dnej kla-sykacji; Ryzyko  ±rednia strata oczekiwana przy kosztach bª¦dnego rozpoznania klas a i b wynosz¡cych odpowiednio: 12=P(a)i 12=P(b); TPR  czuªo±¢ rozpoznania danych odpowiednio z klas: a i b

Na zredagowany zbiór ucz¡cy skªada si¦ mniej ni» 10% przykªadów zawar-tych w zbiorze Z12

: 1

2 reprezentuj¡cym dane zrównowa»one (P(a)0:5). Jak stwierdzono, maszyna SVM skonstruowana na zbiorze ucz¡cym o podobnej liczno±ci, ale zªo»onym z przykªadów wybranych losowo ze zbioruZ12

: 1

2, kla-sykowaªaby dane testowe z istotnie ni»sz¡ dokªadno±ci¡. Stwierdzenie to uzasadniaj¡ wyniki ukazane na rys. 4.10, na którym przedstawiono

warto-±ci prawdopodobie«stwa bª¦dnej klasykacji Perr dokonanej przez omawiane tu maszyny SVM. Daje si¦ zaobserwowa¢, »e gdy liczno±¢ zbiorów ucz¡cych spada poni»ej 10% liczby przykªadów w zbiorzeZ12

: 1

2, maszyny SVM konstru-owane na tych zbiorach klasykuj¡ dane w sposób przypadkowy Perr0:5.

Natomiast ±rednie prawdopodobie«stwo popeªnienia bª¦du przez maszyn¦

SVM skonstruowan¡ na zbiorze zredagowanym jest bliskie warto±ci tej samej wielko±ci wyznaczonej dla maszyny skonstruowanej na zbiorzeZ1:1.

4.3 Zastosowanie zredagowanych zbiorów ucz¡cych 93

| Z | / | Z 1/2:1/2 |

Perr

0.01 0.1 1

0.35 0.4 0.45 0.5 0.55

Rys. 4.10: Prawdopodobie«stwo bª¦dnej klasykacji (Perr) danych za pomoc¡

maszyn SVM, w zale»no±ci od liczno±ci jZj zbioru ucz¡cego u»ytego do ich opty-malizacji. Rozwa»ane s¡ dane o zrównowa»onej proporcji wyst¦powania separo-wanych klas. Przedstawiono wyniki uzyskane dla maszyn uczonych na zbiorach:

koªo  peªnym Z1

2 :

1

2

; trójk¡ty  na serii zbiorów otrzymanych drog¡ wylosowania

jZjprzykªadów ze zbioruZ1

2 :

1

2

; kwadrat  na zbiorze zredagowanym na podstawie zbioruZ1:1 metod¡ proponowan¡ w rozprawie

94 Rozdziaª 4. Analiza wªasno±ci zaproponowanej metody

Rozdziaª 5

Eksperymentalna werykacja zaproponowanej metody

Zaproponowane w rozprawie podej±cie do zagadnienia selekcji wst¦pnej wy-maga sprawdzenia w zastosowaniu do danych o wielkiej zªo»ono±ci. Przed problemem przetwarzania danych masowych na tyle zªo»onych, »e mo»na uzna¢ za celowe posªu»enie si¦ wszystkimi proponowanymi w rozprawie me-todami staj¡ eksperymenty w dziedzinie zyki cz¡stek elementarnych. Wa»-kim zagadnieniem naukowym w tej dziedzinie jest do±wiadczalne sprawdze-nie przewidywa« teoretycznych co do istsprawdze-nienia fundamentalnego skªadnika materii zwanego cz¡stk¡ Higgsa. Szans¦ dokonania wiarygodnej obserwa-cji ±ladu wyst¡pienia cz¡stki Higgsa daje dopiero przeanalizowanie ogro-mnie licznego zbioru danych obserwacyjnych o wielkiej wymiarowo±ci. By to umo»liwi¢ eksperci-zycy opracowuj¡ specyczne, zale»ne od przedmiotu eksperymentu, metody wst¦pnej selekcji danych. Wyniki selekcji danych osi¡gane tymi metodami mog¡ stanowi¢ odniesienie przy ocenie jako±ci za-proponowanego w rozprawie podej±cia. Ponadto w dziedzinie zyki cz¡stek elementarnych opracowano odpowiednie programy komputerowe symuluj¡ce badane zjawiska zyczne. Przytoczone argumenty zdecydowaªy by do testo-wania proponowanych w rozprawie metod selekcji u»y¢ danych o strukturze analogicznej do struktury danych pozyskiwanych w eksperymentach poszu-kuj¡cych cz¡stki Higgsa. Eksperymenty te stanowiªy swoist¡, pierwotn¡ in-spiracj¦ do podj¦cia prac nad niniejsz¡ rozpraw¡.

5.1 Testowe dane masowe

Testowe dane masowe uzyskano drog¡ symulacji numerycznej hipotetycznego do±wiadczenia, wzorowanego na eksperymencie CMS prowadzonym w labo-ratorium CERN. Ogóln¡ zasad¦ eksperymentu CMS obja±nia rys. 5.1, a

u»y-95

96 Rozdziaª 5. Eksperymentalna werykacja zaproponowanej metody

wan¡ w nim aparatur¦ ukazuje rys. 5.2. W eksperymencie CMS planowane jest dokonywanie okoªo miliarda obserwacji na sekund¦, przy czym spodzie-wana jest w±ród nich ±rednio jedna na dob¦ wskazuj¡ca na ±lad wyst¡pienia cz¡stki Higgsa. Werykacja przypuszczenia, i» dana obserwacja jest ±ladem cz¡stki Higgsa wymaga wnikliwej analizy o-line. Mo»liwo±ci techniczne CMS pozwalaj¡ skierowa¢ do analizy o-line jedn¡ na milion obserwacji, co unaocznia konieczno±¢ wst¦pnego selekcjonowania pozyskiwanych danych [Wrochna 1999].

Wedªug przewidywa« teoretycznych cz¡stka Higgsa (h) jest obiektem, który zycznie istnieje przez niemierzalnie krótki czas, po czym ulega sa-morzutnemu rozpadowi na pewien zbiór cz¡stek (X). Zatem jedyn¡ metod¡

stwierdzenia wyst¡pienia cz¡stki Higgsa jest zaobserwowanie zbioru obiek-tów, na które si¦ ona rozpadªa (h!X). Zadanie to utrudnia fakt istnienia procesów zycznych, których wyst¡pienie mo»e omyªkowo zosta¢ uznane za poszukiwany efekt rozpadu cz¡stki Higgsa. ‘lady pewnych wariantów roz-padu powinny jednak okazywa¢ si¦ na tyle charakterystyczne, »e pomylenie ich z produktami innego procesu b¦dzie stosunkowo maªo prawdopodobne.

Do takich nale»y rozpad na dwa fotony h ! 2 oraz rozpad na dwie pary lekkich cz¡stekh!4l. ‘ladów takich wariantów rozpadu b¦dzie poszukiwa¢

eksperyment CMS. Zagadnienia zyki do±wiadczalnej cz¡stek elementarnych szerzej omawia monograa [Perkins 2004].

Rys. 5.1: Laboratoryjne wytwarzanie cz¡stek elementarnych metod¡ wi¡zek przeciwbie»-nych. W metodzie tej formuje si¦ dwie przeciwnie skierowane wi¡zki szybko poruszaj¡cych si¦ protonów lub elektronów, po czym w ustalonym punkcie doprowadza si¦ do ich

naªo-»enia, co skutkuje bezpo±rednimi zderzeniami cz¡stek. Š¡czna energia kinetyczna i masa koliduj¡cych obiektów mog¡ ulec przemianie w mas¦ i energi¦ nowych obiektów, równie»

cz¡stki Higgsa, które zostan¡ wyrzucone z punktu oddziaªywania w losowo wybranych kie-runkach. Aparatura  detektor rejestruj¡cy produkty oddziaªywania  umieszczona jest wokóª punktu przeci¦cia wi¡zek. Je±li wytworzone nowe cz¡stki materii s¡ niestabilne, o ich wyst¡pieniu mo»na wnioskowa¢ na podstawie obserwacji produktów ich rozpadu. T¡

drog¡ b¦dzie równie» identykowana cz¡stka Higgsa. W eksperymencie CMS zderzaj¡ si¦

wi¡zki protonów, docelowo o energii 7TeV. Opis metody przytoczony za [Perkins 2004]

5.1 Testowe dane masowe 97

Compact Muon Solenoid

Pixel Detector Silicon Tracker Very-forward

Calorimeter

Electromagnetic Calorimeter Hadronic

Calorimeter

Preshower

Muon Detectors Superconducting Solenoid

Compact Muon Solenoid

detektor kaskad detektor mozaikowy detektor sladowy cewka nadprzewodzaca

kalorymetr

mionow detektory EM

kalorymetr hadronowy

kalorymetr przedni

Rys. 5.2: Schemat budowy detektoraCompact Muon Solenoid (CMS) dziaªaj¡cego przy akceleratorze LHC w laboratorium CERN. Jest to urz¡dzenie o cylindrycz-nym ksztaªcie i wielowarstwowej budowie. Ka»da z warstw sªu»y do wykrywania innego rodzaju cz¡stek lub promieniowania. Wykrycie cz¡stek i promieniowania jest mo»liwe dzi¦ki temu, »e obiekty te przenikaj¡c o±rodek materialny przekazuj¡

mu energi¦. W detektorze energia ta jest przeksztaªcana na impulsy elektryczne o wielko±ci pr¡du, lub napi¦cia, proporcjonalnej do jej ilo±ci. Nast¦pnie, odpowiednie sygnaªy analogowe podlegaj¡ digitalizacji i zostaj¡ przekazane na wej±cia wyspecja-lizowanych komputerów. Liczba niezale»nych kanaªów odczytu sygnaªów z urz¡dze-nia tak zªo»onego jak CMS si¦ga 15 milionów. Wszystkie elementy urz¡dzeurz¡dze-nia s¡

umieszczone wewn¡trz cewki nadprzewodz¡cej (solenoidu) wytwarzaj¡cej pole ma-gnetyczne o nat¦»eniu 4 Tesli, co zapewnia bardzo wysok¡ zdolno±¢ identykacji i dokªadno±¢ pomiaru p¦du cz¡stek naªadowanych. Rysunek i dane przytoczone za internetowym serwisem informacyjnym cmsinfo.cern.ch

98 Rozdziaª 5. Eksperymentalna werykacja zaproponowanej metody

5.1.1 Struktura danych testowych

Podstaw¡ badania danych testowych jest okre±lenie schematów przebiegu procesów zycznych, których wyst¡pienie jest mo»liwe w zaªo»onych symu-lowanych warunkach. List¦ takich schematów stworzono na podstawie sy-stematyki zjawisk zycznych podanej przez autorów programu symuluj¡cego oddziaªywania cz¡stek elementarnych PYTHIA [Sjöstrand 2002]. Przyj¦to,

»e zbiór F = ff1;f2;:::;fng obejmuje wszystkie mo»liwe schematy prze-biegu procesów zycznych. ZbiórF okre±lono tak by schematy procesów fi

mo»na byªo jednoznacznie uzna¢ za zwi¡zane z badanym zjawiskiem (wy-st¡pieniem cz¡stki Higgsa) b¡d¹ z nim niezwi¡zane. Ponadto, okre±lono go tak, aby mo»na byªo teoretyczne oszacowa¢ prawdopodobie«stwa a priori P(fi) zdarze« polegaj¡cych na wyst¡pieniu procesów przebiegaj¡cych wedªug poszczególnych schematów. Konstrukcj¦ zbioru F opisano w dodatku B.1.

Zestawiano w nim 113 schematów, w tym 80, w których pojawia si¦ cz¡stka Higgsa. W 5 z nich rozpada si¦ ona na dwa fotony (h ! 2 ), a w kolej-nych 5 na cztery lekkie cz¡stki h ! 4l. Rozpi¦to±¢ oszacowanych warto±ci prawdopodobie«stw P(fi) przekracza 10 rz¦dów wielko±ci.

Dane testowe reprezentowane s¡ jako wektorysw przestrzeni cech S

zde-niowanej w p. 5.1.2. Funkcje g¦sto±ci warunkowych rozkªadów prawdo-podobie«stwa wyst¡pienia okre±lonych danych przy danym przebiegu pro-cesów zycznych, p(sjfi), nie s¡ znane w postaci formuª analitycznych i mog¡ by¢ badane jedynie na podstawie prób danych pobranych z popula-cji, które im podlegaj¡. W tym celu przygotowano dwie kolekcje zbiorów

Zi=1;2 = fZf1;Zf2;:::;Zfng, zawieraj¡cych przykªady obserwacji procesów

zycznych przebiegaj¡cych odpowiednio wedªug ka»dego ze schematów fi. Zbiory z pierwszej kolekcji speªniªy rol¦ zbioru danych ucz¡cych i posªu»yªy do badania wªasno±ci rozkªadów cech w przestrzeni S oraz do skonstruowania klasykatorów. Zbiory z drugiej kolekcji stanowiªy zbiór danych testuj¡cych i posªu»yªy do empirycznej oceny dokªadno±ci (jako±ci) gotowej procedury selekcji. Ka»dy ze zbiorów Zfi zawieraª ok. 10 tys. przykªadów realizacji danego schematufi 1.

1Zbiór przykªadów obserwacji procesów przebiegaj¡cych wedªug schematu fi 2F od-powiada serii danych wylosowanych identycznie i niezale»nie z populacji o ustalonym roz-kªadzieP(S;F), ale metod¡ próbkowania warstwowego, dla ustalonego jednego schematu fi. Rozwarstwienie wzgl¦dem poszczególnych schematów w F jest konieczne przy prze-kraczaj¡cej 10 rz¦dów wielko±ci dysproporcji prawdopodobie«stw a prioriP(fi). Liczba przykªadów w próbce Zfi powinna by¢ uzale»niona od stopnia zró»nicowania cech obiek-tów wewn¡trz warstwy fi. Poniewa» wªasno±ci rozkªadów warunkowych p(sjfi) nie s¡

znane explicite, przyj¦to by wszystkie zbiory Zfi uczyni¢ równolicznymi.

5.1 Testowe dane masowe 99

5.1.2 ™ródªo danych testowych  symulacja numeryczna

Symulacj¦ pojedynczego przypadku oddziaªywania protonów wykonywano jako sekwencj¦ przedstawion¡ diagramem blokowym na rys. 5.3. Skªadaªa si¦ ona z:

 symulowania bezpo±redniego oddziaªywania proton-proton, przebiegaj¡cego wedªug zadanego schematufi 2F, prowadz¡cegodo powstania zbioru obiek-tówx(f), w tym cz¡stek niestabilnych;

 symulowania rozpadów (ewolucji) cz¡stek niestabilnych ze zbiorux(f), pro-wadz¡cego do powstania nowego zbioru obiektówx(E);

 symulowania funkcjonowania (sygnaªów wyj±ciowychY) detektora rejestru-j¡cego obecno±¢ obiektów x(E), sygnaªom wyj±ciowym Y nadawano repre-zentacj¦ wektorow¡, przeksztaªcaj¡c je w dane testowe poddawane selekcji.

Inicjacja symulacji wektorem cech s2S

 r

Rys. 5.3: Schemat blokowy symulacji numerycznej pojedynczego przypadku od-dziaªywania protonów. Rezultaty symulacji podawane s¡ w postaci list obiektów (cz¡stek i promieniowania) powstaj¡cych bezpo±rednio w wyniku oddziaªywania p+p (lista x(f)) oraz nast¦puj¡cych po nim procesów zycznych (lista x(E)). Na opis i-tego obiektu w obydwu listach skªada si¦ trójka wielko±ci: typ obiektu (c) oraz jego energia (E) i p¦d (~p). Sygnaªy wyj±cioweY odzwierciedlaj¡ przestrzenne rozkªady energii unoszonej z punktu oddziaªywania protonów przez cz¡stki wymie-nione na li±ciex(E). Poddawane s¡ one przeksztaªceniom agreguj¡cym(w k¡cie bry-ªowym) w celu stworzenia reprezentacji wektorowej selekcjonowanych wst¦pnie danych w przestrzeniS

100 Rozdziaª 5. Eksperymentalna werykacja zaproponowanej metody

Rys. 5.4: Modelowany hipotetyczny de-tektor ukazany w momencie, w którym nast¡piªo oddziaªywanie dwóch proto-nów. P¦k póªprostych symbolizuje cz¡stki i promieniowanie wyemitowane z punktu oddziaªywania. Rysunek ma charakter pogl¡dowy; przedstawione dane nie s¡ wynikiem faktycznej symu-lacji

Symulacj¦ przebiegu bezpo±redniego oddziaªywania protonów oraz ewo-lucji powstaj¡cych wskutek niego obiektów przeprowadzono z u»yciem pro-gramu PYTHIA [Sjöstrand 2002]; bli»ej omawia j¡ dodatek B.1. Hipote-tyczny detektor modelowano jako podzielon¡ na segmenty powªok¦ walca otaczaj¡cego punkt przeci¦cia biegn¡cych naprzeciw siebie wi¡zek protonów.

Podziaª powªoki obja±nia rys. 5.5. Segmenty powªoki  identykowano par¡ indeksów (i;j'), rosn¡cych odpowiednio z k¡tami: biegunowym i azy-mutalnym' 2, przy czym nie modelowano struktury wewn¦trznej urz¡dze-nia, czy te» wewn¦trznego pola magnetycznego. Symulacja funkcji detek-tora polegaªa na sumowaniu energii (Ei) unoszonej z punktu oddziaªywania przez wymienione na li±ciex(E) obiekty przenikaj¡ce (od wewn¡trz) poszcze-gólne segmenty powªoki. Osobno sumowano energi¦ unoszon¡ przez trzy podstawowe rodzaje obiektów: lekkie cz¡stki bez wyró»nionej struktury we-wn¦trznej (L), ci¦»kie cz¡stki posiadaj¡ce struktur¦ wewn¦trzn¡ (Q) oraz fotony ( ). Rozró»nienie to odzwierciedla funkcjonowanie rzeczywistych de-tektorów, a informacja ta jest istotna dla zadania selekcji danych on-line, i pó¹niejszej analizy o-line. Sumowania dokonane dla ka»dego z segmentów powierzchni detektora, ª¡cznie wyznaczaj¡ trzy skorelowane ze sob¡ prze-strzenne rozkªady emitowanej energii L, Q, . Przyj¦to by ka»dy z nich opisywa¢ w tej samej rozdzielczo±ci przestrzennej wynikaj¡cej z podzielenia powªoki walca na (n = 20)(n' = 30) segmentów (i;j'). Warto±ci sum Ei;j' =PiE(i;j');iwyznaczane dla ka»dego segmentu(i;j')skwantowano z dokªadno±ci¡ do 1=10 logarytmu jednostki miary energii, któr¡ przyj¦to wy-ra»a¢ w GeV.

2Ze wzgl¦du na rodzaj symetrii cechuj¡cej przebieg procesu zycznego oddziaªywania protonów, jak i budow¦ symulowanego detektora, wybrano ukªad wspóªrz¦dnych sferycz-nych, w którym o± biegunowa pokrywa si¦ z prost¡ wzdªu» której biegn¡ naprzeciw siebie do wn¦trza detektora protony. Kierunek dla którego k¡t biegunowy =0przyj¦to arbitral-nie, a k¡t azymutalny ' skierowano tak, by powstaª ukªad prawoskr¦tny. Zdecydowano, »e dla ka»dego z symulowanych przypadków oddziaªywa« jako '=0b¦dzie wybierana póª-pªaszczyzna przechodz¡ca przez lew¡ kraw¦d¹ segmentu powierzchni detektora, któremu w danym konkretnym przypadku odpowiada najwi¦ksza warto±¢ wyra»enia Esin. Tym samym, w przyj¦tej reprezentacji nierozró»nialne s¡ obrazy oddziaªywa«, które mo»na naªo»y¢ na siebie drog¡ obrotu wokóª osi biegunowej.

5.1 Testowe dane masowe 101

0 30 60 90 120 150 180

0

60

120

180

240

300

360

θ

ϕ

ϕ= 0

θ= 1 8 0 ϕ= 9 0

θ= 0

Rys. 5.5: Segmentacja powªoki modelowanego detektora. Nierównomierny podziaª walcowej powierzchni sªu»y temu, aby segmenty obserwowane z punktu oddziaªy-wania odpowiadaªy w przybli»eniu równym sobie k¡tom bryªowym. Aby to za-pewni¢ przyj¦to, i» powªoka jest podzielona tak, by zachowana byªa staªa warto±¢

przyrostu cosinusa k¡ta biegunowego odpowiadaj¡cego kolejnym liniom podziaªu.

Zaªo»ono, i» detektor b¦dzie rejestrowaª obiekty w zakresie k¡tów biegunowych od

1

 do 179. Ukazano obraz tego samego oddziaªywania co na rys. 5.3; stopie«

zaczernienia segmentów odpowiada wielko±ci sumarycznej energii wyemitowanej poprzez dany segment

Rozkªady L, Q, mo»na nazwa¢ skªadowymi (dyskretnego i skwanto-wanego) obrazu oddziaªywania. Tak pojmowane obrazy oddziaªywa« b¦d¡

danymi masowymi poddawanymi selekcji wst¦pnej, bez konieczno±ci odwoªy-wania si¦ do ich interpretacji zycznej. Nadano im reprezentacj¦ wektorow¡, przedstawiaj¡c jako macierze: EL, EQ, E o elementach danych

zale»no-±ciami

ELi;j' =blog10EiL;j'c; i= 1;:::;n; j' = 1;:::;n'

EQi;j' =blog10EiQ;j'c; i= 1;:::;n; j' = 1;:::;n'

E i;j' =blog10Ei ;j'c; i= 1;:::;n; j' = 1;:::;n'

(5.1) gdzie bc symbolizuje operacj¦ kwantowania. Histogramy zbudowane z ta-blic reprezentuj¡cych przykªadowy obraz oddziaªywania przedstawia rys. 5.6.

W kolejnym kroku procedury budowy wektora cech (obserwacji), macierze

E

L, EQ, E poddano dwuwymiarowej dyskretnej transformacji cosinusowej DCT typu II ([Khayam 2003]), przeksztaªcaj¡cej wymienione macierze w ich obrazy ^EL, ^EQ, ^E . Rys. 5.7 przedstawia efekt zastosowania transforma-cji DCT do rozkªadów sygnaªów prezentowanych na rys. 5.6. Wªasno±ci¡

obrazu uzyskanego w przeksztaªceniu cosinusowym jest maªa wzajemna ko-relacja pomi¦dzy wspóªczynnikami, nawet je±li byªa ona znaczna w oryginale.

102 Rozdziaª 5. Eksperymentalna werykacja zaproponowanej metody

Daje to mo»liwo±¢ zredukowania rozmiaru oryginalnych danych z jednocze-sn¡ popraw¡ ich znaczenia dla zadania klasykacji. Mianowicie w przypadku klasykatorów opartych na odlegªo±ciowej mierze podobie«stwa, u»ycie do konstrukcji wektora cech obrazów DCT z pomini¦tymi wy»szymi wspóªczyn-nikami powinno poprawi¢ zdolno±¢ generalizacji klasykatora. Pomini¦cie wy»szych wspóªczynników zmniejszy odlegªo±ci w przestrzeni cech pomi¦dzy obiektami potencjalnie identycznymi w interpretacji zycznej. Stopie« re-dukcji mo»e by¢ przedmiotem optymalizacji. W rozprawie ustalono go arbi-tralnie, zachowuj¡c w macierzach ^EL, ^EQ, ^E o wymiarach 2030, wyrazy o i  16 oraz i'  24, co oznacza 36% redukcj¦ rozmiaru pierwotnych danych. Zredukowane dane przedstawia rys. 5.8. Wyrazy pozostawione w zredukowanych macierzach ^EL, ^EQ, ^E mo»na zapisa¢ jako wektory licz¡ce 1624 = 384 wspóªrz¦dnych

s

L = (^EL1;1;:::; ^EL16;24) = (sL1;:::;sL384) 2 SL

s

Q = (^EQ1;1;:::; ^EQ16;24) = (sQ1 ;:::;sQ384) 2 SQ

s = (^E 1;1;:::; ^E 16;24) = (s 1;:::;s 384) 2 S (5.2) ka»da z przestrzeni: SL, SQ, S jest to»sama z R384, a ich iloczyn kartezja«ski mo»na uto»sami¢ z przestrzeni¡ euklidesow¡ SR1152, zawieraj¡c¡ wektory

s= (sL;sQ;s )2S = SLSQS (5.3) Przestrze« S oraz nale»¡ce do niej wektory s

s= (sL; sQ; s ) = (sL1;:::;sL384; sQ1;:::;sQ384; s 1;:::;s 384) = (s1;:::;s1152) (5.4) stanowi¡ wektorow¡ reprezentacj¦ selekcjonowanych danych masowych.

Rys. 5.6: K¡towe rozkªady energii emitowanej w oddziaªywaniu przedstawionym na rys. 5.5 na s. 101

5.1 Testowe dane masowe 103

Rys. 5.7: Rozkªady z rys. 5.6 poddane przeksztaªceniu DCT

Rys. 5.8: Zredukowane rozkªady z rys. 5.7

5.1.3 Wªasno±ci zbioru danych testowych

Dla przeanalizowania rozwa»anego eksperymentu obliczeniowego istotna jest znajomo±¢prawdopodobie«stwa wyst¡pienia w selekcjonowanychdanych obiek-tów z poszczególnych klas ze zbioruF oraz g¦sto±ci warunkowych rozkªadów prawdopodobie«stwa w przestrzeni cech S w poszczególnych klasach. Po-mocna jest te» znajomo±¢ g¦sto±ci warunkowych rozkªadów prawdopodobie«-stwa cech x 2 X zbioru obiektów istniej¡cych bezpo±rednio po zako«czeniu oddziaªywania protonów (list¦ tych cech na rys. 5.3 oznaczono jako x(f)).

Gdyby obserwacje takie byªy wykonalne w rzeczywisto±ci, dawaªyby pod-staw¦ najdokªadniejszej mo»liwej selekcji danych. Dokªadno±¢ hipotetycznej