• Nie Znaleziono Wyników

Selekcja na bie»¡co z danych masowych przy u»yciu zespoªu klasykatorów

N/A
N/A
Protected

Academic year: 2021

Share "Selekcja na bie»¡co z danych masowych przy u»yciu zespoªu klasykatorów"

Copied!
146
0
0

Pełen tekst

(1)

Instytut Bada« Systemowych Polskiej Akademii Nauk

mgr Marcin Gromisz

Selekcja na bie»¡co z danych masowych przy u»yciu zespoªu klasykatorów

Rozprawa doktorska

Promotor: dr hab. Sªawomir Zadro»ny, prof. IBS PAN

Warszawa, 2010

(2)
(3)

Pragn¦ podzi¦kowa¢ promotorowi rozprawy Panu Drowi Hab. Sªawomirowi Zadro»nemu oraz za wieloletni¡ inspiracj¦ i wszechstronn¡ pomoc, Panu Prof. Drowi Hab. In». Kazimierzowi Ma«czakowi.

Szczególne podzi¦kowania wyra»am moim Rodzicom

(4)
(5)

Spis tre±ci

Wst¦p 3

1 Dane masowe i ich selekcja na bie»¡co 7

1.1 Charakterystyka danych masowych . . . 11

1.2 Reprezentacja danych masowych i posta¢ zbioru ucz¡cego . . . 13

1.3 Klasykatory dla danych masowych . . . 17

1.4 Znaczenie wiedzy eksperckiej . . . 21

1.5 Ocena skuteczno±ci selekcji . . . 23

2 Postawienie zadania 29 3 Proponowana metoda selekcji 33 3.1 Konstrukcja zespoªu klasykatorów . . . 35

3.2 Selekcja danych jako wnioskowanie . . . 40

3.3 Wybrane metody opisu niepewno±ci . . . 42

3.4 Agregacja wyników zespoªu klasykatorów . . . 50

3.5 Redagowanie zbiorów ucz¡cych . . . 67

4 Analiza wªasno±ci zaproponowanej metody 73 4.1 Opis testowego zbioru danych . . . 73

4.2 Eksperyment obliczeniowy i analiza jego wyników . . . 76

4.3 Zastosowanie zredagowanych zbiorów ucz¡cych . . . 90

5 Eksperymentalna werykacja zaproponowanej metody 95 5.1 Testowe dane masowe . . . 95

5.2 Realizacja procedury selekcji . . . 107

6 Podsumowanie 119

Dodatki 123

Spis wa»niejszych oznacze« 133

Literatura 135

1

(6)

2 Spis tre±ci

(7)

Wst¦p

Wspóªczesne technologie informatyczne pozwalaj¡ pozyskiwa¢ dane szybko i w wielkiej liczbie  masowo. Mo»liwo±ci te znajduj¡ wielorakie zastoso- wania. Jednym z nich jest poszukiwanie obiektów i zjawisk rzadko wyst¦pu- j¡cych w naturze, których istnieniemog¡ ujawni¢ jedynie bardzo liczne próbki danych. Niezale»nie od tego do czego maj¡ by¢ u»yte dane masowe, ich po- zyskanie i dalsza analiza wymagaj¡ zwykle zaanga»owania znacz¡cych za- sobów, w szczególno±ci obliczeniowych i telekomunikacyjnych. Dost¦pno±¢

tych zasobów jest w praktyce ograniczona czynnikami ekonomicznymi. Je-

»eli zaªo»onym celem analizy jest wªa±nie poszukiwanie obiektów i zjawisk rzadkich, wówczas po±ród masowo pozyskanych danych wi¦kszo±¢ zwykle jest nieistotna dla prowadzonych bada«. Zatem nieracjonalnym jest ponoszenie kosztu gromadzenia wszystkich pozyskanych danych. Racjonalizacja procesu przetwarzania danych masowych jest konieczno±ci¡ ekonomiczn¡, a niejed- nokrotnie warunkiem wykonalno±ci postawionego zadania. Odnosi si¦ to do dziaªa« w ró»nych dziedzinach, w±ród których mo»na wskaza¢: zyk¦ cz¡stek elementarnych [Wrochna 1999], badania struktury biaªek [Thiele 2008], czy prowadzenie nadzoru epidemiologicznego [Lombardo 2007] lub inwigilacji w sieciach telekomunikacyjnych [Topletz 2009].

Zwykle, by ograniczy¢ koszty poszukiwania obiektów rzadkich, otrzymane z obserwacji dane masowe przetwarza si¦ stosuj¡c zasad¦ eskalacji nadzoru.

Zgodnie z t¡ zasad¡ analiz¦ prowadzi si¦ wielostopniowo, stosuj¡c kolejno coraz silniejsze ±rodki analityczne, ale koncentruj¡c je wyª¡cznie na cz¦±ci danych, które zostaªy do tego wytypowane na podstawie rezultatów ana- lizy przeprowadzonej na poprzedzaj¡cym stopniu, a przetwarzania pozosta- ªych danych przewa»nie ju» si¦ nie kontynuuje [Topletz 2009]. W systemach obliczeniowych funkcjonuj¡cych zgodnie z zasad¡ eskalacji nadzoru, analiza danych rozpoczyna si¦ bezpo±rednio po dokonaniu obserwacji (on-line) i w miejscu jej poczynienia (on-site), a ko«czy w dogodnym czasie (o-line) i dogodnym miejscu (o-site). Czas upªywaj¡cy pomi¦dzy poczynieniem ob- serwacji a zako«czeniem analizy, odlegªo±¢ mi¦dzy miejscami, w których to nast¡piªo oraz liczba stopni po±rednich zale»¡ od konkretnego zadania. W ogólno±ci na ka»dym kolejnym stopniu nale»y do analizy typowa¢ jak naj-

3

(8)

4 Wst¦p

mniej danych, ale by znajdowaªy si¦ po±ród nich mo»liwie wszystkie istotne.

Zatem bior¡c pod uwag¦ speªnian¡ funkcj¦, po±rednie stopnie analizy mo»na traktowa¢ jakoklasykatory binarne, na bie»¡co przypisuj¡ce dane do jednej z dwu klas decyzyjnych, oznaczaj¡cych: przekazanie danych do nast¦pnego stopnia, albo zaprzestanie ich dalszego przetwarzania. Szczegóªowe rozró»nie- nia odraczane s¡ do czasu ko«cowej analizy, prowadzonej zwykle ju»o-line. Tak okre±lone zadanie klasykacji binarnej nazywamy selekcj¡ na bie»¡co z danych masowych, i jest ono zagadnieniem rozwa»anym w rozprawie.

Obok liczno±ci, dla danych masowych charakterystyczna jest te» zazwy- czaj wielka wymiarowo±¢ ispecyczna struktura. Cz¦sto na opis rejestrowa- nych danych skªada si¦ zapis obrazu, d¹wi¦ku itp. Skutkiem tego ich repre- zentacja przyjmuje posta¢ wielkowymiarowych wektorów cech. Za typow¡

wªasno±¢ danych masowych, z punktu widzenia konkretnego zastosowania, mo»na równie» uzna¢ wzgl¦dn¡ rzadko±¢ wyst¦powania po±ród nich danych istotnych, poszukiwanych.

Powy»sze uwarunkowania wpªywaj¡ na praktyczn¡ realizacj¦ selekcji z danych masowych. W rzeczywistych zadaniach zwykle brak bowiem mo- deli analitycznych opisuj¡cych rozkªad warto±ci atrybutów w obu rozró»nia- nych klasach. Wymaga to konstruowania klasykatorów selekcjonuj¡cych na podstawie znajomo±ci odpowiednio licznego zbioru przykªadów popraw- nie sklasykowanych danych. W przypadku wielkowymiarowej przestrzeni reprezentacji danych iniezrównowa»enia prawdopodobie«stw wyst¦powania rozró»nianych klas jest to zadanie kosztowne obliczeniowo.

W rozprawie zaproponowano now¡ metod¦ konstruowania procedur se- lekcjonuj¡cych dane o wielkiej wymiarowo±ci, równie» niezrównowa»onych.

W zamierzeniu jest ona przeznaczona do stosowania w przypadkach, gdy typowe metody uczenia klasykatorów nie mog¡ by¢ bezpo±rednio u»yte z powodu zbyt wysokiego kosztu oblicze«. W proponowanej metodzie reduk- cja kosztów oblicze« jest osi¡gana drog¡ podziaªu pierwotnego zadania kla- sykacyjnego pomi¦dzy zespóª klasykatorów o zaw¦»onych kompetencjach, z których ka»dy mo»e by¢ przygotowany mniejszym kosztem obliczeniowym ni» klasykator jednolity. Przyjmuje si¦, »e bie»¡co analizowane dane s¡ pod- dawane równolegle dziaªaniu wielu klasykatorów skªadaj¡cych si¦ na zespóª.

Agregacji uzyskanych w ten sposób wyników klasykacji dokonuje si¦ z u»y- ciem metod teorii Dempstera-Shafera. W uzupeªnieniu gªównego w¡tku, w rozprawie zaproponowano równie» metod¦ przygotowywania dla klasyka- torów dyskryminacyjnych zbiorów ucz¡cych o mo»liwie niskiej liczno±ci, ale reprezentatywnie opisuj¡cych ogóª danych.

W rozdziale 1 rozprawy sprecyzowano cechy ilo±ciowe: liczno±¢, szybko±¢

powstawania, wymiarowo±¢ rozpatrywanych danych uznawanych za masowe oraz okre±lono oczekiwania co do skuteczno±ci selekcjonuj¡cych je procedur.

(9)

Wst¦p 5 Na tym tle, w rozdziale 2 sformuªowano zadanie postawione w rozprawie i scharakteryzowano proponowan¡ metod¦ jego rozwi¡zania.

Rozdziaª 3 po±wi¦cono omówieniu zaªo»e« proponowanej metody i u»y- tego w niej aparatu formalnego, a nast¦pnie prezentacji samej metody, któr¡

zilustrowano w rozdziale 4 na przykªadzie zadania selekcji danych o stosun- kowo niewielkiej zªo»ono±ci, pochodz¡cych z popularnej biblioteki danych testowych.

Rozdziaª 5 opisuje zastosowanie proponowanej metody w zagadnieniu o wielkiej zªo»ono±ci. Jest nim selekcja wst¦pna danych uzyskanych drog¡ sy- mulacjikomputerowejhipotetycznego eksperymentuz dziedzinyzyki cz¡stek elementarnych, w którym kluczow¡ rol¦ odgrywaj¡ procedury selekcjonuj¡ce dane pomiarowe. Rozpatrywany eksperyment symulacyjny wzorowany jest na rzeczywistym eksperymencie przeprowadzanym w laboratorium CERN.

Na pocz¡tku rozdziaªu 5 podano niezb¦dne informacje z dziedziny zyki do-

±wiadczalnej cz¡stek elementarnych, po czym opisano przeprowadzon¡ na potrzeby rozprawy symulacj¦ komputerow¡.

Rozpraw¦ zamyka rozdziaª 6 podsumowuj¡cy uzyskane wyniki oraz wska- zuj¡cy mo»liwe kierunki dalszych prac nad rozwini¦ciemzaproponowanej me- tody konstruowania procedur selekcjonuj¡cych dane masowe.

(10)

6 Wst¦p

(11)

Rozdziaª 1

Dane masowe i ich selekcja na bie»¡co

Dane masowe charakteryzuj¡ si¦ wielk¡ szybko±ci¡ powstawania. Skal¦ roz- patrywanego zjawiska ilustruj¡ nast¦puj¡ce przykªady:

- w latach dziewi¦¢dziesi¡tych XX wieku w sklepach ameryka«skiej sieci Wal- Mart klienci dokonywali ±rednio 20 milionów zakupów dziennie; w roku 1998 sprzedawca ten zgromadziª 11 TB danych o transakcjach ([Babcock 1994], [Piatetsky-Shapiro 1999]); wªa±ciw¡ jednostk¡ szybko±ci powstawania da- nych jest tu TB/rok;

- rma telekomunikacyjna AT&T w 2001 roku rejestrowaªa codziennie dane o ponad 300 milionach poª¡cze« telefonicznych miesi¦cznie, zbieraj¡c t¡ drog¡

kilka TB danych ([Cortes 2001], [Weiss 2008]); wªa±ciw¡ jednostk¡ b¦dzie tu TB/miesi¡c;

- system satelitarny NASA Earth Observing System dostarcza kilku GB da- nych na godzin¦ ([Fayyad 1996]); w tym przypadku wªa±ciw¡ jednostk¡ jest TB/tydzie«;

- nowoczesne stanowisko sekwencjonowania DNA wytwarza dziennie 1 Tb da- nych ([Wood 2009]); wªa±ciw¡ jednostk¡ jest tu TB/dzie«.

W bliskiej przyszªo±ci nowe standardy w tym zakresie wyznacz¡:

- eksperymenty z dziedziny zyki cz¡stek elementarnych, w których przewidy- wany jest napªyw w ci¡gu 1 sekundy 0.5 Tb danych ([Wrochna 1999]), wªa-

±ciw¡ jednostk¡ do okre±lenia szybko±ci ich powstawania b¦dzie TB/minut¦.

Zauwa»my, »e o ile szczegóªowa analiza transakcji handlowych mo»e by¢

z powodzeniem prowadzona na peªnym zbiorze danych zgromadzonych przez wiele lat, o tyle przy sekwencjonowaniu DNA dªugotrwaªe przechowywa- nie peªnego zbioru zgromadzonych danych byªoby niezwykle kosztowne, a

7

(12)

8 Rozdziaª 1. Dane masowe i ich selekcja na bie»¡co

w przypadku eksperymentów z dziedziny zyki cz¡stek elementarnych staje si¦ wprost technicznie niewykonalne. Konieczno±¢ selekcjonowania danych, tak by szczegóªowej analizie poddawa¢ tylko te istotne, jest dla prowadzonych bada« oczywista.

Uprawnione jest zaªo»enie, »e zbierane rzeczywiste dane masowe podle- gaj¡ prawom probabilistycznym. Zatem selekcja wst¦pna tych danych jest zadaniem, które mo»na rozpatrywa¢ w ramach statystycznej teorii decyzji.

Rozwa»anymi przy tym stratami, wynikaj¡cymi z bª¦dnych decyzji s¡:

 koszty powstaªe wskutek odrzucenia danych istotnych, wynikaj¡ce bez- po±rednio z nakªadów ponoszonych na ich poszukiwanie oraz przyszªe koszty, które wynikn¡ z niepodj¦cia odpowiednich dziaªa«,

 koszty powstaªe wskutek zaakceptowania danych nieistotnych, wynika- j¡ce ze zu»ycia zasobów obliczeniowych podczas pó¹niejszego przetwa- rzania tych danych.

Mo»na przyj¡¢, »e decyzje poprawne nie poci¡gaj¡ za sob¡ strat.

Zakªadaj¡c, »e na etapie selekcji dane maj¡ posta¢ wektorów s w pewnej przestrzeni cech S, klasykator selekcjonuj¡cy uto»samiany jest z funkcj¡

decyzyjn¡y(s)

y : S7!D=fd+;d?g (1.1) gdzie Djest zbiorem decyzji, które mo»na opatrze¢ nazwami nawi¡zuj¡cymi do konkretnych zastosowa«:

d+akceptacja dana istotna, d? dyskwalikacja dana nieistotna.

Niechl(^ds;ds) wyra»a strat¦ wynikaj¡c¡ z podj¦cia w odniesieniu do ob- serwacji danejsdecyzji ^ds =y(s), podczas gdy wªa±ciwa jest decyzjads. Za- kªadamy, »e znany jest rozkªad prawdopodobie«stwa P(s;ds). Statystyczna teoria decyzji deniuje ryzyko zwi¡zane z dan¡ funkcj¡ decyzyjn¡ y jako strat¦ oczekiwan¡

R(y) =df EP[l(y(s);ds) ] (1.2) gdzie symbolEP[] oznacza warto±¢ oczekiwan¡ wzgl¦dem rozkªadu P(s;ds).

Za optymaln¡ uznaje si¦ funkcj¦ decyzyjn¡ y = argyminR(y). Posta¢

funkcjiy mo»na okre±li¢ ±ci±le, je±li znany jest rozkªad prawdopodobie«stwa P(s;ds). Gdy nie jest on znany  a ma to miejsce w przypadku wi¦kszo-

±ci rzeczywistych zada«  funkcj¦ decyzyjn¡ mo»na stworzy¢ na podstawie zbioru poprawnie sklasykowanych przykªadów Z = f(s1;ds1);(s2;ds2);:::;

(sm;dsm)g.

(13)

9 Wobec nieznajomo±ci rozkªadu prawdopodobie«stwa P(s;ds) ryzyko (1.2) mo»na zast¡pi¢ wielko±ci¡ zwan¡ ryzykiem empirycznym, zdeniowan¡ na- st¦puj¡co

Remp(y;Z)= 1mdf Xi=1m l(y(si);dsi) (1.3) Je±li przykªady w zbiorze Z podlegaj¡ rozkªadowi P(s;ds), to dla ustalonej funkcji decyzyjnejy, wraz ze wzrostem liczby przykªadów m, ryzyko empi- ryczneRemp(y;Z) d¡»y do warto±ci ryzyka R(y).

Proces uczenia klasykatora rozpoczyna si¦ od wyboru rodziny funkcji

Y, które speªniaj¡ formalne wymogi funkcji decyzyjnych, po czym poszukuje si¦ w±ród nich funkcji yY;Z, dla której ryzyko empiryczne jest najmniejsze:

yY;Z = arg miny2YRemp(y;Z). W ogólno±ci rodzina Y nie zawiera funkcjiy minimalizuj¡cejryzykoR(y) dane wzorem (1.2), zatem yY;Z estymuje jedynie pewn¡ funkcj¦yY 2Y, b¦d¡c¡ przybli»eniemposzukiwanej optymalnej funk- cji decyzyjnejy. Funkcje z rodziny Y zapewniaj¡ tym lepsz¡ generalizacj¦

zbioru przykªadówZ, im mniejszy jest bª¡d generalizacji  spodziewane od- st¦pstwoE warto±ci ryzyka empirycznego od warto±ci ryzyka teoretycznego

E =EZ[Remp(yY;Z;Z)?R(y) ] (1.4) gdzie symbol EZ oznacza warto±¢ oczekiwan¡ obliczan¡ wzgl¦dem losowego wyboru zbioru Z ([Herbrich 2002] ss. 24-26).

Warto±¢ E maleje wraz ze wzrostem liczno±ci zbioru Z, nie mo»na jej jednak uczyni¢ dowolnie maª¡. Odst¦pstwo E jest wi¦ksze, b¡d¹ równeEapp, gdzieEapp oznacza bª¡d przybli»enia funkcjiy poprzez funkcj¦yY. Warto±¢

Eapp nie zale»y od zbioru ucz¡cego Z i w ogólno±ci nie jest znana.

Uwarunkowania procesu uczenia klasykatorów na podstawie danych ma- sowych odbiegaj¡ od zaªo»e« metod klasycznej statystyki matematycznej, które historycznie rozwijano z przeznaczeniem do wykorzystywania zbio- rów o liczno±ciach znacz¡co ni»szych ni» dane, które uznajemy za masowe [Bottou 2008].

Uczenie klasykatora w uj¦ciu klasycznej statystyki matematycznej jest zadaniem optymalizacyjnym

minA;m E przy ograniczeniu m mmax (1.5) przy czymE oznacza tu bª¡d generalizacji dany równaniem (1.4),A oznacza procedur¦ uczenia (przez co rozumiemy algorytm klasykatora i metod¦ jego optymalizacji), za± mmax  najwi¦ksz¡ faktycznie dost¦pn¡ liczb¦ przykªa- dów, przy czym pozyskanie wi¦kszej ich liczby jest niewykonalne lub byªoby zbyt kosztowne. Poniewa» wielko±¢ E maleje ze wzrostem liczby przykªa- dówm, racjonalnym jest by zgromadzi¢ zbiór Z licz¡cy m = mmax przykªa- dów i prowadzi¢ obliczenia optymalizacyjne (ewentualnie sprawdzaj¡c ró»ne

(14)

10 Rozdziaª 1. Dane masowe i ich selekcja na bie»¡co

procedury A), a» do uzyskania rozwi¡zania, które zapewni minimalny bª¡d generalizacji tej liczby przykªadów.

W przypadku uczenia klasykatorów na podstawie danych masowych, sformuªowanie zadania optymalizacyjnego w postaci (1.5) jest niewªa±ciwe, poniewa» mmax mo»na uczyni¢ w praktyce dowolnie du»ym. Faktycznym czynnikiemlimituj¡cymzadanie w tymprzypadku jest czas oblicze«i zwi¡zane z nim koszty

minA;m E przy ograniczeniu t(A;m)tmax (1.6) gdziet oznacza rzeczywisty czas wykonywania oblicze« w procedurze A ucze- nia klasykatora na podstawie zbioru Z zawieraj¡cego m przykªadów, za±

tmax oznacza dopuszczalny czas oblicze«. Ograniczenie formuªujemy poda- j¡c czas rzeczywisty, a nie caªkowit¡ liczb¦ operacji arytmetycznych, gdy»

w ogólno±ci mo»liwe jest prowadzenie oblicze« równolegªych. Przy takim uwarunkowaniu, d¡»¡c do minimalizowania warto±ci E nale»y zdecydowa¢

czy dost¦pny czas oblicze«tmax zu»y¢ na pogª¦bienie analizy pewnej ustalo- nej liczby przykªadów m, drog¡ skomplikowania procedury A, a tym samym zwi¦kszenia liczby operacji arytmetycznych podczas jej wykonywania, czy te»

dobr¡ generalizacj¦ zapewni¢ ucz¡c klasykator mniej zªo»on¡ procedur¡, ale stosuj¡c liczniejszy zbiór przykªadów m.

Nie s¡ znane metody pozwalaj¡ce a priori wybra¢ najlepsze z mo»liwych post¦powanie. Kryterium rozstrzygaj¡cym o wyborze podej±cia musi by¢ po- równanie skuteczno±ci uzyskiwanych wariantów klasykatora sprawdzanych w konkretnym zastosowaniu.

(15)

1.1 Charakterystyka danych masowych 11

1.1 Charakterystyka danych masowych

Pewne wªasno±ci danych stanowi¡ istotne utrudnienie przy konstruowaniu klasykatorów. W przypadku danych masowych wªasno±ci takie mog¡ wy- st¦powa¢ szczególnie cz¦sto. Nale»y do nich zjawisko rzadko±ci (ang. ra- rity) danych. Potoczne poj¦cie rzadko±ci w zagadnieniach analizy danych przyj¦to rozumie¢ dwojako1, rozró»niaj¡c [Weiss 2004]:

 klasy rzadkie (ang. rare classes), czyli klasy których reprezentanci stosunkowo rzadko pojawiaj¡ si¦ w danych (pozostaªe klasy nazywa¢

b¦dziemy klasami wi¦kszo±ciowymi),

 przypadki rzadkie (ang. rare cases), czyli kombinacje warto±ci cech (wspóªrz¦dnych) stosunkowo rzadko wyst¦puj¡ce w danych.

Klasy danych odpowiadaj¡ poj¦ciom stosowanym przez ludzi w danej dziedzinie. Zbiór rozwa»anych klas (poj¦¢) odzwierciedla wiedz¦ dotycz¡c¡

danej dziedziny oraz jej wymagany poziom szczegóªowo±ci. Klasy rzadkie odpowiadaj¡ wi¦c poj¦ciom wa»nym w rozwa»anym kontek±cie, cho¢ niezbyt licznie reprezentowanym zazwyczaj w obserwowanych danych. Przypadki rzadkie wynikaj¡ za± z faktycznego rozkªadu rzeczywistych danych w prze- strzeni cech. Na obecno±¢ lub brak przypadków rzadkich mo»na wpªywa¢

jedynie na etapie gromadzenia danych, wybieraj¡c ró»ne ich ¹ródªa, me- tody obserwacji, rejestrowane wielko±ci. Wyst¦powanie przypadków rzadkich wi¡»e si¦ ze zªo»ono±ci¡ obserwowanego rozkªadu warto±ci cech: wielomodal- no±ci¡, asymetri¡ globaln¡ i/lub lokaln¡ w otoczeniu mody, niespójno±ci¡

no±nika. Oba rodzaje rzadko±ci s¡ powi¡zane  zidentykowany przypadek rzadki, czyli rzadko wyst¦puj¡c¡ kombinacj¦ warto±ci cech, mo»na uzna¢ za reprezentanta odr¦bnej klasy rzadkiej, wzbogacaj¡c tym samym zbiór poj¦¢

u»ywanych w danej dziedzinie.

Zwi¡zek selekcjonowania danych masowych z wyst¦powaniem klas rzad- kich jest naturalny, bowiem jak przedstawiono to we wst¦pie rozprawy, celem selekcji wst¦pnej jest wyizolowanie z masy napªywaj¡cych danych, tych istot- nych, zwykle nielicznych. Stwierdzono, »e istnienie przypadków rzadkich w obr¦bie rozkªadów warunkowych cech obni»a dokªadno±¢ wielu znanych me- tod klasykacji [Jo 2004]. Empiryczne rozkªady cech, na których bazuj¡ kon- struowane klasykatory, mog¡ sztucznie wprowadza¢ rzadko±¢ przypadków, co niekorzystnie wpªywa na dokªadno±¢ klasykacji. Istnienie w rozkªadach

1Mamy tu na my±li rzadko±¢ w rozumieniu odpowiadaj¡cym zakresowi znaczenio- wemu angielskiego sªowarare  niecz¦sty, niezwykªy, jak te» rozrzedzony. W j¦zyku polskim jako rzadkie okre±lane bywaj¡ równie» dane wielowymiarowe, w których jedynie nieliczne wspóªrz¦dne s¡ niezerowe. W literaturze angloj¦zycznej dane o tych wªasno±ciach okre±lane s¡ raczej jakosparse rzadko rozsiane.

(16)

12 Rozdziaª 1. Dane masowe i ich selekcja na bie»¡co

przypadków rzadkich sprzyja przesªanianiu w przestrzeni cech rozkªadów klas rzadkich przez rozkªady klas wi¦kszo±ciowych. Kubat, Holte i Matwin [Kubat 1997a] uwa»aj¡ ten powszechnie spotykany w rzeczywistych danych efekt za gªówn¡ przyczyn¦ trudno±ci w konstruowaniu klasykatorów dla ce- lów praktycznych. Sugeruj¡ te», »e pomini¦cie w zbiorach ucz¡cych przy- kªadów reprezentuj¡cych przypadki rzadkie w klasach wi¦kszo±ciowych mo»e poprawi¢ czuªo±¢ klasykatora wzgl¦dem klasy rzadkiej 2.

Gdy w zadaniach selekcji rzeczywistych danych masowych prawdopo- dobie«stwa wyst¡pienia poszczególnych klas nie s¡ znane a priori, wów- czas jako warto±¢ prawdopodobie«stwa zwykle przyjmowana jest wzgl¦dna cz¦sto±¢ wyst¦powania reprezentantów klasy w próbie danych. Fawcett i Flach [Fawcett 2005] zwracaj¡ uwag¦, »e cz¦sto±ci wyst¡pienia klas w danych mog¡ si¦ zmienia¢ w czasie. Zmiany te mog¡ przejawia¢ pewien dªugotrwaªy trend, ale w przypadku silnego niezrównowa»enia cz¦sto±ci wyst¦powania klas, wi¦ksze znaczenie mog¡ mie¢ uktuacje statystyczne, z natury obe- cne w rzeczywistych procesach. Fluktuacje sprawiaj¡, »e faktyczna aktualna cz¦sto±¢ wyst¦powania obiektów rzadkich (z klasy rzadkiej) mo»e znacz¡co odbiega¢ od cz¦sto±ci zaªo»onej na podstawie próby danych, która posªu-

»yªa do skonstruowania klasykatora. Licz¡c si¦ ze zmianami (trendem i

uktuacjami) cz¦sto±ci wyst¦powania reprezentantów poszczególnych klas w danych, zaleca si¦ przy selekcji nie uwzgl¦dnia¢ prawdopodobie«stw a priori wyst¡pienia klas.

W przypadku gdy selekcjonowane dane pochodz¡ z przestrzeni wielko- wymiarowej, obiektywne wªasno±ci geometryczne tej przestrzeni mog¡ wy- woªa¢ pozorn¡ zmienno±¢ (uktuacje) rozkªadów warunkowych prawdopo- dobie«stwa warto±ci cech w klasach. Powodem tego jest to, »e praktycz- nie caª¡ obj¦to±¢ wielowymiarowej kuli stanowi warstwa znajduj¡ca si¦ tu»

pod jej powierzchni¡. Wªasno±¢ ta popularnie nazywana pusto±ci¡ prze- strzeni (ang. empty space phenomenon), ma okre±lone konsekwencje dla zagadnienia uczenia maszynowego. Mianowicie, rozkªady warto±ci cech rze- czywistych danych charakteryzuj¡ si¦ wyst¦powaniem wielko±ci modalnych.

Je±li dane opisywane s¡ w przestrzeni wielkowymiarowej efekt pusto±ci spra- wia, »e ª¡czna miara prawdopodobie«stwa nad obszarami w otoczeniu mody rozkªadu osi¡ga niewielk¡ warto±¢ (1), mimotego, »e g¦sto±¢ prawdopodo- bie«stwa jest nad nimi relatywnie wysoka. Tym samym obszary przestrzeni cech le»¡ce daleko od mody rozkªadu, zawieraj¡ce stosunkowo maªo prawdo-

2Miary oceniaj¡ce nakªadanie si¦ rozkªadów warunkowych cech w klasach s¡ od dawna u»ywane jako kryterium oceny wykonalno±ci i przewidywa« jako±ci klasykacji [Sobczak 1985] ss. 62 do 99. Kubat i Matwin [Kubat 1997b] przeanalizowali w jaki sposób rozkªad klasy wi¦kszo±ciowej w przestrzeni cech mo»e przesªania¢ rozkªad klasy mniejszo-

±ciowej. Wyró»nili przy tym kilka typów tego zjawiska, o ró»nym wpªywie na konstruowane klasykatory.

(17)

1.2 Reprezentacja danych masowych i posta¢ zbioru ucz¡cego 13 podobne kombinacje warto±ci cech mog¡ ª¡cznie nie±¢ znacz¡c¡ cz¦±¢ caªego rozkªadu prawdopodobie«stwa ( 1). Skutkiem tego nawet liczna próba danych pobrana wedªug zasad klasycznej statystyki (przypadkowo, identycz- nie, niezale»nie) mo»e nie zawiera¢ przykªadów reprezentuj¡cych pewne bar- dzo prawdopodobne kombinacje cech [Carreira 1997]. Efekt pusto±ci prze- strzeni wielkowymiarowejmo»e wymaga¢ kompensacji poprzez specjaln¡ kon- strukcj¦ zbiorów ucz¡cych.

Przedstawione powy»ej uwarunkowania zadania konstruowania klasyka- torów wynikaj¡ce z charakteryzuj¡cej dane masowe rzadko±ci oraz wielkiego wymiaru przestrzeni cech, musz¡ by¢ uwzgl¦dnione przy:

 przygotowaniu zbiorów ucz¡cych,

 doborze wªa±ciwych metod klasykacji oraz

 wyborze kryteriów oceniaj¡cych jako±¢ klasykatorów.

Kolejne punkty rozprawy s¡ tym zagadnieniom po±wi¦cone.

1.2 Reprezentacja danych masowych i posta¢

zbioru ucz¡cego

D¡»enie by przy konstruowaniu klasykatorów posªugiwa¢ si¦ minimaln¡ re- prezentacj¡ danych masowych pozostaje w zwi¡zku z uwarunkowaniem zada- nia optymalizacyjnego (1.6), w którym ograniczony jest caªkowity koszt obli- cze«. Koszt ten ro±nie zarówno ze wzrostem wymiaru przestrzeni cech, jak i liczno±ci¡ zbioru przykªadów na podstawie, którego powstaje klasykator.

Minimalna liczno±¢ reprezentatywnego zbioru przykªadów jest powi¡zana z wymiarem przestrzeni cech (i zale»y od niego rosn¡co), ale poniewa» nie istnieje ogólny wzorzec tego zwi¡zku obie te wielko±ci b¦d¡ rozpatrywane niezale»nie 3. Maj¡c na uwadze cel selekcji wst¦pnej z danych masowych

3Zwi¡zki takie podano dla zada« estymacji rozkªadów zmiennych losowych, dokªadnych w sensie klasycznej statystyki matematycznej. W przypadku zmiennej N-wymiarowej, N > 1, estymowanej histogramem, mo»na poszukiwa¢ oszacowa« minimalnej liczno±ci próby w postaci iloczynu m = q 11 q 22 q NN / qN, w którym i to staªa i dla ka»- degoi i >1, za± qi oznacza liczb¦ przedziaªów kwantyzacji i-tego wymiaru przestrzeni [Sobczak 1985] s. 224. Oszacowania liczno±ci prób ucz¡cych, dla doskonalszych ni» histo- gramy metod estymacji j¡drowej, podaje [Kulczycki 2005] s. 107, jako minimalny wymóg przyjmuj¡c m=4N, gdzie  oznacza heurystycznie dobrany wspóªczynnik zale»ny od wªasno±ci rozkªadu: symetrii (jej braku), liczby warto±ci modalnych, spójno±ci i ograniczo- no±ci no±nika; w praktyce 3. Mo»na zatem przyj¡¢, »e przy oszacowaniach minimal- nej liczby przykªadów stosuje si¦ zale»no±¢ wykªadnicza m/cN gdzie c oznacza pewn¡

(18)

14 Rozdziaª 1. Dane masowe i ich selekcja na bie»¡co

mo»na zaªo»y¢, »e reprezentacja danych nie musi odzwierciedla¢ peªnej ich struktury  wystarczy, »eby reprezentacja byªa u»yteczna w danym zada- niu ([Kulczycki 2005] s. 107). Zalecenie minimalizowania reprezentacji se- lekcjonowanych danych odnosi si¦ zarówno do liczno±ci zbioru ucz¡cego, jak i wymiaru przestrzeni cech. Przy takim podej±ciu, minimaln¡ reprezenta- cj¦ danych stanowi jak najmniej liczny zbiór ucz¡cy, wystarczaj¡cy by na jego podstawie mogªa powsta¢ procedura pozwalaj¡c¡ odpowiednio zaklasy-

kowa¢ nowe dane  stwierdzi¢ czy s¡ one istotne dla prowadzonych bada«.

Elementami zbioru ucz¡cego mog¡ by¢ przykªady wybrane spo±ród ogóªu dost¦pnych oryginalnych danych lub obiekty syntetyczne skonstruowane na podstawie danych oryginalnych. W zastosowaniach do danych wielkowymia- rowych i rzadkich  o nie zrównowa»onych rozkªadach klas i cech  typowe schematy tworzenia zbioru ucz¡cego drog¡ wybierania podzbioru oryginal- nych danych (próbkowanie: systematyczne, przypadkowe, warstwowe, kla- strowe [Gu 2001]) mog¡ okaza¢ si¦ niewªa±ciwe. Wykazano te», »e ró»ne grupy algorytmów konstruowania klasykatorów i ró»ne rodziny stosowa- nych przy tym funkcji decyzyjnych wymagaj¡ odpowiednich sposobów do- boru danych ucz¡cych ze wzgl¦du na wprowadzane t¡ drog¡ obci¡»enia de- cyzji [Brodley 1995]. Maj¡c powy»sze na uwadze, liczni autorzy proponuj¡

metody wyspecjalizowane: zorientowane na wybrane typy klasykatorów, do- stosowane do konkretnego typu danych lub samoadaptuj¡ce si¦ do aktualnych danych. W przewa»aj¡cej wi¦kszo±ci s¡ to metody kosztowne obliczeniowo.

Przegl¡d metod doboru danych ucz¡cych oraz ich zastosowa« zawiera praca [Liu 2001].

Drugi rodzaj dziaªa« sªu»¡cych zminimalizowaniu reprezentacji danych polega na redukcji wymiaru przestrzeni cech. Najogólniej, sprowadza si¦ to do odwzorowania oryginalnejN wymiarowej przestrzeni cech S w inn¡ prze- strze« S0o wymiarzeN0< N, dokonanego tak, by opis danych w przestrzeni S0 byª równowa»ny w sensie ustalonego kryterium opisowi oryginalnemu w przestrzeni S ([Carreira 1997], [Fodor 2002])4.

W zaªo»eniu, opisywane powy»ej dziaªania minimalizuj¡ce reprezentacj¦

danych sªu»¡ zmniejszeniu kosztu oblicze« podczas uczenia na jej podstawie klasykatorów. Nale»y jednak zauwa»y¢, »e koszt dokonania przeksztaªce«

staª¡, c > 1. Dla wymiarów przestrzeni cech rz¦du N > 100 wyst¦puj¡cych w rzeczy- wistych zagadnieniach, uzyskanie dokªadnych estymat wymagaªoby u»ycia prób ucz¡cych nierealistycznie licznych. Wskazuje to na konieczno±¢ stosowania innych ni» w klasycznej statystyce kryteriów przy tworzeniu zbioru ucz¡cego klasykatory danych masowych.

4W celu redukcji wymiaru cz¦sto stosowane s¡ techniki wielowymiarowego skalowania MDS (ang. Multidimensional Scaling Techniques). W ró»nych dziedzinach otrzymaªy one wªa±ciwe sobie nazwy. W statystyce s¡ to: metody estymacji g¦sto±ci i wygªadzania rozkªadów wielowymiarowych; w dziedzinie rozpoznawania wzorców: selekcja cech; w teorii informacji: kodowanie, dyskretyzacja i kompresja danych. Przykªadem MDS jest metoda analizy skªadowych gªównych (PCA).

(19)

1.2 Reprezentacja danych masowych i posta¢ zbioru ucz¡cego 15 upraszczaj¡cych i wyboru reprezentantów musi by¢ równie» uwzgl¦dniany w caªkowitej wielko±ci oblicze« zwi¡zanych z budow¡ klasykatora. Haro- García i García-Pedrajas [Haro-García 2009] argumentuj¡, i» ogólne algo- rytmy konstruowania optymalnego zbioru ucz¡cego drog¡ eliminowania ele- mentów z oryginalnego zbioru danych, cechuj¡ si¦ kosztem oblicze« nie ni»- szym ni»O(m2), gdziem oznacza liczno±¢ oryginalnego zbioru danych. Rów- nie» kosztowne obliczeniowo s¡ optymalne przeksztaªcenia redukuj¡ce wy- miar przestrzeni cech  ich koszt si¦ga rz¦du O(N3). Tymczasem dane ma- sowe spotykane w rzeczywistych zadaniach s¡ wielkowymiarowe i liczne  w rozprawie jako umowne odniesienie przyjmujemy N > 103 oraz m > 104. Wskazuje to na konieczno±¢ poszukiwania rozwi¡za« uproszczonych. W p.

3.5 rozprawy zaproponowano metod¦ tworzenia (redagowania) zredukowa- nych zbiorów ucz¡cych o koszcie liniowym wzgl¦dem liczby ogóªu dost¦p- nych przykªadów. W pewnych zastosowaniach wiedza dziedzinowa o wªa-

±ciwo±ciach danych upowa»nia do posªu»enia si¦ w celu redukcji wymiaru przestrzeni cech szybk¡ transformat¡ Fouriera lub przeksztaªceniami jej po- krewnymi(redukcja wymiaru osi¡gana jest przez pomini¦cie wysokich wspóª- czynników rozwini¦¢), o koszcie oblicze« rz¦duO(N log N).

Zminimalizowanie reprezentacji danych mo»e poprawia¢ wªasno±ci u»yt- kowe klasykatorów otrzymanych na jej podstawie. Je±li w zadaniu wy- st¦puje znacz¡ce niezrównowa»enie klas, próbkowanie oraz przeksztaªcenia redukuj¡ce wymiar przestrzeni cech (a jako efekt uboczny zwykle równie»

zªo»ono±¢ ich rozkªadów) mog¡ zwi¦kszy¢ czuªo±¢ uzyskanego klasykatora w odniesieniu do klasy mniejszo±ciowej [Kubat 1997a].

Miarodajn¡ ocen¦ równowa»no±ci opisu danych w ró»nych zmiennych, a zatem skutków przeksztaªce« redukuj¡cych wymiar przestrzeni cech, daj¡

statystyczne miary nieokre±lono±ci oraz miary informacji wzajemnej zmien- nych losowych. Do tych pierwszych nale»y entropia Shannona, która dla wielko±ci przypadkowej opisywanej dyskretn¡5 zmienn¡ losow¡ X, dana jest wzorem

H(X)=df ?X

i Pilog2Pi (1.7)

gdzie Pi oznacza prawdopodobie«stwo przyj¦cia przez zmienn¡ X i-tej war- to±ci.

Je±li dane s¡ dwie dyskretne zmienne losoweX oraz Y oraz ich ª¡czny roz- kªad prawdopodobie«stwa, mo»na bada¢ nieokre±lono±¢X w sytuacji, kiedy znana jest warto±¢y jak¡ przyjmuje zmienna Y . Nieokre±lono±¢ t¦ mierzyen- tropia warunkowych rozkªadów prawdopodobie«stwa P(XjY = y). Jej war- to±¢ oczekiwana obliczona ze wzgl¦du na rozkªad prawdopodobie«stwa P(Y )

5Dla zmiennej losowej ci¡gªej odpowiednia modykacja denicji entropii Shannona po- lega na zast¡pieniu rozkªadu prawdopodobie«stwa g¦sto±ci¡ rozkªadu oraz sumowania caª- kowaniem.

(20)

16 Rozdziaª 1. Dane masowe i ich selekcja na bie»¡co

nazywana jest ±redni¡ entropi¡ warunkow¡ H(XjY ). Miara ilo±ci informacji wzajemnej I(XjY ), jakiej o zmiennej X dostarcza zmienna Y , deniowana jest dla zmiennych dyskretnych i ci¡gªych jako

I(XjY )= H(X)df ?H(XjY ) (1.8) Po dokonaniu obserwacji opisanej wektorem cech s caªa dost¦pna infor- macja, która mo»e da¢ podstaw¦ do podj¦cia decyzjid 2 D jest zawarta w warunkowym rozkªadzie prawdopodobie«stwa P(D jS =s). Je±li dokonywane jest uproszczenie przestrzeni cechu : S7!S0, tak »e s0 =u(s), wówczas caª¡

informacj¦ u»ywan¡ do podejmowania decyzji, zawiera warunkowy rozkªad prawdopodobie«stwa P(D jS = s0). Z decyzjami podejmowanymi na podsta- wie wektora uproszczonegos0zwykle wi¡»e si¦ wi¦ksze ryzyko ni» z decyzjami podejmowanymi z uwzgl¦dnieniem wektora oryginalnego s 6.

Przy selekcji danych informacja mo»e by¢ równie» tracona w klasyka- torze analizuj¡cym wektory cech. Zwi¡zek pomi¦dzy ª¡czn¡ ±redni¡ strat¡

informacji, a spodziewanym ryzykiem selekcji podaje [Seidler 1965]. Mia- nowicie, kres dolny ryzyka selekcji jest nie malej¡c¡ funkcj¡ sumy trzech nieujemnych skªadników:

1) ±redniej entropii warunkowejH(D jS)zale»nej tylko od wªasno±ci statystycz- nych selekcjonowanych danych;

2) ±redniej straty informacjiIu=I(D jS)?I(D jS0)zale»nej od wªasno±ci prze- ksztaªcenia u:S7!S0 upraszczaj¡cego przestrze« cech;

3) ±redniej straty informacji w klasykatorze analizuj¡cym cechyS0, zale»nej od poprawno±ci generalizacji przykªadów (zatem po±rednio od wªasno±ci prze- ksztaªcenia upraszczaj¡cegou i sposobu zredagowania zbioru ucz¡cego).

Z powy»szego stwierdzenia wypªywa wniosek przydatny przy rozwi¡zy- waniu zada« praktycznych: poniewa» kres dolny ryzyka selekcji zale»y od

6Dla pary zmiennych losowych dyskretnych lub ci¡gªych: je±li X jest zmienn¡, której entropia jest obliczana przy ustalonej warto±ci zmiennej Y , za± u(Y)jest funkcj¡ zmiennej losowej Y , wtedy dla ±redniej entropii warunkowejH(XjY)zachodzi relacja

H(XjY)H (Xju(Y))

przy czym równo±¢ ma miejsce wtedy i tylko wtedy gdy dla ka»dej pary (x;y) realiza- cji zmiennych losowych (X;Y)speªniony jest warunek P(xjy)=P(xju(y)). Oznacza to,

»e je±li realizacja zmiennej losowej Y byªaby u»ywana do wnioskowania o X, to obli- czaj¡c funkcj¦ u(Y), mo»na co najwy»ej nie pogorszy¢ zdolno±ci rozró»niania postaci ja- kie przyjmuje zmienna X. Zatem stwierdzona nieokre±lono±¢ zmiennej X nie mo»e ulec zmniejszeniu, je±li znane s¡ tylko warto±ci funkcji u(Y). Wªasno±¢ zostaªa przytoczona za [Seidler 1965] s.143.

(21)

1.3 Klasykatory dla danych masowych 17 trzech powy»szych wielko±ci, minimaln¡ reprezentacj¦ danych masowych na- le»y przyj¡¢ uwzgl¦dniaj¡c posta¢ stosowanego klasykatora. Mo»liwe s¡

przeksztaªcenia upraszczaj¡ce powoduj¡ce du»¡ strat¦ informacji, ale mimo to nie pogarszaj¡ce jako±ci decyzji poni»ej zaªo»onego poziomu. By uªatwi¢

skonstruowanie klasykatora, wykonywane s¡ te» przeksztaªcenia sztucznie podnosz¡ce wymiar wektora cech (jawnie lub niejawnie, jak w nieliniowych SVM). Przeksztaªcenia tego rodzaju nie wzbogacaj¡ oryginalnych danych o dodatkow¡ u»yteczn¡ informacj¦  wielko±¢ Iu pozostaje nieujemna  a jedynie zmniejszaj¡ strat¦ informacji zachodz¡c¡ w klasykatorze.

1.3 Klasykatory dla danych masowych

Selekcjonowanie na bie»¡co z danych masowych polega na klasykowaniu in- dywidualnych obiektów jako istotne albo nieistotne (zgodnie z (1.1) na s. 8), a kryterium oceny stosowanego przy tym klasykatora binarnego jest ryzyko (1.2). Je±li klasykator tworzy si¦ na podstawie zbioru danych przykªado- wych Z, to nie musi on wprost odwoªywa¢ si¦ do modelu generatywnego opisuj¡cego selekcjonowan¡ populacj¦ z u»yciem rozkªadu prawdopodobie«- stwa ^P(D;S), lub powi¡zanych z nim opisów, w rodzaju tych deniuj¡cych klasykatory k-NN. D¡»enie podczas tworzenia klasykatora do uzyskania modelu ^P(D;S) zbie»nego z nieznanym faktycznym rozkªadem P(D;S) mo»e ostatecznie doprowadzi¢ do powstania klasykatora gorszego ni» klasykator, który powstaªby przy bezpo±rednim »¡daniu zbie»no±ci empirycznej funk- cji decyzyjnej yY;Z do jej postaci optymalnej y, zgodnie z (1.4) na s. 9 ([Herbrich 2002] s. 116 i nast¦pne). Przy selekcji danych masowych wªa-

±ciwym zatem jest posªugiwanie si¦ klasykatorami dyskryminacyjnymi. Nie wyklucza to w ogólno±ci stosowania innych rozwi¡za«7. Systematycznyprze- gl¡d metod klasykacji podaj¡ na przykªad prace: [Duda 2001], [Hand 2001]

ss. 327-366 oraz [Koronacki 2005]. Stwierdzono, »e w zastosowaniu do danych wielowymiarowych i rzadkich, takie metody dyskryminacyjne, jak drzewa de-

7W pewnych zadaniach mo»na na przykªad rozwa»y¢ zastosowanie klasykatora Naïve Bayes (NB), który cechuje si¦ liniowym kosztem oblicze« oraz liniowymi wymaganiami co do rozmiarów pami¦ci w funkcji wymiaru przestrzeni cech i liczno±ci zbioru ucz¡cego

O (mN), na etapie uczenia oraz podczas eksploatacji. Klasykatory NB zapewniaj¡ opty- maln¡ klasykacj¦ z dokªadno±ci¡ ograniczon¡ jako±ci¡ estymacji rozkªadów prawdopo- dobie«stw warunkowych cech oraz tym, do jakiego stopnia prawdziwe jest zaªo»enie za- chodzenia wzajemnej niezale»no±ci rozkªadów poszczególnych cech. W przypadku danych masowych, których struktura nie jest dostatecznie znana a priori, dopuszczenie prawdzi- wo±ci zaªo»enia o niezale»no±ci rozkªadów cech mo»e nie by¢ uzasadnione. Modykacje metody NB, które zachowuj¡ prostot¦ konstrukcji, ale rozlu¹niaj¡ warunek niezale»no-

±ci rozkªadów cech s¡ kosztowne obliczeniowo na etapie uczenia i/lub eksploatacji (koszt

O (mN3)) [Webb 2005].

(22)

18 Rozdziaª 1. Dane masowe i ich selekcja na bie»¡co

cyzyjne i sztuczne sieci neuronowe okazuj¡ si¦ niestabilne. Niewielkie zmiany w danych ucz¡cych mog¡ znacz¡co zmieni¢ posta¢ klasykatora, zarówno w odniesieniu do struktury, jak i parametrów (sieci). W rozprawie do wst¦pnego selekcjonowania danych masowych zastosowano maszyny wektorów podpie- raj¡cych (ang. Support Vector Machines) SVM.

1.3.1 Maszyny wektorów podpieraj¡cych

Maszyny wektorów podpieraj¡cych SVM s¡ klasykatorami dyskryminacyj- nymi deniowanymi bezpo±rednio poprzez obiekty wzorcowe dane wektorami w przestrzeni cech [Schölkopf 2002]. Ich wyró»nikiem jest sposób dobrania hiperpªaszczyzny dyskryminuj¡cej, tak aby stanowiªa geometryczny ±rodek najszerszego z mo»liwych do skonstruowania pasów rozdzielaj¡cych w prze- strzeni cech dwie podprzestrzenie, z których ka»da zawiera wyª¡cznie punkty reprezentuj¡ce obiekty jednej z klas. Wektor normalny w deniuj¡cy hi- perpªaszczyzn¦ separuj¡c¡ wyra»any jest jako kombinacja liniowa wektorów ucz¡cychsi. Wspóªczynniki tej kombinacji okre±la si¦ jako rozwi¡zanie od- powiedniego zadania optymalizacyjnego. Wektor w jest zwykle kombinacj¡

niewielkiej tylko liczby spo±ród wszystkich m wektorów ucz¡cych. Le»¡ one na hiperpªaszczyznach, zwanych kanonicznymi, stanowi¡cych brzegi margi- nesu rozdzielaj¡cego klasy w przestrzeni cech, i nazywane s¡ wektorami pod- pieraj¡cymi. W celu rozszerzenia stosowalno±ci metody SVM na zagadnienia nieseparowalne liniowo w przestrzeni cech S, zaproponowano by dokonywa¢

transformacji  : S7! , gdzie  jest przestrzeni¡ o wy»szym ni» S wymia- rze, i dopiero w niej poszukiwa¢ klasykatora reprezentowanego przez wektor

w o postaci

w =nSVX

i=1yi i(si) (1.9) gdzie wspóªczynniki i > 0 s¡ wyznaczane w czasie optymalizacji, a yi 2

f+1;?1g to standardowe etykiety oznaczaj¡ce klas¦ której reprezentantem jest wektor podpieraj¡cysi. Zaliczenie nowej obserwacjisdo jednej z dwóch klas nast¦puje po zbadaniu znaku wyra»eniahw;(s)i+b, gdzie b jest staª¡, obran¡ tak by w interpretacji geometrycznej iloraz ?b=kw k byª równy od- legªo±ci hiperpªaszczyzny separuj¡cej od pocz¡tku ukªadu wspóªrz¦dnych w przestrzeni cech . W aparacie obliczeniowymmetody SVM zarówno funkcja minimalizowana przy uczeniu klasykatora, jak i uzyskana funkcja dyskrymi- nuj¡ca, wyra»aj¡ si¦ poprzez iloczyny skalarne wektorówh(si);(sj)i. Daje to mo»liwo±¢ zastosowania formalnej techniki rachunkowej, w której iloczyn skalarny uto»samiany jest z odpowiednim operatorem j¡drowym K(si;sj) 

h(si);(sj)i dziaªaj¡cym bezpo±rednio w przestrzeni obserwacji S 3 si;sj. Dzi¦ki temu samo przeksztaªcenie  : S7! nie musi by¢ okre±lone jawnie.

(23)

1.3 Klasykatory dla danych masowych 19 Wªasno±¢ ta znacz¡co redukuje koszt oblicze« przy optymalizacji i u»ytko- waniu klasykatorów SVM. Binarna funkcja decyzyjna d klasykatora, po wyra»eniu iloczynu skalarnego przez j¡dro K, oraz rozwini¦ciu wektora w, przyjmuje posta¢

y(s) = sgn(nSVX

i=1yi iK(si;s) +b) (1.10) Warto±¢y(s) wyznacza etykiet¦klasy, do której przynale»y obiekts8. Zasady konstrukcji nieliniowego klasykatora SVM przedstawia rys. 1.1.

m ax

a

b φ

y=+1 y=-1

b a

b

( )s φ

w

Rys. 1.1: Zasada konstrukcji nieliniowej maszyny wektorów podpieraj¡cych SVM.

Linia ci¡gªa symbolizuje gªówn¡ hiperpªaszczyzn¦ separuj¡c¡ le»¡c¡ w równej od- legªo±ci od hiperpªaszczyzn kanonicznych przedstawionych liniami przerywanymi.

Model nieliniowych maszyn SVM okre±la jedynie podstawowe zaªo»enia formalne co do wªasno±ci funkcji j¡drowejK, nie podaj¡c kryterium jej wy- boru. W praktyce j¡dro wybiera si¦ heurystycznie, a jego optymalne parame- try dobiera stosuj¡c walidacj¦, której kryterium jest dokªadno±¢ klasykacji sprawdzana na wyró»nionym podzbiorze przykªadów.

W sytuacji gdy pewne wektory po±ród ogóªu przykªadów uniemo»liwiaj¡

znalezienieklasykatora (1.10) poprawnie rozdzielaj¡cego wszystkie elementy zbioru ucz¡cego, racjonalnym jest uelastycznienie ogranicze« zadania opty- malizacyjnegow procedurze ucz¡cej, tak aby dopu±ci¢ rozwi¡zania, w których cz¦±¢ wektorów przykªadów znajdzie si¦ po niewªa±ciwej stronie hiperpªa- szczyzny kanonicznej odpowiadaj¡cej ich klasie. Rozwi¡zania tego rodzaju mo»na znale¹¢, gdy do funkcji celu (minimalizowanej przy uczeniu maszyny) zostanie dodany czªon regularyzacyjnyCPnSVi=1 i. W interpretacji geome- trycznej i  0 jest moduªem minimalnego przesuni¦cia ?yii pªaszczyzny kanonicznej, którego nale»aªoby dokona¢ by wektorsi zawarª si¦ ju» we wªa-

±ciwej podprzestrzeni, przy czym znak etykietyyi 2f+1;?1g okre±la kieru- nek translacji. Dla wektorów le»¡cychna, lub po wªa±ciwej stronie pªaszczyzn

8Binarn¡ reguª¦ podejmowania decyzji nale»y uzupeªni¢ instrukcj¡ post¦powania w przypadku gdy argument funkcjisgnjest równy zeru.

(24)

20 Rozdziaª 1. Dane masowe i ich selekcja na bie»¡co

kanonicznych i = 0, dla pozostaªych i > 0. St¡d klasykatory otrzymane tak zmodykowan¡ metod¡ nazywane s¡ maszynami SVM z elastycznym marginesem.

Staªa C > 0, wyst¦puj¡ca w czªonie regularyzacyjnym, okre±la dodat- kowy koszt bª¦dnej klasykacji. Im wi¦ksza jest jej warto±¢, tym wi¦ksza jest strata zwi¡zana z niezaliczeniem wektorasi do wªa±ciwej klasy. Wi¦ksze warto±ciC prowadz¡ do bardziej zªo»onych rozwi¡za«, dopasowanych do da- nych ucz¡cych, co potencjalnie grozi przeuczeniem klasykatora. Najlepsza dla danego zagadnienia warto±¢ staªej C musi zosta¢ dobrana empirycznie w powi¡zaniu z parametrami funkcji j¡dra K, tak by osi¡gn¡¢ po»¡dan¡

równowag¦ pomi¦dzy zªo»ono±ci¡ klasykatora, jego zdolno±ci¡ generalizacji przykªadów oraz kosztem oblicze« optymalizacyjnych ograniczonych warun- kiem (1.6) na s. 10.

Uczenie maszyny SVM z elastycznym marginesem sprowadza si¦ do za- dania minimalizacji kwadratowej funkcji celu przy ograniczeniach liniowych

min CPmi=1i+kw k2

w 2p.o. yih(si);w i1?i

i 0 gdzie i = 1;:::;m (1.11)

przy czym szeroko±¢ marginesu rozdzielaj¡cego klasy w przestrzeni  jest proporcjonalna do 1=kw k.

Rozwi¡za« zadania (1.11) poszukuje si¦ metod¡ Lagrange'a w postaci du- alnej w = Pmi=1yi i(si) gdzie 0  i  C. Zadanie rozwi¡zywane wprost jako jeden ukªad równa« liniowych miaªoby koszt oblicze« rz¦duO(m3) oraz wymagania pami¦ciowe rz¦du O(m2). Koszt ten jest znacz¡cy i dlatego zastosowanie maszyn SVM do wielkoskalowych zbiorów danych (licznych i wielowymiarowych) wymaga dodatkowych zabiegów. Podstawowe opisane w literaturze podej±cia w tym zakresie to: modykacja pierwotnego sfor- muªowania zadania minimalizacyjnego (1.11), modykacja zbiorów ucz¡cych (próbkowanie, klasteryzacja) [Yu 2005] oraz zastosowanie zespoªów maszyn SVM (ang. Committee Machines) [Schwaighofer 2001].

Wa»nymkierunkiemmodykacji pierwotnego sformuªowania zadania (1.11) jest jego dekompozycja do postaci sekwencji zada« cz¡stkowych wykony- wanych iteracyjnie na maªolicznych podzbiorach peªnego zbioru ucz¡cego.

Liczba kroków sekwencji zale»y od charakterystyki danych oraz zaªo»onej do- kªadno±ci iteracyjnie wykonywanej optymalizacji. Rozwi¡zania zada« cz¡st- kowych skªadane s¡ do postaci (1.9). Efektywnym algorytmem dekompo- zycji jest Sequential Minimal Optimization SMO ([Platt 1999]), którego po- jedynczy krok polega na optymalizacji jedynie dwóch mno»ników i. Dla takiego zadania cz¡stkowego znane s¡ rozwi¡zania analityczne i tym samym unika si¦ wielokrotnego wykonywania kosztownej obliczeniowo minimalizacji

(25)

1.4 Znaczenie wiedzy eksperckiej 21 funkcji wielu zmiennych. Stwierdzono, i» zale»nie od uwarunkowa« zada- nia (wªasno±ci statystycznych danych i zastosowanego j¡dra), koszt oblicze«

algorytmem SMO wzgl¦dem liczno±ci zbioru ucz¡cego wyra»a si¦ warto±ci¡

pomi¦dzyO(m) a O(m2) oraz liniowo wzgl¦dem wymiaru przestrzeni cech

O(N). Wymogi pami¦ciowe tego algorytmu wyra»aj¡ si¦ zale»no±ci¡ liniow¡

O(m). Algorytm SMO jest efektywny przy konstrukcji maszyn SVM dla danych rzadkich.

Wynik (1.10) dziaªania maszyny SVM ogranicza si¦ do przypisania ety- kiety jednej z dwu separowanych klas y(s) = y 2 f+1;?1g. Takie binarne rozstrzygni¦cie mo»e by¢ niewystarczaj¡ce, gdy nale»y uwzgl¦dnia¢ strat¦

wynikaj¡c¡ z bª¦dnego sklasykowania, lub gdy nie jest to wynik ostateczny, ale b¦dzie on agregowany z wynikami innych klasykatorów. By umo»liwi¢

szersz¡ interpretacj¦ wyników klasykatorów SVM, ich binarne rozstrzygni-

¦cia mo»na uzupeªni¢ o estymowane warto±ci prawdopodobie«stwa a poste- riori P(y = yijs). Platt [Platt 2000] proponuje u»ycie w tym celu modelu parametrycznego dopasowywanego bezpo±rednio do wyników klasykacji da- nych ucz¡cych uzyskanej z u»yciem rozwa»anej maszyny SVM. W szczegól- no±ci proponuje si¦ zastosowanie zale»no±ci sigmoidalnej

P(y = +1js)f((s); ;) = 1

1 + exp[ ((s)? )] (1.12) gdzie (s) = hw;(s)i+b jest wielko±ci¡, której znak sgn((s)) w formule funkcji decyzyjnej (1.10) klasykatora SVM jest interpretowany jako przypi- sywana etykieta klasy, do której nale»y nowa obserwacja s. W interpretacji geometrycznej warto±¢ (s) jest równa odlegªo±ci obrazu wektora s w prze- strzeni  od hiperpªaszczyzny separuj¡cej maszyny SVM. Parametry modelu ( ;) dobierane s¡ na podstawie zbioru ucz¡cego metod¡ najwi¦kszej wia- rogodno±ci. Model sigmoidalny (1.12) inspirowany jest analiz¡ danych em- pirycznych oraz wywodz¡c¡ si¦ z zagadnie« regresji logistycznej heurystyk¡, w której zale»no±¢ (1.12) jest równowa»na zaªo»eniu, »e warto±¢ logarytmu szansy (ang. log odds), i» obiekt s nale»y do klasy o etykiecie +1 jest pro- porcjonalna do(s).

1.4 Znaczenie wiedzy eksperckiej

Selekcja wst¦pna z danych musi uwzgl¦dnia¢ wiedz¦ o ich naturze. Je±li selekcj¦ ma prowadzi¢ klasykator przygotowany drog¡ uczenia maszyno- wego, wiedza taka jest niezb¦dna by przygotowa¢ dla niego odpowiedni zbiór ucz¡cy. Przygotowanie przez czªowieka zbioru ucz¡cego, zawieraj¡cego przy- kªady rzeczywistych danych masowych, mo»e okaza¢ si¦ niewykonalne ze wzgl¦du na liczno±¢ danych oraz liczb¦ i ró»norodno±¢ ich cech. W takich

(26)

22 Rozdziaª 1. Dane masowe i ich selekcja na bie»¡co

przypadkach nale»y posiªkowa¢ si¦ peªniejsz¡ wiedz¡. Zwykle jest ona uj¦ta w modelu pozwalaj¡cym wytwarza¢ drog¡ symulacji komputerowej dane synte- tyczne, o charakterystyce zbli»onej do danych rzeczywistych i o znanej przy- nale»no±ci do jednej z dwóch klas: danych do odrzucenia lub przeznaczonych do dalszego przetwarzania. Modele te nie znajduj¡ bezpo±rednio zastoso- wania w procesie selekcji z danych poniewa» z reguªy nie s¡ odwracalne

analitycznie, ze wzgl¦du na swoj¡ zªo»ono±¢ lub probabilistyczny charakter.

Niejednokrotnie modeluj¡c populacj¦ pozyskiwanych danych masowych wygodnie jest przedstawia¢ j¡ jako mieszanin¦ podpopulacji, z których ka»da powstaje w efekcie niewpªywaj¡cych na siebie zjawisk f1;f2;:::;fn. W naj- prostszym przypadku jest to mieszanina podpopulacji istotnej i podpopulacji tªa. Wypadkowy obserwowany rozkªad cech S mieszaninywyra»a kombinacja liniowa rozkªadów warunkowych cech w podpopulacjach ([Hand 2001] s. 279)

P(S) = P(f1)P(Sjf1) + P(f2)P(Sjf2) ++ P(fn)P(Sjfn) (1.13) przy n  2. Je±li F = ff1;f2;:::;fng jest wyczerpuj¡cym zbiorem zacho- dz¡cych niezale»nie zjawiskfi, przy czymPiP(fi) = 1, wówczas wspóªczyn- niki P(fi) tworz¡ rozkªad prawdopodobie«stw caªkowitego zbioru zdarze«F. Przy tym zjawiska nale»¡ce do pewnego podzbioru F+  F le»¡ u podstaw powstawania danych, które przy selekcji uznawane s¡ za istotne, za± odpo- wiednio dopeªnienieF?=FnF+zawiera zjawiska warunkuj¡ce powstawanie danych, które nale»y zdyskwalikowa¢.

Tworz¡c syntetycznedane ucz¡ce nale»y liczy¢si¦ z niedokªadno±ci¡ opisu populacji z u»yciem formuªy (1.13) oraz niedoskonaªo±ciami modeli poszcze- gólnych podpopulacji fi.

Szczególna sytuacja powstaje w przypadku silnego niezrównowa»enia praw- dopodobie«stwa wyst¦powania zjawisk istotnych i zjawisk tªa P(F+)P(F?).

Uwarunkowanie to umo»liwia stosowanie rozwi¡zania, w którym modelowane s¡ jedynie przykªady zjawisk istotnychfi 2F+, a jako przykªady zjawisk tªa

F

? u»ywane s¡ rzeczywiste dane nie poddane uprzedniej selekcji. Wynika to st¡d, i» jest maªo prawdopodobne, »e przy silnym niezrównowa»eniu praw- dopodobie«stw umiarkowanie liczna próba b¦dzie zawieraªa znacz¡c¡ liczb¦

przypadków obserwacji zjawisk rzadkich. Selekcja prowadzona na podstawie syntetycznych danych przykªadowych zjawisk istotnych ma charakter zasta- wiania puªapek na rzeczywiste obiekty odpowiadaj¡ce zaªo»onym wzorcom (ang. decoy strategy) [Thiele 2008]. Podej±cie takie jest skuteczne przy po- szukiwaniu w rzeczywistych danych dowodów werykuj¡cych nowe hipotezy naukowe, lub kiedy eksperci s¡ w stanie okre±li¢ wzorce sytuacji lub zjawisk anomalnych 9. Rzeczywistych danych o silnie niezrównowa»onych klasach

9Selekcja mo»e te» mie¢ charakter negatywny, gdy uznany za istotny obiekt podlega

(27)

1.5 Ocena skuteczno±ci selekcji 23 mo»na w ogólno±ci u»y¢ do werykacji modeli zjawisk tªa oraz testowania specyczno±ci gotowego klasykatora.

1.5 Ocena skuteczno±ci selekcji

Selekcjonuj¡cwst¦pnie dane mo»na popeªni¢ bª¦dy dwojakiego rodzaju: odrzu- ci¢ dane istotne, albo zaakceptowa¢ nieistotne. Obydwa rodzaje bª¦dów zwy- kle maj¡ ró»ny wpªyw na powodzenie zadania, w którym selekcja z danych jest pierwszym krokiem. Zatem przy ocenie skuteczno±ci procedury selekcji z danych, obok ±redniego prawdopodobie«stwa poprawnej klasykacji zna- czenie maj¡ jej czuªo±¢ (ang. sensitivity) i specyczno±¢ (ang. specicity).

Warto±ci tych wska¹ników okre±lone z u»yciem zbioru testowego pozwalaj¡

oceni¢ jako±¢ klasykatora. Wska¹niki te s¡ równie» u»yteczne na etapie kon- struowania klasykatora, gdzie stanowi¡ podstaw¦ do okre±lenia jego ró»nych parametrów (z u»yciem zbioru walidacyjnego).

Jako±¢ procedury selekcjonuj¡cej dane masowe nale»y ocenia¢ z zasto- sowaniem odpowiednio licznego zbioru testowego rozª¡cznego ze zbiorem ucz¡cym u»ytym do konstrukcji klasykatora 10. Poddaj¡c przykªady ze zbioru testowego selekcji oraz zliczaj¡c przy tym decyzje podj¦te popraw- nie oraz decyzje podj¦te bª¦dnie, osobno dla przykªadów danych istotnych i przykªadów danych nieistotnych, otrzymuje si¦ cztery liczbyskªadaj¡ce si¦ na tzw. macierz bª¦dów (ang. confusion matrix) klasykatora, której budow¦

obja±nia rys. 1.2 [Fawcett 2006]. Na gªównej przek¡tnej macierzy bª¦dów podawane s¡ liczby decyzji poprawnych: akceptacji danych istotnych True Positive (TP) oraz dyskwalikacji danych nieistotnych True Negative (TN).

Natomiast poza gªówn¡ przek¡tn¡ macierzy bª¦dów znajduj¡ si¦ liczby da- nych bª¦dnie zdyskwalikowanychFalse Negative (FN) oraz danych bª¦dnie zaakceptowanychFalse Positive (FP). Suma zawarto±ci wszystkich pól ma- cierzy bª¦dów jest równa liczno±ci zbioru testowego.

Macierz bª¦dów jest podstaw¡ obliczania wielu powszechnie stosowanych wska¹ników oceny klasykatorów. Podstawowym wska¹nikiem jest dokªad- no±¢ klasykacji (ang. accuracy (ACC)), wyra»ona w nast¦puj¡cy sposób z odwoªaniem do elementów macierzy bª¦dów

ACC= TP+TN

TP+FN+FP+TN (1.14)

dyskwalikacji, mo»e to by¢: próba wyªudzenia wypªaty w bankomacie, produkt z wad¡, sygnaª wywoªany wzbudzeniem aparatury pomiarowej.

10Kosztowne obliczeniowo metody testowania polegaj¡ce na wielokrotnej resubstytucji elementów zbioru ucz¡cego (przykªadowo walidacja krzy»owa) s¡ nieadekwatne w zastoso- waniu do analizy danych masowych, w których przypadku ograniczeniem nie jest dost¦p- no±¢ dªugich serii danych, tylko caªkowita wielko±¢ oblicze«, w której nale»y uwzgl¦dnia¢

równie» koszt oceny i testowania gotowych klasykatorów.

(28)

24 Rozdziaª 1. Dane masowe i ich selekcja na bie»¡co

dyskwalikacja akceptacja

istotny nieistotny

decyzja stan faktyczny

FNTP

TNFP

Rys. 1.2: Macierz bª¦dów klasykatora selekcjonuj¡cego dane

Wska¹nikczuªo±ci klasykatora wyra»ony jest wprost wielko±ci¡ znan¡ jako true positive rate(TPR), okre±lon¡ wzorem

TPR= TP

TP+FN (1.15)

Wska¹nikspecyczno±ci klasykatora zwi¡zany jest z wielko±ci¡ znan¡ jako false positive rate(FPR), okre±lon¡ wzorem

FPR= FP

FP+TN (1.16)

przy czym specyczno±¢ = 1?FPR 11.

Dokªadno±¢ ACC jest estymatoremprawdopodobie«stwa poprawnego skla- sykowania danych Pc, czyli ryzyka klasykacji danego formuª¡ (1.2) na s. 8, obliczanego przy symetrycznej funkcji strat. Wynika to ze spostrze»enia, »e liczba poprawnych decyzji klasykatora binarnego odnotowywana w dªugich seriach testów powinna mie¢ rozkªad Bernoulliego. Je±li przy klasykowaniu zbioru licz¡cegom = TP+FN+FP+TN przykªadowych danych odnotowane zostaªo mc = TP + TN poprawnych decyzji, estymatorem prawdopodobie«- stwa poprawnego sklasykowania danych Pc jest

^Pc =mc=m = ACC (1.17)

a jego odchylenie standardowe wynosi

^Pc =q^Pc(1?^Pc)=m (1.18)

11Cz¦±¢ wska¹ników wyst¦puje w literaturze pod kilkoma ró»nymi nazwami. Na przy- kªad czuªo±¢ znana jest równie» jakokompletno±¢ (ang. recall). Mo»na wymieni¢ inne wska¹niki, które okazuj¡ si¦ przydatne w konkretnych zastosowaniach: precyzja (ang.

precision) zdeniowana jest jako TP/(TP+FP). Miara F-score okre±lona jest wzorem F-score = 2=[1=precision +1=recall], za± Balanced Accuracy (BAC) wyra»a si¦ wzorem BAC=(czuªo±¢+specyczno±¢)=2, a ±redniag-mean=pczuªo±¢specyczno±¢ .

(29)

1.5 Ocena skuteczno±ci selekcji 25 Podobnie, wska¹niki czuªo±ci TPR i specyczno±ci 1-FPR s¡ estymato- rami prawdopodobie«stw, »e zostan¡ sklasykowane poprawnie dane, odpo- wiednio: istotne oraz nieistotne.

Je±li zbiory testowe powstaj¡, tak jak opisano to na s. 22, w drodze mo- delowania pozyskiwanych danych masowych jako mieszaniny (1.13) zbioru podpopulacjiF =ff1;f2;:::;fng, wielko±ci charakteryzuj¡ce jako±¢ selekcji populacji ª¡cznej mo»na estymowa¢ drog¡ u±redniania warto±ci otrzymanych dla poszczególnych podpopulacji fi. Je±li ^Pc(fi) jest estymatorem warto±ci danego wska¹nika dla podpopulacji fi, to estymatorem dla caªej populacji b¦dzie

^Pc =Xn

i=1P(fi)^Pc(fi) (1.19) Wariancja tego estymatora wyra»a si¦ wzorem

var(^Pc) =Xn

i=1P2(fi)var(^Pc(fi)) (1.20) Relacj¦ pomi¦dzy czuªo±ci¡ a specyczno±ci¡ klasykatora mo»na zobra- zowa¢ na pªaszczy¹nie jako punkt o odci¦tej i rz¦dnej równym odpowiednio warto±ciom FPR i TPR. Zbiór punktów (FPR, TPR) wyznaczonych dla ró»- nych warto±ci parametrów opisuj¡cych rodzin¦ klasykatorów skªada si¦ na krzyw¡ 12 zwan¡ w j. ang. Receiver Operating Characteristic Curve (ROC) [Fawcett 2006]. Rys. 1.3 przedstawia wykres ROC trzech rodzin binarnych klasykatorów bayesowskich, dziaªaj¡cych w warunkach równych prawdo- podobie«stw a priori klas, analizuj¡cych obiekty, których populacja repre- zentowana jest wariantowo w trzech ró»nych jednowymiarowych przestrze- niach cech o ró»nej informatywno±ci, mierzonej ilo±ci¡ informacji wzajemnej.

Krzywe ROC rodzin u»ytecznych klasykatorów musz¡ przebiega¢, przynaj- mniej cz¦±ciowo, powy»ej prostej TPR=FPR. Pokrywanie si¦ krzywej z t¡

prost¡ w caªym zakresie zmienno±ci parametrów steruj¡cych czuªo±ci¡ i spe- cyczno±ci¡ klasykatora oznaczaªoby, i» proporcje obiektów w wyselekcjono- wanym zbiorze byªyby takie same jak przed selekcj¡ co czyniªoby klasykator bezu»ytecznym. Im bardziej krzywa ROC danego klasykatora zbli»a si¦ do ªamanej ª¡cz¡cej punkty (0,0)-(0,1)-(1,1), tym lepsze ma on ogólne wªa±ciwo-

±ci. Dla klasykatorów, w których u»yto bayesowskiej reguªy decyzyjnej, w punkcie odpowiadaj¡cym minimalnemu ±redniemu bª¦dowi rozpoznania przy symetrycznejfunkcji strat, styczna do krzywej ROC przebiega nachylona pod k¡tem 45 wzgl¦dem osi odci¦tych.

12W ogólno±ci jest to zbiór punktów, który przyjmuje posta¢ krzywej o ile rodzin¦ kla- sykatorów mo»na sparametryzowa¢ w sposób ci¡gªy.

Cytaty

Powiązane dokumenty

Dodatkowo zakłada się, że właściwy poziom zabezpieczenia i ochrony danych programu osiąga się poprzez zdefiniowanie dostępów do katalogów i plików programu z poziomu systemu

Narysowa´c wykresy akceptacji sygna

„Placówka Wsparcia Dziennego dla dzieci i młodzieży w gminie Moszczenica” nr RPMP.09.02.01-12-0161/18, w szczególności potwierdzenia kwalifikowalności wydatków,

10.03.2020]. 3 Cztery wolności Richarda Stallmana obejmują wolność korzystania z programu, dostosowania do własnych potrzeb, rozpowszechniania kopii i dzielenia się

Uwaga wiadomość powinna być wysłana z adresu pozwalającego na identyfikację nadawcy, informacja w temacie wiadomości:

• Postawienie ostatecznej diagnozy – określenie konkretnej jednostki chorobowej (klasyfikacja) – wymaga wykonania wielu badao, określenia wartości wielu parametrów

• Postawienie ostatecznej diagnozy – określenie konkretnej jednostki chorobowej (klasyfikacja) – wymaga wykonania wielu badao, określenia wartości wielu parametrów

Jeśli zaś chcemy szukać obserwacji odstających globalnie (nie dla pojedynczej zmiennej objaśniającej ale dla wielu) wówczas możemy analizować rezydua lub rezydua studentyzowane