• Nie Znaleziono Wyników

W śród najpopularniejszych technik dyskrym inacyjnych i klasyfikacyjnych wska­

zuje się m etodę drzew klasyfikacji i regresji C A R T (ang. classification and regression trees) oraz m etodę w ektorów w spierających SV M (ang. support vector machines).

C A R T pozw ala na budow ę m odeli służących do rozw iązyw ania problem ów regresyj- nych i klasyfikacyjnych. M etoda SV M w sw oich początkach b y ła jed y n ie metodą liniow ej separacji klas danych. D opiero jej rozszerzenie na klasyfikator nieliniowy (użycie nieliniow ych funkcji separujących) przez zastosow anie tzw . triku kem elowe- go (ang. kernel Pick) pozw oliło n a pow szechne zastosow anie tej m etody, k tóra szybko stała się alternatyw ą dla zastosow ań sieci neuronow ych (W olter 2012). Idea triku ker- nelow ego polega na prostym m apow aniu w ejściow ych w ektorów danych na prze­

strzeń w ięcej w ym iarow ą niż przestrzeń danych w ejściow ych. W nowej przestrzeni w ielow ym iarow ej dane separow ane są z zastosow aniem liniow ej m etody SVM . Przej­

ście w kolejnym kroku algorytm u do w yjściow ej przestrzeni danych daje separację nieliniow ą (W olter 2012).

4.3.1. Metody drzew klasyfikacji i regresji

G łów nym celem budow ania drzew klasyfikacyjnych je s t predykcja jakościow a bądź ilościow a badanego zjaw iska lub procesu. Przedstaw ienie w yników w postaci drzew a pozw ala podzielić zbiór obserw acji na n rozłącznych podzbiorów m aksym al­

nie jednorodnych pod w zględem w artości zm iennej zależnej. Sam proces tworzenia drzew je s t procesem w ieloetapow ym . O znacza to, że w kolejnych krokach budowy drzew a m ogą zostać w ykorzystane różne zm ienne, które um ożliw ią najlepszy podział, tzn. pozw olą n a w yodrębnienie najbardziej hom ogenicznych podzbiorów . W śród me­

tod stosow anych do budow y drzew klasyfikacyjnych należy w ym ienić m etodę CLC (ang. concept learning system), m etodę A ID (ang. automatic interaction detection) oraz m etodę C A R T (ang. classification and regression trees). D w ie pierw sze z wyżej w ym ienionych zostały opracow ane w latach 60. ubiegłego stulecia. M etoda CLC słu­

ży do binarnego podziału zbioru obiektów n a dw ie klasy. A lgorytm w ybiera zmienną, która najlepiej ze w szystkich różnicuje obiekty należące do tych dw óch klas. Metoda

R M SE P(A ) (4.19)

AID została stw orzona ja k o alternatyw a dla zastosow ania m etod regresji w analizie danych i była w ielokrotnie m odyfikow ana. N ajbardziej zaaw ansow aną m etodą służącą do odróżniania znanych grup obiektów w oparciu o tzw . drzew o decyzji (ang. decision tree) je s t m etoda C A R T. Jej początki sięgają lat 80. ubiegłego w ieku. Ideę drzew a decyzji przedstaw iono na przykładzie zilustrow anym na rysunku 4.1. W śród m ierzo­

nych param etrów znajdują się param etry x i y, które m ożliw ie najlepiej pozw alają odróżnić od siebie cztery różne klasy obiektów (A, B, C i D). Reguły podziału stoso­

wane w m etodzie C A R T to indeks G iniego, m iara entropii oraz reguła podziału na dwie części (ang. twoing rule) (S tatS oft... 2013). W pierw szym etapie zastosow ania metody C A R T obserw uje się w zrost drzewa, przez podział obiektów m iędzy kolejne gałęzie w celu m inim alizacji tzw . błędu podziału. Z błędem podziału zw iązana je st funkcja zanieczyszczenia, która pozw ala stw ierdzić, czy w danej gałęzi znajdują się obiekty z tej samej klasy obiektów , czy też z różnych klas. D la gałęzi zaw ierających obiekty z tej sam ej klasy funkcja zanieczyszczenia przyjm uje w artość rów ną zeru, w odróżnieniu od w artości dla gałęzi zaw ierających obiekty z różnych klas. N ajbar­

dziej znaną funkcją zanieczyszczenia je s t funkcja entropii. W prow adzenie funkcji zanieczyszczenia pozw ala na znalezienie optym alnego podziału obiektów na kolejne gałęzie, co je s t istotne, gdyż m etoda C A R T cechuje się nadm iernym rozrostem drzew a i koniecznością przycinania jeg o gałęzi (ang. pruning) w celu redukcji ilości podgrup, przy zapew nieniu, że nie spow oduje to znaczącego w zrostu błędu klasyfikacji.

tak m e

tak - m e tak m e

y < c y < b

x < a

Rys. 4.1. Idea konstrukcji drzewa decyzji w metodzie CART

4.3.2. Maszyna wektorów wspierających

M etodę w ektorów w spierających (ang. support vector machines) opracow ał Vap- nik (V apnik, C hervonenkis 1971), w celu rozw iązyw ania problem ów liniowej klasyfi­

kacji obiektów . Z nana je s t ona w literaturze ja k o algorytm najw iększego m arginesu (ang. maximal margin algorithm) (C ortes, V apnik 1995; B urges 1998; Smola, Schol- kopf 1998; C ristianini, S haw e-T aylor 2000; C zekaj, W u, W alczak 2005). M etoda ta w ykorzystyw ana je s t do rozw iązyw ania problem ów klasyfikacji, do konstrukcji m ode­

li regresyjnych (V apnik, C hervonenkis 1971, 1991; V apnik 1995, 1998; Koronacki, Ć w ik 2005; Ivanciuc 2007), estym acji funkcji gęstości (W eston i in. 1999) oraz pro­

gnozow ania w artości szeregów czasow ych (M ukherjee, O suną, G irosi 1997; Müller i in. 1997; F ernandez 1999).

G łów na idea m etody SVM opiera się n a konstrukcji hiperpłaszczyzn dyskrym ina­

cyjnych, których zadaniem je s t rozdzielenie obiektów do dw óch klas, przy zachow a­

niu m ożliw ie najw iększego m arginesu zaufania (ang. maximal margin). W metodzie tej w ykorzystyw ana je st koncepcja adaptacyjnego w zbogacania przestrzeni obserw a­

cji, a następnie poszukiw ania hiperpłaszczyzny dyskrym inacyjnej w nowej przestrze­

ni, czyli poszukiw ania tzw. w ektorów podpierających (w spierających) (ang. support vectors). N a rysunku 4.2 przedstaw iono przykłady zastosow ania m etody SVM do klasyfikacji obiektów należących do dw óch klas. W obu przedstaw ionych przypad­

kach klasy obiektów są liniow o rozdzielne. O znacza to, że m ożna je idealnie rozdzie­

lić hiperpłaszczyzną dyskrym inacyjną (H). R ozdzielność w arunkuje istnienie tzw.

m arginesów ograniczonych dw om a hiperpłaszczyznam i (H i, H 2), m iędzy którym i nie znajduje się żaden obiekt. Płaszczyzna dyskrym inacyjna leży w środku m iędzy hiper­

płaszczyznam i Hi i H 2, a obie hiperpłaszczyzny m arginesu przechodzą przez pewne obiekty zw ane w ektoram i podpierającym i. O dległość m iędzy hiperpłaszczyznam i Hj i H 2 w ynosi 5, natom iast odległość hiperpłaszczyzny dyskrym inacyjnej H od każdej z hiperpłaszczyzn w yznaczonych przez w ektory w spierające w ynosi + / - d (rys. 4.2).

a)

O

Rys. 4.2. Przypadki (a. b) liniowo separowanych obiektów należących do dwóch klas (Ivanciuc 2007)

Z astosow anie m etody SV M nie ogranicza się jed y n ie do rozdzielania klas obiek­

tów liniow o rozdzielnych. O ddzielanie klas, które nie są liniow o rozdzielne (rys. 4.3a) polega n a m apow aniu w spółrzędnych obiektów z przestrzeni R n do R p przy użyciu funkcji nieliniow ych ( f ). W now ej przestrzeni obiekty są grupow ane z wykorzysta­

niem liniow ych klasyfikatorów (rys. 4.3b).

W celu znalezienia najlepszego rozw iązania problem u separacji obiektów do róż­

nych klas, poszukuje się hiperpłaszczyzn grupujących obiekty do dw óch klas nie w przestrzeni w ejściow ej, ale w pew nej przestrzeni R p, utw orzonej przez funkcje ba­

zowe fj(x), określone w przestrzeni w ejściow ej. R ów nanie takiej hiperpłaszczyzny można przedstaw ić następująco

n

F(x) = 2 ] a iy iK i(x i,x) + b (4.20)

i=l

gdzie

ą - optym alne w artości w spółczynników L agrange’a, b - stała y je{-1,1},

Ki(xi,x) - ją d ro iloczynu skalarnego funkcji bazow ych fj(x), j = 1, 2 ... m.

b)

Przestrzeń wielow ym iarow a Przestrzeń wejściowa

-I

Rys. 4.3. Przykład nieliniowo separowanych obiektów należących do dwóch klas (Ivanciuc 2007)

Podstaw ow ym elem entem transform acji je s t w ybór fimkcji K em ela (ang. Kernel functions), zw anych rów nież funkcjam i jądra, odpow iedzialnych za odw zorow anie punktów do now ej przestrzeni. Funkcje te są stosunkow o prostym i, sym etrycznym i funkcjami dw óch argum entów w ektorow ych w przestrzeni Rp, pozw alającym i obli­

czyć w artości danego iloczynu skalarnego w przestrzeni rozszerzonej. W śród najczę­

ściej stosow anych funkcji K em ela w m etodzie SVM w ym ienia się (U stun, M elssen, Buydens 2006):

funkcję liniow ą

• funkcję w ielom ianow ą

• funkcję gaussow ską

• funkcję sigm oidalną

K (x i, x j ) = ( < x i, x j > + 1 ) (4.21)

K (x ,x ')= (1 + xx')r (4.22)

||x - x f

K (x ,x ') = e Y (4.23)

K (x ,x ') = ta n h (y [x Tx']-l-0) (4.24) Y apnik (1995) w swojej pracy pośw ięconej m etodzie SVM zastosow ał j ą do kon­

strukcji m odeli kalibracyjnych (rys. 4.4). Z biór uczący użyty je st do konstrukcji m ode­

lu regresyjnego (Sm oła, S cho lk o p f 1998; Scholkopf, Sm oła 2002; Thissen i in. 2004;

Ustun, M elssen, B uydens 2006; Ivanciuc 2007). W przypadku konstrukcji m odelu regresji algorytm SVM znajduje w nowej przestrzeni ciągłą funkcję, w s-sąsiedztw ie

której m ieści się najw iększa m ożliw a liczba obiektów . Param etr s określa odchylenie, a w ięc determ inuje gładkość dopasow ania.

- e

Rys. 4.4. Konstrukcja modelu regresji z wykorzystaniem algorytmu SVM (Koronacki, Ćwik 2005; Ivanciuc 2007)

4.4. Przykłady zastosowania metod kalibracyjnych do danych