• Nie Znaleziono Wyników

SYMULACYJNA OCENA JAKOŚCI ZAGREGOWANYCH MODELI ZBUDOWANYCH METODĄ WEKTORÓW NOŚNYCH

N/A
N/A
Protected

Academic year: 2021

Share "SYMULACYJNA OCENA JAKOŚCI ZAGREGOWANYCH MODELI ZBUDOWANYCH METODĄ WEKTORÓW NOŚNYCH"

Copied!
12
0
0

Pełen tekst

(1)

Michał Trzęsiok

SYMULACYJNA OCENA JAKOŚCI ZAGREGOWANYCH MODELI ZBUDOWANYCH METODĄ WEKTORÓW NOŚNYCH

Wprowadzenie

Wśród wielu nowych metod regresji wielowymiarowej na szczególną uwa- gę zasługuje metoda wektorów nośnych (ang. SVM – Support Vector Machi- nes). Choć została ona pierwotnie skonstruowana do realizowania zadań dys- kryminacji [10], to podobnie jak w przypadku drzew klasyfikacyjnych i regresyjnych [4], algorytm tej metody można przeformułować tak, aby służył do budowy modeli regresji. Ponadto regresyjna metoda wektorów nośnych ma wiele pożądanych własności, które przenoszą się z metody dyskryminacyjnej, tj.

nie wymaga od użytkownika sprawdzania założeń o rozkładach zmiennych dia- gnostycznych, nieliniowość otrzymanego modelu, relatywnie małe błędy pre- dykcji dla obserwacji ze zbioru testowego, odporność na występowanie szumu w zbiorze uczącym, bardzo liczna przestrzeń hipotez z dużą różnorodnością przeszukiwanych, potencjalnych funkcji regresji [9].

Podobnie jak w przypadku dyskryminacji, nie sposób nie wspomnieć o tych własnościach metody wektorów nośnych, które świadczą na jej niekorzyść.

Mianowicie jest jedną z metod eksploracji danych, co oznacza, że jej działanie jest w dużym stopniu zautomatyzowane, podobne do „czarnej skrzynki”, wyniki zaś w niewielkim stopniu poddają się interpretacji. Podsumowując, otrzymywa- ny model, jako narzędzie służące do predykcji, charakteryzuje się dużą dokład- nością, lecz znajomość analitycznej postaci modelu w niewielkim stopniu po- zwala badaczowi na poznanie i zrozumienie istoty relacji między zmiennymi uwzględnionymi w modelu.

Metoda wektorów nośnych jest obecnie uważana, obok zagregowanych drzew klasyfikacyjnych, za najdokładniejsze narzędzie w dyskryminacji. W dal- szej części artykułu zostanie przedstawiona metoda wektorów nośnych w regre-

(2)

znawanego jest wyznaczana poprzez agregowanie wskazań modeli składowych.

Podobnie jak w przypadku agregacyjnej metody dyskryminacji, modele składo- we

{ }

fj Bj=1 uzyskuje się wskutek zastosowania metody SVM do B prób uczą- cych D1,K,DB wyodrębnionych ze zbioru uczącego D. Liczebność każdej z prób jest równa liczebności zbioru D, a elementy próby są losowane ze zbioru D według schematu losowania ze zwracaniem, ze stałym i jednakowym prawdo- podobieństwem wejścia obserwacji do próby równym

N

1

, gdzie N – liczba ob- serwacji w zbiorze D. Predykcja modelu zagregowanego powstaje przez uśred- nienie wskazań modeli składowych:

.) x ( B f ) 1 x (

f B

1

j j

*

=

= (1)

Przedstawiona i wykorzystana w niniejszym artykule metoda łączenia mo- deli przez rozszerzanie jest jednym z wielu podejść w zagadnieniach agregacji.

Metodom agregowania (łączenia) wyników metod klasyfikacji i regresji jest po- święcona obszerna praca Gatnara [4].

1. Metoda wektorów nośnych w regresji

Zarówno w przypadku dyskryminacji, jak i regresji w algorytmie metody wektorów nośnych jest wyznaczana funkcja w postaci liniowej. Nieliniowość metody wynika z tego, że obserwacje ze zbioru uczącego są transformowane do nowej przestrzeni o dużo większym wymiarze za pomocą nieliniowego prze- kształcenia

ϕ

. Tak więc w przypadku danego zbioru uczącego

( ) ( )

{ x

1

,

y1

, K , x

N

,

yN

}

, gdzie

x

i

R

d oraz yi

R

dla i

= 1 K , ,

N, oraz nieliniowej transformacji

ϕ : R

d

Z

zagadnienie regresji będzie polegać na wyznaczeniu w nowej przestrzeni cech Z funkcji liniowej w postaci:

(3)

, ) ( )

,

( = ⋅ ϕ + β

0

=

f

x β β x

y (2)

gdzie

ϕ ( x

i

) ∈ Z

oraz yi

R

dla i

= 1 K , ,

N. Równanie:

0 )

( +

0

=

⋅ ϕ x β

β

(3)

definiuje hiperpłaszczyznę, o której w dyskryminacji zakłada się, że ma być optymalną hiperpłaszczyzną rozdzielającą klasy, tj. położoną tak, aby rozdziela- ła klasy oraz by symetryczne otoczenie hiperpłaszczyzny, niezawierające żadnej obserwacji, miało jak największy promień. Tak postawiony problem można sformułować w postaci zadania optymalizacji wypukłej z liniowymi ogranicze- niami [2; 8]). W regresji jest również wyznaczana optymalna hiperpłaszczyzna, lecz nie z warunkiem rozdzielania klas, tylko założeniem, że punkty przetrans- formowanego zbioru uczącego leżą jak najbliżej poszukiwanej hiperpłaszczyzny (por. rysunek 2). Ten geometrycznie postawiony warunek można przedstawić analitycznie jako poszukiwanie funkcji postaci (2), która minimalizuje wartość funkcjonału mierzącego jakość dopasowania funkcji do danych ze zbioru uczą- cego. Ów pomiar dopasowania modelu odbywa się z wykorzystaniem tzw. funk- cji straty. Najczęściej w zadaniach regresji stosuje się kwadratową funkcję straty w postaci L

(

y

,

f

( x , β )) = (

y

f

( x , β ))

2, która stanowi podstawę klasycznej metody najmniejszych kwadratów. Twórca metody Vladimir Vapnik [10] do pomiaru dopasowania zaproponował funkcję straty niewrażliwą na odchylenia rzędu

ε

>0:

⎪⎩

⎪ ⎨

>

= −

, ) , ( gdy

, ) , (

, ) , ( gdy

, )) 0 , ( ,

( ε ε

ε

ε

β x β

x

β β x

x

y f y f

f f y

y

L (4)

tzn. uznaje się, że dana wartość zmiennej yi jest dobrze aproksymowana przez funkcję f, jeśli odległość odpowiadającego jej punktu od hiperpłaszczyzny nie jest większa niż z góry zadane

ε

>0 (obserwacje ze zbioru uczącego znajdują się w symetrycznym otoczeniu hiperpłaszczyzny o promieniu epsylon). Różnice między kwadratową funkcją straty a funkcją Vapnika niewrażliwą na odchylenia rzędu

ε

>0 zilustrowano na rysunku 1.

(4)

ε ε

Rys. 1. Wykresy funkcji straty: po lewej funkcja kwadratowa, stosowana w metodzie najmniej- szych kwadratów, po prawej funkcja Vapnika, niewrażliwa na odchylenia rzędu

ε

Funkcja straty realizuje pomiar dopasowania modelu dla każdej pojedyn- czej obserwacji. Uwzględniając wszystkie punkty ze zbioru uczącego, otrzyma- no następujące kryterium jakości dopasowania i tym samym kryterium wyzna- czania funkcji f :

. min ))

β , x ( f , y ( N L

) 1 β ( R

N 1 i

i i

emp =

=

ε (5)

Powyższe kryterium, czyli minimalizacja funkcjonału zwanego błędem empirycznym, oznacza jedynie jak najlepsze dopasowanie funkcji aproksymują- cej do obserwacji ze zbioru uczącego i może doprowadzić do nadmiernego do- pasowania (ang. overfitting) i w konsekwencji do dużych błędów predykcji. Naj- lepszy model to taki, który minimalizuje nieznaną wartość błędu całkowitego:

, ) , ( )) , ( , ( )

(

L y f p y d dy

R

β =x β x x

(6)

jednak wartość funkcjonału (6) uwzględnia dopasowanie do wszystkich obser- wacji z przestrzeni danych – również tych spoza zbioru uczącego. Na ogół ba- dacz dysponuje informacjami cząstkowymi, zawartymi w próbie uczącej, więc wartość (6) jest niemożliwa do wyznaczenia. Vapnik i Chervonenkis udowodni- li, że w przypadku liniowej funkcji regresji (definiującej hiperpłaszczyznę w przestrzeni cech), błąd całkowity (6) jest ograniczony z góry przez wartość błędu empirycznego (5) oraz długość (normę) wektora normalnego hiperpłasz- czyzny [10; 2]:

(5)

Twierdzenie

Dla zbioru funkcji rzeczywistych istnieje taka stała c, że z prawdopodobień- stwem 1−

δ

zachodzi następująca nierówność:

1 , log log

) ( )

(

2 2 2

+ δ

⎟ ⎠

⎜ ⎞

⎛ +

r R N

N

R

β

c

β

emp

β

(7)

gdzie r jest promieniem hiperkuli Czebyszewa (tj. hiperkuli o najmniejszej obję- tości zawierającej wszystkie obserwacje ze zbioru uczącego).

Mała wartość błędu empirycznego jest związana z dobrym dopasowaniem modelu do danych ze zbioru uczącego, zaś minimalizacja normy wektora kie- runkowego hiperpłaszczyzny – z lepszą zdolnością modelu do uogólniania.

W metodzie wektorów nośnych jest wbudowana procedura jednoczesnej mini- malizacji obu składników ograniczających błąd całkowity, która jest nazywana strukturalną minimalizacją błędu całkowitego. W algorytmie metody wektorów nośnych jest minimalizowany funkcjonał w postaci:

, )) , ( , (

1 2 2

1

=

+

N

i

i f

y L

C

x β

β

ε i (8)

gdzie parametr C określa kompromis między prostotą modelu a jego dopasowa- niem do obserwacji ze zbioru uczącego.

W rzeczywistych zbiorach danych bardzo często występują obserwacje niety- powe, w których wartości zmiennej objaśnianej są zakłócone szumem lub różnego typu błędami. W celu uelastycznienia metody i uodpornienia jej na występowanie takiego zjawiska zostają wprowadzone zmienne

ξ

1,K,

ξ

N,

ξ

1*,K,

ξ

N* ≥0. Do- datnia wartość takiej zmiennej w modelu oznacza, że odpowiadająca jej obser- wacja może się znajdować poza epsylonowym otoczeniem wyznaczanej hiper- płaszczyzny. Zmniejsza to oczywiście jakość aproksymacji na zbiorze uczącym ale, szczególnie w przypadku obserwacji obarczonych błędami, może mieć po- zytywny wpływ na jakość predykcji dla nowych obiektów ze zbioru rozpozna- wanego.

(6)

Rys. 2. Liniowa funkcja regresji w przestrzeni Z i jej epsylonowe otoczenie (aproksymacja odby- wa się z dokładnością do

ε

>0) oraz konsekwencje wprowadzenia do modelu zmien- nych

ξ

i

, ξ

j*

≥ 0

Geometryczne konsekwencje ustanowienia epsylonowej otoczki wokół wy- znaczanej funkcji regresji w przestrzeni Z oraz wprowadzenia zmiennych

0 ,

j*

i

ξ

ξ

przedstawiono na rysunku 2.

Omówione zadanie minimalizacji z liniowymi ograniczeniami można zapi- sać w postaci analitycznej [7]:

( )

( )

⎪ ⎪

⎪⎪

= +

≤ +

⋅ +

= +

≤ +

+

+ ∑

=

. 0 ,

, , , 1 , )

(

, , , 1 , )

(

, ) (

min

*

* 0

0 1 2 * 21 , , 0

i i

i i

i i

N

i i i

N i

y

N i

y

C

ξ ξ

ξ ε β ϕ

ξ ε β ϕ

ξ

β

ξ

K K

i i ξ

β

x β

x β

β

(9)

Zadanie to można rozwiązać metodą mnożników Lagrange’a. Z warunku Karus- ha-Kuhna-Tuckera, który spełnia rozwiązanie optymalne, wynika, że wiele współczynników Lagrange’a jest równych zero. Te obserwacje, którym odpo- wiadają niezerowe współczynniki Lagrange’a, są nazywane wektorami nośnymi.

Z geometrycznego punktu widzenia są to obserwacje leżące na brzegu epsylo- nowego otoczenia wyznaczonej hiperpłaszczyzny, a także te obiekty, które leżą

(7)

poza tym otoczeniem. Jedynie wektory nośne mają wpływ na położenie hiper- płaszczyzny, a tym samym na funkcję regresji [9].

O jakości modelu regresji otrzymanego metodą wektorów nośnych decydu- je wybór wartości parametru C oraz przede wszystkim wybór odpowiedniej transformacji nieliniowej

ϕ

. Okazuje się, że zarówno w zadaniu optymalizacyj- nym, po przejściu do jego postaci dualnej, jak i w postaci analitycznej rozwiąza- nia przekształcenie

ϕ

występuje jedynie związane iloczynem skalarnym [5].

Wobec tej uwagi nie jest konieczne definiowanie

ϕ

wprost. Wystarczy wybrać funkcję, która będzie definiowała iloczyn skalarny Z, co znacznie redukuje pro- blemy analityczne i numeryczne metody. W metodzie wektorów nośnych za- miast definiować transformację

ϕ

, użytkownik decyduje o wyborze sposobu li- czenia iloczynu skalarnego w pewnej przestrzeni o większym wymiarze.

Standardowo wykorzystuje się do tego celu funkcje z rodziny funkcji jądrowych w postaci

K ( u , v ) = ϕ ( u ) ⋅ ϕ ( v )

, które (co udowodniono) definiują iloczyny skalarne w pewnej przestrzeni. Najczęściej stosowane funkcje jądrowe to:

1) Gaussa: K(u,v)=exp(−

γ

uv 2),

2) wielomianowa:

K ( u , v ) = γ ( uv + δ )

d

,

d

= 1 , 2 , K

, 3) sigmoidalna:

K ( u , v ) = tanh( γ uv + δ )

.

Warto zaznaczyć, że wybór samej funkcji jądrowej oraz wybór wartości pa- rametrów tej funkcji ma kluczowe znaczenie dla jakości otrzymanego modelu.

Niestety brak jednoznacznej odpowiedzi na pytanie, jak dobierać rodzaj funkcji do przeprowadzanej analizy i jak identyfikować optymalne wartości parame- trów. W tym celu użytkownik zazwyczaj musi przeprowadzić wstępną analizę symulacyjną dla kilku funkcji jądrowych i odpowiednio dużego zakresu wartości parametrów metody z wykorzystaniem np. sprawdzania krzyżowego. Badania empiryczne wskazują jednak na pewną przewagę wielomianowych funkcji ją- drowych oraz funkcji Gaussa z odpowiednio dobranymi parametrami [8].

Przy zadanej funkcji jądrowej, definiującej iloczyn skalarny w Z, szukaną funkcję regresji można zapisać w postaci:

ˆ , ) , ( K ) (

)

( = ∑ α − α

*

+ β

0

i

i

f

x

i

x

i

x

(10)

gdzie

α

i

, α

i*są różnymi od zera współczynnikami Langrange’a z rozwiązania optymalnego (odpowiadającymi wektorom nośnym) [2].

(8)

będzie zauważalna dominująca pozycja metody wektorów nośnych. Odpowiedź na to pytanie zostanie sformułowana po przeprowadzeniu empirycznego porów- nania jakości różnych modeli regresji zbudowanych na zbiorach danych standar- dowo wykorzystywanych do badania własności i porównywania metod wielo- wymiarowej analizy statystycznej.

Za miarę jakości modelu przyjęto błąd średniokwadratowy. Ponieważ pod- stawowym celem regresji jest predykcja na nowych obiektach, spoza zbioru uczestniczącego w procesie budowy modelu, więc wartości błędów średniokwa- dratowych obliczono na zbiorach testowych stanowiących wyodrębnioną część 33% całego analizowanego zbioru. Pozostałe 66% tworzy zbiór uczący.

2.2. Porównywane metody

Badana grupa metod obejmuje:

1) SVM – metodę wektorów nośnych,

2) AGRSVM – metodę łączenia równoległego modeli SVM przez rozszerzanie, 3) LM – klasyczną regresję liniową,

4) PPR – metodę rzutowania, 5) NNET – sieć neuronową, 6) RPART – drzewa regresyjne,

7) RFOREST – zagregowane drzewa regresyjne Breimana,

8) AGRRPART – metodę łączenia równoległego drzew przez rozszerzanie.

Poszczególne metody zostały oznaczone symbolami zgodnymi z nazwami funkcji realizujących je w programie statystycznym R. Program ten wraz z do- datkowymi bibliotekami został wykorzystany do przeprowadzenia analizy po- równawczej.

2.3. Zbiory danych

W analizie wykorzystano pięć zbiorów danych. Trzy z nich: Friedman1 (300 obserwacji, 11 zmiennych), Friedman2 (300 obserwacji, 5 zmiennych), Friedman3 (300 obserwacji, 5 zmiennych) to zbiory sztuczne, tj. takie, których

(9)

obserwacje są generowane komputerowo. Zostały one specjalnie zaprojektowa- ne przez Friedmana [3] tak, by zawierały wiele elementów wymagających od metody odpowiedniego modelowania (nieliniowość, szum, zmienne diagno- styczne, które w ogóle nie biorą udziału w generowaniu wartości zmiennej obja- śnianej itp.). Zbiory te są szeroko stosowane do porównań, podobnie jak dwa ko- lejne: Boston (506 obserwacji, 14 zmiennych) i Servo (167 obserwacji i 5 zmiennych). Są to zbiory danych rzeczywistych i są dostępne w internetowej ba- zie „UCI Repository of Machine Learning Databases” zlokalizowanej na Uni- wersytecie Kalifornijskim*. Wszystkie badane zbiory i generatory zbiorów sztucznych są także dostępne w pakiecie mlbench programu statystycznego R.

2.4. Procedura badawcza i porównanie modeli

W pierwszym kroku z badanego zbioru w sposób losowy wybierano 33%

obserwacji do zbioru testowego. Obserwacje te nie uczestniczyły w procesie bu- dowania modelu regresji. Były jedynie wykorzystywane do wyliczenia błędu średniokwadratowego stanowiącego kryterium porównania.

Większość badanych metod wymaga od użytkownika ustalenia wartości pewnych parametrów. Symulacyjnie na zbiorze uczącym budowano wiele mode- li dla różnych układów tych parametrów. Do porównania był wybierany ten mo- del (taki układ wartości parametrów), który dawał najmniejszy błąd średniokwa- dratowy liczony metodą sprawdzania krzyżowego z podziałem zbioru uczącego na 10 części. Przeszukiwane zakresy parametrów dla poszczególnych metod to:

a) w metodzie wektorów nośnych wykorzystano wielomianową funkcję jądro- wą, zmieniając stopień wielomianu od 3 do 5 [8], wartość parametru C od 102 do 102, epsylon równe 0,1 oraz 0,5,

b) w metodzie rzutowania wartość parametru opisującego początkową liczbę funkcji składowych modelu przyjmowano na poziomie 10, 15, 20, 25, zaś końcowa liczba tych funkcji w modelu zmieniała się od 1 do 10,

c) sieć neuronowa z jedną ukrytą warstwą, z liczbą obserwacji w warstwie ukry- tej zmieniającą się od 1 do ln(N),

d) dla drzew regresyjnych wymaganą minimalną liczbę obserwacji w węźle, aby na- stąpił dalszy podział, ustalano na poziomie od 3 do 10, zaś kryterium minimalnej poprawy jakości modelu (przycinanie drzewa) na poziomie od 1% do 3%,

e) w metodzie zagregowanych drzew klasyfikacyjnych Breimana liczbę zmiennych losowanych przy każdym podziale ustalano na poziomie 2d, d oraz2 d (d – liczba zmiennych), liczbę drzew równą 100 oraz 200 [6], zaś minimalną liczbę obserwacji w liściu: 1, 5, 10.

* Dostępne przez: ftp://ftp.ics.uci.edu/pub/machine-learning-databases, http://www.ics.uci.edu/

~mlearn/MLRepository.html.

(10)

Błąd średniokwadratowy liczony na zbiorze testowym dla różnych modeli regresji FRIEDMAN1 FRIEDMAN2 FRIEDMAN3 BOSTON SERVO

SVM 4,16 19206,9 0,070 15,21 21,38

AGRSVM 3,71 20652,8 0,069 12,46 23,64

LM 8,00 38762,8 0,104 25,27 64,02

PPR 7,58 22844,2 0,026 20,04 37,96 NNET 6,69 21705,1 0,047 17,45 33,18 RPART 11,17 31007,4 0,047 18,68 21,42

AGRRPART 7,64 17170,1 0,025 12,72 16,86

RFOREST 7,19 21114,9 0,027 10,96 11,80

Tylko w przypadku jednego zbioru danych metoda wektorów nośnych dała najmniejszy błąd predykcji. W pozostałych przypadkach zajmowała odpowied- nio miejsca drugie, piąte i dwukrotnie trzecie. Można stąd wnioskować, że w przypadku regresji o metodzie wektorów nośnych nie można powiedzieć, że daje na ogół najlepsze rezultaty. Zdecydowanie wyniki świadczą o tym, że pre- dykcja za pomocą modelu otrzymanego metodą SVM jest znacznie lepsza niż klasycznego modelu liniowego, lecz jednocześnie konkurencyjne wobec SVM wydają się być metody agregacyjne wykorzystujące drzewa regresyjne.

Łączenie równoległe wielu modeli zbudowanych metodą wektorów no- śnych prowadzi do otrzymania modelu o mniejszym błędzie predykcji niż każdy z pojedynczych modeli składowych. Jednak nie zawsze model zagregowany jest dokładniejszy niż model SVM zbudowany od razu na całym zbiorze uczącym D.

Okazuje się np., że dla zbiorów Friedman2 i Servo błąd zagregowanego modelu SVM jest nieco większy niż modelu SVM zbudowanego bezpośrednio na całym zbiorze uczącym D. Dzieje się tak, gdyż adaptacyjna metoda łączenia równole- głego jest techniką redukującą przede wszystkim wariancję modelu. Metoda wektorów nośnych jest skonstruowana tak, iż jej algorytm zawiera mechanizm redukowania wariancji, dlatego może się zdarzyć, że mechanizm ten lepiej, lub przynajmniej równie dobrze, zredukuje wariancję, jak czyni to agregowanie mo- deli składowych. Kosztem zastosowania łączenia równoległego modeli jest cza-

(11)

sem wzrost wartości drugiej składowej błędu predykcji – obciążenia, co zostało zauważone w przypadku zbiorów Friedman2 i Servo. Ponadto zaobserwowana re- dukcja błędu predykcji w przypadku pozostałych zbiorów danych nie jest znacząca.

Podsumowanie

Wyniki publikowane w wielu pozycjach literatury świadczą o tym, że dys- kryminacja z wykorzystaniem metody wektorów nośnych na ogół daje mniejsze błędy klasyfikacji niż metody alternatywne. Otrzymane za jej pomocą modele są nieliniowe, przestrzeń hipotez jest bardzo liczna, ale jednocześnie w metodzie jest wykorzystywany mechanizm regularyzacji przeciwdziałający nadmiernemu dopasowaniu modelu do danych ze zbioru uczącego, gdyż jest to częstą przy- czyną wystąpienia dużych błędów predykcji.

Istnieje naturalny sposób przeformułowania metody wektorów nośnych tak, aby realizowała zadania regresji. Wiele pożądanych własności dyskryminacyjnej metody SVM przenosi się na jej odpowiednik regresyjny, lecz w porównaniu z innymi modelami regresji wydaje się tracić pozycję metody najdokładniejszej na rzecz metod wykorzystujących drzewa regresyjne. Ponadto metody zagrego- wanych drzew regresyjnych wydają się mieć przewagę w większej prostocie oraz możliwościach interpretowania modeli składowych i pozyskiwania z nich wiedzy o badanym zjawisku. Ich algorytm jest prostszy i efektywniejszy pod względem numerycznym niż w metodzie SVM.

Na uwagę zasługuje fakt, potwierdzony również przyspieszonym rozwojem badań w tym obszarze, że na ogół najlepsze rezultaty można otrzymać, gdy bu- duje się nie jeden model, lecz wiele modeli składowych, które się agreguje otrzymując model końcowy. Zasadę tą przede wszystkim jednak stosuje się do agregowania modeli drzew regresyjnych. Ze względu na wbudowany mecha- nizm redukcji wariancji modelu w algorytmie metody wektorów nośnych nie zawsze stosowanie techniki łączenia równoległego modeli prowadzi do wygene- rowania modelu o dokładniejszej predykcji niż model zbudowany wprost na ca- łym zbiorze uczącym z odpowiednio dobranymi parametrami. Wobec niewiel- kiej redukcji błędu predykcji oraz znacznej złożoności obliczeniowej pojedynczej metody SVM można więc uznać, że dodatkowe powiększanie tej złożoności przez stosowanie techniki łączenia równoległego wielu składowych modeli SVM nie jest zasadne. Interesująca wydaje się jednak inna możliwość łą- czenia wielu modeli SVM o strukturze sekwencyjnej.

(12)

5. Gunn S.R.: Support Vector Machines for Classification and Regression. Technical Report, Image Speech and Intelligent Systems Research Group, University of So- uthampton, 1997.

6. Rozmus D.: Random forest jako metoda agregacji modeli dyskryminacyjnych. W: Takso- nomia 11. Klasyfikacja i analiza danych – teoria i zastosowania. Red. K. Jajuga, M. Wa- lesiak. Wydawnictwo Akademii Ekonomicznej, Wrocław 2004, s. 441-448.

7. Smola A., Schölkopf B.: Learning with Kernels. Support Vector Machines, Regulari- zation, Optimization, and Beyond. MIT Press, Cambridge, USA, 2002.

8. Trzęsiok M.: Analiza wybranych własności metody dyskryminacji wykorzystującej wektory nośne. W: Postępy ekonometrii. Red. A.S. Barczak. Wydawnictwo Akademii Ekonomicznej, Katowice 2004, s. 331-342.

9. Trzęsiok M.: Metoda wektorów nośnych w konstrukcji nieparametrycznych modeli regresji. W: Taksonomia 12. Klasyfikacja i analiza danych. Red. K. Jajuga, M. Wa- lesiak. Wydawnictwo Akademii Ekonomicznej, Wrocław 2005, s. 501-510.

10. Vapnik V.: Statistical Learning Theory. John Wiley & Sons, Nowy Jork 1998.

BENCHMARKING AGGREGATED SUPPORT VECTOR REGRESSION MODELS

Summary

Support Vector Machines (SVM) are a state-of-the-art classification method, but they are also suitable, after a special reformulation, to perform a regression task. Similar- ly to classification, for a nonlinear regression problem, SVMs use the kernel trick and map the input space into a high-dimensional feature space first, and then perform linear regression in the high-dimensional feature space. One can use the model ensemble approach to try to improve the prediction accuracy. The paper presents the comparison of a single SVM, aggregated SVM and other regression models (linear regression, Pro- jection Pursuit Regression, Neural Networks, Regression Trees, Random Forest, Bag- ging) by the means of a mean squared test set error.

Cytaty

Powiązane dokumenty

Analiza dyskryminacyjna pozwala - na podstawie pomiaru sześciu parametrów fizykochemicznych - na odróżnienie mleka owczego od mleka krowiego bądź koziego, jak też - ale

• Prawdziwy pozytywny – struktura jest podobna do modelu i ma funkcję zbliżoną do funkcji celu przewidywania. • Fałszywy

Podać przykład izometrii, która nie jest

Aby sporządzić wykres funkcji liniowej należy wyznaczyć dwa punkty, które należą do jej wykresu a następnie poprowadzić przez nie prostą.. Tworzymy tabelkę i w jej górnym

Głównym celem artykułu jest porównanie skuteczności klasyfikacji cech dwóch algorytmów klasyfikujących wykorzystywanych w interfejsach mózg-komputer: SVM

Badano zale»no±¢ mi¦dzy wzrostem a obwodem klatki piersiowej w populacji osób chorych na choroby

[r]

możliwości arbitrażu, zarówno na rynku akcji, jak i obligacji, zostało wykazane, że rynek łączony jest niezupełny oraz pozbawiony możliwości arbitrażu, a także