• Nie Znaleziono Wyników

Teoria VC

N/A
N/A
Protected

Academic year: 2021

Share "Teoria VC"

Copied!
27
0
0

Pełen tekst

(1)

Marcin Orchel

AGH University of Science and Technology in Poland

1 / 27

(2)
(3)

2 Optymalizacja

Agenda 3 / 27

(4)
(5)

A to rodzina zbiorów. Mamy dany skończony zbiór S = {x1, x2, . . . , xn}, gdzie xi ∈ X .

definiujemy NA(S) := |{S ∩ A : A ∈ A}|

Definicja

Współczynnikiem rozbicia (shatter coefficient) nazywamy liczbę s (A, n) := max

S∈Sn

NA(S) (1)

gdzie Sn jest rodziną wszystkich zbiorów n-elementowych zawartych w X . Definicja

Mówimy, że rodzina zbiorów A ma VC wymiar (wymiar Vapnika-Chervonenkisa) VC (A) = h < ∞, jeżeli

s (A, n) = 2n dla każdego n ≤ h s (A, h + 1) < 2h+1

Wymiar VC 5 / 27

(6)

Przykład

A = {(−∞, a] : a ∈ R}. Dla dowolnego punktu x ∈ R mamy

NA({x }) = |{∅, {x }}| = 2 (2) Dlatego s(A, 1) = 2. Dla każdego zbioru 2-elementowego {x , y } ⊂ R:

s (A, 2) < 22. Stąd VC (A) = 1.

(7)

Przykład

Niech F będzie zbiorem klasyfikatorów. Rodzinę A definiujemy jako A := {{x : d (x ) = 1} : d ∈ F } (3) oraz

s (F , n) := s (A, n) (4)

Rodzina F funkcji klasyfikujących ma VC wymiar równy h, gdy istnieje zbiór h punktów {xj}hj=1, który może być zaklasyfikowany do dwóch grup za pomocą funkcji z F na każdy z 2h możliwych sposobów, oraz nie istnieje zbiór h + 1 punktów mający powyższą własność. W przeciwnym przypadku VC (F ) = ∞.

Przykład

Przykład z klasyfikatorami liniowymi.

Wymiar VC 7 / 27

(8)

Twierdzenie

Niech będzie dany zbiór m punktów w przestrzeni Rp. Niech jeden z nich będzie zerem tej przestrzeni. Rodzina hiperpłaszczyzn w Rp ma VC wymiar h ≥ m wtedy i tylko wtedy, gdy pozostały zbiór m − 1 punktów jest liniowo niezależny.

W Rp jest maksymalnie p punktów liniowo niezależnych, więc rodzina liniowych funkcji dyskryminacyjnych ma wymiar VC równy p + 1.

wymiar VC nie jest zawsze związany z liczbą nieznanych parametrów klasyfikatora

(9)

Rysunek 1

Wymiar VC 9 / 27

(10)

Przykład

Dla rodziny funkcji

dλ(x ) = sgn (sin (λx )) (5) dla x ∈ R. gdzie λ ∈ R jest parametrem oraz

sgn (u) =

(−1, gdy u < 0

+1 gdy u ≥ 0 (6)

Ciąg punktów xj = 10−j dla j = 1, 2, . . . , m może być przydzielony do jeden z dwóch klas przez wybór parametru

λ = π

1 +

m

X

j=1

(1 − yj) 10j 2

(7)

(11)

Przykład gdzie

yj =

(+1, gdy xj ∈ G1

−1 gdyxj ∈ G2 (8)

Może istnieć rodzina funkcji o jednym wymiarze i wymiarze VC nieskończonym.

Wymiar VC 11 / 27

(12)

Dla rodziny klasyfikatorów F niech dˆ0 = arg min

ˆd ∈F

ˆ

eRdˆ (9)

Błąd ˆeR będzie niedoestymowany

Dana jest skończona liczba m klasyfikatorów F = {ˆd1, ˆd2, . . . , ˆdm}.

Dla każdego i = 1, 2, . . . , m, ˆeRdi) (przy n → ∞) zbiega do e(ˆdi) z prawdopodobieństwiem 1.

Zachodzi twierdzenie mocniejsze o zbieżności jednostajnej.

Twierdzenie

Niech F będzie zbiorem m-elementowym m < ∞. Wtedy

P max

d ∈Fˆ

ˆeRdˆ− edˆ > ε

!

≤ 2me−2nε2 (10)

(13)

Dowód.

Lemat (nierówność Hoeffdinga)

Jeżeli X1, X2, . . . , Xn jest próbą z rozkładu Bernoulliego b(p), to dla dowolnego ε > 0 mamy

P (|ˆp − p| > ε) ≤ 2e−2nε2 (11) gdzie

ˆ p = 1

n

n

X

i =1

Xi (12)

Z lematu mamy

P max

d ∈Fˆ

ˆeR

ˆd− edˆ > ε

!

= P

[

ˆd ∈F

ˆeR

dˆ− edˆ > ε

(13)

Wymiar VC 13 / 27

(14)

X

d ∈Fˆ

P ˆeRdˆ− edˆ > εX

ˆd ∈F

2e−2nε2= 2me−2nε2 (14)

(15)

Propozycja Niech

ε = s 1

2nln

2m α



(15) Wtedy ˆeR(d0) ± ε jest przedziałem ufności dla e(ˆd0) na poziomie ufności 1 − α.

Dowód.

P ˆeR

dˆ0

− edˆ0



> ε≤ P max

ˆd ∈F

ˆeR

dˆ− edˆ > ε

!

≤ 2me−2nε2 (16)

= α (17)

Wymiar VC 15 / 27

(16)

Wraz ze wzrostem mocy rodziny F wzrasta długość przedziału ufności. Dla większej liczby klasyfikatorów jest większa możliwość przeestymowania aktualnego poziomu błędu e(ˆd0).

dla nieskończenie wielu funkcji klasyfikujących, chcemy oszacować Psupˆd ∈F ˆeRdˆ− edˆ > ε

Twierdzenie

Dla dowolnego ε > 0

P sup

d ∈Fˆ

ˆeRˆd− edˆ > ε

!

≤ 8s (F , n) e−nε2/32 (18)

Stąd ˆeRdˆ± εn jest przedziałem ufności dla edˆna poziomie ufności 1 − α, gdzie

ε2n= 32 n ln

8s (F , n) α



(19)

(17)

wielkości s(F , n) rosną w sposób wielomianowy zgodnie z twierdzeniem

Twierdzenie

Jeżeli F ma VC wymiar h < ∞, to

s (F , n) ≤ nh+ 1 (20)

Rodzina klasyfikatorów liniowych w przestrzeni Rp ma VC wymiar równy p + 1, więc przedziałem ufności dla aktualnego poziomu błędu edˆ0



na poziomie ufności 1 − α jest ˆeR

dˆ0

± εn, gdzie

ε2n= 32

n ln8 np+1+ 1

α (21)

Wymiar VC 17 / 27

(18)

inne oszacowanie Twierdzenie

Z prawdopodobieństwem 1 − ε prawdziwa jest nierówność

edˆ≤ ˆeRdˆ+ c (h) (22) gdzie

c (h) = v u u

thln2nh + 1− ln4ε

n (23)

(19)

Fh to rodzina klasyfikatorów o wymiarze VC równym h. Zachodzi F1⊂ F2 ⊂ . . . ⊂ F (24) zasada SRMpolega na wyborze Fh takiego, które minimalizuje (22)

Wymiar VC 19 / 27

(20)
(21)

Jaki jest związekoptymalizacjiz uczeniem maszynowym?

rozważmy przestrzeń euklidesową m-wymiarową, n wektorów treningowych oraz problem klasyfikacji binarnej

rozważmy problem minimalizacji dwóch składników normy od ~w oraz odległości przykładów od marginesu przy założeniu, że poszukujemy granicy decyzyjnej postaci ~wc· ~x = 0, a więc bez wyrazu wolnego b.

Problem optymalizacyjny (OP) minw~c

f ( ~wc) = 1

2k ~wck2+ Cc

n

X

i =1

ycih (~xi) , (25) where

h (~xi) = ~wc· ~xi , (26)

Cc > 0 . (27)

Optymalizacja 21 / 27

(22)

Otrzymujemy

∂f

∂wj

= wj + Cc n

X

i =1

ycixij (28)

Czyli

∂f

∂ ~wc = ~wc+ Cc n

X

i =1

ycix~i . (29) Czyli otrzymujemy

~ wc = Cc

n

X

i =1

ycix~i . (30)

Granica decyzyjna to

n

X

i =1

yix~i· ~x = 0 (31)

która może być zkernelizowana

n

XyK (~x, ~x ) = 0 . (32)

(23)

Rozwiązanie dla jądra radialne funkcje bazowe (RBF) jest równoważne przecięciu się dwóch funkcji gęstości

prawdopodobieństwa tak jak w estymator jądrowy gęstości (KDE).

a więc metoda nieparametrycznej klasyfikacji za pomocą przecięcia się funkcji gęstości prawdopodobieństwa może być wyrażona za pomocą problemu optymalizacyjnego

a zatem, jedną z strategii budowy lepszych metod byłoby uogólnienie metody optymalizacji

możemy uogólnić problem optymalizacyjny, tak aby dodać wagi dla każdej funkcji bazowej i ponadto chcielibyśmy znaleźć optymalne wartości tych wag, i tak można wyprowadzićmaszyny wektorów wspierających

Optymalizacja 23 / 27

(24)

zakładamy, że

kw k < A (33)

odległość między punktem w przestrzeni kernela i granicą decyzyjną,

to w · ϕ (~~ x ) + w0

kw k (34)

dopuszczamy tylko te z hiperpłaszczyzn g w przestrzeni euklidesowej, które leżą w odległości nie mniejszej niż 1/A od każdej obserwacji próby

ograniczenie to redukuje zbiór możliwych rozwiązań, dla

hiperpłaszczyzn w przestrzeni q-wymiarowej VC spełnia nierówność h ≤ minR2A2, q+ 1 (35) gdzie R jest promieniem kuli K (R) takiej, że ϕ (~xj) ∈ K (R) dla każdego j = 1, 2, . . . , n

(25)

Rysunek 2

Optymalizacja 25 / 27

(26)
(27)

można również ograniczyć z góry poziom błędu wielkością|SV |/n, a więc należy poszukiwać reguł klasyfikacyjnych o relatywnie małym odsetku wektorów wspierających

Optymalizacja 27 / 27

Cytaty

Powiązane dokumenty

WYZNACZANIE GĘSTOŚCI CIAŁ STAŁYCH I CIECZY ZA POMOCĄ PIKNOMETRU..

 wyznaczanie gęstości cieczy lub ciał stałych przy użyciu wagi hydrostatycznej,..  wyznaczanie gęstości cieczy lub ciał stałych za

– Oznacza to, że po tym okresie ilość izotopu C 14 zmniejszy się dokładnie o połowę. – Jeżeli zatem w pewnym momencie ilość C 14 wyniosła 100%, to

Eksperymenty wykonaj przy optymalnej liczbie neuronów l_n (najlepszy wariant z p. Sporządź wykresy błędów mse_u i mse_t w zależności od l_u.. Grzegorz Dudek..

Eksperymenty wykonaj dla pięciu metod uczenia, przy optymalnej liczbie neuronów l_n i najlepszych funkcjach aktywacji (najlepszy wariant z p.. Dla każdej metody

In het kader van dit onderzoek is artikel 57 van belang, waarin op grond van een amendement in lid c wordt bepaald dat de WVG met betrekking tot gronden die in een structuurplan

Sprawę kom unikow ania się rzeczyw istości różnych można śledzić w odniesieniu do różnych kultur, subkultur, formacji, m entalności, charakterów, osób i grup

Ponieważ objętość ciała zależy od temperatury i ciśnienia, w związku z tym gęstość również zależy od tych wielkości fizycznych. W przypadku ciał stałych i cieczy