Teoria VC

(1)

Marcin Orchel

AGH University of Science and Technology in Poland

1 / 27

(2)

(3)

2 Optymalizacja

Agenda 3 / 27

(4)

(5)

A to rodzina zbiorów. Mamy dany skończony zbiór S = {x₁, x₂, . . . , x_n}, gdzie x_i ∈ X .

definiujemy N_A(S) := |{S ∩ A : A ∈ A}|

Definicja

Współczynnikiem rozbicia (shatter coefficient) nazywamy liczbę s (A, n) := max

S∈Sn

NA(S) (1)

gdzie Sn jest rodziną wszystkich zbiorów n-elementowych zawartych w X . Definicja

Mówimy, że rodzina zbiorów A ma VC wymiar (wymiar Vapnika-Chervonenkisa) VC (A) = h < ∞, jeżeli

s (A, n) = 2ⁿ dla każdego n ≤ h s (A, h + 1) < 2^h+1

Wymiar VC 5 / 27

(6)

Przykład

A = {(−∞, a] : a ∈ R}. Dla dowolnego punktu x ∈ R mamy

N_A({x }) = |{∅, {x }}| = 2 (2) Dlatego s(A, 1) = 2. Dla każdego zbioru 2-elementowego {x , y } ⊂ R:

s (A, 2) < 2². Stąd VC (A) = 1.

(7)

Przykład

Niech F będzie zbiorem klasyfikatorów. Rodzinę A definiujemy jako A := {{x : d (x ) = 1} : d ∈ F } (3) oraz

s (F , n) := s (A, n) (4)

Rodzina F funkcji klasyfikujących ma VC wymiar równy h, gdy istnieje zbiór h punktów {x_j}^h_j=1, który może być zaklasyfikowany do dwóch grup za pomocą funkcji z F na każdy z 2^h możliwych sposobów, oraz nie istnieje zbiór h + 1 punktów mający powyższą własność. W przeciwnym przypadku VC (F ) = ∞.

Przykład

Przykład z klasyfikatorami liniowymi.

Wymiar VC 7 / 27

(8)

Twierdzenie

Niech będzie dany zbiór m punktów w przestrzeni R^p. Niech jeden z nich będzie zerem tej przestrzeni. Rodzina hiperpłaszczyzn w R^p ma VC wymiar h ≥ m wtedy i tylko wtedy, gdy pozostały zbiór m − 1 punktów jest liniowo niezależny.

W R^p jest maksymalnie p punktów liniowo niezależnych, więc rodzina liniowych funkcji dyskryminacyjnych ma wymiar VC równy p + 1.

wymiar VC nie jest zawsze związany z liczbą nieznanych parametrów klasyfikatora

(9)

Rysunek 1

Wymiar VC 9 / 27

(10)

Przykład

Dla rodziny funkcji

d_λ(x ) = sgn (sin (λx )) (5) dla x ∈ R. gdzie λ ∈ R jest parametrem oraz

sgn (u) =

(−1, gdy u < 0

+1 gdy u ≥ 0 (6)

Ciąg punktów x_j = 10^−j dla j = 1, 2, . . . , m może być przydzielony do jeden z dwóch klas przez wybór parametru

λ = π



1 +

m

X

j=1

(1 − y_j) 10^j 2



 (7)

(11)

Przykład gdzie

y_j =

(+1, gdy xj ∈ G₁

−1 gdyx_j ∈ G₂ (8)

Może istnieć rodzina funkcji o jednym wymiarze i wymiarze VC nieskończonym.

Wymiar VC 11 / 27

(12)

Dla rodziny klasyfikatorów F niech dˆ₀ = arg min

ˆd ∈F

ˆ

e_Rdˆ (9)

Błąd ˆe_R będzie niedoestymowany

Dana jest skończona liczba m klasyfikatorów F = {ˆd₁, ˆd₂, . . . , ˆd_m}.

Dla każdego i = 1, 2, . . . , m, ˆe_R(ˆd_i) (przy n → ∞) zbiega do e(ˆd_i) z prawdopodobieństwiem 1.

Zachodzi twierdzenie mocniejsze o zbieżności jednostajnej.

Twierdzenie

Niech F będzie zbiorem m-elementowym m < ∞. Wtedy

P max

d ∈Fˆ

ˆe_Rdˆ− edˆ> ε

!

≤ 2me^−2nε² (10)

(13)

Dowód.

Lemat (nierówność Hoeffdinga)

Jeżeli X1, X2, . . . , Xn jest próbą z rozkładu Bernoulliego b(p), to dla dowolnego ε > 0 mamy

P (|ˆp − p| > ε) ≤ 2e^−2nε² (11) gdzie

ˆ p = 1

n

X

i =1

X_i (12)

Z lematu mamy

P max

d ∈Fˆ

ˆeR

ˆd− edˆ> ε

!

= P



 [

ˆd ∈F

ˆeR

dˆ− edˆ> ε



 (13)

Wymiar VC 13 / 27

(14)

≤ ^X

d ∈Fˆ

Pˆe_Rdˆ− edˆ> ε≤ ^X

ˆd ∈F

2e^−2nε²= 2me^−2nε² (14)

(15)

Propozycja Niech

ε = s 1

2nln

2m α

(15) Wtedy ˆe_R(d0) ± ε jest przedziałem ufności dla e(ˆd0) na poziomie ufności 1 − α.

Dowód.

PˆeR

dˆ0

− edˆ0

> ε≤ P max

ˆd ∈F

ˆeR

dˆ− edˆ> ε

!

≤ 2me^−2nε² (16)

= α (17)

Wymiar VC 15 / 27

(16)

Wraz ze wzrostem mocy rodziny F wzrasta długość przedziału ufności. Dla większej liczby klasyfikatorów jest większa możliwość przeestymowania aktualnego poziomu błędu e(ˆd0).

dla nieskończenie wielu funkcji klasyfikujących, chcemy oszacować Psup_ˆ_{d ∈F}ˆe_Rdˆ− edˆ> ε

Twierdzenie

Dla dowolnego ε > 0

P sup

d ∈Fˆ

ˆe_Rˆd− edˆ> ε

!

≤ 8s (F , n) e^−nε²^/32 (18)

Stąd ˆe_Rdˆ± ε_n jest przedziałem ufności dla edˆna poziomie ufności 1 − α, gdzie

ε²_n= 32 n ln

8s (F , n) α

(19)

(17)

wielkości s(F , n) rosną w sposób wielomianowy zgodnie z twierdzeniem

Twierdzenie

Jeżeli F ma VC wymiar h < ∞, to

s (F , n) ≤ n^h+ 1 (20)

Rodzina klasyfikatorów liniowych w przestrzeni R_p ma VC wymiar równy p + 1, więc przedziałem ufności dla aktualnego poziomu błędu edˆ0

na poziomie ufności 1 − α jest ˆeR

dˆ0

± ε_n, gdzie

ε²_n= 32

n ln8 n^p+1+ 1

α (21)

Wymiar VC 17 / 27

(18)

inne oszacowanie Twierdzenie

Z prawdopodobieństwem 1 − ε prawdziwa jest nierówność

edˆ≤ ˆe_Rdˆ+ c (h) (22) gdzie

c (h) = v u u

thln²ⁿ_h + 1− ln₄^ε

n (23)

(19)

F_h to rodzina klasyfikatorów o wymiarze VC równym h. Zachodzi F₁⊂ F₂ ⊂ . . . ⊂ F_∞ (24) zasada SRMpolega na wyborze F_h takiego, które minimalizuje (22)

Wymiar VC 19 / 27

(20)

(21)

Jaki jest związekoptymalizacjiz uczeniem maszynowym?

rozważmy przestrzeń euklidesową m-wymiarową, n wektorów treningowych oraz problem klasyfikacji binarnej

rozważmy problem minimalizacji dwóch składników normy od ~w oraz odległości przykładów od marginesu przy założeniu, że poszukujemy granicy decyzyjnej postaci ~wc· ~x = 0, a więc bez wyrazu wolnego b.

Problem optymalizacyjny (OP) minw~c

f ( ~w_c) = 1

2k ~w_ck²+ C_c

n

X

i =1

y_cⁱh (~x_i) , (25) where

h (~xi) = ~wc· ~xi , (26)

Cc > 0 . (27)

Optymalizacja 21 / 27

(22)

Otrzymujemy

∂f

∂wj

= wj + Cc n

X

i =1

y_cⁱxij (28)

Czyli

∂f

∂ ~w_c = ~wc+ Cc n

X

i =1

y_cⁱx~i . (29) Czyli otrzymujemy

~ w_c = C_c

n

X

i =1

y_cⁱx~_i . (30)

Granica decyzyjna to

n

X

i =1

y_ix~_i· ~x = 0 (31)

która może być zkernelizowana

n

XyK (~x, ~x ) = 0 . (32)

(23)

Rozwiązanie dla jądra radialne funkcje bazowe (RBF) jest równoważne przecięciu się dwóch funkcji gęstości

prawdopodobieństwa tak jak w estymator jądrowy gęstości (KDE).

a więc metoda nieparametrycznej klasyfikacji za pomocą przecięcia się funkcji gęstości prawdopodobieństwa może być wyrażona za pomocą problemu optymalizacyjnego

a zatem, jedną z strategii budowy lepszych metod byłoby uogólnienie metody optymalizacji

możemy uogólnić problem optymalizacyjny, tak aby dodać wagi dla każdej funkcji bazowej i ponadto chcielibyśmy znaleźć optymalne wartości tych wag, i tak można wyprowadzićmaszyny wektorów wspierających

(24)

zakładamy, że

kw k < A (33)

odległość między punktem w przestrzeni kernela i granicą decyzyjną,

to w · ϕ (~~ x ) + w₀

kw k (34)

dopuszczamy tylko te z hiperpłaszczyzn g w przestrzeni euklidesowej, które leżą w odległości nie mniejszej niż 1/A od każdej obserwacji próby

ograniczenie to redukuje zbiór możliwych rozwiązań, dla

hiperpłaszczyzn w przestrzeni q-wymiarowej VC spełnia nierówność h ≤ minR²A², q+ 1 (35) gdzie R jest promieniem kuli K (R) takiej, że ϕ (~x_j) ∈ K (R) dla każdego j = 1, 2, . . . , n

(25)

Rysunek 2

(26)

(27)

można również ograniczyć z góry poziom błędu wielkością|SV |/n, a więc należy poszukiwać reguł klasyfikacyjnych o relatywnie małym odsetku wektorów wspierających