Marcin Orchel
AGH University of Science and Technology in Poland
1 / 27
2 Optymalizacja
Agenda 3 / 27
A to rodzina zbiorów. Mamy dany skończony zbiór S = {x1, x2, . . . , xn}, gdzie xi ∈ X .
definiujemy NA(S) := |{S ∩ A : A ∈ A}|
Definicja
Współczynnikiem rozbicia (shatter coefficient) nazywamy liczbę s (A, n) := max
S∈Sn
NA(S) (1)
gdzie Sn jest rodziną wszystkich zbiorów n-elementowych zawartych w X . Definicja
Mówimy, że rodzina zbiorów A ma VC wymiar (wymiar Vapnika-Chervonenkisa) VC (A) = h < ∞, jeżeli
s (A, n) = 2n dla każdego n ≤ h s (A, h + 1) < 2h+1
Wymiar VC 5 / 27
Przykład
A = {(−∞, a] : a ∈ R}. Dla dowolnego punktu x ∈ R mamy
NA({x }) = |{∅, {x }}| = 2 (2) Dlatego s(A, 1) = 2. Dla każdego zbioru 2-elementowego {x , y } ⊂ R:
s (A, 2) < 22. Stąd VC (A) = 1.
Przykład
Niech F będzie zbiorem klasyfikatorów. Rodzinę A definiujemy jako A := {{x : d (x ) = 1} : d ∈ F } (3) oraz
s (F , n) := s (A, n) (4)
Rodzina F funkcji klasyfikujących ma VC wymiar równy h, gdy istnieje zbiór h punktów {xj}hj=1, który może być zaklasyfikowany do dwóch grup za pomocą funkcji z F na każdy z 2h możliwych sposobów, oraz nie istnieje zbiór h + 1 punktów mający powyższą własność. W przeciwnym przypadku VC (F ) = ∞.
Przykład
Przykład z klasyfikatorami liniowymi.
Wymiar VC 7 / 27
Twierdzenie
Niech będzie dany zbiór m punktów w przestrzeni Rp. Niech jeden z nich będzie zerem tej przestrzeni. Rodzina hiperpłaszczyzn w Rp ma VC wymiar h ≥ m wtedy i tylko wtedy, gdy pozostały zbiór m − 1 punktów jest liniowo niezależny.
W Rp jest maksymalnie p punktów liniowo niezależnych, więc rodzina liniowych funkcji dyskryminacyjnych ma wymiar VC równy p + 1.
wymiar VC nie jest zawsze związany z liczbą nieznanych parametrów klasyfikatora
Rysunek 1
Wymiar VC 9 / 27
Przykład
Dla rodziny funkcji
dλ(x ) = sgn (sin (λx )) (5) dla x ∈ R. gdzie λ ∈ R jest parametrem oraz
sgn (u) =
(−1, gdy u < 0
+1 gdy u ≥ 0 (6)
Ciąg punktów xj = 10−j dla j = 1, 2, . . . , m może być przydzielony do jeden z dwóch klas przez wybór parametru
λ = π
1 +
m
X
j=1
(1 − yj) 10j 2
(7)
Przykład gdzie
yj =
(+1, gdy xj ∈ G1
−1 gdyxj ∈ G2 (8)
Może istnieć rodzina funkcji o jednym wymiarze i wymiarze VC nieskończonym.
Wymiar VC 11 / 27
Dla rodziny klasyfikatorów F niech dˆ0 = arg min
ˆd ∈F
ˆ
eRdˆ (9)
Błąd ˆeR będzie niedoestymowany
Dana jest skończona liczba m klasyfikatorów F = {ˆd1, ˆd2, . . . , ˆdm}.
Dla każdego i = 1, 2, . . . , m, ˆeR(ˆdi) (przy n → ∞) zbiega do e(ˆdi) z prawdopodobieństwiem 1.
Zachodzi twierdzenie mocniejsze o zbieżności jednostajnej.
Twierdzenie
Niech F będzie zbiorem m-elementowym m < ∞. Wtedy
P max
d ∈Fˆ
ˆeRdˆ− edˆ> ε
!
≤ 2me−2nε2 (10)
Dowód.
Lemat (nierówność Hoeffdinga)
Jeżeli X1, X2, . . . , Xn jest próbą z rozkładu Bernoulliego b(p), to dla dowolnego ε > 0 mamy
P (|ˆp − p| > ε) ≤ 2e−2nε2 (11) gdzie
ˆ p = 1
n
n
X
i =1
Xi (12)
Z lematu mamy
P max
d ∈Fˆ
ˆeR
ˆd− edˆ> ε
!
= P
[
ˆd ∈F
ˆeR
dˆ− edˆ> ε
(13)
Wymiar VC 13 / 27
≤ X
d ∈Fˆ
PˆeRdˆ− edˆ> ε≤ X
ˆd ∈F
2e−2nε2= 2me−2nε2 (14)
Propozycja Niech
ε = s 1
2nln
2m α
(15) Wtedy ˆeR(d0) ± ε jest przedziałem ufności dla e(ˆd0) na poziomie ufności 1 − α.
Dowód.
PˆeR
dˆ0
− edˆ0
> ε≤ P max
ˆd ∈F
ˆeR
dˆ− edˆ> ε
!
≤ 2me−2nε2 (16)
= α (17)
Wymiar VC 15 / 27
Wraz ze wzrostem mocy rodziny F wzrasta długość przedziału ufności. Dla większej liczby klasyfikatorów jest większa możliwość przeestymowania aktualnego poziomu błędu e(ˆd0).
dla nieskończenie wielu funkcji klasyfikujących, chcemy oszacować Psupˆd ∈FˆeRdˆ− edˆ> ε
Twierdzenie
Dla dowolnego ε > 0
P sup
d ∈Fˆ
ˆeRˆd− edˆ> ε
!
≤ 8s (F , n) e−nε2/32 (18)
Stąd ˆeRdˆ± εn jest przedziałem ufności dla edˆna poziomie ufności 1 − α, gdzie
ε2n= 32 n ln
8s (F , n) α
(19)
wielkości s(F , n) rosną w sposób wielomianowy zgodnie z twierdzeniem
Twierdzenie
Jeżeli F ma VC wymiar h < ∞, to
s (F , n) ≤ nh+ 1 (20)
Rodzina klasyfikatorów liniowych w przestrzeni Rp ma VC wymiar równy p + 1, więc przedziałem ufności dla aktualnego poziomu błędu edˆ0
na poziomie ufności 1 − α jest ˆeR
dˆ0
± εn, gdzie
ε2n= 32
n ln8 np+1+ 1
α (21)
Wymiar VC 17 / 27
inne oszacowanie Twierdzenie
Z prawdopodobieństwem 1 − ε prawdziwa jest nierówność
edˆ≤ ˆeRdˆ+ c (h) (22) gdzie
c (h) = v u u
thln2nh + 1− ln4ε
n (23)
Fh to rodzina klasyfikatorów o wymiarze VC równym h. Zachodzi F1⊂ F2 ⊂ . . . ⊂ F∞ (24) zasada SRMpolega na wyborze Fh takiego, które minimalizuje (22)
Wymiar VC 19 / 27
Jaki jest związekoptymalizacjiz uczeniem maszynowym?
rozważmy przestrzeń euklidesową m-wymiarową, n wektorów treningowych oraz problem klasyfikacji binarnej
rozważmy problem minimalizacji dwóch składników normy od ~w oraz odległości przykładów od marginesu przy założeniu, że poszukujemy granicy decyzyjnej postaci ~wc· ~x = 0, a więc bez wyrazu wolnego b.
Problem optymalizacyjny (OP) minw~c
f ( ~wc) = 1
2k ~wck2+ Cc
n
X
i =1
ycih (~xi) , (25) where
h (~xi) = ~wc· ~xi , (26)
Cc > 0 . (27)
Optymalizacja 21 / 27
Otrzymujemy
∂f
∂wj
= wj + Cc n
X
i =1
ycixij (28)
Czyli
∂f
∂ ~wc = ~wc+ Cc n
X
i =1
ycix~i . (29) Czyli otrzymujemy
~ wc = Cc
n
X
i =1
ycix~i . (30)
Granica decyzyjna to
n
X
i =1
yix~i· ~x = 0 (31)
która może być zkernelizowana
n
XyK (~x, ~x ) = 0 . (32)
Rozwiązanie dla jądra radialne funkcje bazowe (RBF) jest równoważne przecięciu się dwóch funkcji gęstości
prawdopodobieństwa tak jak w estymator jądrowy gęstości (KDE).
a więc metoda nieparametrycznej klasyfikacji za pomocą przecięcia się funkcji gęstości prawdopodobieństwa może być wyrażona za pomocą problemu optymalizacyjnego
a zatem, jedną z strategii budowy lepszych metod byłoby uogólnienie metody optymalizacji
możemy uogólnić problem optymalizacyjny, tak aby dodać wagi dla każdej funkcji bazowej i ponadto chcielibyśmy znaleźć optymalne wartości tych wag, i tak można wyprowadzićmaszyny wektorów wspierających
Optymalizacja 23 / 27
zakładamy, że
kw k < A (33)
odległość między punktem w przestrzeni kernela i granicą decyzyjną,
to w · ϕ (~~ x ) + w0
kw k (34)
dopuszczamy tylko te z hiperpłaszczyzn g w przestrzeni euklidesowej, które leżą w odległości nie mniejszej niż 1/A od każdej obserwacji próby
ograniczenie to redukuje zbiór możliwych rozwiązań, dla
hiperpłaszczyzn w przestrzeni q-wymiarowej VC spełnia nierówność h ≤ minR2A2, q+ 1 (35) gdzie R jest promieniem kuli K (R) takiej, że ϕ (~xj) ∈ K (R) dla każdego j = 1, 2, . . . , n
Rysunek 2
Optymalizacja 25 / 27
można również ograniczyć z góry poziom błędu wielkością|SV |/n, a więc należy poszukiwać reguł klasyfikacyjnych o relatywnie małym odsetku wektorów wspierających
Optymalizacja 27 / 27