Marcin Orchel
AGH University of Science and Technology in Poland
Agenda 2 / 20
2
Wymiar Vapnika-Chervonenkisa
Liczba przykładów 4 / 20
spójne algorytmy generują hipotezę spójną z pojęciem docelowym na zbiorze trenującym
Definicja
Hipoteza h jest spójna z pojęciem docelowym c na zbiorze przykładów P ⊆ X , jeśli
∀x ∈ P h (x ) = c (x ) (1)
jeśli w zbiorze trenującym są przekłamania, to nie można
zweryfikować spójności hipotezy z pojęciem docelowym, lecz tylko z przekłamanym pojęciem, wtedy mamy spójność hipotezy ze zbiorem przykładów etykietowanych, a nie spójność z pojęciem docelowym na zbiorze przykładów
może być wiele hipotez spójnych z pojęciem docelowym c
jeśli c ∈ H, to co najmniej jedna hipoteza jest spójna z pojęciem
docelowym c na zbiorze przykładów
zbiór wszystkich hipotez spójnych z pojęciem docelowym na pewnym zbiorze przykładów jest nazywany przestrzenią wersji tego pojęcia Definicja
Przestrzenią wersji pojęcia c ze względu na przestrzeń hipotez H i zbiór przykładów P ⊆ X będziemy nazywać zbiór wszystkich hipotez przestrzeni H, które są spójne z pojęciem c na zbiorze P
VS
H,Pc= {h ∈ H | ∀x ∈ P h (x ) = c (x )} (2) Definicja
Każdy algorytm uczenia się pojęć, który dla dowolnego pojęcia docelowego c używając przestrzeni hipotez H generuje na podstawie zbioru
trenującego T hipotezę h ∈ VS
H,Tc, spójną z pojęciem docelowym na zbiorze trenującym albo zawodzi, jeśli VS
Hc= ∅ nazywamy spójnym algorytmem uczenia się.
zakładamy, że spójne algorytmy uczenia się nie zawodzą
Liczba przykładów 6 / 20spójne algorytmy generują hipotezy należące do przestrzeni wersji, dlatego pożądane jest ograniczenie błędu rzeczywistego wszystkich hipotez z tej przestrzeni.
jeśli dla każdej z nich błąd ten nie przekracza pewnej stałej wartości
> 0, to taką przestrzeń nazywamy -wyczerpaną.
Definicja
Przestrzeń wersji VS
H,Pcjest -wyczerpana ze względu na pojęcie c i rozkład prawdopodobieństwa Ω na X , jeśli
∀h ∈ VS
H,Pc(c) e
Ωc(h) ≤ (3) prawdopodobieństwo tego, że dowolna hipoteza h o błędzie
rzeczywistym względem rozkładu prawdopodobieństwa Ω
przekraczającym jest spójna na pewnym zbiorze przykładów P
wylosowanych zgodnie z tym samym rozkładem, jest mniejsze niż
(1 − )
|P|wartość ta jest równa prawdopodobieństwu wybrania |P| przykładów poprawnie klasyfikowanych przez hipotezę o błędzie rzeczywistym , gdy każdy losowo wybrany przykład jest klasyfikowany poprawnie z prawdopodobieństwem 1 −
przestrzeń wersji nie jest -wyczerpana, jeśli błąd chociaż jednej hipotezy z tej przestrzeni przekracza , a ponieważ przestrzeń wersji nie zawiera więcej hipotez niż cała przestrzeń hipotez, więc
prawdopodobieństwo takiej sytuacji jest mniejsze niż |H|(1 − )
|P|, pod warunkiem, że przestrzeń hipotez jest skończona
korzystając z nierówności 1 + α ≤ e
αdla α = − ograniczamy od góry prawdopodobieństwo tego, że przestrzeń wersji nie jest
-wyczerpana, przez |H|e
−|P|.
Liczba przykładów 8 / 20
spójny algorytm uczenia się wykorzystujący zbiór treningowy T jest algorytmem PAC-uczenia się (wygeneruje hipotezę o błędzie
rzeczywistym nie przekraczającym z prawdopodobieństwem 1 − δ) pod warunkiem
|H|e
−|T |≤ δ (4)
który ogranicza prawdopodobieństwo -niewyczerpania przestrzeni wersji względem T przez δ
z powyższego warunku możemy wyznaczyć górne ograniczenie rozmiaru zbioru trenującego wystarczającego dla dowolnego spójnego algorytmu uczenia się do nauczenia się hipotezy o błędzie
rzeczywistym nie przekraczającym z prawdopodobieństwem 1 − δ jako
|T | ≥ 1
ln |H| + ln 1 δ
(5)
Definicja
Dla dowolnej dziedziny X , określonej na niej klasy pojęć C i rozkładu prawdopodobieństwa Ω oraz dowolnych 0 < < 1 i 0 < δ < 1, dowolny spójny algorytm uczenia się, używający skończonej przestrzeni hipotez H, nauczy się dla każdego pojęcia docelowego c ∈ C z prawdopodobieństwem co najmniej 1 − δ hipotezy h ∈ H o błędzie rzeczywistym e
Ωc(h) ≤ pod warunkiem dostarczenia mu zbioru trenującego złożonego z przykładów wybranych zgodnie z rozkładem Ω o rozmiarze co najmniej
1
ln |H| + ln 1 δ
(6) albo zawiedzie, jeśli w przestrzeni H nie istnieje żadna hipoteza spójna z pojęciem c na zbiorze trenującym.
Liczba przykładów 10 / 20
czyli, spójne algorytmy uczenia się używające skończonych przestrzeni hipotez są algorytmami PAC-uczenia się, o ile nie zawodzą, czyli o ile w używanej przestrzeni hipotez istnieje hipoteza spójna z przykładami trenującymi
wymagana liczba przykładów zależy od logarytmu rozmiaru przestrzeni hipotez
aby spójny algorytm używający H był także algorytmem efektywnego PAC-uczenia się, ln |H| musi zależeć co najmniej wielomianoiwo od rozmiaru przykładu
zależność trudności zadania spójnego uczenia się od liczby
rozważanych hipotez, jeśli przestrzeń hipotez jest duża, to może w niej
być wiele hipotez przypadkowo spójnych z pojęciem docelowym dla
przykładów trenujących, i znacznie się różniących na całej dziedzinie.
kiedy np. c / ∈ H to wtedy może być niemożliwe znalezienie spójnej hipotezy z pojęciem docelowym na zbiorze trenującym. Wtedy mamy agnostyczne uczenie się. Możemy wtedy wybierać hipotezę, która popełnia najmniejszą liczbę pomyłek, czyli ma najmniejszy błąd próbki na zbiorze trenującym. Algorytmy takie nazywamy quasi-spójnymi.
Definicja
Każdy algorytm uczenia się pojęć, który dla dowolnego pojęcia docelowego c używając przestrzenia hipotez H generuje na podstawie zbioru
trenującego T dowolną hipotezę h ∈ H o minimalnym błędzie próbki na T h = arg min
h0∈H
e
Tch
0(7)
nazywamy quasi-spójnym algorytmem uczenia się.
jak można ograniczyć błąd rzeczywisty hipotezy znajdowanej przez algorytmy quasi-spójne.
Liczba przykładów 12 / 20
korzystając z ograniczeń Hoeffdinga mamy
P (e
Ωc(h) > e
cT(h) + ) ≤ e
−2|T |2(8) jest to ograniczenie prawdopodobieństwa tego, że dowolnie wybrana hipoteza ma rzeczywisty błąd większy o ponad od jej błędu próbki na zbiorze trenującym
prawdopodobieństwo tego, że najlepsza ze względu na błąd próbki na zbiorze trenującym hipoteza znaleziona przez ucznia będzie miała taką właściwość, nie przekracza |H|e
−2|T |2aby to prawdopodobieństwo było ograniczone od góry przez δ, wymagana jest liczność zbioru
|T | ≥ 1 2
2ln |H| + ln 1 δ
(9) żadna liczba przykładów trenujących nie gwarantuje PAC-uczenia się.
Mamy gwarancję, że z dowolnie dużym prawdopodobieństwem
uzyskamy hipotezę, której błąd rzeczywisty będzie dowolnie mało
różnić się od jej błędu próbki na zbiorze trenującym.
Definicja
Dla dowolnej dziedziny X , określonej na niej klasy pojęć C i rozkładu prawdopodobieństwa Ω oraz dowolnych 0 < < 1 i 0 < δ < 1 dowolny quasi-spójny algorytm uczenia się używający przestrzeni hipotez H nauczy się z prawdopodobieństwem co najmniej 1 − δ hipotezy h ∈ H o błędzie rzeczywistym e
Ωc(h) ≤ e
Tc(h) + pod warunkiem dostarczenia mu zbioru trenującego T złożonego z przykładów wybranych zgodnie z rozkładem Ω o rozmiarze co najmniej
1 2
2ln |H| + ln 1 δ
. (10)
Liczba przykładów 14 / 20
istnieje 2
dmożliwych etykietowań przykładów z dziedziny, dla jednego przykładu są to 2 etykietowania, dla 2 przykładów 4 etykietowania, itd.
Definicja (Wymiar Vapnik-Chervonenkis (VC))
Wymiar VC przestrzeni hipotez H oznaczany jako VC (H) jest zdefiniowany jako maksymalna wartość d taka, że w dziedzinie X istnieje d różnych przykładów, które mogą być oznaczone jako pozytywne lub negatywne przez hipotezy z przestrzeni H na wszystkie 2
dmożliwych spososób. Jeśli jest to możliwe dla dowolnie wielu różnych elementów dziedziny, to VC (H) = ∞.
ograniczenie wymiaru VC
VC (H) ≤ log
2|H| (11)
Wymiar Vapnika-Chervonenkisa 16 / 20
Definicja
Dla dowolnej dziedziny X , określonej na niej klasy pojęć C i rozkładu prawdopodobieństwa Ω oraz dowolnych 0 < < 1 i 0 < δ < 1 dowolny spójny algorytm uczenia się używający przestrzeni hipotez H nauczy się dla każdego pojęcia c ∈ C z prawdopodobieństwem 1 − δ hipotezy h ∈ H o błędzie rzeczywistym e
Ωc(h) ≤ pod warunkiem dostarczenia mu zbioru trenującego złożonego z przykładów wybranych zgodnie z rozkładem Ω o rozmiarze co najmniej
1
4 log
22
δ + 8VC (H) log
213
(12)
albo zawiedzie, jeśli w przestrzeni H nie istnieje żadna hipoteza spójna z
pojęciem c na zbiorze trenującym.
dolne ograniczenie, że jeśli liczba przykładów nie przekracza pewnej wartości, to uczeń, przynajmniej dla niektórych trudnych pojęć i niewygodnych rozkładów prawdopodobieństwa na dziedzinie, znajdzie złą hipotezę z dużym prawdopodobieństwem.
Definicja
Dla dowolnej dziedziny X , określonej na niej klasy pojęć C , dla której VC (C ) ≥ 2, oraz dowolnych 0 < <
18i 0 < δ <
1001istnieje rozkład prawdopodobieństwa Ω na X i pojęcie c ∈ C takie, że dowolny algorytm uczenia się używający przestrzeni H do uczenia się c na podstawie zbioru trenującego wygenerowanego zgodnie z rozkładem Ω nauczy się z
prawdopodobieństwem co najmniej δ hipotezy h ∈ H o błędzie
rzeczywistym e
Ωc(h) > , jeśli liczba przykładów trenujących jest mniejsza niż
max
1
log
21
δ , VC (C ) − 1 32
(13)
Wymiar Vapnika-Chervonenkisa 18 / 20
Definicja
Dla danej dziedziny X , określonego na niej pojęcia docelowego c, przestrzeni hipotez H i rozkładu prawdopodobieństwa Ω na X hipoteza h ∈ H jest nadmiernie dopasowana do zbioru trenującego T wylosowanego zgodnie z rozkładem Ω, jeśli istnieje hipoteza h
0∈ H taka, że
e
cT(h) < e
Tc(h
0), ale e
cΩ(h) > e
Ωc(h
0).
gdy występują niepoprawne dane trenujące, odzwierciedlenie przypadkowych przekłamań w zbiorze trenującym
dla poprawnych danych trenujących, dla niedostatecznej generalizacji,
np. w przypadku bogatych przestrzeni hipotez
uwzględnianie złożoności hipotez jako jednego z czynników decydujących o wyborze hipotezy
jest znacznie mniej prawdopodobne, aby zgodność prostych hipotez z danymi trenującymi była przypadkowa niż w przypadku hipotez skomplikowanych, gdyż tych pierwszych jest znacznie mniej niż drugich
inne kryteria oceny jakości hipotez to złożoność, łatwość interpretacji
Wymiar Vapnika-Chervonenkisa 20 / 20