Model PAC

(1)

Marcin Orchel

AGH University of Science and Technology in Poland

(2)

Agenda 2 / 20

(3)

2

Wymiar Vapnika-Chervonenkisa

(4)

Liczba przykładów 4 / 20

(5)

spójne algorytmy generują hipotezę spójną z pojęciem docelowym na zbiorze trenującym

Definicja

Hipoteza h jest spójna z pojęciem docelowym c na zbiorze przykładów P ⊆ X , jeśli

∀x ∈ P h (x ) = c (x ) (1)

jeśli w zbiorze trenującym są przekłamania, to nie można

zweryfikować spójności hipotezy z pojęciem docelowym, lecz tylko z przekłamanym pojęciem, wtedy mamy spójność hipotezy ze zbiorem przykładów etykietowanych, a nie spójność z pojęciem docelowym na zbiorze przykładów

może być wiele hipotez spójnych z pojęciem docelowym c

jeśli c ∈ H, to co najmniej jedna hipoteza jest spójna z pojęciem

docelowym c na zbiorze przykładów

(6)

zbiór wszystkich hipotez spójnych z pojęciem docelowym na pewnym zbiorze przykładów jest nazywany przestrzenią wersji tego pojęcia Definicja

Przestrzenią wersji pojęcia c ze względu na przestrzeń hipotez H i zbiór przykładów P ⊆ X będziemy nazywać zbiór wszystkich hipotez przestrzeni H, które są spójne z pojęciem c na zbiorze P

VS

_H,P^c

= {h ∈ H | ∀x ∈ P h (x ) = c (x )} (2) Definicja

Każdy algorytm uczenia się pojęć, który dla dowolnego pojęcia docelowego c używając przestrzeni hipotez H generuje na podstawie zbioru

trenującego T hipotezę h ∈ VS

_H,T^c

, spójną z pojęciem docelowym na zbiorze trenującym albo zawodzi, jeśli VS

_H^c

= ∅ nazywamy spójnym algorytmem uczenia się.

zakładamy, że spójne algorytmy uczenia się nie zawodzą

(7)

spójne algorytmy generują hipotezy należące do przestrzeni wersji, dlatego pożądane jest ograniczenie błędu rzeczywistego wszystkich hipotez z tej przestrzeni.

jeśli dla każdej z nich błąd ten nie przekracza pewnej stałej wartości

> 0, to taką przestrzeń nazywamy -wyczerpaną.

Definicja

Przestrzeń wersji VS

_H,P^c

jest -wyczerpana ze względu na pojęcie c i rozkład prawdopodobieństwa Ω na X , jeśli

∀h ∈ VS

_H,P^c

(c) e

_Ω^c

(h) ≤ (3) prawdopodobieństwo tego, że dowolna hipoteza h o błędzie

rzeczywistym względem rozkładu prawdopodobieństwa Ω

przekraczającym jest spójna na pewnym zbiorze przykładów P

wylosowanych zgodnie z tym samym rozkładem, jest mniejsze niż

(1 − )

^|P|

(8)

wartość ta jest równa prawdopodobieństwu wybrania |P| przykładów poprawnie klasyfikowanych przez hipotezę o błędzie rzeczywistym , gdy każdy losowo wybrany przykład jest klasyfikowany poprawnie z prawdopodobieństwem 1 −

przestrzeń wersji nie jest -wyczerpana, jeśli błąd chociaż jednej hipotezy z tej przestrzeni przekracza , a ponieważ przestrzeń wersji nie zawiera więcej hipotez niż cała przestrzeń hipotez, więc

prawdopodobieństwo takiej sytuacji jest mniejsze niż |H|(1 − )

^|P|

, pod warunkiem, że przestrzeń hipotez jest skończona

korzystając z nierówności 1 + α ≤ e

^α

dla α = − ograniczamy od góry prawdopodobieństwo tego, że przestrzeń wersji nie jest

-wyczerpana, przez |H|e

^−|P|

.

(9)

spójny algorytm uczenia się wykorzystujący zbiór treningowy T jest algorytmem PAC-uczenia się (wygeneruje hipotezę o błędzie

rzeczywistym nie przekraczającym z prawdopodobieństwem 1 − δ) pod warunkiem

|H|e

^{−|T |}

≤ δ (4)

który ogranicza prawdopodobieństwo -niewyczerpania przestrzeni wersji względem T przez δ

z powyższego warunku możemy wyznaczyć górne ograniczenie rozmiaru zbioru trenującego wystarczającego dla dowolnego spójnego algorytmu uczenia się do nauczenia się hipotezy o błędzie

rzeczywistym nie przekraczającym z prawdopodobieństwem 1 − δ jako

|T | ≥ 1

ln |H| + ln 1 δ

(5)

(10)

Definicja

Dla dowolnej dziedziny X , określonej na niej klasy pojęć C i rozkładu prawdopodobieństwa Ω oraz dowolnych 0 < < 1 i 0 < δ < 1, dowolny spójny algorytm uczenia się, używający skończonej przestrzeni hipotez H, nauczy się dla każdego pojęcia docelowego c ∈ C z prawdopodobieństwem co najmniej 1 − δ hipotezy h ∈ H o błędzie rzeczywistym e

_Ω^c

(h) ≤ pod warunkiem dostarczenia mu zbioru trenującego złożonego z przykładów wybranych zgodnie z rozkładem Ω o rozmiarze co najmniej

1 ln |H| + ln 1 δ

(6) albo zawiedzie, jeśli w przestrzeni H nie istnieje żadna hipoteza spójna z pojęciem c na zbiorze trenującym.

(11)

czyli, spójne algorytmy uczenia się używające skończonych przestrzeni hipotez są algorytmami PAC-uczenia się, o ile nie zawodzą, czyli o ile w używanej przestrzeni hipotez istnieje hipoteza spójna z przykładami trenującymi

wymagana liczba przykładów zależy od logarytmu rozmiaru przestrzeni hipotez

aby spójny algorytm używający H był także algorytmem efektywnego PAC-uczenia się, ln |H| musi zależeć co najmniej wielomianoiwo od rozmiaru przykładu

zależność trudności zadania spójnego uczenia się od liczby

rozważanych hipotez, jeśli przestrzeń hipotez jest duża, to może w niej

być wiele hipotez przypadkowo spójnych z pojęciem docelowym dla

przykładów trenujących, i znacznie się różniących na całej dziedzinie.

(12)

kiedy np. c / ∈ H to wtedy może być niemożliwe znalezienie spójnej hipotezy z pojęciem docelowym na zbiorze trenującym. Wtedy mamy agnostyczne uczenie się. Możemy wtedy wybierać hipotezę, która popełnia najmniejszą liczbę pomyłek, czyli ma najmniejszy błąd próbki na zbiorze trenującym. Algorytmy takie nazywamy quasi-spójnymi.

Definicja

Każdy algorytm uczenia się pojęć, który dla dowolnego pojęcia docelowego c używając przestrzenia hipotez H generuje na podstawie zbioru

trenującego T dowolną hipotezę h ∈ H o minimalnym błędzie próbki na T h = arg min

h⁰∈H

e

_T^c

h

⁰

(7)

nazywamy quasi-spójnym algorytmem uczenia się.

jak można ograniczyć błąd rzeczywisty hipotezy znajdowanej przez algorytmy quasi-spójne.

(13)

korzystając z ograniczeń Hoeffdinga mamy

P (e

_Ω^c

(h) > e

^c_T

(h) + ) ≤ e

^{−2|T |}²

(8) jest to ograniczenie prawdopodobieństwa tego, że dowolnie wybrana hipoteza ma rzeczywisty błąd większy o ponad od jej błędu próbki na zbiorze trenującym

prawdopodobieństwo tego, że najlepsza ze względu na błąd próbki na zbiorze trenującym hipoteza znaleziona przez ucznia będzie miała taką właściwość, nie przekracza |H|e

^{−2|T |}²

aby to prawdopodobieństwo było ograniczone od góry przez δ, wymagana jest liczność zbioru

|T | ≥ 1 2

²

ln |H| + ln 1 δ

(9) żadna liczba przykładów trenujących nie gwarantuje PAC-uczenia się.

Mamy gwarancję, że z dowolnie dużym prawdopodobieństwem

uzyskamy hipotezę, której błąd rzeczywisty będzie dowolnie mało

różnić się od jej błędu próbki na zbiorze trenującym.

(14)

Definicja

Dla dowolnej dziedziny X , określonej na niej klasy pojęć C i rozkładu prawdopodobieństwa Ω oraz dowolnych 0 < < 1 i 0 < δ < 1 dowolny quasi-spójny algorytm uczenia się używający przestrzeni hipotez H nauczy się z prawdopodobieństwem co najmniej 1 − δ hipotezy h ∈ H o błędzie rzeczywistym e

_Ω^c

(h) ≤ e

_T^c

(h) + pod warunkiem dostarczenia mu zbioru trenującego T złożonego z przykładów wybranych zgodnie z rozkładem Ω o rozmiarze co najmniej

1 2

²

ln |H| + ln 1 δ

. (10)

(15)

(16)

istnieje 2

^d

możliwych etykietowań przykładów z dziedziny, dla jednego przykładu są to 2 etykietowania, dla 2 przykładów 4 etykietowania, itd.

Definicja (Wymiar Vapnik-Chervonenkis (VC))

Wymiar VC przestrzeni hipotez H oznaczany jako VC (H) jest zdefiniowany jako maksymalna wartość d taka, że w dziedzinie X istnieje d różnych przykładów, które mogą być oznaczone jako pozytywne lub negatywne przez hipotezy z przestrzeni H na wszystkie 2

^d

możliwych spososób. Jeśli jest to możliwe dla dowolnie wielu różnych elementów dziedziny, to VC (H) = ∞.

ograniczenie wymiaru VC

VC (H) ≤ log

₂

|H| (11)

Wymiar Vapnika-Chervonenkisa 16 / 20

(17)

Definicja

Dla dowolnej dziedziny X , określonej na niej klasy pojęć C i rozkładu prawdopodobieństwa Ω oraz dowolnych 0 < < 1 i 0 < δ < 1 dowolny spójny algorytm uczenia się używający przestrzeni hipotez H nauczy się dla każdego pojęcia c ∈ C z prawdopodobieństwem 1 − δ hipotezy h ∈ H o błędzie rzeczywistym e

_Ω^c

(h) ≤ pod warunkiem dostarczenia mu zbioru trenującego złożonego z przykładów wybranych zgodnie z rozkładem Ω o rozmiarze co najmniej

1 4 log

₂

2 δ + 8VC (H) log

₂

13 (12)

albo zawiedzie, jeśli w przestrzeni H nie istnieje żadna hipoteza spójna z

pojęciem c na zbiorze trenującym.

(18)

dolne ograniczenie, że jeśli liczba przykładów nie przekracza pewnej wartości, to uczeń, przynajmniej dla niektórych trudnych pojęć i niewygodnych rozkładów prawdopodobieństwa na dziedzinie, znajdzie złą hipotezę z dużym prawdopodobieństwem.

Definicja

Dla dowolnej dziedziny X , określonej na niej klasy pojęć C , dla której VC (C ) ≥ 2, oraz dowolnych 0 < <

¹₈

i 0 < δ <

₁₀₀¹

istnieje rozkład prawdopodobieństwa Ω na X i pojęcie c ∈ C takie, że dowolny algorytm uczenia się używający przestrzeni H do uczenia się c na podstawie zbioru trenującego wygenerowanego zgodnie z rozkładem Ω nauczy się z

prawdopodobieństwem co najmniej δ hipotezy h ∈ H o błędzie

rzeczywistym e

_Ω^c

(h) > , jeśli liczba przykładów trenujących jest mniejsza niż

max

1 log

₂

1 δ , VC (C ) − 1 32

(13)

(19)

Definicja

Dla danej dziedziny X , określonego na niej pojęcia docelowego c, przestrzeni hipotez H i rozkładu prawdopodobieństwa Ω na X hipoteza h ∈ H jest nadmiernie dopasowana do zbioru trenującego T wylosowanego zgodnie z rozkładem Ω, jeśli istnieje hipoteza h

⁰

∈ H taka, że

e

^c_T

(h) < e

_T^c

(h

⁰

), ale e

^c_Ω

(h) > e

_Ω^c

(h

⁰

).

gdy występują niepoprawne dane trenujące, odzwierciedlenie przypadkowych przekłamań w zbiorze trenującym

dla poprawnych danych trenujących, dla niedostatecznej generalizacji,

np. w przypadku bogatych przestrzeni hipotez

(20)

uwzględnianie złożoności hipotez jako jednego z czynników decydujących o wyborze hipotezy

jest znacznie mniej prawdopodobne, aby zgodność prostych hipotez z danymi trenującymi była przypadkowa niż w przypadku hipotez skomplikowanych, gdyż tych pierwszych jest znacznie mniej niż drugich

Model PAC

Marcin Orchel

Wymiar Vapnika-Chervonenkisa

spójne algorytmy generują hipotezę spójną z pojęciem docelowym na zbiorze trenującym

Definicja

Hipoteza h jest spójna z pojęciem docelowym c na zbiorze przykładów P ⊆ X , jeśli

∀x ∈ P h (x ) = c (x ) (1)

jeśli w zbiorze trenującym są przekłamania, to nie można

zweryfikować spójności hipotezy z pojęciem docelowym, lecz tylko z przekłamanym pojęciem, wtedy mamy spójność hipotezy ze zbiorem przykładów etykietowanych, a nie spójność z pojęciem docelowym na zbiorze przykładów

może być wiele hipotez spójnych z pojęciem docelowym c

jeśli c ∈ H, to co najmniej jedna hipoteza jest spójna z pojęciem

docelowym c na zbiorze przykładów

zbiór wszystkich hipotez spójnych z pojęciem docelowym na pewnym zbiorze przykładów jest nazywany przestrzenią wersji tego pojęcia Definicja

Przestrzenią wersji pojęcia c ze względu na przestrzeń hipotez H i zbiór przykładów P ⊆ X będziemy nazywać zbiór wszystkich hipotez przestrzeni H, które są spójne z pojęciem c na zbiorze P

VS

= {h ∈ H | ∀x ∈ P h (x ) = c (x )} (2) Definicja

Każdy algorytm uczenia się pojęć, który dla dowolnego pojęcia docelowego c używając przestrzeni hipotez H generuje na podstawie zbioru

trenującego T hipotezę h ∈ VS

, spójną z pojęciem docelowym na zbiorze trenującym albo zawodzi, jeśli VS

= ∅ nazywamy spójnym algorytmem uczenia się.

zakładamy, że spójne algorytmy uczenia się nie zawodzą

spójne algorytmy generują hipotezy należące do przestrzeni wersji, dlatego pożądane jest ograniczenie błędu rzeczywistego wszystkich hipotez z tej przestrzeni.

jeśli dla każdej z nich błąd ten nie przekracza pewnej stałej wartości

 > 0, to taką przestrzeń nazywamy -wyczerpaną.

Definicja

Przestrzeń wersji VS

jest -wyczerpana ze względu na pojęcie c i rozkład prawdopodobieństwa Ω na X , jeśli

∀h ∈ VS

(c) e

(h) ≤  (3) prawdopodobieństwo tego, że dowolna hipoteza h o błędzie

rzeczywistym względem rozkładu prawdopodobieństwa Ω

przekraczającym  jest spójna na pewnym zbiorze przykładów P

wylosowanych zgodnie z tym samym rozkładem, jest mniejsze niż

(1 − )

wartość ta jest równa prawdopodobieństwu wybrania |P| przykładów poprawnie klasyfikowanych przez hipotezę o błędzie rzeczywistym , gdy każdy losowo wybrany przykład jest klasyfikowany poprawnie z prawdopodobieństwem 1 − 

przestrzeń wersji nie jest -wyczerpana, jeśli błąd chociaż jednej hipotezy z tej przestrzeni przekracza , a ponieważ przestrzeń wersji nie zawiera więcej hipotez niż cała przestrzeń hipotez, więc

prawdopodobieństwo takiej sytuacji jest mniejsze niż |H|(1 − )

, pod warunkiem, że przestrzeń hipotez jest skończona

korzystając z nierówności 1 + α ≤ e

dla α = − ograniczamy od góry prawdopodobieństwo tego, że przestrzeń wersji nie jest

-wyczerpana, przez |H|e

.

spójny algorytm uczenia się wykorzystujący zbiór treningowy T jest algorytmem PAC-uczenia się (wygeneruje hipotezę o błędzie

rzeczywistym nie przekraczającym  z prawdopodobieństwem 1 − δ) pod warunkiem

|H|e

≤ δ (4)

który ogranicza prawdopodobieństwo -niewyczerpania przestrzeni wersji względem T przez δ

z powyższego warunku możemy wyznaczyć górne ograniczenie rozmiaru zbioru trenującego wystarczającego dla dowolnego spójnego algorytmu uczenia się do nauczenia się hipotezy o błędzie

rzeczywistym nie przekraczającym  z prawdopodobieństwem 1 − δ jako

|T | ≥ 1





ln |H| + ln 1 δ



(5)

Definicja

(h) ≤  pod warunkiem dostarczenia mu zbioru trenującego złożonego z przykładów wybranych zgodnie z rozkładem Ω o rozmiarze co najmniej

1





ln |H| + ln 1 δ



(6) albo zawiedzie, jeśli w przestrzeni H nie istnieje żadna hipoteza spójna z pojęciem c na zbiorze trenującym.

czyli, spójne algorytmy uczenia się używające skończonych przestrzeni hipotez są algorytmami PAC-uczenia się, o ile nie zawodzą, czyli o ile w używanej przestrzeni hipotez istnieje hipoteza spójna z przykładami trenującymi

wymagana liczba przykładów zależy od logarytmu rozmiaru przestrzeni hipotez

aby spójny algorytm używający H był także algorytmem efektywnego PAC-uczenia się, ln |H| musi zależeć co najmniej wielomianoiwo od rozmiaru przykładu

zależność trudności zadania spójnego uczenia się od liczby

rozważanych hipotez, jeśli przestrzeń hipotez jest duża, to może w niej

być wiele hipotez przypadkowo spójnych z pojęciem docelowym dla

przykładów trenujących, i znacznie się różniących na całej dziedzinie.

Definicja

Każdy algorytm uczenia się pojęć, który dla dowolnego pojęcia docelowego c używając przestrzenia hipotez H generuje na podstawie zbioru

trenującego T dowolną hipotezę h ∈ H o minimalnym błędzie próbki na T h = arg min

e

h

(7)

nazywamy quasi-spójnym algorytmem uczenia się.

jak można ograniczyć błąd rzeczywisty hipotezy znajdowanej przez algorytmy quasi-spójne.

korzystając z ograniczeń Hoeffdinga mamy

P (e

> 0, to taką przestrzeń nazywamy -wyczerpaną.

jest -wyczerpana ze względu na pojęcie c i rozkład prawdopodobieństwa Ω na X , jeśli

(h) ≤ (3) prawdopodobieństwo tego, że dowolna hipoteza h o błędzie

przekraczającym jest spójna na pewnym zbiorze przykładów P

(1 − )

wartość ta jest równa prawdopodobieństwu wybrania |P| przykładów poprawnie klasyfikowanych przez hipotezę o błędzie rzeczywistym , gdy każdy losowo wybrany przykład jest klasyfikowany poprawnie z prawdopodobieństwem 1 −

przestrzeń wersji nie jest -wyczerpana, jeśli błąd chociaż jednej hipotezy z tej przestrzeni przekracza , a ponieważ przestrzeń wersji nie zawiera więcej hipotez niż cała przestrzeń hipotez, więc

prawdopodobieństwo takiej sytuacji jest mniejsze niż |H|(1 − )

dla α = − ograniczamy od góry prawdopodobieństwo tego, że przestrzeń wersji nie jest

-wyczerpana, przez |H|e

rzeczywistym nie przekraczającym z prawdopodobieństwem 1 − δ) pod warunkiem

który ogranicza prawdopodobieństwo -niewyczerpania przestrzeni wersji względem T przez δ

rzeczywistym nie przekraczającym z prawdopodobieństwem 1 − δ jako

(h) ≤ pod warunkiem dostarczenia mu zbioru trenującego złożonego z przykładów wybranych zgodnie z rozkładem Ω o rozmiarze co najmniej

(h) + ) ≤ e

(8) jest to ograniczenie prawdopodobieństwa tego, że dowolnie wybrana hipoteza ma rzeczywisty błąd większy o ponad od jej błędu próbki na zbiorze trenującym

|T | ≥ 1 2

(h) + pod warunkiem dostarczenia mu zbioru trenującego T złożonego z przykładów wybranych zgodnie z rozkładem Ω o rozmiarze co najmniej

1 2

(h) ≤ pod warunkiem dostarczenia mu zbioru trenującego złożonego z przykładów wybranych zgodnie z rozkładem Ω o rozmiarze co najmniej

Dla dowolnej dziedziny X , określonej na niej klasy pojęć C , dla której VC (C ) ≥ 2, oraz dowolnych 0 < <

(h) > , jeśli liczba przykładów trenujących jest mniejsza niż

1

log

δ , VC (C ) − 1 32