• Nie Znaleziono Wyników

Model PAC

N/A
N/A
Protected

Academic year: 2021

Share "Model PAC"

Copied!
20
0
0

Pełen tekst

(1)

Marcin Orchel

AGH University of Science and Technology in Poland

(2)

Agenda 2 / 20

(3)

2

Wymiar Vapnika-Chervonenkisa

(4)

Liczba przykładów 4 / 20

(5)

spójne algorytmy generują hipotezę spójną z pojęciem docelowym na zbiorze trenującym

Definicja

Hipoteza h jest spójna z pojęciem docelowym c na zbiorze przykładów P ⊆ X , jeśli

∀x ∈ P h (x ) = c (x ) (1)

jeśli w zbiorze trenującym są przekłamania, to nie można

zweryfikować spójności hipotezy z pojęciem docelowym, lecz tylko z przekłamanym pojęciem, wtedy mamy spójność hipotezy ze zbiorem przykładów etykietowanych, a nie spójność z pojęciem docelowym na zbiorze przykładów

może być wiele hipotez spójnych z pojęciem docelowym c

jeśli c ∈ H, to co najmniej jedna hipoteza jest spójna z pojęciem

docelowym c na zbiorze przykładów

(6)

zbiór wszystkich hipotez spójnych z pojęciem docelowym na pewnym zbiorze przykładów jest nazywany przestrzenią wersji tego pojęcia Definicja

Przestrzenią wersji pojęcia c ze względu na przestrzeń hipotez H i zbiór przykładów P ⊆ X będziemy nazywać zbiór wszystkich hipotez przestrzeni H, które są spójne z pojęciem c na zbiorze P

VS

H,Pc

= {h ∈ H | ∀x ∈ P h (x ) = c (x )} (2) Definicja

Każdy algorytm uczenia się pojęć, który dla dowolnego pojęcia docelowego c używając przestrzeni hipotez H generuje na podstawie zbioru

trenującego T hipotezę h ∈ VS

H,Tc

, spójną z pojęciem docelowym na zbiorze trenującym albo zawodzi, jeśli VS

Hc

= ∅ nazywamy spójnym algorytmem uczenia się.

zakładamy, że spójne algorytmy uczenia się nie zawodzą

Liczba przykładów 6 / 20

(7)

spójne algorytmy generują hipotezy należące do przestrzeni wersji, dlatego pożądane jest ograniczenie błędu rzeczywistego wszystkich hipotez z tej przestrzeni.

jeśli dla każdej z nich błąd ten nie przekracza pewnej stałej wartości

 > 0, to taką przestrzeń nazywamy -wyczerpaną.

Definicja

Przestrzeń wersji VS

H,Pc

jest -wyczerpana ze względu na pojęcie c i rozkład prawdopodobieństwa Ω na X , jeśli

∀h ∈ VS

H,Pc

(c) e

c

(h) ≤  (3) prawdopodobieństwo tego, że dowolna hipoteza h o błędzie

rzeczywistym względem rozkładu prawdopodobieństwa Ω

przekraczającym  jest spójna na pewnym zbiorze przykładów P

wylosowanych zgodnie z tym samym rozkładem, jest mniejsze niż

(1 − )

|P|

(8)

wartość ta jest równa prawdopodobieństwu wybrania |P| przykładów poprawnie klasyfikowanych przez hipotezę o błędzie rzeczywistym , gdy każdy losowo wybrany przykład jest klasyfikowany poprawnie z prawdopodobieństwem 1 − 

przestrzeń wersji nie jest -wyczerpana, jeśli błąd chociaż jednej hipotezy z tej przestrzeni przekracza , a ponieważ przestrzeń wersji nie zawiera więcej hipotez niż cała przestrzeń hipotez, więc

prawdopodobieństwo takiej sytuacji jest mniejsze niż |H|(1 − )

|P|

, pod warunkiem, że przestrzeń hipotez jest skończona

korzystając z nierówności 1 + α ≤ e

α

dla α = − ograniczamy od góry prawdopodobieństwo tego, że przestrzeń wersji nie jest

-wyczerpana, przez |H|e

−|P|

.

Liczba przykładów 8 / 20

(9)

spójny algorytm uczenia się wykorzystujący zbiór treningowy T jest algorytmem PAC-uczenia się (wygeneruje hipotezę o błędzie

rzeczywistym nie przekraczającym  z prawdopodobieństwem 1 − δ) pod warunkiem

|H|e

−|T |

≤ δ (4)

który ogranicza prawdopodobieństwo -niewyczerpania przestrzeni wersji względem T przez δ

z powyższego warunku możemy wyznaczyć górne ograniczenie rozmiaru zbioru trenującego wystarczającego dla dowolnego spójnego algorytmu uczenia się do nauczenia się hipotezy o błędzie

rzeczywistym nie przekraczającym  z prawdopodobieństwem 1 − δ jako

|T | ≥ 1





ln |H| + ln 1 δ



(5)

(10)

Definicja

Dla dowolnej dziedziny X , określonej na niej klasy pojęć C i rozkładu prawdopodobieństwa Ω oraz dowolnych 0 <  < 1 i 0 < δ < 1, dowolny spójny algorytm uczenia się, używający skończonej przestrzeni hipotez H, nauczy się dla każdego pojęcia docelowego c ∈ C z prawdopodobieństwem co najmniej 1 − δ hipotezy h ∈ H o błędzie rzeczywistym e

c

(h) ≤  pod warunkiem dostarczenia mu zbioru trenującego złożonego z przykładów wybranych zgodnie z rozkładem Ω o rozmiarze co najmniej

1





ln |H| + ln 1 δ



(6) albo zawiedzie, jeśli w przestrzeni H nie istnieje żadna hipoteza spójna z pojęciem c na zbiorze trenującym.

Liczba przykładów 10 / 20

(11)

czyli, spójne algorytmy uczenia się używające skończonych przestrzeni hipotez są algorytmami PAC-uczenia się, o ile nie zawodzą, czyli o ile w używanej przestrzeni hipotez istnieje hipoteza spójna z przykładami trenującymi

wymagana liczba przykładów zależy od logarytmu rozmiaru przestrzeni hipotez

aby spójny algorytm używający H był także algorytmem efektywnego PAC-uczenia się, ln |H| musi zależeć co najmniej wielomianoiwo od rozmiaru przykładu

zależność trudności zadania spójnego uczenia się od liczby

rozważanych hipotez, jeśli przestrzeń hipotez jest duża, to może w niej

być wiele hipotez przypadkowo spójnych z pojęciem docelowym dla

przykładów trenujących, i znacznie się różniących na całej dziedzinie.

(12)

kiedy np. c / ∈ H to wtedy może być niemożliwe znalezienie spójnej hipotezy z pojęciem docelowym na zbiorze trenującym. Wtedy mamy agnostyczne uczenie się. Możemy wtedy wybierać hipotezę, która popełnia najmniejszą liczbę pomyłek, czyli ma najmniejszy błąd próbki na zbiorze trenującym. Algorytmy takie nazywamy quasi-spójnymi.

Definicja

Każdy algorytm uczenia się pojęć, który dla dowolnego pojęcia docelowego c używając przestrzenia hipotez H generuje na podstawie zbioru

trenującego T dowolną hipotezę h ∈ H o minimalnym błędzie próbki na T h = arg min

h0∈H

e

Tc

h

0

 (7)

nazywamy quasi-spójnym algorytmem uczenia się.

jak można ograniczyć błąd rzeczywisty hipotezy znajdowanej przez algorytmy quasi-spójne.

Liczba przykładów 12 / 20

(13)

korzystając z ograniczeń Hoeffdinga mamy

P (e

c

(h) > e

cT

(h) + ) ≤ e

−2|T |2

(8) jest to ograniczenie prawdopodobieństwa tego, że dowolnie wybrana hipoteza ma rzeczywisty błąd większy o ponad  od jej błędu próbki na zbiorze trenującym

prawdopodobieństwo tego, że najlepsza ze względu na błąd próbki na zbiorze trenującym hipoteza znaleziona przez ucznia będzie miała taką właściwość, nie przekracza |H|e

−2|T |2

aby to prawdopodobieństwo było ograniczone od góry przez δ, wymagana jest liczność zbioru

|T | ≥ 1 2

2



ln |H| + ln 1 δ



(9) żadna liczba przykładów trenujących nie gwarantuje PAC-uczenia się.

Mamy gwarancję, że z dowolnie dużym prawdopodobieństwem

uzyskamy hipotezę, której błąd rzeczywisty będzie dowolnie mało

różnić się od jej błędu próbki na zbiorze trenującym.

(14)

Definicja

Dla dowolnej dziedziny X , określonej na niej klasy pojęć C i rozkładu prawdopodobieństwa Ω oraz dowolnych 0 <  < 1 i 0 < δ < 1 dowolny quasi-spójny algorytm uczenia się używający przestrzeni hipotez H nauczy się z prawdopodobieństwem co najmniej 1 − δ hipotezy h ∈ H o błędzie rzeczywistym e

c

(h) ≤ e

Tc

(h) +  pod warunkiem dostarczenia mu zbioru trenującego T złożonego z przykładów wybranych zgodnie z rozkładem Ω o rozmiarze co najmniej

1 2

2



ln |H| + ln 1 δ



. (10)

Liczba przykładów 14 / 20

(15)
(16)

istnieje 2

d

możliwych etykietowań przykładów z dziedziny, dla jednego przykładu są to 2 etykietowania, dla 2 przykładów 4 etykietowania, itd.

Definicja (Wymiar Vapnik-Chervonenkis (VC))

Wymiar VC przestrzeni hipotez H oznaczany jako VC (H) jest zdefiniowany jako maksymalna wartość d taka, że w dziedzinie X istnieje d różnych przykładów, które mogą być oznaczone jako pozytywne lub negatywne przez hipotezy z przestrzeni H na wszystkie 2

d

możliwych spososób. Jeśli jest to możliwe dla dowolnie wielu różnych elementów dziedziny, to VC (H) = ∞.

ograniczenie wymiaru VC

VC (H) ≤ log

2

|H| (11)

Wymiar Vapnika-Chervonenkisa 16 / 20

(17)

Definicja

Dla dowolnej dziedziny X , określonej na niej klasy pojęć C i rozkładu prawdopodobieństwa Ω oraz dowolnych 0 <  < 1 i 0 < δ < 1 dowolny spójny algorytm uczenia się używający przestrzeni hipotez H nauczy się dla każdego pojęcia c ∈ C z prawdopodobieństwem 1 − δ hipotezy h ∈ H o błędzie rzeczywistym e

c

(h) ≤  pod warunkiem dostarczenia mu zbioru trenującego złożonego z przykładów wybranych zgodnie z rozkładem Ω o rozmiarze co najmniej

1





4 log

2

2

δ + 8VC (H) log

2

13





(12)

albo zawiedzie, jeśli w przestrzeni H nie istnieje żadna hipoteza spójna z

pojęciem c na zbiorze trenującym.

(18)

dolne ograniczenie, że jeśli liczba przykładów nie przekracza pewnej wartości, to uczeń, przynajmniej dla niektórych trudnych pojęć i niewygodnych rozkładów prawdopodobieństwa na dziedzinie, znajdzie złą hipotezę z dużym prawdopodobieństwem.

Definicja

Dla dowolnej dziedziny X , określonej na niej klasy pojęć C , dla której VC (C ) ≥ 2, oraz dowolnych 0 <  <

18

i 0 < δ <

1001

istnieje rozkład prawdopodobieństwa Ω na X i pojęcie c ∈ C takie, że dowolny algorytm uczenia się używający przestrzeni H do uczenia się c na podstawie zbioru trenującego wygenerowanego zgodnie z rozkładem Ω nauczy się z

prawdopodobieństwem co najmniej δ hipotezy h ∈ H o błędzie

rzeczywistym e

c

(h) > , jeśli liczba przykładów trenujących jest mniejsza niż

max

 1

 log

2

1

δ , VC (C ) − 1 32



(13)

Wymiar Vapnika-Chervonenkisa 18 / 20

(19)

Definicja

Dla danej dziedziny X , określonego na niej pojęcia docelowego c, przestrzeni hipotez H i rozkładu prawdopodobieństwa Ω na X hipoteza h ∈ H jest nadmiernie dopasowana do zbioru trenującego T wylosowanego zgodnie z rozkładem Ω, jeśli istnieje hipoteza h

0

∈ H taka, że

e

cT

(h) < e

Tc

(h

0

), ale e

c

(h) > e

c

(h

0

).

gdy występują niepoprawne dane trenujące, odzwierciedlenie przypadkowych przekłamań w zbiorze trenującym

dla poprawnych danych trenujących, dla niedostatecznej generalizacji,

np. w przypadku bogatych przestrzeni hipotez

(20)

uwzględnianie złożoności hipotez jako jednego z czynników decydujących o wyborze hipotezy

jest znacznie mniej prawdopodobne, aby zgodność prostych hipotez z danymi trenującymi była przypadkowa niż w przypadku hipotez skomplikowanych, gdyż tych pierwszych jest znacznie mniej niż drugich

inne kryteria oceny jakości hipotez to złożoność, łatwość interpretacji

Wymiar Vapnika-Chervonenkisa 20 / 20

Cytaty

Powiązane dokumenty

Zgodnie z tym, co dotąd powiedziano, przyjmuję, że najistotniejsze - kon­ stytutywne - elementy modelu uczenia się przy udziale mediów stanowią: dane 0 środku (w

Wsparcie finansowe ze strony państwa umożliwiło promocję kultury rusińskiej poprzez organizację wielu wydarzeń kulturalnych propa- gujących folklor i tradycje ludowe

Bij proef 2 ligt het verlies van grof materiaal tussen de 70 en 100 Ilm. Uit deze resultaten kan geconcludeerd worden dat een rustige procesvoering een vereiste is om een

8) wnioskodawca - kandydat ubiegający się o potwierdzenie posiadanych efektów uczenia się.. Potwierdzanie efektów uczenia się może być przeprowadzone na kierunku, poziomie i

Przez kolejne 4 dni temperatura spadała: pierwszego dnia o 1°C, drugiego o 3°C, a w następnych dniach o 2°C i o 1°C. Kieruj się

system oświaty: organizację i funkcjonowanie systemu oświaty, znaczenie pozycji szkoły jako instytucji edukacyjnej, funkcje i cele edukacji szkolnej, modele współczesnej szkoły,

Dydaktyka literatury szkoły wyższej nie wyodrębniła się w samodzielną naukę , gdyż metodologia.. badań literackich utożsamiana była z metodologią badań

(w czasie wojny był on więziony w obozie koncentracyjnym w Dachau; chyba jako szczególnego rodzaju pamiątkę zabrał stamtąd ze sobą kilka książek z biblioteki obozowej)12