Prawdopodobieństwo w uczeniu maszynowym 2
Marcin Orchel
AGH University of Science and Technology in Poland
1 / 25
Agenda
1 Szacowanie błędów hipotez
2 Model PAC
Agenda 3 / 25
Szacowanie błędów hipotez
Błąd w uczeniu się pojęć
Szacujemy błąd próbki jako stosunek liczby niepoprawnie
zaklasyfikowanych przykładów z tego zbioru do liczby wszystkich jego elementów.
e P c (h) = |{x ∈ P|h (x ) 6= c (x )}|
|P| = r P c (h)
h (x ) 6= c (x ) (1) gdzie P oznacza zbiór przykładów.
Błąd rzeczywisty hipotezy, to oczekiwany błąd próbki na losowo wybranym zbiorze przykładów. Zakładając, że przykłady wybierane są z dziedziny zgodnie z określonym na niej pewnym rozkładem
prawdopodobieństwa Ω, błąd rzeczywisty to
e Ω c (h) = P x ∈Ω (h (x ) 6= c (x )) . (2)
Szacowanie błędów hipotez 5 / 25
Błąd w uczeniu się pojęć
Przykład (Do przykładu z prostokątami na płaszczyźnie)
Załóżmy, że H = C p . Mamy dany zbiór treningowy z 10 przykładami pozytywnymi i 10 negatywnymi dla jakiegoś pojęcia c ∈ C p . Mamy również hipotezę h, która też jest prostokątem. Jeśli 8 przykładów jest niepoprawnie klasyfikowanych przez h, to wtedy e c P (h) = 8/20. Błąd rzeczywisty to prawdopodobieństwo tego, że przykład wybrany losowo zgodnie z rozkładem Ω należy do obszaru błędnej klasyfikacji.
Dla prostokąta R oznaczamy P Ω (R) prawdopodobieństwo wylosowania z
X według rozkładu Ω punktu należącego do R. Błąd rzeczywisty hipotezy
h względem pojęcia docelowego c i rozkładu Ω można zapisać jako
P Ω (R c : R h ), gdzie R c to prostokąt odpowiadający pojęciu c, a R h to
prostokąt odpowiadający hipotezie h. Dwukropek oznacza różnicę
symetryczną zbiorów.
Błąd w uczeniu się pojęć
Przykład (Do przykładu z funkcjami boolowskimi)
Mamy dziedzinę X = {0, 1} m . Przykładowo m = 4. Mamy pojęcie
c(x ) = a 1 (x ) ∧ a 2 (x ) ∨ a 4 (x ), oraz hipotezę h(x ) = a 1 (x ) ∨ a 4 (x ). Mamy zbiór przykładów
P = n x ∈ {0, 1} 4 |a 3 (x ) = 0 o (3) 8 przykładów należy do próbki. Spośród nich jeden przykład jest błędny, to jest 1000. A więc błąd próbki wynosi e P c (h) = 1/8. Dla całej dziedziny X jest dodatkowo jeden przykład niepoprawnie zaklasyfikowany 1010.
Jeśli mamy rozkład prawdopodobieństwa na X Ω 1 , taki, który każdemu przykładowi przypisuje jednakowe prawdopodobieństwo 1/16, to
e c Ω
1
(h) = 1/16 + 1/16 = 1/8.
Szacowanie błędów hipotez 7 / 25
Szacowanie błędów hipotez
celem jest poszukiwanie hipotez o minimalnym błędzie rzeczywistym inne możliwe cele to czytelność hipotezy dla człowieka, prostota cele zastępcze: minimalny błąd na zbiorze trenującym, dodatkowo preferencje dla prostych hipotez
jak oszacować prawdopodobny błąd rzeczywisty hipotezy
Szacowanie błędów hipotez
techniki szacowania błędów w indukcyjnym uczeniu się pojęć każdą hipotezę indukcyjną można traktować jako hipotezę statystyczną, mówiącą o pewnej właściwości dziedziny, nazywanej populacją
Szacowanie błędów hipotez 9 / 25
Estymacja przedziałowa
szacowanie błędów rzeczywistych za pomocą estymacji przedziałowej szacowanie wartości pewnego nieznanego parametru rozważanej populacji na podstawie jego estymatora
estymator jest zmienną losową o wartościach wyznaczanych na podstawie losowej próby elementów z tej populacji
wartość dla konkretnej próby jest nazywana oceną estymowanego parametru
parametr oznacza zazwyczaj częstość występowania w populacji elementów o określonej wartości pewnej cechy statystycznej, czyli mających pewną właściwość
naturalnym estymatorem jest częstość występowania tej cechy w losowej próbie wybranej z populacji
dla różnych losowych prób będą to na ogół różne częstości, czyli
różne realizacje zmiennej losowej, którą jest estymator
Estymacja przedziałowa
estymacja przedziałowa polega na wyznaczaniu przedziałów ufności dla estymowanego parametru na podstawie estymatora
przedział ufności wyznacza się dla ustalonego poziomu ufności, który jest prawdopodobieństwem, że rzeczywista wartość parametru znajduje się w tym przedziale
Definicja (Przedział ufności)
Przedziałem ufności dla parametru p o poziomie ufności 1 − δ dla 0 ≤ δ ≤ 1 jest każdy przedział, do którego wartość p należy z prawdopodobieństwem równym 1 − δ.
Celem estymacji przedziałowej jest wyznaczenie przedziału ufności dla danego parametru p na podstawie pewnego estymatora tego
parametru Y p .
jeśli jest to estymator nieobciążony, czyli E (Y p ) = p, to każda realizacja tego estymatora, czyli wyznaczona na podstawie losowej próby ocena y p jest środkiem pewnego przedziału ufności dla p
Szacowanie błędów hipotez 11 / 25
Estymacja przedziałowa
granice tego przedziału można wyznaczyć na podstawie rozkładu zmiennej losowej, jaką jest estymator
interesujący jest rozkład dwumianowy – rozkład zmiennej losowej oznaczającej liczbę sukcesów w określonej liczbie prób Bernoulliego parametry tego rozkładu to liczba prób n i prawdopodobieństwo sukcesu w pojedynczej próbie p
gdy wartość p nie jest znana można ją oszacować za pomocą estymacji przedziałowej na podstawie eksperymentu o dostatecznie dużej liczbie prób
dla rozkładu dwumianowego przedział ufności o poziomie ufności 1 − δ dla parametru p to
y p − u δ s
y p (1 − y p )
n , y p + u δ
s
y p (1 − y p ) n
(4)
gdzie y p = r /n jest realizacją estymatora Y p , czyli stosunkiem liczby
sukcesów r do liczby prób n w przeprowadzonym eksperymencie,
Estymacja przedziałowa
, a u δ wyznaczone jest z warunku
P (|U| < u δ ) = 1 − δ (5) dla zmiennej losowej U o standardowym rozkładzie normalnym N (0, 1)
wartość
s
y p (1 − y p )
n (6)
jest przybliżeniem wartości s
p (1 − p)
n (7)
rozkład dwumianowy został przybliżony rozkładem normalnym. Takie przybliżenie jest dopuszczalne dla odpowiednio dużej liczby prób n i wartości p niezbyt bliskich 0 lub 1.
można korzystać z niego, gdy ny p (1 − y p ) ≥ 5
Szacowanie błędów hipotez 13 / 25
Przedziały ufności dla błędu rzeczywistego
klasyfikowanie przykładów za pomocą hipotezy ma cechy próby Bernoulliego
“sukces” to pomyłka w klasyfikacji. Jego prawdopodobieństwo dla przykładu wybranego z dziedziny zgodnie z pewnym rozkładem prawdopodobieństwa Ω to parametr tego rozkładu dwumianowego dana jest hipoteza h ∈ H i zbiór przykładów P ⊆ X wybranych zgodnie z rozkładem prawdopodobieństwa Ω niezależnie od tej hipotezy i niezależnie od siebie nawzajem
c to dowolne pojęcie docelowe, względem którego jest określany błąd hipotezy h
najbardziej prawdopodobną wartością błędu rzeczywistego e Ω c (h) jest wartość błędu próbki e P c (h)
dla dowolnego 0 ≤ δ < 1 z prawdopodobieństwem w przybliżeniu równym 1 − δ
|e Ω c (h) − e c P (h)| < u δ
s e P c (h) 1 − e P c (h)
|P| (8)
Przedziały ufności dla błędu rzeczywistego
im mniejsze różnice staramy się wykryć, tym więcej danych potrzebujemy do ich wykrycia
zadanie polega na wykryciu czy moneta jest źle wyważona. Jeśli np.
prawdopodobieństwo wyrzucenia reszki byłoby 0.9, to łatwiej wykryć takie niewyważenie, niż gdyby prawdopodobieństwo było równe 0.501 Czy da się oszacować ilość danych potrzebnych do wykrycia różnicy w prawdopodobieństwie 0.001 przy rzucie niewyważoną monetą?
Szacowanie błędów hipotez 15 / 25
Przedziały ufności dla błędu rzeczywistego
zalecane jest korzystanie z tego oszacowania dla |P| ≥ 30 lub
|P|e P c (h)(1 − e P c (h)) ≥ 5
zazwyczaj bierze się pod uwagę przedział ufności 1 − δ = 0, 95. Wtedy
|e Ω c (h) − e P c (h)| < 1, 96
s e P c (h) 1 − e P c (h)
|P| (9)
metoda ta nadaje się do szacowania dokładności hipotez za pomocą zbiorów przykładów od nich niezależnych. Zazwyczaj hipoteza generowana jest na podstawie zbioru trenującego, wtedy oszacowanie nie może być stosowane
dlatego w praktyce używa się oddzielnego zbioru trenującego i zbioru do szacowania jakości hipotezy, czyli walidacji (zbiór testujący) zbiór etykietowanych przykładów pojęcia docelowego dzielimy losowo na dwa rozłączne podzbiory trenujący i testujący
stosowana jest również procedura zwana k-krotną walidacją krzyżową
Przykład
dana jest dziedzina X , klasa pojęć C. Wybrano 100 przykładów otrzymując poprawną klasyfikację dla 80 z nich i niepoprawną dla pozostałych 20
czyli
e p c (h) = 0, 2 (10)
z prawdopodobieństwem 0, 95 błąd rzeczywisty e Ω c (h) znajduje się w przedziale z lewej strony
0, 2 − 1, 96 s
0, 2 (1 − 0, 2)
100 = 0, 1216 (11)
z prawej strony
0, 2 + 1, 96 s
0, 2 (1 − 0, 2)
100 = 0, 2784 (12)
dla poziomu ufności 1 − δ = 0, 9, wtedy u = 1, 64. Wtedy przedział ufności to (0, 1344; 0, 2656)
Szacowanie błędów hipotez 17 / 25
Model PAC
Model PAC
sformalizowany model uczenia się
dana dziedzina X , klasa pojęć C i przestrzeń hipotez H kolejne przykłady zbioru trenującego T generuje wyrocznia wyrocznia to zmienna losowa EX (c, Ω) zwracająca przykład
etykietowany x → c(x ), gdzie x ∈ X jest przykładem wylosowanym zgodnie z rozkładem Ω
zadaniem ucznia jest znalezienie hipotezy minimalizującej błąd rzeczywisty dla pojęcia docelowego c względem rozkładu Ω e Ω c (h) jak określić warunki przy których uczeń znajdzie dobrą hipotezę (o ograniczonym błędzie rzeczywistym) z dużym prawdopodobieństwem (powyżej określonego progu). Są to warunki PAC-nauczalności (probably approximately correct). Warunki uzyskania przez ucznia hipotezy prawdopodobnie w przybliżeniu poprawnej.
Model PAC 19 / 25
Model PAC
Definicja
Klasa pojęć C na dziedzinie X jest PAC-nauczalna za pomocą przestrzeni hipotez H, jeśli istnieje algorytm uczenia się używający H, którego uruchomienie z dostępem do wyroczni EX (c, Ω) oraz z parametrami i δ dla dowolnego pojęcia docelowego c ∈ C , dowolnego rozkładu
prawdopodobieństwa Ω na X oraz dowolnych stałych 0 < < 1 i 0 < δ < 1 daje w wyniku z prawdopodobieństwem 1 − δ hipotezę h ∈ H dla której e c Ω (h) ≤ .
Algorytm taki nazywamy algorytmem PAC-uczenia się pojęć C za pomocą H
Jeśli interesuje nas koszt obliczeń definiujemy efektywną
PAC-nauczalność
Model PAC
Definicja
Klasa pojęć C na dziedzinie X jest efektywnie PAC-nauczalna za pomocą przestrzeni hipotez H, jeśli C jest PAC-nauczalna za pomocą przestrzeni hipotez H i istnieje algorytm PAC-uczenia się dla C, który działa w czasie wielomianowym względem 1/, 1/δ, rozmiaru przykładu z X i rozmiaru pojęcia z C, którego się uczy.
dla każdej rozważanej klasy pojęć C jest określona funkcja rozmiaru pojęcia s C przyporządkowująca każdemu pojęciu c ∈ C nieujemną liczbę całkowitą s C (c) oznaczającą jego rozmiar. Funkcja rozmiaru jest także określona dla każdej przestrzeni hipotez H.
Model PAC 21 / 25
Model PAC
Definicja
Klasa pojęć C na dziedzinie X jest efektywnie PAC-nauczalna za pomocą przestrzeni hipotez H, jeśli C jest PAC-nauczalna za pomocą przestrzeni hipotez H i istnieje algorytm PAC-uczenia się dla C, który działa w czasie wielomianowym względem 1/, 1/δ, rozmiaru przykładu z X i rozmiaru pojęcia z C, którego się uczy.
dla każdej rozważanej klasy pojęć C jest określona funkcja rozmiaru
pojęcia s C przyporządkowująca każdemu pojęciu c ∈ C nieujemną
liczbę całkowitą s C (c) oznaczającą jego rozmiar. Funkcja rozmiaru
jest także określona dla każdej przestrzeni hipotez H.
Model PAC - przykład
algorytm najciaśniejszego dopasowania, hipoteza h odpowiadająca najmniejszemu prostokątowi, który zawiera wszystkie przykłady pozytywne należące do T i nie zawiera żadnego przykładu negatywnego. Dla takiej hipotezy R h ⊆ R c . Stąd wynika, że (R h : R c ) = R c − R h . Jeśli P Ω (R c ) ≤ , to także
e Ω c (h) = P(R c − R h ) ≤ . Przy założeniu, że P(R c ) > też trzeba ograniczyć błąd rzeczywisty hipotezy.
Model PAC 22 / 25
Model PAC - przykład
Rysunek 1
Model PAC - przykład
aby go ograniczyć, wykroimy prostokąt w prostokącie c tak aby różnica między prostokątami miała prawdopodobieństwo . Aby zapewnić, że błąd hipotezy nie będzie przekraczał , wystarczy zapewnić, aby różnica R c − R h była podzbiorem tego pasa .
Ten warunek jest spełniony kiedy każdy z boków prostokąta będzie zawierał przynajmniej jeden przykład pozytywny ze zbioru
trenującego.
prawdopodobieństwo, że tak nie jest wynosi nie więcej niż 4(1 − /4) |T | i na mocy nierówności 1 + α ≤ e α , w której
przyjmujemy α = −/4, jest ograniczone przez 4e −|T |/4 . Wyrażenie to można ograniczyć przez δ, jeśli
|T | ≥ 4
ln 4 + ln 1 δ
(13)
Model PAC 24 / 25