• Nie Znaleziono Wyników

Prawdopodobieństwo w uczeniu maszynowym 2

N/A
N/A
Protected

Academic year: 2021

Share "Prawdopodobieństwo w uczeniu maszynowym 2"

Copied!
26
0
0

Pełen tekst

(1)

Prawdopodobieństwo w uczeniu maszynowym 2

Marcin Orchel

AGH University of Science and Technology in Poland

1 / 25

(2)

Agenda

(3)

1 Szacowanie błędów hipotez

2 Model PAC

Agenda 3 / 25

(4)

Szacowanie błędów hipotez

(5)

Błąd w uczeniu się pojęć

Szacujemy błąd próbki jako stosunek liczby niepoprawnie

zaklasyfikowanych przykładów z tego zbioru do liczby wszystkich jego elementów.

e P c (h) = |{x ∈ P|h (x ) 6= c (x )}|

|P| = r P c (h)

h (x ) 6= c (x ) (1) gdzie P oznacza zbiór przykładów.

Błąd rzeczywisty hipotezy, to oczekiwany błąd próbki na losowo wybranym zbiorze przykładów. Zakładając, że przykłady wybierane są z dziedziny zgodnie z określonym na niej pewnym rozkładem

prawdopodobieństwa Ω, błąd rzeczywisty to

e c (h) = P x ∈Ω (h (x ) 6= c (x )) . (2)

Szacowanie błędów hipotez 5 / 25

(6)

Błąd w uczeniu się pojęć

Przykład (Do przykładu z prostokątami na płaszczyźnie)

Załóżmy, że H = C p . Mamy dany zbiór treningowy z 10 przykładami pozytywnymi i 10 negatywnymi dla jakiegoś pojęcia c ∈ C p . Mamy również hipotezę h, która też jest prostokątem. Jeśli 8 przykładów jest niepoprawnie klasyfikowanych przez h, to wtedy e c P (h) = 8/20. Błąd rzeczywisty to prawdopodobieństwo tego, że przykład wybrany losowo zgodnie z rozkładem Ω należy do obszaru błędnej klasyfikacji.

Dla prostokąta R oznaczamy P (R) prawdopodobieństwo wylosowania z

X według rozkładu Ω punktu należącego do R. Błąd rzeczywisty hipotezy

h względem pojęcia docelowego c i rozkładu Ω można zapisać jako

P (R c : R h ), gdzie R c to prostokąt odpowiadający pojęciu c, a R h to

prostokąt odpowiadający hipotezie h. Dwukropek oznacza różnicę

symetryczną zbiorów.

(7)

Błąd w uczeniu się pojęć

Przykład (Do przykładu z funkcjami boolowskimi)

Mamy dziedzinę X = {0, 1} m . Przykładowo m = 4. Mamy pojęcie

c(x ) = a 1 (x ) ∧ a 2 (x ) ∨ a 4 (x ), oraz hipotezę h(x ) = a 1 (x ) ∨ a 4 (x ). Mamy zbiór przykładów

P = n x ∈ {0, 1} 4 |a 3 (x ) = 0 o (3) 8 przykładów należy do próbki. Spośród nich jeden przykład jest błędny, to jest 1000. A więc błąd próbki wynosi e P c (h) = 1/8. Dla całej dziedziny X jest dodatkowo jeden przykład niepoprawnie zaklasyfikowany 1010.

Jeśli mamy rozkład prawdopodobieństwa na X Ω 1 , taki, który każdemu przykładowi przypisuje jednakowe prawdopodobieństwo 1/16, to

e c

1

(h) = 1/16 + 1/16 = 1/8.

Szacowanie błędów hipotez 7 / 25

(8)

Szacowanie błędów hipotez

celem jest poszukiwanie hipotez o minimalnym błędzie rzeczywistym inne możliwe cele to czytelność hipotezy dla człowieka, prostota cele zastępcze: minimalny błąd na zbiorze trenującym, dodatkowo preferencje dla prostych hipotez

jak oszacować prawdopodobny błąd rzeczywisty hipotezy

(9)

Szacowanie błędów hipotez

techniki szacowania błędów w indukcyjnym uczeniu się pojęć każdą hipotezę indukcyjną można traktować jako hipotezę statystyczną, mówiącą o pewnej właściwości dziedziny, nazywanej populacją

Szacowanie błędów hipotez 9 / 25

(10)

Estymacja przedziałowa

szacowanie błędów rzeczywistych za pomocą estymacji przedziałowej szacowanie wartości pewnego nieznanego parametru rozważanej populacji na podstawie jego estymatora

estymator jest zmienną losową o wartościach wyznaczanych na podstawie losowej próby elementów z tej populacji

wartość dla konkretnej próby jest nazywana oceną estymowanego parametru

parametr oznacza zazwyczaj częstość występowania w populacji elementów o określonej wartości pewnej cechy statystycznej, czyli mających pewną właściwość

naturalnym estymatorem jest częstość występowania tej cechy w losowej próbie wybranej z populacji

dla różnych losowych prób będą to na ogół różne częstości, czyli

różne realizacje zmiennej losowej, którą jest estymator

(11)

Estymacja przedziałowa

estymacja przedziałowa polega na wyznaczaniu przedziałów ufności dla estymowanego parametru na podstawie estymatora

przedział ufności wyznacza się dla ustalonego poziomu ufności, który jest prawdopodobieństwem, że rzeczywista wartość parametru znajduje się w tym przedziale

Definicja (Przedział ufności)

Przedziałem ufności dla parametru p o poziomie ufności 1 − δ dla 0 ≤ δ ≤ 1 jest każdy przedział, do którego wartość p należy z prawdopodobieństwem równym 1 − δ.

Celem estymacji przedziałowej jest wyznaczenie przedziału ufności dla danego parametru p na podstawie pewnego estymatora tego

parametru Y p .

jeśli jest to estymator nieobciążony, czyli E (Y p ) = p, to każda realizacja tego estymatora, czyli wyznaczona na podstawie losowej próby ocena y p jest środkiem pewnego przedziału ufności dla p

Szacowanie błędów hipotez 11 / 25

(12)

Estymacja przedziałowa

granice tego przedziału można wyznaczyć na podstawie rozkładu zmiennej losowej, jaką jest estymator

interesujący jest rozkład dwumianowy – rozkład zmiennej losowej oznaczającej liczbę sukcesów w określonej liczbie prób Bernoulliego parametry tego rozkładu to liczba prób n i prawdopodobieństwo sukcesu w pojedynczej próbie p

gdy wartość p nie jest znana można ją oszacować za pomocą estymacji przedziałowej na podstawie eksperymentu o dostatecznie dużej liczbie prób

dla rozkładu dwumianowego przedział ufności o poziomie ufności 1 − δ dla parametru p to

y p − u δ s

y p (1 − y p )

n , y p + u δ

s

y p (1 − y p ) n

 (4)

gdzie y p = r /n jest realizacją estymatora Y p , czyli stosunkiem liczby

sukcesów r do liczby prób n w przeprowadzonym eksperymencie,

(13)

Estymacja przedziałowa

, a u δ wyznaczone jest z warunku

P (|U| < u δ ) = 1 − δ (5) dla zmiennej losowej U o standardowym rozkładzie normalnym N (0, 1)

wartość

s

y p (1 − y p )

n (6)

jest przybliżeniem wartości s

p (1 − p)

n (7)

rozkład dwumianowy został przybliżony rozkładem normalnym. Takie przybliżenie jest dopuszczalne dla odpowiednio dużej liczby prób n i wartości p niezbyt bliskich 0 lub 1.

można korzystać z niego, gdy ny p (1 − y p ) ≥ 5

Szacowanie błędów hipotez 13 / 25

(14)

Przedziały ufności dla błędu rzeczywistego

klasyfikowanie przykładów za pomocą hipotezy ma cechy próby Bernoulliego

“sukces” to pomyłka w klasyfikacji. Jego prawdopodobieństwo dla przykładu wybranego z dziedziny zgodnie z pewnym rozkładem prawdopodobieństwa Ω to parametr tego rozkładu dwumianowego dana jest hipoteza h ∈ H i zbiór przykładów P ⊆ X wybranych zgodnie z rozkładem prawdopodobieństwa Ω niezależnie od tej hipotezy i niezależnie od siebie nawzajem

c to dowolne pojęcie docelowe, względem którego jest określany błąd hipotezy h

najbardziej prawdopodobną wartością błędu rzeczywistego e c (h) jest wartość błędu próbki e P c (h)

dla dowolnego 0 ≤ δ < 1 z prawdopodobieństwem w przybliżeniu równym 1 − δ

|e c (h) − e c P (h)| < u δ

s e P c (h) 1 − e P c (h) 

|P| (8)

(15)

Przedziały ufności dla błędu rzeczywistego

im mniejsze różnice staramy się wykryć, tym więcej danych potrzebujemy do ich wykrycia

zadanie polega na wykryciu czy moneta jest źle wyważona. Jeśli np.

prawdopodobieństwo wyrzucenia reszki byłoby 0.9, to łatwiej wykryć takie niewyważenie, niż gdyby prawdopodobieństwo było równe 0.501 Czy da się oszacować ilość danych potrzebnych do wykrycia różnicy w prawdopodobieństwie 0.001 przy rzucie niewyważoną monetą?

Szacowanie błędów hipotez 15 / 25

(16)

Przedziały ufności dla błędu rzeczywistego

zalecane jest korzystanie z tego oszacowania dla |P| ≥ 30 lub

|P|e P c (h)(1 − e P c (h)) ≥ 5

zazwyczaj bierze się pod uwagę przedział ufności 1 − δ = 0, 95. Wtedy

|e c (h) − e P c (h)| < 1, 96

s e P c (h) 1 − e P c (h) 

|P| (9)

metoda ta nadaje się do szacowania dokładności hipotez za pomocą zbiorów przykładów od nich niezależnych. Zazwyczaj hipoteza generowana jest na podstawie zbioru trenującego, wtedy oszacowanie nie może być stosowane

dlatego w praktyce używa się oddzielnego zbioru trenującego i zbioru do szacowania jakości hipotezy, czyli walidacji (zbiór testujący) zbiór etykietowanych przykładów pojęcia docelowego dzielimy losowo na dwa rozłączne podzbiory trenujący i testujący

stosowana jest również procedura zwana k-krotną walidacją krzyżową

(17)

Przykład

dana jest dziedzina X , klasa pojęć C. Wybrano 100 przykładów otrzymując poprawną klasyfikację dla 80 z nich i niepoprawną dla pozostałych 20

czyli

e p c (h) = 0, 2 (10)

z prawdopodobieństwem 0, 95 błąd rzeczywisty e c (h) znajduje się w przedziale z lewej strony

0, 2 − 1, 96 s

0, 2 (1 − 0, 2)

100 = 0, 1216 (11)

z prawej strony

0, 2 + 1, 96 s

0, 2 (1 − 0, 2)

100 = 0, 2784 (12)

dla poziomu ufności 1 − δ = 0, 9, wtedy u = 1, 64. Wtedy przedział ufności to (0, 1344; 0, 2656)

Szacowanie błędów hipotez 17 / 25

(18)

Model PAC

(19)

Model PAC

sformalizowany model uczenia się

dana dziedzina X , klasa pojęć C i przestrzeń hipotez H kolejne przykłady zbioru trenującego T generuje wyrocznia wyrocznia to zmienna losowa EX (c, Ω) zwracająca przykład

etykietowany x → c(x ), gdzie x ∈ X jest przykładem wylosowanym zgodnie z rozkładem Ω

zadaniem ucznia jest znalezienie hipotezy minimalizującej błąd rzeczywisty dla pojęcia docelowego c względem rozkładu Ω e c (h) jak określić warunki przy których uczeń znajdzie dobrą hipotezę (o ograniczonym błędzie rzeczywistym) z dużym prawdopodobieństwem (powyżej określonego progu). Są to warunki PAC-nauczalności (probably approximately correct). Warunki uzyskania przez ucznia hipotezy prawdopodobnie w przybliżeniu poprawnej.

Model PAC 19 / 25

(20)

Model PAC

Definicja

Klasa pojęć C na dziedzinie X jest PAC-nauczalna za pomocą przestrzeni hipotez H, jeśli istnieje algorytm uczenia się używający H, którego uruchomienie z dostępem do wyroczni EX (c, Ω) oraz z parametrami  i δ dla dowolnego pojęcia docelowego c ∈ C , dowolnego rozkładu

prawdopodobieństwa Ω na X oraz dowolnych stałych 0 <  < 1 i 0 < δ < 1 daje w wyniku z prawdopodobieństwem 1 − δ hipotezę h ∈ H dla której e c (h) ≤ .

Algorytm taki nazywamy algorytmem PAC-uczenia się pojęć C za pomocą H

Jeśli interesuje nas koszt obliczeń definiujemy efektywną

PAC-nauczalność

(21)

Model PAC

Definicja

Klasa pojęć C na dziedzinie X jest efektywnie PAC-nauczalna za pomocą przestrzeni hipotez H, jeśli C jest PAC-nauczalna za pomocą przestrzeni hipotez H i istnieje algorytm PAC-uczenia się dla C, który działa w czasie wielomianowym względem 1/, 1/δ, rozmiaru przykładu z X i rozmiaru pojęcia z C, którego się uczy.

dla każdej rozważanej klasy pojęć C jest określona funkcja rozmiaru pojęcia s C przyporządkowująca każdemu pojęciu c ∈ C nieujemną liczbę całkowitą s C (c) oznaczającą jego rozmiar. Funkcja rozmiaru jest także określona dla każdej przestrzeni hipotez H.

Model PAC 21 / 25

(22)

Model PAC

Definicja

Klasa pojęć C na dziedzinie X jest efektywnie PAC-nauczalna za pomocą przestrzeni hipotez H, jeśli C jest PAC-nauczalna za pomocą przestrzeni hipotez H i istnieje algorytm PAC-uczenia się dla C, który działa w czasie wielomianowym względem 1/, 1/δ, rozmiaru przykładu z X i rozmiaru pojęcia z C, którego się uczy.

dla każdej rozważanej klasy pojęć C jest określona funkcja rozmiaru

pojęcia s C przyporządkowująca każdemu pojęciu c ∈ C nieujemną

liczbę całkowitą s C (c) oznaczającą jego rozmiar. Funkcja rozmiaru

jest także określona dla każdej przestrzeni hipotez H.

(23)

Model PAC - przykład

algorytm najciaśniejszego dopasowania, hipoteza h odpowiadająca najmniejszemu prostokątowi, który zawiera wszystkie przykłady pozytywne należące do T i nie zawiera żadnego przykładu negatywnego. Dla takiej hipotezy R h ⊆ R c . Stąd wynika, że (R h : R c ) = R c − R h . Jeśli P(R c ) ≤ , to także

e c (h) = P(R c − R h ) ≤ . Przy założeniu, że P(R c ) >  też trzeba ograniczyć błąd rzeczywisty hipotezy.

Model PAC 22 / 25

(24)

Model PAC - przykład

Rysunek 1

(25)

Model PAC - przykład

aby go ograniczyć, wykroimy prostokąt w prostokącie c tak aby różnica między prostokątami miała prawdopodobieństwo . Aby zapewnić, że błąd hipotezy nie będzie przekraczał , wystarczy zapewnić, aby różnica R c − R h była podzbiorem tego pasa .

Ten warunek jest spełniony kiedy każdy z boków prostokąta będzie zawierał przynajmniej jeden przykład pozytywny ze zbioru

trenującego.

prawdopodobieństwo, że tak nie jest wynosi nie więcej niż 4(1 − /4) |T | i na mocy nierówności 1 + α ≤ e α , w której

przyjmujemy α = −/4, jest ograniczone przez 4e −|T |/4 . Wyrażenie to można ograniczyć przez δ, jeśli

|T | ≥ 4





ln 4 + ln 1 δ



(13)

Model PAC 24 / 25

(26)

Model PAC - przykład

rozważana klasa pojęć jest właściwie PAC-nauczalna, gdyż algorytm najciaśniejszego dopasowania znajduje z dostatecznie dużym

prawdopodobieństwem hipotezę o dostatecznie małym błędzie rzeczywistym, pod warunkiem dostarczeniu mu dostatecznie wielu przykładów trenujących

liczba wymaganych przykładów zależy liniowo od 1/ i logarytmicznie

od 1/δ, a czas działania tego algorytmu zależy wielomianowo od

liczby przykładów o rozmiaru pojęcia docelowego, więc jest to

algorytm efektywnego PAC uczenia się

Cytaty

Powiązane dokumenty

Pisanie odpowiedniego oprogramowania przy zastosowaniu uczenia

Twierdzenie 17 (Warunkowa

Tego, jaki jest dla pisarza ideał wiary prawdziwej, trzeba zatem poszukiwać przede wszystkim w jego krytyce wiary ułomnej, a ta krytyka dotyczy gnieżdżącej się w

Obliczmy prawdopodobieństwo, że liczba całkowita wylosowana ze zbioru liczba od 0000 do 9999 będzie miała sumę pierwszych dwóch cyfr równą sumie ostatnich dwóch cyfr.. Każda

(2 pkt) Podaj definicję kwantyla rzędu p rozkładu zmiennej losowej oraz jej źródło (autor, tytuł, rok wydania, strona).. (1 pkt) Niech zmienna losowa X posiada rozkład równomierny

War.zmien.losow. jest średnią kwadratowa odchyleniem zmiennej losowej od jej wart.sred. parametry które mówią o rozprosz. który z nich jest bardziej efektywny?..

Można założyć, że czas wykonania wytwarzanych elementów jest zmienną losową o rozkładzie normalnym o znanej wariancji 81 (min.. Dla 9-ciu losowo wybranych

Przeciętna liczba punktów zdobywana na klasówce jest liczbą z przedziału (0.576, 0.602).. Za- ufanie do tego wniosku