Prawdopodobieństwo w uczeniu maszynowym

(1)

Prawdopodobieństwo w uczeniu maszynowym

Marcin Orchel

AGH University of Science and Technology in Poland

(2)

Agenda

(3)

1

Prawdopodobieństwo

2

Klasyfikator bayesowski

(4)

Prawdopodobieństwo

(5)

Wstęp

Dlaczego w rzutach trzema kostkami suma dziesięciu oczek pojawia

się częściej niż suma dziewięciu oczek?

(6)

Wstęp

Wyobraź sobie, że jesteś w grze Idź na całość i są do wyboru trzy bramki. Za jedną z nich jest samochód, za pozostałymi zonki. Masz możliwość wyboru jednej bramki i zatrzymania tego co jest za nią.

Załóżmy, że wybrałeś bramkę nr. 1, ale jeszcze jej nie zobaczyłeś.

Prowadzący, który wie co jest za wszystkimi bramkami, otwiera

bramkę nr. 2, za którą wie, że znajduje się zonk. Wtedy prowadzący

pyta się: czy chcesz zamienić bramkę nr. 1 na bramkę nr. 3, czy

chcesz zatrzymać bramkę nr. 1?

(7)

Wstęp

Czy to ma znaczenie czy zamienisz bramkę?

oryginalny wybór bramki A A A B B B C C C

gdzie jest samochód A B C A B C A B C

bramka, którą może

otworzyć prowadzący B,C C B C A,C A B A A,B

nie zmieniamy bramki W L L L W L L L W

zmieniamy bramkę L W W W L W W W L

z przedostatniego wiersza prawdopodobieństwo wygranej przy braku zmiany bramki to 3/9 = 1/3

z ostatniego wiersza prawdopodobieństwo wygranej przy zmianie

bramki wynosi 6/9 = 2/3

(8)

Rozwiązanie

Prawdopodobieństwo warunkowe zdefiniowane jest jako

P (X ∩ Y ) = P (X |Y ) P (Y ) (1) najprostsza wersja twierdzenia Bayesa to

P (Y |X ) = P (X |Y ) P (Y )

P (X ) (2)

mianownik można zapisać także jako

P (X ) = P (X ∩ R) + P (X ∩ S) + P (X ∩ T ) (3)

= P (X |R) P (R) + P (X |S) P (S) + P (X |T ) P (T ) (4) dla rozłącznych zdarzeń R, S, T sumujących się do X

możemy zdefiniować takie zdarzenia A – samochód jest za bramką A,

B – samochód jest za bramką B, C – samochód jest za bramką C ,

M

_B

– prowadzący otwiera bramkę B

(9)

Rozwiązanie

możemy zauważyć, że jeśli wybierzemy bramkę A na początku, to P(M

_B

|A) = 1/2, P(M

_B

|B) = 0, P(M

_B

|C ) = 1

Dlatego

P (M

_B

) = P (M

_B

|A) P (A) + P (M

_B

|B) P (B) + P (M

_B

|C ) P (C ) (5)

= 1 2 × 1

3 + 0 × 1

3 + 1 × 1 3 = 1

2 (6)

następnie obliczamy prawdopodobieństwo wygrania samochodu bez zmiany bramki jako

P (A|M

_B

) = P (M

_B

|A) P (A) P (M

_B

) =

1 2

×

¹₃

1 2

= 1

3 (7)

prawdopodobieństwo wygrania samochodu po zmianie bramki P (C |M

B

) = P (M

B

|C ) P (C )

P (M

_B

) = 1 ×

¹₃

1 2

= 2

3 (8)

(10)

Twierdzenie Bernoulliego (prawo wielkich liczb)

Średnia wyników z dużej liczby prób (np. rzucania kostką lub monetą) dąży do wartości oczekiwanej (tym bardziej się do niej zbliża, im dłuższy jest ciąg liczb)

Jeżeli zmienna losowa jest typu dyskretnego tzn. przyjmuje wartości dyskretne x

1

, x

2

, . . . , x

n

(dla rzutów kostką to 1,2,3,4,5,6) z prawdopodobieństwami równymi odpowiednio p

₁

, p

₂

, . . . , p

_n

, to wartość oczekiwaną W oblicza się jako

W = x

1

p

1

+ x

2

p

2

+ . . . + x

n

p

n

p

₁

+ p

₂

+ p

₃

(9)

Dla rzutu kostką p

1

= p

2

= . . . = p

n

= 1/6. Wartość oczekiwana W = 3, 5.

Średnia wyników z dużej liczby rzutów dąży do 3,5 i im dłuższy jest

ciąg rzutów, tym bardziej średnia wyników zbliża się do tej liczby.

(11)

Twierdzenie Bernoulliego (prawo wielkich liczb)

Ogólniej słaba forma prawa wielkich liczb.Oznaczmy przez s

n

liczbę sukcesów otrzymanych w n próbach. Średnia sukcesów to Z

_n

= s

_n

/n.

Dla każdej liczby dodatniej ε istnieje wskaźnik m taki, że dla każdego

n > m odległość między Z

_n

, a W jest mniejsza od ε.

(12)

Twierdzenie Bernoulliego (prawo wielkich liczb)

Rysunek 1:

Źródło: wikipedia

(13)

Centralne twierdzenie graniczne

losowe pobieranie liczb ze zbioru wartości liczbowych {1, 2, 3, 4, 5, 6}, w taki sposób, że mogą występować powtórzenia. Liczymy średnią arytmetyczną. Następnie liczymy średnią arytmetyczną dla kolejnych ciągów złożonych z pięciu liczb. Powtarzamy obliczanie średnich wiele razy i w ten sposób uzyskamy pewien rozkład wartości średnich rozmiar próbek może być różny, 5, 10, itp.

powiększając rozmiar próbki, krzywa rozkładu średnich będzie się

coraz bardziej zbliżała do krzywej rozkładu normalnego (krzywej

dzwonowej)

(14)

Centralne twierdzenie graniczne

Rysunek 2:

Źródło: wikipedia

(15)

Subiektywna interpretacja prawdopodobieństwa

Rozważamy pewną hipotezę H, za pomocą której chcemy wyjaśnić jakieś zjawisko. Zakładamy, że prawdopodobieństwo tego, iż hipoteza H jest prawdziwa, wynosi P(H) (może to być subiektywne

przekonanie).

Prawdopodobieństwo P(H) możemy nazwać prawdopodobieństwiem a priori (prior probability ), lub prawdopodobieństwem wyjściowym.

Zaobserwowano wynik E pewnego doświadczenia i istnieje pewne prawdopodobieństwo, oznaczane jako P(E |H), że E jest następstwem hipotezy H, czyli, że H wyjaśnia E .

W jaki sposób ta nowa informacja wpłynie na przekonanie, że hipotezie H należy przypisać prawdopodobieństwo P(H)?

nowe prawdopodobieństwo oznaczane jako P(H|E ), nazywane

prawdopodobieństwem a posteriori (posterior probability ), inaczej

prawdopodobieństwem końcowym.

(16)

Subiektywna interpretacja prawdopodobieństwa

Przejście od prawdopodobieństwa wyjściowego do końcowego według wzoru

P (H|E ) = P (E |H)

P (E ) P (H) (10)

gdzie P(E |H) oznacza prawdopodobieństwo tego, że E jest prawdziwe przy założeniu hipotezy H (czyli, że E wynika z H), P(E ) to

prawdopodobieństwo tego, że E jest prawdziwe bez zakładania hipotezy H

wzór można zapisać jako

prawd. końcowe = (wpływ E na H) × prawd. początkowe (11) znamy wynik E pewnego doświadczenia i szukamy hipotezy H, z której E by wynikało, czyli która wyjaśniałaby E

jeśli pojawią się nowe argumenty na rzecz H, to prawd. końcowe

można uznać za nowe prawd. początkowe i całe rozumowanie

powtórzyć

(17)

Prawdopodobieństwo jako miara

Rozważmy przestrzeń X i zbiór S podzbiorów (zakładamy, że zbiór pusty należy do X ). Zakładamy, że zbiór S jest σ-polem, tzn. dla każdych dwóch podzbiorów zbioru S ich suma i różnica także należą do S oraz każda przeliczalna suma podzbiorów przestrzeni S także należy do S.

Niech będzie dana funkcja

m : S → R

+

(12)

przypisująca każdemu podzbiorowi s

i

dodatnią liczbę rzeczywistą m(s

_i

).

Zakładamy ponadto, że

m (∅) = 0 (13)

czyli, że miara zbioru pustego równa się zeru

(18)

Prawdopodobieństwo jako miara

dla każdej przeliczalnej rodziny wzajemnie rozłącznych podzbiorów (s

1

, . . . , s

n

, . . .) przestrzeni S zachodzi

m

∞

[

i =1

s

_i

!

=

∞

X

i =1

m (s

_i

) (14)

czyli, że miara sumy (przeliczalnej) wzajemnie rozłącznych podzbiorów przestrzeni X równa się sumie (przeliczalnej) miar tych podzbiorów funkcję m nazywamy miarą na X , a wartość m(s

i

) nazywamy miarą podzbioru s

_i

trójkę (X , S, m) nazywamy przestrzenią miary

jeżeli m(X ) = 1, to przestrzeń miary (X , S, m) nazywamy przestrzenią prawdopodobieństwa (przestrzenią probabilistyczną)

podzbiory przestrzeni X (czyli elementy przestrzeni S) nazywamy

zdarzeniami, a wielkość m(s

_i

) prawdopodobieństwem zdarzenia s

_i

(19)

Interpretacja prawdopodobieństwa

interpretacja subiektywna (epistemiczna - oparta na wiedzy) i interpretacja obiektywna (ontologiczna)

interpretacja subiektywna - prawdopodobieństwo jest miarą naszej niewiedzy o rzeczywistym stanie rzeczy

interpretacja obiektywna - prawdopodobieństwo jest miarą

niezdeterminowania lub nieokreślenia rzeczywiście występującego w przyrodzie jakiegoś zdarzenia lub ciągu zdarzeń

przypisywanie miary stopnia przekonania jakiegoś zdania nazywa się prawdopodobieństwem a priori.

interpretacja obiektywna (częstościowa) - prawdopodobieństwo

rozumie się jako stosunek liczby “zdarzeń sprzyjających” do liczby

wszystkich możliwych zdarzeń (przy założeniu, że wszystkie zdarzenia

są jednakowo prawdopodobne)

(20)

Interpretacja częstościowa

w powtarzającej się sytuacji określone zdarzenia pojawiają się w nich w przybliżeniu ze stałą częstością

udział proporcji liczby przypadków, w których zdarzenie miało miejsce,

w nieskończenie długiej serii powtórzeń tego samego doświadczenia

(21)

Interpretacja subiektywna

osobista opinia co do możliwości wystąpienia danego zdarzenia prawdopodobieństwo jest wewnętrzną własnością umysłu, a nie cechą świata fizycznego

prawdopodobieństwo nie istnieje

(22)

Interpretacje prawdopodobieństwa

interpretacja klasyczna: opiera się na pojęciu symetrii

prawdopodobieństwo logiczne: zamiast dwóch wartości 0 i 1 stosuje się stopień ufności wyrażany liczbami z przedziału od 0 do 1. W jakim stopniu A implikuje B. Inne określenia: wiarygodność, miara

racjonalnego zaufania, racjonalny stopień przekonania, stopień potwierdzenia.

interpretacja skłonnościowa - inklinacja obiektów do zachowywania się

w pewien sposób

(23)

Interpretacja prawdopodobieństwa

umysł ludzki ma następującą własność: duże prawdopodobieństwo występowania jakiegoś zdarzenia jesteśmy skłonni uważać za rację wystarczającą jego pojawienia się, natomiast małe

prawdopodobieństwo występowania jakiegoś zdarzenia domaga się - naszym zdaniem - uzasadnienia skądinąd. Jeżeli takiego uzasadnienia nie potrafimy znaleźć, zdarzenie uważamy za przypadkowe i często dziwimy się, że się przytrafiło

za pomocą teorii prawdopodobieństwa można badać zdarzenia, które nie są powiązane z “prawdziwym przypadkiem”, np. badać

prawdopodobieństwo wystąpienia zestawu cyfr 0123456789 w

dziesiętnym rozwinięciu liczby π, albo np. rozkład liczb pierwszych w

zbiorze liczb naturalnych

(24)

Prawo Borela

Prawo Borela: wydarzenia o dostatecznie małym prawdopodobieństwie nigdy się nie zdarzą

Prawdopodobieństwo, które jest nieistotne w skali ludzkiej wynosi mniej niż około 1 na milion.

Prawdopodobieństwo, które jest nieistotne w skali Ziemi wynosi mniej niż około 1 do 10

¹⁵

Prawdopodobieństwo, które jest nieistotne w skali kosmicznej wynosi mniej niż około 1 do 10

⁵⁰

Prawdopodobieństwo, które jest nieistotne w skali superkosmicznej

wynosi mniej niż około 1 do 10

1.000.000.000

.

(25)

Prawo Borela

(26)

Zasada nieprawdopodobieństwa

Nawet bardzo nieprawdopodobne wydarzenia czasem następują.

(27)

Prawo nieuchronności

jeśli stworzysz kompletną listę wszystkich możliwych rezultatów, to

wtedy jeden z nich musi wystąpić

(28)

Prawo naprawdę wielkich liczb

jeśli liczba okazji do wystąpienia zaskakującego zdarzenia jest wystarczająco duża, to możliwe jest wystąpienie tego zdarzenia jeśli coś jest możliwe i podejmiemy dostateczną liczbę prób, to się spełni

Paradoks dnia urodzin. Ile osób musi być w pokoju, żeby

prawdopodobieństwo, że co najmniej dwie z nich mają urodziny tego samego dnia w roku, było większe niż 1/2? Liczba okazji jest dużo większa, niż się wydaje na pierwszy rzut oka.

Sprawdzamy zbieżność dowolnej pary osób.

(29)

Efekt look-elsewhere

look-elsewhere, efekt szukania gdzie indziej, oczekiwane skupisko danych wykryto wskutek czystego przypadku i w konsekwencji wyboru dużej liczby potencjalnie obiecujących stref poszukiwań

Jakie jest prawdopodobieństwo pojawienia się szczególnej sekwencji gdziekolwiek w wielkim zbiorze danych?

statystyka skanująca

(30)

Prawo selekcji

możesz dowolnie zwiększać prawdopodobieństwo, jeśli dokonujesz selekcji po zaistnieniu zdarzenia

efekt pewności wstecznej

(31)

Prawo selekcji

regresja do średniej – to co rośnie musi potem maleć

występuje wszędzie, gdzie wynik liczbowy, rezultat albo odpowiedź mają składnik losowy

trzeba przyjmować z dużą ostrożnością założenia co do tego, jaka jest norma w osiąganych rezultatach – ekstremalnie dobre wyniki mogą być uzyskane głównie przez przypadek

błąd doboru w nauce – selektywny wybór wyników, zdefiniowanie stawianej hipotezy po przeprowadzeniu eksperymentu i otrzymaniu wyników, harking hypothesizing after the results are known

złudzenie publikacyjne (efekt szuflady) – czasopisma naukowe mają tendencję do publikowania przede wszystkim badań potwierdzających istnienie jakiegoś zjawiska, a nie badań, które mu zaprzeczają, nieopublikowane wyniki badań wędrują do szuflady

tendencja do publikowana “odkryć”, które później są obalane

(32)

Prawo dźwigni prawdopodobieństwa

jak wielki wpływ na prawdopodobieństwo mogą mieć niewielkie zmiany warunków otoczenia

niewielkie zmiany kształtów krzywych rozkładu mogą zmienić

prawdopodobieństwo zdarzeń z niesamowicie małego na dużo większe

zdarzenie 5 sigma prawdopodobieństwo w rozkładzie normalnym to 1

do 3,5 miliona, w rozkładzie Cauchy’ego 1 do 16

(33)

Prawo dźwigni prawdopodobieństwa

Rysunek 3:

Źródło: stackexchange.com

(34)

Prawo mniej więcej

przypadki, które są dostatecznie podobne, mogą być traktowane jako

identyczne

(35)

Prawdopodobieństwo

szansa vs prawdopodobieństwo

Ryzyko podobnie jak “fart” lub “pech” łączy w sobie określanie prawdopodobieństwa danego zdarzenia z oceną wartości jego skutków.

Jednak ryzyko ogranicza się tylko do niekorzystnych przypadków.

Losowość. W statystyce losowa sekwencja liczb oznacza, że nie można

przewidzieć wartości kolejnych liczb. W teorii algorytmów sekwencja

liczba jest losowa, jeśli nie można ich opisać w krótszy sposób niż

przez podanie całego łańcucha liczb.

(36)

Prawdopodobieństwo

złudzenie gracza (paradoks hazardzisty)

(37)

Klasyfikator bayesowski

(38)

Klasyfikator bayesowski

zmienna losowa – funkcja przypisująca zdarzeniom elementarnym liczby, odwzorowanie przenoszące badanie prawdopodobieństwa z przestrzeni probabilistycznej do przestrzeni euklidesowej

X : Ω → R (15)

X = (X ~

1

, X

2

, . . . , X

p

)

⁰

(16)

to wektor losowy o p składowych

(39)

Klasyfikator bayesowski

pary losowe

X ~

₁

, Y

₁

, . . . , X ~

_n

, Y

_n

(17) gdzie ~ X

i

= (X

i 1

, X

i 2

, . . . , X

ip

) jest i -tą obserwacją, Y

i

etykietą

obserwacji, składowe wektora ~ X

i

to cechy, zmienne, atrybuty próba

L

_n

= ⁿ X ~

1

, Y

1

, . . . , X ~

n

, Y

n

o (18)

to próba ucząca

klasyfikacja - predykcja etykiety Y na podstawie wektora ~ X

Klasyfikator - to funkcja d : X → Y. Dla nowego wektora ~ X prognozą etykiety Y jest d (~ X ), np. Y = {0, 1}.

zakładamy ~ X ∈ X , Y ∈ Y, zazwyczaj rozważamy X ⊆ R

^p

miarą jakości klasyfikatora jest rzeczywisty poziom błędu (true error rate) równy

e (d ) = P d X ~ 6= Y (19)

(40)

Klasyfikator bayesowski

przyjmujemy założenie, że (~ X , Y ) to para losowa w R

^p

× {1, 0}

rozkład prawdopodobieństwa tej pary opisuje para (µ, r ), gdzie µ to miara probabilistyczna wektora ~ X oraz r jest regresją Y względem ~ X , czyli dla borelowskiego zbioru A ⊆ R

^p

µ (A) = P X ∈ A ~ (20)

oraz dla każdego ~ x ∈ R

^p

r (~ x ) = E Y |~ X = ~ x = 1 · P Y = 1|~ X = ~ x + 0 · P Y = 0|~ X = ~ x (21)

= P Y = 1|~ X = ~ x (22)

czyli r (~ x ) jest prawdopodobieństwem warunkowym, że Y = 1, gdy

X = ~ ~ x

(41)

Klasyfikator bayesowski

z twierdzenia Bayesa mamy

r (~ x ) = P Y = 1|~ X = ~ x (23)

= f (~ x |Y = 1) P (Y = 1)

f (~ x |Y = 1) P (Y = 1) + f (~ x |Y = 0) P (Y = 0) (24) π

1

f

1

(~ x )

π

₁

f

₁

(~ x ) + π

₀

f

₀

(~ x ) (25) gdzie π

1

i π

0

to prawdopodobieństwa a priori dwóch klas o etykietach jeden i zero, f to funkcja gęstości

klasyfikator bayesowski to d

_B

(~ x ) =

( 1, jeśli r (~ x ) >

¹₂

0, poza tym (26)

(42)

Klasyfikator bayesowski

inna postać

d

_B

(~ x ) =







1, jeśli P Y = 1|~ X = ~ x > P Y = 0|~ X = ~ x

0, poza tym (27)

inna postać

d

B

(~ x ) =

( 1, jeśli π

₁

f

₁

(~ x ) > π

₀

f

₀

(~ x )

0, poza tym (28)

powierzchnia rozdzielająca grupy 1 i 0 to zbiór

n ~ x : P Y = 1|~ X = ~ x = P Y = 0|~ X = ~ x ^o (29)

(43)

Klasyfikator bayesowski

Twierdzenie

Klasyfikator bayesowski jest optymalny, tj. jeżeli d jest jakimkolwiek innym klasyfikatorem, to e(d

_B

) ≤ e(d ), gdzie e(d ) jest rzeczywistym poziomem błędu klasyfikatora d danym wzorem (19).

nie znamy rozkładu prawdopodobieństwa pary (~ X , Y )

w jaki sposób skonstruować klasyfikator ˆ d (~ x ) = ˆ d (~ x ; L

n

), czyli oparty na próbie uczącej

proces konstrukcji klasyfikatora ˆ d jest nazywany uczeniem się

zakładamy, że próba ucząca jest ciągiem niezależnych par losowych o

identycznym rozkładzie prawdopodobieństwa takim, jak rozkład pary

(~ X , Y )

(44)

Klasyfikator bayesowski

jakość klasyfikatora możemy zapisać jako warunkowe prawdopobieństwo błędu

e d ˆ = P d ˆ X ~ 6= Y |L

_n

(30) gdzie para losowa (~ X , Y ) jest niezależna od próby uczącej L

_n

wielkość e(ˆ d ) nazywamy aktualnym poziomem błędu (actual error rate) klasyfikatora ˆ d

chcemy znaleźć taki klasyfikator ˆ d dla którego e(ˆ d ) jest bliskie e(d

_B

)

(45)

Klasyfikator bayesowski

klasyfikator ˆ d jest zgodny, jeśli e(ˆ d ) zbiega wg prawdopodobieństwa do e(d

_B

) czyli dla każdego ε > 0

n→∞

lim P e d ˆ − e (d

_B

) ≥ ε = 0 (31) mocno zgodny, gdy

P lim

n→∞

e d ˆ = e (d

_B

) = 1 (32)

(46)

Klasyfikator bayesowski

3 główne podejścia do konstrukcji klasyfikatora z próby uczącej

1

Ustalamy miarę mierzącą ryzyko związane z użyciem klasyfikatora ˆ d oznaczane jako R(ˆ d ). Wybieramy klasyfikator, który minimalizuje ryzyko

d ˆ

0

= arg min

ˆd ∈D

R ˆ d

(33)

2

Znajdujemy ocenę ˆ r funkcji regresji i definiujemy

d (~ ˆ x ) =

( 1 jeśli ˆ r (~ x ) >

¹₂

0, poza tym (34)

3

Estymujemy gęstości prawdopodobieństwa i definiujemy

ˆ

r (~ x ) = π ˆ

1

ˆ f

1

(~ x ) ˆ

π

₁

ˆ f

₁

(~ x ) + (1 − ˆ π

₁

) ˆ f

₀

(~ x ) (35)

(47)

Klasyfikator bayesowski dla wielu klas

załóżmy, że Y ∈ Y = {1, . . . , K }. Klasyfikator bayesowski d

_B

(~ x ) = arg max

k

P (Y = k|X = x ) = arg max

k

π

_k

f

_k

(~ x ) (36) gdzie

P (Y = k|X = x ) = π

_k

f

_k

(~ x ) P

K

i =1

π

_i

f

_i

(~ x ) (37)

π

i

= P (Y = i ) (38)

f

i

(~ x ) = f (~ x |Y = i ) (39)

(48)

Klasyfikator bayesowski dla wielu klas

Twierdzenie

Klasyfikator bayesowski d

_B

dany powyższym wzorem jest optymalny, to znaczy jeśli d jest jakimkolwiek innym klasyfikatorem, to e(d

B

) ≤ e(d ), gdzie e(d ) jest rzeczywistym poziomem błędu klasyfikatora d . Ponadto

e (d

B

) = 1 − Z

R^p

1≤j≤K

max f

j

(~ x ) π

j

d~ x (40)

Dowód.

Niech

Ω

i

= {~ x ∈ X : d (~ x ) = i } , i = 1, 2, . . . , K (41) P d X ~ = Y =

K

X

j=1

P d X ~ = j|Y = j π

j

(42)

=

K

X

j=1

Z

Ωj

f

j

(~ x ) π

j

d~ x (43)

(49)

Klasyfikator bayesowski dla wielu klas

Rysunek 4

(50)

Klasyfikator bayesowski dla wielu klas

Rysunek 5

(51)

Klasyfikator bayesowski dla wielu klas

(52)

Klasyfikator bayesowski dla wielu klas

Rysunek 7

(53)

Klasyfikator bayesowski dla wielu klas

Dowód.

= Z

R^p K

X

j=1

I (d (~ x ) = j) f

_j

(~ x ) π

_j

d~ x (44) gdzie I(A) to indykator zdarzenia A. Dla ustalonego ~ x

K

X

j=1

I (d (~ x ) = j) f

j

(~ x ) π

j

≤ max

j

f

j

(~ x ) π

j

(45) Równość jest osiągana, gdy d (~ x ) jest równe tej wartości j, dla której f

_j

(~ x ) π

_j

jest maksymalne. A więc mamy

P d X ~ = Y ≤ P d

B

X ~ = Y = Z

R^p

1≤j≤K

max f

j

(~ x ) π

j

d~ x (46)

(54)

Klasyfikator bayesowski dla wielu klas

oznaczmy p

_ij

jako prawdopodobieństwo błędnego zaklasyfikowania obserwacji ~ X do grupy j-tej, gdy należy do grupy i -tej

p

_ij

= P d X ~ = j|Y = i (47) dla i 6= j

mamy

p

ij

= P X ∈ Ω ~

j

|Y = i = Z

Ωj

f

i

(~ x ) dx (48) oznaczmy prawdopodobieństwo błędnej klasyfikacji obserwacji z grupy i -tej

p

_{i ·}

=

K

X

j=1,j6=i

P d X ~ = j|Y = i (49) rzeczywisty poziom błędu klasyfikatora nazywamy błędem

bayesowskim (bayes error rate) i możemy zapisać jako e

^∗

= e (d

_B

) = P d X ~ 6= Y =

K

X

i =1

π

i

p

i ·

(50)

Klasyfikator bayesowski 54 / 65

(55)

Klasyfikator bayesowski dla wielu klas

=

K

X

i =1

π

_i

K

X

j=1,j6=i

P d X ~ = j|Y = i (51)

=

K

X

i =1 K

X

j=1,j6=i

Z

Ωj

π

i

f

i

(~ x ) d~ x (52)

(56)

Intuicyjne rozumienie w teorii miary

Jeśli mamy dwie funkcje gęstości f

1

i f

2

to optymalny klasyfikator ma granicę decyzyjną

f

₁

(~ x ) − f

₂

(~ x ) = 0 (53) mamy granicę decyzyjną h (~ x ) = 0 taką, że

arg min

h(~x )

Z

h(~x )>0

f

₁

(~ x ) d~ x + Z

h(~x )<0

f

₂

(~ x ) d~ x (54)

powyższa granica decyzyjna będzie tożsama z granicą decyzyjną (53)

(57)

Intuicyjne rozumienie w teorii miary

Możemy aproksymować tą granicę jako Z

h(~x )>0

f

₁

(~ x ) d~ x ≈ |D

₁

|

|C

₁

| , (55)

Z

h(~x )<0

f

2

(~ x ) d~ x ≈ |D

₂

|

|C

₂

| , (56)

h

^∗

(~ x ) ≈ arg min

h(~x )

|D

₁

|

|C

₁

| + |D

₂

|

|C

₂

| , (57)

gdzie D

₁

to liczba punktów z klasą 1 w obszarze h(~ x ) > 0

problemem takiej aproksymacji, jest to, że |D

₁

| oraz |D

₂

| mogą być

bliskie 0 lub 0 dla wielu hipotez, np. dla dobrze odseparowanych klas

(58)

Intuicyjne rozumienie w teorii miary

W jaki sposób mierzyć błąd klasyfikacji? Musimy mieć jakąś miarę na zbiorze niepoprawnie zaklasyfikowanych przykładów, czyli

ε [m

c

] := µ ({x : m

c

(x ) 6= m

^∗

(x )}) . (58) celem jest wybór takiej hipotezy aby minimalizować tą miarę

kolejną miarą jest ε

₁

[m

_c

] :=

Z

{x :mc(x )=c2}

f

₁

(x ) d µ

₁

+ Z

n

_{x :m}

c(x )=c1∨ mc(x )=c0

o f

₂

(x ) d µ

₁

. (59) dla dowolnych hipotez

m

^∗

(x ) = arg min

mc(·)∈M

ε

1

[m

c

] . (60)

(59)

Intuicyjne rozumienie w teorii miary

Dowód.

W dowodzie pokazujemy, że niepoprawny wybór klasy prowadzi do większego składnika pierwszego lub drugiego błędu ε

1

. Dla m (x ) = c

2

, mamy f

1

(x ) < f

2

(x ), czyli

Z

x :

m(x )=c2, mc(x )=c1∨

mc(x )=c0

f

1

(x ) d µ

1

≤ Z

x :

m(x )=c2, mc(x )=c1∨

mc(x )=c0

f

2

(x ) d µ

1

. (61)

A zatem tutaj lepszym wyborem jest klasyfikacja poprawna bo wtedy zamiast drugiego składnika mamy część pierwszego składnika mniejszą lub równą. Dla m (x ) = c

₁

, mamy f

₁

(x ) > f

₂

(x ), czyli

Z n

x :m(x )=c1, mc(x )=c2

o f

₂

(x ) d µ

₁

≤ Z

n

x :m(x )=c1, mc(x )=c2

o f

₁

(x ) d µ

₁

. (62) Dla m (x ) = c

₁

i m

_c

(x ) = c

₀

, całki są te same. Dla m (x ) = c

₀

, mamy f

₁

(x ) = f

₂

(x ) i otrzymujemy

Z

n

_{m(x )=c}_,

o f

₂

(x ) d µ

₁

= Z

n

_{m(x )=c}_,

o f

₁

(x ) d µ

₁

. (63)

Klasyfikator bayesowski 59 / 65

(60)

Intuicyjne rozumienie w teorii miary

Dowód.

Dla m (x ) = c

0

i m

c

(x ) = c

1

∨ m

_c

(x ) = c

0

, całki są te same. Dla

m (x ) = c

1

i m

c

(x ) = c

1

lub m (x ) = c

2

i m

c

(x ) = c

2