Prawdopodobieństwo w uczeniu maszynowym
Marcin Orchel
AGH University of Science and Technology in Poland
Agenda
1
Prawdopodobieństwo
2
Klasyfikator bayesowski
Prawdopodobieństwo
Wstęp
Dlaczego w rzutach trzema kostkami suma dziesięciu oczek pojawia
się częściej niż suma dziewięciu oczek?
Wstęp
Wyobraź sobie, że jesteś w grze Idź na całość i są do wyboru trzy bramki. Za jedną z nich jest samochód, za pozostałymi zonki. Masz możliwość wyboru jednej bramki i zatrzymania tego co jest za nią.
Załóżmy, że wybrałeś bramkę nr. 1, ale jeszcze jej nie zobaczyłeś.
Prowadzący, który wie co jest za wszystkimi bramkami, otwiera
bramkę nr. 2, za którą wie, że znajduje się zonk. Wtedy prowadzący
pyta się: czy chcesz zamienić bramkę nr. 1 na bramkę nr. 3, czy
chcesz zatrzymać bramkę nr. 1?
Wstęp
Czy to ma znaczenie czy zamienisz bramkę?
oryginalny wybór bramki A A A B B B C C C
gdzie jest samochód A B C A B C A B C
bramka, którą może
otworzyć prowadzący B,C C B C A,C A B A A,B
nie zmieniamy bramki W L L L W L L L W
zmieniamy bramkę L W W W L W W W L
z przedostatniego wiersza prawdopodobieństwo wygranej przy braku zmiany bramki to 3/9 = 1/3
z ostatniego wiersza prawdopodobieństwo wygranej przy zmianie
bramki wynosi 6/9 = 2/3
Rozwiązanie
Prawdopodobieństwo warunkowe zdefiniowane jest jako
P (X ∩ Y ) = P (X |Y ) P (Y ) (1) najprostsza wersja twierdzenia Bayesa to
P (Y |X ) = P (X |Y ) P (Y )
P (X ) (2)
mianownik można zapisać także jako
P (X ) = P (X ∩ R) + P (X ∩ S) + P (X ∩ T ) (3)
= P (X |R) P (R) + P (X |S) P (S) + P (X |T ) P (T ) (4) dla rozłącznych zdarzeń R, S, T sumujących się do X
możemy zdefiniować takie zdarzenia A – samochód jest za bramką A,
B – samochód jest za bramką B, C – samochód jest za bramką C ,
M
B– prowadzący otwiera bramkę B
Rozwiązanie
możemy zauważyć, że jeśli wybierzemy bramkę A na początku, to P(M
B|A) = 1/2, P(M
B|B) = 0, P(M
B|C ) = 1
Dlatego
P (M
B) = P (M
B|A) P (A) + P (M
B|B) P (B) + P (M
B|C ) P (C ) (5)
= 1 2 × 1
3 + 0 × 1
3 + 1 × 1 3 = 1
2 (6)
następnie obliczamy prawdopodobieństwo wygrania samochodu bez zmiany bramki jako
P (A|M
B) = P (M
B|A) P (A) P (M
B) =
1 2
×
131 2
= 1
3 (7)
prawdopodobieństwo wygrania samochodu po zmianie bramki P (C |M
B) = P (M
B|C ) P (C )
P (M
B) = 1 ×
131 2
= 2
3 (8)
Twierdzenie Bernoulliego (prawo wielkich liczb)
Średnia wyników z dużej liczby prób (np. rzucania kostką lub monetą) dąży do wartości oczekiwanej (tym bardziej się do niej zbliża, im dłuższy jest ciąg liczb)
Jeżeli zmienna losowa jest typu dyskretnego tzn. przyjmuje wartości dyskretne x
1, x
2, . . . , x
n(dla rzutów kostką to 1,2,3,4,5,6) z prawdopodobieństwami równymi odpowiednio p
1, p
2, . . . , p
n, to wartość oczekiwaną W oblicza się jako
W = x
1p
1+ x
2p
2+ . . . + x
np
np
1+ p
2+ p
3(9)
Dla rzutu kostką p
1= p
2= . . . = p
n= 1/6. Wartość oczekiwana W = 3, 5.
Średnia wyników z dużej liczby rzutów dąży do 3,5 i im dłuższy jest
ciąg rzutów, tym bardziej średnia wyników zbliża się do tej liczby.
Twierdzenie Bernoulliego (prawo wielkich liczb)
Ogólniej słaba forma prawa wielkich liczb.Oznaczmy przez s
nliczbę sukcesów otrzymanych w n próbach. Średnia sukcesów to Z
n= s
n/n.
Dla każdej liczby dodatniej ε istnieje wskaźnik m taki, że dla każdego
n > m odległość między Z
n, a W jest mniejsza od ε.
Twierdzenie Bernoulliego (prawo wielkich liczb)
Rysunek 1:
Źródło: wikipedia
Centralne twierdzenie graniczne
losowe pobieranie liczb ze zbioru wartości liczbowych {1, 2, 3, 4, 5, 6}, w taki sposób, że mogą występować powtórzenia. Liczymy średnią arytmetyczną. Następnie liczymy średnią arytmetyczną dla kolejnych ciągów złożonych z pięciu liczb. Powtarzamy obliczanie średnich wiele razy i w ten sposób uzyskamy pewien rozkład wartości średnich rozmiar próbek może być różny, 5, 10, itp.
powiększając rozmiar próbki, krzywa rozkładu średnich będzie się
coraz bardziej zbliżała do krzywej rozkładu normalnego (krzywej
dzwonowej)
Centralne twierdzenie graniczne
Rysunek 2:
Źródło: wikipedia
Subiektywna interpretacja prawdopodobieństwa
Rozważamy pewną hipotezę H, za pomocą której chcemy wyjaśnić jakieś zjawisko. Zakładamy, że prawdopodobieństwo tego, iż hipoteza H jest prawdziwa, wynosi P(H) (może to być subiektywne
przekonanie).
Prawdopodobieństwo P(H) możemy nazwać prawdopodobieństwiem a priori (prior probability ), lub prawdopodobieństwem wyjściowym.
Zaobserwowano wynik E pewnego doświadczenia i istnieje pewne prawdopodobieństwo, oznaczane jako P(E |H), że E jest następstwem hipotezy H, czyli, że H wyjaśnia E .
W jaki sposób ta nowa informacja wpłynie na przekonanie, że hipotezie H należy przypisać prawdopodobieństwo P(H)?
nowe prawdopodobieństwo oznaczane jako P(H|E ), nazywane
prawdopodobieństwem a posteriori (posterior probability ), inaczej
prawdopodobieństwem końcowym.
Subiektywna interpretacja prawdopodobieństwa
Przejście od prawdopodobieństwa wyjściowego do końcowego według wzoru
P (H|E ) = P (E |H)
P (E ) P (H) (10)
gdzie P(E |H) oznacza prawdopodobieństwo tego, że E jest prawdziwe przy założeniu hipotezy H (czyli, że E wynika z H), P(E ) to
prawdopodobieństwo tego, że E jest prawdziwe bez zakładania hipotezy H
wzór można zapisać jako
prawd. końcowe = (wpływ E na H) × prawd. początkowe (11) znamy wynik E pewnego doświadczenia i szukamy hipotezy H, z której E by wynikało, czyli która wyjaśniałaby E
jeśli pojawią się nowe argumenty na rzecz H, to prawd. końcowe
można uznać za nowe prawd. początkowe i całe rozumowanie
powtórzyć
Prawdopodobieństwo jako miara
Rozważmy przestrzeń X i zbiór S podzbiorów (zakładamy, że zbiór pusty należy do X ). Zakładamy, że zbiór S jest σ-polem, tzn. dla każdych dwóch podzbiorów zbioru S ich suma i różnica także należą do S oraz każda przeliczalna suma podzbiorów przestrzeni S także należy do S.
Niech będzie dana funkcja
m : S → R
+(12)
przypisująca każdemu podzbiorowi s
idodatnią liczbę rzeczywistą m(s
i).
Zakładamy ponadto, że
m (∅) = 0 (13)
czyli, że miara zbioru pustego równa się zeru
Prawdopodobieństwo jako miara
dla każdej przeliczalnej rodziny wzajemnie rozłącznych podzbiorów (s
1, . . . , s
n, . . .) przestrzeni S zachodzi
m
∞
[
i =1
s
i!
=
∞
X
i =1
m (s
i) (14)
czyli, że miara sumy (przeliczalnej) wzajemnie rozłącznych podzbiorów przestrzeni X równa się sumie (przeliczalnej) miar tych podzbiorów funkcję m nazywamy miarą na X , a wartość m(s
i) nazywamy miarą podzbioru s
itrójkę (X , S, m) nazywamy przestrzenią miary
jeżeli m(X ) = 1, to przestrzeń miary (X , S, m) nazywamy przestrzenią prawdopodobieństwa (przestrzenią probabilistyczną)
podzbiory przestrzeni X (czyli elementy przestrzeni S) nazywamy
zdarzeniami, a wielkość m(s
i) prawdopodobieństwem zdarzenia s
iInterpretacja prawdopodobieństwa
interpretacja subiektywna (epistemiczna - oparta na wiedzy) i interpretacja obiektywna (ontologiczna)
interpretacja subiektywna - prawdopodobieństwo jest miarą naszej niewiedzy o rzeczywistym stanie rzeczy
interpretacja obiektywna - prawdopodobieństwo jest miarą
niezdeterminowania lub nieokreślenia rzeczywiście występującego w przyrodzie jakiegoś zdarzenia lub ciągu zdarzeń
przypisywanie miary stopnia przekonania jakiegoś zdania nazywa się prawdopodobieństwem a priori.
interpretacja obiektywna (częstościowa) - prawdopodobieństwo
rozumie się jako stosunek liczby “zdarzeń sprzyjających” do liczby
wszystkich możliwych zdarzeń (przy założeniu, że wszystkie zdarzenia
są jednakowo prawdopodobne)
Interpretacja częstościowa
w powtarzającej się sytuacji określone zdarzenia pojawiają się w nich w przybliżeniu ze stałą częstością
udział proporcji liczby przypadków, w których zdarzenie miało miejsce,
w nieskończenie długiej serii powtórzeń tego samego doświadczenia
Interpretacja subiektywna
osobista opinia co do możliwości wystąpienia danego zdarzenia prawdopodobieństwo jest wewnętrzną własnością umysłu, a nie cechą świata fizycznego
prawdopodobieństwo nie istnieje
Interpretacje prawdopodobieństwa
interpretacja klasyczna: opiera się na pojęciu symetrii
prawdopodobieństwo logiczne: zamiast dwóch wartości 0 i 1 stosuje się stopień ufności wyrażany liczbami z przedziału od 0 do 1. W jakim stopniu A implikuje B. Inne określenia: wiarygodność, miara
racjonalnego zaufania, racjonalny stopień przekonania, stopień potwierdzenia.
interpretacja skłonnościowa - inklinacja obiektów do zachowywania się
w pewien sposób
Interpretacja prawdopodobieństwa
umysł ludzki ma następującą własność: duże prawdopodobieństwo występowania jakiegoś zdarzenia jesteśmy skłonni uważać za rację wystarczającą jego pojawienia się, natomiast małe
prawdopodobieństwo występowania jakiegoś zdarzenia domaga się - naszym zdaniem - uzasadnienia skądinąd. Jeżeli takiego uzasadnienia nie potrafimy znaleźć, zdarzenie uważamy za przypadkowe i często dziwimy się, że się przytrafiło
za pomocą teorii prawdopodobieństwa można badać zdarzenia, które nie są powiązane z “prawdziwym przypadkiem”, np. badać
prawdopodobieństwo wystąpienia zestawu cyfr 0123456789 w
dziesiętnym rozwinięciu liczby π, albo np. rozkład liczb pierwszych w
zbiorze liczb naturalnych
Prawo Borela
Prawo Borela: wydarzenia o dostatecznie małym prawdopodobieństwie nigdy się nie zdarzą
Prawdopodobieństwo, które jest nieistotne w skali ludzkiej wynosi mniej niż około 1 na milion.
Prawdopodobieństwo, które jest nieistotne w skali Ziemi wynosi mniej niż około 1 do 10
15Prawdopodobieństwo, które jest nieistotne w skali kosmicznej wynosi mniej niż około 1 do 10
50Prawdopodobieństwo, które jest nieistotne w skali superkosmicznej
wynosi mniej niż około 1 do 10
1.000.000.000.
Prawo Borela
Zasada nieprawdopodobieństwa
Nawet bardzo nieprawdopodobne wydarzenia czasem następują.
Prawo nieuchronności
jeśli stworzysz kompletną listę wszystkich możliwych rezultatów, to
wtedy jeden z nich musi wystąpić
Prawo naprawdę wielkich liczb
jeśli liczba okazji do wystąpienia zaskakującego zdarzenia jest wystarczająco duża, to możliwe jest wystąpienie tego zdarzenia jeśli coś jest możliwe i podejmiemy dostateczną liczbę prób, to się spełni
Paradoks dnia urodzin. Ile osób musi być w pokoju, żeby
prawdopodobieństwo, że co najmniej dwie z nich mają urodziny tego samego dnia w roku, było większe niż 1/2? Liczba okazji jest dużo większa, niż się wydaje na pierwszy rzut oka.
Sprawdzamy zbieżność dowolnej pary osób.
Efekt look-elsewhere
look-elsewhere, efekt szukania gdzie indziej, oczekiwane skupisko danych wykryto wskutek czystego przypadku i w konsekwencji wyboru dużej liczby potencjalnie obiecujących stref poszukiwań
Jakie jest prawdopodobieństwo pojawienia się szczególnej sekwencji gdziekolwiek w wielkim zbiorze danych?
statystyka skanująca
Prawo selekcji
możesz dowolnie zwiększać prawdopodobieństwo, jeśli dokonujesz selekcji po zaistnieniu zdarzenia
efekt pewności wstecznej
Prawo selekcji
regresja do średniej – to co rośnie musi potem maleć
występuje wszędzie, gdzie wynik liczbowy, rezultat albo odpowiedź mają składnik losowy
trzeba przyjmować z dużą ostrożnością założenia co do tego, jaka jest norma w osiąganych rezultatach – ekstremalnie dobre wyniki mogą być uzyskane głównie przez przypadek
błąd doboru w nauce – selektywny wybór wyników, zdefiniowanie stawianej hipotezy po przeprowadzeniu eksperymentu i otrzymaniu wyników, harking hypothesizing after the results are known
złudzenie publikacyjne (efekt szuflady) – czasopisma naukowe mają tendencję do publikowania przede wszystkim badań potwierdzających istnienie jakiegoś zjawiska, a nie badań, które mu zaprzeczają, nieopublikowane wyniki badań wędrują do szuflady
tendencja do publikowana “odkryć”, które później są obalane
Prawo dźwigni prawdopodobieństwa
jak wielki wpływ na prawdopodobieństwo mogą mieć niewielkie zmiany warunków otoczenia
niewielkie zmiany kształtów krzywych rozkładu mogą zmienić
prawdopodobieństwo zdarzeń z niesamowicie małego na dużo większe
zdarzenie 5 sigma prawdopodobieństwo w rozkładzie normalnym to 1
do 3,5 miliona, w rozkładzie Cauchy’ego 1 do 16
Prawo dźwigni prawdopodobieństwa
Rysunek 3:
Źródło: stackexchange.com
Prawo mniej więcej
przypadki, które są dostatecznie podobne, mogą być traktowane jako
identyczne
Prawdopodobieństwo
szansa vs prawdopodobieństwo
Ryzyko podobnie jak “fart” lub “pech” łączy w sobie określanie prawdopodobieństwa danego zdarzenia z oceną wartości jego skutków.
Jednak ryzyko ogranicza się tylko do niekorzystnych przypadków.
Losowość. W statystyce losowa sekwencja liczb oznacza, że nie można
przewidzieć wartości kolejnych liczb. W teorii algorytmów sekwencja
liczba jest losowa, jeśli nie można ich opisać w krótszy sposób niż
przez podanie całego łańcucha liczb.
Prawdopodobieństwo
złudzenie gracza (paradoks hazardzisty)
Klasyfikator bayesowski
Klasyfikator bayesowski
zmienna losowa – funkcja przypisująca zdarzeniom elementarnym liczby, odwzorowanie przenoszące badanie prawdopodobieństwa z przestrzeni probabilistycznej do przestrzeni euklidesowej
X : Ω → R (15)
X = (X ~
1, X
2, . . . , X
p)
0(16)
to wektor losowy o p składowych
Klasyfikator bayesowski
pary losowe
X ~
1, Y
1, . . . , X ~
n, Y
n(17) gdzie ~ X
i= (X
i 1, X
i 2, . . . , X
ip) jest i -tą obserwacją, Y
ietykietą
obserwacji, składowe wektora ~ X
ito cechy, zmienne, atrybuty próba
L
n= n X ~
1, Y
1, . . . , X ~
n, Y
no (18)
to próba ucząca
klasyfikacja - predykcja etykiety Y na podstawie wektora ~ X
Klasyfikator - to funkcja d : X → Y. Dla nowego wektora ~ X prognozą etykiety Y jest d (~ X ), np. Y = {0, 1}.
zakładamy ~ X ∈ X , Y ∈ Y, zazwyczaj rozważamy X ⊆ R
pmiarą jakości klasyfikatora jest rzeczywisty poziom błędu (true error rate) równy
e (d ) = P d X ~ 6= Y (19)
Klasyfikator bayesowski
przyjmujemy założenie, że (~ X , Y ) to para losowa w R
p× {1, 0}
rozkład prawdopodobieństwa tej pary opisuje para (µ, r ), gdzie µ to miara probabilistyczna wektora ~ X oraz r jest regresją Y względem ~ X , czyli dla borelowskiego zbioru A ⊆ R
pµ (A) = P X ∈ A ~ (20)
oraz dla każdego ~ x ∈ R
pr (~ x ) = E Y |~ X = ~ x = 1 · P Y = 1|~ X = ~ x + 0 · P Y = 0|~ X = ~ x (21)
= P Y = 1|~ X = ~ x (22)
czyli r (~ x ) jest prawdopodobieństwem warunkowym, że Y = 1, gdy
X = ~ ~ x
Klasyfikator bayesowski
z twierdzenia Bayesa mamy
r (~ x ) = P Y = 1|~ X = ~ x (23)
= f (~ x |Y = 1) P (Y = 1)
f (~ x |Y = 1) P (Y = 1) + f (~ x |Y = 0) P (Y = 0) (24) π
1f
1(~ x )
π
1f
1(~ x ) + π
0f
0(~ x ) (25) gdzie π
1i π
0to prawdopodobieństwa a priori dwóch klas o etykietach jeden i zero, f to funkcja gęstości
klasyfikator bayesowski to d
B(~ x ) =
( 1, jeśli r (~ x ) >
120, poza tym (26)
Klasyfikator bayesowski
inna postać
d
B(~ x ) =
1, jeśli P Y = 1|~ X = ~ x > P Y = 0|~ X = ~ x
0, poza tym (27)
inna postać
d
B(~ x ) =
( 1, jeśli π
1f
1(~ x ) > π
0f
0(~ x )
0, poza tym (28)
powierzchnia rozdzielająca grupy 1 i 0 to zbiór
n ~ x : P Y = 1|~ X = ~ x = P Y = 0|~ X = ~ x o (29)
Klasyfikator bayesowski
Twierdzenie
Klasyfikator bayesowski jest optymalny, tj. jeżeli d jest jakimkolwiek innym klasyfikatorem, to e(d
B) ≤ e(d ), gdzie e(d ) jest rzeczywistym poziomem błędu klasyfikatora d danym wzorem (19).
nie znamy rozkładu prawdopodobieństwa pary (~ X , Y )
w jaki sposób skonstruować klasyfikator ˆ d (~ x ) = ˆ d (~ x ; L
n), czyli oparty na próbie uczącej
proces konstrukcji klasyfikatora ˆ d jest nazywany uczeniem się
zakładamy, że próba ucząca jest ciągiem niezależnych par losowych o
identycznym rozkładzie prawdopodobieństwa takim, jak rozkład pary
(~ X , Y )
Klasyfikator bayesowski
jakość klasyfikatora możemy zapisać jako warunkowe prawdopobieństwo błędu
e d ˆ = P d ˆ X ~ 6= Y |L
n(30) gdzie para losowa (~ X , Y ) jest niezależna od próby uczącej L
nwielkość e(ˆ d ) nazywamy aktualnym poziomem błędu (actual error rate) klasyfikatora ˆ d
chcemy znaleźć taki klasyfikator ˆ d dla którego e(ˆ d ) jest bliskie e(d
B)
Klasyfikator bayesowski
klasyfikator ˆ d jest zgodny, jeśli e(ˆ d ) zbiega wg prawdopodobieństwa do e(d
B) czyli dla każdego ε > 0
n→∞
lim P e d ˆ − e (d
B) ≥ ε = 0 (31) mocno zgodny, gdy
P lim
n→∞
e d ˆ = e (d
B) = 1 (32)
Klasyfikator bayesowski
3 główne podejścia do konstrukcji klasyfikatora z próby uczącej
1
Ustalamy miarę mierzącą ryzyko związane z użyciem klasyfikatora ˆ d oznaczane jako R(ˆ d ). Wybieramy klasyfikator, który minimalizuje ryzyko
d ˆ
0= arg min
ˆd ∈D
R ˆ d
(33)
2
Znajdujemy ocenę ˆ r funkcji regresji i definiujemy
d (~ ˆ x ) =
( 1 jeśli ˆ r (~ x ) >
120, poza tym (34)
3
Estymujemy gęstości prawdopodobieństwa i definiujemy
ˆ
r (~ x ) = π ˆ
1ˆ f
1(~ x ) ˆ
π
1ˆ f
1(~ x ) + (1 − ˆ π
1) ˆ f
0(~ x ) (35)
Klasyfikator bayesowski dla wielu klas
załóżmy, że Y ∈ Y = {1, . . . , K }. Klasyfikator bayesowski d
B(~ x ) = arg max
k
P (Y = k|X = x ) = arg max
k
π
kf
k(~ x ) (36) gdzie
P (Y = k|X = x ) = π
kf
k(~ x ) P
Ki =1
π
if
i(~ x ) (37)
π
i= P (Y = i ) (38)
f
i(~ x ) = f (~ x |Y = i ) (39)
Klasyfikator bayesowski dla wielu klas
Twierdzenie
Klasyfikator bayesowski d
Bdany powyższym wzorem jest optymalny, to znaczy jeśli d jest jakimkolwiek innym klasyfikatorem, to e(d
B) ≤ e(d ), gdzie e(d ) jest rzeczywistym poziomem błędu klasyfikatora d . Ponadto
e (d
B) = 1 − Z
Rp
1≤j≤K
max f
j(~ x ) π
jd~ x (40)
Dowód.
Niech
Ω
i= {~ x ∈ X : d (~ x ) = i } , i = 1, 2, . . . , K (41) P d X ~ = Y =
K
X
j=1
P d X ~ = j|Y = j π
j(42)
=
K
X
j=1
Z
Ωj
f
j(~ x ) π
jd~ x (43)
Klasyfikator bayesowski dla wielu klas
Rysunek 4
Klasyfikator bayesowski dla wielu klas
Rysunek 5
Klasyfikator bayesowski dla wielu klas
Klasyfikator bayesowski dla wielu klas
Rysunek 7
Klasyfikator bayesowski dla wielu klas
Dowód.
= Z
Rp K
X
j=1
I (d (~ x ) = j) f
j(~ x ) π
jd~ x (44) gdzie I(A) to indykator zdarzenia A. Dla ustalonego ~ x
K
X
j=1
I (d (~ x ) = j) f
j(~ x ) π
j≤ max
j
f
j(~ x ) π
j(45) Równość jest osiągana, gdy d (~ x ) jest równe tej wartości j, dla której f
j(~ x ) π
jjest maksymalne. A więc mamy
P d X ~ = Y ≤ P d
BX ~ = Y = Z
Rp
1≤j≤K
max f
j(~ x ) π
jd~ x (46)
Klasyfikator bayesowski dla wielu klas
oznaczmy p
ijjako prawdopodobieństwo błędnego zaklasyfikowania obserwacji ~ X do grupy j-tej, gdy należy do grupy i -tej
p
ij= P d X ~ = j|Y = i (47) dla i 6= j
mamy
p
ij= P X ∈ Ω ~
j|Y = i = Z
Ωj
f
i(~ x ) dx (48) oznaczmy prawdopodobieństwo błędnej klasyfikacji obserwacji z grupy i -tej
p
i ·=
K
X
j=1,j6=i
P d X ~ = j|Y = i (49) rzeczywisty poziom błędu klasyfikatora nazywamy błędem
bayesowskim (bayes error rate) i możemy zapisać jako e
∗= e (d
B) = P d X ~ 6= Y =
K
X
i =1
π
ip
i ·(50)
Klasyfikator bayesowski 54 / 65
Klasyfikator bayesowski dla wielu klas
=
K
X
i =1
π
iK
X
j=1,j6=i
P d X ~ = j|Y = i (51)
=
K
X
i =1 K
X
j=1,j6=i
Z
Ωj
π
if
i(~ x ) d~ x (52)
Intuicyjne rozumienie w teorii miary
Jeśli mamy dwie funkcje gęstości f
1i f
2to optymalny klasyfikator ma granicę decyzyjną
f
1(~ x ) − f
2(~ x ) = 0 (53) mamy granicę decyzyjną h (~ x ) = 0 taką, że
arg min
h(~x )
Z
h(~x )>0
f
1(~ x ) d~ x + Z
h(~x )<0
f
2(~ x ) d~ x (54)
powyższa granica decyzyjna będzie tożsama z granicą decyzyjną (53)
Intuicyjne rozumienie w teorii miary
Możemy aproksymować tą granicę jako Z
h(~x )>0
f
1(~ x ) d~ x ≈ |D
1|
|C
1| , (55)
Z
h(~x )<0
f
2(~ x ) d~ x ≈ |D
2|
|C
2| , (56)
h
∗(~ x ) ≈ arg min
h(~x )
|D
1|
|C
1| + |D
2|
|C
2| , (57)
gdzie D
1to liczba punktów z klasą 1 w obszarze h(~ x ) > 0
problemem takiej aproksymacji, jest to, że |D
1| oraz |D
2| mogą być
bliskie 0 lub 0 dla wielu hipotez, np. dla dobrze odseparowanych klas
Intuicyjne rozumienie w teorii miary
W jaki sposób mierzyć błąd klasyfikacji? Musimy mieć jakąś miarę na zbiorze niepoprawnie zaklasyfikowanych przykładów, czyli
ε [m
c] := µ ({x : m
c(x ) 6= m
∗(x )}) . (58) celem jest wybór takiej hipotezy aby minimalizować tą miarę
kolejną miarą jest ε
1[m
c] :=
Z
{x :mc(x )=c2}
f
1(x ) d µ
1+ Z
n
x :mc(x )=c1∨ mc(x )=c0
o f
2(x ) d µ
1. (59) dla dowolnych hipotez
m
∗(x ) = arg min
mc(·)∈M
ε
1[m
c] . (60)
Intuicyjne rozumienie w teorii miary
Dowód.
W dowodzie pokazujemy, że niepoprawny wybór klasy prowadzi do większego składnika pierwszego lub drugiego błędu ε
1. Dla m (x ) = c
2, mamy f
1(x ) < f
2(x ), czyli
Z
x :
m(x )=c2, mc(x )=c1∨
mc(x )=c0
f
1(x ) d µ
1≤ Z
x :
m(x )=c2, mc(x )=c1∨
mc(x )=c0
f
2(x ) d µ
1. (61)
A zatem tutaj lepszym wyborem jest klasyfikacja poprawna bo wtedy zamiast drugiego składnika mamy część pierwszego składnika mniejszą lub równą. Dla m (x ) = c
1, mamy f
1(x ) > f
2(x ), czyli
Z n
x :m(x )=c1, mc(x )=c2
o f
2(x ) d µ
1≤ Z
n
x :m(x )=c1, mc(x )=c2
o f
1(x ) d µ
1. (62) Dla m (x ) = c
1i m
c(x ) = c
0, całki są te same. Dla m (x ) = c
0, mamy f
1(x ) = f
2(x ) i otrzymujemy
Z
n
m(x )=c,o f
2(x ) d µ
1= Z
n
m(x )=c,o f
1(x ) d µ
1. (63)
Klasyfikator bayesowski 59 / 65