2. Empiryczna wersja klasyﬁkatora bayesowskiego

(1)

Algorytmy rozpoznawania obrazów

2. Empiryczna wersja klasyfikatora bayesowskiego

dr in˙z. Urszula Libal Politechnika Wrocławska

2015

(2)

1. Brak pełnej informacji probabilistycznej

Klasyfikator bayesowski wymaga pełnej informacji probabilistycznej, tzn. musz ˛a być znane prawdopodobieństwa a priori klas oraz funkcje g˛esto´sci prawdopodobieństwa w klasach.

Nieznane rozkłady prawdopodobie´nstwa w klasach 1, 2, . . . , M mo˙zna estymowa´c na podstawie M ci ˛agów ucz ˛acych.

Ka˙zdy ci ˛ag ucz ˛acy zawiera N_kobserwacjin X^(k)_j oN_k

j=1z klasy k ∈ {1, 2, . . . , M}.

klasa 1 klasa 2 · · · klasa M ˆ

p₁ pˆ₂ · · · pˆ_M fˆ₁(x) fˆ₂(x) · · · fˆ_M(x)

N₁ N₂ · · · N_M

(3)

2. Estymacja prawdopodobie ´nstw a priori klas

Prawdopodobie´nstwa a priori klas estymujemy za pomoc ˛a cz˛esto´sci ich wyst˛epowania, tj.

ˆ

p_k = N_k

N₁+ N₂+ · · · + N_M. (1)

dla ka˙zdej klasy k ∈M , M = {1, 2, ..., M}.

(4)

3. Estymacja funkcji g˛esto´sci prawdopodobie ´nstwa

— Metody parametryczne - zakładamy pewien rozkład prawdopodobie´nstwa i estymujemy jego parametry.

— Metody nieparametryczne - umo˙zliwiaj ˛a estymacj˛e dowolnego rozkładu.

(5)

4. Histogram

Standardowy histogram dzieli przestrze´n cechX na przedziały o szeroko´sci ∆,

a nast˛epnie zlicza liczb˛e n_i obserwacji, które wpadły do i-tego przedziału I_i= (t_i, t_i+ ∆], tzn.

n_i = #X_j∈ I_i = # X_j∈ (t_i, t_i+ ∆]

(2)

= #Xj≤ t_i+ ∆ − # Xj< t_i

(3)

=

N j=1∑

1X_j≤ t_i+ ∆ − 1 X_j< t_i . (4)

(6)

Histogram to funkcja schodkowa

h(x; ∆, N) =∑

i

n_i1 {x ∈ I_i} , (5)

która w punkcie x nale˙z ˛acym do i-tego przedziału przyjmuje warto´s´c n_i (pozostałe elementy sumy s ˛a wtedy zerowe).

Rysunek 1. Przykładowy histogram dla ci ˛agu ucz ˛acego o liczno´sci N = 1000.

Zródło: opracowanie własne´

(7)

Rysunek 2. Deska Galtona - przykład nieparametrycznej estymacji funkcji g˛esto´sci dla rozkładu normalnego.

Zródło: [2]´

(8)

5. Nieparametryczna estymacja funkcji g˛esto´sci prawdopodobie ´nstwa

Funkcja g˛esto´sci prawdopodobie´nstwa f (x) spełnia warunek ˆ

X f(x) = 1. (6)

Aby histogram estymował funkcj˛e g˛esto´sci prawdopodobieństwa, nale˙zy go znormalizować poprzez podzielenie liczby n_iobserwacji przez całkowit ˛a liczb˛e obserwacji N oraz szeroko´sć przedziału ∆.

Nieparametryczny estymator funkcji g˛esto´sci prawdopodobie´nstwa przyjmuje form˛e:

fˆ(x) = ˆf(x; ∆, N) =∑

i

ni

N∆1 {x ∈ I_i} . (7)

(9)

Rysunek 3. Nieparametryczna estymacja g˛esto´sci dla ró˙znych szeroko´sci przedziałów histogramu.

Zródło: [1]´

(10)

5. Empiryczna wersja klasyfikatora bayesowskiego

Korzystaj ˛ac z zasady plug-in, wstawiamy do algorytmu bayesowskiego odpowiednie estymatory:

— w miejsce prawdopodobie´nstw a priori wyst ˛apienia klas p_k- ich cz˛esto´sci ˆp_k, k ∈M ,

— w miejsce funkcji g˛esto´sci prawdopodobie´nstwa w klasach f_k(x) - ich nieparametryczne estymatory ˆf_k(x), k ∈M .

Empiryczny klasyfikator bayesowski w przypadku dwóch klas przyjmuje wtedy posta´c

Ψ^∗(x) =











1, gdy ˆp₁fˆ₁(x) > ˆp₂fˆ₂(x), 2, w przeciwnym wypadku.

(8)

(11)

Je˙zeli w obu klasach przyj˛eto identyczny podział przestrzeni cech na przedziały I_i, to empiryczny klasyfikator bayesowski w przypadku dwóch klas otrzymuje posta´c

Ψ^∗(x) =











1, gdy_(N^N¹

1+N₂)∑i n⁽¹⁾_i

N1∆1 {x ∈ I_i} >_(N^N²

1+N₂)∑i n⁽²⁾_i

N2∆1 {x ∈ I_i} , 2, w przeciwnym wypadku.

(9)

Reguł˛e decyzyjn ˛a (9) mo˙zna upro´sci´c. Je˙zeli zaobserwowano cech˛e o warto´sci x z i-tego przedziału histogramu, tzn. x ∈ I_i, to empiryczny klasyfikator bayesowski bazuje jedynie na liczno´sciach obserwacji w tym przedziale w klasie 1 i klasie 2

Ψ^∗(x) =











1, gdy n⁽¹⁾_i > n⁽²⁾_i ,

2, w przeciwnym wypadku.

(10)

(12)

Przy zało˙zeniu, ˙ze analizowany obraz

x∈ (t_i, t_i+ ∆], (11)

empiryczny klasyfikator bayesowskiprzyjmuje ostatecznie posta´c opart ˛a w jawny sposób o ci ˛agi ucz ˛acen

X⁽¹⁾_j oN1

j=1orazn X⁽²⁾_j oN2

j=1:

Ψ^∗(x) =











1, gdy ∑^N_j=1¹ 1n

X⁽¹⁾_j ≤ t_i+ ∆o

− 1n

X⁽¹⁾_j < t_io

> ∑^N_j=1² 1n

X⁽²⁾_j ≤ t_i+ ∆o

− 1n

X⁽²⁾_j < t_io

, 2, w przeciwnym wypadku.

(12)

(13)

6. Zjawisko pustej przestrzeni

Zjawisko pustej przestrzeni, inaczej zwane przekle´nstwem wymiarowo´sci, wyst˛epuje w przypadku:

— du˙zej liczby cech (du˙zego wymiaru zadania D 1),

— zbyt małej liczby obserwacji (liczno´sci ci ˛agów ucz ˛acych N_kw klasach k ∈M ).

(14)

Rysunek 4. Ilustracja przekle´nstwa wymiarowo´sci, obrazuj ˛aca wykładniczy wzrost liczby obszarów, na które podzielono przestrze´n cech w zadaniu estymacji nieparametrycznej.

Zródło: [1]´

(15)

Literatura

[1] C.M. Bishop, Pattern Recognition and Machine Learning, Springer Series: Information Science and Statistics (2006).

[2] http://pl.wikipedia.org/wiki/Deska_Galtona

[3] http://www.youtube.com (szukaj pod hasłem: Galton board)