5. Analiza dyskryminacyjna: FLD, LDA, QDA

(1)

Algorytmy rozpoznawania obrazów

5. Analiza dyskryminacyjna:

FLD, LDA, QDA

dr in˙z. Urszula Libal Politechnika Wrocławska

2015

(2)

1. Liniowe funkcje dyskryminacyjne

Liniowe funkcje dyskryminacyjne maj ˛a ogóln ˛a posta´c

δ (x) = w^Tx + w₀=

D

∑

i=1

w_ix_i+ w₀. (1)

Do liniowych dyskryminatorów, czyli klasyfikatorów opartych o liniowe funkcje dyskryminacyjne, zaliczamy

— FLD - liniowy dyskryminator Fishera,

— LDA - liniow ˛a analiz˛e dyskryminacyjn ˛a.

(3)

Rysunek 1. Prosta rozdzielaj ˛aca (na czerwono) jest prostopadła do wektora w (na zielono) wyznaczaj ˛acego kierunek rzutu wektora x.

Zródło: [2]´

(4)

a) b)

Rysunek 2. (a) Rzut na prost ˛a ł ˛acz ˛ac ˛a ´srednie w klasach. (b) Rzut na prost ˛a o kierunku wyznaczonym przez kryterium Fishera poprawia separacj˛e klas.

Zródło: [2]´

(5)

2. Liniowy dyskryminator Fishera (FLD)

Liniowy dyskryminator Fishera [1] (ang. Fisher’s Linear Discriminant, FLD) zakłada, ˙ze µ_kto ´srednie, a Σ_kto macierze kowariancji w klasach k = 1, 2.

Dokonujemy liniowej transformacji, dzi˛eki której uzyskamy najlepsze rozdzielenie klas.

W celu separacji klas rzutujemy wektory cech x na hiperpłaszczyzn˛e wyznaczon ˛a przez kierunek w. Aby to osi ˛agn ˛a´c maksymalizujemy klasyczne kryterium Fishera [5]

F(w) = w^TS_mw

w^TS_ww, (2)

gdzie S_mto macierz rozprosze´n mi˛edzyklasowych

S_m= (µ₁− µ₂) (µ₁− µ₂)^T, (3)

(6)

a S_wto macierz rozprosze´n wewn ˛atrzklasowych

S_w= p₁Σ1+ p₂Σ2. (4)

Rysunek 3. Rozrzut mi˛edzyklasowy oraz wewn ˛atrzklasowy.

Zródło: opracowanie własne´

(7)

Wyliczamy pochodn ˛a kryterium F i przyrównujemy do zera

∂

∂ wF(w) = 0. (5)

Optymalny kierunek dyskryminacyjny to

w = S⁻¹_w (µ₁− µ₂) . (6)

Liniowy dyskryminator Fishera ma posta´c

Ψ_FLD(x) =











1, gdy w^Tx < w_gr,

2, w przeciwnym wypadku,

(7)

(8)

co po podstawieniu (6) i uwzgl˛ednieniu, ˙ze S_wjest macierz ˛a symetryczn ˛a, daje

Ψ_FLD(x) =











1, gdy (µ₁− µ₂)^TS⁻¹_w x < w_gr, 2, w przeciwnym wypadku.

(8)

Próg w_grwyznaczamy minimalizuj ˛ac ´srednie prawdopodobie´nstwo bł˛ednej klasyfikacji - jest to punkt graniczny (por. rys. 1 z wykładu nr 1).

Niech f₁^⊥i f₂^⊥oznaczaj ˛a jednowymiarowe funkcje g˛esto´sci, które s ˛a rzutami

D-wymiarowych g˛esto´sci f₁i f₂w klasach na kierunek w (por. histogramy na rys. (b)).

Zrzutowane rozkłady w klasach k = 1, 2 charakteryzuj ˛a si˛e ´srednimi

m_k= w^Tµ_k (9)

(9)

oraz wariancjami

σ_k²= w^TΣkw. (10)

Szukamy w_gr, które spełnia

p₁f₁^⊥(w_gr) = p₂f₂^⊥(w_gr). (11)

Ogólnie mo˙zna zapisa´c, ˙ze FLD klasyfikuje obraz do klasy j ∈M ,

ΨFLD(x) = j, gdy |w^Tx − w^Tµ_j| < |w^Tx − w^Tµ_k|, (12)

dla ka˙zdej klasy k ∈M ró˙znej od j.

(10)

3. Liniowa analiza dyskryminacyjna (LDA)

Liniowa analiza dyskryminacyjna [2] (ang. Linear Discriminant Analysis, LDA) zakłada,

˙ze funkcje g˛esto´sci prawdopodobie´nstwa w klasach k = 1, 2 maj ˛a D-wymiarowe rozkłady normalneN (µ_k, Σ) o równych macierzach kowariancji w klasach.

Mo˙zna wi˛ec powiedzie´c, ˙ze LDA jest równowa˙zne FLD przy dodatkowych zało˙zeniach, ˙ze rozkłady w klasach s ˛a gaussowskie i macierze kowariancji w klasach s ˛a równe

Σ = Σ₁= Σ₂.

Liniowa funkcja dyskryminacyjna ma ponownie posta´c

δ (x) = w^Tx + w₀=

D i=1∑

w_ix_i+ w₀, (13)

(11)

a klasyfikator

Ψ_LDA(x) =











1, gdy w^Tx <w_gr,

2, w przeciwnym wypadku,

(14)

gdzie optymalny kierunek dyskryminacyjny to

w = Σ⁻¹(µ₁− µ₂) . (15)

Z warunku

p₁f₁^⊥(w_gr) = p₂f₂^⊥(w_gr) (16)

wyznaczymy w_gr.

(12)

W przypadku dwóch klas rozpatrujemy rozkładyN (µ₁, Σ1) orazN (µ₂, Σ2), co po uwzgl˛ednieniu (9) i (10) prowadzi do warunku

p₁ 1 σ1

√

2πexpn

(w_gr− m₁)²/ 2σ₁²o

= p₂ 1 σ1

√

2πexpn

(w_gr− m₂)²/ 2σ₂²o

. (17)

Po przekształceniu otrzymujemy równanie kwadratowe

(σ₁²− σ₂²)w²_gr+ (σ₁²m₂− σ₂²m₁)w_gr+ m²₁σ₂²− m²₂σ₁²− 2σ₁²σ₂²lnp1σ1

p₂σ₂= 0. (18)

Przypadki szczególne:

(a) Je˙zeli σ = σ1= σ2, to

w_gr=m₁+ m₂

2 + σ²

m₂− m₁lnp₁

p₂. (19)

(13)

(b) Je˙zeli σ = σ1= σ2i p₁= p₂, to

w_gr=m₁+ m₂

2 . (20)

(c) Je˙zeli σ16= σ2, to istniej ˛a dwa pierwiastki równania

w_gr1,2=

σ₂²m₁− σ₁²m₂± σ1σ₂ q

(m₂− m₁)²+ 2 σ₂²− σ₁² ln^p_p¹^σ¹

2σ₂

σ₂²− σ₁² . (21)

(d) Je˙zeli σ16= σ2, i m = m₁= m₂, to

wgr1,2= m ± σ1σ2

s 2

σ₂²− σ₁²lnp1σ1

p₂σ₂. (22)

(14)

Uwaga 1. Czasami w literaturze reguła FLD i LDA s ˛a ze sob ˛a uto˙zsamiane.

Uwaga 2. Z równo´sciΣ = Σ1= Σ2wynika σ = σ1= σ2= w^TΣw, dlatego przypadki(a) i (b)odnosz ˛a si˛e do metodyLDA.

Uwaga 3. Natomiast przypadki(c) i (d)zachodz ˛a dla σ16= σ2,

co mo˙ze zaj´s´c jedynie, gdyΣ₁6= Σ2. Dopuszczenie ró˙znych macierzy kowariancji przy zało˙zeniu normalno´sci rozkładów w klasach nazywane jest metod ˛aQDA.

(15)

4. Kwadratowa analiza dyskryminacyjna (QDA)

W przypadku, gdy pominiemy zało˙zenie o równo´sci macierzy kowariancji w gaussowskich rozkładachN (µ₁, Σ1) orazN (µ₂, Σ2), otrzymamy klasyfikator zwany kwadratow ˛a analiz ˛a dyskryminacyjn ˛a [3] (ang. Quadratic Discriminant Analysis, QDA). Warunek

p₁f₁^⊥(w_gr) = p₂f₂^⊥(w_gr) (23)

pozwala wyznaczy´c w_gr- patrz wzory (21) i (22). Forma reguły klasyfikacyjnej pozostaje bez zmian, tzn.

ΨQDA(x) =











1, gdy w^Tx <w_gr,

2, w przeciwnym wypadku.

(24)

(16)

W przypadku punktów na płaszczy´znie krzywa rozdzielaj ˛aca klasy przyjmuje posta´c okr˛egu, elipsy, paraboli lub hiperboli.

5. Uogólnione liniowe funkcje dyskryminacyjne

Uogólnione liniowe funkcje dyskryminacyjne [4] (ang. Generalised Linear Discriminant Functions, GLDFs), okre´slane tak˙ze jako maszyny φ , s ˛a to funkcje dyskryminacyjne postaci

δ (x) = w^Tφ + w0 (25)

gdzie φ = (φ1(x), φ2(x), . . . , φ_d(x))^T jest funkcja wektorow ˛a x.

(17)

Funkcja dyskryminuj ˛aca Matematyczna forma φi(x)

liniowa φi(x) = x_i

kwadratowa φ_i(x) = x^l_k¹

1x^l_k²

2, gdzie l₁, l₂= 0 lub 1 wielomianowa n-tego rz˛edu φi(x) = x^l_k¹

1. . . x^l_kⁿ

n, gdzie l₁, . . . , l_n= 0 lub 1 radialna funkcja bazowa φ_i(x) = φ (|x − vi|)

perceptron wielowarstwowy φi(x) = f (x^Tv_i+ v_i0),

gdzie f to funkcja logistyczna f (z) = 1/(1 + exp(−z))

(18)

7. Przykłady i dyskusja zało˙ze ´n

a) b)

Rysunek 4. Rozkłady brzegowe: (a) dla danych Fisheriris, (b) rozkłady jednostajne.

(19)

a) b) Rysunek 5. (a) Prosta rozdzielaj ˛aca klasy za pomoc ˛a LDA.

(b) Krzywe rozdzielaj ˛ace klasy za pomoc ˛a QDA.

(20)

(21)

(22)

Literatura

[1] R.A. Fisher, The Use of Multiple Measurements in Taxonomic Problems, Annals of Eugenics 7 (2): 179–188, (1936)

[2] C.M. Bishop, Pattern Recognition and Machine Learning, Springer Series: Information Science and Statistics (2006)

[3] J. Koronacki, J. ´Cwik, Statystyczne systemy ucz ˛ace si˛e, WNT, Warszawa (2005) [4] A.R. Webb, K.D. Copsey, Statistical Pattern Recognition, 3rd ed., Wiley, (2011) [5] W. Malina, M. Smiatacz, Rozpoznawanie obrazów, Exit, Warszawa, (2011)