Kwadratowa analiza dyskryminacyjna

(1)

Kwadratowa analiza dyskryminacyjna

Marcin Orchel

1 Wstęp

1.1 Metoda największej wiarygodności

Możemy mówić o metodzie największej wiarygodności dla klasyfikatorów. Metoda naj- większej wiarygodności służy do rozpoznania z którego rozkładu zostały wygenerowane dane. Rozpatrzmy dwie zmienne losowe X|Y = −1 oraz X|Y = 1. Będzie nas intereso- wała jedna wartość x

_p

dla której mamy stwierdzić, z którego rozkładu pochodzi. Zakła- damy, że wartość x

_p

jest generowana w sposób losowy albo z pierwszego albo z drugiego rozkładu z jednakowym prawdopodobieństwem. W metodzie największej wiarygodno- ści dla zmiennych dyskretnych wybieramy zmienną, dla której ta wartość jest bardziej prawdopodobna. Przykładowo mamy dwie zmienne losowe dyskretne r1(X|Y = −1) i r2(X|Y = 1) o rozkładach

r1 : (0, 3/6) , (1, 1/6) , (2, 2/6) (1) r2 : (0, 1/6) , (1, 2/6) , (2, 3/6) (2) Jeśli x

_p

= 2, to stwierdzamy, że należy do rozkładu 2, ponieważ prawd. dla tej wartości jest większe, a więc klasyfikujemy punkt jako 1, jeśli x

_p

= 0, to stwierdzamy, że punkt ten należy do rozkładu 1, a więc klasyfikujemy go jako −1. Dla rozkładów ciągłych zamiast prawd. porównujemy wartości funkcji gęstości prawd.

1.2 Klasyfikator Bayesa

Zastanówmy się co będzie jeśli punkt x

_p

nie jest generowany z jednakowym prawd. z obu klas. Z pomocą przychodzi wzór Bayesa dla rozkładów dyskretnych

P (A|B) = P (B|A) P (A)

P (B) (3)

gdzie A i B to są zdarzenia A = {X = x}, B = {Y = y} dla zmiennych losowych X i Y . Rozpisując wg tego wzoru prawd. z metody największej wiarygodności otrzymujemy

P (X = x|Y = −1) = P (Y = −1|X = x) P (X = x)

P (Y = −1) (4)

P (X = x|Y = 1) = P (Y = 1|X = x) P (X = x)

P (Y = 1) (5)

1

(2)

Nas interesuje P (Y = −1|X = x) oraz P (Y = 1|X = x), czyli

P (Y = −1|X = x) = P (X = x|Y = −1) P (Y = −1)

P (X = x) (6)

P (Y = 1|X = x) = P (X = x|Y = 1) P (Y = 1)

P (X = x) (7)

Przy porównaniu tych prawd. wystarczy porównać liczniki, a więc prawd. P (X = x|Y = −1) i P (X = x|Y = 1) trzeba wymnożyć przez prawd. klasy −1 oraz klasy 1 odpowiednio.

W poprzednim punkcie mieliśmy P (Y = −1) i P (Y = 1) równe.

Możemy porównać te dwie wartości wyznaczając granicę decyzyjną P (X = x|Y = −1) P (Y = −1)

P (X = x|Y = 1) P (Y = 1) = 1 (8)

Możemy zlogarytmować obustronnie to równanie i wyniki klasyfikacji się nie zmienią.

log P (Y = −1)

P (Y = 1) + log P (X = x|Y = −1)

P (X = x|Y = 1) = 0 (9)

Dla rozkładu ciągłego X i dyskretnego Y wzór Bayesa to f

X

(x|Y = y) = P (Y = y|X = x) f

X

(x)

P (Y = y) (10)

1.3 Klasyfikator Bayesa dla rozkładów normalnych przy założeniu ta- kich samych macierzy kowariancji

Mamy dane dwa wielowymiarowe rozkłady normalne.

f (~ x|k) = 1

(2π)

^p/2

|Σ|

^1/2

exp

− 1

2 (x − ~ m

_k

)

^T

Σ

⁻¹

(x − ~ m

_k

)

(11)

dla k = −1 lub k = 1. Klasyfikator Bayesa maksymalizuje wartość f po obu klasach.

Zobaczmy jak wygląda granica decyzyjna

ln π

₂

f (~ x|Y = 1)

π

1

f (~ x|Y = −1) = 0 (12)

gdzie π

₂

= P (Y = 1), zaś π

₁

= P (Y = −1). A zatem ln π

2

π

₁

− 1

2 ( ~ m

₂

− ~ m

₁

)

^T

Σ

⁻¹

( ~ m

₁

+ ~ m

₂

) + ( ~ m

₂

− ~ m

₁

)

^T

Σ

⁻¹

~ x = 0 (13) Widzimy, że jest to funkcja liniowa. Zauważmy, że współczynnik kierunkowy oraz wyraz wolny jest identyczny jak w klasyfikatorze Fishera (przy założeniu, że π

₂

= π

₁

).

Zwróćmy uwagę na to, że metoda ta estymuje gęstości prawd. P (X|Y = 1), zaś metoda regresji logistycznej estymowała P (Y = 1|X).

2

(3)

1.4 Klasyfikator Bayesa dla rozkładów normalnych przy założeniu róż- nych macierzy kowariancji

Reguła klasyfikacyjna ma postać ln π

2

π

₁

+ 1

2 ln |Σ

₁

|

|Σ

₂

| +x

^T

Σ

⁻¹₂

m ~

2

− Σ

⁻¹₁

m ~

1

− 1

2 x

^T

Σ

⁻¹₂

− Σ

⁻¹₁

x− 1

2 m ~

2T

Σ

⁻¹₂

m ~

2

+ 1

2 m

^T₁

Σ

⁻¹

m ~

1

= 0 (14)

2 Zadania

2.1 Zadania na 3.0

Napisać skrypt w R. W skrypcie

• dla wygenerowanych danych dwuwymiarowych dwóch klas z rozkładów normal- nych wykonać klasyfikację qda (macierz kowariancji i wartości średnie obliczone na podstawie danych)

• przetestować klasyfikację dla różnych wartości macierzy kowariancji

• wyświetlić na jednym wykresie punkty, granicę decyzyjną

• wyświetlać na konsoli szybkość wyszukania rozwiązania i jakość mierzoną za po- mocą średniego błędu klasyfikacji na zbiorze testowym

• wyświetlić punkty, granicę decyzyjną oraz dwie funkcje gęstości prawdopodobień- stwa na wykresie trójwymiarowym

• Dodać komentarz do skryptu opisujący krótko na czym polegają użyte metody oraz wnioski z badań.

Wskazówki do R:

• https://stat.ethz.ch/R-manual/R-devel/library/MASS/html/qda.html

• https://stat.ethz.ch/R-manual/R-devel/library/MASS/html/predict.qda.

html

• http://www.statmethods.net/advstats/discriminant.html Wskazówki do Matlaba

• https://www.mathworks.com/help/stats/discriminant-analysis.html

• https://www.mathworks.com/help/stats/fitcdiscr.html, deprecated https:

//www.mathworks.com/help/stats/classificationdiscriminant.fit.html, https:

//www.mathworks.com/help/stats/classify.html

3

(4)

2.2 Zadania na 4.0

• na wykresie trójwymiarowym zaznacz funkcje gęstości dla danych z zadania na 3.0 (macierz kowariancji i wartości średnie obliczone z danych), dane treningowe i klasyfikator qda

• dla wygenerowanych danych trójwymiarowych dwóch klas z rozkładów normal- nych zaznacz na wykresie trójwymiarowym dane treningowe i klasyfikator qda (z macierzą kowariancji i wartościami średnimi obliczonymi z danych)

• oblicz błąd klasyfikacji na zbiorze testowym dla tego klasyfikatora 2.3 Zadania na 5.0

• wykonać klasyfikację qda dla wybranych danych wielowymiarowych ze strony uci, porównać jakość klasyfikacji z klasyfikatorem Fishera i opartym na regresji logi- stycznej na danych testowych