Kwadratowa analiza dyskryminacyjna
Marcin Orchel
1 Wstęp
1.1 Metoda największej wiarygodności
Możemy mówić o metodzie największej wiarygodności dla klasyfikatorów. Metoda naj- większej wiarygodności służy do rozpoznania z którego rozkładu zostały wygenerowane dane. Rozpatrzmy dwie zmienne losowe X|Y = −1 oraz X|Y = 1. Będzie nas intereso- wała jedna wartość x
pdla której mamy stwierdzić, z którego rozkładu pochodzi. Zakła- damy, że wartość x
pjest generowana w sposób losowy albo z pierwszego albo z drugiego rozkładu z jednakowym prawdopodobieństwem. W metodzie największej wiarygodno- ści dla zmiennych dyskretnych wybieramy zmienną, dla której ta wartość jest bardziej prawdopodobna. Przykładowo mamy dwie zmienne losowe dyskretne r1(X|Y = −1) i r2(X|Y = 1) o rozkładach
r1 : (0, 3/6) , (1, 1/6) , (2, 2/6) (1) r2 : (0, 1/6) , (1, 2/6) , (2, 3/6) (2) Jeśli x
p= 2, to stwierdzamy, że należy do rozkładu 2, ponieważ prawd. dla tej wartości jest większe, a więc klasyfikujemy punkt jako 1, jeśli x
p= 0, to stwierdzamy, że punkt ten należy do rozkładu 1, a więc klasyfikujemy go jako −1. Dla rozkładów ciągłych zamiast prawd. porównujemy wartości funkcji gęstości prawd.
1.2 Klasyfikator Bayesa
Zastanówmy się co będzie jeśli punkt x
pnie jest generowany z jednakowym prawd. z obu klas. Z pomocą przychodzi wzór Bayesa dla rozkładów dyskretnych
P (A|B) = P (B|A) P (A)
P (B) (3)
gdzie A i B to są zdarzenia A = {X = x}, B = {Y = y} dla zmiennych losowych X i Y . Rozpisując wg tego wzoru prawd. z metody największej wiarygodności otrzymujemy
P (X = x|Y = −1) = P (Y = −1|X = x) P (X = x)
P (Y = −1) (4)
P (X = x|Y = 1) = P (Y = 1|X = x) P (X = x)
P (Y = 1) (5)
1
Nas interesuje P (Y = −1|X = x) oraz P (Y = 1|X = x), czyli
P (Y = −1|X = x) = P (X = x|Y = −1) P (Y = −1)
P (X = x) (6)
P (Y = 1|X = x) = P (X = x|Y = 1) P (Y = 1)
P (X = x) (7)
Przy porównaniu tych prawd. wystarczy porównać liczniki, a więc prawd. P (X = x|Y = −1) i P (X = x|Y = 1) trzeba wymnożyć przez prawd. klasy −1 oraz klasy 1 odpowiednio.
W poprzednim punkcie mieliśmy P (Y = −1) i P (Y = 1) równe.
Możemy porównać te dwie wartości wyznaczając granicę decyzyjną P (X = x|Y = −1) P (Y = −1)
P (X = x|Y = 1) P (Y = 1) = 1 (8)
Możemy zlogarytmować obustronnie to równanie i wyniki klasyfikacji się nie zmienią.
log P (Y = −1)
P (Y = 1) + log P (X = x|Y = −1)
P (X = x|Y = 1) = 0 (9)
Dla rozkładu ciągłego X i dyskretnego Y wzór Bayesa to f
X(x|Y = y) = P (Y = y|X = x) f
X(x)
P (Y = y) (10)
1.3 Klasyfikator Bayesa dla rozkładów normalnych przy założeniu ta- kich samych macierzy kowariancji
Mamy dane dwa wielowymiarowe rozkłady normalne.
f (~ x|k) = 1
(2π)
p/2|Σ|
1/2exp
− 1
2 (x − ~ m
k)
TΣ
−1(x − ~ m
k)