• Nie Znaleziono Wyników

Kwadratowa analiza dyskryminacyjna

N/A
N/A
Protected

Academic year: 2021

Share "Kwadratowa analiza dyskryminacyjna"

Copied!
4
0
0

Pełen tekst

(1)

Kwadratowa analiza dyskryminacyjna

Marcin Orchel

1 Wstęp

1.1 Metoda największej wiarygodności

Możemy mówić o metodzie największej wiarygodności dla klasyfikatorów. Metoda naj- większej wiarygodności służy do rozpoznania z którego rozkładu zostały wygenerowane dane. Rozpatrzmy dwie zmienne losowe X|Y = −1 oraz X|Y = 1. Będzie nas intereso- wała jedna wartość x

p

dla której mamy stwierdzić, z którego rozkładu pochodzi. Zakła- damy, że wartość x

p

jest generowana w sposób losowy albo z pierwszego albo z drugiego rozkładu z jednakowym prawdopodobieństwem. W metodzie największej wiarygodno- ści dla zmiennych dyskretnych wybieramy zmienną, dla której ta wartość jest bardziej prawdopodobna. Przykładowo mamy dwie zmienne losowe dyskretne r1(X|Y = −1) i r2(X|Y = 1) o rozkładach

r1 : (0, 3/6) , (1, 1/6) , (2, 2/6) (1) r2 : (0, 1/6) , (1, 2/6) , (2, 3/6) (2) Jeśli x

p

= 2, to stwierdzamy, że należy do rozkładu 2, ponieważ prawd. dla tej wartości jest większe, a więc klasyfikujemy punkt jako 1, jeśli x

p

= 0, to stwierdzamy, że punkt ten należy do rozkładu 1, a więc klasyfikujemy go jako −1. Dla rozkładów ciągłych zamiast prawd. porównujemy wartości funkcji gęstości prawd.

1.2 Klasyfikator Bayesa

Zastanówmy się co będzie jeśli punkt x

p

nie jest generowany z jednakowym prawd. z obu klas. Z pomocą przychodzi wzór Bayesa dla rozkładów dyskretnych

P (A|B) = P (B|A) P (A)

P (B) (3)

gdzie A i B to są zdarzenia A = {X = x}, B = {Y = y} dla zmiennych losowych X i Y . Rozpisując wg tego wzoru prawd. z metody największej wiarygodności otrzymujemy

P (X = x|Y = −1) = P (Y = −1|X = x) P (X = x)

P (Y = −1) (4)

P (X = x|Y = 1) = P (Y = 1|X = x) P (X = x)

P (Y = 1) (5)

1

(2)

Nas interesuje P (Y = −1|X = x) oraz P (Y = 1|X = x), czyli

P (Y = −1|X = x) = P (X = x|Y = −1) P (Y = −1)

P (X = x) (6)

P (Y = 1|X = x) = P (X = x|Y = 1) P (Y = 1)

P (X = x) (7)

Przy porównaniu tych prawd. wystarczy porównać liczniki, a więc prawd. P (X = x|Y = −1) i P (X = x|Y = 1) trzeba wymnożyć przez prawd. klasy −1 oraz klasy 1 odpowiednio.

W poprzednim punkcie mieliśmy P (Y = −1) i P (Y = 1) równe.

Możemy porównać te dwie wartości wyznaczając granicę decyzyjną P (X = x|Y = −1) P (Y = −1)

P (X = x|Y = 1) P (Y = 1) = 1 (8)

Możemy zlogarytmować obustronnie to równanie i wyniki klasyfikacji się nie zmienią.

log P (Y = −1)

P (Y = 1) + log P (X = x|Y = −1)

P (X = x|Y = 1) = 0 (9)

Dla rozkładu ciągłego X i dyskretnego Y wzór Bayesa to f

X

(x|Y = y) = P (Y = y|X = x) f

X

(x)

P (Y = y) (10)

1.3 Klasyfikator Bayesa dla rozkładów normalnych przy założeniu ta- kich samych macierzy kowariancji

Mamy dane dwa wielowymiarowe rozkłady normalne.

f (~ x|k) = 1

(2π)

p/2

|Σ|

1/2

exp



− 1

2 (x − ~ m

k

)

T

Σ

−1

(x − ~ m

k

)



(11)

dla k = −1 lub k = 1. Klasyfikator Bayesa maksymalizuje wartość f po obu klasach.

Zobaczmy jak wygląda granica decyzyjna

ln π

2

f (~ x|Y = 1)

π

1

f (~ x|Y = −1) = 0 (12)

gdzie π

2

= P (Y = 1), zaś π

1

= P (Y = −1). A zatem ln π

2

π

1

− 1

2 ( ~ m

2

− ~ m

1

)

T

Σ

−1

( ~ m

1

+ ~ m

2

) + ( ~ m

2

− ~ m

1

)

T

Σ

−1

~ x = 0 (13) Widzimy, że jest to funkcja liniowa. Zauważmy, że współczynnik kierunkowy oraz wyraz wolny jest identyczny jak w klasyfikatorze Fishera (przy założeniu, że π

2

= π

1

).

Zwróćmy uwagę na to, że metoda ta estymuje gęstości prawd. P (X|Y = 1), zaś metoda regresji logistycznej estymowała P (Y = 1|X).

2

(3)

1.4 Klasyfikator Bayesa dla rozkładów normalnych przy założeniu róż- nych macierzy kowariancji

Reguła klasyfikacyjna ma postać ln π

2

π

1

+ 1

2 ln |Σ

1

|

2

| +x

T

Σ

−12

m ~

2

− Σ

−11

m ~

1



− 1

2 x

T 

Σ

−12

− Σ

−11 

x− 1

2 m ~

2T

Σ

−12

m ~

2

+ 1

2 m

T1

Σ

−1

m ~

1

= 0 (14)

2 Zadania

2.1 Zadania na 3.0

Napisać skrypt w R. W skrypcie

• dla wygenerowanych danych dwuwymiarowych dwóch klas z rozkładów normal- nych wykonać klasyfikację qda (macierz kowariancji i wartości średnie obliczone na podstawie danych)

• przetestować klasyfikację dla różnych wartości macierzy kowariancji

• wyświetlić na jednym wykresie punkty, granicę decyzyjną

• wyświetlać na konsoli szybkość wyszukania rozwiązania i jakość mierzoną za po- mocą średniego błędu klasyfikacji na zbiorze testowym

• wyświetlić punkty, granicę decyzyjną oraz dwie funkcje gęstości prawdopodobień- stwa na wykresie trójwymiarowym

• Dodać komentarz do skryptu opisujący krótko na czym polegają użyte metody oraz wnioski z badań.

Wskazówki do R:

• https://stat.ethz.ch/R-manual/R-devel/library/MASS/html/qda.html

• https://stat.ethz.ch/R-manual/R-devel/library/MASS/html/predict.qda.

html

• http://www.statmethods.net/advstats/discriminant.html Wskazówki do Matlaba

• https://www.mathworks.com/help/stats/discriminant-analysis.html

• https://www.mathworks.com/help/stats/fitcdiscr.html, deprecated https:

//www.mathworks.com/help/stats/classificationdiscriminant.fit.html, https:

//www.mathworks.com/help/stats/classify.html

3

(4)

2.2 Zadania na 4.0

• na wykresie trójwymiarowym zaznacz funkcje gęstości dla danych z zadania na 3.0 (macierz kowariancji i wartości średnie obliczone z danych), dane treningowe i klasyfikator qda

• dla wygenerowanych danych trójwymiarowych dwóch klas z rozkładów normal- nych zaznacz na wykresie trójwymiarowym dane treningowe i klasyfikator qda (z macierzą kowariancji i wartościami średnimi obliczonymi z danych)

• oblicz błąd klasyfikacji na zbiorze testowym dla tego klasyfikatora 2.3 Zadania na 5.0

• wykonać klasyfikację qda dla wybranych danych wielowymiarowych ze strony uci, porównać jakość klasyfikacji z klasyfikatorem Fishera i opartym na regresji logi- stycznej na danych testowych

4

Cytaty

Powiązane dokumenty

Na podstawie zapo- trzebowania na ciepło obliczonego w oparciu o zużycie ciepłej wody na osobę, da- nych z pomiarów zużycia ciepłej wody oraz pomiarów dostarczonego ciepła

W niniejszej pracy podjęto próbę określenia warunków nasłonecznienia Polski, sporządzając analizę, wykorzystującą bazę danych, opartą na ponad

Przy założe- niu normalności oraz faktu, że dodatnio określona macierz kowariancji jest ilo- czynem Kroneckera dwóch innych, dodatnio określonych macierzy kowariancji,

• dla wygenerowanych danych trójwymiarowych dwóch klas z rozkładów normalnych zaznacz na wykresie trójwymiarowym dane treningowe i klasyfikator oparty na estymacji jądrowej.

• dla wygenerowanych danych dwuwymiarowych dwóch klas z rozkładów normalnych zaznacz na wykresie dane treningowe, klasyfikator svm, dla różnych wartości C oraz sigma, dla

• dla wygenerowanych danych dwuwymiarowych dwóch klas z rozkładów normal- nych zaznacz na wykresie dane treningowe, klasyfikator sieciami neuronowymi, dla różnej liczby neuronów

• dla wygenerowanych danych jednowymiarowych dwóch klas z rozkładów normal- nych zaznacz na wykresie dwuwymiarowym funkcję regresji logistycznej wraz z danymi treningowymi

Liniowa analiza dyskryminacyjna [2] (ang.. Dopuszczenie ró˙znych macierzy kowariancji przy zało˙zeniu normalno´sci rozkładów w klasach nazywane jest metod ˛ a QDA...