• Nie Znaleziono Wyników

ANALIZA DYSKRYMINACYJNA – STAN AKTUALNY I KIERUNKI ROZWOJU

N/A
N/A
Protected

Academic year: 2021

Share "ANALIZA DYSKRYMINACYJNA – STAN AKTUALNY I KIERUNKI ROZWOJU"

Copied!
18
0
0

Pełen tekst

(1)

Eugeniusz Gatnar

Uniwersytet Ekonomiczny w Katowicach

ANALIZA DYSKRYMINACYJNA – STAN AKTUALNY I KIERUNKI ROZWOJU

Wprowadzenie

W literaturze statystycznej pojęcie analizy dyskryminacyjnej jako zadania polegającego na znalezieniu charakterystyki klas pojawiło się już w latach 30.

XX w., gdy Fisher (1936) próbował w tym celu zastosować liniowe modele regresji. Prowadził on eksperymenty na najbardziej znanym w wielowymiarowej analizie statystycznej zbiorze danych, zawierającym charakterystykę trzech ga- tunków kosaćca (IRYS) za pomocą czterech zmiennych.

W Polsce jednym z pierwszych badaczy zajmującym się metodami analizy dyskryminacyjnej był prof. Józef Kolonko, który w swojej pracy (Kolonko, 1980) stosował pojęcie analizy dyskryminacyjnej w nieco innym, znacznie szer- szym znaczeniu. W przedstawionym przez niego ujęciu, związanym z podej- ściem cybernetycznym obecnym w latach 70. XX w. w naukowej literaturze rosyjskiej, dyskryminacja zbioru obserwacji to jego podział („rozbicie”), który optymalizuje wartość pewnego funkcjonału stanowiącego kryterium. Analiza dyskryminacyjna dzieli się wobec tego na klasyfikację z wzorcem oraz klasyfi- kację bez wzorca (taksonomię).

Obecnie w polskiej literaturze statystycznej panuje zgodny pogląd, że ana- lizą dyskryminacyjną jest zbiór metod prowadzących do znalezienia reguły kla- syfikacyjnej, charakterystyki klas lub funkcji rozdzielających klasy, na podsta- wie zbioru uczącego, tj. zawierającego obiekty o znanej przynależności do klas.

Jest to więc jedynie klasyfikacja z nauczycielem.

W niniejszym artykule, który ma charakter przeglądowy, zagadnienie dys- kryminacji zostało zdefiniowane jako problem znalezienia charakterystyki klas, poprzez identyfikację sposobów ich odseparowania. W pierwszym punkcie zostanie sformułowane ogólne zadanie dyskryminacji, natomiast w drugim – klasyczne po- dejście zaproponowane przez Fishera, które prowadzi do powstania liniowych funk- cji dyskryminacyjnych. Część trzecia zawiera omówienie założeń, których spełnie- nie pozwala na zastosowanie modeli liniowych. W przeciwnym przypadku można stosować kwadratowe funkcje dyskryminacyjne. W czwartym punkcie artykułu

(2)

przedstawiono najbardziej popularną nieparametryczną metodę dyskryminacji wykorzystującą drzewa klasyfikacyjne. Na końcu pracy znajduje się omówienie aktualnych kierunków rozwoju metod dyskryminacji.

1. Zadanie dyskryminacji

Dyskryminacja to decyzja o przydzieleniu obiektu do klasy, która jest do- konywana na podstawie znajomości rozkładów zmiennych w klasach oraz prawdo- podobieństw a priori. Jeżeli zbiór

{

C1

, ... ,

CJ

}

zawiera wartości zmiennej objaśnia- nej Y (nazwy klas), to prawdopodobieństwo a priori dla klasy Cj ( j=1,...,J) to

) (

Cj p .

Ważne jest także założenie o losowości wektora zmiennych X

= (

X1

, ... ,

XL

)

i o tym, że jego warunkowe rozkłady prawdopodobieństw w klasach g X

( |

Cj

)

są znane. Jeżeli oba założenia są spełnione, to można wyznaczyć prawdopodobień- stwo, że klasyfikowana obserwacja

[

xi

,

yi

]

należy do klasy Cj, na podstawie wzo- ru Bayesa:

=

=

J

k

k k i

j j i i

j

C p C g

C p C C g

p

1

) ( ) (

) ( ) ) (

(

|

| |

x

x x . (1)

Prawdopodobieństwo p

(

Cj |xi

)

jest nazywane prawdopodobieństwem a posteriori, gdyż decyzja o przydzieleniu obserwacji

[

xi

,

yi

]

do klasy Cj po- dejmowana jest już po jej zaobserwowaniu. Mianownik (1) nie wpływa na war- tośćp

(

Cj|xi

)

, zatem zależy ona jedynie od rozkładu warunkowego g x

(

i

|

Cj

)

ważonego prawdopodobieństwami a priori.

Model dyskryminacyjny (1) może błędnie zaklasyfikować obserwację

]

,

[

xi yi , z czym związana jest pewna strata, którą wyraża przyjęta arbitralnie funkcja straty (loss function) L

(

Y

,

f

(

X

))

, najczęściej funkcja zero-jedynkowa:

( )

⎩ ⎨

=

= ≠

) ( 0

) ( ) 1

(

,

X

X X

f Y gdy

f Y f gdy

Y

L (2)

lub entropia krzyżowa (cross entropy):

( ) ∑

=

=

= J

j

j

j p C

C Y f

Y L

1

)

| ( log ) (

2 ) (

, X X . (3)

(3)

Błąd klasyfikacji to spodziewana wielkość funkcji straty e(f)=E

[

L(Y,f(X)

]

. Jeżeli obserwacja

[

xi

,

yi

]

została błędnie zaklasyfikowana, to wartość błę- du związanego z taką decyzją wynosi:

=

= J

j

i j i i

i L y f p C

e

1

) ( )) ( , ( )

(x x x . (4)

Wyrażenie (4) dla funkcji straty (2) osiąga minimum, gdy:

{ 1 ( ) }

min arg ) ˆ (

,...,

1 j i

J

i j p C

f x

= −

x

= . (5)

Oznacza to, innymi słowy, że błąd predykcji (4) jest najmniejszy, gdy obserwa- cja

[

xi

,

yi

]

zostaje przydzielona do klasy, dla której prawdopodobieństwo a posteriori jest największe:

{ ( ) }

max )

( )

ˆ (

,...,

1 J k i

i k j j

i C gdy p C p C

f x x x

=

=

=

. (6)

Reguła (6) nazywana jest bayesowską regułą klasyfikacji (Bayes rule), a model (5) to optymalny klasyfikator bayesowski (Bayes classifier). Z kolei jego błąd klasyfikacji

1 max

j

{ (

j i

) (

j

) }

Bayes p C p C

e

= −

x

nazywany jest błędem

bayesowskim (Bayes error).

Bayesowska reguła klasyfikacji jest prosta, lecz wymaga znajomości roz- kładów warunkowych w klasach g

(

X|Cj

)

oraz prawdopodobieństw a priori.

W praktyce rozkłady te są estymowane na podstawie próby uczącej. Na przykład, najczęściej stosuje się frakcje obiektów należących do klasy Cj, tj. p

(

Cj

) =

nj N, gdzie

=1

( ) = 1

J

j p Cj . Można też przyjąć, że są równe, tj. p

(

C1

) = ... =

p

(

CJ

)

, oszacować na podstawie zbioru testowego lub ustalić subiektywnie.

Zgodnie z regułą Bayesa, aby poprawnie sklasyfikować obserwację

[

xi

,

yi

]

, należy znaleźć maksimum wyrażenia g

(

xi|Cj

)

p

(

Cj

)

. Wyniki klasyfikacji jednak nie zmienią się, jeśli na funkcję dyskryminacyjną nałożymy odwzorowa- nie monotonicznie rosnące, otrzymując np. funkcje: fj

(

X

) =

g

(

X|Cj

)

,

) ( ) ( )

(

j j

j g C p C

f X

=

X| lub fj

(

X

) = ln(

g

(

X|Cj

)) + ln(

p

(

Cj

))

. W tym ostatnim przypadku szukamy klasy Cj, dla której funkcja:

)) ( ln(

) (

) 2 (

) 1

(

j T 1 j j

j p C

f X

= −

X

μ Σ X

μ

+

(7)

(4)

osiąga maksimum, gdzie μj jest środkiem ciężkości klasy Cj, zaś Σ macierzą wariancji i kowariancji. Warto zauważyć, że funkcja dyskryminacyjna (7) jest funkcją liniową.

W podobny sposób można skonstruować funkcje dyskryminacyjne, które separują poszczególne klasy. Biorąc pod uwagę np. klasy Cj oraz Ck, można zbudować funkcję:

⎟⎟⎠

⎜⎜ ⎞

⎝ + ⎛

⎟⎟⎠

⎜⎜ ⎞

= ⎛

) (

) ln (

)

| (

)

| ln (

) (

k j k

j

jk p C

C p C

p C f p

X

X X , (8)

która wyznacza równanie hiperpłaszczyzny:

0 )

( ) (

) 2(

1 ) (

)

ln ( ⎟⎟⎠− − 1 + + − 1 =

⎜⎜ ⎞

X Σ μ μ μ μ Σ μ

μj k T j k j k

k j

C p

C

p . (9)

Widać tutaj związek z liniowymi funkcjami dyskryminacyjnymi, zapropo- nowanymi przez Fishera, które zostaną omówione w następnej części artykułu.

W literaturze mowa jest także o naiwnym klasyfikatorze bayesowskim (naive Bay- es), który opiera się na założeniu, że w klasie Cj zmienne X ,...,1 XL są niezależne:

=

=

L

l

l jl

j f X

f

1

) ( )

(X

, (10)

gdzie funkcje gęstości flj są przybliżane za pomocą rozkładu normalnego. Uzy- skane za jego pomocą wyniki klasyfikacji są często bardziej dokładne niż w przypadku innych modeli, ponieważ obciążenie estymatorów funkcji gęstości w klasach nie przekłada się na obciążenie prawdopodobieństw a posteriori.

2. Liniowe modele dyskryminacyjne Fishera

Jak już wspomniano, zagadnienie dyskryminacji zostało po raz pierwszy sformułowane przez Fishera (1936), a zaproponowana przez niego metoda opie- ra się na redukcji wymiaru przestrzeni cech. Pierwotna przestrzeń XL zostaje zredukowana do przestrzeni zmiennych kanonicznych (canonical variables)

1 1

1

...

= × ×

J

J Z Z

Z .

Należy podkreślić, że wywodzące się od Fishera pojęcie liniowej analizy dyskryminacyjnej (Linear Discriminant Analysis – LDA) używane jest często w węższym znaczeniu i określa jedynie jego podejście. Fisher rozwiązał pro-

(5)

blem dla dwóch klas (J =2), zaś uogólnienie dla J >2 klas podali Rao (1948) i Bryan (1951).

Zmiennymi kanonicznymi są:

=

=

L

l ajlXl

Z

1

j , (11)

które powodują, że w tej nowej przestrzeni klasy są optymalnie odseparowane, tj. ich środki ciężkości leżą jak najdalej od siebie.

Na rys. 1 pokazano dwie klasy C1,C2 w dwuwymiarowej przestrzeni cech

2 1, X

X oraz zmienną kanoniczną Z1. Prosta f

(X )

, która je oddziela, jest or- togonalna względem Z1.

μ

1

μ

2

x

1

x

2

f(x)

C

2

C

1

z

1

Rys. 1. Separacja klas w przestrzeni dwóch zmiennych Źródło: Gatnar (2008).

Poszukiwane jest więc maksimum funkcji:

T T 1 2

aWa μ μ

a

( − )

2

=

Q , (12)

gdzie licznik jest kwadratem odległości środków ciężkości klas wzdłuż kierunku a, zaś W jest macierzą wariancji i kowariancji wewnątrzklasowej:

∑∑

= =

− −

=

J

j N i

j

J

N 1 1

)

2

1 (

j

i μ

x

W . (13)

Maksimum (12) jest osiągane dla wektora o kierunku W-1

(

μ2

μ1

)

. Hiperpłaszczyzna separująca obie klasy jest prostopadła do kierunku i prze- chodzi przez środek odcinka łączącego środki ciężkości klas. Ma ona postać:

(6)

0 ) 2 (

) 1

(

1

⎟ =

⎜ ⎞

⎛ − +

1 1 2

2 μ W X μ μ

μ . (14)

Można pokazać, że licznik funkcji (12) jest równy aBaT, a zatem kryterium to sprowadza się do znalezienia takiego wektora , aby iloraz wariancji:

T T

F aWa

=

aBa (15)

był jak największy, gdzie B jest macierzą wariancji i kowariancji międzykla- sowej, wyznaczoną na podstawie próby:

=

− −

= J

j

T

Nj

J 1 ( )( )

1

1 μ μ μ μ

B j j . (16)

Wektor maksymalizujący kryterium (14) jest wektorem własnym macierzy B

W-1 odpowiadającym największej wartości własnej tej macierzy.

Zmienne kanoniczne są konstruowane w sposób sekwencyjny. Wektor wyznacza kierunek, wzdłuż którego klasy są najlepiej odseparowane, a kombi- nacja liniowa Z1

=

a

ˆ

1XT jest pierwszą zmienną kanoniczną. Jeśli jakość klasy- fikacji nie jest zadowalająca, można wyznaczyć kolejne wektory a

ˆ

2

, ... ,

a

ˆ

J1, które spełniają warunek wzajemnej ortogonalności i są wektorami własnymi macierzy

B

W-1 , odpowiadającymi uporządkowanym malejąco wartościom własnym.

Drugie podejście związane jest z metodą preceptronową Rosenblatta (1958), która ma charakter iteracyjny. Metoda ta minimalizuje wartość kryterium:

=

E T

Q i

xi

ax a)

( , (17)

gdzie E

= {

xi

:

axTi

< 0 }

jest zbiorem obserwacji błędnie sklasyfikowanych. Po- nieważ funkcja (17) jest ciągła, do jej minimalizacji można wykorzystać klasyczną gradientową metodę spadku (gradient descent). Gradient funkcji (17) wynosi:

∂ =

E i

i

Q

x

a x a)

( . (18)

W pierwszym kroku wybierane są losowo początkowe wartości wektora pa- rametrów a(0), a w następnych krokach następuje jego modyfikacja:

+ = +

E i r r r

xi

x a

a( 1) ( )

λ

(19)

(7)

w kierunku przeciwnym do gradientu. Parametr

λ

r określa długość kroku i na- zywany jest także współczynnikiem uczenia. Inna często stosowana odmiana reguły (19) wykorzystuje pojedynczą, błędnie sklasyfikowaną obserwację:

i r r

r a x

a( +1)

=

( )

+ λ

. (20)

Opisane sposoby modyfikacji nie zmieniają wartości wektora wag dla obserwa- cji poprawnie sklasyfikowanych.

Metoda perceptronowa jest zbieżna w przypadku liniowej separowalności klas. Naturalnym kryterium stopu jest więc wartość Q

(

a

) = 0

. Wynik poszuki- wania zależy od wyboru wartości początkowej wektora wag, dlatego procedurę optymalizacji można przeprowadzić kilka razy, dla różnych losowo wybranych wektorów wag początkowych a(0), a następnie wybrać rozwiązanie najlepsze.

3. Kwadratowe funkcje dyskryminacyjne

Jak już zaznaczono, podejście regresyjne w analizie dyskryminacyjnej polega na tym, że w każdej klasie Cj budowany jest osobny model:

=

+

=

L

l

l jl j

j

X

f

1

)

0

( X α α

(21)

dla j=1,...,J, a położenie hiperpłaszczyzny separującej klasy, np. C ,j Ck, wyznacza się za pomocą równania:

) ˆ ( )

ˆ

j

( x f

k

x

f =

. (22)

Jeżeli chodzi o etap klasyfikacji, to obserwacja

[

xi

,

yi

]

jest przydzielana do tej klasy, dla której wartość teoretyczna funkcji (21) jest największa:

) ˆ ( max

ˆ arg

j i

j

i f

y

=

x . (23)

Można także szukać prawdopodobieństw a posteriori w klasach, tj. p

(

Cj

|

X

)

. Jeżeli gj

(X )

jest funkcją gęstości w klasie Cj, to ze wzoru Bayesa wynika, że:

) ( ) (

) ( ) ) (

| (

1 k

J

k k

j j

j g p C

C p C g

p

=

=

X

X X . (24)

(8)

Zakładając, że gj

(X )

jest funkcją gęstości wielowymiarowego rozkładu nor- malnego:

) ( ) 2( 1 2 / 2 1 /

1

) 2 ( ) 1

(

j j

T

e j

g

j j L

μ X Σ μ X

X Σ

=

π

, (25)

gdzie μj =[

μ

j1,...,

μ

jL] jest środkiem ciężkości klasy Cj, tj.

=

= j

N

i il j

jl x

N 1

μ

1 .

Wtedy, w przypadku dwóch klas C ,j Ck okazuje się, że logarytm ilorazu wiary- godności ma postać:

) (

) (

) 2(

1 ) (

) log ( )

| (

)

|

log ( j k T 1 j k T 1 j k

k j k

j

C p

C p C

p C

p μ μ Σ μ μ X Σ μ μ

X

X = − + − + − . (26)

Wartość logarytmu (26) wyznaczono przy założeniu, że macierze wariancji i kowariancji w obu klasach są równe, tj. Σj

=

Σk.

W przypadku gdy wszystkie macierze wariancji i kowariancji w klasach są równe:

Σ

J

Σ

Σ =

1

= ... =

, (27)

to obserwacje w każdej klasie tworzą hipersferyczne skupienia tej samej wielko- ści i otrzymujemy dla każdej klasy liniową funkcję dyskryminacyjną (LDA):

) ( 2 log

) 1

(

T 1 j Tj 1 j j

j p C

f X

=

X Σμ

μ Σμ

+

. (28)

Jeżeli zmienne X

= [

X1

, ... ,

XL

]

są niezależne i macierz Σ jest diagonalna, to można udowodnić, że hiperpłaszczyzna rozdzielająca dwie klasy Cj i Ck jest prostopadła do odcinka łączącego środki ciężkości obu tych klas. Ponadto, jeśli prawdopodobieństwa a priori dla tych klas są jednakowe, hiperpłaszczyzna przechodzi przez środek tego odcinka. W przeciwnym razie hiperpłaszczyzna jest ,,przesunięta” w stronę środka ciężkości tej klasy, która ma mniejsze praw- dopodobieństwo a priori p

(

Cj

)

. Mówiąc obrazowo, obserwacja xi ze zbioru rozpoznawanego będzie przydzielona do klasy Cj, której środek ciężkości μj leży najbliżej w sensie odległości euklidesowej.

Jeżeli macierz wariancji i kowariancji Σ nie jest diagonalna, to wynik kla- syfikacji obserwacji xi ze zbioru rozpoznawanego zależy od odległości Maha- lanobisa do środka ciężkości najbliższej klasy.

Gdy warunek (27) nie jest spełniony, to otrzymujemy kwadratowe funkcje dyskryminacyjne (QDA) w klasach:

(9)

) ( log ) (

) 2 (

log 1 2 ) 1

(

j j T j1 j j

j p C

f X

= −

Σ

X

μ Σ X

μ

+

. (29)

Na rys. 2 pokazano położenie liniowych i kwadratowych funkcji dyskrymi- nacyjnych dla zbioru IRYS w przestrzeni dwuwymiarowej (L

= 2

). Wybrano dwie zmienne o największej zdolności dyskryminacyjnej, tj. długość płatka (dp) i szerokość płatka (sp).

Rys. 2. Liniowe i kwadratowe funkcje dyskryminacyjne dla zbioru IRYS Źródło: Ibid.

0,0 0,5 1,0 1,5 2,0 2,5

1234567

LDA

Szerokość płatka

Dlugość płatka

sssss s sss s sss s s

ss s ss

s s

s s s

s s

ssss s s s s

ss sss ss

s s s

ss sss

cc c c

c cc

c c

c c c c

c

c c c c

c c

c c c c

c c

c c

c cc

c c

c c cc ccc

c c

c c

c c cc

c c

v v

v

v v

v

v v

v v

vv v

v vv

v vv

v

v v v

v v v

vv v vv v

v v

v

v v v v

v v

v v

v v

vv vv v

0,0 0,5 1,0 1,5 2,0 2,5

1234567

QDA

Szerokość płatka

Dlugość płatka

sssss s sss s sss s s

ss ss ss

s s s s

s s

ssss s s s s

ss sss ss

s s s

ss sss

cc c c

c cc

c c

c c c c

c

c c c c

c c

c c c c

c c

c c

c cc

c c

c c cc c cc

c c

c c

c c cc

c c

v v

v

v v

v

v v

v v

vvv

v vv

v vv

v

v v v

v v v

vv v vvv

v v

v

v v v v

v v

v v

v v

vv vv v

(10)

Friedman (1989) zaproponował rozwiązanie kompromisowe pomiędzy li- niowymi i kwadratowymi funkcjami dyskryminacyjnymi. Metoda ta nazywana jest regularyzowaną analizą dyskryminacyjną (regularized discriminant analy- sis) oraz polega na przekształceniu macierzy wariancji i kowariancji:

Σ Σ

Σj

( δ ) = δ ⋅

j

+ ( 1 − δ )

. (30)

Parametr regularyzacji

δ ∈ [ 0 , 1 ]

pozwala zbudować model dyskryminacyjny w postaci pośredniej pomiędzy liniową (

δ

=1) i kwadratową (

δ

=0). W praktyce parametr

δ

ustalany jest eksperymentalnie na podstawie zbioru testowego lub w wyniku sprawdzania krzyżowego.

Dwuparametrową rodzinę macierzy kowariancji można otrzymać, wstawia- jąc do wzoru (30) zamiast Σ:

I Σ

Σy =

γ

+(1−

γ

)

σ

2 , (31)

gdzie I jest macierzą jednostkową,

γ ∈ [ 0 , 1 ]

jest parametrem regularyzacji, zaś

2I

σ to diagonalna macierz wariancji i kowariancji wyznaczona na podstawie próby.

4. Drzewa klasyfikacyjne

W opozycji do klasycznych, parametrycznych metod dyskryminacji, po- wstały metody nieparametryczne, niewymagające spełnienia przedstawionych w poprzedniej części artykułu wymagań. Należą do nich m.in. metoda K-najbliższych sąsiadów i metoda drzew klasyfikacyjnych.

Ta ostatnia polega na sekwencyjnym podziale L-wymiarowej przestrzeni zmiennych XL na podprzestrzenie Rk (segmenty), aż do chwili, gdy zmienna zależna

Y

osiągnie w każdej z nich minimalny poziom zróżnicowania (mierzo- ny za pomocą odpowiedniej funkcji straty). Metoda ta nazywana jest metodą reku- rencyjnego podziału (recursive partitioning) i była stosowana w statystyce już przez Morgana i Sonquista (1963). Jej wykorzystanie w analizie dyskryminacyjnej i regre- sji przedstawili Breiman i in. (1984), proponując algorytm CART. W języku pol- skim wyczerpującą monografią poświęconą zagadnieniom budowy modeli w posta- ci drzew klasyfikacyjnych i regresyjnych jest praca Gatnara (2001).

Przebieg procedury rekurencyjnego podziału najlepiej reprezentuje drzewo, tj. graf spójny i bez cykli; stąd nazwa metody – drzewa klasyfikacyjne* (classifi- cation trees). W ramach omawianej metody model jest tworzony nie globalnie,

* W istocie prawidłowa nazwa w języku polskim powinna brzmieć: drzewa dyskryminacyjne.

(11)

lecz poprzez złożenie modeli lokalnych o najprostszej postaci (tj. stałej), budo- wanych w każdym z K rozłącznych segmentów, na jakie dzielona jest wielo- wymiarowa przestrzeń zmiennych:

=

=

K

k

k i k

i

I R

f

1

) (

)

( x α x

, (32)

gdzie Rk (k=1,...,K ) to podprzestrzenie (segmenty) przestrzeni XL,

α

k – parametry modelu, zaś I jest funkcją wskaźnikową.

Każdy z obszarów Rk jest definiowany poprzez jego granice w przestrzeni XL, które dla zmiennych metrycznych X1

, ... ,

XL, można przedstawić jako:

( )

=

=

L

l

g kl il d kl k

i R I v x v

I

1

) ( )

) (

(x , (33)

gdzie wartości vkl(d) oraz vkl( g) oznaczają odpowiednio jego górną i dolną granicę w l-tym wymiarze przestrzeni.

Gdy zmienne

X

1

, ... , X

L mają charakter niemetryczny, to podprzestrzeń Rk można zdefiniować jako:

( )

=

=

L

l

kl il k

i

R I x B

I

1

)

(x

, (34)

gdzie Bkl to podzbiór zbioru kategorii zmiennej Xl, tj. Bkl

Vl.

Jeżeli zmienna zależna Y w modelu (32) jest zmienną nominalną, to model ten nazywany jest dyskryminacyjnym i reprezentuje go drzewo klasyfikacyjne.

Wtedy parametry

α

k modelu (32) są wyznaczane jako:

)

| ( max

arg j i k

j

k = p C xR

α

. (35)

Model w postaci drzewa klasyfikacyjnego dla zbioru IRYS, wykorzystujący dwie zmienne objaśniające: długość płatka (dp) i szerokość płatka (sp), oraz odpowiadający mu podział przestrzeni dwuwymiarowej na 4 segmenty, zostały pokazane na rys. 1. Jak widać, segment oznaczony literą S jest homogeniczny, ponieważ należą do niego wszystkie kwiaty z gatunku Setosa. Jego granice wy- znacza formuła:

0 < sp < 0 , 8

. Z kolei segment oznaczony literą C zawiera większość kwiatów z gatunku Versicolor, a jego granicami w pierwszym wy- miarze jest

0 , 8 < sp < 1 , 75

oraz w drugim –

0 < dp < 4 , 95

.

(12)

Rys. 3. Drzewo klasyfikacyjne oraz podział przestrzeni zmiennych dla zbioru IRYS Źródło: Ibid.

Do oceny stopnia zróżnicowania podprzestrzeni Rk można wykorzystać jedną z następujących miar:

− błąd klasyfikacji (misclassification error):

)

| ( max arg 1 )

( j k

j

k p C R

R

Q = − , (36)

sp < 0.8|

sp < 1.75

dp < 4.95 s

c v v

0,0 0,5 1,0 1,5 2,0 2,5

1234567

Szerokość płatka

Długość płatka

sssss s sss s sss s s

ss ss ss

s s s s

s s

ssss s s s s

ss sss ss

s s s

ss sss

cc c c

c cc

c c

c c c c

c

c c c c

c c

c c c c

c c

c c

c

cc

c c

c c cc ccc

c c

c c

c c cc

c c

v v

v

v v

v

v v

v v

vvv

v vv

v vv

v

v v v

v v v

vv v vvv

v v

v

v v v v

v v

v v

v v

vv vv v

s

c v

v

(13)

− wskaźnik Giniego (Gini index):

( )

=

= J

j

k j

k p C R

R Q

1

) 2

| ( 1

)

( , (37)

− entropia:

=

= J

j

k j k

j

k p C R p C R

R Q

1 ( | )log2 ( | )

)

( . (38)

Omówienie własności przedstawionych powyżej miar oraz charakterystyka in- nych, nieco mniej znanych, znajduje się w pracy Gatnara (2001).

Powyższe miary homogeniczności są wykorzystywane do kontroli procesu podziału przestrzeni zmiennych. Stosowana jest w tym celu strategia wspinaczki (hill climbing), pozwalająca dokonać podziału, który jest optymalny w sensie lokalnym. Nie gwarantuje to oczywiście osiągnięcia rozwiązania optymalnego w sensie globalnym.

W każdym kroku ocena jakości podziału podprzestrzeni R na segmenty RK

R1

, ... ,

odbywa się za pomocą kryterium:

=

=

Δ

K

k

k p k

R Q R

Q R Q

1

) ( ) ( )

( )

(

, (39)

gdzie p

(k )

oznacza frakcję obserwacji w segmencie Rk. Kryterium (39) podle- ga maksymalizacji, tj. szukany jest taki podział, który zapewni jak największą jednorodność uzyskanych podprzestrzeni, czyli osiągnięcie minimum przez

) (

Rk

Q dla k =1,...,K .

Breiman i in. (1984) wykorzystali w swojej pracy do oceny homogeniczno- ści segmentów wskaźnik Giniego (37). Ma on jednak pewną wadę, ponieważ osiąga maksimum również wtedy, gdy segmenty Rk zawierają jednakową liczbę obserwacji. Z kolei Quinlan (1993) w swoim algorytmie C4.5 stosuje entropię (38), której główna wada polega na tym, że preferuje ona taki podział, który generuje maksymalną liczbę segmentów Rk. Aby tego uniknąć, można zasto- sować normalizację, uzyskując tzw. względny przyrost informacji (gain ratio):

=

= Δ

Δ

K

k

k p k

p R R Q

Q

1

2

*

) ( log ) (

) ) (

(

. (40)

Podział przestrzeni XL na podprzestrzenie odbywa się za pomocą hiper- płaszczyzn równoległych do osi (gdy zmienne

X

1

, ... , X

L są zmiennymi me- trycznymi). Równanie takiej hiperpłaszczyzny ma wtedy postać Xl

=

c, gdzie zarówno wybór zmiennej X , jak i wartości l c kontroluje miara (39).

(14)

Aby wyznaczyć stałą c, należy obliczyć wartość kryterium (39) dla wszystkich możliwych wariantów podziału zbioru wartości Vl

= {

vl1

, ... ,

vlT

}

zmiennej Xl:

2

+1

=

vlt

+

vlt

c . (41)

Zawsze uzyskuje się w ten sposób dwa zbiory obserwacji:

{

xi

:

xil

c

}

oraz

}

:

{

xi xil

>

c . Inaczej mówiąc, dokonywana jest dyskretyzacja zmiennej X , l której rezultatem jest powstanie drzewa binarnego, w którym z każdego węzła wychodzą dwie krawędzie.

W procesie budowy modelu w postaci drzewa klasyfikacyjnego najpierw każda zmienna metryczna poddawana jest dyskretyzacji*, a następnie wybierana jest ta spośród nich, dla której kryterium (39) osiąga maksimum.

Jeżeli zmienna X ma charakter niemetryczny, to zbiór jej kategorii l

}

, ...

, {

l1 lT

l v v

V

=

jest dzielony na dwa podzbiory (w przypadku drzewa binar- nego), tak aby wartość kryterium (39) była jak największa (takich podziałów jest

2

T dla zmiennych porządkowych oraz

2

T1

− 1

dla zmiennych nominalnych).

Najczęściej punktem wyjścia jest podział Vl na T podzbiorów

{

vl1

}, ... , {

vlT

}

, a następnie te podzbiory są stopniowo łączone. W metodzie CHAID, którą zapropo- nował Kaas (1980) tym procesem łączenia steruje statystyka

χ

2.

W przypadku modeli w postaci drzew klasyfikacyjnych pojawia się pro- blem wyboru takiej postaci modelu, by jego błąd predykcji był jak najmniejszy.

Spośród metod wykorzystywanych w celu wyeliminowania tego zjawiska i zmniej- szenia stopnia złożoności modelu, najczęściej** stosuje się tzw. przycinanie kra- wędzi (pruning). Zabieg ten powoduje redukcję wielkości drzewa poprzez usu- nięcie niektórych jego fragmentów, co może oznaczać, że z modelu zostaną wyeliminowane niektóre zmienne.

Breiman i in. (1984) zaproponowali pewną formę regularyzacji, która po- zwala uzyskać kompromis pomiędzy złożonością modelu i jego jakością w po- staci kryterium:

K D

Q D

Sλ

( ) = ( ) + λ ⋅

, (42)

* W pracy Gatnara (2001) omówiono także metody podziału zbioru wartości zmiennej xl na trzy i więcej przedziałów (multiway split), w rezultacie czego powstają drzewa niebinarne. To za- gadnienie jest jednak jeszcze bardziej złożone.

** Gatnar (2001) omawia także rzadziej stosowaną metodę skracania krawędzi drzewa (ang. shrin- king), które są proporcjonalne do stopnia homogeniczności w węzłach.

(15)

które podlega minimalizacji. W powyższej formule Q(D)=

Kk=1Q(Rk)p(k) to miara jakości modelu D w postaci drzewa, K oznacza liczbę liści i jest oce- ną złożoności modelu, zaś

λ

to tzw. parametr złożoności (

λ

≥0). Duże warto- ści parametru

λ

oznaczają podział na niewiele segmentów (małe drzewa), zaś małe wartości – drzewa bardziej rozbudowane, o dużej liczbie liści. W przypad- ku gdy

λ

=0, powstaje drzewo maksymalne (pełne) D0.

5. Kierunki rozwoju analizy dyskryminacyjnej

Wzrost możliwości przetwarzania dużych zbiorów danych przez współczesne komputery oraz dostępność zaawansowanego oprogramowania statystycznego po- woduje, że spośród metod analizy dyskryminacyjnej najszybciej rozwijają się meto- dy nieparametryczne, wykorzystywane w systemach business intelligence i data mining.

Należą do nich np.: metoda K-najbliższych sąsiadów oraz drzewa klasyfi- kacyjne. Ważną zaletą tej ostatniej klasy modeli jest możliwość klasyfikacji danych niepełnych, tj. zawierających obserwacje, dla których nie można określić wartości pewnych zmiennych, np. gdy są one trudne do zmierzenia. Metoda ta jest również odporna na występowanie wartości nietypowych. Ponadto w mode- lu dyskryminacyjnym zmiennymi objaśniającymi mogą być zmienne mierzone zarówno na skalach mocnych, jak i na skalach słabych, bez konieczności doko- nywania ich transformacji.

Od dłuższego czasu utrzymuje się zainteresowanie także takimi nieklasycz- nymi metodami dyskryminacji, jak: sieci neuronowe (neural networks) oraz metoda wektorów nośnych SVM (Suport Vector Machines). Sieć neuronowa to model zło- żony z wielu modeli liniowych znajdujących się w poszczególnych warstwach sieci, które przetwarzają dane wejściowe i korygują („uczą się”), w czasie tysięcy powtó- rzeń, parametry poszczególnych modeli składowych (Rosenblatt, 1958).

Z kolei metoda SVM, zaproponowana przez Vapnika (1995), polega na trans- formacji obserwacji z pierwotnej przestrzeni zmiennych objaśniających w przestrzeń o wiele większym wymiarze, w której klasy są łatwiej separowalne. Obserwacje defi- niujące położenie funkcji oddzielających klasy nazywane są wektorami nośnymi.

Warto także wspomnieć o metodach łączenia modeli dyskryminacyjnych, które powodują znaczące zwiększenie dokładności klasyfikacji. Zalety tego po- dejścia, nazywanego wielomodelowym, przedstawił wyczerpująco w swojej monografii Gatnar (2008).

(16)

Duży wysiłek badawczy jest wkładany obecnie w poszukiwanie metod dys- kryminacji dla dużych i wielowymiarowych zbiorów danych. Należą do nich przede wszystkim zbiory danych o genotypach (gene microarray data).

Bibliografia

Breiman L., Friedman J., Olshen R., Stone C. (1984): Classification and Regression Trees. CRC Press, London.

Bryan J.G. (1951): The Generalized Discriminant Function: Mathematical Foundation and Computational Routine. Harvard Education Review, 21, s. 90-95.

Duda R. O., Hart P. E., Storck G. E. (2001): Pattern Classification. John Wiley & Sons, New York.

Fisher L.A. (1936): The Use of Multiple Measurements in Taxonomic Problems. Annals of Eugenics, t. 7, s. 179-188.

Friedman J. H. (1989): Regularized Discriminant Analysis. „Journal of the American Statistical Association”, 84, s. 165-175.

Gatnar E. (1998): Symboliczne metody klasyfikacji danych. Wydawnictwo Naukowe PWN, Warszawa.

Gatnar E. (2001): Nieparametryczna metoda dyskryminacji i regresji. Wydawnictwo Naukowe PWN, Warszawa.

Gatnar E. (2008): Podejście wielomodelowe w zagadnieniach dyskryminacji i regresji.

Wydawnictwo Naukowe PWN, Warszawa.

Hastie T., Tibshirani R., Friedman J. (2001): The Elements of Statistical Learning.

Springer Series in Statistics, Springer, Berlin.

Huberty G. J. (1995): Applied Discriminant Analysis. John Wiley & Sons, New York.

Jajuga K. (1990): Statystyczna teoria rozpoznawania obrazów. Wydawnictwo Naukowe PWN, Warszawa.

Jajuga K. (1993): Statystyczna analiza wielowymiarowa. Państwowe Wydawnictwo Naukowe, Warszawa.

Kaas G. V. (1980): An Exploratory Technique for Investigating Large Quantities of Categorical Data. „Applied Statistics”, 29, s. 119-127.

Kolonko J. (1980): Analiza dyskryminacyjna w badaniach ekonomicznych. PWN, War- szawa.

McLachlan G.J. (1992): Discriminant Analysis and Statistical Pattern Recognition. John Wiley & Sons, New York.

Morgan J.N., Sonquist J.A. (1963): Problems in the Analysis of Survey Data: A Propo- sal. „Journal of the American Statistical Association”, 58, s. 417-434.

(17)

Nilsson N.J. (1965): Learning Machines: Foundations of Trainable Pattern-Classifying Systems. McGraw-Hill.

Quinlan J.R. (1983): Learning Efficient Classification Procedures and their Application to Chess and Games. W: R. Michalski, J. Carbonell, T. Mitchell (eds.): Machine Learning. An Artificial Intelligence Approach. Tioga, Palo Alto, s. 126-142.

Quinlan J.R. (1986): Induction of decision trees, Machine Learning, 1, s. 81-106.

Quinlan J.R. (1993): C4.5: Programs for Machine Learning. Morgan Kaufmann, San Mateo, CA.

Rao C. (1948): The Utilisation of Multiple Measurements in Problems of Biological Classification. „Journal of the Royal Statistical Society B”, 10, s. 159-203.

Ripley B.D. (1996): Pattern Recognition and Neural Networks. Cambridge University Press. Cambridge.

Rosenblatt F. (1958): The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain. „Psychological Review”, 65(6), s. 386-408.

Titterington D.M., Murray G.D., Murray L.S., Spiegelhalter D.J., Skene A.M., Habbema J.D., Gelpke G.J. (1981): Comparison of Discriminant Techniques Applied to Complex Data Sets of Head Injured Patients. „Journal of the Royal Statistical So- ciety, Series A”, 144, s. 145-175.

Vapnik V. (1995): The Nature of Statistical Learning Theory. Springer, Berlin.

Vapnik V. (1998): Statistical Learning Theory. John Wiley and Sons, New York.

Wernecke K.-D. (1992): A Coupling Procedure for Discrimination of Mixed Data.

„Biometrics”, 48, s. 497-506.

DISCRIMINANT ANALYSIS – STATE OF THE ART AND FUTURE DEVELOPMENTS

Summary

The aim of the discriminant analysis is to partition the multivariate feature space in- to subspaces in order to separate observations belonging to different classes. In other words, its task is to find a model that can give class descriptions on the basis of a set containing previously classified observations. Then the model is applied to classify new ones with a minimum error. Founded in 1936 by Fisher, the discriminant analysis had become an important part of multivariate statistical analysis. It has many applications and is an obligatory procedure in many available data mining systems.

In Poland prof. Józef Kolonko has been one of the pioneering statisticians intere- sted in discriminant analysis. He published his book on discriminant analysis in 1980, based on cybernetics. Therefore the analysis had a broader meaning, including both supervised and unsupervised classification.

(18)

Nowadays, in statistical literature, discriminant analysis is considered only as a set of methods that can discover class descriptions on the basis of the training set, i.e. supe- rvised classification.

This article is devoted to review the existing approaches and new developments in discriminant analysis starting from its roots, i.e. Fisher’s approach based on regression analysis, and concluding with classification trees as a nonparametric discriminant analy- sis techmique. We also mention new approaches recently proposed in statistical literatu- re, such as: neural nets, K-nearest neighbors and support vector machines.

Cytaty

Powiązane dokumenty

Teksty prosimy przesyłać pod adresem redakcji (w dwóch egzemplarzach wraz z dyskietką lub CD) lub za pośrednictwem poczty elektronicznej: mks_redakcja@wshe.. Tekst powinien

Nie zakładają skłonności do obniżenia plonu kiedy maksimum indeksu plonu zamknęło się między 46 i 54%, podczas gdy w badaniach Takeda i Peltonen-Sainio (1991)

Liniowa analiza dyskryminacyjna [2] (ang.. Dopuszczenie ró˙znych macierzy kowariancji przy zało˙zeniu normalno´sci rozkładów w klasach nazywane jest metod ˛ a QDA...

Odr~bnym zagadnieniem stratygraficznym jest wiek masywow syenitowych (elckiego i mlawskiego) i masywu alkaliczno-ultrazasadowego (tajenskiego). Nie wiadomo jednak czy

ery dionizyjskiej (w dniu 17. miesiąca ramadan). Nie znany jest natomiast rok jego urodzin, umieszczany generalnie pomiędzy 50 a 58 r. ery dionizyjskiej) 15. W chwili

(2009) Wykorzystanie analizy dyskryminacyjnej w ocenie ryzyka

lim- bicznym, układem komunikacyjnym mózgu płci męskiej i żeńskiej; (18) rozwija- niu aktywności twórczej i odtwórczej poprzez stosowanie problemów otwartych i

Dzisiejsz¹ modê na wymianê rzeczy, z powodzeniem przy pomocy portali czy blogów organizowan¹ tak¿e w œwiecie realnym, antropolodzy interpretuj¹ jako kulturowy nawrót do stanu