• Nie Znaleziono Wyników

Rozdział II Klasyfikacja obiektów wielowymiarowych

2.2. Charakterystyka wybranych metod klasyfikacyjnych

2.2.1. Liniowa analiza dyskryminacyjna

Liniowa analiza dyskryminacyjna została opracowana została przez R. A. Fishera [1936]. Służy ona do klasyfikacji wielowymiarowych obiektów opisanych zestawem cech diagnostycznych za pomocą funkcji dyskryminacyjnej. Na podstawie wszystkich informacji o obserwacjach z próby uczącej wyznaczana jest postać liniowej funkcji dyskryminacyjnej,

39

która może być następnie wykorzystana do wskazania populacji, z których pochodzą obiekty nie biorące udziału w szacowaniu parametrów. Poza możliwością wykorzystania zbudowanej funkcji dyskryminacyjnej do przewidywania przynależności obiektów nieznanego pochodzenia, badacz uzyskuje również wiedzę na temat siły i kierunku wpływu poszczególnych zmiennych niezależnych na przynależność do każdej z populacji. Informacje te są zawarte w oszacowaniach parametrów funkcji dyskryminacyjnej. Analiza zdolności dyskryminacyjnych zmiennych niezależnych może stanowić ważny cel prowadzonych badań [Walesiak, 1996]. Z formalnego punktu widzenia, funkcja dyskryminacyjna odwzorowuje

K-wymiarową przestrzeń zmiennych niezależnych opisujących obserwacje , w przestrzeń jednowymiarową liczb rzeczywistych , co można zapisać:

: → (2.1)

W sytuacji wystąpienia dwóch populacji, do których klasyfikuje się obiekty, o ich przynależności decyduje uzyskana wartość funkcji dyskryminacyjnej. Wartość ta porównywana jest z wartością graniczną rozdzielającą badane obiekty. W przypadku modelu dyskryminacyjnego, dla którego wartość graniczna równa jest 0, obserwacje dla których funkcja dyskryminacyjna wskaże wartości poniżej zera klasyfikowane będą do populacji , natomiast obserwacje, dla których wartości przekroczą wartość 0 klasyfikowane będą do populacji [Hadasik, 1998]:

= { ∈ : ( ) < 0} (2.2)

= { ∈ : ( ) > 0} (2.3)

Obszary klasyfikacyjne i składają się na całą przestrzeń , w której znajdują się wszystkie K-wymiarowe wektory opisujące obiekty. Na rysunku 3 przedstawiono przykładowy problem klasyfikacji obiektów pochodzących z dwóch różnych populacji i , którym odpowiadają obszary klasyfikacyjne i . Obiekty opisane są za pomocą dwóch zmiennych niezależnych oraz .

40

Rysunek 3. Klasyfikacja obiektów do dwóch różnych populacji

Źródło: Opracowanie własne na podstawie [Jajuga i Walesiak, 2005]

Dwuwymiarowe obszary klasyfikacyjne przedstawione na rysunku 3 rozdzielone są za pomocą prostej M, która wskazuje granicę przynależności obiektów obu populacji. W ogólnym przypadku K-wymiarowego obszaru klasyfikacyjnego, prosta M zastąpiona jest powierzchnią, którą można zapisać następująco:

= { ∈ : ( ) = 0} (2.4)

W przykładzie przedstawionym na rysunku, funkcję dyskryminacyjną stanowi liniowa kombinacja dwóch zmiennych dyskryminujących oraz . Konstruowanie funkcji dyskryminacyjnej można porównać do szukania w przestrzeni klasyfikacyjnej takiego kierunku, który pozwala w najlepszy możliwy sposób odseparować obiekty pochodzące z różnych populacji [Aczel i Sounderpandian, 2009]. Funkcja ta zbudowana jest z wykorzystaniem bayesowskiej reguły klasyfikacyjnej, umożliwiającej wyznaczenie prawdopodobieństwa a posteriori zajścia określonego zdarzenia losowego. W tym celu wykorzystuje się prawdopodobieństwo a priori oraz funkcję gęstości ( ) dla wektora losowego X w populacjach (i = 0 lub i = 1).

Prawdopodobieństwo a priori należy rozumieć jako informację o częstości występowania obserwacji z poszczególnych populacji. Oznacza to, że wyznaczenie prawdopodobieństw a priori nie wymaga znajomości wartości wszystkich cech

41

diagnostycznych obiektów danej populacji, a jedynie informacji o częstości ich występowania w relacji do wszystkich obiektów bez względu na populacje, z których pochodzą.

Inaczej jest z prawdopodobieństwem a posteriori, które stanowi podstawę konstrukcji funkcji dyskryminacyjnej. Wartość prawdopodobieństwa a posteriori wynika bezpośrednio z wartości poszczególnych zmiennych charakteryzujących obiekty analizy. Można utożsamiać je z prawdopodobieństwem warunkowym przynależności obserwacji do danej populacji przy uwzględnieniu znanego prawdopodobieństwa a priori oraz funkcji gęstości ( ) każdej z populacji (i = 0 lub i = 1) [Panek, 2008].

Korzystając z reguły bayesowskiej, prawdopodobieństwo a posteriori stanowiące kluczowy element konstrukcji funkcji dyskryminacyjnej można sformułować w następujący sposób:

( ) = ( )

( ) ( ), = 0, 1, (2.5)

gdzie:

– prawdopodobieństwo a priori przynależności obiektu do populacji (i = 0 lub i = 1),

( ) – funkcja gęstości wektora losowego X w populacji (i = 0 lub i = 1).

W przypadku problemu dyskryminacji obiektów pochodzących z dwóch różnych populacji, dla każdej obserwacji reprezentowanej przez wektor wartości zmiennych niezależnych wyznacza się dwa prawdopodobieństwa a posteriori odpowiadające populacjom oraz . Uzyskane wartości zapisuje się za pomocą zmiennej ( ) w postaci ilorazu prawdopodobieństw przynależności obiektu do obu populacji.

( ) = ( ) ( )= ( ) ( ) ( ) ( ) ( ) ( ) = ( )( ). (2.6)

Obiekt, dla którego wartość prawdopodobieństwa ( ) jest wyższa od prawdopodobieństwa ( ) pochodzi z populacji . W takim przypadku zmienna ( ) przyjmuje wartość większą od 1. Dla wartości zmiennej ( ) mniejszej od jedności, uznaje się, że obiekt pochodzi z populacji [McLachlan, 2004].

Konstrukcja funkcji dyskryminacyjnej opiera się na założeniu o normalności rozkładów wszystkich zmiennych niezależnych oraz występowaniu funkcji gęstości dla

42

rozważanych populacji obiektów o K-wymiarowych rozkładach normalnych. Warto zwrócić uwagę na to, że zdolności dyskryminacyjne konstruowanej funkcji istotnie zależą od występowania różnic w wektorach wartości oczekiwanych zmiennych opisujących obiekty badania w obu populacjach. W przypadku, gdy obiekty w obu populacjach nie różnią się w istotny sposób od siebie, trudno jest oczekiwać, aby funkcja dyskryminacyjna wykazywała zdolność do poprawnej klasyfikacji. W analizie dyskryminacyjnej zakłada się ponadto równość macierzy wariancji-kowariancji dla obu populacji. Zakładając równość prawdopodobieństw a priori dla obu populacji, wzór (2.6) można przedstawić w postaci ilorazu dwóch funkcji:

( ) = ( )

( )= ( ,∑)

( ,∑)=( ) . | ∑ | . [ . ( ) ∑ ( )]

( ) . | ∑ | . [ . ( ) ∑ ( )],

(2.7)

Upraszczając formułę (2.7), można ją zapisać w postaci następującej funkcji wykładniczej:

( ) = exp [( − ) ∑ − ( − ) ∑ ( − )]

.

(2.8)

W powyższym wzorze, wartość zmiennej ( ) zależna jest wyłącznie od zmiennych zapisanych w wykładniku funkcji. Po dalszym uproszczeniu funkcji dyskryminacyjnej, jej ostateczną postać uwzględniającą jedynie wykładnik potęgi przedstawionej w formule (2.8) przedstawia się następująco:

( ) = ( − ) ∑ − ( − ) ∑ ( − )

.

(2.9)

Odpowiadający formule (2.9) zapis macierzowy ma postać:

( ) = +

,

(2.10)

gdzie:

= ∑ ( − ),

= − ( − ) ∑ ( − ).

Zgodnie z powyższym zapisem funkcja dyskryminacyjna wyznaczana jest na bazie liniowej kombinacji zmiennych niezależnych opisujących obiekty poddane analizie. Ze względu na potrzebę odwrócenia we wzorze macierzy wariancji-kowariancji wymagane

43

jest by była ona macierzą nieosobliwą. W praktyce oznacza to, że zmienne wykorzystane do opisu obiektów nie powinny być ze sobą silnie skorelowane. Ponadto zmienne te powinny mieć rozkład normalny. Takie restrykcje wymuszają dobór odpowiednich zmiennych opisujących klasyfikowane obiekty. W przypadku danych empirycznych, często zdarza się, że wymogi formalne wynikające z konstrukcji funkcji dyskryminacyjnej są trudne do spełnienia. Równanie funkcji dyskryminacyjnej obejmuje zestaw współczynników stojących przy każdej ze zmiennych niezależnych. Współczynniki te określają siłę i kierunek wpływu zmiennych na przynależność obiektu do danej populacji. Zbudowana funkcja poza wyjaśnieniem wpływu poszczególnych zmiennych, może być także wykorzystana do przewidywania przynależności obiektów do populacji, w obrębie obserwacji, które nie brały udziału w wyznaczaniu funkcji dyskryminacyjnej. Przed wykorzystaniem funkcji do prognozowania należy ocenić zdolności dyskryminacyjne modelu oraz upewnić się, że jakość stawianych przez nią prognoz jest dla badacza wystarczająco wysoka, również w obrębie obserwacji spoza próby uczącej.