Wybrane metody tworzenia klasykatorów

3.4 Metody selekcji cech

Jednym z problemów w zadaniach klasykacji jest wielowymiarowo±¢ obiektów przypisanych do poszczególnych klas. Wielowymiarowo±¢ stanowi powa»ne utrud-nienie dla efektywno±ci algorytmów eksploracji danych. Redukcja wymiarów mo»e odbywa¢ si¦ poprzez proces selekcji cech (ang. feature selection), który polega na wybraniu mo»liwie dobrego podzbioru cech z peªnego zestawu wej±ciowego [63].

Jako dobry podzbiór cech uznaje si¦ zestaw nie zawieraj¡cy cech zb¦dnych.

Zb¦dne cechy nie wprowadzaj¡ »adnej nowej informacji lub te» nie maj¡ »ad-nego zwi¡zku z celem klasykacji, dziaªaj¡ jak szum, powoduj¡ wydªu»enie czasu uczenia, dlatego przed przyst¡pieniem do uczenia usiªuje si¦ je wykry¢ i usun¡¢.

Wyró»nia si¦ dwa rodzaje zb¦dnych cech: nieistotne (ang. irrelevant) i nadmia-rowe (ang. redundant) [92]. Cechy nieistotne s¡ cechami nieskorelowanymi z etykie-tami klas. Nie oznacza to, »e zmienne s¡ ¹le okre±lone, pozbawione jakiejkolwiek warto±ci lub bª¦dnie zmierzone. Mog¡ by¢ po prostu niezwi¡zane z rozpatrywa-nym w darozpatrywa-nym momencie zagadnieniem. Cechy nadmiarowe natomiast to cechy, których warto±ci mo»na wyliczy¢ z warto±ci pozostaªych cech. Najprostszy przy-padek nadmiarowo±ci stanowi cecha b¦d¡ca dokªadnym powtórzeniem innej, tj.

dla ka»dego obiektu warto±ci tych dwóch cech s¡ jednakowe. Odrzucenie zb¦dnych cech umo»liwia zmniejszenie wymaga« pami¦ciowych i zªo»ono±ci czasowej algo-rytmów uczenia oraz popraw¦ zdolno±ci uogólniania danego klasykatora, a wi¦c polepszenie wyników klasykacji. Selekcja cech, poprzez wskazanie najistotniej-szych atrybutów w zbiorze ucz¡cym, prowadzi do skoncentrowania si¦ algorytmu uczenia na najbardziej u»ytecznych aspektach danych.

Metody selekcji cech skªadaj¡ si¦ zazwyczaj z czterech elementów, takich jak:

generowanie podzbioru cech, walidacja podzbioru, kryterium zako«czenia selekcji (stopu), ocena rezultatów [43]. Najcz¦stszym podej±ciem jest sekwencyjny przegl¡d zestawów cech wedªug pewnej strategii i ocena jako±ci ka»dego zestawu. Strategia ta mo»e polega¢ na przykªad na dodawaniu jednej cechy wybranej losowo lub w szczególny sposób. Niestety przegl¡d wszystkich zestawów cech jest zwykle nie-mo»liwy ze wzgl¦du na czas selekcji rosn¡cy wykªadniczo z wymiarem danych. Dla m cech wej±ciowych istnieje (2m− 1) podzbiorów cech, a wi¦c w praktyce peªny przegl¡d jest wykonalny jedynie dla zbioru nie posiadaj¡cego wi¦cej ni» kilkana±cie cech. Dla takich zbiorów danych, peªny przegl¡d jest zalecany, je»eli n >> m (gdzie n jest liczno±ci¡ zbioru), inaczej takie podej±cie mo»e doprowadzi¢ do przeuczenia.

Generowanie podzbioru cech mo»e odbywa¢ si¦ na ró»ne sposoby. Podstawo-wymi strategiami s¡: przeszukiwanie w przód - strategia FSS (ang. Forward Se-lection Strategy) i przeszukiwanie wstecz - strategia BSS (ang. Backward Selec-tion Strategy, backward eliminaSelec-tion) [168]. W procedurze przeszukiwania w przód, w pierwszym kroku do pustego podzbioru atrybutów dodawana jest cecha uznana za najlepsz¡ bez uwzgl¦dnienia zale»no±ci mi¦dzy cechami. W kolejnym kroku do-dawany jest atrybut, który wraz z wybranym wcze±niej tworzy najlepsz¡ par¦

cech. Procedura ta przebiega iteracyjnie, a» do osi¡gni¦cia kryterium zatrzyma-nia. Ostateczn¡ odpowiedzi¡ jest zestaw najlepszy ze wszystkich rozpatrywanych.

W przypadku zestawów równowa»nych preferuje si¦ ten, w którym ostatnio doª¡-czona cecha, traktowana samodzielnie, oferuje mniejszy bª¡d klasykacji. Proce-dura przeszukiwania wstecz rozpoczyna si¦ od pierwotnego zbioru cech. Nast¦pnie z podzbioru kolejno usuwane s¡ cechy, w taki sposób, aby pomniejszony zestaw byª w danym kroku najlepszy z mo»liwych. Rozszerzeniem strategii FSS i BSS jest strategia dwukierunkowa: w ka»dym kroku mo»na albo dodawa¢, albo usuwa¢

jedn¡ cech¦, w zale»no±ci od tego, co daje lepszy wynik.

Istniej¡ dwa ró»ne podej±cia do ewaluacji podzbiorów cech. Pierwsze okre±lane jest jako metoda ltracyjna (ang. lter), poniewa» zbiór atrybutów jest ltrowany w celu utworzenia najbardziej obiecuj¡cego podzbioru przed rozpocz¦ciem eksplo-racji danych. Dla ka»dej cechy z osobna wyznaczany jest pewien wspóªczynnik (indeks) okre±laj¡cy jej jako±¢ wedªug przyj¦tego kryterium. Na podstawie

warto-±ci indeksów tworzone s¡ rankingi cech. Istnieje wiele sposobów tworzenia indek-sów, w±ród których wyró»nia si¦ metody oparte na korelacji warto±ci danej cechy

z etykiet¡ klasy, odlegªo±ciach pomi¦dzy ich rozkªadami czy kryteriach stosowanych w drzewach decyzyjnych. Selekcja polega na wyborze najlepszych cech (pierwszych w rankingu) powy»ej pewnego ustalonego progu, którym mo»e by¢ okre±lona liczba cech, które nale»y pozostawi¢ lub warto±¢ indeksu oceniaj¡cego. Metody rankin-gowe z denicji nie uwzgl¦dniaj¡ zale»no±ci pomi¦dzy cechami, przez co mog¡ oka-za¢ si¦ niewystarczaj¡ce w przypadku wyst¦powania korelacji pomi¦dzy cechami.

W drugim podej±ciu ocenia si¦ poszczególne cechy z wykorzystaniem algorytmów uczenia maszynowego [168]. St¡d podej±cie to nazywa si¦ metod¡ opakowuj¡c¡

(ang. wrapper), poniewa» algorytm uczenia zawiera si¦ w procedurze selekcji cech.

Rezultaty uzyskane z wykorzystaniem metod opakowuj¡cych zale»¡ wyª¡cznie od jako±ci algorytmu ucz¡cego i dopasowania algorytmu do okre±lonego zadania kla-sykacyjnego. Ocena podzbiorów cech jest najcz¦±ciej dokonywana przy u»yciu pewnego modelu klasykacyjnego, a miar¡ jako±ci podzbioru jest dokªadno±¢ kla-sykatora, oszacowana przy u»yciu walidacji krzy»owej.

W rozprawie zastosowano takie metody selekcji cech jak selekcja realizowana bezpo±rednio przez drzewa decyzyjne oraz selekcja przez eksperta na podstawie wiedzy dziedzinowej w przypadku konstrukcji klasykatorów metod¡ k-NN. Me-tody indukcji drzew decyzyjnych s¡ tak zaprojektowane, aby wybra¢ najlepszy atrybut podczas podziaªu ka»dego w¦zªa i nie powinny - w teorii - wybiera¢ atry-butów nieistotnych lub bezu»ytecznych. W praktyce jednak mo»e by¢ to trudne do osi¡gni¦cia, gdy» z ka»dym podziaªem maleje liczebno±¢ zbioru obiektów, na któ-rym dokonywany jest wybór cech. Bardzo podatna na nieistotne cechy jest tak»e metoda k najbli»szych s¡siadów, poniewa» zawsze pracuje w lokalnym s¡siedztwie klasykowanego obiektu, bior¡c pod uwag¦ zaledwie kilka przykªadów ucz¡cych przy podejmowaniu ka»dej decyzji. St¡d w rozprawie zaproponowano selekcj¦ cech opart¡ na wiedzy dziedzinowej.

W dokumencie Metody stosowania wiedzy dziedzinowej do poprawiania jakości klasyfikatorów (Stron 64-67)