Problem brakuj ˛ acych warto´sci atrybutów

Przeprowadzone dotychczas badania dotycz ˛ace zagadnienia analizy ryzyka operacyjne-go były wykonane na zbiorze obserwacji opisanych kompletnym wektorem cech. Wej´sciowy zbiór danych został ograniczony z 1203 do 470 obserwacji niezawieraj ˛acych brakuj ˛acych warto´sci cech. Atrybutami w´sród których zaobserwowano brakuj ˛ace warto´sci były dwie ce-chy zwi ˛azane z mierzon ˛a wydolno´sci ˛a płuc pacjenta: PRE4 oraz PRE5 (61.% brakuj ˛acych

warto´sci atrybutów).

Zagadnienie brakuj ˛acych warto´sci atrybutów jest jednym z typowych problemów z da-nymi wykorzystywada-nymi do konstrukcji modeli decyzyjnych [50]. Brak znajomo´sci war-to´sci niektórych cech klasyfikowanych obiektów mo˙ze wynika´c z ró˙znych przyczyn, braku mo˙zliwo´sci przeprowadzenia pewnych bada´n u pacjentów, bł˛ednego sposobu gromadzenia danych, czy te˙z utraty danych ze wzgl˛edu na bł˛edy w procesie przetwarzania. W literatu-rze wyró˙znia si˛e szereg podej´s´c do problemu niekompletno´sci danych w ramach których wyró˙zni´c mo˙zna cztery grupy metod [148]:

1. Techniki eliminacji braków danych w ramach których wyró˙znia si˛e eliminacj˛e przy-padkami (jednorazow ˛a redukcj˛e zbioru ucz ˛acego do kompletnych obserwacji) i eli-minacj˛e parami (ka˙zdorazowe usuwanie z oblicze´n przypadków z brakami danych dla wykorzystywanych zmiennych).

2. Techniki imputacji (ang. imputation techniques), polegaj ˛ace na uzupełnianiu braku-j ˛acych obserwacji atrybutów na podstawie metod statystycznych lub technik uczenia maszynowego.

3. Techniki polegaj ˛ace na estymacji funkcji g˛esto´sci rozkładu generuj ˛acego dane.

4. Techniki eliminuj ˛ace problem brakuj ˛acych warto´sci atrybutów na poziomie uczenia klasyfikatora.

Celem unikni˛ecia redukcji obserwacji w rozpatrywanym zbiorze danych dla których warto´sci PRE4 , oraz PRE5 s ˛a nieznane przeanalizowano jako´s´c działania wybranych me-tod dedykowanych do rozwi ˛azania problemu brakuj ˛acych warto´sci atrybutów. W badaniu wzi˛eto pod uwag˛e nast˛epuj ˛ace algorytmy:

• Metod˛e eliminacji atrybutów (AE-MV). Atrybuty zawieraj ˛ace brakuj ˛ace warto´sci nie s ˛a rozpatrywane w procesie klasyfikacji.

• Metod˛e polegaj ˛ac ˛a na maksymalizacji warto´sci oczekiwanej (ang. Expectation

• Metod˛e bazuj ˛ac ˛a na Bayesowskiej Analizie Składowych Głównych (ang. Bayesian

Principal Component Analysis, BPCA-MV) [95]. Metoda wykonuje estymacj˛e braku-j ˛acych warto´sci poprzez równoczesne wykorzystanie regresji składowych głównych (ang. Principal Component Regression), wnioskowanie Bayesowskie i algorytm EM.

• Metod˛e bazuj ˛ac ˛a na algorytmie K najbli˙zszych s ˛asiadów (KNN-MV) [7]. Brakuj ˛aca warto´s´c stanowi ´sredni ˛a warto´s´c (b ˛ad´z warto´s´c najcz˛e´sciej obserwowan ˛a, w przypad-ku atrybutów nominalnych) K najbli˙zszych s ˛asiadów obserwacji.

• Metod˛e wykorzystuj ˛ac ˛a wa˙zon ˛a wersj˛e algorytmu K najbli˙zszych s ˛asiadów ( WKNN-MV) [133]. Modyfikacja metody KNN-MV uwzgl˛edniaj ˛aca dodatkowo odległo´sci po-mi˛edzy s ˛asiadami.

• Metod˛e wykorzystuj ˛ac ˛a algorytm K-´srednich (KMeans-MV) [81]. Brakuj ˛aca warto´s´c atrybutu obserwacji stanowi ´sredni ˛a warto´s´c (b ˛ad´z warto´s´c najcz˛e´sciej obserwowa-n ˛a, w przypadku atrybutów nominalnych) cechy dla obserwacji znajduj ˛acych si˛e w klastrze otrzymanym poprzez zastosowanie algorytmu K-´srednich.

• Metod˛e wykorzystuj ˛ac ˛a rozmyty algorytm (FKMeans-MV) [81]. Modyfikacja

podej-´scia KMeans-MV polegaj ˛aca na uwzgl˛ednieniu w procesie wstawiania warto´sci stop-nia przynale˙zno´sci obiektu do danego klastra.

• Technik˛e wstawiania brakuj ˛acych warto´sci wykorzystuj ˛ac ˛a metod˛e lokalnych naj-mniejszych kwadratów (ang. Local Least Squares Imputation, LLSI-MV) [69]. Ka˙zda

obserwacja z brakuj ˛acymi warto´sciami atrybutów stanowi kombinacj˛e liniow ˛a kom-pletnych obserwacji podobnych. W ramach metody wyró˙znia si˛e dwa kroki. W pierw-szym kroku wyznaczane s ˛a lokalne obserwacje znajduj ˛ace si˛e najbli˙zej ze wzgl˛edu na przyj˛et ˛a norm˛e L2. W drugim kroku dla lokalnych obserwacji estymowane s ˛a para-metry regresji z wykorzystaniem metody najmniejszych kwadratów.

• Technik˛e wstawiania polegaj ˛ac ˛a na uzupełnianiu brakuj ˛acych warto´sci z wykorzy-staniem regresji wektorów wspieraj ˛acych (ang. Support Vector Regression, SVR-MV)

[60]. Brakuj ˛aca warto´s´c traktowana jest jako warto´s´c wyj´sciowa modelu regresji i estymowana jest na podstawie znanych warto´sci innych atrybutów.

Metoda TPrate TNrate Acc GMean AE-MV 62.27 63.68 63.42 62.97 EM-MV 37.73 78.84 71.32 54.54 BPCA-MV 40.91 56.97 54.03 48.28 KNN-MV 61.36 64.80 64.17 63.06 WKNN-MV 63.18 62.97 63.01 63.08 KMeans-MV 55.00 67.45 65.17 60.91 FKMeans-MV 60.91 64.50 63.84 62.68 LLSI-MV 59.09 66.84 65.42 62.84 SVR-MV 37.27 77.62 70.24 53.79

Tabela 5.4: Wyniki dla ró˙znych technik eliminacji brakuj ˛acych warto´sci atrybutów. Analiz˛e jako´sci zastosowanych metod przeprowadzono dla klasyfikatoraBSI.

Wyniki bada´n jako´sci przedstawionych metod w kontek´scie ich zastosowania do elimi-nacji problemu brakuj ˛acych warto´sci atrybutów przedstawiono w Tabeli 5.4. Jako metod˛e klasyfikacji, bazuj ˛ac na wynikach przedstawionych w Tabeli 5.3, wybrano do bada´n algo-rytm BSI. Jako kryteria oceny metod przyj˛eto, podobnie jak w poprzednich badaniach, warto´sci T P_rate, T N_rate, Acc, oraz GM ean. Jako metodyk˛e eksperymentu przyj˛eto walida-cj˛e krzy˙zow ˛a z podziałem na 5 podzbiorów.

Najwy˙zsz ˛a warto´s´c wska´znika GM ean została osi ˛agni˛eta po zastosowaniu metody uzu-pełniania warto´sci z wykorzystaniem wa˙zonego algorytmu K-najbli˙zszych s ˛asiadów ( WKNN-MV). Nieznacznie ni˙zsz ˛a warto´s´c zaobserwowano dla klasycznej odmiany metody uzupeł-niania (KNN-MV ), oraz dla podej´scia polegaj ˛acego na usuni˛eciu atrybutów z brakuj ˛acymi warto´sciami (AE-MV). Ze wzgl˛edu na silny stopie´n niezbalansowania danych, oraz wysoki procent brakuj ˛acych warto´sci atrybutów zaobserwowano, ˙ze wyniki osi ˛agni˛ete przez me-todyEM-MV, BPCA-MV, SVR-MV osi ˛agn˛eły istotnie ni˙zsz ˛a warto´s´c wska´znika GM ean ni˙z wyniki innych rozpatrywanych metod. Najwy˙zsza warto´s´c wska´znika TP_rate została zaob-serwowana dla metodyWKNN-MV i była to jedyna metoda, która osi ˛agn˛eła wy˙zsz ˛a warto´s´c wska´znika ni˙z metoda eliminacji atrybutówAE-MV. Wysoka jako´s´c metody WKNN-MV

wy-ra˙zona poprzez kluczowe dla problemu niezbalansowania wska´zniki TP_rate, oraz GM ean ´swiadczy o tym, ˙ze jest ona najlepsz ˛a metod ˛a wstawiania brakuj ˛acych warto´sci

atrybu-tów dla rozpatrywanego problemu klasyfikacji w´sród algorytmów rozpatrywanych w bada-niu. Jednak porównuj ˛ac wyniki otrzymane dla metodyBSI przedstawione w Tabeli 5.2, w

przypadku których zastosowano technik˛e eliminacji obserwacji z brakuj ˛acymi warto´sciami, (warto´s´c GM ean równa 65.73) z wynikami zamieszonymi w Tabeli 5.4 (najwy˙zsza warto´s´c

GM ean równa 63.08 dla metody WKNN-MV), stwierdza si˛e, ˙ze metoda usuni˛ecia braku-j ˛acych obserwacji jest rozwi ˛azaniem lepszym w stosunku do innych technik wstawiania warto´sci dla rozpatrywanego zadania klasyfikacji.

W dokumencie Zespoły klasyfikatorów SVM dla danych niezbalansowanych (Stron 89-93)