• Nie Znaleziono Wyników

Modelu + Niedoskonało ´s ´cDanych

5.2. Wst ˛epne przetwarzanie danych

Jak już stwierdzono w poprzednim podrozdziale, na ostateczny całkowity błąd ma wpływ nie tylko niedoskonałość modelu, ale i niereprezentatywność danych. Dlatego też niezwykle ważne jest, aby dane były jak najlepsze. Na jakość danych wpływa wiele czynników. Do głównych należą: jakość dokonanych pomiarów, jakość zbierania i przechowywania danych (nierzadko mamy do czynienia z brakującymi informacjami), zawartość informacyjna poszczególnych cech (atrybutów) i wstępne przetwarzanie danych. Uwag na tematy wstępnego przetwarzania danych można doszukać się w różnych publikacjach, a szczególnie warto wymienić [20, 166, 10, 95].

5.2.1. Transformacje danych

Nierzadko wartości niektórych cech nie mają rozkładów liniowych czy normalnych, obserwuje się czasami eksponencjalny czy logarytmiczny rozrzut danych w pew-nym wymiarze. Takie cechy najczęściej mogą wnieść więcej informacji po dokonaniu transformacji odwrotnej od tej, która została zaobserwowana w danym wymiarze. Z kolei gdy pewne cechy przyjmują wartości symboliczne należy rozważyć użycie miar heterogenicznych. Więcej informacji na ten temat znajduje się w podrozdziale 2.2.1.

W problemach klasyfikacyjnych większość metod zazwyczaj zakłada podobny rozrzut danych w poszczególnych wymiarach przestrzeni wejściowej. Stąd też najczęściej dokonuje się pewnej transformacji danych, która zniweluje zbyt duże, początkowe dysproporcje pomiędzy wartościami w poszczególnych wymiarach.

Najprostszą stosowaną transformacją jest normalizacja danych tak, aby po transfor-macji wartości mieściły się w przedziale [0, 1] (w podobny sposób można dokonać transformacji tak aby wartości mieściły się w przedziale[−1, 1]). W tym celu dla każdej cechy dokonuje się poniższego przekształcenia:

xi0= xi− xmin xmax− xmin

(5.13) przy czym

xmin = min

i xi (5.14)

xmax = max

i xi (5.15)

a i zmienia się od 1 do n.

Powyższa transformacja może być czasami wręcz niebezpieczna. Gdy mamy do czy-nienia z błędnymi wartościami w pewnych cechach, może się okazać iż leżą one daleko poza normalnym zakresem wartości danej cechy. W takim przypadku docho-dzi do nadmiernego ściśnięcia znormalizowanych wartości danej cechy, niosących najwięcej istotnych informacji. Z tego też powodu często stosuje się powyższą nor-malizację danych, ale wartości xmin i xmax wybiera się nie spośród całego zbioru S = {x1, x2, . . . , xn}, lecz po odrzuceniu ze zbioru S k% najmniejszych i najwięk-szych wartości (za k przyjmuje się najczęściej 5 lub 10). Taką normalizację najczęściej nazywa się normalizacją z obcięciem.

Innym sposobem jest standaryzacja danych:

xi0 = xi− ¯x σx

(5.16) gdzie ¯x jest wartością średnią, natomiast σx jest standardowym odchyleniem:

¯x = 1 n

Xn i=1

xi (5.17)

σx = 1

n − 1 Xn i=1

(xi− ¯x)2 (5.18)

Tak jak czysta normalizacja może prowadzić do złych konsekwencji, tak stosowa-nie normalizacji z obcięciem, czy standaryzacji, jest bezpieczstosowa-niejsze i zazwyczaj stosowa-nie prowadzi do istotnych różnic w późniejszym procesie adaptacji.

Czasem, gdy rozkład danych dla pewnej cechy (czy grupy cech) nie jest normalny lub liniowy i bardziej zależy nam na zachowaniu relacji pomiędzy poszczególnymi elementami, niż odległości, jakie one wyznaczają, można skorzystać z poniższego przekształcenia (niezależnie dla wszystkich cech):

xi0= 2|{x : x < xi}| + |{x : x = xi}| (5.19)

|Z| oznacza tu moc zbioru Z.

Powyższe przekształcenie oparte o podobieństwo, a nie o realne odległości, może być zastosowane do części lub wszystkich wymiarów. Ważną własnością tego prze-kształcenia jest niwelacja nieliniowości rozkładu danych w wymiarze, który poddaje się transformacji.

Wadą może okazać się łączenie się (niemal) uprzednio odległych skupisk danych o ciągłych wartościach, pomiędzy którymi nie było żadnych innych danych. Jednak można temu zaradzić, wprowadzając do powyższego przekształcenia informacje o punktach, które są istotnymi punktami podziału wartości cech w wymiarze, który ak-tualnie podlega transformacji. Punkty takie można wyznaczyć korzystając na przykład z kryterium używanego w drzewach CART [17], kryterium dipolowego [14, 12, 13], czy SSV [78] lub metod opartych na histogramach i dendrogramach. Wyznacza-nie punktów podziałów powinno przebiegać równocześWyznacza-nie dla wszystkich wymiarów podlegających transformacji. Prowadzi to do optymalnego wyboru tych punktów i przypisania im wartości, które odzwierciedlają ich wpływ na polepszenie podziału.

Tak zmodyfikowaną transformację można zdefiniować poprzez:

xi0= 2|{x : x < xi}| + |{x : x = xi}| + X

p∈Pk∧p<xi}

κp (5.20)

gdzie Pk jest zbiorem punktów podziału k-tego wymiaru. Natomiast κpjest współ-czynnikiem określającym istotność podziału w punkcie p względem innych wyzna-czonych punktów.

5.2.2. Warto ´sci nietypowe

Problemów mogą dostarczyć również wartości nietypowe poprzez zaburzenia pro-cesu uczenia i w końcowym efekcie spowodować obniżenie poziomu generalizacji.

Dobrymi przykładami takich wartości są wszelkie irracjonalne wartości w danym zagadnieniu, np. temperatura ciała człowieka wynosząca 70 stopni Celsjusza. Możne też dojść do powstania wartości nietypowych w parach cech lub grupach cech. Na przykład: wiek = 5 lat, wzrost = 166 cm. W tym przypadku wartości poszczególnych cech są jak najbardziej dopuszczalne, ale ich kombinacja jest nierealna. Pochodzenie wartości nietypowych jest zazwyczaj związane z procesem dokonywania pomiarów, lub ich kolekcjonowania i przechowywania. W miarę możliwości należy dokonać po-prawek takich wartości, bądź ich usunięcia, lub usunięcia całych wektorów, w których występują takie wartości.

5.2.3. Warto ´sci brakuj ˛ ace

Inny problem stanowią wartości brakujące w wektorach, opisujących różne przypad-ki. Niewątpliwie najlepszym lekarstwem jest właściwe uzupełnienie takich braków.

Jednak w praktyce jest to niemal zawsze niewykonalne. Jeśli nie można uzupełnić, to należy wziąć pod uwagę możliwość redukcji zbioru danych o wektory, które posia-dają wartości brakujące, lecz gdy zbiór danych nie jest wystarczająco duży, to i takie

rozwiązanie nie możne być zastosowane. Ważna jest przyczyna powstania wartości brakujących. W przypadku danych medycznych mamy do czynienia z dwoma istotnie różnymi przyczynami. Pierwsza najczęściej jest spowodowana decyzją, której konklu-zją było niewykonanie jakiejś analizy czy pomiaru. Druga grupa to braki wynikające z zagubienia informacji lub na przykład utraty kontaktu z pacjentem.

Jedną z ciekawszych możliwości jest pominięcie wymiaru, w którym mamy do czy-nienia z wartością brakującą. Jednak nie każdy model umożliwia opuszczenie ta-kiego wymiaru bez znacznych skutków ubocznych. Możliwość opuszczenia pewnego wymiaru podczas klasyfikacji mamy, gdy model korzysta z separowalnych funkcji transferu (por. podrozdział 2.4.6 i 2.4.7), na przykład z funkcji Gaussa, czy funkcji bicentralnych.

Inną możliwością postąpienia z wartościami brakującymi, jest przypisanie im specjal-nych wartości spoza przedziału, w którym występują wartości w danym wymiarze.

Powoduje to uwzględnienie informacji o, na przykład, niedokonaniu pewnego bada-nia, czy niewykonaniu jakiegoś pomiaru.

Jeszcze innym spotykanym podejściem jest zastąpienie wartości brakującej wartością, która jest najbardziej prawdopodobna (np. najczęściej występującą w danym wymia-rze) lub najoptymalniejszą wartością, zakładając wykorzystanie pewnego klasyfikatora X . Jednakże w takim przypadku nie można być pewnym trafności wyboru i czasem może to zwiększyć ryzyko popełnienia błędu (choć sam sposób postępowania ma na celu znalezienie najbardziej prawdopodobnej wartości w miejsce wartości nieznanej).

Dla przykładu, gdy założyć, iż wartości brakujące zastąpi się najczęściej występującą wartością danej cechy, można spodziewać się, że brakująca informacja o wzroście niemowlęcia wyniesie około 165 cm.

Stosowanie wartości średnich danego wymiaru, jako substytutu wartości brakującej, również pojawia się w literaturze. Lecz podobnie jak ostatni sposób (lub jeszcze bardziej) naraża to na popełnienie błędu w procesie uczenia, bądź klasyfikacji, choć w literaturze często spotyka się takie postępowanie podczas porównywania generalizacji różnych metod.

Wszystkie powyżej zaprezentowane podejścia do problemu wartości brakujących roz-wiązują problem jedynie częściowo i mogą powodować różne konsekwencje, nieko-niecznie oczekiwane. Lecz gdy wrócić do źródeł powstawania brakujących wartości, to można dojść do konstruktywnych konkluzji.

Źródła wartości brakujących to:

• wartość nie była wyznaczana — np. lekarz nie zlecił wykonania danego testu

• wartość nie została wyznaczona — np. lekarz zlecił wykonanie danego testu lecz wyniku nie ma

W pierwszym przypadku zastępowanie wartością średnią bądź niby najbardziej praw-dopodobną może nieść za sobą duże ryzyko, ponieważ nie zlecenie wyznaczenia wartości na pewno było świadomą decyzją, popartą pewną wiedzą a priori, o której

trudno założyć, że istnieje o niej informacja w samych danych. Dlatego też raczej na-leży przypisać pewną ustaloną stałą wartość spoza zakresu występowania danych w tym wymiarze, która będzie symbolizowała owo nie zlecenie wyznaczenia wartości.

Natomiast w drugim przypadku wartość w ewidentny sposób została zagubiona w procesie jej wyznaczania bądź przechowywania. Nie ma w tym żadnej świadomej działalności podobnej do poprzedniego przypadku. W takim przypadku bardziej wska-zanym wydaje się uzupełnienie wartości możliwie najbardziej prawdopodobną warto-ścią, przy wykorzystaniu do tego wszelkich informacji dostępnych w danych uczących lub korzystaniu z pewnego klasyfikatora1, wspomagającego sam proces uprawdopo-dobniania owej wartości.

Takie postępowanie jest połączeniem dwóch, już wcześniej opisywanych metod, ale z uwzględnieniem źródła wartości brakującej. W rezultacie otrzymuje się bardziej racjonalną metodę postępowania.

5.2.4. Selekcja cech

Bardzo pozytywnie na przebieg procesu uczenia, jak i ostateczny poziom genera-lizacji, może wpłynąć wybór istotnych cech, spośród wszystkich wymiarów danych wejściowych. Powstało bardzo wiele i bardzo różnych metod wyboru istotnych cech.

W pracach [34, 56, 56, 10, 3] można znaleźć porównania metod selekcji cech.

Metody różnią się sposobami doboru ilości i kolejności cech w analizie. Niektóre z metod prowadzą analizę całej przestrzeni możliwości, która czasem może być duża (jej złożoność to O(2N)). Inne metody dobierają lub odrzucają cechy heurystycznie (wtedy złożoność zazwyczaj nie przekracza O(N2)) lub analizują różne losowe kom-binacje cech (wtedy maksymalna złożoność znów wnosi O(2N), lecz liczbę losowań ogranicza się z góry).

Metody doboru cech mogą też różnić się metodami oceny cech. Można prowadzić analizę w oparciu o odległość (separowalność czy dyskryminację — np. drzewa decy-zyjne). Korzysta się również z różnych miar informacji przy ocenie danego wymiaru.

Innym sposobem jest też badanie zależności czy korelacji pomiędzy wymiarami. Bada się także wymiary pod kątem utrzymywania pewnego warunku zgodności, jednocze-śnie wymuszając korzystanie z jak najmniejszej liczby cech. Jeszcze inną rodzinę stanowią metody korzystające z pewnego klasyfikatora (czy aproksymatora), który służy do oceny dokonanego doboru cech (np. [46]).