• Nie Znaleziono Wyników

Identyfikacja obiektów odległych w dużych zbiorach danych eksperymentalnych 117

W pracy Sm olińskiego (2012) przedstaw iono w pływ w ystępow ania w zbiorach danych obiektów odległych n a konstrukcję m odeli regresyjnych. W klasycznej anali­

zie czynników głów nych (PC A ) obiekty odległe m a ją bardzo duży w pływ na kierunek konstruow anych czynników głów nych (rys. 5.5). Z godnie z definicją, P C I powinien być tak skonstruow any, aby m aksym alizow ać opis w ariancji danych. N a rysunku 5.5a obiekt 7, będący obiektem odległym , determ inuje przebieg P C I. Po popraw nej identy­

fikacji i odrzuceniu tego obiektu, ja k o obiektu odległego, P C I ma zupełnie inny prze­

bieg (rys. 5.5b).

PC1

N

Zmienna 1 PC1

N

Zmienna 1

Rys. 5.5. Konstrukcja pierwszego czynnika głównego (PC1) dla symulowanych danych:

a - w których występuje obiekt odległy, b - po poprawnej jego identyfikacji i eliminacji z e zbioru danych

W m odelach kalibracyjnych w yróżnia się obiekty odległe w kierunku osi OX (ang. leverage points) oraz obiekty odległe w kierunku osi O Y (Sm oliński i in. 2009;

Sm oliński 2012). Ponadto w prow adzono pojęcie dobrych i złych obiektów odległych w kierunku osi OX. P od pojęciem dobrego obiektu odległego rozum ie się obiekt, któ­

ry leży daleko od pozostałych obiektów , a jednocześnie stabilizuje m odel skonstmo- w any dla tych obiektów , podczas gdy tzw . złe obiekty odległe w kierunku osi OX, d estabilizują ten m odel.

D w a sposoby elim inacji problem u w ystępow ania w danych obiektów odległych w ym ieniane w literaturze b az u ją bądź to na zastosow aniu statystycznej diagnostyki

obiektów odległych, bądź tzw . m etod stabilnych, um ożliw iających konstrukcję po­ obiektów odległych m oże w konsekw encji doprow adzić do destabilizacji konstruow a­

nego m odelu. Podstaw ow ym ograniczeniem zastosow ania statystycznych m etod dia­

gnostyki obiektów odległych je s t fakt, że m ogą one być stosow ane jed y n ie do danych 0 rozkładzie norm alnym i dla zm iennych niezależnych. M etody te nie m ogą w ięc być stosowane w analizie danych, w których obiekty grapują się w klastery, gdyż w takim przypadku m ożliw ie je st, że zbyt w iele obiektów zostanie błędnie zidentyfikow anych jako obiekty odległe.

M etody stabilne, w odróżnieniu od statystycznej diagnostyki obiektów odległych, umożliwiającej identyfikację jed y n ie pojedynczych obiektów odległych, pozw alają na rozwiązanie problem u w ystępow ania w danych w iększej ilości obiektów odległych 1 ich w zajem nego m askow ania się. C zęsto słabe zależności liniow e m iędzy analizo­

wanymi param etram i są zw iązane z w ystępow aniem w danych obiektów odległych, które m askują praw dziw e relacje m iędzy m ierzonym i param etram i. M etody stabilne mogą być stosow ane do konstrukcji popraw nych m odeli dla danych, w których udział procentowy brakujących elem entów nie przekracza 49% . O dpow iednikiem klasycznej metody PC A w analizie danych, w której w ystępują obiekty odległe, je s t stabilna m e­

szych uciętych kw adratów LTS (ang. least trimmed squares) (R uppert, C arroll 1980), stabilny m odel regresji czynników głów nych rP C R (ang. robust principal component regression) (W alczak, M assart 1995) oraz stabilną m etodę częściow ych najmniej­

szych kw adratów rPLS (ang. robust partial least squares) (W alczak 1995a, b).

5.3 . 1 1 Konstrukcja stabilnej metody analizy czynników głównych

Stabilna m etoda analizy czynników głów nych (rPC A ) (C roux, R uiz-G azen 1996;

H ubert, R ousseeuw , V erboven 2002; Stanim irova i in. 2004; Sem eels, Verdonck 2008; C hen, M artin, M ontague 2009) bazuje n a poszukiw aniu optym alnego liniowego rzutow ania danych na przestrzeń o m niejszej liczbie w ym iarów (ang. projection pur­

suit) (Freidm an, T ukey 1974; Li, C hen 1985), um ożliw iającego przedstaw ienie praw­

dziwej struktury danych, tzn. identyfikację klasterów , obiektów odległych oraz struktur o zm iennej gęstości. Idea działania tej m etody polega na ortogonalnej projek­

cji obiektów na kierunki m aksym alizujące opis tzw . indeksów projekcji i założeniu, że interesujące są je d y n ie projekcje, które m ożliw ie najbardziej różnią się od rozkładu norm alnego. N ajczęściej stosow anym indeksem je s t entropia (H uber 1985). Odnosząc to do definicji analizy PCA , w m etodzie rPCA , poszukuje się takiego kierunku w przestrzeni pom iarow ej - stabilnego czynnika głów nego, dla którego rzutowane obiekty m ają najw iększą „stabilną skalę”, czyli m aksym alnie dobrze opisują wariancję w iększości dobrych danych. A nalogicznie ja k w klasycznej m etodzie PCA , kolejne kierunki (stabilne czynniki głów ne) są ortogonalne w zględem siebie. Istnieje kilka estym atorów stabilnej skali, które m ogą zostać w ykorzystane w algorytm ie PP (Rous­

seeuw , C roux 1993). N ajlepsze rezultaty uzyskiw ane są z zastosow aniem estymatora Qm ja k o indeksu projekcji w konstrukcji rPC A . W celu w yznaczenia tego estymatora obliczana je s t odległość m iędzy każdym obiektem , a w szystkim i pozostałym i obiek­

tam i, a następnie kolum ny tak otrzym anej sym etrycznej m acierzy odległości organi­

zow ane są w w ektor i w ybierany je s t obiekt odpow iadający dolnem u kw artylow i Q m(x) = 2,2219cm{|xi - x j ; i < j} {k) (5.5) gdzie

m T

+ 1 (5.6)

cm - czynnik korygujący.

Poniżej przedstaw iono podstaw ow e kroki algorytm u rPC A (C roux, Ruiz-Gazen 1996):

1. W stępna transform acja danych, X (m x n) [centrow anie z użyciem L I - mediany, będącej stabilnym estym atorem położenia (C roux, R uiz-G azen 2001)]

X c = X -o n e s(m ,l) L l-m edian(X ); X new = X c (5.7) 2. K onstrukcja m acierzy A, zaw ierającej znorm alizow ane w iersze m acierzy Xnew

A (i,:) = X new (i,:)./norm (X new (i,:)); gdzie i określa i-ty w iersz (5.8)

3. W ybór w ektora własnego:

3.1. projekcja w szystkich obiektów na m ożliw e w ektory w łasne; Y = X new A ';

3.2. obliczenie estym atora stabilnej skali, dla w szystkich w ektorów w łasnych Q m = qn(Y);

3.3. w ybór w ektora w łasnego, dla którego w artość tego estym atora je s t najw ięk­

sza, tj. [k j] = m ax(Q m ).

4. K onstrukcja 1-tego w ektora w łasnego, dla w ybranego j-tego w iersza m acierzy A;

V (:,l) = A(j,:)'.

5. R zutow anie w szystkich obiektów na w ybrany w ektor w łasny; t = XcV.

6. U aktualnienie m acierzy danych przez jej ortogonalne uzupełnienie

X new (i,:) = (X new (i,:)' - V (:,l)V (:,l)'X new (i,:)')' (5.9) 7. Jeżeli liczba w ektorów w łasnych 1, je s t m niejsza niż rząd m acierzy Xc, pow rót do

punktu 2.

Z astosow any n a etapie w stępnego centrow ania danych stabilny estym ator położe­

nia - m ediana L I , definiow any je s t jak o punkt, w którym m inim alizow ana je s t sum a odległości euklidesow ych do w szystkich pozostałych obiektów w danych.

5.3.1.2. Konstrukcja stabilnych modeli regresyjnych

W podrozdziale 4.4.1 przedstaw iono przykłady konstrukcji m odeli PLS dla da­

nych opisujących zależność m iędzy jednostkow ym kosztem w ydobycia w ęgla w ce­

nach stałych z roku 2005, a param etram i techniczno-organizacyjnym i śląskich kopalń w latach 1998-2005. W ykazane w m odelu słabe zależności m iędzy analizow anym i danymi m ogą nie oznaczać rzeczyw istego braku liniow ych zależności, a jed y n ie świadczyć o w ystępow aniu w tych danych obiektów odległych. W literaturze szeroko opisano zastosow anie stabilnej m etody częściow ych najm niejszych kw adratów (rPLS) do konstrukcji m odeli kalibracyjnych opisujących zależności w danych zaw ierających obiekty odległe (Pell 2000; Y anden B randen, H ubert 2004; D aszykow ski i in. 2007;

Daszykowski, V ander H eyden, W alczak 2007; Sem eels, Y erdonck 2008; Filzm oser, Todorov 2011; Sm oliński 2012). M etoda rPLS (W alczak 1995a, b), podobnie ja k rPCA, um ożliw ia konstrukcję m odelu dla tzw . czystego podzbioru danych, czyli pod­

zbioru obiektów niezaw ierającego obiektów odległych. Z biór taki m usi zaw ierać co najmniej 51% w szystkich obiektów , a m odel skonstruow any dla takiego zbioru pow i­

nien odznaczać się dobrym dopasow aniem i dobiym i zdolnościam i do przew idyw ania wyników dla now ych obiektów . G łów nym w yzw aniem w m etodzie rPLS je s t dokona­

nie popraw nej identyfikacji „czystego podzbioru danych” . W tym celu stosow ane są metody optym alizacji globalnej, um ożliw iające konstrukcję m odeli w oparciu o pro­

gram ew olucyjny EP (ang. evolution program) (M ichalew icz 1992), będący odm ianą algorytmu genetycznego G A (ang. genetic algorithm) (G oldberg 1989; Lucasius, Ka- teman 1993). U podstaw idei algorytm ów EP oraz GA leży darw inow ska teoria ew o­

lucji, m ów iąca o m echanizm ach doboru naturalnego i dziedziczności. W edług teorii genetyki inform acja o osobniku zakodow ana je s t w kodzie genetycznym zapisanym w chrom osom ach. W przypadku algoiytm ów EP i GA rolę chrom osom ów pełnią ciągi

liczb - inform acja je s t kodow ana w system ie binarnym . D ługość każdego chromoso­

mów przypisuje się odpow iedni do w artości funkcji dopasow ania w ycinek koła (im większa w artość funkcji dopasow ania tym w iększy wycinek).

W m etodzie rPLS obiekty, którym przypisano 1 (zbiór m odelow y), są stosow ane w konstrukcji m odelu. D la obiektów , którym przypisano 0 (zbiór testow y) obliczane są w artości reszt dla m odelu skonstruow anego z odpow iednią liczbą czynników . Obiekty ze zbioru testow ego są sortow ane w oparciu o absolutne w artości reszt (|rj|).

Dla pierw szych w obiektów obliczany je s t błąd dopasow ania RM S

przy czym int je s t liczbą całkow itą.

W celu znalezienia optym alnego m odelu poszukuje się m inim alnej w artości RM S dla m odeli zbudow anych z różną liczbą czynników . D la w ytypow anego na tej pod­

stawie optym alnego m odelu obliczane są w artości reszt dla obiektów ze zbioru m ode­

lowego i testow ego, a następnie obiekty są sortow ane w edług absolutnych w artości reszt. W kolejnym kroku odrzucane są obiekty, dla których w artości tych reszt są naj­

większe. L iczba odrzuconych obiektów odpow iada założonem u udziałow i obiektów odległych. W kolejnym etapie dla każdego chrom osom u obliczana je st funkcja dopa­

sowania f i tw orzone jest, na drodze reprodukcji, kolejne pokolenie

N a etapie reprodukcji w algorytm ie EP biorą udział jed y n ie chrom osom y, których wartość dopasow ania je s t w yższa niż średnia w artość dopasow ania dla w szystkich chromosomów.

N a bazie w ybranego chrom osom u konstruow any je s t tzw. chrom osom pośredni.

z jedynek dla w szystkich obiektów z w yjątkiem tych, które zostały w yelim inow ane na podstawie najw iększych w artości absolutnych reszt (przed w yznaczeniem funkcji dopasowania). P rzypisanie jed y n k i oznacza, że dany gen m oże być przekazany kolej­

nemu pokoleniu. Z chrom osom u pośredniego w ybierane są losow o obiekty do zbioru modelowego, przy zapew nieniu, że każdy now o utw orzony chrom osom zaw iera k*

obiektów w zbiorze m odelow ym . Liczbę kopii (1), ja k a m oże zostać utw orzona przez dany chrom osom , określa w zór

RMS(A)=IZ

(5.12)

gdzie A - kom pleksow ość m odelu

w = m- int (p m) - k*, (5.13)

f =

-R M S(A) (5.14)

g d z i e

I m - in t e g e r ( p m )

R M S(A )

m - int eger(pm ) (5.15)

który m a taką sam ą długość ja k chrom osom y w w yjściow ej populacji i składa się

(5.16) v i=i y

gdzie

k - liczba chrom osom ów w danej populacji,

h - liczba chrom osom ów , które spełniają w arunek nałożony n a w artość funkcji dopasow ania.

O pisana procedura je s t kolejno pow tarzana dla now ych pokoleń aż do uzbieżnie- nia się algorytm u EP (np. gdy w artość błędu przew idyw ania będzie poniżej założonej w artości), bądź do osiągnięcia m aksym alnej założonej liczby iteracji.

Identyfikacja obiektów odległych dokonyw ana je s t w oparciu o tzw . stabilną ska­

lę (ang. robust scale) (R ousseeuw , L eroy 1987). W celu stw ierdzenia, czy dany obiekt je st obiektem odległym , w prow adzany je s t estym ator eo

gdzie

m, g - liczba odpow iednio obiektów i estym atorów (np. dla linii g = 2, dla płasz­

czyzny g = 3),

r - w ektor reszt od skonstruow anego stabilnego m odelu.

O biekt (i) zostanie zidentyfikow any ja k o obiekt odległy, gdy

dla i = 1 :m.

Po identyfikacji taki obiekt je s t usuw any z danych i cała procedura je s t pow tarzana dla pozostałych m* obiektów . E stym ator e* obliczany je s t w następujący sposób

gdzie m* określa liczbę obiektów po elim inacji obiektu lub obiektów zidentyfikow a­

nych ja k o obiekty odległe w poprzednim kroku. N a koniec należy spraw dzić, czy w danych pozostały jesz c z e jak ieś obiekty odległe

Po praw idłow ej identyfikacji i usunięciu z danych w szystkich obiektów odległych m ożna popraw nie skonstruow ać końcow y m odel regresyjny.

(5.17)

r; > 2 , 5 (5.18)

(5.19)

(5.20)

5.4. Opracowanie danych zawierających jednocześnie brakujące elementy i obiekty odległe

Jak ju ż w cześniej w spom niano, nie istnieją gotow e m etody chem om etiyczne ana­

lizy danych zaw ierających jednocześnie obiekty odległe i brakujące elem enty. W ta ­ kich przypadkach konieczne je s t opracow anie każdorazow o procedury analizy zbioru danych, um ożliw iającej popraw ną identyfikację obiektów odległych i konstrukcję poprawnego m odelu dla danych z brakującym i elem entam i. Jedną z takich procedur radzenia sobie z problem em brakujących elem entów i obiektów odległych jedn o cześ­

nie w ystępujących w danych, przedstaw iono poniżej (Sm oliński, W alczak, E inax 2002; Lew in, Sm oliński 2006a, b; D jaković-Sekulić, Sm oliński 2010; N ikolic i in.

2012). O bejm uje ona trzy zasadnicze etapy. W pierw szym z nich następuje w stępne oszacowanie brakujących elem entów z zastosow aniem stabilnej m etody regresji, opisującej zależności m iędzy param etrem , którego brakujące elem enty w stępnie zostaną oszacow ane, a w szystkim i pozostałym i param etram i (W alczak 1995a, b).

Wartości brakujących elem entów w danych dotyczących param etru, dla którego kon­

struowany je s t m odel, zastępow ane są przez w artości otrzym ane z m odelu. Po w stęp­

nym uzupełnieniu brakujących elem entów następuje identyfikacja obiektów odległych z użyciem stabilnej m etody rPC A (C roux, R uiz-G azen 1996; H ubert, R ousseeuw , Verboven 2002). W ostatnim etapie konstruow any je s t końcow y m odel (np. PCA czy T U C K ER 3) w oparciu o iteracyjną procedurę EM (Fisher 1925; D em pster, Laird, R ubin 1977; M cLachlan, K rishnan 1997; W alczak 2001a, b; Sm oliński, W alczak 2002) dla w yjściow ych danych (z brakującym i elem entam i), w których dodatkowo elem enty zidentyfikow ane ja k o obiekty odległe, traktow ane są ja k o braku­

jące elem enty.

5.5. Zastosowanie stabilnej metody częściowych najmniejszych