• Nie Znaleziono Wyników

5 Charakterystyka wybranych narzędzi m etabonom icznych

5.1 Analiza składowych głównych

Analiza składowych głównych (ang. pńncipal component analysis, PC A) to podstawowa metoda analizy multiwariacyjnej, po raz pierwszy opisana w 1901 roku przez Pearsona [Pearson 1901].

Głównym zadaniem PCA jest redukcja wymiarów zestawów danych zawierających dużą liczbę skorelowanych ze sobą zmiennych przy jednoczesnym, możliwie jak najwierniejszym, zachowaniu wewnętrznej zmienności tych danych. Dokonuje się tego poprzez transformację danych do nowego zestawu nieskorelowanych ze sobą zmiennych, tzw. składowych głównych (ang. pńncipal components, PC).

Wartość wariancji oryginalnych danych wyjaśniona przez daną składową główną jest proporcjonalna do odpowiadającej jej wartości własnej, dlatego składowe PC są uporządkowane w kierunku malejących wartości własnych, przy czym pierwsza składowa PC zawiera w sobie najwięcej informacji, natomiast ostatnia najmniej [Lavine 2000].

Rozmieszczenie danych wejściowych w nowym układzie współrzędnych, zbudowanym na kilku pierwszych składowych głównych obrazuje największą systematyczną wariancję oryginalnych danych, a odbywa się to poprzez liniową kombinację oryginalnych zmiennych i składowych głównych.

5.1.1 Model matematyczny PCA

Niech dane wejściowe stanowią macierz X o wymiarach m * n, gdzie każdy z m wierszy stanowi pojedynczą próbkę (widmo) opisaną przez n zmiennych (przesunięć chemicznych) umieszczonych w kolumnach. Weźmy teraz macierz P będącą liniową transformacją X:

T = XP (5.1)

do macierzy T (m x n) reprezentującej X w nowym układzie współrzędnych, co zostało przedstawione na rysunku 5.1.

Rysunek 5.1. G raficzne przedstaw ienie macierzowej transform acji PC A.

Kolumny macierzy P. {p i ,pn}, są zestawem nowych wektorów bazowych (składowych głównych) dla wierszy macierzy X (widm), natomiast //-ty element macierzy T (t,j) jest rzutem /-tego widma na /-tą składową główną [Jolliffe 2002].

Pierwszym krokiem w analizie PCA jest obliczenie macierzy kowariancji dla danych X [Shlens 2005]:

CN = co v (X ) = —'— XTX (5.2)

n - 1

Aby powyższe sformułowanie było prawdziwe, dane muszą zostać uprzednio poddane centrowaniu, tzn. należy odjąć średnią arytmetyczną danej zmiennej od wartości tej zmiennej dla każdego pomiaru (widma), co prowadzi do zestawu danych o średniej arytmetycznej każdej zmiennej równej zero. Macierz Cx ma wymiar n ' //, jej elementy diagonalne (cyk) są wariancją poszczególnych zmiennych, natomiast pozostałe elementy są kowariancją pomiędzy danymi zmiennymi, przy czym Cki = cy. Duże wartości elementów diagonalnych świadczą o ważności „główności” danej zmiennej, a w przypadku elementów niediagonalnych, o tym że dane dwde zmienne są ze sobą skorelowane i mogą zostać zastąpione jedną zmienną.

Zadaniem metody PCA jest zminimalizować kowariancję i maksymalnie zwiększyć wariancję, co prowadzi do wniosku, że macierz kowariancji dla nowych danych T (Cj) powinna być macierzą diagonalną.

Macierz kowariancji dla T możemy zapisać w następującej postaci [Shlens 2005]:

CT = —-— T rT = —-— (X P )' (X P ) = —-— P TX TXP = —-— P 1 AP (5.3)

/7 - 1 /2 - 1 /7 - 1 /7 - 1

gdzie A = X X 1 jest (z dokładnością do stałej) macierzą kowariancji danych X. czyli jest macierzą symetryczną. Każda rzeczywista macierz symetryczna A może być przedstawiona przy użyciu macierzy ortogonalnej Q . której kolumny są wektorami własnymi macierzy A i macierzy diagonalnej A:

A = QAQT (5.4) Przyjmijmy teraz, że kolumny macierzy P są wektorami własnymi macierzy kowariancji Cx. czyli P = Q. Podstawiając P do powyższego równania otrzymujemy:

A = PAPT (5.5)

Korzystając z własności macierzy ortogonalnej (P r = P"1) i podstawiając (5.5) do (5.3) otrzymujemy:

c r = ^ P T ( p A P T) p = ^ ( p T p ) A ( p l F ) = - ^ ( p -| p ) A ( p -, p ) = - i T A (5.6)

Cel PCA został osiągnięty, wybór wektorów własnych macierzy kowariancji Cx na kolumny macierzy transformującej P diagonalizuje macierz Cx.

W praktyce analiza PCA sprowadza się do wyliczenia wektorów własnych C x i umieszczenia ich w kolumnach P, w kolejności malejącej, poczynając od wektora odpowiadającego największej wartości własnej, a następnie do przekształcenia macierzy X [Jolliffe 2002].

5.1.2 Interpretacja geometryczna PCA

Każda zmienna (kolumna macierzy X) może być traktowana jako jeden z n kierunków w przestrzeni zmiennych utworzonej przez wszystkie zmienne. Natomiast każde widmo (wiersz) stanowi jeden z m punktów umieszczonych w tej przestrzeni tworząc chmurę punktów. Procedura centrowania zmiennych powoduje, że środek tej chmury leży dokładnie w środku układu współrzędnych. Rysunek 5.2 ilustruje rozkład chmury danych w trzech wymiarach.

X3

Rysunek 5.2. W iersze macierzy X (widma) przedstaw ione jak o zbiór punktów w n wymiarowej przestrzeni.

PCA znajduje kierunki w przestrzeni (składowe główne) opisujące wariancję chmury danych. I tak pierwsza składowa główna to kierunek w n wymiarowej przestrzeni przechodzący przez środek układu współrzędnych, który zgodnie z metodą najmniejszy ch kwadratów możliwie najdokładniej przybliża rozkład danych - czyli pokrywa się z kierunkiem największej wariancji danych. Każda kolejna składowa główna jest ortogonalna do poprzedniej i wyznacza kierunki o coraz mniejszej wariancji.

Dwie składowe główne definiują płaszczyznę, na którą możemy rzutować wszystkie widma otrzymując rozkład dwuwymiarowy', jak ma to miejsce na rysunku 5.3.

Rysunek 5.3. Rysunek a: Pierwsza składowa główna (P C I) jest linią, k tóra w najlepszy sposób przybliża rozkład danych, co odpowiada kierunkowi największej w ariancji danych. D ruga składowa główna (PC2) odzwierciedla kierunek kolejnej co do wielkości w ew nętrznej w ariancji danych, zachowując prostopadłość względem P C I. Rysunek b: Dwie składowe główne tw orzą płaszczyznę będącą oknem w n wymiarowej przestrzeni. Każde widmo może być rzutow ane na tę płaszczyznę, pozwalając na prezentację rozkładu widm w dwóch w ym iarach.

Współrzędne rzutowanych widm znajdują się w kolumnach macierzy T i noszą nazwę współrzędnych czynnikowych przypadków (ang. K-scores). Kierunek składowej głównej w przestrzeni zmiennych jest wyrażony poprzez kosinusy kątów a n pomiędzy daną składową a osiami układu oryginalnych zmiennych. Wartości tych kosinusów noszą nazwę ładunków czynnikowych zmiennych (ang. loadings) i określają wkład (istotność) oryginalnej zmiennej w rozkład widm na wykresie współrzędnych przypadków. Ładunki są składowymi wektorów' własnych macierzy C x (kolumn macierzy P).

Graficzna interpretacja PCA sprowadza się do porównania wykresów współrzędnych czynnikowych przypadków (ang. X-score plot) i ładunków czynnikowych

(ang. loading p lo t), co zostało przedstawione na rysunku 5.4. Widma leżące obok siebie na wykresie współrzędnych czynnikowych przypadków charakteryzują się podobnymi profilami metabolicznymi, ich położenie wzdłuż danej składowej głównej jest zdeterminowane poprzez zmienne leżące wzdłuż tej samej składowej głównej na wykresie ładunków czynnikowych.

W id m o ja k o krzyw a p o ka zu je, które

p rze s u n ię c ia che m ic zn e m ają w p ły w na p o ło żen ie w id m na w y kre s ie w a rto ś ci c zyn n ik o w yc h p rzy p a d kó w W id m o ja k o pu n kt na p ła szc zyźn ie

a) PC2

W s p ó łrz ę d n e c zy n n ik o w e p rzy p a d k ó w

►PC1

PC2 Ł ad u n ki

Rysunek 5.4. Porów nanie wykresów współrzędnych czynnikowych przypadków (a) i ładunków czynnikowych (b). Jeżeli w idm a pochodzą od dwóch różnych grup pacjentów i ch a ra k te r różnic pomiędzy tym i w idm am i pokryw a się z kierunkiem w ariancji wskazanym przez składowe główne, to dzięki metodzie PCA możliwe jest określenie, które widma należą do danej grupy oraz które przesunięcia chemiczne m ają wpływ na zaobserw ow ane różnice.

5.1.3 Jakość modelu PCA oraz liczba wyodrębnionych składowych głównych

Jakość modelu PCA - R2X - jest określona jako suma kwadratów danych X wyjaśniona przez wyodrębnione składowe główne:

R 2X = 1

? A ^zaobserwowane ^średnie )

Liczba możliwych do wyodrębnienia składowych głównych jest zadana przez rząd macierzy Cx, czyli może wynosić n. W praktyce oznaczałoby to. że wszystkie zmienne w macierzy X są niezależne, co w rzeczywistych zestawach danych zazwyczaj nie ma miejsca i liczba składowych głównych jest mniejsza od liczby zmiennych. Ponadto, do wizualizacji danych w nowym układzie współrzędnych wykorzystuje się przeważnie

X(>

zaobserwowane Vobliczone, r

tylko kilka pierwszych PC, które wyjaśniają większość wariancji w danych.

Transformacja macierzy X przy użyciu kilku składowych głównych pociąga za sobą utratę części informacji zawartej w danych, stąd równanie (5.1) po uwzględnieniu wprowadzonego w ten sposób błędu, przybiera postać:

X = TPT+ E (5.8)

gdzie E jest macierzą resztkową.

Istnieje kilka reguł pomocnych w wyborze odpowiedniej liczby składowych głównych, jednakże zazwyczaj je st to decyzja arbitralna, uzależniona od złożoności danych. Dwie najczęściej stosowane reguły to:

- Kryterium Kaisera [Kaiser 1960] - wykorzystywane są tylko składowe główne o wartościach własnych /. > 1, czyli te, które stanowią przynajmniej ekwiwalent pojedynczej oryginalnej zmiennej.

- Wykres osypiska [Cattel 1966] - wykorzystywane są składowe główne na lewo od miejsca, w którym wykres osypiska załamuje się w7 praw ą stronę. Z przykładu przedstawionego na rysunku 5.5 wynika, że zgodnie z omawianym kryterium należy wziąć pod uwagę 6 składowych głównych. Zastosowanie wykresu osypiska prowadzi do wyboru mniejszej liczby przydatnych składowych głównych niż w przypadku kryterium Kaisera.

W artości własne m acierzy kowariancji danych X

N um er /.

Rysunek 5.5. W ykres osypiska wartości własnych macierzy kow ariancji dla danych X. Dwadzieścia pierwszych składowych głównych ma wartości własne > I, jednakże kształt krzywej sugeruje w ykorzystanie jedynie sześciu pierwszych składowych głównych.

5.1.4 Identyfikacja widm odstających

Rysunek 5.6 ilustruje zastosowanie metody PCA w detekcji i eliminacji ze zbiorów danych tzw. „outlierów”, czyli danych odstających od reszty, które mogą zaburzać lub utrudniać interpretację wyników. Próbka silnie odstająca od reszty na wykresie współrzędnych czynnikowych przypadków ma największy wpływ na układ oryginalnych zmiennych na wykresie ładunków. Natomiast próbka silnie odstająca od reszty, ale w kierunku innym, niż wyznaczone przez dane dwie składowe główne, jest niewystarczająco opisana poprzez rzut na płaszczyznę współrzędnych czynnikowych przypadków.

t[1]

Rysunek 5.6. W ykres w spółrzędnych czynnikowych przypadków analizy PCA. W idm a wyraźnie odstające są zaznaczone kolorem niebieskim ; elipsa oznacza przedział ufności 95% .

5.2 Metoda cząstkowych najmniejszych kwadratów - analiza dyskryminacyjna

Powiązane dokumenty