• Nie Znaleziono Wyników

5. Metody chemometryczne zastosowane w niniejszej pracy do

5.3. Analiza głównych składowych (PCA)

Analiza głównych składowych PCA [127] może być traktowana jako "matka wszystkich metod w multiwariacyjnej analizie danych". W ostatnich latach stała się ona najczęściej stosowanym narzędziem chemometrycznym do obliczenia liniowych zmiennych latentnych, tzn. głównych składowych [128a]. Pierwszym powodem użycia PCA w badaniach naukowych jest ogromna liczba danych dostarczanych przez współczesne komputery i techniki pomiarowe [43b]. Analiza głównych składowych pozwala na zredukowanie dużej liczby zmiennych opisujących problem badawczy przy zachowaniu dostatecznie wysokiej wariancji i tym samym umożliwia [128b]:

wizualizację danych na wykresie, transformację danych wysoce skorelowanych w nieskorelowane oraz oddzielenie informacji pożądanych od niepożądanych.

Ze względu na kluczową rolę PCA w chemii analitycznej, jej szerokie zastosowanie w wyjaśnianiu struktury związku chemicznego na podstawie widm mas [44,89,129–

134] oraz wiodącą rolę w realizacji zasadniczego celu niniejszej pracy, istotne jest przedstawienie algorytmu odpowiedzialnego za wszystkie obliczenia matematyczne prowadzące do przekształcenia pierwotnych zmiennych objaśniających w główne składowe PC. Chociaż jego opis zawiera wiele pozycji literaturowych, to jednak został

52

on w nich przedstawiony bardzo zawile [135,136a], albo w sposób utrudniający wykonanie praktycznych obliczeń. [137a]. Wobec tych utrudnień, poniżej opisano kolejne etapy obliczeń realizowanych przez algorytm PCA w procesie transformacji pierwotnych zmiennych objaśniających, uzyskanych za pomocą BCA (tabela 8), w główne składowe PCs. Dane z BCA (tj. s2theor, α oraz x) pochodzą z analizy obszaru 112-127 m/z wykonanej w niniejszej pracy (podrozdział 6.1.) dla 22 pochodnych organicznych cyny (CH3)3SnR, w którym mogą występować jony Sn+ i SnH+ wspólnie dla wszystkich tych pochodnych.

Tabela 8. Zbiór zmiennych objaśniających do PCA otrzymanych metodą BCA [94] dla pasma 112-127 m/z obecnego w 22 widmach mas EI związków o wzorze ogólnym (CH3)3SnR

Numer widma (k)

s2theor (x)

α (y)

xSn

(z)

xSnH

(w)

1 391,25 99,29 0,60 0,40

2 281,17 95,49 0,60 0,40

3 583,11 99,74 0,53 0,47

4 553,95 99,59 0,53 0,47

5 895,57 99,80 0,48 0,52

6 551,33 98,87 0,52 0,48

7 801,83 99,35 0,42 0,58

8 957,59 99,41 0,47 0,53

9 566,66 98,84 0,58 0,42

10 873,82 98,41 0,50 0,50

11 1 923,85 94,89 0,70 0,30

12 373,29 90,95 0,68 0,32

13 166,04 92,75 0,78 0,22

14 26,93 96,47 0,86 0,14

15 215,77 96,43 0,68 0,32

16 54,39 91,06 0,83 0,17

17 247,38 97,45 0,71 0,29

18 435,56 94,79 0,58 0,42

19 100,54 91,17 0,76 0,24

20 64,23 98,64 0,82 0,18

21 368,46 96,97 0,66 0,34

22 33,15 95,19 0,88 0,12

53

W pierwszym etapie PCA oblicza się średnią arytmetyczną każdej zmiennej objaśniającej. Dla wariancji teoretycznej wykonuje się to zgodnie ze wzorem:

n k k 1

x

x W11

n

gdzie:

x – średnia arytmetyczna wariancji teoretycznej, n – liczność próby,

k – numer widma.

Po podstawieniu wartości wariancji teoretycznej z kolejnych widm z tabeli 8 do wzoru W11 otrzymuje się:

22 k k 1

x

x 475, 72

22

Następnie oblicza się wariancję (Wn-1) zgodnie ze wzorem:

 

n 2

k k 1 n 1

x x

W n 1

 

W12

Po podstawieniu wartości wariancji teoretycznej z kolejnych widm z tabeli 8 do wzoru W12 otrzymuje się:

Wn 1 189100,81

W następnym etapie oblicza się odchylenie standardowe (σ), które jest pierwiastkiem kwadratowym z wariancji:

Wn 1

  W13

Dla wariancji teoretycznej otrzymuje się:

434,86

 

Następnie dokonuje się centrowania zmiennych wg wzoru:

cxk x W14

54

Dla wariancji teoretycznej wynik tej operacji przedstawiono w tabeli 9.

Tabela 9. Wyniki centrowania zmiennych wg wzoru W14 dla wariancji teoretycznej w 22 widmach mas pochodnych organicznych cyny

Numer widma (k)

s2theor

(x) cxk x

1 391,25 -84,47

2 281,17 -194,55

3 583,11 107,39

4 553,95 78,23

5 895,57 419,85

6 551,33 75,61

7 801,83 326,11

8 957,59 481,87

9 566,66 90,94

10 873,82 398,10

11 1 923,85 1 448,13

12 373,29 -102,43

13 166,04 -309,68

14 26,93 -448,79

15 215,77 -259,95

16 54,39 -421,33

17 247,38 -228,34

18 435,56 -40,16

19 100,54 -375,18

20 64,23 -411,49

21 368,46 -107,26

22 33,15 -442,57

W kolejnym kroku przeprowadza się autoskalowanie danych według wzoru:

xk x A 

W15

Dla wariancji teoretycznej wyniki autoskalowania zawiera ostatnia kolumna tabeli 10.

55

Tabela 10. Wyniki autoskalowania zmiennych wg wzoru W15 dla wariancji teoretycznej w 22 widmach mas pochodnych organicznych cyny

Numer widma (k)

s2theor

(x) cxk x A xkx

1 391,25 -84,47 -0,19

2 281,17 -194,55 -0,45

3 583,11 107,39 0,25

4 553,95 78,23 0,18

5 895,57 419,85 0,97

6 551,33 75,61 0,17

7 801,83 326,11 0,75

8 957,59 481,87 1,11

9 566,66 90,94 0,21

10 873,82 398,10 0,92

11 1 923,85 1 448,13 3,33

12 373,29 -102,43 -0,24

13 166,04 -309,68 -0,71

14 26,93 -448,79 -1,03

15 215,77 -259,95 -0,60

16 54,39 -421,33 -0,97

17 247,38 -228,34 -0,53

18 435,56 -40,16 -0,09

19 100,54 -375,18 -0,86

20 64,23 -411,49 -0,95

21 368,46 -107,26 -0,25

22 33,15 -442,57 -1,02

56

Wyniki autoskalowania zmiennych wg wzoru W15 dla s2theor, α, xSnoraz xSnH dla 22 widm mas pochodnych organicznych cyny zestawiono w tabeli 11.

Tabela 11. Wyniki autoskalowania zmiennych wg wzoru W15 dla s2theor, α, xSnoraz

xSnH dla 22 widm mas pochodnych organicznych cyny

Numer

57

Jak można zauważyć, w powyższej tabeli w wyniku autoskalowania średnia arytmetyczna z nowopowstałych danych wynosi zero, a wariancja i odchylenie standardowe jeden.

Kolejnym etapem jest wyznaczenie współczynnika korelacji liniowej (rk) pomiędzy wszystkimi parami zmiennych objaśniających, w przypadku x i y korzysta się ze wzoru W16:

  

   

k k

k 2 2

k k

x x y y

r = W16

x x y y

gdzie:

xk – k–ta zmienna objaśniająca pierwszego ze składników, x – średnia arytmetyczna pierwszego ze składników, yk – k–ta zmienna objaśniająca drugiego ze składników,

y – średnia arytmetyczna drugiego ze składników.

Współczynnik korelacji liniowej, którego wartość zawiera się w zakresie rk∈<–1,...,1>

określa stopień liniowej zależności pomiędzy dwoma zestawami danych.

Dla danych rozpatrywanych powyżej, wyliczone współczynniki korelacji przedstawiono w tabeli 12.

Tabela 12. Współczynniki korelacji liniowych dla par: s2theor-α, s2theor

-xSn, s2theor

-xSnH, α-xSn, α-xSnH, xSn-xSnH

s2theor i α s2theor i

xSn s2theor i

xSnH α i xSn α i xSnH xSn i xSnH

0,32 -0,55 0,55 -0,63 0,63 -1,00

Korzystając z wyznaczonych współczynników korelacji liniowej buduje się macierz korelacji C, przedstawioną w formie tabeli 13. Zebrane są w niej zarówno w pionie jak i poziomie współczynniki korelacji liniowych dla wszystkich rozpatrywanych par zmiennych objaśniających.

58

Tabela 13. Macierz korelacji C dla par: s2theor-α, s2theor

-xSn, s2theor

-xSnH, α-xSn, α-xSnH, xSn

-xSnH

s2theor α xSn

xSnH

s2theor 1,00 0,32 -0,55 0,55

α 0,32 1,00 -0,63 0,63

xSn -0,55 -0,63 1,00 -1,00

xSnH 0,55 0,63 -1,00 1,00

1, 00 0, 32 0, 55 0, 55 0, 32 1, 00 0, 63 0, 63 C = 0, 55 0, 63 1, 00 1, 00

0, 55 0, 63 1, 00 1, 00

  

  

 

   

  

 

Następnie oblicza się wartości własne λ macierzy korelacji C:

1, 00 0, 32 0, 55 0, 55 1, 00 0, 32 0, 55 0, 55 0, 32 1, 00 0, 63 0, 63 0, 32 1, 00 0, 63 0, 63 C = 0, 55 0, 63 1, 00 1, 00 I 0, 55 0, 63 1, 00 1, 00

0, 55 0, 63 1, 00 1, 00 0, 55 0, 63 1, 00 1, 00

 

 



  

 

gdzie:

I – macierz jednostkowa (macierz kwadratowa, która na głównej przekątnej ma jedynki).

Po przeprowadzeniu powyższych obliczeń otrzymuje się wielomian charakterystyczny dla macierzy korelacji C:

–λ4 – 4λ3 – 3,50λ2 – 0,84λ + 0,00 = 0

Jego pierwiastki (λ1, λ2, λ3, λ4) są wartościami własnymi macierzy korelacji i jednocześnie głównymi składowymi. Ze względu na wartość wykładnika potęgi wynoszącego 4, pierwiastki wielomianu charakterystycznego obliczono metodą numeryczną w programie MS Excel i wynoszą one odpowiednio:

λ1= 2,89, λ2= 0,69, λ3= 0,42 oraz λ4= 0,00

W tabeli 14 zestawiono główne składowe PCi (gdzie i oznacza numer głównej składowej), % wariancji oraz sumaryczny % wariancji dla każdej z PCi. Czwartą główną składową PC4 odrzuca się z dalszych obliczeń, ponieważ jej wartość wynosi zero.

59

Poniżej zamieszczono obliczenia wektorów własnych ui macierzy korelacji C według wzoru W17 [136b].

(C – λI) × ui = 0 W17

gdzie:

uiT

× ui = 1,

i – numer głównej składowej (wartości własnej macierzy C), uiT – transponowany wektor własny.

Dla wartości i=1, tj. wartości własnej λ1=2,89 otrzymuje się:

i

60

Rozwiązując powyższe równanie otrzymuje się układ czterech równań, które oznaczono kolejnymi cyframi arabskimi umieszczonymi w nawiasach po jego lewej stronie:

   

W wyniku działań na równaniach (1) i (2), zsumowaniu równań (3) i (4) oraz kolejnych operacji matematycznych otrzymuje się:

   

Po wyciągnięciu u4 przed nawias otrzymuje się:

4

Aby wyznaczyć u4 korzysta się z równania W17:

61 którą wykorzystuje się do obliczenia współrzędnych wektora u:

4

Ostatnim etapem analizy głównych składowych jest obliczenie współrzędnych zmiennych objaśniających w układzie współrzędnym utworzonym przez główne składowe. Wykonuje się to korzystając ze wzoru:

p główne składowe dla i–tej głównej składowej,

i – numer głównej składowej,

S – macierz zmiennych autoskalowanych, k – numer wiersza macierzy S,

j – numer kolumny macierzy S,

Sk,j – macierz zmiennych autoskalowanych, w której jest k–próbek tworzących kolejne wiersze oraz j–zmiennych tworzących kolejne kolumny,

l – numer współrzędnej wektora własnego macierzy korelacji C,

62

ui,l – l–ta wartość wektora własnego u dla i–tej głównej składowej,

p – liczba rozpatrywanych zmiennych (równa liczbie kolumn macierzy S).

Przykładowe obliczenia dwóch składowych (PC1,1 oraz PC1,2) wg wzoru W18 przedstawiono poniżej, a wyniki umieszczono w tabeli 15.

1,1 1,1 1,1 1,2 1,2 1,3 1,3 1,4 1,4

PC  S  u  S  u  S  u  S  u

PC

1,1

 0,19 0, 40 0,90 0, 44 ( 0,32) ( 0,57) 0,32 0,57          PC

1,1

0,69

1,2 2,1 1,1 2,2 1,2 2,3 1,3 2,4 1,4

PC  S  u  S  u  S  u  S  u

PC

1,2

  ( 0, 45) 0, 40 ( 0,38) 0, 44 ( 0,32)        0,57 0,32 0,57   PC

1,2

0,02

Tabela 15. Wyniki dwóch składowych (PC1,1 oraz PC1,2) wg wzoru W18 w nowym układzie współrzędnych utworzonym przez trzy główne składowe (PC1, PC2 oraz PC3). Plusami (+) oznaczono pozostałe współrzędne, których obliczenie jest ostatnim etapem PCA

Numer

widma PC1 PC2 PC3

1 0,69 + +

2 0,02 + +

3 + + +

4 + + +

5 + + +

6 + + +

7 + + +

8 + + +

9 + + +

10 + + +

11 + + +

12 + + +

13 + + +

14 + + +

15 + + +

16 + + +

17 + + +

63

Tabela 15. cd.

18 + + +

19 + + +

20 + + +

21 + + +

22 + + +

W analogiczny sposób oblicza się pozostałe współrzędne zmiennych objaśniających w nowym układzie utworzonym przez trzy główne składowe.

Opisany wyżej algorytm matematyczny analizy głównych składowych umożliwia jej przeprowadzenie dla dowolnych zmiennych objaśniających, nawet bez pomocy komputera. Jego znajomość pozwala na zrozumienie wszystkich kolejnych operacji wykonywanych na danych widmowych w procesie tworzenia klasyfikatora widm.

Podstawowymi korzyściami płynącymi ze szczegółowej znajomości PCA są:

 możliwość dostawienia danych widmowych substancji nieznanej i jej klasyfikacja w oparciu o wyniki PCA uzyskane dla widm referencyjnych wziętych z biblioteki,

 wykrycie błędów grubych klasyfikacji,

 możliwość potwierdzenia, że przyczyną występowania punktów odbiegających wyraźnie od skupisk oznaczonych na wykresach PCA są błędne wartości intensywności względnych sygnałów w analizowanym widmie mas i w konsekwencji zaproponowanie rekonstrukcji pasm uszkodzonych.