• Nie Znaleziono Wyników

4. Część doświadczalna

4.8. Statystyczna analiza otrzymanych wyników

W celu analizy danych metabolomicznych i proteomicznych otrzymanych w przeprowadzonych badaniach wykorzystano analizy statystyczne jednozmiennowe oraz wielozmiennowe. Zmiennymi w analizach były stężenia aminokwasów oznaczone w próbkach surowicy i moczu, intensywności peptydów z widm MS otrzymanych w wyniku profilowania próbek surowicy i moczu oraz stężenia białek oznaczone w próbkach surowicy. Każda próbka była przypisana do jednej z dwóch analizowanych grup: pacjentów ze zdiagnozowanym rakiem prostaty (grupa badana, n = 49) lub osób zdrowych (grupa kontrolna, n = 40). Odpowiednio przygotowane zbiory danych analizowano w programie Statistica 10.0 (StatSoft Polska, Kraków), z wykorzystaniem platformy online MetaboAnalyst 3.0 oraz w programie ClinPro Tools 3.0 (Bruker Daltonics, Brema, Niemcy). We wszystkich analizach statystycznych za istotną statystycznie przyjęto wartość p ≤ 0,05.

4.8.1. Jednozmiennowe analizy statystyczne

Przeprowadzono analizy jednozmiennowe uzyskanych danych. W programie Statistica porównano poziomy zmiennych pomiędzy grupami. W pierwszej kolejności sprawdzano normalność rozkładu analizowanych zmiennych (aminokwasów, peptydów oraz białek) w płynach ustrojowych (surowicy oraz moczu) wykorzystując test W Shapiro-Wilka. Jest to preferowany test normalności, ponieważ cechuje go duża moc w porównaniu do innych testów. Zmienne, których rozkład stężeń (w przypadku aminokwasów oraz białek) lub intensywności (w przypadku peptydów) nie spełniał założeń o normalności rozkładu, poddano analizie statystycznej z użyciem nieparametrycznego testu U Manna-Whitney’a. Służy on do weryfikacji hipotezy zerowej o nieistotności różnic pomiędzy medianami badanych zmiennych w dwóch grupach. W przypadku zmiennych, których rozkład spełniał założenie o normalności rozkładu, zastosowano analizę jednorodności wariancji przy użyciu testu Levene’a i testu Browna-Forsythe’a. W przypadku nie spełnienia założenia o jednorodności wariancji w obrębie grup, w celu oceny równości średnich w dwóch grupach przeprowadzono test F Welcha. Natomiast w przypadku, gdy na podstawie obliczonej przez program wartości prawdopodobieństwa testowego (p) brak było podstaw do odrzucenia hipotezy o jednorodności wariancji, do oceny zróżnicowania przeciętnego poziomu stężeń aminokwasów lub intensywności peptydów w dwóch grupach użyto testu t-Studenta. Zmienne, których poziomy różniły się pomiędzy grupą badaną i kontrolną (p ≤ 0,05), uznano za potencjalnie istotne dla raka prostaty.

76 Wykorzystując platformę MetaboAnalyst wykreślono krzywe receiver operating

characteristic (ang., ROC) używane do oceny poprawności klasyfikatora. Określono poprawność klasyfikacji osobno dla każdej zmiennej oraz porównano między sobą uzyskane modele klasyfikacyjne przy użyciu pola pod wykresem krzywej ROC (ang.

area under curve, AUC).

4.8.2. Wielozmiennowe analizy statystyczne

Wykorzystując platformę MetaboAnalyst przeprowadzono analizy wielozmiennowe uzyskanych danych. W pierwszej kolejności wykonywano normalizację (wstępną obróbkę) danych, która obejmowała trzy etapy. Dane zostały poddane normalizacji w odniesieniu do próbek (ang. sample normalization) w celu zniwelowania różnic pomiędzy próbkami (rodzaj normalizacji – ang. normalization by

sum), a także transformacji (logarytmowaniu) i autoskalowaniu w celu umożliwienia porównywania zmiennych między sobą. Te etapy normalizacji danych odbywały się niezależnie dla każdego analizowanego statystycznie zbioru zmiennych. Czterema podstawowymi zbiorami danych były: stężenia aminokwasów w próbkach surowicy, stężenia aminokwasów w próbkach moczu znormalizowane na kreatyninę, intensywności peptydów w próbkach surowicy oraz intensywności peptydów w próbkach moczu.

W celu przedstawienia korelacji w obrębie danych oraz porównania profili aminokwasowych i białkowych między grupą badaną i kontrolną przeprowadzono analizy PLS-DA (ang. partial least squares – discriminant analysis). PLS-DA

wykorzystano do klasyfikacji próbek oraz do wytypowania zmiennych mających największe znaczenie w klasyfikacji pacjentów do jednej z dwóch grup. PLS-DA jest metodą nadzorowaną i w związku z tym ma tendencję do nadmiernego dopasowywania danych. Dlatego modele otrzymane w PLS-DA powinny być walidowane. W celu walidacji modeli przeprowadzono testy permutacji [158]. Test permutacji polega na losowej zamianie etykiet identyfikujących analizowane grupy, po czym analiza PLS-DA jest wykonywana dla zbioru danych z nowymi etykietami. Ten proces jest powtarzany wiele razy (w analizach przeprowadzanych w niniejszej pracy przeprowadzano po 2000 powtórzeń), a następnie ocenia się, czy klasyfikacja próbek była istotna ze statystycznego punktu widzenia, czy też była przypadkowa.

Wykorzystując platformę MetaboAnalyst wykreślono ponadto krzywe ROC dla modeli składających się z wielu zmiennych i dla każdego modelu określono poprawność klasyfikacji oraz porównano między sobą uzyskane modele klasyfikacyjne przy użyciu wartości AUC. W programie Statistica przeprowadzono ponadto analizy

77 dyskryminacyjne w celu oceny zdolności klasyfikacyjnych wybranych grup zmiennych (aminokwasów, peptydów), w tym czułości i swoistości. Każda analiza dyskryminacyjna została poprzedzona normalizacją odpowiedniego zbioru danych poprzez platformę MetaboAnalyst.

Do wielozmiennowej analizy profili peptydowych wykorzystano również program ClinPro Tools. Zarówno dla próbek surowicy, jak i moczu, wygenerowane zostały trzy modele klasyfikacyjne z wykorzystaniem trzech różnych algorytmów. Pierwszy z nich to

QuickClassifier (QC), który jest algorytmem sortującym jednoczynnikowym. Kolejny algorytm to Supervised Neural Network (SNN), wykorzystujący charakterystyczne widma dla każdej grupy, zwane prototypami. Ostatnim algorytmem jest Genetic

Algorithm (GA), który wybiera kombinacje pików najbardziej istotne dla dyskryminacji. Dla każdego modelu uzyskano wartość określoną jako zdolność rozpoznawania, czyli poprawność klasyfikacji pacjentów do odpowiedniej grupy chorych lub zdrowych. Przeprowadzono ponadto procedurę walidacji krzyżowej. Walidacja krzyżowa określa wiarygodność zbudowanego modelu i może być użyta do przewidzenia, jak model będzie się zachowywał w przyszłości.

Przeprowadzono dodatkowe analizy PLS-DA danych dla próbek pacjentów z rakiem prostaty z wykorzystaniem platformy MetaboAnalyst. Celem analiz było określenie korelacji w obrębie danych poprzez sprawdzenie, czy możliwa jest dyskryminacja próbek w zależności od stopnia złośliwości histologicznej. Pacjentów podzielono na trzy grupy według klasyfikacji patomorfologicznej raka prostaty: grupa z sześcioma punktami w skali Gleasona (n = 19), grupa z siedmioma punktami w skali Gleasona (n = 24) oraz grupa z ośmioma lub dziewięcioma punktami w skali Gleasona (n = 6). Analizowano cztery zbiory danych: stężenia aminokwasów w próbkach surowicy, stężenia aminokwasów w próbkach moczu znormalizowane na kreatyninę, intensywności peptydów w próbkach surowicy oraz intensywności peptydów w próbkach moczu.

78