• Nie Znaleziono Wyników

Programy do analizy danych

W dokumencie Uszczyńska Barbara Rozprawa doktorska (Stron 33-36)

II. 4.1.2.2 Normalizacja zewnętrzna

II.5 Programy do analizy danych

W miarę rozwoju technologii ekspresyjnych mikromacierzy DNA, wzrosła także zdolność do szybkiego i wydajnego prowadzania wysokoprzepustowych analiz (ang. high-throughput) na poziomie molekularnym. Mikromacierze DNA, które przed laty obejmowały jedynie niewielką liczbę sond, obecnie posiadają ich setki lub tysiące. Stąd też wyzwaniem na etapie stosowania ekspresyjnych mikromacierzy DNA nie jest sam eksperyment, ale etap zarządzania i przetwarzania danych w celu uzyskania znaczących statystycznie i biologicznie wyników. Problem analizy danych nie tyle wynika z ich rozmiaru, co raczej ze struktury. Przetwarzanie tego rodzaju danych często wymaga odpowiednich narzędzi. Obecnie dostępnych jest wiele programów umożliwiających analizę danych uzyskiwanych z użyciem ekspresyjnych mikromacierzy DNA. Każdy z nich ma swoje szczególne cechy, jednak największą popularnością cieszą się programy działające na zasadzie otwartej licencji (ang. open source). Wynika to głównie z ich dostępności oraz jawności kodu źródłowego. Dostęp do kodu źródłowego pozwala użytkownikom na modyfikację oprogramowania i dopasowanie go do specyficznych potrzeb. Obecnie spośród tego rodzaju programów, największą popularnością cieszą się programy: (I) R\Bioconductor (www.bioconductor.org) (R Development Core Team 2008; Gentleman i wsp. 2004), (II) program TM4 (Saeed i wsp. 2006; Saeed i wsp. 2003) oraz (III) BASE (ang. BioArray Software Environment) (Vallon-Christersson i wsp. 2009).

II.5.1 R/Bioconductor: narzędzie do statystycznej analizy danych

Projekt Bioconductor (Gentleman i wsp. 2004) jest ogólnodostępnym repozytorium dedykowanym biologii obliczeniowej. Aktualnie w skład zespołu pracującego nad jego stałym rozwojem wchodzi 24 najwyższej klasy specjalistów z dziedzin: biologii, bioinformatyki, statystyki i informatyki. Głównym celem projektu Bioconductor jest zapewnienie wysokiej jakości infrastruktury oraz narzędzi do analizy danych genomowych m.in. danych uzyskiwanych z użyciem mikromacierzy DNA, wyników sekwencjonowania drugiej generacji, analizy SNP, czy genotypowania CNV. Narzędzia tworzone w ramach projektu Bioconductor występują w postaci pakietów, tzn. bibliotek funkcji do analizy określonego rodzaju danych genomowych. Aktualnie w skład repozytorium Biocondcutor wchodzi 610 pakietów. Podstawowym systemem w oparciu o który funkcjonuje repozytorium Bioconductor jest środowisko do zaawansowanych analiz statystycznych- R (R Development Core Team 2008). Bioconductor jest w pełni komplementarny z podstawowym systemem

33

pakietów R, tzw. pakietów CRAN, co pozwala wykorzystywać funkcje zdeponowane w ramach tych pakietów w trakcie analizy z użyciem funkcji z pakietów Bioconductor. Dużą zaletą tego oprogramowania jest nie tylko jego rzetelność (każdy pakiet posiada krótki opis zawartych w nim funkcji i potencjalnych możliwości ich wykorzystania) oraz stały rozwój (przynajmniej 2 aktualizacje rocznie), ale możliwość uczestnictwa w rozwoju projektu (tworzenie nowych funkcji, pakietów oraz dokumentacji).

R\Bioconductor umożliwia analizę danych uzyskiwanych za pomocą wszystkich komercyjnie dostępnych mikromacierzy DNA (platform). W tym także tych pochodzących z mniejszych, tzw. dedykowanych mikromacierzy DNA (ang. custom microarrays, boutique microarrays lub homemade microarrays). Do przetwarzania danych uzyskiwanych z użyciem ekspresyjnych mikromacierzy DNA przeznaczonych jest kilkadziesiąt pakietów (blisko 60). Dzięki temu każdy użytkownik ma możliwość stworzenia specyficznego scenariusza analizy danych, dopasowanego do potrzeb eksperymentu oraz struktury analizowanych danych. R/Bioconductor umożliwia analizę danych uzyskanych w ramach eksperymentów dwu- i jednokolorowych. Głównym ograniczeniem środowiska R/Bioconductor jest brak interfejsu graficznego (ang. graphical user interface, GUI) i wykonywanie poleceń z linii komend, co wymusza konieczność posiadania przez użytkownika przynajmniej podstawowej wiedzy programistycznej.

II.5.2 TM4: oprogramowanie do analizy ekspresji genów

TM4 jest aplikacją stworzoną za pomocą języka Java i dzięki temu posiada przyjazny użytkownikowi interfejs graficzny (GUI). Struktura TM4 obejmuje 4 moduły: MADAM, TIGR Spotfinder, MIDAS, MeV oraz bazę danych MySQL. Każdy z tych modułów jest wyposażony w indywidualne cechy i może być stosowany niezależnie. Oprogramowanie TM4 powstało głównie z myślą o przetwarzaniu danych dwukolorowych, jednak z powodzeniem może być także stosowane do analizy eksperymentów jednokolorowych. MADAM

Moduł MADAM (ang. Microarray Data Manager) ułatwia użytkownikowi wprowadzenie danych do relacyjnej bazy danych i prowadzi go przez cały proces analizy. MADAM korzystając z informacji na temat eksperymentu oferuje użytkownikowi prosty sposób uproszczenia procesu analizy, oferując pomoc w wyborze parametrów i interpretacji wyników.

34

TIGR Spotfinder

Aplikacja TIGR Spotfinder służy do szybkiej, wspomaganej komputerowo analizie jakościowej obrazu. Umożliwia ona odczytywanie sparowanych (pochodzących z eksperymentów dwukolorowych) 16 lub 8 bitowych obrazów w formacie TIFF. TIGR Spotfinder jest kompatybilny z większością dostępnych na rynku skanerów, a półautomatyczna konstrukcja siatki pozwala na identyfikację obszarów szkiełka, gdzie spodziewane są punkty. Wyniki analizy zapisywane są w formacie pliku (.tav) rozpoznawanym przez MIDAS lub eksportowane do bazy danych. Jako jedyny z modułów TM4, TIGR Spotfinder został stworzony w C++. Ponadto, TIGR Spotfinder jest jedynym z nielicznych ogólnodostępnych programów do analizy ilościowej danych (Saeed i wsp. 2003). MIDAS

Moduł MIDAS (ang. Microarray Data Analysis System) umożliwia analizę niższego rzędu. Pozwala on na przeprowadzenie procesu normalizacji oraz filtracji danych, która ma na celu wyeliminowanie z zestawu danych elementów o niskiej jakości.

MeV

Aplikacja MeV (ang. MultiExperiment Viewer) jest najlepiej przygotowanym i najczęściej aktualizowanym modułem, umożliwiającym prowadzenie analizy wyższego rzędu. MeV za pomocą łatwego w obsłudze graficznego interfejsu daje użytkownikowi dostęp do szerokiego spektrum algorytmów włączając mi.n: analizę skupień k-średnich, grupowanie hierarchiczne, test t, SAM (ang. Significance Analysis of Microarrays), analizę głównych składowych (ang. Principal Component Analysis). Moduł ten wykazuje wysoki stopień kompatybilności z R/Bioconductor, zwiększając tym samym ilość dostępnych metod analizy. Architektura blokowa oraz kompatybilność z innymi ogólnodostępnymi programami sprawia, iż TM4 jest elastycznym i łatwym w obsłudze oprogramowaniem do analizy danych.

II.5.3 BASE

BASE (ang. Bioarray Software Enviroment) jest oprogramowaniem dostępnym w postaci strony internetowej (ang. Web-accesible system). Takie rozwiązanie nie wymaga od użytkowników lokalnej instalacji i regularnej aktualizacji oprogramowania oraz daje dostęp do większej mocy obliczeniowej w postaci zewnętrznych serwerów. Program ten umożliwia

35

analizę danych pochodzących z różnych platform oraz analizę jedno- i dwukolorowych zestawów danych. Programy do przetwarzania danych uzyskiwanych za pomocą ekspresyjnych mikromacierzy DNA podlegają stałym modyfikacjom (Mehta & Rani 2011). Architektura tego oprogramowania oparta jest na systemie wtyczek (ang. plug-in), co pozwala szybkie dodawanie nowych modułów bez zbędnej ingerencji w rdzeń programu. BASE aktualnie wyposażony jest w trzy moduły do analizy danych umożliwiające: normalizację, wielowymiarowe skalowanie danych (w celu otrzymaniu danych w postaci dwu lub trójwymiarowych reprezentacji) oraz ich wizualizację.

W dokumencie Uszczyńska Barbara Rozprawa doktorska (Stron 33-36)

Powiązane dokumenty