• Nie Znaleziono Wyników

Widok Czy jesteśmy scale-free?

N/A
N/A
Protected

Academic year: 2021

Share "Widok Czy jesteśmy scale-free?"

Copied!
7
0
0

Pełen tekst

(1)

P

iotr

H. P

awłowski

Instytut Biochemii i Biofizyki PAN Pawińskiego 5a, 02-106 Warszawa E-mail: piotrp@ibb.waw.pl

CZY JESTEŚMY SCALE-FREE? Kiedy mamy tzw. węzły i linie oraz ideę

jak połączyć te węzły przy pomocy linii w jedną całość — mamy sieć. Opanowana przez

Homo reticulus1 zdolność dostrzegania

róż-nego rodzaju relacji sieciowych w otaczającej go rzeczywistości jest przez niego ostatnio intensywnie wykorzystywana przy poznawa-niu świata, do czego w znacznym stoppoznawa-niu przyczynia się rozwój i eksploatacja interne-tu. Współcześni uczeni, zwłaszcza eksperci z dziedziny nauk o życiu, owocnie wykorzy-stują ten nowy okołosieciowy styl badawczy w ich codziennej profesjonalnej praktyce. Dzisiejsi bio-badacze, a szczególnie bioinfor-matycy, spotykają się z sieciami w wielu ob-szarach swoich dociekań, zróżnicowanych zarówno pod względem specyfiki badanych organizmów, jak i poziomu uniwersalności. Sieci regulacji ekspresji genów, oddziaływań białko–białko, sygnałowe, metaboliczne, eko-logiczne, ewolucyjne oraz ich kombinacyjne sprzężenia — to tylko kilka przykładów wy-branych z wielu. Węzły sieci biologicznych reprezentują najczęściej biomolekuły, geny, białka, komórki, organy, osobniki lub popu-lacje. Liniami zaś są przeważnie ukazywane w badaniach różnego rodzaju fizyczne, che-miczne bądź też socjologiczne relacje między węzłami, tak osobliwe i zróżnicowane, jak na przykład: oddziaływania, wiązania, regulacje, reakcje, transformacje, aktywacje, inhibicje, asocjacje, dysocjacje, przepływy, strumienie i tym podobne. Biologiczna sieć może zawie-rać tysiące węzłów i dziesiątki tysięcy linii tego typu. Informacje o nich przechowywane

są zazwyczaj w dużych wyspecjalizowanych bazach danych, na przykład, takiej jak baza DIP (ang. Database of Interacting Proteins), dostępna pod internetowym adresem http:// dip.doe-mbi.ucla.edu.

Wszystkie domeny biologii: molekularna, komórkowa, organizmalna, populacyjna oraz biosfery są obecnie polem intensywnych po-szukiwań sieciowych, myślenia o sieciach, adaptowania sieciowej terminologii i me-todologii. Cokolwiek to by miało oznaczać — jest trendy.

Coraz częściej zdajemy sobie sprawę, że nie tylko naukowcy mają na co dzień do czy-nienia z sieciami. Żyjemy przecież w świecie różnego rodzaju „netów”, niejednokrotnie sami będąc mniej lub bardziej świadomymi ich elementami lub przynajmniej od nich w jakiś sposób zależni. Nie chodzi tu jedynie o sieć bankomatów i sieć komórkową. Ogólno-światowa sieć komputerowa, internet oraz funkcjonalnie związana z nią sieć hipertek-stów połączonych hiperłączami, World Wide Web, dziś to już nie akademickie, lecz wręcz przedszkolne ilustracje omawianego tematu (Ryc. 1). Dla czytelników preferujących przy-kłady mniej informatyczne, mogą równie do-brze nimi być np. sieć współpracy artystycz-nej w Hollywood lub też sieci lingwistyczne, a nawet sieci terrorystyczne.

Niezależnie od tego, czy rozważamy sieć fizyczną (np. sieć energetyczną), sieć relacji społecznych (np. sieć znajomych), sieć or-ganizacyjną (np. sieć powiązań formalnych wewnątrz firmy), sieć prezentacji

intelektu-1

Homo reticulus — człowiek sieciowy (przyp. aut.)

(2)

alnych dokonań (np. sieć cytowań publikacji naukowych), czy też którąś ze wspomnianych wcześniej sieci biologicznych, w każdym z tych przypadków może być ona w prosty sposób przedstawiona w formie diagramu zwanego fachowo grafem, w istocie rzeczy będącego dwuwymiarową aranżacją zestawu rozróżnialnych punktów połączonych prosty-mi łącznikaprosty-mi (Ryc. 2)

Zgodnie z matematyczną teorią grafów, podstawową wielkością opisującą węzeł sieci jest tzw. stopień węzła (ang. node degree). Określa on bowiem ile końców linii

przyna-leży do danego węzła, czyli ile dany węzeł ma partnerów lub — jak kto woli — sąsiadów. Dla przykładu, w sieci na Ryc. 2 (strona pra-wa) węzeł nr 1 ma stopień d równy 2, węzeł

nr 5 — stopień 1, a węzeł nr 10 — stopień 4. Rozkład częstości występowania w ca-łej sieci węzłów o różnych stopniach może, oprócz najprostszej statystycznej charakte-rystyki stanu powiązań, nieść także pewne wskazówki dotyczące sposobu ich powsta-wania. Na przykład, dwumianowy rozkład stopni węzłów, zwany czasem rozkładem

Bernoulliego (Erdos i rEnyi 1959, 1960),

charakteryzuje sieć o N węzłach, powstałą w

taki sposób, że węzły jej łączono losowo, ze stałym prawdopodobieństwem dodając każde z możliwych N(N-1)/2 połączeń.

Na wykresie widać (Ryc. 3), iż rozkład ten cechuje liczebna dominacja węzłów o pewnej wyróżnionej liczbie sąsiadów. Węzły z mniejszym lub z większym node degree występują w sieci ER zdecydowanie rzadziej. Zatem można powiedzieć, że w tego typu sieci istnieje pewna charakterystyczna skala wielkości węzłów najbardziej prawdopodob-nych.

Teoretycznie możliwe są również sieci, w których wszystkie węzły mają jeden i ten sam stopień (Ryc. 4), a więc rozkład prawdo-podobieństwa jest w ich przypadku bardzo szczególny, bo jednopunktowy. Sieci takie można by nazwać jednoskalowymi.

Klasyczne sieci ER i jednoskalowe kraty nie często jednak spotyka się w rzeczywisto-ści. Jak wynika z przeprowadzonych badań (albErt i współaut. 1999, barabasi i albErt

1999), sieci empiryczne, takie jak np. www, sieć współpracy aktorów, sieć cytowań czy też sieć energetyczna, charakteryzują się rozkładami liczebności węzłów opisanymi Ryc.1. Spektakularna wizja World Wide Web z

zaznaczonymi aktualnymi domenami i połącze-niami na tle kosmosu.

Kolorem zielonym oznaczono domeny europejskie, takie jak np. pl, blisko wschodnie, centralnej Azji i afrykańskie. Pozostale kolory reprezentują domeny: niebieski — Ameryka Płn., żołty — Ameryka Płd. i Ka-raiby, czerwony — Azja i Pacyfik, turkusowy — sieci prywatne, biały — niezaklasyfikowane. (Wykorzy-stano i zmodyfikowano materiały należące do The Opte Project, http://www.opte.org oraz Astrohobby. pl, http://www.astrohobby.pl).

Ryc. 2. Przykłady reprezentacji sieci w formie grafu.

Ryc. 3. Sieć Erdosa-Renyi’ego. Dwumianowy rozkład prawdopodobieństwa występowania w sieci węzłów o różnych stopniach.

(3)

wzorem diametralnie odmiennym od powyż-szych. Zdaniem badaczy, uniwersalne prawo potęgowe

P(d) = const • d–α 1

zwane też prawem Pareto, z wykładnikiem α należącym do wąskiego przedziału wartości pomiędzy 2,1 a 4, jest właśnie tym, które po-prawnie opisuje omawiane rozkłady w anali-zowanych przypadkach.

Już przy pobieżnym oglądzie (Ryc. 5) wi-dać, iż w sieciach o rozkładzie potęgowym trudno jest wskazać charakterystyczną skalę wielkości węzłów. Nie to jednak sprawia, że sieci te nazywamy scale-free, bezskalowymi, lub też mówimy czasem prowokująco o bez-skalowym skalowaniu krotności węzłów.

Bezskalowość ma tu znacznie bardziej podstawowe i dotyczy całego rozkładu. Pra-wo potęgowe jest, bowiem niezmiennicze względem operacji skalowania stopnia wę-złów — tzn., że dla transformacji skalowania o skali s zachodzi związek:

P(sd) = s–α P(d) 2

Mówi on, iż po przeskalowaniu stopni węzłów o rozkładzie potęgowym ich rozkład pozostaje nadal opisany prawem potęgo-wym, będącym przeskalowaną wersją prawa wyjściowego. Innymi słowy, analizując węzły sieci bezskalowej w różnych skalach wielko-ści uzyskujemy zawsze, niezależnie od skali, rozkłady podobne (Ryc. 6).

Losowo wybrana podsieć sieci bezskalo-wej na ogół również zachowuje potęgowe prawo rozkładu stopni, czyli jest też bezska-lowa. Część sieci bezskalowych okazuje się być także bezskalowymi po zastosowaniu róż-nego rodzaju procedur renormalizacyjnych, polegających na zastępowaniu grup bliskich

sobie węzłów pojedynczymi reprezentantami (Ryc. 7). Wskazuje to na samopodobieństwo tychże sieci, rozpatrywanych w różnych ska-lach odległości, a więc na właściwości frak-talne. Wspomniane cechy czynią sieci bezska-lowe interesującymi obiektami badań.

Uwarunkowaną prawem potęgowym to-pologię sieci bezskalowej zwykle cechuje obecność niewielkiej liczby węzłów o wyso-kich stopniach, tzw. hubów oraz stosunko-wo duża liczba węzłów o stopniach niskich (Ryc. 8). Sprawia to, iż sieć taka z reguły jest odporna na przypadkowe „awarie”, a podat-na podat-na precyzyjnie zaplanowane „ataki”.

Naturę ustalonego potęgowego rozkładu stopni węzłów w sieciach rzeczywistych tłu-maczy model Barabasiego–Alberta (Matsu -bara 2006), jako przejaw ciągłego wzrostu

sieci i preferencyjnego dołączania nowych węzłów do węzłów już istniejących, z praw-dopodobieństwem proporcjonalnym do licz-by istniejących już sąsiadów. Istnieją też wy-jaśnienia konkurencyjne.

Ryc. 4. Przykład sieci jednoskalowej. Wszystkie węzły mają stopień równy 4.

Ryc. 5. Rozkład potęgowy w typowej sieci rze-czywistej.

Ryc. 6. Sieć bezskalowa.

Rozkład prawdopodobieństwa występowania węzłów o różnych stopniach analizowany w dwóch różnych skalach wielkości, oznaczonych odpowiednio przez punkty i kółka.

(4)

Prawo potęgowe, dzięki swej ujmującej prostocie, posiada dla każdego badacza przy-rody niezaprzeczalny urok i pewną magię in-telektualnego oddziaływania. Nie można się temu dziwić, gdyż jedne z najważniejszych praw fizyki, tzn. prawo Newtona (oddziały-wania mas) i prawo Coulomba (oddziaływa-nia ładunków elektrycznych) — to właśnie prawa potęgowe.

Prawa potęgowe wydają się być uniwer-salne. Opisują zarówno fluktuacje korelacji w rozkładzie galaktyk (Matsubara 2006), jak i

zachowanie się systemów fizycznych podczas krytycznych przejść fazowych (Li i

współ-aut. 2005). Od ich zastosowań nie jest wol-na również biologia. Dominowały tu do nie-dawna w formie tzw. praw allosterycznych, wiążących ze sobą różne cechy organizmów żywych. (Tabela 1).

W 2000 r. Hawkoong Jeong wraz kole-gami (JEong i współaut. 2000) w liście do

Nature napisał: „ ... sieci metaboliczne (bada-nych 43 organizmów — przyp. aut.) mają te same topologiczne właściwości skalowania oraz wykazują uderzające podobieństwa do organizacji złożonych systemów niebiolo-gicznych. Może to wskazywać, że organiza-cja metabolizmu jest nie tylko identyczna dla wszystkich żywych organizmów, lecz także podlega prawom projektowania odpornych Tabela1. Przykłady praw allosterycznych.

4 3

0

~ M

q

q

M — masa ciała

0

— szybkość metabolizmu

4 1

~ M

t

t

M — masa ciała

— czas trwania oddechu, czas bicia serca

8 7

~ M

A

A — powierzchnia kontaktowa transferu masy

M — masa ciała

6 1

~ M

V

opt

V

opt

— optymalna szybkość latania owadów i ptaków

M — masa ciała

Ryc. 7. Przykład procedury renormalizacyjnej (góra) zastosowanej do analizy podzbioru sieci www (dół).

(Wykorzystano i zmodyfikowano materiały z pracy songa i współaut. 2005).

Ryc. 8. Sieć bezskalowa.

Na ogół posiada ona kilka tzw. hubów, czyli węzłów z duża ilością połączeń (kolor czarny) oraz dużo wę-złów z kilkoma połączeniami (kolor biały).

(5)

oraz tolerujących błędy sieci bezskalowych i może reprezentować powszechny plan wiel-koskalowej organizacji oddziaływań pomię-dzy wszystkimi składnikami komórki.” Jako, że autorzy wspomnianego listu pod pojęciem złożonych systemów niebiologicznych rozu-mieli głównie sieci będące dziełem celowej działalności ludzkiej, „podprogowo” niejako zostało wysłane w świat metafizyczne prze-słanie, iż nieświadomie dotąd tworzyliśmy i nadal tworzymy dzieła według tych samych reguł, według których powstaliśmy. Stąd już tylko jeden krok pozostał by odżył na nowo spór współczesnej nauki z kreacjonistami lub zwolennikami koncepcji Inteligentnego Pro-jektu, skupionymi teraz wokół idei Powszech-nego Planu. Na szczęście, jak dotąd, tak się nie stało, a cały wysiłek badaczy został sku-piony na uzyskaniu odpowiedzi na pytanie - czy rzeczywiście sieci biologiczne, jak np. sieć oddziaływań białkowych (Ryc. 9) lub też sieć regulacji genów (Ryc. 10), są scale-free?

Dotychczasowe próby rozstrzygnięcia po-wyższej kwestii nie przyniosły jednak oczeki-wanego rezultatu. Dla przykładu, za będącą scale-free uważa się sieć interakcji genów

Saccharomyces cerevisiae (tong i współaut.

2004) (Ryc.11). W zależności zaś od

przyję-tej metodologii jest nią (noort i wspólaut.

2004), bądź nie jest, sieć ich koekspresji (Ma -gwEnE i kiM 2004) (Ryc. 12). Wiele też sieci

uznaje się jako scale-free jedynie w ograniczo-nym zakresie zmienności node degree (kHa -nin i wit 2006). Tego typu rozbieżności nie

Ryc. 9. Sieć oddziaływań białko–białko u Sac-charomyces cerevisiae.

Kółka oznaczają białka, linie zaś — interakcje. Czer-wonym kolorem wyróżniono tzw. białka letalne tzn. białka, których usunięcie skutkuje śmiercią komórki. Ponadto, kolor pomarańczowy wskazuje białka, któ-rych nieobecność spowalnia wzrost komórek, zielo-ny — białka nieletalne, zaś żółty — białka o nieustalo-nym znaczeniu. W insercie zamieszczono poglądowy model oddziaływania. (Wykorzystano i zmodyfikowa-no materiały należące do Bordalier Institute, http:// www.bordalierinstitute.com oraz Online Digital Edu-cation Connection, http://www.odec.ca).

Ryc. 10. Sieć regulacji genów u

Saccharomyces cerevisiae.

Kółka obrazują moduły, czyli ko-lekcje genów posiadących wspólne regulatory. Kolorami oznaczono wy-różnione kategorie modułów. Dla przykładu, kolor zielony wskazuje biosyntezę i metabolizm aminokwa-ów. (Wykorzystano i zmodyfikowano materiały należące do Computational Genomics, http://www.psrg.lcs.mit. edu).

(6)

koniecznie muszą oddawać sedno sprawy. Mogą bowiem pojawiać się w tej stosunkowo młodej dziedzinie badań, na przykład w wy-niku zastosowania różnych, często nie uzgod-nionych jeszcze, procedur badawczych, róż-niących się między sobą zarówno ilością, jak i jakością, uzyskiwanych danych, a także ro-zumieniem przyjmowanych założeń, co może nie zawsze prowadzić do porównywalnych

wyników końcowych. Mogą być też skutkiem błędów popełnionych podczas analizy. Funk-cja potęgowa, bowiem, jest w swym przebie-gu bardzo podobna do funkcji wykładniczej i z tego powodu, przy małej liczbie nieko-rzystnie układających się lub tendencyjnie pogrupowanych danych, obie funkcje mogą być ze sobą mylone. W celu zmniejszenia ry-zyka tego typu pomyłki stosuje się ostatnio

Ryc. 11. Sieć interakcji genów Saccharomy-ces cerevisiae. Oznaczono funkcję genu.

Kolorem oznaczono funkcję genu. Na przy-kład, kolor czerwony oznacza udział genu w mitozie. (Wykorzystano i zmodyfikowano ma-teriały z pracy tonga i współaut. 2004).

Ryc. 12. Sieć koekspresji genów Sac-charomyces cerevisiae.

Kolory odróżniają geny o różnej funkcji, strzałki zaś wskazują wyróżnione podsie-ci genów połączonych jedynie w ramach swojej grupy. (Wykorzystano i zmodyfi-kowano materiały należące do Genome Biology, http://genomebiology.com).

(7)

różnego rodzaju metody statystyczne, takie jak np. MLE (ang. Maximum Likelihood

Esti-mation) lub AICc (ang. corrected Akaike’s In-formation Criterion), oceniające jakość dopa-sowania rozkładu teoretycznego do rozkładu obserwowanego oraz testujące propozycje al-ternatywne. Wśród tych ostatnich wymienić można: uogólnione prawo potęgowe, prawo potęgowe z eksponencjalnym obcięciem, roz-ciągnięty rozkład eksponencjalny lub rozkład geometryczny. Również i autor tego artykułu wraz z kolegami jest współtwórcą pracy po-kazującej, iż rozkład częstości występowania węzłów danego stopnia w sieci oddziaływań białko–białko jest lepiej opisany przez super-pozycję dwóch eksponentów, niż przez roz-kład potęgowy (Pawlowski i współaut. 2008)

— a więc podważającej w rezultacie ideę uniwersalnej bezskalowości. Każda ze wspo-mnianych alternatyw preferuje określone me-chanizmy ewolucyjne, zatem, roztrzygnięcie tu kwestii stricte matematyczno-statystycznej

może mieć w konsekwencji doniosłe znacze-nie dla nauki o ewolucji życia lub też, gene-ralnie, o ewolucji systemów złożonych.

Biologia jest tą dziedziną wiedzy, w której stopień uszczegółowienia znacznie przekra-cza stopień uogólnień, dlatego też każda

jed-nolita idea obejmująca jak najszerszy obszar badawczy jest przyjmowana przez biologów z wielkim entuzjazmem. Jednak, choć bezska-lową architekturę niektórych sieci już teraz łatwo dałoby się wytłumaczyć teoretycznie przy pomocy prostego, a zarazem atrakcyj-nego, modelu ewolucyjatrakcyj-nego, zakładającego duplikację, powstawanie nowych funkcji, lub utratę genów (aloy i russEll 2004) — na

klarowne z punktu widzenia nauki rozstrzy-gnięcie w tej kwestii musimy jeszcze trochę poczekać.

Pomijając kwestie praktyczne, jak np. możliwość ekstrapolacji własności sieci bez-skalowej poza obszar poznany, wydaje się, że odpowiedź „tak” na pytanie, czy jesteśmy sca-le-free, zbliżyłaby nas znacznie do osiągnięcia jednego z najważniejszych celów biologii, jakim jest odkrycie fundamentalnych reguł tworzenia się struktury i funkcjonowania wszystkich komórek — reguł być może będą-cych przejawem uniwersalnych praw orga-nizowania się materii w ogóle. Tym samym wielka unifikacja zapoczątkowana przez fizy-ków mogłaby być niespodziewanie kończona przez... biologów. Czy tak będzie? — Zobaczy-my. Przedstawiciele innych dyscyplin nauki nie zechcą przecież być gorsi.

ARE WE SCALE-FREE?

S u m m a r y This article describes the scale-free property of biological networks. In practice, a scale-free network can be constructed by progressively adding nodes to an existing network by introducing new links to the

existing nodes using preferential attachment mecha-nism. Are biological networks scale free? Is it an im-pact of universal mysterious power law on biologi-cal networks architecture?

LITERATURA

albErt r., JEong H., barabasi A. L., 1999. Diameter of the world-wide web. Science 401, 130–131.

aloy P., russEll R. B., 2004. Taking the mystery out of biological networks. EMBO Rep. 5, 349–350.

barabasi a. l., albErt R., 1999. Emergence of scaling in random networks. Science 286, 509–512.

Erdos P., rEnyi a., 1959. On Random Graphs. I.

Publicationes Mathematicae 6, 290–297.

Erdos P., rEnyi a., 1960. The evolution of Random Graphs. Magyar Tud. Akad. Mat. Kutato Int. Kozl.

5, 17–61.

JEong H., toMbor b., albErt r., oltvai Z. n., bara -basi A. L., 2000. The large-scale organization of metabolic networks. Nature 407, 651–654.

kHanin r, wit E., 2006. How scale-free are biologi-cal networks. J. Comput. Biol. 13, 810–8.

li l., aldErson d., doylE J. C., willingEr w., 2005.

Towards a Theory of Scale-Free Graphs: Defini-tion, Properties, and Implications. Internet Math.

2, 431–523.

MagwEnE P., kiM J., 2004. Estimating genomic coex-pression networks using first-order conditional independence. Genome Biology 5, R100.

Matsubara T., 2006. Statistics and Dynamics in the Large-scale Structure of the Universe. J. Physics:

Conference Series 31, 27–34.

noort v., snEl b., HuynEn M. A., 2004. The yeast co-expression network has a small-world, scale-free architecture and can be explained by a simple model. EMBO Rep. 5, 280–284.

Pawlowski P. H., kaCZanowski s., ZiElEnkiEwiCZ P., 2008. Protein interaction network. Double expo-nential model. JPB 1, 061–067.

song C., Havlin s., MaksE H. A., 2005. Self-similarity of complex networks. Nature 433, 392–395.

tong a. H., lEsagE g., badEr g. d., ding H., Xu H., Xin X., young J., bErriZ g. F., brost r. l., CHang M. i współaut., 2004. Global mapping of the yeast genetic interaction network. Science 303,

Cytaty

Powiązane dokumenty

stwierdzili, że istnieje ścisła zależność między procesem nerwicowym a chorobami psychosomatycznymi, przy czym na ogół proces nerwico­ wy o wiele lat wyprzedza

Sieci semantyczne: dziedziczenie wielokrotne Mo˙zna by loby zada´c sobie pytanie, czy indywiduum w sieci semantycznej mo˙ze nale˙ze´c do wi ecej ni˙z jednej klasy przez relacj ֒ e

Żeby w informatyce wykorzystać potencjał funkcjonalny neuronu oraz całej ich sieci (grafu), zwanych często sieciami neuronowymi, trzeba opracować uproszczony model działania

Przy p wektorach w warstwie pierwszej pojemność pamieci Hamminga jest równa p, gdyż każdy neuron..

spontaniczna aktywność jest stabilna w czasie lokalnego uczenia się, moduł uczący się ma podwyższoną częstość impulsacji wśród neuronów biorących udział w kodowaniu wzorca

Natural- na kolej rzeczy będzie taka, że gracze przystępujący do tego rynku będą poszukiwać efektu skali (efektywność biznesu, siła negocjacyjna, dostępność, standaryzacja),

Nadmierne skupienie na zaspokajaniu własnych potrzeb, a także nieustanne nabywanie dóbr prowadzić może do wykształcenia się cech narcystycznych wśród członków

Ja tu jednak widzę cały czas problem, jak bez zmiany definicji rozciągłości (według Arystote- lesa ilość rozciągła to taka, która dzieli się na części) nadać jakiś sens