• Nie Znaleziono Wyników

Model wykorzystania formatu danych PED na potrzeby przetwarzania w algorytmie genetycznym

N/A
N/A
Protected

Academic year: 2021

Share "Model wykorzystania formatu danych PED na potrzeby przetwarzania w algorytmie genetycznym"

Copied!
9
0
0

Pełen tekst

(1)

GRZEGORZ WOJARNIK

MODEL WYKORZYSTANIA FORMATU DANYCH PED NA POTRZEBY PRZETWARZANIA W ALGORYTMIE GENETYCZNYM

Streszczenie

Dane genealogiczne są istotnym czynnikiem wpływającym na zachorowalnoĞü na róĪne choroby, w tym nowotwory. ReprezentacjĊ takich danych umoĪliwia format PED. Algorytm genetyczny słuĪący odkrywaniu kombinacji czynników wpływających na zachorowania na nowotwory powinien zawieraü równieĪ mechanizmy wykorzy-stujące dane genealogiczne. W związku z tym pojawia siĊ problem kodowania da-nych PED. W artykule zawarto propozycjĊ kodowania formatu PED za pomocą liczb całkowitych. DziĊki temu przekształceniu algorytm genetyczny bĊdzie w stanie gene-rowaü rozwiązania równieĪ w oparciu o dane genealogiczne.

Słowa kluczowe: sztuczna inteligencja, algorytmy genetyczne, format PED, dane genealogiczne 1. Wprowadzenie

Jednym z wielu czynników wpływajcych na badanie prawdopodobiestwa zachorowania na rónego rodzaju choroby, w tym nowotwory jest informacja genetyczna na temat wystpowania danego schorzenia w rodzinie chorego. Informacja ta moe by składnikiem wielu cech fizycznych oraz behawioralnych wpływajcych na wystpienie zachorowania okrelonej osoby na dan cho-rob.

U podstaw artykułu le badania autora, które zmierzaj do odkrycia kombinacji czynników chorobotwórczych sprzyjajcych powstaniu i pó niej rozwojowi choroby nowotworowej. W bada-niach tych istotn rol zajmuj algorytmy genetyczne, jako metoda pozwalajca na odkrywanie zalenoci pomidzy wieloma zmiennymi, które nie mogłyby s na tyle złoone, e nie poddaj si klasycznemu podejciu zmierzajcego do estymacji zmiennych endogenicznych badanego pro-blemu. Badania bd koncentrowały si na odkryciu czynników wpływajcych na rozwój choroby nowotworowej. Funkcja przystosowania bdzie działała w oparciu o dane na temat zachorowania danej osoby na nowotwór, takich jak wiek pacjenta, kiedy zachorowała na nowotwór oraz wiek zgonu, a take przebieg choroby.

W wykorzystanym do przetwarzania danych algorytmie genetycznym autor do reprezentacji genów reprezentujcych badane zmienne zdecydował si na wykorzystania kodowania dziedziny dostpnych wartoci liczbami całkowitymi. W zwizku z powyszym pojawił si problem przeło-enia danych o rodowodzie, które najczciej s przedstawione za porednictwem formatu PED, na posta zgodn z kodowaniem genów za pomoc liczb całkowitych w konstruowanym algoryt-mie genetycznym.

Z powyszego wynika struktura artykułu, w ramach którego autor zamierza przedstawi zasa-dy działania algorytmów genetycznych, umiejscowienia kodowania genotypu za pomoc liczb całkowitych na tle innych sposobów kodowania. Zostanie równie przedstawiona specyfika i

(2)

za-sady budowy i posługiwania si formatem PED do zapisu danych na temat genealogii danej osoby i na koniec zostanie przedstawiona propozycja dziedziny dostpnych wartoci dla genu odpowie-dzialnego za reprezentacj rodowodu osoby, tak aby pozwalała na przejcie od formatu PED do postaci, która bdzie moliwa do przetwarzania za porednictwem algorytmu genetycznego. 2. Zasady działania algorytmów genetycznych

Do jednych z prekursorów idei algorytmów genetycznych naley J. H. Hollandowi, który opublikował w 1962 roku prac „Outline for a logical theory of adaptive systems”. W publikacji tej Holland przedstawił podstawy systemów adaptacyjnych, które potrafi dostosowywa swoje właciwoci w odpowiedzi na sztucznie stworzone rodowiskiem, w którym je umieszczono [1, s. A2.3:4].

Schemat działania algorytmu genetycznego mona przeledzi na podstawie przedstawionego poniej pseudokodu [2, s. 26]:

procedura algorytm genetyczny begin

t := 0

ustal pocztkowe P(t) oce P(t)

while (not warunek zakoczenia) do begin t := t + 1 wybierz P(t) z P(t - 1) zmie P(t) oce P(t) wyselekcjonuj P(t) end end

gdzie P(t) to populacja osobników stanowicych rozwizania danego problemu, natomiast t okrela numer kolejnej iteracji.

W algorytmie tym kady osobnik przedstawia wygenerowane (za pomoc funkcji ustal po-czątkowe P(t), zmieĔ P(t)) rozwizanie badanego problemu. Kade rozwizanie jest oceniane na podstawie stopnia jego dopasowania wzgldem kryteriów okrelonych mianem funkcji dopasowa-nia lub oceny (oceĔ p(t)). Tak wic kada nowa populacja (t+1) stanowi zbiór osobników najlepiej przystosowanych do funkcji dopasowania. Na etapie funkcji zmieĔ P(t) nastpuje uycie operato-rów genetycznych takich jak krzyowanie, czy mutacja wprowadzajcych zmiany w genotypie osobników.

(3)

232

Grzegorz Wojarnik

Model wykorzystania formatu danych ped na potrzeby przetwarzania w algorytmie genetycznym

Opisany algorytm stanowi najprostsze podejcie do algorytmów genetycznych. Jego działanie moe by sterowane wieloma parametrami opisujcymi funkcjonowanie tego algorytmu, jak i poszczególnych operatorów genetycznych oraz warunków brzegowych wyłanianych rozwiza.

Algorytmy genetyczne najczciej słu rozwizaniu takich problemów, gdzie nie jest znany jednoznaczny sposób rozwizujcy dany problem lub ilo potencjalnych rozwiza, z których ma zosta wybrane najlepsze rozwizanie jest na tyle dua, e moc obliczeniowa potrzebna do analizy tych wszystkich potencjalnych rozwiza nie jest wystarczajca, aby w sensownym czasie uzyska to rozwizanie. Naley zauway, e algorytmy genetyczne bd przydatne tylko wtedy, jeli znany jest sposób oceny jakoci wygenerowanego rozwizania. Przykładem jest np. problem ko-miwojaera, gdzie naley znale  drog łczc punkty, tak aby koszt przebycia drogi był moli-wie najmniejszy. W takim przypadku, gdy mamy potencjalne rozwizanie ocena jakoci propono-wanej trasy jest oczywista, poniewa wystarczy poda np. ilo kilometrów jak trzeba przeby, aby odwiedzi wszystkie lokalizacje i na tej podstawie bdzie mona wybra rozwizanie bdce tras, która jest po prostu najkrótsza.

W przypadku algorytmu genetycznego, w którym jednym z genów jest rodowód danej osoby naley tak skonstruowa ten gen, aby moliwe było poddanie jego działaniu operatorów genetycz-nych.

Wykorzystujc algorytmy genetyczne naley przyj, e znajdowane rozwizania problemów (uzyskiwane nawet o rzdy wielkoci szybciej ni dla innych sposobów rozwizywania proble-mów) nie bd rozwizaniami optymalnymi, ale jedynie sub-optymalnymi, co oznacza e nie s to rozwizania których funkcja oceny da minimaln lub maksymaln warto biorc pod uwag prze-strze wszystkich potencjalnych rozwiza danego problemu. W zwizku z tym o takim wyniku działania algorytmu genetycznego mona powiedzie, e z punktu widzenia jego przydatnoci jest rozwizaniem zadowalajcym. Zreszt bardzo czsto, w procesie podejmowania decyzji opartych o wyniki działania algorytmów genetycznych zalet jest fakt, e algorytmy te mog dostarczy szereg rozwiza alternatywnych, które mog sta si podstaw podjcia kocowych decyzji. 3. Kodowanie genomu algorytmu genetycznego

Kada cecha (gen) osobnika, która jest uwzgldniana w algorytmie genetycznym musi by zakodowana zgodnie z okrelonym typem danych w celu przeprowadzania oblicze. I w zwizku z tym wartoci przechowywane w genach mog by reprezentowane poprzez trzy podstawowe sposoby kodowania:

1. klasyczne czyli binarne 2. oparte na liczbach całkowitych

3. oparte na liczbach zmiennoprzecinkowych 4. logarytmiczne

W kodowaniu binarnym genami s poszczególne bity. Moe mie to zastosowanie w proble-mach, w których poszukujemy jednej liczby, np. przy znajdowaniu ekstremum funkcji.

W kodowaniu opartym na liczbach całkowitych wartoci poszczególnych genów s liczby całkowite. Idealnie pasuj przy kodowaniu permutacyjnym do rozróniania (numerowania) permu-towanych elementów (np. numeracja miast w problemie komiwojaera) lub reprezentowania cał-kowitych wag elementów (np. w problemie plecakowym). Włanie w ten sposób zostanie zako-dowany rodowód osoby opisanej struktur danych zgodnym z formatem PED. Wybór padł na ten

(4)

sposób kodowania ze wzgldu na moliwo uszeregowania poszczególnych grup moliwych kombinacji drzewa genealogicznego zawierajcego wystpowanie danej cechy (w tym przypadku zachorowania na chorob nowotworow), np. jednym z wartoci genu rodowodu moe by sytua-cja, w której oboje rodzice byli chorzy na nowotwór (dokładne rozpisanie propozycji genu w ra-mach kodowania opartego o liczby całkowite odwzorowujcego struktur PED znajduje si w dalszej czci artykułu).

Z kolei w kodowaniu opartym na liczbach rzeczywistych (zmiennoprzecinkowych) genami s liczby rzeczywiste. Kodowanie to najczciej jest uywane w problemach, w których naley pre-cyzyjnie dobiera parametry (np. dobieranie wag w sieciach neuronowych, dobieranie parametrów urzdze produkcyjnych dla podniesienia ich wydajnoci, dobieranie parametrów krzywych eko-nomicznych i wszelkich innych funkcji modelujcych obserwowane zjawiska rzeczywiste).

I na koniec w kodowaniu logarytmicznym „pierwszy bit () cigu kodowego jest bitem znaku funkcji wykładniczej, drugi bit () jest bitem znaku wykładnika funkcji wykładniczej, a pozostałe bity (bin) s reprezentacj wykładnika funkcji wykładniczej” [3, s. 275]:

10 ] [ ) 1 (

)

1

(

]

[

αβ

bin

=

β

e

− α bin



W zalenoci od wartoci przechowywanych w genach i przyjtego sposobu ich układania w chromosomie rónie definiuje si operatory genetyczne.

4. Specyfika formatu danych PED

Format danych PED [4] – to popularny format analizy genetycznej, w którym zawarte s in-formacje o rodowodzie i cechach genetycznych danej osoby. Za pomoc tego formatu mona przedstawi kształtowanie jakiej cechy (np. wystpowanie nowotworu) w ramach danej rodziny, co pozwala zobrazowa moliwo je dziedziczenia poród członków tej rodziny.

Struktura formatu PED [5]: Family ID – identyfikator rodziny Individual ID – identyfikator osoby Paternal ID – identyfikator ojca Maternal ID – identyfikator matki

Sex (1=male; 2=female; other=unknown) – płe Phenotype – opisywana cecha, np:

0 – brak informacji, 1 – zdrowa,

2 – chora na dany typ nowotworu, 3 – chora na inny nowotwór

Na podstawie tak zdefiniowanej struktury mona sporzdzi drzewo genealogiczne danej ro-dziny i zobrazowa w nim wystpowanie danej cechy. Posłumy si przykładem, w ramach które-go mam nastpujce dane dla hipotetycznektóre-go drzewa genealogicznektóre-go osoby A:

(5)

234

Grzegorz Wojarnik

Model wykorzystania formatu danych ped na potrzeby przetwarzania w algorytmie genetycznym

Tabela 1. Przykładowe dane zawierające informacje na temat rodowodu osoby A wraz z informacją o zachorowalnoĞci w jego rodzinie na chorobĊ nowotworową FamilyId IndividualId PaternalId MaternalId Sex Phenotype

1 A B C 1 0 1 B D E 1 1 1 C F G 2 2 1 D H 1 1 1 E I J 2 1 1 F K 1 1 1 G L 2 1 1 H 1 0 1 I 1 0 1 J 2 2 1 K 2 0 1 L 2 2 1 M F G 2 2

ródło: Opracowanie własne.

Na podstawie tak przedstawionych danych mona narysowa nastpujce drzewo genealo-giczne:

Rysunek 1. Przykład drzewa genealogicznego ródło: Opracowanie własne.

B

C

D

E

F

G

H

I

J

K

L

M

(6)

Powyszy rysunek przedstawia drzewo genealogiczne dla danych zawartych w tabeli 1. Jak wida wystpowanie danego fenotypu jest zobrazowane czarnym prostoktem. Jeli dana osoba nie posiada tego fenotypu, wtedy prostokt jest zakrelony obrysem. W przypadku, gdy dana oso-ba reprezentowana jest przez okrelon liter bez obrysu oznacza to, e nic nie wiadomo o wyst-powaniu danego fenotypu dla tej osoby, a wic nie wiadomo jak w przypadku tej osoby on si kształtuje.

Przy takiej definicji formatu PED naley zwróci uwag na moliw posta drzewa genealo-gicznego danej osoby. Na pewno bdzie si ono charakteryzowało nastpujcymi cechami:

• Zwikszone prawdopodobiestwo wystpowania osób o znanym fenotypie w bliszych po-koleniach ni dalszych.

• Ilo pokole rzadko bdzie przekraczała 4.

• W dalszych pokoleniach wiksze prawdopodobiestwo nieznajomoci rodziców – oby-dwojga lub jednego z dwóch.

• Moliwo i prawdopodobiestwo wystpowania danych o rodzestwie osób z poszczegól-nych pokole nie bdcych w prostej linii osobami bdcymi rodzicami osób z głównej li-nii genealogicznej (np. osoba M z tabeli 1).

Okrelenie dziedziny, w której maj by generowane chromosomy reprezentujce potencjalne układy rodzin dla danego rozwizania, stanowicego dany układ osobników w rodzinie.

Okrelenie dziedziny powinno zosta dokonane na podstawie danych porównawczych zgro-madzonych dla przebadanych/wprowadzonych do systemu osób. Na podstawie tego badanie b-dzie trzeba okreli prawdopodobiestwa:

• Wystpowania w poszczególnym pokoleniu odpowiednich osób wg płci lub ich nie wyst-powania.

• Pojawienia si choroby na poszczególnych poziomach pokole.

Dziki takiemu zabiegowi algorytm nie bdzie generował potencjalnych rozwiza, które nie s moliwe do zweryfikowania z powodu braku danych weryfikujcych.

Naley si te zastanowi, czy nie wyeliminowa osób o nieznanym fenotypie cechy (tzn. e jest osoba, ale nie wiemy czy chorowała).

Kolejnym wanym elementem budowy chromosomu jest moliwo okrelenia stopnia jego dopasowania do zakładanego wzorca. W przypadku chromosomu, który reprezentuje dane na temat zachorowalnoci członków rodziny danej osoby bdzie wane sprawdzenie w jakim stopniu dany chromosom jest zgodny w stosunku do zebranych danych. Dlatego naley zdefiniowa dla takiego chromosomu właciwo Dopasowanie podajc (np. W procentach) stopie dopasowania chromosomu do danych porównawczych. Jednak naley pamita, e właciwo ta jest cile zwizana ze wszystkimi innymi chromosomami danego osobnika i powinna by cile zwizana z funkcj oceny dla całego genotypu osobnika podlegajcego przetwarzaniu poprzez algorytm genetyczny.

(7)

236

Grzegorz Wojarnik

Model wykorzystania formatu danych ped na potrzeby przetwarzania w algorytmie genetycznym

5. Struktura genu dla formatu PED

Jak zostało przedstawione wczeniej naley w ten sposób okreli dziedzin dostpnych war-toci jakie przyjmie gen, który bdzie zawierał dane na temat rodowodu osoby, aby moliwe było przetwarzanie tego genu operatorami genetycznymi algorytmu genetycznego oraz aby kada jego warto w prosty sposób okrelała stan rodowodu danej osoby.

W zwizku z faktem, e w dostpnej literaturze trudno doszuka si takiego rozwizania nale-y wyj od okrelenia dwóch skrajnych sytuacji, które bd stanowiły dwa stany genu rodowodu stajce po przeciwnych stronach dziedziny dostpnych wartoci. Pierwszym jest sytuacja, w której wszystkie osoby, włczajc matk i ojca, bdce w “rodzinie” danej osoby nie chorowały na no-wotwór. Z drugiej strony skrajn sytuacj jest taka, w której wszystkie osoby z “rodziny” choro-wały na nowotwór. Wychodzc od takich dwóch skrajnych wartoci naley w kolejnym kroku okreli stany porednie.

Oczywiste jest, e stanów porednich powinna by taka liczba, aby nie powodowała drastycz-nego wzrostu kombinacji w trakcie przetwarzania algorytmu genetyczdrastycz-nego, ale jednoczenie po-winna za sob nie konkretn warto poznawcz wnoszc istotn wiedz do danego problemu. I tutaj decyzja o iloci stanów genów rodowodu powinna zalee od iloci rónych kombinacji rodowodu w danych badawczych. Zakładajc du ich ilo oraz rónorodno mona zapropo-nowa nastpujce wartoci:

0 – brak zachorowa w rodzinie,

1 – poniej 30% zachorowa sporód osób nalecych do rodziny, ale aden z rodziców nie chorował na nowotwór,

2 – od 30% do 65% zachorowa sporód osób nalecych do rodziny, ale bez adnego z ro-dziców,

3 – poniej 30% zachorowa w rodzinie, ale chorował jeden z dziadków, 4 – poniej 30% zachorowa w rodzinie, ale chorował jeden z rodziców, 5 – od 30% do 65% zachorowa w rodzinie, w tym jeden z dziadków, 6 – od 30% do 65% zachorowa w rodzinie, w tym jeden z rodziców, 7 – powyej 65% w rodzinie zachorowało,

8 – powyej 65% w rodzinie zachorowało, w tym jeden z dziadków, 9 – powyej 65% w rodzinie zachorowało, w tym jeden z rodziców, 10 – obydwoje rodzice byli chorzy na nowotwór, ale aden z dziadków,

11 – obydwoje rodzice byli chorzy na nowotwór oraz co najmniej jeden z dziadków, 12 – wszyscy w rodzinie chorowali na nowotwór.

Dziki takiemu przekształceniu formatu PED do postaci genu kodowanego liczbami całkowi-tymi bardzo łatwe staje si poddanie tego genu operatorom genetycznym takim jak np. mutacja, bowiem wystarczy losowo doda lub odj od danej wartoci 1, aby zmieni stan genu, ale w ten sposób, aby zmieniona warto nie oznaczała stanu znacznie odbiegajcego od stanu wyjciowego. Jednoczenie w prosty sposób mona generowa losowo stany rodowodów dla np. nowotworzo-nych rozwiza problemu poprzez prosty losowy wybór wartoci okrelajcej który stan rodowo-du. Równoczenie warto doda, e wyej podana propozycja moe by w prosty sposób modyfi-kowano zarówno w kierunku powikszenia iloci stanów rodowodu w sytuacji, gdy tych stanów w badanych danych jest o wiele wicej, a z drugiej strony ilo dostpnych stanów genu rodowodu

(8)

mona zmniejszy, gdyby si okazało, e w badanych danych s przechowywane dane PED opisu-jce rodowody w wszym zakresie, np. ograniczone tylko do dwóch pokole.

Naley podkreli, e aby zapewni wysok jako kodowania liczbami całkowitymi danych w formacie PED naley przypisa kolejnym wartociom stany, które bd si od siebie róniły w minimalny sposób, dziki czemu działanie operatorów genetycznych zapewni optymalne rezul-taty działania algorytmu genetycznego.

6. Podsumowanie

W artykule został zaproponowany sposób kodowania za pomoc liczb całkowitych danych w formacie PED, tak aby mogły by przetwarzane za pomoc algorytmu genetycznego. Naley zaznaczy, e propozycja ta stanowi element pracy badawczej autora artykułu zmierzajcej do budowy algorytmu genetycznego umoliwiajcego odkrywanie kombinacji czynników wpływaj-cych na zachorowania na choroby nowotworowe, a włanie dane na temat rodowodu osoby stano-wi jeden z takich czynników.

Weryfikacj działania i funkcjonowania proponowanego podejcia bdzie uruchomienie oprogramowanego algorytmu, który bdzie bazował na danych ankietowych sporód ponad 2 tys. osób, które zgodziły si na wypełnienie ankiety podajc równoczenie swoje dane genealogiczne.

Bibliografia

[1] De Jong K., Fogel D. B., Schwefel H. P.: A history of evolutionary computation w Handbook of Evolutionary Computation, Oxford University Press, Oxford 1997.

[2] Michalewicz Z.: Genetic Algorithms + Data Structures = Evolution Programs, Wydawnictwa Naukowo-Techniczne, Warszawa 2003 [in Polish].

[3] Rutkowski Leszek, Metody i techniki sztucznej inteligencji, Wydawnictwo Naukowe PWN, Warszawa 2006, s. 275.

[4] http://www.biomedcentral.com/1756-0500/2/214. [5] http://pngu.mgh.harvard.edu/~purcell/plink/data.shtml.

(9)

238

Grzegorz Wojarnik

Model wykorzystania formatu danych ped na potrzeby przetwarzania w algorytmie genetycznym

MODEL OF THE USE OF PED DATA FORMAT FOR PROCESSING IN THE GENETIC ALGORITHM

Summary

Genealogy is an important factor influencing the incidence of various diseases, including cancer. Representation of such data allows the PED format. Discovering the genetic algorithm used a combination of factors influencing the incidence of can-cer should also include mechanisms for using genealogical data. Therefore, there is a problem of encoding PED data. The article includes a proposal for the encoding format of PED using integers. Thanks to this transformation of a genetic algorithm is able to generate solutions also based on genealogical data.

Keywords: artificial intelligence, genetic algorithms, PED format, genealogical data Grzegorz Wojarnik

Instytut Informatyki w Zarzdzaniu

Wydział Nauk Ekonomicznych i Zarzdzania Uniwersytet Szczeciski

Cytaty

Powiązane dokumenty

Wskazuje się też, że analiza optymalnego sposobu użytkowania jest ważnym elementem analizy i oceny wariantów rozwoju nieruchomości inwe- stycyjnych przy wyborze strategii

Analiza wyników wykaza³a istotny wp³yw dawki promieniowania jonizu- j¹cego na wybrane w³aœciwoœci kopoli(estro-b-estrów) (polepszenie w³aœci- woœci mechanicznych i

Wychowawcy uczestniczą w życiu chłopców, intere- sują się ich problemami, starają się poznać ich zapatrywania i je zrozumieć.. Wie- dzą, że najprostszy sposób dotarcia

W tym wypadku sy­ tuację komplikuje fakt, że każdy z prezentowanych referatów był pomyślany jako część większej całości bądź stanowił — jak w

Biografia poety to przede w szystkim dzieje rozwoju jego psychiki i um ysło- w ości, badaczka świadomie i jak najsłuszniej stara się ukazać głów nie „procesy

„ Wektory własne są najszybszym rozwiązaniem dla pewnych operacji, mogą jednak być wykorzystane tylko w sytuacjach, gdy zbiór uniwersalny jest mały. „ Tablice mieszające

Podczas zalesiania terenu posadzono drzew liściastych, drzew iglastych i krzewów.. Wykonajmy

W tym przypadku drugi warunek brzegowy jest speªniony dla dowolnej staªej A... Oznacza to, »e równie» w tym przykªadzie b¦dziemy rozpatrywa¢