• Nie Znaleziono Wyników

Ocena dokładności modeli

W dokumencie Index of /rozprawy2/11269 (Stron 153-157)

6. Dyskusja i wnioski

6.1. Ocena dokładności modeli

Najlepsze uzyskane modele predykcyjne dla 1. roku terapii rhGH charakteryzowały się błędem testowym 0,26-0,27 SD/rok oraz współczynnikiem determinacji wynoszącym 45-50% przy użyciu dowolnego z badanych typów sieci neuronowych. Oznacza to, że około połowa obserwowanej zmienności wzrastania dzieci w tym okresie pozostaje niewyjaśniona przez model. Wydaje się to zjawiskiem typowym dla badanego problemu, a uzyskana wartość R2 mieści się pośrodku tych wykazywanych przez innych autorów (przegląd w tabeli 2.1). Przy porównaniu R2 należy zachować pewną ostrożność, ponieważ modele dla 1. roku leczenia, dla których ten współczynnik podano w większości prognozowały wzrost w jednostkach bezwzględnych (centymetrach) [Ranke i in. 1999; Schonau i in. 2001; Ranke i in. 2007; Salah i in. 2013], a opisane w tej pracy w SD/y, czyli jednostkach względnych (odniesionych do wartości normatywnych). Jednym ze skutków tego przeliczenia jest uniezależnienie wyniku od płci dziecka i eliminacja związanej z nią zmienności. Wcześniejsze własne badania pokazują, że przynajmniej w odniesieniu do prognozowania wzrostu końcowego, modele z wyjściem w centymetrach uzyskują znacznie wyższe współczynniki determinacji niż te z wyjściem w jednostkach bezwzględnych, mimo podobnej faktycznej wartości błędu prognozy [J. Smyczyńska i in. 2015]. Podobna sytuacja może mieć miejsce także dla krótszych okresów leczenia. Ponadto we wszystkich dotychczasowych analizach dla pierwszych lat leczenia brano pod uwagę tylko pacjentów w wieku przedpokwitaniowym, podczas gdy wyniki z niniejszej rozprawy mają zastosowanie również do dzieci dojrzewających. Poszerzenie zbioru danych o dzieci dojrzewające może utrudniać prognozę, ponieważ ich dynamika wzrastania jest inna niż pacjentów młodszych.

Najdokładniejszy z opisanych przez innych autorów modeli, który nadaje się do użycia podczas kwalifikacji do leczenia lub na początku jego trwania wyjaśnia aż 70% zmienności odpowiedzi na leczenie [Schonau i in. 2001]. Jakkolwiek jest to wynik lepszy od uzyskanego w sieciach neuronowych, trzeba zauważyć, że model nie został przetestowany na innych danych niż 58 przypadków, których użyto do jego wyprowadzenia. Niestety podobne zastrzeżenie można wysunąć w stosunku do wielu zaprezentowanych dotychczas prac, choć niektóre modele zostały później zwalidowane przez innych autorów. Rozwiązania o najbardziej zbliżonej metodyce do prezentowanego opisano w pracach [Albertson Wikland i in. 2000] i [Dahlgren i in. 2007], gdzie również prognozowano wzrost w jednostkach względnych. W zależności od wybranego zestawu zmiennych wejściowych błąd modeli wynosił 0,18-0,28 SD w [Albertson Wikland i in. 2000] i 0,15-0,23 SD w [Dahlgren i in. 2007]. Na podstawie podanych wartości wariancji wzrostu w 1. roku leczenia można oszacować, że modele te wyjaśniają 30-60% zmienności, co jest podobnym wynikiem do uzyskanego w niniejszej pracy. Trzeba dodać, że są to modele nieliniowe, których wyprowadzenie wymaga ustalenia a priori charakteru zależności wejścia-wyjście. W porównaniu z tym rozwiązaniem model neuronowy jest łatwiejszy do skonstruowania. W pracy wykazano, że sieci neuronowe mogą prognozować wzrost końcowy dzieci leczonych rhGH z błędem na zbiorze testowym rzędu 0,47-0,53 SD (czyli ok. 3,2-3,4 cm). Jednocześnie wyjaśniono od 45% (w sieciach MLP) do 59% (w sieciach RBF) obserwowanej zmienności SDS wzrostu końcowego. Porównanie tego wyniku z rezultatami badań zebranych w tabeli 2.1 ponownie pokazuje, że sieci neuronowe są co najmniej równie skuteczne jak inne dotychczas używane metody modelowania. Innym badaczom udawało się wyjaśnić od 43% do 66% (oba wyniki w pracy [de Ridder i in. 2007]) zmienności wzrostu końcowego pacjentów, przy czym prawie wszyscy posługiwali się jednostkami względnymi, czyli prognozowali FH SDS. Większość autorów konstruowała osobne modele dla dzieci w wieku przedpokwitaniowym i rozpoczynających leczenie dopiero w okresie dojrzewania, co w niniejszej pracy nie było możliwe ze względu na zbyt małą liczność zbioru danych. Jedynym wyjątkiem było badanie [Carel i in. 2002], w którym posłużono się danymi ponad 2800 pacjentów w różnym wieku, zebranymi w rejestrze narodowym. W tym przypadku R2 wyniosło 58%, jednak model uwzględniał jako zmienne objaśniające czas trwania terapii i binarne wskazanie, czy została ona zakończona w terminie czy przedwcześnie. Z tego powodu nie nadaje się on do zastosowania w praktyce, choć niewątpliwie posiada istotne walory poznawcze.

Źródeł niedokładności modeli można poszukiwać zarówno w błędach pomiarowych zmiennych wejściowych, jak i w czynnikach, których w nim nie uwzględniono. Dokładność pomiaru jest różna dla różnych zmiennych. Spośród zmiennych szczególnie istotnych w modelach jako najdokładniej podany można wskazać wiek metrykalny dziecka. Wysoką dokładnością powinny charakteryzować się również pomiary wzrostu pacjenta, ponieważ

istnieje wymóg ich przeprowadzania na odpowiednio skalibrowanym stadiometrze w ośrodku specjalistycznym. Podobna sytuacja ma miejsce w przypadku masy ciała dzieci, którą również mierzy się podczas wizyty u lekarza. Mniej dokładne mogą być wartości wzrostu rodziców. Często na wizytę przychodzi z dzieckiem tylko jedno z nich (zwykle matka), które lekarz może zmierzyć, natomiast wzrost drugiego z nich jest podawany przez osobę obecną, co może prowadzić do niedokładności rzędu nawet kilku centymetrów. Niepewnością pomiarową charakteryzują się również oznaczenia stężeń hormonów, wykonane metodami immunometrycznymi. Dla używanych w ICZMP metod oznaczenia stężeń IGF-I oraz IGFBP-3 (IMMULITE, DPC) współczynniki zmienności w obrębie jednego zestawu wynoszą odpowiednio 3,1-4,3% i 3,5-5,6%, natomiast pomiędzy zestawami 5,8-8,4% i 7,5-9,9% [Hilczer, Smyczynska i Lewinski 2006]. Podobne wartości podawane są dla oznaczeń GH, jednak wobec niewielkiej istotności tych badań w prezentowanych modelach nie ma to szczególnego znaczenia dla dokładności modelu. Najbardziej problematycznym w kwestii dokładności badaniem jest ocena wieku kostnego. Jest ona wykonywana przez lekarza poprzez porównanie RTG dłoni dziecka z szeregiem obrazów standardowych z odpowiedniego atlasu [Greulich i Pyle 1993] i wybór najbardziej podobnego z nich. Ponieważ standardy zostały opracowane w odstępach rocznych dla dzieci starszych i kilkumiesięcznych dla młodszych, rozdzielczość tego badania jest stosunkowo niska (minimalna różnica między 2 wynikami to zwykle 0,5 roku).

Czynniki nieuwzględnione w modelu obejmują m.in. regularność stosowania leczenia przez poszczególnych pacjentów oraz zdarzenia losowe, które mogą wpływać na wzrastanie. Badania z wykorzystaniem wstrzykiwaczy automatycznie zapamiętujących każdy podany zastrzyk rhGH wskazują, że nawet ok. 40% pacjentów może nie przestrzegać zaleceń lekarza w stopniu zadowalającym, zdefiniowanym jako podanie co najmniej 92% zaplanowanych dawek rhGH [Loche i in. 2016]. Praca [Aydin i in. 2014] wskazuje dodatkowo, że pacjenci, którzy przyjęli 95% i więcej zaleconych zastrzyków rosną znacznie lepiej niż pozostali. Na tej podstawie można się spodziewać, że uwzględnienie w modelu odsetka faktycznie podanych dawek rhGH mogłoby podnieść jego dokładność. Pewną trudność stanowiłoby jednak uzyskanie rzetelnych danych, ponieważ w Polsce obecnie nie stosuje się rutynowo wstrzykiwaczy zapamiętujących ich użycie. Do czynników losowych mogących negatywnie wpływać na wzrost należą np. poważne urazy lub dłuższe choroby w trakcie leczenia rhGH.

6.2. Optymalizacja modeli

Stosując wszystkie 3 badane typy sieci neuronowych uzyskano modele skuteczności leczenia rhGH o podobnej dokładności dla 1. roku leczenia, natomiast w wśród modeli dla FH SDS najdokładniejsze były sieci RBF (pod warunkiem przeprowadzenia redukcji liczby wejść). Zaimplementowano przy tym różne algorytmy optymalizujące strukturę i uczenie, odpowiednie dla danego danego rodzaju sieci neuronowej.

W sieciach MLP użyto algorytmu genetycznego w celu dobrania liczby warstw ukrytych i obecnych w nich neuronów oraz parametrów uczenia. Przetestowano również 2 algorytmy uczenia: metodę wstecznej propagacji błędów i metodę gradientów sprzężonych. Nie zaobserwowano istotnej różnicy dokładności uzyskiwanych modeli, zatem oba algorytmy nadają się do rozwiązania tego problemu. Szczególnie w metodzie gradientów sprzężonych preferowane były sieci z 1 warstwą ukrytą, które stanowiły większość populacji w ostatniej iteracji algorytmu genetycznego. Znaczna część najdokładniejszych modeli posiadała stosunkowo niewiele neuronów ukrytych. Wobec istnienia bardzo wielu metod doboru odpowiedniego rozmiaru warstw ukrytych [Sheela i Deepa 2013], można stwierdzić, że w literaturze nie ma konsensusu, co do najlepszego sposobu. Wskazano między innymi kilka empirycznych wzorów, pomagających dobrać właściwą architekturę sieci MLP. Zostały one przedstawione tabeli 6.1 wraz z wynikającą z nich liczbą neuronów ukrytych dla badanego problemu. Użyty algorytm genetyczny pozwolił na uzyskanie sieci zawierających zdecydowanie mniejszą liczbę neuronów niż którakolwiek z proponowanych wartości. Zastosowanie bardziej zaawansowanego podejścia pozwoliło na wyprowadzenie modelu o mniej rozbudowanej architekturze, co jest uważane za korzystne; w szczególności niektórzy autorzy twierdzą, że należy dążyć do skonstruowania modelu o minimalnej liczbie neuronów, pozwalającej na uzyskanie akceptowalnej dokładności [Reitermanova 2008].

Tabela 6.1: Proponowane wzory empiryczne na liczbę neuronów ukrytych w sieciach MLP i wynik ich

zastosowania do danych badanego problemu.

Proponowana liczba neuronów

ukrytych N 1. rok leczenia całe leczenie

0=17 N0=9 N0=20 N0=10 A Nl=NL+0,75⋅N0 14 8 16 7-8 B N1=M−1 N1,2=0,5⋅M +3 162 84-85 162 84-85 78 42-43 78 42-43 C Nl=NL+

M l N1=14 N2=7 NN12=14=7 NN12=10=5 NN12=10=5 własny wynik N1=2 N1=8 N1=2 N1=3 N2=2 N1=3 N2=2

Nl - liczba neuronów ukrytych w warstwie o numerze l, NL - liczba wyjść, M - liczba przypadków uczących, N0 - liczba wejść A: [Shahamiri i Binti Salim 2014], B: [Tamura i Tateishi 1997], C: [Jinchuan i Xinzhe 2008]

A: [Shahamiri i Binti Salim 2014], B: [Tamura i Tateishi 1997], C: [Jinchuan i Xinzhe 2008]

Dodatkową zaletą algorytmu genetycznego jest ukierunkowanie przeszukiwania przestrzeni parametrów do zakresu, w którym w początkowych iteracjach znajdują się najlepsze rozwiązania. Przy metodzie wstecznej propagacji błędów poskutkowało to przebadaniem większej liczby sieci uczonych w trybie przyrostowym niż wsadowym. Z kolei przy metodzie gradientów sprzężonych doprowadziło do wskazania preferowanego sposobu wyznaczania kierunku sprzężonego. Dla 1. roku leczenia wszystkie najlepsze modele (tabela 5.2) stosowały metodę Dai-Yuana’a, a modele dla FH (tabela 5.8) metodę Fletcher’a-Reeves’a. W przypadku

pozostałych parametrów nie obserwowano tak silnej selekcji, choć zwykle eliminowane były wartości skrajne z badanych zakresów np. bardzo niskie współczynniki uczenia. Pozwala to w pełni zgodzić się ze stwierdzeniem, że dla uzyskania dobrego rozwiązania wartości tylko niektórych parametrów są kluczowe, natomiast inne mogą być dobrane z szerszego zakresu [Bergstra i Bengio 2012].

Optymalizację parametrów sieci RBF i Kohonena wykonywano na zasadzie siatki poszukiwań, czyli poprzez testowanie wielu różnych kombinacji wartości parametrów. Było to możliwe, ponieważ te sieci charakteryzowały się mniejszą liczbą parametrów niż MLP. Mimo to liczba sieci RBF i Kohonena, które przebadano, aby uzyskać dobry model była większa niż sieci MLP. W sieciach RBF najniższy błąd testowy uzyskiwano przy liczbach neuronów radialnych znajdujących się w środkowej lub dolnej części testowanego zakresu. Zdecydowanie mniej dokładne były sieci bardzo małe i bardzo duże. Biorąc pod uwagę ten drugi wniosek, można stwierdzić, że nie jest korzystne bezpośrednie zapamiętanie przez sieć zbioru danych uczących i prognozowanie skuteczności leczenia w oparciu wyłącznie o wyszukiwanie podobnych przypadków. Korzystna jest natomiast pewna kompresja danych, związana z obliczeniem wag dla liczby neuronów mniejszej od liczby przypadków uczących. Stosowane do tego celu algorytmy mają charakter uśredniający, co prawdopodobnie pozwala na zmniejszenie wpływu błędów pomiarowych w danych na ostateczny wynik.

W dokumencie Index of /rozprawy2/11269 (Stron 153-157)