• Nie Znaleziono Wyników

Uczenie metodą wstecznej propagacji błędów

W dokumencie Index of /rozprawy2/11269 (Stron 90-98)

5. Wyniki

5.1. Modele dla 1. roku leczenia

5.1.1.1. Uczenie metodą wstecznej propagacji błędów

Spośród 200 uzyskanych modeli wybrano 5, w których zaobserwowano najniższy błąd na zbiorze testowym i zaprezentowano je w Tabeli 5.1. Umieszczone zostały w niej informacje o wielkości błędu (RMSE) i współczynnika determinacji (R2) dla poszczególnych podzbiorów danych, wartości współczynników uczenia i momentum oraz tryb uczenia (jako liczbę przypadków, po prezentacji których aktualizowano wagi). Architekturę sieci opisywano w następujący sposób: MLP liczba (#) wejść: # neuronów wejściowych – # neuronów

w warstwach ukrytych – # neuronów wyjściowych: # wyjść. W całym zbiorze pozostało

45 sieci uczonych w trybie wsadowym i 155 uczonych w trybie przyrostowym, zatem wydaje się, że w tym przypadku tryb aktualizacji wag po każdym przypadku osobno gwarantuje lepsze wyniki. Sieci z jedną warstwą ukrytą było 108, a z dwoma 92; zatem zastosowanie algorytmu genetycznego nie wskazało wyraźnie preferowanej opcji. Kierując się zasadą unikania nadmiernego rozbudowywania modelu bez wyraźnego uzasadnienia, należałoby posłużyć się siecią z jedną warstwą ukrytą, stąd do dalszej analizy wybrano model MLP 17:17-2-1:1 (oznaczony kolorem niebieskim w tabeli 5.1), który dodatkowo cechuje się najbardziej zbliżonymi wartościami R2 we wszystkich 3 podzbiorach danych.

Tabela 5.1: Charakterystyka najlepszych sieci MLP, prognozujących H SDS V1, uzyskanych metodą wstecznej propagacji błędów.

Architektura sieci RMSE R

2 [%] Parametry uczenia TR V TS TR V TS η α BS MLP 17:17-2-1-1:1 0,258 0,255 0,267 42,8 47,3 48,7 0,7 0,400 1 MLP 17:17-8-7-1:1 0,253 0,255 0,271 44,8 47,4 47,2 0,1 0,800 1 MLP 17:17-2-1:1 0,250 0,252 0,273 46,2 48,6 46,6 0,4 0,500 1 MLP 17:17-3-2-1:1 0,252 0,246 0,275 45,5 51,1 45,7 0,6 0,500 1 MLP 17:17-6-2-1:1 0,260 0,252 0,276 41,9 48,8 45,3 0,9 0,001 1 TR – zbiór uczący, V – zbiór walidacyjny, TS – zbiór testowy, η – współczynnik uczenia, α – współczynnik momentum, BS – liczba przypadków, po prezentacji których aktualizowano wagi (ang. batch size)

Schemat NID sieci MLP 17:17-2-1:1 wybranej do dalszej analizy przedstawia Rys. 5.1.

Rys. 5.1: Schemat połączeń w sieci (NID) MLP 17:17-2-1:1.

Grubość linii jest proporcjonalna do wartości bezwzględnej wagi; kolor czerwony oznacza wagi dodatnie, a niebieski ujemne.

Powyższa wstępna, graficzna analiza modelu pokazuje, że od niektórych wejść do neuronów ukrytych prowadzą tylko połączenia o bardzo niskich wagach, zatem te wejścia najpewniej mogłyby zostać zredukowane bez szkody dla dokładności prognozy. Zasadne wydaje się zastosowanie algorytmu eliminacji nadmiarowych wejść, który opisano w podrozdziale 4.3.5.

Wynik jego działania przedstawia Rys. 5.2. Oś pozioma każdorazowo pokazuje liczbę zmiennych zredukowanych w danej iteracji działania algorytmu, czyli 17−N0, gdzie

N0 oznacza aktualną liczbę wejść. Na górnym panelu zobrazowano wartość błędu (RMSE) w poszczególnych podzbiorach danych, natomiast na dolnym odpowiadającą mu wartość współczynnika determinacji. Wykres R2 wykorzystano również do pokazania kolejności usuwania zmiennych. Nad liczbą usuniętych zmiennych w danym modelu umieszczono skróconą nazwę (wykaz na stronie 17) kolejnej eliminowanej zmiennej, którą zidentyfikowano na podstawie tej sieci jako najmniej istotną. Przykładowo współrzędnej poziomej o wartości 0 odpowiada zmienna GHN, co oznacza, że w badanej sieci MLP jest ona najmniej istotna i w kolejnej iteracji będzie usunięta. W modelu o danej liczbie zredukowanych zmiennych 17−N0 nie występują wejścia, których nazwy znajdują się po lewej stronie wartości 17−N0. Są w nim natomiast obecne wszystkie zmienne, których nazwy znajdują się ponad współrzędną 17−N0 i na prawo od niej, np. w modelu ze zredukowanymi 13 wejściami uwzględnione są następujące 4 zmienne: SDS masy ciała (M SDS), IGF-I SDS, płeć (G) i wiek kalendarzowy (CA) – pomarańczowa ramka na Rys. 5.2.

Rys. 5.2: Redukcja liczby zmiennych wejściowych w modelu o początkowej architekturze MLP 17:17-2-1:1,

Najdokładniejszy model uzyskany został po zredukowaniu 2 zmiennych wejściowych (R2 dla zbioru testowego 48,4%) i nie uwzględnia on wyniku nocnego testu GH oraz stosunku wieku kostnego do metrykalnego. Można jednak zauważyć, szczególnie w zbiorze testowym, że różnica błędu i współczynnika determinacji między tym modelem a takim, w którym usunięto aż 8 zmiennych (testowe R2=45,0%) jest nieznaczna, natomiast dalej wzrost błędu jest wyraźniejszy przynajmniej w jednym z podzbiorów danych. Zdecydowano się zatem poddać dalszej analizie model z 9 zmiennymi (po redukcji pozostałych 8) jako zapewniający zadowalającą dokładność przy wyraźnie ograniczonej liczbie wejść. Na schemacie tej sieci, przedstawionym na Rys. 5.3, można zauważyć, że w tym przypadku każde wejście posiada przynajmniej jedną wagę o relatywnie wysokiej, niezaniedbywanej wartości. Na podstawie schematu można również wyciągnąć pewne wstępne wnioski odnośnie wpływu poszczególnych wejść na wynik prognozy np.:

• Wiek wpływa ujemnie na wynik prognozy (u starszych pacjentów należy się spodziewać gorszego efektu leczenia w 1. roku), ponieważ wagi w 2 warstwach mają przeciwne znaki.

• Dla pacjentów z wyższą masą ciała prognoza jest lepsza niż dla dzieci szczuplejszych o tym samym wzroście.

Rys. 5.3: Schemat NID sieci MLP 9:9-2-1:1 uzyskanej w wyniku

redukcji zmiennych wejściowych w MLP 17:17-2-1:1.

Aby dokładniej zbadać znaczenie poszczególnych zmiennych obliczono dla nich wskaźniki wpływu, opisane w podrozdziale 4.3.6.2. Wpływ wyrażono w procentach przez przeskalowanie wartości poszczególnych wskaźników tak, aby suma ich wartości bezwzględnych po wszystkich zmiennych wynosiła 100%, a następnie wynik przedstawiono

w formie wykresu na Rys. 5.4. W przypadku wskaźnika overall connections (ROC) ujemne wartości oznaczono przez zakreskowanie odpowiedniego słupka. Wskaźnik oparty o macierz wrażliwości (RSM) został obliczono osobno dla każdego z podzbiorów danych, jednak jak można zauważyć jego wartości są niemal identyczne we wszystkich 3 przypadkach.

Mimo różnic w wartościach poszczególnych wskaźników za najistotniejsze zmienne w tym modelu należałoby uznać wiek w momencie rozpoczęcia leczenia oraz masę ciała dziecka. Dość znaczny wpływ dawki leku wskazuje na możliwość regulacji odpowiedzi na leczenie przez właściwe jej dobranie, natomiast zauważalny udział wzrostu ojca w wyniku prawdopodobnie odzwierciedla rolę czynników genetycznych w procesie wzrastania. Najbardziej niejednoznaczny wynik otrzymano dla zmiennej odzwierciedlającej płeć dziecka; większość wskaźników wydaje się wskazywać na jej istotną rolę, natomiast Overall

Connections wręcz przeciwnie, co może wynikać z faktu, że ROC w przeciwieństwie do RG

i RLG uwzględnia nie tylko wartość, ale również znak wag. Na podstawie ROC można również przynajmniej wstępnie wskazać, że wiek, IGF-I SDS i zmiana SDS wzrostu przed leczeniem wpływają ujemnie na wynik leczenia tzn. pacjenci starsi, z wyższym IGF-I oraz rosnący szybciej przed leczeniem odpowiedzą na leczenie gorzej niż dzieci młodsze, z niskim IGF-I i rosnące wolno. Dodatni wpływ na leczenie ma natomiast wzrost ojca, masa ciała oraz zwiększenie dawki rhGH.

Rys. 5.4: Wartości wskaźników wpływu poszczególnych zmiennych na prognozę wzrastania w 1. roku

leczenia, uzyskaną z modelu MLP 9:9-2-1:1.

RG – wskaźnik z algorytmu Garson’a, ROC – overall connection, RLG – local gain, RSM – wskaźnik oparty o macierz wrażliwości. Zakreskowanie słupka dla ROC oznacza wartość ujemną. Przy RSM: TR oznacza zbiór

Powyższe wyniki pozwalają na stwierdzenie, które zmienne i do pewnego stopnia, w jaki sposób regulują odpowiedź na leczenie dziecka rhGH, jednak nie można na ich podstawie powiedzieć, na ile badane zależności są nieliniowe. Ponieważ z przedstawionych analiz wynika, że największy wpływ na skuteczność leczenia rhGH w 1. roku ma wiek dziecka, jego wpływ został przeanalizowany jako pierwszy. Na Rys. 5.5 pokazano prognozowaną odpowiedź na leczenie w zależności od wieku pacjenta w okresie przedpokwitaniowym. Uwzględniono kilka różnych, stosowanych w praktyce dawek rhGH, ponieważ przez ich wybór lekarz może wpłynąć na wynik terapii. Oddzielnie pokazano wynik dla dzieci różnych płci. Wartości pozostałych zmiennych ustalono na poziomie średniej dla całego zbioru, co odnosi się również do kolejnych podobnych wykresów, o ile wyraźnie nie zaznaczono inaczej. Zgodnie z przewidywaniami leczenie okazuje się najskuteczniejsze, gdy podejmie się je u młodszych dzieci, przy czym efekt jest nieco silniej widoczny u chłopców niż u dziewcząt. U starszych dzieci prognozę do pewnego stopnia poprawia podniesienie dawki leku, ale u dziewcząt i ten efekt staje się mniej znaczący wraz z wiekiem.

Rys. 5.5: Zależność prognozowanej skuteczności leczenia w 1. roku (P H SDS V1) od wieku dziecka i dawki leku, sieć MLP 9:9-2-1:1.

Kolejną istotną zmienną była masa ciała dzieci, przy czym w tym przypadku poprzednie analizy wskazywały na lepszą skuteczność leczenia u dzieci z wyższą masą ciała (w odniesieniu do wzrostu) i faktycznie taki wynik został potwierdzony (Rys. 5.6). Po raz kolejny zwraca uwagę nieliniowy charakter zależności oraz różnice występujące między dziećmi różnych płci. U dziewcząt wpływ masy ciała wydaje się bardziej zależny od wieku: u młodszych jest zdecydowanie silniejszy niż u rówieśników płci przeciwnej, natomiast u starszych słabszy.

Rys. 5.6: Zależność P H SDS V1 od masy ciała i wieku dziecka, sieć MLP 9:9-2-1:1.

W dalszej kolejności postanowiono zbadać znaczenie 2 zmiennych bardziej bezpośrednio związanych ze wzrastaniem pacjenta, czyli zmian SDS wzrostu przed leczeniem (H SDS V0) oraz SDS stężenia IGF-I (odpowiednio Rys. 5.7 i Rys. 5.8). W obu przypadkach ponownie zdecydowano się na prezentację wyniku dla pacjentów w różnym wieku ze względu na wykazane wyżej znaczenie tej zmiennej. Zauważono ujemny wpływ obu powyższych parametrów na skuteczność leczenia. Najlepszego skutku terapii w 1. roku należy się spodziewać u dzieci, które przed leczeniem rosły najwolniej i miały najbardziej obniżone stężenie IGF-I.

Rys. 5.8: Zależność P HS DS V1 od stężenia IGF-I i wieku, sieć MLP 9:9-2-1:1.

Zależność skuteczności leczenia od IGF-I i wzrastania przed leczeniem można tłumaczyć stwierdzeniem, że terapia najlepiej działa u tych dzieci, u których wzrastanie i związana z nim oś hormonalna (tu reprezentowana przez stężenie IGF-I) wykazują największe zaburzenia. Wyjaśnienie wpływu masy ciała czy wieku na efekt terapii rhGH w 1. roku jej trwania wydaje się natomiast zagadnieniem bardziej złożonym i wymagającym szerszego odniesienia do literatury, stąd zdecydowano zająć się nim w rozdziale Dyskusja i wnioski.

W dokumencie Index of /rozprawy2/11269 (Stron 90-98)