NOWE PROCEDURY TWORZENIA MODELI WIRTUALNYCH DLA POTRZEB MEDYCYNY

(1)

POLITECHNIKA POZNAŃSKA

WYDZIAŁ MASZYN ROBOCZYCH I TRANSPORTU KATEDRA INŻYNIERII WIRTUALNEJ

Autor: mgr inż. Dominik Gaweł

NOWE PROCEDURY TWORZENIA MODELI WIRTUALNYCH DLA POTRZEB MEDYCYNY

KLINICZNEJ

ROZPRAWA DOKTORSKA

Promotor: dr hab. inż. Michał Nowak, prof. Politechniki Poznańskiej

Poznań 2017

(2)

(3)

Składam serdeczne podziękowania:

Rodzinie za cierpliwość i wsparcie.

Promotorowi za cenne rady i dyskusje.

Specjalistom Uniwersytetu Medycznego im. Karola Marcinkowskiego w Poznaniu za wsparcie merytoryczne.

Pracownikom Katedry Inżynierii Wirtu-

alnej Politechniki Poznańskiej za pomoc

oraz cenne wskazówki.

(4)

(5)

Spis treści

Streszczenie 19

1 Wstęp 21

1.1 Wprowadzenie . . . 21

1.2 Omówienie rozdziałów pracy . . . 23

2 Aktualny stan wiedzy 27 2.1 Diagnostyka obrazowa . . . 27

2.2 Klasyfikacja obiektów . . . 29

2.3 Segmentacja danych . . . 31

2.4 Budowa modeli wirtualnych . . . 32

2.5 Wizualizacja osiowa kręgosłupa . . . 33

2.6 Trójwymiarowa wizualizacja danych medycznych . . . 34

3 Cel i zakres pracy 37 4 Podstawy teoretyczne 41 4.1 Sieci neuronowe . . . 41

4.1.1 Geneza sieci neuronowych . . . 41

4.1.2 Architektura sieci neuronowych . . . 42

4.1.3 Uczenie sieci neuronowej . . . 44

4.2 Konwolucyjne sieci neuronowe . . . 45

4.2.1 Charakterystyczne właściwości Konwolucyjnych Sieci Neurono-

wych . . . 47

(6)

4.2.2 Budowa Konwolucyjnych Sieci Neuronowych . . . 49

4.2.3 Uczenie Konwolucyjnej Sieci Neuronowej . . . 53

4.2.4 Optymalizacja funkcji kosztu . . . 53

4.3 Model Aktywnego Wyglądu . . . 62

4.3.1 Model kształtu . . . 62

4.3.2 Modelowanie wyglądu . . . 63

4.3.3 Analiza obrazu z wykorzystaniem modelu aktywnego wyglądu . 66 4.3.4 Iteracyjna metoda rozwiązania problemu optymalizacji . . . 67

4.3.5 Optymalizacja funkcji kosztu . . . 68

5 Opracowane procedury 75 5.1 Automatyzacja tworzenia modeli wirtualnych z Rezonansu Magnetycz- nego . . . 75

5.1.1 Wejście . . . 77

5.1.2 Filtracja wstępna . . . 78

5.1.3 Detekcja obiektów na obrazach Rezonansu Magnetycznego . . . 78

5.1.4 Segmentacja tkanek na obrazach Rezonansu Magnetycznego . . 84

5.1.5 Budowa modeli trójwymiarowych . . . 88

5.2 Specjalistyczne metody pomiarowe w przygotowaniu przedoperacyjnym 89 5.2.1 Rozszerzona wizualizacja osiowa kręgosłupa . . . 89

5.2.2 Dostępna trójwymiarowa wizualizacja danych medycznych . . . 94

6 Badania numeryczne 99 6.1 Automatyzacja tworzenia modeli wirtualnych z Rezonansu Magnetycz- nego . . . 99

6.1.1 Detekcja obiektów z Rezonansu Magnetycznego . . . 99

6.1.2 Segmentacja tkanek na obrazach Rezonansu Magnetycznego . . 103

6.1.3 Całościowa Funkcja Odkształcenia . . . 105

6.1.4 Lokalna Funkcja Odkształcenia . . . 110

6.1.5 Analiza generalizacji wybranego rozwiązania . . . 115

6.2 Specjalistyczne metody pomiarowe w przygotowaniu przedoperacyjnym 119

(7)

6.2.1 Rozszerzona wizualizacja osiowa kręgosłupa . . . 119

6.2.2 Dostępna trójwymiarowa wizualizacja danych medycznych . . . 121

7 Praktyczne zastosowanie 123 7.1 Automatyzacja tworzenia modeli wirtualnych z Rezonansu Magnetycz- nego . . . 123

7.1.1 Dane wejściowe . . . 123

7.1.2 Filtracja wstępna . . . 123

7.1.3 Detekcja obiektów z Rezonansu Magnetycznego . . . 124

7.1.4 Segmentacja tkanek z Rezonansu Magnetycznego . . . 125

7.1.5 Budowa modelu trójwymiarowego . . . 128

7.1.6 Kliniczne zastosowanie wirtualnych modeli segmentu ruchowego 129 7.2 Specjalistyczne metody pomiarowe w przygotowaniu przedoperacyjnym 131 7.2.1 Rozszerzona wizualizacja osiowa kręgosłupa . . . 131

7.2.2 Dostępna trójwymiarowa wizualizacja danych medycznych . . . 136

8 Dyskusja i wnioski 139 8.1 Automatyzacja tworzenia modeli wirtualnych z Rezonansu Magnetycz- nego . . . 139

8.2 Specjalistyczne metody pomiarowe w przygotowaniu przedoperacyjnym 144 8.2.1 Rozszerzona wizualizacja osiowa kręgosłupa . . . 144

8.2.2 Dostępna trójwymiarowa wizualizacja danych medycznych . . . 145

9 Podsumowanie 147 9.1 Automatyzacja tworzenia modeli wirtualnych z Rezonansu Magnetycz- nego . . . 150

9.2 Specjalistyczne metody pomiarowe w przygotowaniu przedoperacyjnym 151 9.2.1 Rozszerzona Wizualizacja Osiowa Kręgosłupa . . . 151

9.2.2 Dostępna trójwymiarowa wizualizacja danych medycznych . . . 151

A Szczegółowe wyniki badań numerycznych 153

A.1 Całościowa Funkcja Odkształcenia . . . 153

(8)

A.2 Lokalna Funkcja Odkształcenia . . . 183

B Tabele 215

Wykaz symboli 249

Wykaz skrótów 253

Bibliografia 255

(9)

Spis rysunków

4-1 Schemat pojedynczego perceptronu . . . 42

4-2 Architektura Sieci Neuronowych . . . 43

4-3 Przebieg sigmoidalnej funkcji aktywacyjnej . . . 44

4-4 Przykład dwuwymiarowej konwolucji bez odwracania jądra . . . 47

4-5 Przykład działania zasady rzadkiej interakcji (1) . . . 48

4-6 Przykład działania zasady rzadkiej interakcji (2) . . . 48

4-7 Przykład działania zasady rzadkiej interakcji (3) . . . 48

4-8 Przykład działania zasady dzielenia parametrów . . . 49

4-9 Różne metody opisu budowy Konwolucyjnej Sieci Neuronowej . . . 50

4-10 Przykład tworzenia map aktywacji w procesie mnożenia splotowego . . 51

4-11 Przykład działania metody maksymalnego podziału . . . 52

4-12 Poszukiwanie minimum globalnego funkcji celu 𝑓 (𝜃) . . . 54

4-13 Przebieg kolejnych kroków uzyskanych metodą Gradientu Prostego . . . 55

4-14 Przebieg kroków uzyskanych metodą Stochastycznego Gradientu Prostego 56 4-15 Metoda wyznaczania kroku rzeczywistego algorytmem Momentum . . . 57

4-16 Przebieg kolejnych kroków wykorzystujących metodę Momentum . . . . 58

4-17 Metoda wyznaczania Przyśpieszonego Gradientu Nesterov’a . . . 58

5-1 Ogólny schemat blokowy opracowanej metody . . . 76

5-2 Przykładowe obrazy standardowych badań MRI . . . 77

5-3 Schemat blokowy opracowanej metody filtracji wstępnej . . . 79

5-4 Skalowanie i wysokiej rozdzielczości interpolacja bikubiczna . . . 80

5-5 Zaimplementowana głęboka Konwolucyjna Sieć Neuronowa . . . 81

(10)

5-6 Proces implementacji Konwolucyjnej Sieci Neuronowej . . . 82

5-7 Baza danych wykorzystana do uczenia modelu klasyfikacji . . . 83

5-8 Proces implementacji Modelu Aktywnego Wyglądu . . . 85

5-9 Obrazy z ręcznie oznaczonymi cechami charakterystycznymi . . . 87

5-10 Wyznaczanie geometrycznego środka trzonu kręgu z CT . . . 90

5-11 Wyznaczanie geometrycznego środka trzonu kręgu z DRR . . . 90

5-12 Rozszerzona Prezentacja Osiowa Kręgosłupa . . . 91

5-13 Schemat blokowy Cyfrowo Zrekonstruowanego Radiogramu . . . 93

5-14 Budowa Cyfrowo Zrekonstruowanego Radiogramu . . . 94

5-15 Schemat działania algorytmu dostępnej trójwymiarowej wizualizacji . . 95

5-16 Geometria tkanek w formacie STL . . . 96

5-17 Obiekt trójwymiarowy zakotwiczony w scenie . . . 97

5-18 Interaktywny plik .pdf z zagnieżdżoną geometrią trójwymiarową . . . . 98

6-1 Porównanie skuteczności różnych algorytmów optymalizacji . . . 100

6-2 Skuteczności klasyfikacji dla obliczeń na CPU . . . 101

6-3 Skuteczności klasyfikacji dla obliczeń na GPU . . . 101

6-4 Porównanie czasu 200 epok dla CPU i GPU . . . 102

6-5 Porównanie czasu uczenia zaimplementowanej CNN dla CPU i GPU . . 102

6-6 Średnia Frakcja Fałszywa Algorytmów Kompozycji Przedniej dla Ca- łościowej Funkcji Odkształcenia . . . 106

6-7 Średnia Frakcja Prawdziwie Pozytywna Algorytmów Kompozycji Przed- niej dla Całościowej Funkcji Odkształcenia . . . 107

6-8 Średnia Frakcja Fałszywie Negatywna Algorytmów Kompozycji Przed- niej dla Całościowej Funkcji Odkształcenia . . . 107

6-9 Średnia Frakcja Fałszywa Algorytmów Kompozycji Odwrotnej dla Ca- łościowej Funkcji Odkształcenia . . . 109

6-10 Średnia Frakcja Prawdziwie Pozytywna Algorytmów Kompozycji Od-

wrotnej dla Całościowej Funkcji Odkształcenia . . . 109

(11)

6-11 Średnia Frakcja Fałszywie Negatywna Algorytmów Kompozycji Od-

wrotnej dla Całościowej Funkcji Odkształcenia . . . 110

6-12 Średnia Frakcja Fałszywa Algorytmów Kompozycji Przedniej dla Lo- kalnej Funkcji Odkształcenia . . . 111

6-13 Średnia Frakcja Prawdziwie Pozytywna Algorytmów Kompozycji Przed- niej dla Lokalnej Funkcji Odkształcenia . . . 112

6-14 Średnia Frakcja Fałszywie Negatywna Algorytmów Kompozycji Przed- niej dla Lokalnej Funkcji Odkształcenia . . . 112

6-15 Średnia Frakcja Fałszywa Algorytmów Kompozycji Odwrotnej dla Lo- kalnej Funkcji Odkształcenia . . . 114

6-16 Średnia Frakcja Prawdziwie Pozytywna Algorytmów Kompozycji Od- wrotnej dla Lokalnej Funkcji Odkształcenia . . . 114

6-17 Średnia Frakcja Fałszywie Negatywna Algorytmów Kompozycji Od- wrotnej dla Lokalnej Funkcji Odkształcenia . . . 115

6-18 Porównanie Cyfrowo Rekonstruowanego Radiogramu z Radiogramami Komputerowymi . . . 120

6-19 Porównanie dokładności wizualizacji modeli trójwymiarowych . . . 122

7-1 Korekcja niejednorodności nasycenia . . . 124

7-2 Wyniki detekcji kręgów na obrazach uzyskanych metodą Rezonansu Magnetycznego . . . 126

7-3 Rezultat lokalizacji cech charakterystycznych . . . 127

7-4 Interpolacja przy pomocy dośrodkowych krzywych Catmull-Rom . . . . 127

7-5 Dyskretny model trójwymiarowy . . . 128

7-6 Parametryczny model trójwymiarowy . . . 129

7-7 Trójwymiarowy model geometryczny segmentu ruchowego . . . 130

7-8 Przedoperacyjny Cyfrowo Zrekonstruowany Radiogram . . . 132

7-9 Pooperacyjna wizualizacja uzyskanej korekcji . . . 133

7-10 Badanie Tomografii Komputerowej . . . 134

7-11 Rezultat Cyfrowo Rekonstruowanego Radiogramu . . . 134

(12)

7-12 Dane MRI i RTG . . . 135

7-13 Cyfrowo Rekonstruowany Radiogram z MRI . . . 136

7-14 Pomiary powszechnie wykorzystywane w trakcie operacji skoliozy . . . 137

7-15 Porównanie przedoperacyjnego skrzywienia i uzyskanej korekcji . . . 138

A-1 Frakcja Prawdziwie Pozytywna dla Całościowego WFC . . . 155

A-2 Frakcja Fałszywie Negatywna dla Całościowego WFC . . . 155

A-3 Frakcja Fałszywa dla Całościowego WFC . . . 156

A-4 Frakcja Prawdziwie Pozytywna dla Całościowego SFC . . . 158

A-5 Frakcja Fałszywie Negatywna dla Całościowego SFC . . . 158

A-6 Frakcja Fałszywa dla Całościowego SFC . . . 159

A-7 Frakcja Prawdziwie Pozytywna dla Całościowego POFC . . . 161

A-8 Frakcja Fałszywie Negatywna dla Całościowego POFC . . . 161

A-9 Frakcja Fałszywa dla Całościowego POFC . . . 162

A-10 Frakcja Prawdziwie Pozytywna dla Całościowego AFC . . . 164

A-11 Frakcja Fałszywie Negatywna dla Całościowego AFC . . . 164

A-12 Frakcja Fałszywa dla Całościowego AFC . . . 165

A-13 Frakcja Prawdziwie Pozytywna dla Całościowego MAFC . . . 167

A-14 Frakcja Fałszywie Negatywna dla Całościowego MAFC . . . 167

A-15 Frakcja Fałszywa dla Całościowego MAFC . . . 168

A-16 Frakcja Prawdziwie Pozytywna dla Całościowego WIC . . . 170

A-17 Frakcja Fałszywie Negatywna dla Całościowego WIC . . . 170

A-18 Frakcja Fałszywa dla Całościowego WIC . . . 171

A-19 Frakcja Prawdziwie Pozytywna dla Całościowego SIC . . . 173

A-20 Frakcja Fałszywie Negatywna dla Całościowego SIC . . . 173

A-21 Frakcja Fałszywa dla Całościowego SIC . . . 174

A-22 Frakcja Prawdziwie Pozytywna dla Całościowego POIC . . . 176

A-23 Frakcja Fałszywie Negatywna dla Całościowego POIC . . . 176

A-24 Frakcja Fałszywa dla Całościowego POIC . . . 177

A-25 Frakcja Prawdziwie Pozytywna dla Całościowego AIC . . . 179

(13)

A-26 Frakcja Fałszywie Negatywna dla Całościowego AIC . . . 179

A-27 Frakcja Fałszywa dla Całościowego AIC . . . 180

A-28 Frakcja Prawdziwie Pozytywna dla Całościowego MAIC . . . 182

A-29 Frakcja Fałszywie Negatywna dla Całościowego MAIC . . . 182

A-30 Frakcja Fałszywa dla Całościowego MAIC . . . 183

A-31 Frakcja Prawdziwie Pozytywna dla Lokalnego WFC . . . 185

A-32 Frakcja Fałszywie Negatywna dla Lokalnego WFC . . . 185

A-33 Frakcja Fałszywa dla Lokalnego WFC . . . 186

A-34 Frakcja Prawdziwie Pozytywna dla Lokalnego SFC . . . 188

A-35 Frakcja Fałszywie Negatywna dla Lokalnego SFC . . . 188

A-36 Frakcja Fałszywa dla Lokalnego SFC . . . 189

A-37 Frakcja Prawdziwie Pozytywna dla Lokalnego POFC . . . 191

A-38 Frakcja Fałszywie Negatywna dla Lokalnego POFC . . . 191

A-39 Frakcja Fałszywa dla Lokalnego POFC . . . 192

A-40 Frakcja Prawdziwie Pozytywna dla Lokalnego AFC . . . 194

A-41 Frakcja Fałszywie Negatywna dla Lokalnego AFC . . . 194

A-42 Frakcja Fałszywa dla Lokalnego AFC . . . 195

A-43 Frakcja Prawdziwie Pozytywna dla Lokalnego MAFC . . . 197

A-44 Frakcja Fałszywie Negatywna dla Lokalnego MAFC . . . 197

A-45 Frakcja Fałszywa dla Lokalnego MAFC . . . 198

A-46 Frakcja Prawdziwie Pozytywna dla Lokalnego WIC . . . 200

A-47 Frakcja Fałszywie Negatywna dla Lokalnego WIC . . . 200

A-48 Frakcja Fałszywa dla Lokalnego WIC . . . 201

A-49 Frakcja Prawdziwie Pozytywna dla Lokalnego SIC . . . 203

A-50 Frakcja Fałszywie Negatywna dla Lokalnego SIC . . . 203

A-51 Frakcja Fałszywa dla Lokalnego SIC . . . 204

A-52 Frakcja Prawdziwie Pozytywna dla Lokalnego POIC . . . 206

A-53 Frakcja Fałszywie Negatywna dla Lokalnego POIC . . . 206

A-54 Frakcja Fałszywa dla Lokalnego POIC . . . 207

A-55 Frakcja Prawdziwie Pozytywna dla Lokalnego AIC . . . 209

(14)

A-56 Frakcja Fałszywie Negatywna dla Lokalnego AIC . . . 209

A-57 Frakcja Fałszywa dla Lokalnego AIC . . . 210

A-58 Frakcja Prawdziwie Pozytywna dla Lokalnego MAIC . . . 212

A-59 Frakcja Fałszywie Negatywna dla Lokalnego MAIC . . . 212

A-60 Frakcja Fałszywa dla Lokalnego MAIC . . . 213

(15)

Spis tabel

6.1 Skuteczności klasyfikacji dla obliczeń na GPU . . . 100

6.2 Porównanie wartości Frakcji Algorytmów Kompozycji Przedniej dla Całościowej Funkcji Odkształcenia . . . 106

6.3 Porównanie wartości Frakcji Algorytmów Kompozycji Odwrotnej dla Całościowej Funkcji Odkształcenia . . . 108

6.4 Porównanie wartości Frakcji Algorytmów Kompozycji Przedniej dla Lo- kalnej Funkcji Odkształcenia . . . 111

6.5 Porównanie wartości Frakcji Algorytmów Kompozycji Odwrotnej dla Lokalnej Funkcji Odkształcenia . . . 113

6.6 Porównanie wartości Frakcji średnich Lokalnego WIC . . . 116

6.7 Porównanie wartości Frakcji średnich Eksperta 1 . . . 116

6.8 Porównanie wartości Frakcji średnich Eksperta 2 . . . 116

6.9 Porównanie wartości Frakcji średnich Eksperta 3 . . . 116

6.10 Porównanie wartości Frakcji średnich Eksperta 4 . . . 117

6.11 Porównanie wartości Frakcji średnich Eksperta 5 . . . 117

6.12 Współczynnik Korelacji Wewnątrzklasowej pojedynczych pomiarów . . 117

6.13 Współczynnik Korelacji Wewnątrzklasowej średnich pomiarów . . . 118

6.14 Porównanie wartości Frakcji dla Walidacji Krzyżowej WIC . . . 118

6.15 Właściwości kręgów poddanych analizie. K - kobieta, M - mężczyzna. . 119

6.16 Porównanie dokładności wizualizacji modeli trójwymiarowych . . . 121

7.1 Wyniki pomiarów kręgosłupa wykorzystywanych w operacji skoliozy . . 137

A.1 Porównanie wartości Frakcji Całościowego WFC . . . 154

(16)

A.2 Porównanie wartości Frakcji Całościowego SFC . . . 157

A.3 Porównanie wartości Frakcji Całościowego POFC . . . 160

A.4 Porównanie wartości Frakcji Całościowego AFC . . . 163

A.5 Porównanie wartości Frakcji Całościowego MAFC . . . 166

A.6 Porównanie wartości Frakcji Całościowego WIC . . . 169

A.7 Porównanie wartości Frakcji Całościowego SIC . . . 172

A.8 Porównanie wartości Frakcji Całościowego POIC . . . 175

A.9 Porównanie wartości Frakcji Całościowego AIC . . . 178

A.10 Porównanie wartości Frakcji Całościowego MAIC . . . 181

A.11 Porównanie wartości Frakcji Lokalnego WFC . . . 184

A.12 Porównanie wartości Frakcji Lokalnego SFC . . . 187

A.13 Porównanie wartości Frakcji Lokalnego POFC . . . 190

A.14 Porównanie wartości Frakcji Lokalnego AFC . . . 193

A.15 Porównanie wartości Frakcji Lokalnego MAFC . . . 196

A.16 Porównanie wartości Frakcji Lokalnego WIC . . . 199

A.17 Porównanie wartości Frakcji Lokalnego SIC . . . 202

A.18 Porównanie wartości Frakcji Lokalnego POIC . . . 205

A.19 Porównanie wartości Frakcji Lokalnego AIC . . . 208

A.20 Porównanie wartości Frakcji Lokalnego MAIC . . . 211

B.1 Porównanie wartości Frakcji dla iteracji algorytmu Całościowego WFC 216

B.2 Porównanie wartości Frakcji dla iteracji algorytmu Całościowego SFC . 217

B.3 Porównanie wartości Frakcji dla iteracji algorytmu Całościowego POFC 218

B.4 Porównanie wartości Frakcji dla iteracji algorytmu Całościowego AFC . 219

B.5 Porównanie wartości Frakcji dla iteracji algorytmu Całościowego MAFC 220

B.6 Porównanie wartości Frakcji dla iteracji algorytmu Całościowego WIC . 221

B.7 Porównanie wartości Frakcji dla iteracji algorytmu Całościowego SIC . 222

B.8 Porównanie wartości Frakcji dla iteracji algorytmu Całościowego POIC 223

B.9 Porównanie wartości Frakcji dla iteracji algorytmu Całościowego AIC . 224

B.10 Porównanie wartości Frakcji dla iteracji algorytmu Całościowego MAIC 225

(17)

B.11 Porównanie wartości Frakcji dla iteracji algorytmu Lokalnego WFC . . 226 B.12 Porównanie wartości Frakcji dla iteracji algorytmu Lokalnego SFC . . . 227 B.13 Porównanie wartości Frakcji dla iteracji algorytmu Lokalnego POFC . . 228 B.14 Porównanie wartości Frakcji dla iteracji algorytmu Lokalnego AFC . . . 229 B.15 Porównanie wartości Frakcji dla iteracji algorytmu Lokalnego MAFC . 230 B.16 Porównanie wartości Frakcji dla iteracji algorytmu Lokalnego WIC . . . 231 B.17 Porównanie wartości Frakcji dla iteracji algorytmu Lokalnego SIC . . . 232 B.18 Porównanie wartości Frakcji dla iteracji algorytmu Lokalnego POIC . . 233 B.19 Porównanie wartości Frakcji dla iteracji algorytmu Lokalnego AIC . . . 234 B.20 Porównanie wartości Frakcji dla iteracji algorytmu Lokalnego MAIC . . 235 B.21 Porównanie średnich wartości Frakcji Fałszywej Algorytmów Kompo-

zycji Przedniej dla Całościowej Funkcji Odkształcenia . . . 236 B.22 Porównanie średnich wartości Frakcji Prawdziwie Pozytywnej Algoryt-

mów Kompozycji Przedniej dla Całościowej Funkcji Odkształcenia . . . 237 B.23 Porównanie średnich wartości Frakcji Fałszywie Negatywnej Algoryt-

mów Kompozycji Przedniej dla Całościowej Funkcji Odkształcenia . . . 238 B.24 Porównanie średnich wartości Frakcji Fałszywej Algorytmów Kompo-

zycji Odwrotnej dla Całościowej Funkcji Odkształcenia . . . 239 B.25 Porównanie średnich wartości Frakcji Prawdziwie Pozytywnej Algoryt-

mów Kompozycji Odwrotnej dla Całościowej Funkcji Odkształcenia . . 240 B.26 Porównanie średnich wartości Frakcji Fałszywie Negatywnej Algoryt-

mów Kompozycji Odwrotnej dla Całościowej Funkcji Odkształcenia . . 241 B.27 Porównanie średnich wartości Frakcji Fałszywej Algorytmów Kompo-

zycji Przedniej dla Lokalnej Funkcji Odkształcenia . . . 242 B.28 Porównanie średnich wartości Frakcji Prawdziwie Pozytywnej Algoryt-

mów Kompozycji Przedniej dla Lokalnej Funkcji Odkształcenia . . . 243 B.29 Porównanie średnich wartości Frakcji Fałszywie Negatywnej Algoryt-

mów Kompozycji Przedniej dla Lokalnej Funkcji Odkształcenia . . . 244 B.30 Porównanie średnich wartości Frakcji Fałszywej Algorytmów Kompo-

zycji Odwrotnej dla Lokalnej Funkcji Odkształcenia . . . 245

(18)

B.31 Porównanie średnich wartości Frakcji Prawdziwie Pozytywnej Algoryt- mów Kompozycji Odwrotnej dla Lokalnej Funkcji Odkształcenia . . . . 246 B.32 Porównanie średnich wartości Frakcji Fałszywie Negatywnej Algoryt-

mów Kompozycji Odwrotnej dla Lokalnej Funkcji Odkształcenia . . . . 247

(19)

Streszczenie

W rozprawie przedstawiono metodę automatycznego tworzenia modeli wirtualnych z danych uzyskanych metodą Rezonansu Magnetycznego. Ze względu na ścisłą współ- pracę z Kliniką Chorób Kręgosłupa i Ortopedii Dziecięcej Uniwersytetu Medycznego im. Karola Marcinkowskiego w Poznaniu w pracy jako przypadek testowy wybrano wizualizację kolumny przedniej kręgosłupa. Dostępna niska jakość danych wejściowych wymusiła wprowadzenie filtracji wstępnej składającej się ze skalowania, interpolacji oraz opracowanej metody korekcji niejednorodności nasycenia dla obrazów kręgosłupa uzyskanych metodą Rezonansu Magnetycznego.

Kolejny etap prac skupił się na automatycznej detekcji obiektów na obrazach Re- zonansu Magnetycznego. W tym celu wykorzystano metody głębokiego uczenia oparte na Konwolucyjnych Sieciach Neuronowych uzyskując skuteczność na poziomie 99.06%.

Dalej wprowadzono metodę automatycznej segmentacji tkanek na obrazach z Re- zonansu Magnetycznego wykorzystującą metody Uczenia Maszynowego. Do tego celu wykorzystano Model Aktywnego Wyglądu służący do znajdowania cech charakte- rystycznych. Interpolacja informacji pomiędzy cechami charakterystycznymi pozwala uzyskać skuteczność segmentacji na poziomie 91.37% w stosunku do segmentacji ręcz- nej.

Ostatecznie w celu rozszerzenia możliwości diagnostycznych przedstawiono metodę budowy trójwymiarowych modeli tkanek opartych na uzyskanych wynikach automa- tycznej segmentacji. Wykorzystując cechy charakterystyczne i interpolowaną informa- cję o granicach tkanek tworzony jest model dyskretny (STL) oraz model parametrycz- ny (IGES).

Dodatkowo wraz z Kliniką Chorób Kręgosłupa i Ortopedii Dziecięcej Uniwersy-

tetu Medycznego im. Karola Marcinkowskiego w Poznaniu opracowano metodę Roz-

szerzonej Wizualizacji Osiowej Kręgosłupa. W metodzie wykorzystano przygotowany

wcześniej algorytm tworzenia Cyfrowo Rekonstruowanego Radiogramu.

(20)

Summary

The work presents new method of automatic creation of virtual models from Magnetic Resonance Imaging. Because of cooperation with the Department of Spine Disorders and Pediatric Orthopedics of Poznan University of Medical Sciences the main goal of this work was to visualize the spine’s frontal column. Low quality of the input data for- ced an introduction of initial filtration consisting of resolution increase, interpolation and usage of developed intensity inhomogeneity correction algorithm.

The next stage consisted of automatic object detection from Magnetic Resonance Imaging. To achieve the best performance Deep Learning methods were implemented.

Created Convolutional Neural Networks properly classified images achieving 99.06%

performance.

Furthermore a method for automatic tissue segmentation from Magnetic Reso- nance Imaging using Machine Learning Techniques was introduced. Usage of Active Appearance Model for landmark localization allowed proper determining of vertebrae characteristic features. The information between the features was interpolated with centripetal Catmull-Rom splines achieving a segmentation performance of 91.37%

comparing to manual segmentation.

Finally on the basis of achieved segmentation results a method for creation of three-dimensional tissue models was developed. Usage of automatically determined characteristic features allowed proper interpolation of tissue boundaries. On this basis 3D discrete (STL) models and parametrical (IGES) models are created.

Additionally in cooperation with the Department of Spine Disorders and Pedia-

tric Orthopedics of Poznan University of Medical Sciences an Improved Spine Axial

Presentation was presented. The method used prepared earlier algorithm for creating

Digitally Reconstructed Radiograph.

(21)

Rozdział 1 Wstęp

1.1 Wprowadzenie

Gwałtowny rozwój metod obrazowania medycznego w ostatnich latach, w szczegól- ności wzrastające wykorzystanie niskodawkowych Tomografów Komputerowych (CT) oraz nieinwazyjnego obrazowania Rezonansu Magnetycznego (MRI) sprawiają, że ilość wykonywanych badań obrazowych z roku na rok rośnie. Wzrost ilości badań obrazo- wych połączony ze wzrostem mocy obliczeniowej i możliwości współczesnych kompu- terów oraz związany z tym rozwój algorytmów przetwarzania informacji, tworzy realne zapotrzebowanie i pozwala na automatyczną analizę, interpretację oraz wymianę da- nych medycznych [47, 218].

Ogólnodostępne oprogramowanie (np. 3DSlicer [160], Osirix [165], 3D-Doctor [211]) pozwala co prawda na odczyt płaskich obrazów medycznych oraz trójwymiarową re- konstrukcję informacji, jednak wykorzystywane algorytmy opierają się głównie na dys- kretnej, wokselowej (ang. volumetric picture element ) interpretacji danych, niewystar- czającej dla niskiej jakości badań uzyskiwanych metodą Rezonansu Magnetycznego [47, 94]. Co więcej oprogramowanie tego typu najczęściej nie pozwala na wykonywanie pomiarów lub ogranicza możliwości jedynie do wykonywania pomiarów na płaskich obrazach, co w praktyce lekarskiej może uniemożliwić uchwycenie kluczowych elemen- tów analizowanej struktury.

Badania podjęte nad nowymi procedurami tworzenia modeli wirtualnych dla po-

(22)

trzeb medycyny klinicznej zostały wykorzystane w projekcie Narodowego Centrum Badań i Rozwoju - ”Wirtualne środowisko przestrzennego obrazowania diagnostycz- nego zwiększającego dostępność do wysoko specjalistycznych procedur medycznych”

(Virdiamed, umowa nr PBS3/B9/34/2015) współrealizowanym przez: Uniwersytet Medyczny im. Karola Marcinkowskiego w Poznaniu, Katedrę Inżynierii Wirtualnej Politechniki Poznańskiej oraz klinikę Rehasport Clinic sp. z o.o. Projekt powstał ze względu na brak w obecnym systemie ochrony zdrowia w Polsce kompleksowego, powszechnie dostępnego, szybkiego systemu, umożliwiającego tworzenie wizualizacji przestrzennych tkanek, łatwe ich przesyłanie, analizę oraz wspomaganie na ich pod- stawie decyzji klinicznych.

Stosowane w codziennej praktyce klinicznej procedury medyczne powszechnie wy- korzystują, do oceny stanu zdrowia i planowania leczenia, metody Obrazowania Me- dycznego (ang. Medical Imaging) takie jak Ultrasonografia (ang. Ultrasound ), Radio- grafia Cyfrowa (ang. Digital Radiography) [52, 166, 184], Tomografia Komputerowa (ang. Computed Tomography) [29, 107] oraz Obrazowanie Rezonansu Magnetycznego (ang. Magnetic Resonance Imaging) [91, 102]. Specjalistyczne pracownie diagnostycz- ne umożliwiają wykorzystanie obrazowania metodą Tomografii Komputerowej i Rezo- nansu Magnetycznego do trójwymiarowej wizualizacji tkanek, jednak oprogramowanie pozwalające na taką wizualizację jest zwykle dedykowane dla określonej maszyny i sta- cji diagnostycznej, znacznie ograniczając możliwości diagnostyczne i nie pozwalając na eksportowanie uzyskanych wizualizacji przestrzennych poza wspomnianą stację dia- gnostyczną. Takie rozwiązanie ogranicza dostęp lekarzy do trójwymiarowych wizuali- zacji tkanek zaniżając poziom leczenia i wymuszając zatrudnienie wykwalifikowanego personelu technicznego posiadającego specjalistyczną wiedzę medyczną.

Ze względu na ścisłą współpracę z Kliniką Chorób Kręgosłupa i Ortopedii Dzie-

cięcej Ortopedyczno-Rehabilitacyjnego Szpitala Klinicznego im. W. Degi Uniwersy-

tetu Medycznego w Poznaniu w pracy skupiono się nad analizą kolumny przedniej

kręgosłupa. Dokładna analiza rozmieszczenia kręgów oraz ich deformacji ma kluczo-

we znaczenie dla bezpiecznego i prawidłowego przeprowadzenia chirurgicznej operacji

skoliozy polegającej na wszczepieniu tytanowych implantów. Regularnie wykonywane

(23)

w klinice UMP operacje ortopedyczne kręgosłupa oraz prowadzone badania o cha- rakterze podstawowym [112, 113] wykazały potrzebę wspomagania za pomocą modeli wirtualnych czynności z zakresu przygotowania, przeprowadzania i oceny efektów ope- racji [114, 115].

W pracy przedstawiono opracowaną metodę tworzenia modeli wirtualnych, na pod- stawie niskiej jakości obrazów uzyskanych metodą Rezonansu Magnetycznego [75], wykorzystującą algorytmy Uczenia Maszynowego (ang. Machine Learning) [21, 194]

i Głębokiego Uczenia (ang. Deep Learning) [86, 124, 150] do szczegółowej segmentacji tkanek i budowy trójwymiarowej geometrii.

Dodatkowo w pracy przedstawiono rozwiniętą wraz z Kliniką Chorób Kręgosłu- pa i Ortopedii Dziecięcej Uniwersytetu Medycznego im. Karola Marcinkowskiego w Poznaniu metodę wizualizacji kręgosłupa w płaszczyźnie osiowej - Prezentacja Osio- wa Kręgosłupa (ang. Spine Axial Presentation) [84]. Co więcej, ze względu na różne pozycje pacjenta podczas badań, aby dokonać prawidłowej analizy, na Politechnice Poznańskiej opracowano metodę Cyfrowo Rekonstruowanego Radiogramu (ang. Digi- tally Reconstructed Radiograph) [73] z danych Tomografii Komputerowej.

W pracy przedstawiono również opracowaną metodę dostępnej trójwymiarowej wizualizacji danych medycznych [74, 76] pozwalającą na łatwe i szybkie wyświetlanie trójwymiarowych rekonstrukcji na dowolnym komputerze i urządzeniach mobilnych oraz analizę geometryczną zrekonstruowanych tkanek.

1.2 Omówienie rozdziałów pracy

Rozprawa doktorska składa się ze streszczenia, dziewięciu rozdziałów, dwóch dodat- ków oraz spisu literatury. Streszczenia pracy dokonano zarówno w języku polskim jak i angielskim.

W pierwszym rozdziale pracy zawarto ogólne wprowadzenie do tematyki pracy, przedstawiono genezę podjętych badań oraz omówiono układ i treść pracy.

W drugim rozdziale pracy przedstawiono aktualny stan wiedzy dotyczący wyko-

rzystywanych w pracy metod. W pierwszej kolejności omówiono znane i powszechnie

(24)

wykorzystywane metody diagnostyki obrazowej. Dalej skupiono się na przeglądzie technik związanych z klasyfikacją obrazów, wskazując najnowsze osiągnięcia w tej dziedzinie. Następnie przedstawiono znane metody segmentacji danych, podstawowe metody budowy modeli wirtualnych oraz metody ich wizualizacji.

W rozdziale trzecim przedstawiono cel prowadzonych prac oraz ich zakres, sku- piono się na kluczowych elementach związanych z opracowaniem nowych procedur tworzenia modeli wirtualnych dla potrzeb medycyny klinicznej i przetestowaniem ich działania.

W rozdziale czwartym opisano podstawy teoretyczne metod wykorzystywanych w pracy. Skupiono się na szczegółowym opisie działania Sieci Neurnonowych, Konwolu- cyjnych Sieci Neuronowych oraz Modelu Aktywnego Wyglądu.

W rozdziale piątym przedstawiono opracowane rozwiązania. Na początku skupio- no się na procesie automatycznego tworzenia modeli wirtualnych z danych uzyskanych metodą Rezonansu Magnetycznego, określono rodzaj i jakość wykorzystywanych da- nych oraz metodę wstępnej filtracji, a w szczególności korekcji niejednorodności na- sycenia. Dalej przedstawiono uogólnioną procedurę segmentacji i opisano jej elemen- ty składowe, skupiono się na kluczowych fragmentach procedury takich jak detekcja i klasyfikacja obiektów na obrazach uzyskanych metodą Rezonansu Magnetycznego, szczegółowa segmentacja tkanek na obrazach uzyskanych metodą Rezonansu Magne- tycznego oraz budowa modelu trójwymiarowego. Dodatkowo w rozdziale tym opisano rozwiniętą wraz z Kliniką Chorób Kręgosłupa i Ortopedii Dziecięcej Uniwersytetu Medycznego im. Karola Marcinkowskiego w Poznaniu metodę wizualizacji kręgosłupa w płaszczyźnie osiowej, w której skład wchodzi opracowana metoda Cyfrowej Rekon- strukcji Radiogramów. Ostatecznie przedstawiono również opracowaną metodę do- stępnej trójwymiarowej wizualizacji danych medycznych.

W rozdziale szóstym zaprezentowano wyniki przeprowadzonych badań numerycz- nych i analiz statystycznych opracowanych procedur. Na ich podstawie określono sta- tystycznie najlepsze rozwiązanie przedstawionych w pracy problemów i przeanalizo- wano możliwości generalizacji tego rozwiązania na niezależne zbiory danych.

W rozdziale siódmym przedstawiono przykłady praktycznego zastosowania opra-

(25)

cowanych rozwiązań. Skupiono się głównie na sposobie działania metody automa- tycznego tworzenia modeli wirtualnych z badań uzyskanych metodą Rezonansu Ma- gnetycznego. Zaprezentowano również wykorzystanie rozszerzonej wizualizacji osiowej kręgosłupa i metody dostępnej trójwymiarowej wizualizacji danych w przygotowaniu przedoperacyjnym lekarza specjalisty.

W rozdziałach ósmym i dziewiątym podsumowano wyniki prac i wskazano dalsze kierunki rozwoju

W Dodatku A przedstawiono szczegółowe wyniki badań numerycznych przepro- wadzonych dla segmentacji Metodą Aktywnego Wyglądu z wykorzystaniem różnych algorytmów optymalizacji. Wyniki przeanalizowano i opatrzono wnioskami.

W Dodatku B przedstawiono tabele zawierające szczegółowe wyniki badań nume-

rycznych na bazie których wykonano przedstawione w pracy wykresy i tabele pozwa-

lające na porównanie wyników uzyskanych dla poszczególnych rozwiązań.

(26)

(27)

Rozdział 2

Aktualny stan wiedzy

2.1 Diagnostyka obrazowa

Diagnostyka obrazowa jest działem medycyny zajmującym się obrazowaniem ciała ludzkiego. Interpretacją wyników zajmują się wyspecjalizowani radiolodzy tworzący dokładne opisy zdjęć wraz z wstępną diagnozą.

W trakcie ostatnich dziesięcioleci techniki obrazowania medycznego uległy znacz- nemu rozwojowi, zwiększając jakość obrazowania, polepszając diagnostykę i podwyż- szając poziom leczenia [10, 28, 29, 52, 76, 91, 102, 107, 166, 184]. Dzięki wykorzystaniu zestawów płaskich przekrojów interpretowanych cyfrowo powstające techniki obrazo- wania pozwoliły na dokładną trójwymiarową wizualizację danych oraz druk 3D [136].

Osiągnięto to głównie dzięki rozwojowi technik komputerowych pozwalających na cyfrową interpretację sygnału i rekonstrukcję obrazów, prowadząc do komputerowo wspomaganej diagnostyki (ang. Computer-Aided Diagnosis) [53].

Główne techniki diagnostyki obrazowej podzielić można na: Radiografię (ang. Ra- diography) i Radiografię Cyfrową (ang. Digital Radiography) [52, 166, 184], Tomo- grafię Komputerową (ang. Computed Tomography) [29, 107], Obrazowanie Rezonansu Magnetycznego (ang. Magnetic Resonance Imaging) [91, 102], Ultrasonografię (ang.

Ultrasound ), Pozytonową Tomografię Emisyjną (ang. Positron Emissin Tomography) oraz Medycynę Nuklearną (ang. Nuclear Medicine).

Zastosowanie różnych metod obrazowania medycznego pozwala specjalistom na

(28)

obserwację morfologii struktur wewnętrznych, ich dynamiki, a nawet zachodzących procesów fizjologicznych, pomagając w diagnostyce i planowaniu zabiegów [47].

Ze względu na charakterystykę metod obrazowania i wykorzystywane przez nie zjawiska fizyczne, poszczególne metody różnią się zastosowaniem. Aktualnie najczę- sciej wykorzystywaną techniką jest Radiografia Cyfrowa pozwalająca na szybką wi- zualizację tkanek na płaskim obrazie. Do głównych zastosowań Radiografii Cyfrowej należy obrazowanie złamań i uszkodzeń kości, diagnostyka naczyń krwionośnych, płuc oraz nowotworów. Metodą wykorzystującą to samo zjawisko fizyczne, ale pozwalającą na dokładną trójwymiarową wizualizację tkanek jest Tomografia Komputerowa. Do głównych zastosowań Tomografii Komputerowej należy diagnostyka uszkodzeń tkanki kostnej, analiza układu sercowo-naczyniowego, detekcja rozmiaru i położenia tkanki nowotworowej oraz ogólnie pojęta wizualizacja objętościowa tkanek. Metodą podobną, generującą informację objętościową, jest Obrazowanie Rezonansu Magnetycznego. Do głównych zastosowań Rezonansu Magnetycznego zalicza się diagnostykę naczyń krwio- nośnych, stawów, krążków międzykręgowych oraz ogólnie pojętą wizualizację tkanek miękkich.

Wykorzystywane do obrazowania zjawiska fizyczne dzielą metody diagnostyki ob- razowej na inwazyjne i nieinwazyjne. Ze względu na stosowane w badaniach Radio- grafii Cyfrowej i Tomografii Komputerowej promieniowanie Roentgena, metody te zaliczyć można do technik inwazyjnych. Co więcej badanie Tomografii Komputerowej (przenoszące dokładniejszą informację objętościową), naraża pacjenta na wielokrotnie większą dawkę promieniowania jonizującego w stosunku do standardowego badania radiologicznego [27, 183]. Odmienną metodą jest Obrazowanie Rezonansu Magnetycz- nego wykorzystujące promieniowanie elektromagnetyczne. Obrazowanie Rezonansu Magnetycznego jest badaniem nieinwazyjnym, jednak uzyskiwana jakość obrazowania jest gorsza w porównaniu do Tomografii Komputerowej.

W [47] podzielono obrazy medyczne na dwie grupy ze względu na jakość. Pierw-

szą grupą są obrazy o niższej jakości cechujące się szumem (ang. noise) oraz mniejszą

rozdzielczością, do których zaliczone zostały m.in. Ultrasonografia i część obrazów Re-

zonansu Magnetycznego. Drugą grupę stanowią obrazy o wyższej jakości, do których

(29)

zaliczono obrazy głowy i układu nerwowego uzyskane metodą Rezonansu Magnetycz- nego, Tomografię Komputerową oraz Radiografię Cyfrową.

W [47] wyróżniono również trzy poziomy komputerowego przetwarzania obrazów:

niski (redukcja szumu, kontrastu, wyostrzanie), średni (segmentacja. zmiany repre- zentacji, opis) oraz wysoki (interpretacja obrazu).

Zgodnie z przedstawionymi podziałami, w pracy poruszono tematykę komputero- wego przetwarzania obrazów o niższej jakości.

2.2 Klasyfikacja obiektów

Zadaniem procesu detekcji obiektów jest określenie położenia obiektów na poszczegól- nych obrazach i wskazanie wykorzystywanych do dalszej analizy obszarów zaintereso- wania (ang. region of interest, skr. ROI). Automatyczna detekcja obiektów jest jed- nym z podstawowych problemów widzenia komputerowego (ang. Computer Vision).

Aktualnie większość zadań związanych z rozpoznawaniem obrazu obsługiwanych jest przez algorytmy Sztucznej Inteligencji (ang. Artificial Intelligence), Uczenia Maszy- nowego (ang. Machine Learning) [21, 194] i Głębokiego Uczenia (ang. Deep Learning) [86, 124, 150].

W 2001 roku Viola i Jones w [203] przedstawili jeden z najpopularniejszych al- gorytmów detekcji obiektów oparty na kaskadzie wzmocnionych klasyfikatorów (ang.

Cascade of Boosted Classifiers) [72, 71] i rozszerzonym zestawie cech Haar’a (ang.

Haar-like Features) [128]. Opracowana metoda uczenia maszynowego [21, 194] skła-

dała się z dwóch głównych etapów: uczenia klasyfikatora kaskadowego (ang. training)

i detekcji (ang. detection) przy jego pomocy. Algorytm Viola-Jones zaimplementowa-

ny zostały w bibliotece OpenCV [26] pozwalając na łatwe, lecz czasochłonne ucze-

nie klasyfikatorów. Baza danych zawierająca wyselekcjonowane pozytywne i negatyw-

ne przykłady uczące jest wykorzystywana do uczenia zbioru klasyfikatorów zgodnie

z algorytmem AdaBoost [70]. Wiele słabych klasyfikatorów łączonych jest w kaska-

dę przypominającą drzewo decyzyjne (ang. Decision Tree) [9] tworząc w ten sposób

pojedynczy mocny klasyfikator [204].

(30)

W 2010 roku zapoczątkowane zostały Zawody w Wielkoskalowym Rozpoznawaniu Obrazu (ang. ImageNet Large Scale Visual Recognition Challenge) [171] oparte na organizowanych wcześniej (2005 - 2012) zawodach w Analizie Wzorców (ang. Pattern Analysis), Statystycznym Modelowaniu (ang. Statistical Modelling) i Uczeniu Kom- puterowym (ang. Computational Learning) o akronimie PASCAL VOC [64].

W 2010 roku zwycięskie rozwiązanie [129] oparte było na Maszynie Wektorów Nośnych (ang. Support Vector Machine, skr. SVM) [45] oraz dwóch nieliniowych me- todach [207, 220], wykorzystujących algorytm Skaloniezmienniczego Przekształcenia Cech (ang. Scale-invariant Feature Transform, skr. SIFT) [133] i cechy typu Lokal- nych Wzorców Binarnych (ang. Local Binary Patterns, skr. LBP) [4] osiągając błąd rzędu 28.2%. W 2011 roku zwycięskie rozwiązanie [172] również oparte było na Maszy- nie Wektorów Nośnych [45], wykorzystano jednak ulepszoną wektorową reprezentację Fishera [157] i Analizę Składowych Głównych (ang. Principal Component Analysis, skr. PCA) [2, 105] oraz sygnatury wysokowymiarowe (ang. high-dimensional image si- gnatures) [158] i kompresję poprzez kwantyzację wektorów [172] osiągając błąd rzędu 25.8%. W 2012 roku po raz pierwszy wykorzystano Głęboką Konwolucyjną Sieć Neuro- nową (ang. Convolutional Neural Network, skr. CNN) [100, 118] osiągając błąd rzędu 16.4% [171] i deklasując rywali. Dzięki temu osiągnięciu aktualnie największą popu- larnością w rozpoznawaniu obrazu cieszą się techniki Głębokiego Uczenia (ang. Deep Learning, skr. DL) oparte na Sieciach Neuronowych (ang. Neural Networks, skr. NN).

W 2013 roku większość zaprezentowanych rozwiązań wykorzystywała Konwolucyjne Sieci Neuronowe. Zwycięskie rozwiązanie [216, 217] obliczało średnią z wielu równole- głych Konwolucyjnych Sieci Neuronowych osiągając błąd rzędu 11.7%. W 2014 roku najlepsze rozwiązanie zaprezentowane zostało przez firmę Google [193] osiągając błąd rzędu 6.7%. Rozwiązanie oparte było na ulepszonej wielowymiarowej Konwolucyjnej Sieci Neuronowej wykorzystującej niesekwencyjny rozkład w sumie ponad 100 warstw.

W 2015 roku Microsoft przedstawił swoje rozwiązanie [98] Konwolucyjnej Sieci Neu-

ronowej wykorzystującej Uczenie Szczątkowe (ang. residual learning). Rozwiązanie to

składało się ze 152 warstw i osiągnęło błąd rzędu 3.6%, wykazując że głębokość Kon-

wolucyjnej Sieci Neuronowej ma znaczący wpływ na osiągane wyniki [97, 182, 193].

(31)

W 2016 roku zwycięskie rozwiązanie oparte było na metodach Incepcji Szczątkowej [192], Szczątkowego Uczenia [98] i Szerokich Sieci Szczątkowych [214] wykorzystując Przyśpieszone Lokalne Konwolucyjne Sieci Neuronowe [161] i osiągając błąd rzędu 2.99%.

2.3 Segmentacja danych

Automatyczna segmentacja tkanek z danych medycznych jest złożonym zadaniem.

Ze względu na jakość danych, różnice między poszczególnymi placówkami, wykorzy- stywane w szpitalach maszyny, czy różnice w protokołach badań wymuszają wysoką uniwersalność stosowanej metody.

Do tej pory wypracowano wiele metod segmentacji. Dong i Zheng w [54] podzie- lili standardowe rozwiązania na dwie grupy: metody ręczne ([151, 198]) i metody automatyczne ([11, 34, 44, 123, 140, 148, 176]). Wprowadzony przez nich podział wskazywał rozwiązania opierające się m.in. na grafach (ang. Graph Cuts) [11], algo- rytmie wododziałowym (ang. Watershed Algorithm) [34], modelu probabilistycznym (ang. Probabilistic Model ) [44], regresji i klasyfikacji metodami losowych lasów (ang.

Random Forest Regression and Classification) [81, 82], anizotropowym zorientowa- nym przepływie (ang. Anisotropic Oriented Flux )[123], rejestracji z użyciem atlasów (ang. Atlas Registration) [140], statystycznym modelu kształtu (ang. Statistic Shape Model ) [148], czy modelu graficznym (ang. Graphical Model ) [176].

Po zdominowaniu przez Konwolucyjne Sieci Neuronowe dziedziny klasyfikacji ob- razów rozpoczęto również pracę nad rozwiązaniami problemu segmentacji wykorzy- stującymi te same technologie [33, 79, 80, 93, 130, 144, 152, 181], jednak uzyskiwane przez nie wyniki świadczą o potrzebie dalszego rozwoju metod segmentacji wykorzy- stujących Sieci Neuronowe.

Przedstawione rozwiązania opierają się w większości na dyskretnej klasyfikacji

pikseli dając w rezultacie ograniczoną i niedokładną informację o segmentowanych

tkankach, szczególnie w przypadku niskiej jakości danych. W przedstawionej w pracy

metodzie tworzenia modeli wirtualnych dla potrzeb medycyny klinicznej, do segmen-

(32)

tacji tkanek wykorzystano Model Aktywnego Wyglądu (ang. Active Appearance Mo- del ) oparty na wieloetapowym Uczeniu Maszynowym. Zadaniem Modelu Aktywnego Wyglądu jest rozpoznawanie cech charakterystycznych obiektów. Znalezione cechy są następnie wykorzystywane do parametrycznej segmentacji poszczególnych elementów składowych kolumny przedniej kręgosłupa.

Model Aktywnego Wyglądu (ang. Active Appearance Model ) został opracowany i po raz pierwszy opisany przez Cootes’a, Edwards’a i Taylor’a w 1998 roku [40, 60, 62]. Bazowali oni na rozwiązaniach opartych na modelach parametrycznych [43, 61, 63, 88, 122, 186], osiągających dobre wyniki w dziedzinie interpretacji obrazu, zauważyli jednak iż ze względu na często występującą dużą liczbę parametrów metody te są zbyt wolne [106]. Cootes et al [40] definiują opracowany Model Aktywnego Wyglądu (ang. Active Appearance Model ) jako syntezę pomiędzy Modelem Kształtu (ang. Shape Model ) i Modelem Wyglądu (ang. Appearance Model ) powołując się na istniejące rozwiązania modelowania zmienności kształtu (ang. shape) obiektów [12, 35, 199] oraz równolegle opracowywane metody związane z modelowaniem wyglądu (ang. appearance) [39, 65, 106, 121, 146]. W 1995 roku Cootes et al [43] przedstawili swój pierwszy Model Aktywnego Kształtu (ang. Active Shape Model ) łączący Model Kształtu (ang. Shape Model ) z lokalnym wyglądem opartym na skali szarości. Model ten służy do lokalizowania obiektów [63, 122] i był podstawą dla wykorzystanego w pracy Modelu Aktywnego Wyglądu opartego na rozwiązaniach rozwijanych przez Covell’a [46], Black’a i Yacoob’a [22] oraz Sclaroff’a i Isidoro’a [178].

2.4 Budowa modeli wirtualnych

Wierne odwzorowanie rzeczywistych trójwymiarowych obiektów na podstawie obrazo-

wania medycznego jest trudnym zadaniem. W pracowniach Tomografii Komputerowej

i Rezonansu Magnetycznego najczęściej wykorzystywaną metodą wizualizacji danych

medycznych w trzech wymiarach jest Renderowanie Objętościowe (ang. Volume Ren-

dering) [30, 57, 120] oparte na metodzie Rzutowania Promieni (ang. Ray Casting)

[38, 127, 208]. Podejście takie dzięki warstwowej informacji przenoszonej w forma-

(33)

cie DICOM pozwala na łatwą wizualizację trójwymiarowej (wokselowej) reprezen- tacji tkanek, pomijając jednak etap budowy rzeczywistego modelu geometrycznego.

Ze względu na wspomniany brak modelu geometrycznego, uzyskiwany dzięki tech- nice Renderowania Objętościowego efekt jest czysto wizualny, co znacznie ogranicza możliwości oceny i analizy tkanek.

Powszechnie wykorzystywaną techniką budowy modeli trójwymiarowych z obra- zowania medycznego jest Algorytm Maszerujących Sześcianów (ang. Marching Cu- bes Algorithm) [132]. Głównym zadaniem algorytmu jest budowa siatki wielokątów na podstawie dyskretnej, wokselowej reprezentacji obiektu. Dokładność rekonstrukcji w dużej mierze zależy od jakości obrazowania medycznego, w szczególności rozdziel- czości pojedynczych obrazów i odległości między kolejnymi warstwami.

Przedstawiona w pracy metoda budowy modeli trójwymiarowych znacząco różni się od omówionych powszechnie wykorzystywanych technik. Segmentacja z użyciem cech charakterystycznych obiektów pozwala pokonać problem niskiej jakości badań tkanki kostnej uzyskanych metodą Rezonansu Magnetycznego, a model trójwymiaro- wy tworzony jest na podstawie interpolowanej informacji o granicach tkanek.

2.5 Wizualizacja osiowa kręgosłupa

Skolioza idiopatyczna jest schorzeniem w którym kręgi piersiowe lub lędźwiowe są przemieszczone i zdeformowane w trzech płaszczyznach [95, 189]. Leczenie takiej de- formacji wymaga określenia dokładnego położenia każdego z kręgów. W praktyce kli- nicznej położenie te wyznacza się na podstawie dwóch radiogramów: przedniego (ang.

anteroposterior ) i bocznego (ang. lateral ) [109, 113, 116]. Dokładne położenie kręgów wyznaczyć można na podstawie badania Tomografii Komputerowej (ang. Computed Tomography) przenoszącego informację trójwymiarową, jest to jednak czasochłonne, a badanie jest inwazyjne, narażając pacjenta na wielokrotnie większą dawkę promienio- wania jonizującego w stosunku do standardowego badania radiologicznego [27, 183].

Aby ograniczyć dawkę promieniowania w praktyce wykorzystywany jest również sys-

tem EOS [103, 143, 206] automatycznie generujący trójwymiarowy obraz na podstawie

(34)

dwóch prostopadłych radiogramów.

Metody wykreślania widoku osiowego są znane i zostały wcześniej przedstawione w literaturze m.in. w postaci Widoku Odgórnego (ang. Top View ) [49] czy też rozwią- zań wprowadzonych przez Stowarzyszenie Badawcze Skolioz (ang. Scoliosis Research Society) pod nazwami Reprezentacji da Vinci (ang. da Vinci Representation) oraz Prawdziwej Projekcji da Vinci (ang. True da Vinci Projection) [56, 119, 173].

Standardowa metoda morfologicznej analizy kręgosłupa oparta jest na interpretacji dwóch radiogramów rzutujących trójwymiarową tkankę na dwuwymiarową płaszczy- znę w kierunkach czołowym (ang. coronal ) i strzałkowym (ang. sagittal ). Występujące w kręgosłupie schorzenia, takie jak skolioza, mają jednak charakter trójwymiarowy, co sugerowałoby potrzebę zastosowania dodatkowego rzutu osiowego (ang. axial ) w celu uzyskania dokładnych wyników. W pracy przedstawiono rozwiniętą wraz z Kli- niką Chorób Kręgosłupa i Ortopedii Dziecięcej Uniwersytetu Medycznego im. Karola Marcinkowskiego w Poznaniu metodę wizualizacji kręgosłupa w płaszczyźnie osiowej - Prezentacja Osiowa Kręgosłupa (ang. Spine Axial Presentation) [84]. Ze względu na różne pozycje pacjenta podczas badań, stojącą dla Komputerowej Radiografii (ang.

Computed Radiography) i leżącą dla Tomografii Komputerowej (ang. Computed Tomo- graphy), wyniki nie mogły zostać bezpośrednio porównane. Aby dokonać prawidłowej analizy opracowano metodę Cyfrowo Rekonstruowanego Radiogramu (ang. Digitally Reconstructed Radiograph) [73] z danych uzyskiwanych metodą Tomografii Kompute- rowej.

2.6 Trójwymiarowa wizualizacja danych medycz- nych

Aktualnie na rynku dostępne są gotowe rozwiązania (np. 3DSlicer [160], Osirix [165],

3D-Doctor [211]) pozwalające na tworzenie trójwymiarowych wizualizacji obiektów

medycznych i ich analizę, jednak w większości przypadków są to rozwiązania drogie

lub wymagające specjalistycznego przeszkolenia, a standardowe procedury tworzenia

(35)

trójwymiarowej geometrii na podstawie obrazów DICOM, wykorzystywane w dostęp- nych rozwiązaniach, są często złożone z wielu etapów ręcznie wykonywanych przez użytkownika.

W pracy przedstawiono szybszą, lepiej dostępną i znacznie łatwiejszą dla niedo-

świadczonego użytkownika metodę uzyskiwania i analizy trójwymiarowych wizuali-

zacji, przydatnych w codziennej praktyce klinicznej. Dzięki wykorzystaniu uniwersal-

nego formatu PDF do przenoszenia informacji o geometrii, wyniki wizualizacji mogą

być wyświetlane nie tylko na dowolnych komputerach, ale również na urządzeniach

mobilnych takich jak współczesne telefony komórkowe i tablety.

(36)

(37)

Rozdział 3

Cel i zakres pracy

Motywacją do podjęcia pracy była chęć rozwinięcia metod diagnostycznych opartych na obrazowaniu medycznym. Zrealizowanie takiego celu wymagało ścisłej współpracy z Kliniką Chorób Kręgosłupa i Ortopedii Dziecięcej Uniwersytetu Medycznego im.

Karola Marcinkowskiego w Poznaniu oraz kliniką Rehasport Clinic sp. z o.o. Współ- praca ta zowocowała powstaniem projektu Narodowego Centrum Badań i Rozwoju -

”Wirtualne środowisko przestrzennego obrazowania diagnostycznego zwiększającego dostępność do wysoko specjalistycznych procedur medycznych” (VirDiaMed, umowa nr PBS3/B9/34/2015).

Analizy prowadzone podczas przygotowywania projektu wykazały potrzebę opra- cowania i wdrożenia do powszechnego użycia systemu pozwalającego na tworzenie modeli wirtualnych, przestrzenną wizualizację tkanek, szybkie jej udostępnianie oraz wykorzystanie m.in. w procesie oceny przedoperacyjnej. Co więcej lekarze specjaliści podkreślali potrzebę wykorzystania obrazowania metodą Rezonansu Magnetycznego do wizualizacji tkanki kostnej, w szczególności schorzeń kręgosłupa, ze względu na nieinwazyjność Rezonansu Magnetycznego w przeciwieństwie do powszechnie wyko- rzystywanej w tej dziedzinie metody - Tomografii Komputerowej.

Wspomniana ścisła współpraca ze specjalistami w dziedzinie ortopedii oraz rozwój

nieinwazyjnych metod Obrazowania Medycznego, pozwalających na częstą i dokład-

ną diagnostykę oraz analizę postępów leczenia, wykazały konieczność opracowania

nowych procedur tworzenia modeli wirtualnych dla potrzeb medycyny klinicznej, ze

(38)

szczególnym uwzględnieniem obrazowania metodą Rezonansu Magnetycznego.

Celem pracy było opracowanie nowych procedur tworzenia modeli wirtualnych dla potrzeb medycyny klinicznej i zweryfikowanie poprawności działania opracowa- nych metod na rzeczywistych danych klinicznych oraz rozwój specjalistycznych metod pomiarowych wykorzystywanych w przygotowaniu przedoperacyjnym. Procedury te miały skupiać się na odtworzeniu trójwymiarowej geometrii tkanki kostnej, w szcze- gólności kręgosłupa, z obrazowania metodą Rezonansu Magnetycznego wykonanego zgodnie ze standardowymi protokołami badań wykorzystywanymi w klinice Rehasport Clinic sp. z o.o. oraz umożliwieniu wykonywania pomiarów trójwymiarowej geometrii tkanek w szybki i dostępny dla specjalistów sposób.

Do głównych zadań należały:

∙ automatyzacja tworzenia modeli wirtualnych na podstawie badań uzyskanych metodą Rezonansu Magnetycznego,

∙ rozwój specjalistycznych metod pomiarowych wykorzystywanych w przygotowa- niu przedoperacyjnym, w szczególności Wizualizacji Osiowej Kręgosłupa

∙ opracowanie powszechnie dostępnej metody wizualizacji danych medycznych umożliwiającej wykonywanie pomiarów geometrii trójwymiarowej.

Zakres prac obejmował:

∙ analizę literatury,

∙ opracowanie metody filtracji niskiej jakości danych uzyskanych metodą Rezo- nansu Magnetycznego,

∙ opracowanie metody wstępnej klasyfikacji obrazów uzyskanych metodą Rezo- nansu Magnetycznego,

∙ opracowanie metody segmentacji tkanek z danych uzyskanych metodą Rezonan- su Magnetycznego,

∙ opracowanie metody tworzenia modeli wirtualnych,

∙ opracowanie metody tworzenia Cyfrowo Zrekonstruowanego Radiogramu,

∙ opracowanie szybkiej i dostępnej metody pomiaru trójwymiarowej geometrii,

(39)

∙ przygotowanie niezbędnego oprogramowania,

∙ wykonanie obliczeń sprawdzających poprawność działania opracowanych proce- dur,

∙ wytyczenie dalszych kierunków i możliwości badań.

(40)

(41)

Rozdział 4

Podstawy teoretyczne

4.1 Sieci neuronowe

4.1.1 Geneza sieci neuronowych

W 1958 roku po raz pierwszy przedstawiono ideę perceptronu [138, 163, 164] będącego wstępnym modelem probabilistycznym odzwierciedlającym przechowywanie informa- cji i organizację mózgu. Aktualnie istnieje wiele rodzajów sztucznych neuronów [86]

z których najczęściej używanym jest neuron sigmoidalny [150].

Perceptron jest neuronem przyjmującym binarne wejścia (ang. inputs) i produku- jącym pojedyncze binarne wyjście (ang. output ) (Rys. 4-1). W [163, 164] Rosenblatt przedstawił działanie neuronu jako ważoną sumę wejść, której wartość w zależności od założonego progu (ang. threshold ) produkowała pojedyncze binarne wyjście z neuronu w postaci zera lub jedynki (4.1)[150](Rys. 4-1):

Wyjście =

⎧

⎪⎪

⎨

⎪⎪

⎩

0 dla

𝑛

∑︁

𝑖=1

𝑥

_𝑖

𝑤

_𝑖

¬ próg 1 dla

𝑛

∑︁

𝑖=1

𝑥

𝑖

𝑤

𝑖

> próg

(4.1)

gdzie 𝑥

𝑖

to zbiór wejść, a 𝑤

𝑖

to zbiór odpowiadających im wag.

Aktualnie standardowe opisy neuronu opierają się na zmodyfikowanej wersji nie-

równości 4.1, w której próg (ang. threshold ) przeniesiony jest na drugą stronę nierów-

(42)

Rysunek 4-1: Schemat pojedynczego perceptronu.

ności i określany jest mianem tendencji (ang. bias)(4.2):

Wyjście =

⎧

⎪⎪

⎨

⎪⎪

⎩

0 dla

𝑛

∑︁

𝑖=1

𝑥

_𝑖

𝑤

_𝑖

+ 𝑏 ¬ 0 1 dla

𝑛

∑︁

𝑖=1

𝑥

_𝑖

𝑤

_𝑖

+ 𝑏 > 0

(4.2)

gdzie 𝑏 to tendencja.

Zestawy tak określonych neuronów mogą tworzyć wielowarstwową sieć neurono- wą podejmującą skomplikowane decyzje. Pierwsza warstwa sieci przyjmuje informacje wejściowe i na bazie przypisanych do nich wag podejmuje decyzje. Kolejna warstwa podejmuje bardziej skomplikowane decyzje na bazie wyników warstwy poprzedniej i kolejnych wartości wagowych. Ostatnia warstwa podejmuje ostateczną decyzję gene- rując binarne wyjście.

4.1.2 Architektura sieci neuronowych

Podstawowe sieci neuronowe są sieciami całkowicie połączonymi (ang. fully-connected

network ). Oznacza to, że każdy neuron wcześniejszej warstwy połączony jest z każ-

dym neuronem warstwy następnej (Rys. 4-2). Pierwsza warstwa nazywana jest war-

stwą wejściową (ang. input layer ), a jej neurony nazywane są neuronami wejściowymi

(ang. input neurons). Kolejne warstwy, ze względu na to, że wartości przez nie przeka-

zywane nie są bezpośrednio widoczne nazywane są warstwami ukrytymi (ang. hidden

layers). Ostatnia warstwa nazywana jest warstwą wyjściową (ang. output layer ).

(43)

Rysunek 4-2: Architektura Sieci Neuronowych.

W standardowych sieciach neuronowych najczęściej używanym typem neuronu jest neuron sigmoidalny [150]. Neuron ten, w przeciwieństwie do perceptronu, pozwala na wprowadzanie małych zmian w wagach (ang. weights) i tendencjach (ang. biases), które przekładają się na niewielkie zmiany wyjścia. Daje to możliwość uczenia (ang.

training) sieci neuronowej poprzez iteracyjne dopasowywanie wag i tendencji w celu uzyskania określonego wyjścia. Neurony sigmoidalne, w przeciwieństwie do binarnych perceptronów, przyjmują wartości z przedziału od 0 do 1. Wyjście z neuronu sigmo- idalnego generuje wartość (4.3):

𝑦 = 𝜎(

𝑛

∑︁

𝑖=1

𝑥

_𝑖

𝑤

_𝑖

+ 𝑏) (4.3)

gdzie 𝑦 to wyjście, a 𝜎 to funkcja sigmoidalna (Rys. 4-3) będąca odmianą funkcji logistycznej (4.4):

𝜎(𝑥) = 1

1 + 𝑒

^−𝑥

(4.4)

Ostatecznie więc neuron sigmoidalny generuje wyjście w postaci (4.5) [150]:

(44)

Rysunek 4-3: Przebieg sigmoidalnej funkcji aktywacyjnej.

𝑦 = 1

1 + exp(−

𝑛

∑︁

𝑖=1

𝑥

_𝑖

𝑤

_𝑖

− 𝑏)

(4.5)

gdzie exp to funkcja eksponencjalna.

4.1.3 Uczenie sieci neuronowej

Najczęściej do uczenia sieci neuronowej wykorzystywana jest metoda gradientu pro- stego (ang. gradient descent ) [19, 169]. Zadaniem metody jest znalezienie takich wag (ang. weights) i tendencji (ang. biases), żeby zminimalizować założoną funkcję kosz- tu (ang. cost function), zwaną również funkcją straty (ang. loss function). W celu znalezienia minimum funkcji kosztu iteracyjnie wprowadza się funkcje aktualizacji gradientu (4.6 i 4.7) [125, 150]:

𝑤 → 𝑤

^′

= 𝑤 − 𝛼 𝜕𝐶

𝜕𝑤 (4.6)

𝑏 → 𝑏

^′

= 𝑏 − 𝛼 𝜕𝐶

𝜕𝑏 (4.7)

gdzie 𝑤 to wagi, 𝑏 to tendencje, 𝛼 to wskaźnik uczenia (ang. learning rate), a 𝐶 to funkcja kosztu.

Obliczenia te należy wykonać dla każdego przykładu uczącego (ang. training exam-

ple), co przy dużych bazach danych wiąże się z zapotrzebowaniem na dużą moc oblicze-

(45)

niową oraz długimi czasami obliczeń. Aby zwiększyć wydajność obliczeniową najczę- ściej wykorzystuje się modyfikację metody prostego gradientu, zwaną stochastycznym gradientem (ang. stochastic gradient descent ). Zastosowanie metody stochastycznego gradientu pozwala na skrócenie czasu obliczeń poprzez ograniczenie ilość przykładów (ang. samples) wykorzystywanych do szacowania średniego gradientu do niewielkiej losowo wybranej serii (ang. batch) (4.8 i 4.9) [150]:

𝑤 → 𝑤

^′

= 𝑤 − 𝛼 𝑚

∑︁

𝑖

𝜕𝐶

_𝑋_𝑖

𝜕𝑤 (4.8)

𝑏 → 𝑏

^′

= 𝑏 − 𝛼 𝑚

∑︁

𝑖

𝜕𝐶

_𝑋_𝑖

𝜕𝑏 (4.9)

gdzie 𝑚 to ilość przykładów w serii, a 𝑋 to przykłady uczące w serii.

Takie rozwiązanie pozwala na szybkie uzyskanie przybliżonej wartości gradientu zwiększając wydajność obliczeniową. Uczenie przy pomocy metody stochastycznego gradientu polega na wykorzystywaniu kolejnych losowych serii (ang. batches) z bazy uczącej (ang. training examples), aż do użycia wszystkich dostępnych danych. Jedno- krotne wykorzystanie całej bazy uczącej nazywa się pojedynczą epoką (ang. epoch) i następują po niej kolejne iteracje algorytmu uczącego, wykorzystujące kolejną epokę.

4.2 Konwolucyjne sieci neuronowe

Konwolucyjne Sieci Neuronowe [86, 118, 126], zwane również Splotowymi (ang. co-

nvolution) Sieciami Neuronowymi, są wyspecjalizowaną odmianą sieci neuronowych

wykorzystywaną do przetwarzania danych o znanej topologii przypominającej macierz

(ang. grid-like topology), cechującą się bardzo dobrymi wynikami w praktycznym za-

stosowaniu [86]. Nazwa metody pochodzi od matematycznej operacji mnożenia sploto-

wego, którą zastępowana jest standardowa operacja mnożenia wykorzystywana w sie-

ciach neuronowych. Ze względu na charakterystykę działania Konwolucyjnych Sieci

Neuronowych (dyskretyzację czasu 𝑡) operacja mnożenia splotowego również przyj-

muje postać dyskretną (4.10)[86]:

(46)

𝑠(𝑡) = (𝑥 𝑘)(𝑡) =*

∞

∑︁

𝑎=−∞

𝑥(𝑎)𝑘(𝑡 − 𝑎) (4.10)

gdzie funkcja 𝑥 nazywana jest wejściem (ang. input ), funkcja 𝑘 nazywana jest jądrem (ang. kernel ), a wyjście 𝑠 nazywane jest mapą cech (ang. feature map).

W przypadku Uczenia Maszynowego wejście zwykle przyjmuje postać wielowymia- rowej macierzy (tensora) danych, a jądro wielowymiarowej macierzy (tensora) para- metrów dostosowywanych przez algorytm uczący. Dla dwuwymiarowych obrazów 𝐼 mnożenie splotowe wykonywane jest równocześnie w dwóch osiach z wykorzystaniem dwuwymiarowego jądra 𝐾 (4.11)[86]:

𝑆(𝑖, 𝑗) = (𝐼 𝐾)(𝑖, 𝑗) =*

^∑︁

𝑚

∑︁

𝑛

𝐼(𝑚, 𝑛)𝐾(𝑖 − 𝑚, 𝑗 − 𝑛) (4.11)

Z możliwości odwracania jądra 𝐾 wynika przemienność mnożenia splotowego, co powoduje iż równanie (4.11) zapisać można w postaci (4.12):

𝑆(𝑖, 𝑗) = (𝐾 𝐼)(𝑖, 𝑗) =*

^∑︁

𝑚

∑︁

𝑛

𝐼(𝑖 − 𝑚, 𝑗 − 𝑛)𝐾(𝑚, 𝑛) (4.12)

będącej łatwiejszą w implementacji ze względu na mniejszą wariację prawidłowych przedziałów wartości 𝑚 i 𝑛.

Najczęściej jednak w implementacjach Sieci Neuronowych wykorzystywana jest funkcja pokrewna zwana korelacją krzyżową (ang. cross-correlation)(4.13):

𝑆(𝑖, 𝑗) = (𝐼 𝐾)(𝑖, 𝑗) =*

^∑︁

𝑚

∑︁

𝑛

𝐼(𝑖 + 𝑚, 𝑗 + 𝑛)𝐾(𝑚, 𝑛) (4.13)

dająca te same efekty bez konieczności odwracania jądra 𝐾, przez co w dziedzinie

Uczenia Maszynowego nazywa jest ona również splotem lub konwolucją (Rys. 4-4)

[86].

(47)

Rysunek 4-4: Przykład dwuwymiarowej konwolucji (korelacji krzyżowej) bez odwracania jądra, najczęściej wykorzystywanej w implementacjach Sieci Neuronowych.

4.2.1 Charakterystyczne właściwości Konwolucyjnych Sieci Neuronowych

Konwolucyjne Sieci Neuronowe, w porównaniu do standardowych Sieci Neuronowych, cechują się trzema charakterystycznymi właściwościami: rzadką interakcją (ang. spar- se interaction), dzieleniem parametrów (ang. parameter sharing) oraz równoważną reprezentacją (ang. equivariant representation).

Zasada rzadkiej interakcji (ang. sparse interaction) opiera się na wykorzystaniu jądra (ang. kernel ) o rozmiarze mniejszym niż wejście (ang. input ). Takie podejście ogranicza liczbę przechowywanych parametrów redukując wymagania systemowe mo- delu, ilość wykonywanych operacji oraz zwiększając skuteczność statystyczną [86]. W zależności od wielkości jądra (ang. kernel ) wejście (ang. input ) wpływa tylko na okre- śloną ilość wyjść (ang. feature map) (Rys. 4-5), w przeciwieństwie do standardowych Sieci Neuronowych wykorzystujących zwykłe mnożenie macierzy, gdzie wejście ma wpływ na wszystkie mapy cech. Podobnie zauważyć można, iż na pojedynczą mapę cech wpływ ma również ograniczona wielkością jądra ilość wejść (Rys. 4-6). W ten spo- sób głębsze warstwy Konwolucyjnej Sieci Neuronowej pośrednio łączą się z wszystkimi wejściami (Rys. 4-7)[86].

Zasada dzielenia parametrów (ang. parameter sharing) opiera się na wykorzysty-

waniu tych samych parametrów dla więcej niż jednej funkcji w modelu (Rys. 4-8). W