• Nie Znaleziono Wyników

4.3 Zastosowania w diagnostyce guzów jajnika

4.3.2 Scenariusz 1: diagnostyka na podstawie danych pacjentki

Pierwszy scenariusz zastosowania zaproponowanych w niniejszej dysertacji metod klasyfikacji zakłada wykorzystanie całych dostępnych danych medycznych do podjęcia diagnozy. Jest to metoda najprostsza i najbardziej bezpośrednia, gdyż jedynym przekształceniem, jakiemu pod-dawane są dane jest normalizacja. Miara podobieństwa wykorzystywana jest bezpośrednio do porównywania danych medycznych dwóch różnych pacjentek.

Zbiór danych

Grupa badawcza składa się z 388 pacjentek leczonych z rozpoznaniem guza jajnika w Klinice Ginekologii Operacyjnej Uniwersytetu Medycznego im. Karola Marcinkowskiego w Poznaniu w latach 2005 – 2015. Spośród nich, u 61% zdiagnozowano zmianę łagodną, a u 39% złośliwą.

Ponadto, 56% pacjentek nie miało żadnych brakujących danych, a u 40% brakowało mniej niż 50% danych. Procentowy rozkład udziału brakujących danych przedstawiono na Rysunku 4.4.

Istotny podzbiór tej grupy badawczej, obejmujący większość pacjentek z kompletnym opisem, został przedstawiony w kontekście medycznym w pracy [54].

Procedura ewaluacji opiera się na klasycznym podziale danych na zbiór treningowy (optymali-zacyjny) i testowy. Początkowy zbiór danych nie ma jednorodnego rozkładu poziomu brakujących danych. Jeżeli takie dane zostałyby podzielone równomiernie, mogłoby to doprowadzić do sytuacji, w której na etapie optymalizacji i/lub testowania nie byłyby dostępne instancje o wszystkich poziomach braku danych. Taka sytuacja jest bardzo niepożądana, gdyż celem jest opracowanie metody działającej dla każdego poziomu braku danych. Alternatywą jest poszerzenie zestawu danych poprzez włączenie nowych pacjentek. Jednak takie rozwiązanie jest bardzo czasochłonne i kosztowne. Dlatego też konieczne było znalezienie innego, opisanego poniżej, sposobu.

Zbiór testowy składa się z instancji z brakującymi danymi i pewnej części tych z kompletnym zestawem danych. Z drugiej strony, zbiór optymalizacyjny zbudowany jest z instancji z kompletnym opisem, a niekompletność jest symulowana. W symulacjach przyjęto, że niekompletność danych

początkowy zbiór danych poziom

niekompletności danych

0% (0%, 50%] ponad 50%

zbiór optymalizacyjny zbiór testowy

Rysunek 4.5: Podział danych pomiędzy zbiór optymalizacyjny i testowy. Instancje z ponad 50%

niekompletności danych zostały wykluczone z badań.

występuje w sposób losowy, gdyż nie jest możliwe dokładne symulowanie procesu diagnostycznego.

Faktyczny rozkład poziomów braku danych nie jest znany, stąd w fazie optymalizacji przyjęto założenie o jego jednorodności. Dzięki takiemu określeniu, zarówno w zbiorze optymalizacyjnym, jak i testowym występują instancje o różnym poziomie niekompletności danych.

Opis każdej instancji poddawany jest konwersji do przedziałowego zbioru rozmytego. Niech uniwersum U składa się ze wszystkich atrybutów opisujących pacjentkę. Stopień przynależności danego atrybutu ui ∈ U do przedziałowego zbioru rozmytego ˆA, reprezentującego pacjentkę, niesie informację na temat stopnia w jakim wartość tego atrybutu dla danej instancji jest duża.

Mamy tu zatem do czynienia z semantyką stopnia podobieństwa (patrz Podrozdział 2.2).

Zbiór ˆA budowany jest zgodnie z następującym wzorem:

µAˆ(ui) =

[ai, ai] , jeśli wartość atrybutu ui jest określona [0, 1] , jeśli wartość atrybutu ui nie jest określona

, (4.8)

gdzie ai∈ [0, 1] oznacza znormalizowaną wartość i-tego atrybutu dla danej instancji. Do normali-zacji wartości do przedziału [0, 1] wykorzystano klasyczną formułę opartą na wartości minimalnej (mi) i maksymalnej (Mi) danego atrybutu

ai= bi− mi

Mi− mi, (4.9)

gdzie bi to pierwotna wartość atrybutu. Stąd w przypadku kompletnych instancji, jako wartość stopnia przynależności dla danego atrybutu przyjmowany jest przedział jednoelementowy. Nato-miast, jeśli wartość pewnego atrybutu nie jest dostępna, jako stopień przynależności używany jest cały przedział jednostkowy. W ten sposób wszystkie instancje (kompletne i nie) są jednoznacznie reprezentowane przy użyciu takiego samego formatu danych.

Na zbiór optymalizacyjny składa się 200 kompletnych instancji, podczas gdy zbiór testowy zawiera pozostałe 18 kompletnych opisów pacjentek oraz wszystkie opisy o poziomie niekomplet-ności danych poniżej 50% – łącznie 175 instancji. Instancje niekompletne w ponad 50% zostały wykluczone z badań. Podział danych oraz rozkład klas w obu zbiorach przestawiony został na Rysunkach 4.5 oraz 4.6.

Oprócz samego zbioru danych bardzo istotny jest też dobór prototypów dla przedziałowego klasyfikatora rozmytego. Na potrzeby niniejszego zbioru danych oraz ewaluacji przygotowane zostały prototypy oparte na wiedzy eksperckiej. Zastosowano podejście analogiczne jak w nie-dawnej pracy grupy IOTA [98], tj. podzielono guzy złośliwe na cztery grupy: guzy złośliwe we wczesnym oraz późnym stadium zaawansowania, guzy przerzutowe oraz guzy granicznie złośliwe.

Ponadto osobną grupę stanowią zmiany łagodne. Dla każdej z grup przygotowano jeden prototyp

109

91

123

52

0 50 100

zbiór optymalizacyjny zbiór testowy

Liczba

Charakter złośliwości niezłośliwy

złośliwy

Rysunek 4.6: Rozkład klas w zbiorze optymalizacyjnym oraz testowym.

A B C D E F G H I J K L M N O P Q

0.00 0.25 0.50 0.75 1.00

prototyp atrybut

Rysunek 4.7: Wizualizacja prototypów wykorzystanych w klasyfikacji metodą IVFC. Skrótowe oznaczenia literowe atrybutów zostały wyjaśnione w Tabeli 4.2.

opisujący typowe parametry pacjentki z takim rozpoznaniem. Wszystkie wykorzystane prototypy zostały przedstawione na Rysunku 4.7.

Procedura ewaluacji

Celem fazy optymalizacji jest dobranie, na podstawie symulowanych niekompletnych danych, optymalnych wartości parametrów każdej z zaproponowanych metod. Symulowany poziom niekompletności znajdował się w przedziale od 0% do 50% z krokiem 5%. Dla każdego poziomu niekompletności wykonano 10 powtórzeń następującej procedury. W pierwszej kolejności, ze zbioru optymalizacyjnego losowane jest po 75 instancji dla każdej z klas (złośliwy, niezłośliwy).

Następnie ustalony procent danych opisujący wybrane pacjentki jest zaciemniany (wymazywany).

Na tak przygotowanych danych wykonywana jest 10-krotna walidacja krzyżowa wszystkich wariantów zaproponowanych metod klasyfikacji. Uzyskana ocena jakości klasyfikacji jest następnie uśredniana dla wszystkich powtórzeń oraz poziomów niekompletności danych. Pojedynczy krok fazy optymalizacji przedstawiony jest na Rysunku 4.8.

początkowy zbiór danych

podział danych zbiór testowy powtórz 10 razy zbiór optymalizacyjny

losowanie i zaciemnianie instancji

0% 5% · · · 50%

konwersja do przedziałowego formatu danych

10–krotna walidacja krzyżowa

· · ·

zbiór testowy

baza instancji prototypy kSN

IVFC

wyniki klasyfikacji

ewaluacja skuteczności

· · ·

uśrednianie skuteczności dla różnych poziomów niekompletności

· · ·

uśrednianie skuteczności ze wszystkich powtórzeń optymalizacja

najlepsze klasyfikatory

Rysunek 4.8: Diagram fazy optymalizacji.

Wynikiem fazy optymalizacji jest zbiór klasyfikatorów, które najlepiej wypadły na symu-lowanych danych niekompletnych. W fazie testowej, uruchamiane są one na danych ze zbioru testowego, dla których źródłem niepewności jest rzeczywisty proces diagnostyczny. Jako bazę instancji dla zaproponowanych klasyfikatorów wykorzystany jest cały zbiór optymalizacyjny.

Aby zbadać, jak zachowują się opracowane metody klasyfikacji w sytuacji, gdy baza instancji obarczona jest niekompletnością, podobnie jak w fazie optymalizacji, symulowane są różne jej poziomy. Uzyskana ocena jakości klasyfikacji jest następnie uśredniana dla wszystkich powtórzeń oraz poziomów niekompletności danych. Pojedynczy krok fazy testowej przedstawiony jest na Rysunku 4.9.

Wyniki i dyskusja

Zgodnie z zaproponowanym schematem oceniono skuteczność klasyfikacji 600 wariantów metody k najpodobniejszych sąsiadów oraz 350 wariantów przedziałowego klasyfikatora rozmytego.

Klasyfikatory oparte na metodzie k najpodobniejszych sąsiadów są takie same, jak w ewaluacji na zbiorze danych dyslexic. W przypadku przedziałowego klasyfikatora rozmytego zastosowano następujące komponenty i wartości parametrów:

1. miary podobieństwa uwzględniające niepewność takie same, jak dla metody kSN;

2. metody agregacji podobieństw oparte na różnych uporządkowaniach przedziałów oraz średniej arytmetycznej i ważonej;

3. metody wyboru końcowej klasy oparte na uporządkowaniu przedziałów.

Ze względów obliczeniowych parametry liczbowe takie, jak k dla kSN, czy λ w mierze podobień-stwa, zostały ograniczone do pewnego reprezentatywnego, skończonego podzbioru wartości. Takie rozwiązanie, oprócz znacznego zmniejszenia nakładu obliczeniowego, pozwala skutecznie uniknąć problemu przeuczenia klasyfikatora.

Jakość algorytmów klasyfikujących może zostać wyrażona za pomocą wielu różnych wskaźni-ków, takich jak skuteczność, czułość czy specyficzność. W rozważanym problemie diagnostyki medycznej, najlepszy klasyfikator powinien zapewniać bardzo wysoką czułość, jak również niewiele niższą specyficzność. Co więcej, w przypadku niektórych instancji dane mogą nie wskazywać jednoznacznie, jaką podjąć decyzję. W takim przypadku klasyfikator nie powinien wskazywać diagnozy, a pacjent powinien zostać odesłany do referencyjnego ośrodka leczniczego. Z tego powodu dopuszczalna jest sytuacja, w której część instancji nie będzie miała przypisanej klasy (decyzyjność mniejsza niż 100%). Ponieważ wybór jednego wskaźnika jakości, który spełniałby wszystkie kryteria, jest bardzo trudnym zadaniem [31], wykorzystano metodę kosztu całkowitego, gdzie jako miarę jakości klasyfikacji przyjmuje się sumę kosztów przypisanych poszczególnym decyzjom.

Tabela 4.1 przedstawia koszty możliwych decyzji dokonanych przez klasyfikator. Poprawna klasyfikacja jako prawdziwie dodatni albo prawdziwie negatywny nie jest związana z żadnym kosztem. Największy koszt przypisany jest diagnozie fałszywie negatywnej, kiedy klasyfikator wskaże na niezłośliwość, podczas, gdy w rzeczywistości pacjentka ma guza złośliwego. Koszt diagnozy fałszywie dodatniej został ustalony jako dwukrotnie mniejszy od kosztu diagnozy

początkowy zbiór danych podział danych

powtórz 10 razy zbiór testowy

konwersja do przedziałowego formatu danych zbiór optymalizacyjny

losowanie i zaciemnianie instancji

0% 5% · · · 50%

konwersja do przedziałowego formatu danych

dla każdego klasyfikatora

wybranego w fazie optymalizacji

kSN IVFC

· · ·

baza instancji

prototypy

· · · wyniki

klasyfikacji

ewaluacja skuteczności

· · · uśrednianie

skuteczno-ści dla różnych pozio-mów niekompletności

· · ·

uśrednianie skuteczności ze wszystkich powtórzeń

końcowe wyniki ewaluacji Rysunek 4.9: Diagram fazy testowej.

wynik klasyfikacji niezłośliwy złośliwy NA

rzeczywista niezłośliwy 0 2.5 1

diagnoza złośliwy 5 0 2

Tablica 4.1: Macierz kosztu. Koszty zostały przypisane na podstawie opinii doświadczonego ginekologa.

50 100 150 200

0.0 0.1 0.2 0.3 0.4 0.5

poziom niekompletności danych

całkowitykoszt

Metoda Alc LR1 LR2

RMI SM Tim

OEA

50 100 150 200

0.0 0.1 0.2 0.3 0.4 0.5

poziom niekompletności danych

IVFC, Tmin IVFC, T−5SS

IVFC (średnia), T−5SS 5-SN, Tmin

5-SN, T−2SS 5-SN, T−5SS

Rysunek 4.10: Wyniki ewaluacji dla oryginalnych modeli diagnostycznych (po lewej) oraz zaproponowanych metod klasyfikacji (po prawej) w zależności od poziomu niekompletności danych w bazie instancji. Jako punkt odniesienia na lewym wykresie naniesiono również skuteczność modelu OEA.

fałszywie negatywnej, gdyż niepotrzebna operacja wciąż stanowi pewne niebezpieczeństwo dla zdrowia pacjentki. Również w przypadku sytuacji niepodjęcia decyzji przez klasyfikator jest pewna różnica w przypisanym koszcie. Jest on niższy niż w przypadku diagnozy fałszywie pozytywnej, gdyż pacjentka jest odsyłana do ośrodka referencyjnego, gdzie wciąż może zostać podjęta dobra diagnoza. Jednakże koszt w przypadku, gdy guz jest złośliwy, jest dwa razy większy niż w przypadku guza niezłośliwego.

Rysunek 4.10 przedstawia charakterystykę zmienności całkowitego kosztu w zależności od po-ziomu niekompletności danych w bazie instancji. Dla porównania przedstawiono również wartości uzyskiwane przez najczęściej wykorzystywane modele diagnostyczne dla guzów jajnika (patrz Sek-cja 4.3.1). Zarówno dla modeli diagnostycznych, jak i dla przedziałowego klasyfikatora rozmytego, łączny koszt nie zależy od niekompletności w bazie instancji. W przypadku IVFC, przyczyną takiego stanu jest metoda generowania prototypów, która wykorzystuje wiedzę ekspercką, przez co nie jest zależna od bazy instancji. Bardzo istotne jest, że wzrost niekompletności nie powoduje znaczącego wzrostu kosztu klasyfikacji. Cecha ta pozwala wnioskować, że zaproponowane metody klasyfikacji potrafią skutecznie działać nawet przy 50% poziomie niekompletności danych.

Jak zostało wspomniane we wprowadzeniu, klasyczne modele diagnostyczne oparte są na bardzo prostych metodach matematycznych, stąd nie powinno dziwić, że zarówno metoda k najpodobniejszych sąsiadów, jak i przedziałowy klasyfikator rozmyty uzyskały znacznie niższy średni łączny koszt klasyfikacji. W porównaniu uwzględniono również model OEA, opracowany z

184.5

Rysunek 4.11: Uśredniony całkowity koszt klasyfikacji dla najczęściej wykorzystywanych modeli diagnostycznych oraz zaproponowanych metod klasyfikacji.

wykorzystaniem najnowszych metod inteligencji obliczeniowej oraz obliczeń miękkich specjalnie na potrzeby diagnostyki guzów jajnika [110]. W jego przypadku koszt jest niższy (72), od wyników uzyskiwanych przez zaproponowane metody. Różnica ta jednak nie jest bardzo duża, szczególnie biorąc pod uwagę, że badane klasyfikatory są bardziej uniwersalne. Średni łączny koszt klasyfikacji został przedstawiony na Rysunku 4.11.

Należy zaobserwować, że skuteczność klasyfikacji istotnie zależy od użytej miary podobieństwa, a co za tym idzie t-normy wykorzystanej do jej budowy. Jest to szczególnie widoczne w przypadku metody k najpodobniejszych sąsiadów, gdzie skuteczność spada wraz ze wzrostem parametru λ, a najlepszy rezultat uzyskiwany jest dla t-normy minimum (T−∞SS). W przypadku IVFC zależność nie jest taka prosta, gdyż porównywalne, najniższe wartości łącznego kosztu klasyfikacji uzyskiwane są zarówno dla T−2SS, jak i T2SS.

Najlepszy klasyfikator, oprócz możliwie niskiego łącznego kosztu klasyfikacji, powinien również spełniać pewne dodatkowe założenia:

• czułość ≥ 0.9,

Tmin kSN

T−5SS kSN

0.84 0.84

0.92

0.81 0.84 0.85

0.93

0.8

0.00 0.25 0.50 0.75 1.00

4-SN, Tmin 4-SN, T−5SS

wartość

miara skuteczności Skuteczność Czułość Specyficzność Decyzyjność

Rysunek 4.12: Porównanie skuteczności, czułości, specyficzności oraz decyzyjności dla wybra-nych najlepszych metod klasyfikacji.

• specyficzność ≥ 0.8,

• czułość > specyficzność.

Pierwsze dwie reguły pozwalają odrzucić klasyfikatory o zbyt niskiej czułości i specyficzności.

Ostatnia reguła związana jest bezpośrednio z medycznym kontekstem rozważanego problemu. W medycynie czułość metody diagnostycznej z reguły jest istotniejsza od specyficzności. Klasyfikatory spełniające te kryteria zostały zaprezentowane na Rysunku 4.12.

Oba klasyfikatory, które spełniają postulowane kryteria, są bardzo podobne. Oparte są na metodzie k najpodobniejszych sąsiadów przy k = 4, metodzie głosowania większościowego oraz porządkowaniu przedziałów względem ich środków. Różnią się jedynie t-normą zastosowaną do konstrukcji miary podobieństwa: Tminoraz T−5SS. Należy pamiętać jednak, że t-normy te są bardzo podobne, stąd bardzo niewielkie różnice w uzyskiwanych dzięki nim klasyfikacjom.

Zastosowanie parzystego k w połączeniu z metodą głosowania większościowego umożliwia nie-podjęcie decyzji w przypadku wątpliwości (remisu). Jest to cecha bardzo pożądana w rozważanym problemie.