• Nie Znaleziono Wyników

Analizę skuteczności klasyfikacji podstawowych form WNZ przy użyciu metod klasteryzacji oparto o testowanie zaproponowanych algorytmów badawczych, składających się z wybranej metody klasteryzacji oraz funkcji podobieństwa w odniesieniu do zbiorów punktów reprezentujących sygnały EA dla wszystkich klas WNZ występujących łącznie, utworzonych dla poszczególnych par częstotliwości PSD. Uwzględniając zastosowanie ułamkowych odległości Minkowskiego o wartościach p = 0,3; p = 0,5 oraz p = 0,8 [1, 85], pełen eksperyment badawczy obejmował więc analizę 140 algorytmów badawczych, których skuteczność testowano dla występujących jednocześnie wszystkich podstawowych form WNZ wymienionych i opisanych w rozdziale 4 niniejszego autoreferatu.

Algorytmy badawcze poddane eksperymentowi podzielono na 4 rodziny, zgodnie z badanymi metodami klasteryzacji.

26 6.1. Analiza algorytmów badawczych rodziny Single

Wyniki analizy skuteczności klasyfikowania występujących jednocześnie wszystkich podstawowych form WNZ, przy użyciu algorytmów badawczych rodziny Single zamieszczono w tabeli 6.1. Sprawność algorytmów badawczych wyznaczono stosując procentowy wskaźnik (zależność 5.6) – Sprawność algorytmu badawczego.

Tabela 6.1 Sprawność algorytmów badawczych rodziny Single przy klasyfikacji występujących jednocześnie podstawowych form WNZ

Rysunek 6.1 przedstawia rzeczywisty rozkład zbioru punktów obrazujących poszczególnych formy WNZ uzyskany dla wybranej pary częstotliwości PSD (rysunek a), z rozkładem będącym wynikiem zastosowania wybranego algorytmu badawczego (rysunek b) dla algorytmu badawczego Single-Seuclidean-40/700.

27

a) b)

Rys. 6.1 Graficzny obraz wyniku klasteryzacji przy użyciu algorytmu badawczego Single-Seuclidean-40/700:

a) rzeczywisty rozkład zbioru punktów, b) rozkład punktów uzyskany w wyniku klasteryzacji

Analizując graficzne obrazy wyników klasteryzacji dla poszczególnych algorytmów badawczych rodziny Single, zauważono wyraźną tendencję badanej metody klasteryzacji – metody pojedynczego wiązania, do tworzenia od jednego do trzech dużych skupień oraz lokowania w pozostałych, mniejszych skupieniach zaledwie po kilka elementów, a w sytuacjach skrajnych nawet po jednym. Tendencja ta występuje niezależnie od zastosowanej funkcji podobieństwa. Skutkuje to włączaniem do jednego, dużego klastra elementów z kilku klas WNZ, a więc odtworzeniem wielu klas WNZ w tym samym klastrze.

W takim przypadku zastosowany, procentowy wskaźnik (zależność 5.6) Sprawność algorytmu badawczego, opisany w rozdziale 5, uzyskuje relatywnie małe wartości, co świadczy o niskim stopniu skuteczności testowanych algorytmów badawczych.

Wniosek ten potwierdzają wyniki skuteczności algorytmów badawczych z rodziny Single, przedstawione w tabeli 6.1. Dla najkorzystniejszego z algorytmów tej rodziny, algorytmu Single-Seuclidean-40/700 (w tabeli zaznaczono kolorem szarym) uzyskano wynik 62,5%, co oznacza 5 oryginalnych wskazań oraz 3 powtórzenia, dla 8-miu algorytmów uzyskano wynik 50% (4 oryginalne wskazania oraz 4 powtórzenia), zaś dla pozostałych algorytmów wyniki poniżej tej wartości. Taki efekt przeprowadzonego eksperymentu badawczego świadczy o niskiej skuteczności algorytmów badawczych rodziny Single.

6.2. Analiza algorytmów badawczych rodziny Complete

Wyniki analizy skuteczności klasyfikowania występujących jednocześnie wszystkich podstawowych form WNZ, przy użyciu algorytmów badawczych rodziny Complete zamieszczono w tabeli 6.2. Sprawność algorytmów badawczych wyznaczono stosując procentowy wskaźnik (zależność 5.6) – Sprawność algorytmu badawczego.

28 Tabela 6.2 Sprawność algorytmów badawczych rodziny Complete przy klasyfikacji występujących jednocześnie

podstawowych form WNZ

Rysunek 6.2 przedstawia rzeczywisty rozkład zbioru punktów obrazujących poszczególnych formy WNZ uzyskany dla wybranej pary częstotliwości PSD (rysunek a), z rozkładem będącym wynikiem zastosowania wybranego algorytmu badawczego (rysunek b) dla algorytmu badawczego Complete-Cityblock-570/670.

29

a) b)

Rys. 6.2 Graficzny obraz wyniku klasteryzacji przy użyciu algorytmu badawczego Complete-Cityblock-570/670: a) rzeczywisty rozkład zbioru punktów, b) rozkład punktów uzyskany w wyniku klasteryzacji

Analiza graficznych obrazów wyników klasteryzacji dla poszczególnych algorytmów badawczych rodziny Complete, wskazuje na znacząco lepszą selektywność badanej metody klasteryzacji – metody pełnego wiązania, w porównaniu z analizowanymi w rozdziale 6.1 algorytmami badawczymi rodziny Single, realizującymi metodę klasteryzacji – metodę pojedynczego wiązania. Selektywność ta polega na zdolności algorytmów badawczych rodziny Complete do dzielenia dużych skupisk elementów na mniejsze i tworzenia klastrów, które w znacząco lepszym stopniu odtwarzają rzeczywisty rozkład skupień elementów reprezentujących poszczególne klasy WNZ. W tym przypadku zastosowany, procentowy wskaźnik (zależność 5.6) Sprawność algorytmu badawczego, osiąga wyższe wartości, co świadczy o wyższym stopniu skuteczności testowanych algorytmów badawczych. Wniosek ten potwierdzają wyniki skuteczności algorytmów badawczych z rodziny Complete, przedstawione w tabeli 6.2. Dla najskuteczniejszych algorytmów tej rodziny, algorytmów: Complete-Seuclidean-40/700, Complete-Minkowski 0,5-40/700, Complete-Minkowski 0,8-40/700, Complete-Cityblock-570/670 (w tabeli 6.2 zaznaczono kolorem szarym) uzyskano wynik 87,5%, co oznacza 7 oryginalnych wskazań oraz zaledwie 1 powtórzenie. Dla większości algorytmów badawczych tej rodziny uzyskano wyniki 75% (6 oryginalnych wskazań oraz 2 powtórzenia – 10 algorytmów) i 62,5% (5 oryginalnych wskazań oraz 3 powtórzenia – 16 algorytmów) i tylko dla 5-ciu wynik 50% (4 oryginalne wskazania oraz 4 powtórzenia). Taki efekt przeprowadzonego eksperymentu badawczego świadczy o wysokiej skuteczności algorytmów badawczych rodziny Complete. Należy również zauważyć, że 3 spośród 4 algorytmów badawczych rodziny Complete, dla których uzyskano najwyższą wartość skuteczności, oparto o tę samą parę częstotliwości PSD o wartościach 40 kHz dla składowej X oraz 700 kHz dla składowej Y, podobnie jak w przypadku najskuteczniejszego algorytmu badawczego rodziny Single, algorytmu Single-Seuclidean-40/700.

6.3. Analiza algorytmów badawczych rodziny Average

Wyniki analizy skuteczności klasyfikowania występujących jednocześnie wszystkich podstawowych form WNZ, przy użyciu algorytmów badawczych rodziny Average

30 zamieszczono w tabeli 6.3. Sprawność algorytmów badawczych wyznaczono stosując procentowy wskaźnik (zależność 5.6) – Sprawność algorytmu badawczego.

Tabela 6.3 Sprawność algorytmów badawczych rodziny Average przy klasyfikacji występujących jednocześnie podstawowych form WNZ

Rysunek 6.3 przedstawia rzeczywisty rozkład zbioru punktów obrazujących poszczególnych formy WNZ uzyskany dla wybranej pary częstotliwości PSD (rysunek a), z rozkładem będącym wynikiem zastosowania wybranego algorytmu badawczego (rysunek b) dla algorytmu badawczego Average-Mahalanobis-570/670.

31

a) b)

Rys. 6.3 Graficzny obraz wyniku klasteryzacji przy użyciu algorytmu badawczego Average-Mahalanobis-570/670: a) rzeczywisty rozkład zbioru punktów, b) rozkład punktów uzyskany w wyniku klasteryzacji

Przeprowadzona analiza graficznych obrazów wyników klasteryzacji dla poszczególnych algorytmów badawczych rodziny Average, wskazuje, podobnie jak miało to miejsce w przypadku algorytmów badawczych rodziny Complete, na lepszą selektywność badanej metody klasteryzacji – metody średnich połączeń, w porównaniu z analizowanymi w rozdziale 6.1 algorytmami badawczymi rodziny Single, realizującymi metodę klasteryzacji – metodę pojedynczego wiązania. Podobnie jak obserwowano w przypadku algorytmów badawczych rodziny Complete, również algorytmy rodziny Average charakteryzują się zdolnością do dzielenia dużych skupisk elementów na mniejsze i tworzenia klastrów, które w znacząco lepszym stopniu odtwarzają rzeczywisty rozkład skupień elementów reprezentujących poszczególne klasy WNZ. Jednakże zgodnie z wynikami przedstawionymi w tabeli 6.3, zawierającej wartości procentowego wskaźnika – Sprawność algorytmu badawczego (zależność 5.6) – rodzina algorytmów badawczych Average osiąga niższe wartości tego wskaźnika, co świadczy o niższym stopniu skuteczności testowanych algorytmów badawczych od algorytmów rodziny Complete. Dla najskuteczniejszych algorytmów badawczych rodziny Average, uzyskano wynik 75%, co oznacza 6 oryginalnych wskazań oraz 2 powtórzenia. Są to algorytmy: Average-Mahalanobis-570/670, Average-Seuclidean-20/80, Average-Seuclidean-40/700, Average-Minkowski 40/700, Average-Minkowski 0,5-570/670, Average-Minkowski 0,8-40/700, Average-Cityblock-40/700, Average-Mahalanobis-40/700, Average-Euclidean-40/700 (w tabeli 6.3 zaznaczono kolorem szarym). Brak algorytmów badawczych, dla których uzyskano wynik 87,5% lub lepszy, świadczy o niskiej skuteczności algorytmów badawczych rodziny Average. Należy również zauważyć, że 5 spośród 9 algorytmów badawczych rodziny Average, o najwyższej wartość skuteczności w tej rodzinie, oparto o tę samą parę częstotliwości PSD o wartościach 40 kHz dla składowej X oraz 700 kHz dla składowej Y, podobnie jak w przypadku najskuteczniejszych algorytmów badawczych w rodzinach Single oraz Complete.

6.4. Analiza algorytmów badawczych rodziny Ward

Wyniki analizy skuteczności klasyfikowania występujących jednocześnie wszystkich podstawowych form WNZ, przy użyciu algorytmów badawczych rodziny Ward zamieszczono

32 w tabeli 6.4. Sprawność algorytmów badawczych wyznaczono stosując procentowy wskaźnik (zależność 5.6) – Sprawność algorytmu badawczego.

Tabela 6.4 Sprawność algorytmów badawczych rodziny Ward przy klasyfikacji występujących jednocześnie podstawowych form WNZ

Rysunek 6.4 przedstawia rzeczywisty rozkład zbioru punktów obrazujących poszczególnych formy WNZ uzyskany dla wybranej pary częstotliwości PSD (rysunek a), z rozkładem będącym wynikiem zastosowania wybranego algorytmu badawczego (rysunek b) dla algorytmu badawczego Ward-Cityblock-570/670.

33

a) b)

Rys. 6.4 Graficzny obraz wyniku klasteryzacji przy użyciu algorytmu badawczego Ward-Cityblock-570/670:

a) rzeczywisty rozkład zbioru punktów, b) rozkład punktów uzyskany w wyniku klasteryzacji

Analiza graficznych obrazów wyników klasteryzacji dla poszczególnych algorytmów badawczych rodziny Ward, realizujących klasteryzację metodą Warda, wskazuje na najlepszą selektywność spośród dotychczas analizowanych rodzin algorytmów badawczych – rodziny Single, Complete oraz Average. Obserwowano wysoką skuteczność algorytmów badawczych rodziny Ward przy dzieleniu dużych skupisk elementów na mniejsze i tworzeniu klastrów, które z dużą dokładnością odtwarzają rzeczywisty rozkład skupień elementów reprezentujących poszczególne klasy WNZ. Wnioski te potwierdzają wyniki skuteczności algorytmów badawczych z rodziny Ward, przedstawione w tabeli 6.4. Najwyższą skuteczność, na poziomie 87,5% (7 oryginalnych wskazań oraz 1 powtórzenie) uzyskano dla 8 algorytmów badawczych tej rodziny. Są to następujące algorytmy: Euclidean-40/700, Seuclidean-40/700, Minkowski 0,3-40/700, Minkowski 0,5-40/700, Ward-Cityblock-40/700, Ward-Cityblock-570/670, 40/700, Ward-Mahalanobis-170/350. Taki wynik eksperymentu badawczego stanowi podstawę do uznania algorytmów badawczych rodziny Ward za najskuteczniejsze spośród wszystkich algorytmów analizowanych w trakcie przeprowadzonego badania.

Podobnie jak miało to miejsce w przypadku analizy wyników dla algorytmów badawczych rodzin Single, Complete oraz Average, również w przypadku rodziny Ward zaobserwowano wysokie wyniki skuteczności dla algorytmów wykorzystujących parę częstotliwości PSD o wartościach 40 kHz dla składowej X oraz 700 kHz dla składowej Y.

Spośród 8 algorytmów badawczych rodziny Ward, dla których uzyskano skuteczność na poziomie 87,5%, 6 oparto o tę parę częstotliwości PSD.

6.5. Dobór najskuteczniejszego algorytmu badawczego do klasyfikacji ośmiu podstawowych form WNZ występujących jednocześnie

Wyniki eksperymentu badawczego przeprowadzonego dla 140 algorytmów omówionych w rozdziale 6.1 do 6.4 wskazują, że maksymalna skuteczność utworzonych algorytmów, wyznaczana zgodnie z procentowym wskaźnikiem Sprawność algorytmu badawczego (zależność 5.6) wyniosła 87,5%, co oznacza 7 oryginalnych wskazań oraz 1 powtórzenie.

34 Wynik taki uzyskano dla 12, algorytmów badawczych. W celu wskazania wśród nich rozwiązań charakteryzujących się najwyższą skutecznością przeprowadzono analizę porównawczą wyników najdokładniejszych odwzorowań poszczególnych klas WNZ w utworzonych klastrach dla poszczególnych algorytmów, kierując się wynikami uśrednionej wartości modułów różnicy średnich i modułów różnic odchyleń standardowych ∆̅ (zależność 5.5).

Szczegółowy opis tego wskaźnika znajduje się w rozdziale 5 autoreferatu. Aby przeprowadzić analizę porównawczą poszczególnych algorytmów, uśredniono wartość wskaźnika ∆̅ dla każdego z rozpatrywanych algorytmów stosując średnią arytmetyczną. Wyniki przeprowadzonych obliczeń przedstawiono w tabeli 6.5, porządkując je narastająco. Algorytm klasteryzacji o najniższej wartości uśrednionego wskaźnika ∆̅ charakteryzuje się najwyższą skutecznością.

Tabela 6.5 Zestawienie uśrednionej wartości wskaźnika ∆̅ dla algorytmów badawczych o sprawności 87,5%

w porządku narastającym

Lp. Algorytm badawczy Uśredniona wartość wskaźnika ∆̅

1. Ward-Cityblock-570/670 0,0399

2. Complete-Cityblock-570/670 0,0403

3. Ward-Mahalanobis-40/700 0,0978

4. Ward-Euclidean-40/700 0,0998

5. Ward-Seuclidean-40/700 0,0998

6. Ward-Minkowski 0,3-40/700 0,1021

7. Ward-Minkowski 0,5-40/700 0,1030

8. Ward-Cityblock-40/700 0,1037

9. Complete-Seuclidean-40/700 0,1052

10. Complete-Minkowski 0,8-40/700 0,1096 11. Complete-Minkowski 0,5-40/700 0,1170

12. Ward-Mahalanobis-170/350 0,1865

Analiza uśrednionej wartości wskaźnika ∆̅ dla poszczególnych algorytmów badawczych wskazuje, że najskuteczniejszym algorytmem, spośród 12 wytypowanych w wyniku przeprowadzonego eksperymentu badawczego jest algorytm Ward-Cityblock-570/670 realizujący metodę klasteryzacji Warda, z funkcją podobieństwa w postaci odległości miejskiej dla pary częstotliwości PSD o wartościach 570 kHz dla składowej X oraz 670 kHz dla składowej Y (∆̅ = 0,0399). Nieznacznie większą wartość uśrednionego wskaźnika ∆̅ = 0,0403, a więc nieznacznie niższą skuteczność uzyskano dla algorytmu badawczego Complete-Cityblock-570/670 realizującego metodę klasteryzacji pełnego wiązania z funkcją podobieństwa w postaci odległości miejskiej dla pary częstotliwości PSD o wartościach 570 kHz dla składowej X oraz 670 kHz dla składowej Y. Dwa najskuteczniejsze algorytmy

35 badawcze oparto więc o tę samą funkcję podobieństwa – odległość miejską oraz tę samą parę częstotliwości PSD o wartościach 570 kHz i 670 kHz.

Wyniki analizy uśrednionej wartości wskaźnika ∆̅ wykazały również, że dziewięć kolejnych spośród pozostałych algorytmów badawczych, począwszy od trzeciego algorytmu pod względem skuteczności, oparto o tę samą parę częstotliwości PSD o wartościach 40 kHz dla składowej X oraz 700 kHz dla składowej Y. Taki wynik analizy wskazuje, że zastosowanie pary częstotliwości PSD o dużej różnicy wartości pomiędzy składowymi X i Y korzystnie wpływa na sprawność algorytmu klasteryzującego, skutkując wierniejszym odwzorowanie klas WNZ w utworzonych klastrach [25].

Wszystkie algorytmy, dla których w wyniku przeprowadzonego eksperymentu uzyskano najwyższy procentowego wynik wskaźnika Sprawność algorytmu badawczego (zależność 5.6) – 87,5%, oparto o dwie metody klasteryzacji: metodę Warda – 8 algorytmów badawczych oraz metodę pełnego wiązania – 4 algorytmy badawcze. Należy zatem uznać te metody, a w szczególności metodę Warda, za najodpowiedniejsze dla prowadzenia analiz mających na celu klasyfikację podstawowych form WNZ w zbiorach danych utworzonych dla wybranych par częstotliwości PSD.

W algorytmach badawczych zestawionych w tabeli 6.5 zastosowanie znalazły wszystkie wybrane do eksperymentu badawczego funkcje podobieństwa (odległość euklidesowa, standaryzowana odległość euklidesowa, odległość Minkowskiego, odległość miejska oraz odległości Mahalanobisa), co świadczy o mniejszym znaczeniu doboru funkcji podobieństwa w testowanych algorytmach, w porównaniu z zastosowaną metodą klasteryzacji oraz parą częstotliwości PSD.

6.6. Ocena wpływu liczby jednocześnie analizowanych klas WNZ na sprawność algorytmów badawczych

W ostatnim etapie prowadzonych badań przetestowano wpływ liczby równocześnie analizowanych klas WNZ na sprawność wybranych algorytmów badawczych, opisaną przez procentowy wskaźnik Sprawność algorytmu badawczego (zależność 5.6). Analizie porównawczej poddano trzy najskuteczniejsze algorytmy badawcze, zgodnie z wynikami przedstawionymi w rozdziale 6.5, zwiększając liczbę występujących równocześnie klas WNZ od 2 do 8. Testowano następujące algorytmy:

Ward-Cityblock-570/670,

Complete-Cityblock-570/670,

Ward-Mahalanobis-40/700.

Wynik przeprowadzonego eksperymentu badawczego zaprezentowano w tabeli 6.6.

36 Tabela 6.6 Sprawność algorytmów badawczych Ward-Cityblock-570/670, Complete-Cityblock-570/670,

Ward-Mahalanobis-40/700 przy narastającej liczbie klas WNZ występujących równocześnie

Równocześnie

Analiza wyników przedstawionych w tabeli 6.6, wskazuje na wzrastającą wartość sprawności poszczególnych algorytmów badawczych wraz z liczbą równocześnie klasyfikowanych form WNZ, począwszy od wartości 66,67% dla trzech klas WNZ, aż po maksymalną sprawność uzyskaną w całym przeprowadzonym eksperymencie badawczym, wynoszącą 87,5% dla ośmiu równocześnie występujących klas. Wyjątek stanowią wyniki, które uzyskano dla dwóch równocześnie analizowanych klas WNZ. Dla algorytmów badawczych Ward-Cityblock-570/670 oraz Ward-Mahalanobis-40/700 wynoszą one 100%, a więc uzyskano pełne odtworzenie badanych klas WNZ w uzyskanych klastrach. Dla algorytmu badawczego Complete-Cityblock-570/670 uzyskano znacznie gorszy wynik: 50%, a więc odwzorowanie dwóch klas WNZ w tym samym klastrze (wynik na poziomie uzyskiwanym dla algorytmów o najniższej skuteczności).

Biorąc jednak pod uwagę sposób obliczania wartości zaproponowanego procentowego wskaźnika – Sprawność algorytmu badawczego (zależność 5.6), bazującego na porównaniu liczby wielokrotnych wskazań najskuteczniejszego odwzorowania poszczególnych form WNZ w jednym klastrze, z liczbą analizowanych klas, wynik taki oznacza, że wzrastająca liczba równocześnie analizowanych klas WNZ (od 3 do 8) oraz wzrastająca wraz z nią skuteczność, wynika ze stałej dla badanych algorytmów liczby wskazań oryginalnych oraz liczby powtórzeń, która pozostaje na poziomie 7 wskazań oryginalnych i 1 powtórzenia. Rezultat taki upoważnia zatem do stwierdzenia, że począwszy od trzech równocześnie analizowanych klas WNZ, wzrastająca ich liczba nie wpływa na sprawność analizowanych algorytmów badawczych w zakresie skuteczności odtwarzania analizowanych form WNZ w tworzonych klastrach [32].

W przypadku algorytmów badawczych, dla których przeprowadzono analizę, tj.

algorytmu Complete-Cityblock-570/670, algorytmu Cityblock-570/670 oraz Ward-Mahalanobis-40/700, dla ośmiu równocześnie występujących klas WNZ, wspomniane powtórzenia, czyli odtworzenia dwóch klas w tym samym klastrze, dotyczą tych samych klas WNZ. Są to Klasa 2 – wyładowania w układzie ostrze-ostrze ze swobodnie przemieszczającymi się pęcherzykami gazowymi oraz Klasa 3 – wyładowania w układzie ostrze-płyta.

37 W przypadku algorytmów Ward-Cityblock-570/670 oraz Ward-Mahalanobis-40/700 dla dwóch jednocześnie analizowanych klas WNZ uzyskano wynik 100%, a więc pełne odtworzenie badanych klas WNZ w uzyskanych klastrach. Wyniki te pozwalają wytypować metodę klasteryzacji Warda jako najskuteczniejszą do prowadzenia analiz mających na celu efektywną klasyfikację podstawowych form WNZ w zbiorach danych utworzonych dla wybranych par częstotliwości PSD.

Powiązane dokumenty