• Nie Znaleziono Wyników

4. Charakterystyka algorytmów klasteryzacji

4.2. Miary podobieństwa obiektów

4.2.5. Odległość Mahalanobisa

Odległość Minkowskiego, scharakteryzowana w punkcie 4.2.3 opiera się na założeniu, że nie istnieje korelacja pomiędzy poszczególnymi cechami obiektów. W przypadku, gdy cechy opisujące obiekty są jednak ze sobą skorelowane zastosowanie znajduje odległość (miara) Mahalanobisa (ang. Mahalanobis Metric). Miarę tę wyraża zależność [85]:

𝑑(𝐱𝑖, 𝐱𝑗) = √(𝐱𝑖 − 𝐱𝑗)𝑇−1(𝐱𝑖 − 𝐱𝑗) . (4.6)

16 4.3. Metody klasteryzacji hierarchicznej

Metody hierarchiczne należą do najczęściej stosowanych metod klasteryzacji. Ich wspólną cechą jest wyznaczanie skupień poprzez łączenie lub dzielenie skupień powstałych w poprzednich krokach wykonywanego algorytmu. W metodzie hierarchicznej, w celu uzyskania oczekiwanych skupień, stosowane są dwa rozwiązania. Pierwsze z nich, zwane podejściem aglomeracyjnym (ang. Agglomerative Approach) lub wstępującym zakłada na początku, że każdy obiekt stanowi osobny klaster. W kolejnych krokach uzyskane klastry są łączone w większe klastry, aż do momentu uzyskania klastra obejmującego wszystkie obiekty.

Proces ten może zostać zakończony wcześniej, po osiągnięciu warunku stopu, jakim jest zadana liczba klastrów. Skupienia łączy się zgodnie ze zmniejszającym się stopniem podobieństwa (lub wzrastającym stopniem odmienności). Drugie z rozwiązań stosowanych w hierarchicznych metodach analizy skupień nazywane jest podejściem podziałowym (ang.

Divisive Approach), zstępującym lub rozdrobnieniowym, w którym zakłada się, że wszystkie obiekty należą do jednego klastra. W kolejnych krokach klaster ten dzielony jest na mniejsze klastry, zgodnie ze wzrastającym stopniem podobieństwa wewnątrz klastra, aż do momentu, gdy każdy obiekt tworzył będzie osobny klaster. Podobnie jak miało to miejsce przy podejściu aglomeracyjnym, również w rozwiązaniu podziałowym, możliwe jest zakończenie dzielenia klastrów w momencie osiągnięcia założonej ich liczby, czyli po spełnieniu warunku stopu [52, 65, 85]. Częściej stosowanym rozwiązaniem jest podejście aglomeracyjne, ponieważ poważnym problemem w przypadku podejścia podziałowego jest znalezienie efektywnej procedury dzielącej klaster na mniejsze części [52, 65]. W toku prowadzonych prac naukowo-badawczych zastosowano podejście aglomeracyjne. Wybór skupień podlegających łączeniu w kolejnych krokach algorytmu uzależniony jest od zastosowanej metody z rodziny metod hierarchicznych. Ich przegląd przedstawiono poniżej.

4.3.1. Metoda pojedynczego wiązania

Metoda pojedynczego wiązania, zwana też metodą najbliższego sąsiedztwa (ang. Single linkage) opiera się o obliczenie odległości między dwoma skupieniami na podstawie odległości między dwoma najbliższymi obiektami należącymi do różnych skupień, zgodnie z zależnością:

𝑑(𝐶𝑖, 𝐶𝑗) = min

𝑖∈𝐶𝑖,𝑗∈𝐶𝑗𝑑(𝑥𝑖 , 𝑥𝑗), (4.7)

gdzie: 𝐶𝑖, 𝐶𝑗 są klastrami, a 𝑑(𝐶𝑖, 𝐶𝑗) oznacza miarę niepodobieństwa między nimi.

Metoda pojedynczego wiązania charakteryzuje się tworzeniem skupień o wydłużonych kształtach, tzw. łańcuchów [52, 78, 85].

4.3.2. Metoda pełnego wiązania

Metoda pełnego wiązania lub najdalszego sąsiedztwa (ang. Complete linkage) wykorzystuje zasadę wyznaczania odległości między dwoma skupieniami na podstawie odległości między dwoma najodleglejszymi obiektami należącymi do różnych skupień. Metodę tę opisuje zależność:

17 𝑑(𝐶𝑖, 𝐶𝑗) = max

𝑖∈𝐶𝑖,𝑗∈𝐶𝑗𝑑(𝑥𝑖 , 𝑥𝑗). (4.8) Metoda pełnego wiązania, będąc przeciwieństwem metody pojedynczego wiązania, tworzy zwarte skupienia o małej średnicy. Jest najbardziej odpowiednia, gdy rzeczywiste obiekty tworzą skupienia zwarte i dobrze separowane [52, 78, 85].

4.3.3. Metoda średnich połączeń

Metoda średnich połączeń, zwana też metodą średniego wiązania (ang. Average linkage, Unweighted Pair-Group Average, UPGA) oparta jest o wyznaczanie odległości miedzy dwoma skupieniami na podstawie średniej odległości między wszystkimi parami obiektów należących do porównywanych skupień, zgodnie ze wzorem:

𝑑(𝐶𝑖, 𝐶𝑗) =𝑛 1

𝐶𝑖𝑛𝐶𝑗𝑖∈𝐶𝑖𝑗∈𝐶𝑗𝑑(𝑥𝑖 , 𝑥𝑗), (4.9)

gdzie: 𝑛𝐶𝑖, 𝑛𝐶𝑗są liczbami obiektów odpowiednio w skupieniu 𝐶𝑖, 𝐶𝑗.

Metoda średnich połączeń, w przeciwieństwie do metod pojedynczego i pełnego wiązania, jest odporna na występowanie zaszumionych danych oraz punktów osobliwych. [52, 65, 78, 85].

4.3.4. Metoda Warda

Obok metod wiązania skupień opisanych w punktach 4.3.1.do 4.3.3. istnieje również, sformułowana w 1963 roku, popularna metoda minimalnej wariancji Warda, zwana również po prostu metodą Warda. Metoda ta opiera się o obliczenie miary niepodobieństwa między skupieniami 𝐶𝑖 i 𝐶𝑗 ∪ 𝐶𝑗 na podstawie zależności:

𝑑(𝐶𝑖, 𝐶𝑗 ∪ 𝐶𝑗) =n n𝐶𝑖+ n𝐶𝑗

𝐶𝑖+n𝐶𝑗 + n

𝐶𝑗 𝑑(𝐶𝑖, 𝐶𝑗) + n n𝐶𝑖+ n𝐶𝑗

𝐶𝑖+n𝐶𝑗 + n

𝐶𝑗 𝑑(𝐶𝑖, 𝐶𝑗) − − n n𝐶𝑖

𝐶𝑖+n𝐶𝑗 + n

𝐶𝑗 𝑑(𝐶𝑗, 𝐶𝑗), (4.10)

gdzie: n𝐶𝑖, 𝑛𝐶𝑗, 𝑛𝐶

𝑗 są liczbami obiektów odpowiednio w skupieniu 𝐶𝑖, 𝐶𝑗 [52, 85].

Metoda Warda traktowana jest jako bardzo efektywna, jednakże w wyniku jej zastosowania otrzymuje się skupienia o niewielkiej, zbliżonej liczebności [52, 85].

5. Przebieg eksperymentu badawczego

Utworzone zbiory danych w postaci 100-elementowych, dwukolumnowych macierzy dla każdej z 8 form WNZ, poddano analizie przy użyciu algorytmów badawczych, składających się z wybranej metody klasteryzacji oraz wybranej funkcji podobieństwa. Celem tego badania

18 było określenie skuteczności poszczególnych algorytmów przy klasyfikacji podstawowych form WNZ. Algorytmy badawcze oznaczono skrótowo w następujący sposób [32]:

metoda klasteryzacji – funkcja podobieństwa – częstotliwości PSD X/Y,

wskazując wybraną metodę klasteryzacji oraz wybraną funkcję podobieństwa, a także, dodatkowo, parę częstotliwości widma gęstości mocy, dla której utworzono badany zbiór danych. Algorytmy przyjęte w ramach przeprowadzonych przez Autora prac badawczych umożliwiały sprawdzenie poszczególnych metod klasteryzacji pod kątem ich skuteczności, dla różnych funkcji podobieństwa – odległości i dla wybranych par częstotliwości PSD.

Zastosowane metody klasteryzacji oraz funkcje podobieństwa opisane zostały w rozdziale 4 niniejszego autoreferatu. Zestawienie skróconych nazw poszczególnych metod klasyteryzacji oraz funkcji podobieństwa, stosowanych w dalszych badaniach zamieszczono w tabeli 5.1.

Tabela 5.1 Zestawienie skróconych nazw poszczególnych metod klasteryzacji oraz funkcji podobieństwa Nazwa pełna Nazwa skrócona

Metody klasteryzacji

Metoda pojedynczego wiązania Single Metoda pełnego wiązania Complete Metoda średnich połączeń Average

Metoda Warda Ward

Funkcje podobieństwa

Odległość euklidesowa Euclidean Standaryzowana odległość euklidesowa Seuclidean

Odległość Minkowskiego Minkowski

Odległość miejska Cityblock

Odległość Mahalanobisa Mahalanobis

Proces klasteryzacji zadany w poszczególnych, roboczych algorytmach badawczych realizowany był przy zastosowaniu procedur numerycznych dostępnych w środowisku symulacyjno-obliczeniowym pakietu oprogramowania Matlab, w którym klasteryzacja realizowana jest przez zestaw trzech instrukcji: pdist , linkage oraz cluster. Instrukcja cluster służy do grupowania elementów w zbiorze, w instrukcji pdist określa się funkcję podobieństwa, według której obliczana będzie odległość między elementami zbioru, natomiast w instrukcji linkage wskazuje się wybraną metodę klasteryzacji [51].

Przeprowadzony eksperyment badawczy polegał na dokonaniu analizy porównawczej rzeczywistego rozkładu zbioru danych dla rozpatrywanych klas WNZ, z rozkładem uzyskanym w drodze klasteryzacji przy użyciu wybranego algorytmu badawczego, a w szczególności porównaniu przynależności poszczególnych punktów z klas WNZ do utworzonych klastrów.

Rysunek 5.1 przedstawia rzeczywisty rozkład punktów reprezentujących zbiory danych dla trzech przykładowych klas WNZ [26] i przykładowej pary częstotliwości PSD [25].

W trakcie analizowanego eksperymentu wybrano następujące klasy: Klasę 1 – wyładowania w układzie ostrze-ostrze, Klasę 3 – wyładowania w układzie ostrze-płyta oraz Klasę 5 – wyładowania w układzie powierzchniowym z jedną elektrodą płaską, drugą wieloostrzową, między którymi znajduje się izolacja papierowo-olejowa. Natomiast pary częstotliwości PSD

19 klasyfikowanych sygnałów EA określono następująco: 50 kHz dla składowej X i 700 kHz dla składowej Y.

Rys. 5.1. Zbiór punktów obrazujących sygnały EA od WNZ dla przykładowych klas WNZ – Klasy 1, 3, 5 i pary częstotliwości PSD o wartościach 50 kHz dla składowej X oraz 700 kHz dla składowej Y

Rysunek 5.2 prezentuje wynik klasteryzacji, przeprowadzonej dla klas WNZ – Klasy 1, 3, 5, z wykorzystaniem następującego, przykładowego algorytmu badawczego [26]:

Ward – Seuclidean – 50/700,

a więc dla metody klasteryzacji Warda, standaryzowanej odległości euklidesowej oraz pary częstotliwości PSD o wartościach 50 kHz dla składowej X oraz 700 kHz dla składowej Y.

Rys. 5.2. Podział zbioru punktów na klastry w wyniku klasteryzacji przeprowadzonej dla klas WNZ – Klasy 1, 3, 5, z wykorzystaniem przykładowego algorytmu badawczego Ward – Seuclidean – 50/700

20 Porównanie przedstawionego na rys. 5.1 rzeczywistego podziału zbioru punktów dla trzech, przykładowych klas WNZ, z podziałem tego samego zbioru uzyskanym w wyniku przeprowadzonej klasteryzacji, zaprezentowanym na rys. 5.2, wskazuje na istnienie różnic pomiędzy rzeczywistą przynależnością części punktów do poszczególnych klas WNZ, a włączeniem ich do utworzonych klastrów. Można więc mówić o istnieniu pewnej dokładności, stopniu lub efektywności odtworzenia rzeczywistego rozkładu zbioru punktów (rys. 5.1) w utworzonych klastrach (rys. 5.2), a więc i skuteczności zastosowanego algorytmu klasteryzacyjnego.

Aby możliwe było przeprowadzenie procesu porównania poszczególnych algorytmów badawczych pod kątem ich skuteczności przy klasyfikacji poszczególnych form WNZ, konieczne było określenie liczbowych parametrów – wskaźników skuteczności, umożliwiających oszacowanie stopnia odtworzenia rzeczywistego rozkładu zbioru punktów w utworzonych klastrach. Jako wskaźniki skuteczności zastosowano moduł różnicy średnich

|∆𝑥̅| oraz moduł różnicy odchyleń standardowych |∆𝜎| wartości wag gęstości widma, wyznaczonych dla rozkładu rzeczywistego badanych klas WNZ i rozkładu klastrów uzyskanego w wyniku przeprowadzonej klasteryzacji, oddzielnie dla składowej X oraz składowej Y. Do obliczeń przyjęto 20 wartości wag gęstości widma, uzyskanych w wyniku przeprowadzonej analizy liczebności obu rozkładów, przy zastosowaniu standardowo dostępnej w środowisku symulacyjno-obliczeniowym Matlab funkcji hist. Wynik tej analizy w postaci histogramów przedstawiono na rys. 5.3.

Ponieważ średnia arytmetyczna, ze względu na zniekształcanie wyników w skutek dodania wartości skrajnych, jest miarą dającą dobre efekty przy badaniu zbiorów o niskim stopniu zróżnicowania cechy zmiennej, natomiast odchylenie standardowe jest miarą przydatną przy badaniu zbiorowości, które charakteryzują się niejednorodnością [88], zdecydowano o jednoczesnym stosowaniu tych dwóch, uzupełniających się wskaźników skuteczności.

Pierwszy z zastosowanych w trakcie eksperymentu badawczego wskaźników skuteczności – moduł różnicy średnich |∆𝑥̅| oparty został o średnie arytmetyczne wyznaczane dla wartości wag gęstości widma dla badanych klas WNZ oraz uzyskanych klastrów. Wskaźnik ten określa równanie:

|∆𝑥̅| = |𝑥̅(𝑘𝑙𝑎𝑠𝑡𝑟𝑎)−𝑥̅(𝑘𝑙𝑎𝑠𝑦)| = |1𝑛𝑛𝑖=1𝑥𝑛(𝑘𝑙𝑎𝑠𝑡𝑟𝑎)𝑛1𝑛𝑖=1𝑥𝑛(𝑘𝑙𝑎𝑠𝑦)|, (5.1)

dla 𝑛 = 20.

gdzie: |∆𝑥̅| – moduł różnicy średnich, 𝑥̅(𝑘𝑙𝑎𝑠𝑡𝑟𝑎) – średnia arytmetyczna wartości wag gęstości widma dla badanego klastra, 𝑥̅(𝑘𝑙𝑎𝑠𝑦) – średnia arytmetyczna wartości wag gęstości widma dla badanej klasy WNZ, 𝑥𝑛(𝑘𝑙𝑎𝑠𝑡𝑟𝑎) – wartość n-tej wagi gęstości widma w badanym klastrze, 𝑥𝑛(𝑘𝑙𝑎𝑠𝑦) – wartość n-tej wagi gęstości widma w badanej klasie WNZ.

Drugi ze wskaźników skuteczności – moduł różnicy odchyleń standardowych |∆𝜎|, oparto o wyliczone wartości odchyleń standardowych dla wartości wag gęstości widma, dla badanych klas WNZ oraz uzyskanych klastrów. Wskaźnik ten opisuje równanie:

|∆𝜎| = |𝜎(𝑘𝑙𝑎𝑠𝑡𝑟𝑎)− 𝜎(𝑘𝑙𝑎𝑠𝑦)| =

21

= |√𝑛−11𝑛𝑖=1(𝑥𝑛(𝑘𝑙𝑎𝑠𝑡𝑟𝑎)− 𝑥̅(𝑘𝑙𝑎𝑠𝑡𝑟𝑎))2 − √𝑛−11𝑛𝑖=1(𝑥𝑛(𝑘𝑙𝑎𝑠𝑦)− 𝑥̅(𝑘𝑙𝑎𝑠𝑦))2|, (5.2)

dla 𝑛 = 20,

gdzie: |∆𝜎| - moduł różnicy odchyleń standardowych, 𝜎(𝑘𝑙𝑎𝑠𝑡𝑟𝑎) – odchylenie standardowe wartości wag gęstości widma dla badanego klastra, 𝜎(𝑘𝑙𝑎𝑠𝑦)– odchylenie standardowe wartości wag gęstości widma dla badanej klasy WNZ, 𝑥𝑛(𝑘𝑙𝑎𝑠𝑡𝑟𝑎) – wartość n-tej wagi gęstości widma w badanym klastrze, 𝑥̅(𝑘𝑙𝑎𝑠𝑡𝑟𝑎) średnia arytmetyczna wartości wag gęstości widma dla badanego klastra, 𝑥𝑛(𝑘𝑙𝑎𝑠𝑦)– wartość n-tej wagi gęstości widma w badanej klasie WNZ, 𝑥̅(𝑘𝑙𝑎𝑠𝑦)– średnia arytmetyczna wartości wag gęstości widma dla badanej klasy WNZ.

Wyznaczenie skuteczności analizowanego algorytmu badawczego polegało w pierwszym etapie na wyliczeniu wartości średniej 𝑥̅ oraz odchylenia standardowego 𝜎 wartości wag gęstości widma dla badanych klas WNZ oraz uzyskanych klastrów, oddzielnie dla składowej X i dla składowej Y.

Graficzną reprezentację tego etapu obliczeń stanowią histogramy obrazujące liczebność elementów w poszczególnych wagach gęstości widma oryginalnego rozkładu danych pomiarowych oraz rozkładu uzyskanego w wyniku klasteryzacji dla wybranej składowej.

Rysunek 5.3 przedstawia przykładowe histogramy, prezentujące rozkłady liczebności elementów w poszczególnych wagach gęstości widma dla składowej X, wraz z wyliczonymi wartościami średniej 𝑥̅ (Mean) oraz odchylenia standardowego 𝜎 (STD) wartości wag gęstości widma dla Klasy 5 i klastra 3 oraz Klasy 3 i klastra 1, utworzonych dla algorytmu badawczego Ward – Seuclidean – 50/700 oraz wybranych, przykładowych klas WNZ – Klasy 1, 3, 5. Na rysunku tym znajdują się również graficzne porównania uzyskanych rozkładów liczebności elementów w poszczególnych wagach gęstości widma dla Klasy 5 i klastra 3 oraz Klasy 3 i klastra 1. Gdy charakterystyki pokrywają się odwzorowanie klasy w klastrze jest wierne (Rys.

5.3a), gdy znajdują sie z dala od siebie brak jest odwzorowania (Rys. 5.3b)[60].

a)

22 b)

Rys. 5.3. Rozkłady liczebności elementów w poszczególnych wagach gęstości widma dla składowej X, wraz z wyliczonymi wartościami średniej 𝑥̅ (Mean) oraz odchylenia standardowego 𝜎 (STD) oraz porównaniem uzyskanych rozkładów a) dla Klasy 5 i klastra 3 b) Klasy 3 i klastra 1, utworzonych dla algorytmu badawczego Ward – Seuclidean – 50/700 oraz wybranych, przykładowych klas WNZ – Klasy 1, 3, 5

Następnie dla każdej pary klasa-klaster, dla badanych klas WNZ oraz uzyskanych klastrów, wyznaczono moduł różnicy średnich |∆𝑥̅|, zgodnie ze wzorem (5.1) oraz moduł różnicy odchyleń standardowych |∆𝜎|, zgodnie ze wzorem (5.2), pomiędzy wartościami średniej 𝑥̅ oraz odchylenia standardowego 𝜎 dla wartości wag gęstości widma, oddzielnie dla składowej X i składowej Y. Wartości różnic uzyskane dla poszczególnych składowych, uśredniono przy wykorzystaniu średniej arytmetycznej, zgodnie z zależnościami:

∆𝑥

ś𝑟

=

|∆𝑥̅(𝑋)|+|∆𝑥̅(𝑌)|

2

=

|𝑥̅(𝑋)(𝑘𝑙𝑎𝑠𝑡𝑟𝑎)−𝑥̅(𝑋)(𝑘𝑙𝑎𝑠𝑦)|+|𝑥̅(𝑌)(𝑘𝑙𝑎𝑠𝑡𝑟𝑎)−𝑥̅(𝑌)(𝑘𝑙𝑎𝑠𝑦)|

2 , (5.3)

gdzie: ∆𝑥ś𝑟 – uśredniona dla składowych X i Y wartość modułów różnic średnich, |∆𝑥̅(𝑋)| – moduł różnicy średnich dla składowej X, |∆𝑥̅(𝑌)| – moduł różnicy średnich dla składowej Y, 𝑥̅(𝑋)(𝑘𝑙𝑎𝑠𝑡𝑟𝑎) średnia arytmetyczna wartości wag gęstości widma dla badanego klastra, dla składowej X, 𝑥̅(𝑋)(𝑘𝑙𝑎𝑠𝑦) średnia arytmetyczna wartości wag gęstości widma dla badanej klasy WNZ, dla składowej X, 𝑥̅(𝑌)(𝑘𝑙𝑎𝑠𝑡𝑟𝑎) – średnia arytmetyczna wartości wag gęstości widma dla badanego klastra, dla składowej Y, 𝑥̅(𝑌)(𝑘𝑙𝑎𝑠𝑦) – średnia arytmetyczna wartości wag gęstości widma dla badanej klasy WNZ, dla składowej Y.

∆𝜎

ś𝑟

=

|∆𝜎(𝑋)|+|∆𝜎(𝑌)|

2

=

|𝜎(𝑋)(𝑘𝑙𝑎𝑠𝑡𝑟𝑎) − 𝜎(𝑋)(𝑘𝑙𝑎𝑠𝑦)|+|𝜎(𝑌)(𝑘𝑙𝑎𝑠𝑡𝑟𝑎) − 𝜎(𝑌)(𝑘𝑙𝑎𝑠𝑦)|

2 , (5.4)

gdzie: ∆𝜎ś𝑟 - uśredniona dla składowych X i Y wartość modułów różnic odchyleń standardowych,

|∆𝜎(𝑋)| – moduł różnicy odchyleń standardowych dla składowej X, |∆𝜎(𝑌)| – moduł różnicy odchyleń standardowych dla składowej Y, 𝜎(𝑋)(𝑘𝑙𝑎𝑠𝑡𝑟𝑎) – odchylenie standardowe wartości wag gęstości widma dla badanego klastra, dla składowej X, 𝜎(𝑋)(𝑘𝑙𝑎𝑠𝑦) – odchylenie standardowe wartości wag gęstości widma dla badanej klasy WNZ, dla składowej X, 𝜎(𝑌)(𝑘𝑙𝑎𝑠𝑡𝑟𝑎) – odchylenie standardowe wartości wag

23 gęstości widma dla badanego klastra, dla składowej Y, 𝜎(𝑌)(𝑘𝑙𝑎𝑠𝑦) – odchylenie standardowe wartości wag gęstości widma dla badanej klasy WNZ, dla składowej Y.

Biorąc pod uwagę jednorodność przedstawionych powyżej wskaźników, opisanych wzorami (5.3) i (5.4), będących uśrednionymi dla składowych X i Y modułami różnic odpowiednio średnich |∆𝑥̅| oraz odchyleń standardowych |∆𝜎| wartości wag gęstości widma dla badanych klasy i klastra, zdecydowano o ich połączeniu w jeden wskaźnik poprzez uśrednienie wartości przy wykorzystaniu średniej arytmetycznej, zgodnie z zależnością:

∆̅=

∆𝑥ś𝑟+∆𝜎2 ś𝑟, (5.5)

gdzie: ∆̅ – uśredniona wartość modułów różnic średnich i modułów różnic odchyleń standardowych, ∆𝑥ś𝑟

– uśredniona dla składowych X i Y wartość modułów różnic średnich, ∆𝜎ś𝑟 – uśredniona dla składowych X i Y wartość modułów różnic odchyleń standardowych.

Uzyskany wskaźnik ∆̅ odzwierciedla skuteczność odtworzenia klasy w klastrze, zapewniając jednocześnie uwzględnienie obu uzupełniających się wskaźników skuteczności – średniej arytmetycznej oraz odchylenia standardowego, wybranych w celu przeprowadzenia procesu porównania poszczególnych algorytmów badawczych pod kątem ich skuteczności przy klasyfikacji poszczególnych form WNZ.

Wyboru najskuteczniejszego odwzorowania badanych klas WNZ w poszczególnych, utworzonych klastrach dokonywano poprzez wskazywanie najmniejszej wartości wskaźnika ∆̅

[25, 32, 59]. Obliczenia wykonano przy użyciu procedur dostępnych w środowisku symulacyjno-obliczeniowym Matlab, stosując instrukcje mean oraz STD.

W tabeli 5.2 przedstawiono uzyskane tą drogą wyniki dla przykładowego algorytmu badawczego Ward – Seuclidean – 50/700 oraz wybranych, przykładowych klas WNZ – Klasy 1, 3, 5. Wyróżniono wyniki najskuteczniejszych odwzorowań poszczególnych klas WNZ w uzyskanych klastrach.

Tabela 5.2 Zestawienie wyników odwzorowania klas WNZ w utworzonych klastrach dla przykładowego algorytmu badawczego Ward – Seuclidean – 50/700 oraz wybranych, przykładowych klas WNZ – Klasy 1, 3, 5

Klasa Klaster Składowa

24 W celu przeprowadzenia jednoznacznej oceny skuteczności analizowanego algorytmu badawczego zaproponowano procentowy wskaźnik pod nazwą Sprawność algorytmu badawczego, bazujący na porównaniu liczby wielokrotnych wskazań najskuteczniejszego odwzorowania poszczególnych klas WNZ w jednym klastrze, przy czym powtórzenie liczone było od kolejnego wskazania, a liczbą analizowanych klas WNZ. Wskaźnik ten określono

Stosując wskaźnik S (5.6) do analizy wyników zawartych w tabeli 5.2, uzyskanych dla przykładowego algorytmu badawczego Ward – Seuclidean – 50/700 oraz przykładowych klas WNZ – Klasy 1, 3, 5, otrzymano wynik, w którym:

 Klasa 1 najlepiej została odwzorowana w klastrze 1,

 Klasa 3 w klastrze 2,

 Klasa 5 w klastrze 3,

nie wystąpiło więc powtórzenie, czyli odtworzenie kilku klas WNZ w tym samym klastrze.

Zgodnie z regułą (5.6) sprawność przykładowego algorytmu badawczego Ward – Seuclidean – 50/700 oraz wybranych, przykładowych klas WNZ – Klasy 1, 3, 5 wynosi więc 100%.

W tabeli 5.3 zamieszczono wyniki podobnego badania, przeprowadzonego dla innego, przykładowego algorytmu badawczego Ward – Cityblock – 280/610, a więc dla metody klasteryzacji Warda, odległości miejskiej oraz pary częstotliwości PSD o wartościach 280 kHz dla składowej X oraz 610 kHz dla składowej Y, a także innych, przykładowych klas WNZ:

Klasy 1 (wyładowania w układzie ostrze), Klasy 2 (wyładowania w układzie ostrze-ostrze ze swobodnie przemieszczającymi się pęcherzykami gazowymi) i Klasy 3 (wyładowania w układzie ostrze-płyta).

Tabela 5.3 Zestawienie wyników odwzorowania klas WNZ w utworzonych klastrach dla przykładowego algorytmu badawczego Ward – Cityblock – 280/610 oraz wybranych, przykładowych klas WNZ – Klasy 1, 2, 3

5 1 X -2,94 0,5470 -2,79 0,3810 0,1510 0,1660

25 W przypadku algorytmu badawczego: Ward – Cityblock – 280/610 oraz wybranych, przykładowych klas WNZ – Klasy 1, 2, 3 otrzymano wynik, w którym:

 Klasa 1 najlepiej została odwzorowana w klastrze 2,

 Klasa 2 również najlepiej odwzorowana została w klastrze 2,

 Klasa 3 w klastrze 3,

wystąpiło powtórzenie, czyli najlepsze odwzorowanie Klasy 1 i Klasy 2 w klastrze 2. Zgodnie z regułą (5.6) sprawność przykładowego algorytmu badawczego Ward – Cityblock – 280/610 dla wybranych, przykładowych klas WNZ – Klasy 1, 2, 3, wynosi zatem 66,67%.

6. Wyniki przeprowadzonego eksperymentu badawczego

Analizę skuteczności klasyfikacji podstawowych form WNZ przy użyciu metod klasteryzacji oparto o testowanie zaproponowanych algorytmów badawczych, składających się z wybranej metody klasteryzacji oraz funkcji podobieństwa w odniesieniu do zbiorów punktów reprezentujących sygnały EA dla wszystkich klas WNZ występujących łącznie, utworzonych dla poszczególnych par częstotliwości PSD. Uwzględniając zastosowanie ułamkowych odległości Minkowskiego o wartościach p = 0,3; p = 0,5 oraz p = 0,8 [1, 85], pełen eksperyment badawczy obejmował więc analizę 140 algorytmów badawczych, których skuteczność testowano dla występujących jednocześnie wszystkich podstawowych form WNZ wymienionych i opisanych w rozdziale 4 niniejszego autoreferatu.

Algorytmy badawcze poddane eksperymentowi podzielono na 4 rodziny, zgodnie z badanymi metodami klasteryzacji.

26 6.1. Analiza algorytmów badawczych rodziny Single

Wyniki analizy skuteczności klasyfikowania występujących jednocześnie wszystkich podstawowych form WNZ, przy użyciu algorytmów badawczych rodziny Single zamieszczono w tabeli 6.1. Sprawność algorytmów badawczych wyznaczono stosując procentowy wskaźnik (zależność 5.6) – Sprawność algorytmu badawczego.

Tabela 6.1 Sprawność algorytmów badawczych rodziny Single przy klasyfikacji występujących jednocześnie podstawowych form WNZ

Rysunek 6.1 przedstawia rzeczywisty rozkład zbioru punktów obrazujących poszczególnych formy WNZ uzyskany dla wybranej pary częstotliwości PSD (rysunek a), z rozkładem będącym wynikiem zastosowania wybranego algorytmu badawczego (rysunek b) dla algorytmu badawczego Single-Seuclidean-40/700.

27

a) b)

Rys. 6.1 Graficzny obraz wyniku klasteryzacji przy użyciu algorytmu badawczego Single-Seuclidean-40/700:

a) rzeczywisty rozkład zbioru punktów, b) rozkład punktów uzyskany w wyniku klasteryzacji

Analizując graficzne obrazy wyników klasteryzacji dla poszczególnych algorytmów badawczych rodziny Single, zauważono wyraźną tendencję badanej metody klasteryzacji – metody pojedynczego wiązania, do tworzenia od jednego do trzech dużych skupień oraz lokowania w pozostałych, mniejszych skupieniach zaledwie po kilka elementów, a w sytuacjach skrajnych nawet po jednym. Tendencja ta występuje niezależnie od zastosowanej funkcji podobieństwa. Skutkuje to włączaniem do jednego, dużego klastra elementów z kilku klas WNZ, a więc odtworzeniem wielu klas WNZ w tym samym klastrze.

W takim przypadku zastosowany, procentowy wskaźnik (zależność 5.6) Sprawność algorytmu badawczego, opisany w rozdziale 5, uzyskuje relatywnie małe wartości, co świadczy o niskim stopniu skuteczności testowanych algorytmów badawczych.

Wniosek ten potwierdzają wyniki skuteczności algorytmów badawczych z rodziny Single, przedstawione w tabeli 6.1. Dla najkorzystniejszego z algorytmów tej rodziny, algorytmu Single-Seuclidean-40/700 (w tabeli zaznaczono kolorem szarym) uzyskano wynik 62,5%, co oznacza 5 oryginalnych wskazań oraz 3 powtórzenia, dla 8-miu algorytmów uzyskano wynik 50% (4 oryginalne wskazania oraz 4 powtórzenia), zaś dla pozostałych algorytmów wyniki poniżej tej wartości. Taki efekt przeprowadzonego eksperymentu badawczego świadczy o niskiej skuteczności algorytmów badawczych rodziny Single.

6.2. Analiza algorytmów badawczych rodziny Complete

Wyniki analizy skuteczności klasyfikowania występujących jednocześnie wszystkich podstawowych form WNZ, przy użyciu algorytmów badawczych rodziny Complete zamieszczono w tabeli 6.2. Sprawność algorytmów badawczych wyznaczono stosując procentowy wskaźnik (zależność 5.6) – Sprawność algorytmu badawczego.

28 Tabela 6.2 Sprawność algorytmów badawczych rodziny Complete przy klasyfikacji występujących jednocześnie

podstawowych form WNZ

Rysunek 6.2 przedstawia rzeczywisty rozkład zbioru punktów obrazujących poszczególnych formy WNZ uzyskany dla wybranej pary częstotliwości PSD (rysunek a), z rozkładem będącym wynikiem zastosowania wybranego algorytmu badawczego (rysunek b) dla algorytmu badawczego Complete-Cityblock-570/670.

29

a) b)

Rys. 6.2 Graficzny obraz wyniku klasteryzacji przy użyciu algorytmu badawczego Complete-Cityblock-570/670: a) rzeczywisty rozkład zbioru punktów, b) rozkład punktów uzyskany w wyniku klasteryzacji

Analiza graficznych obrazów wyników klasteryzacji dla poszczególnych algorytmów badawczych rodziny Complete, wskazuje na znacząco lepszą selektywność badanej metody klasteryzacji – metody pełnego wiązania, w porównaniu z analizowanymi w rozdziale 6.1 algorytmami badawczymi rodziny Single, realizującymi metodę klasteryzacji – metodę pojedynczego wiązania. Selektywność ta polega na zdolności algorytmów badawczych rodziny Complete do dzielenia dużych skupisk elementów na mniejsze i tworzenia klastrów, które w znacząco lepszym stopniu odtwarzają rzeczywisty rozkład skupień elementów reprezentujących poszczególne klasy WNZ. W tym przypadku zastosowany, procentowy wskaźnik (zależność 5.6) Sprawność algorytmu badawczego, osiąga wyższe wartości, co

Analiza graficznych obrazów wyników klasteryzacji dla poszczególnych algorytmów badawczych rodziny Complete, wskazuje na znacząco lepszą selektywność badanej metody klasteryzacji – metody pełnego wiązania, w porównaniu z analizowanymi w rozdziale 6.1 algorytmami badawczymi rodziny Single, realizującymi metodę klasteryzacji – metodę pojedynczego wiązania. Selektywność ta polega na zdolności algorytmów badawczych rodziny Complete do dzielenia dużych skupisk elementów na mniejsze i tworzenia klastrów, które w znacząco lepszym stopniu odtwarzają rzeczywisty rozkład skupień elementów reprezentujących poszczególne klasy WNZ. W tym przypadku zastosowany, procentowy wskaźnik (zależność 5.6) Sprawność algorytmu badawczego, osiąga wyższe wartości, co

Powiązane dokumenty