• Nie Znaleziono Wyników

Utworzone zbiory danych w postaci 100-elementowych, dwukolumnowych macierzy dla każdej z 8 form WNZ, poddano analizie przy użyciu algorytmów badawczych, składających się z wybranej metody klasteryzacji oraz wybranej funkcji podobieństwa. Celem tego badania

18 było określenie skuteczności poszczególnych algorytmów przy klasyfikacji podstawowych form WNZ. Algorytmy badawcze oznaczono skrótowo w następujący sposób [32]:

metoda klasteryzacji – funkcja podobieństwa – częstotliwości PSD X/Y,

wskazując wybraną metodę klasteryzacji oraz wybraną funkcję podobieństwa, a także, dodatkowo, parę częstotliwości widma gęstości mocy, dla której utworzono badany zbiór danych. Algorytmy przyjęte w ramach przeprowadzonych przez Autora prac badawczych umożliwiały sprawdzenie poszczególnych metod klasteryzacji pod kątem ich skuteczności, dla różnych funkcji podobieństwa – odległości i dla wybranych par częstotliwości PSD.

Zastosowane metody klasteryzacji oraz funkcje podobieństwa opisane zostały w rozdziale 4 niniejszego autoreferatu. Zestawienie skróconych nazw poszczególnych metod klasyteryzacji oraz funkcji podobieństwa, stosowanych w dalszych badaniach zamieszczono w tabeli 5.1.

Tabela 5.1 Zestawienie skróconych nazw poszczególnych metod klasteryzacji oraz funkcji podobieństwa Nazwa pełna Nazwa skrócona

Metody klasteryzacji

Metoda pojedynczego wiązania Single Metoda pełnego wiązania Complete Metoda średnich połączeń Average

Metoda Warda Ward

Funkcje podobieństwa

Odległość euklidesowa Euclidean Standaryzowana odległość euklidesowa Seuclidean

Odległość Minkowskiego Minkowski

Odległość miejska Cityblock

Odległość Mahalanobisa Mahalanobis

Proces klasteryzacji zadany w poszczególnych, roboczych algorytmach badawczych realizowany był przy zastosowaniu procedur numerycznych dostępnych w środowisku symulacyjno-obliczeniowym pakietu oprogramowania Matlab, w którym klasteryzacja realizowana jest przez zestaw trzech instrukcji: pdist , linkage oraz cluster. Instrukcja cluster służy do grupowania elementów w zbiorze, w instrukcji pdist określa się funkcję podobieństwa, według której obliczana będzie odległość między elementami zbioru, natomiast w instrukcji linkage wskazuje się wybraną metodę klasteryzacji [51].

Przeprowadzony eksperyment badawczy polegał na dokonaniu analizy porównawczej rzeczywistego rozkładu zbioru danych dla rozpatrywanych klas WNZ, z rozkładem uzyskanym w drodze klasteryzacji przy użyciu wybranego algorytmu badawczego, a w szczególności porównaniu przynależności poszczególnych punktów z klas WNZ do utworzonych klastrów.

Rysunek 5.1 przedstawia rzeczywisty rozkład punktów reprezentujących zbiory danych dla trzech przykładowych klas WNZ [26] i przykładowej pary częstotliwości PSD [25].

W trakcie analizowanego eksperymentu wybrano następujące klasy: Klasę 1 – wyładowania w układzie ostrze-ostrze, Klasę 3 – wyładowania w układzie ostrze-płyta oraz Klasę 5 – wyładowania w układzie powierzchniowym z jedną elektrodą płaską, drugą wieloostrzową, między którymi znajduje się izolacja papierowo-olejowa. Natomiast pary częstotliwości PSD

19 klasyfikowanych sygnałów EA określono następująco: 50 kHz dla składowej X i 700 kHz dla składowej Y.

Rys. 5.1. Zbiór punktów obrazujących sygnały EA od WNZ dla przykładowych klas WNZ – Klasy 1, 3, 5 i pary częstotliwości PSD o wartościach 50 kHz dla składowej X oraz 700 kHz dla składowej Y

Rysunek 5.2 prezentuje wynik klasteryzacji, przeprowadzonej dla klas WNZ – Klasy 1, 3, 5, z wykorzystaniem następującego, przykładowego algorytmu badawczego [26]:

Ward – Seuclidean – 50/700,

a więc dla metody klasteryzacji Warda, standaryzowanej odległości euklidesowej oraz pary częstotliwości PSD o wartościach 50 kHz dla składowej X oraz 700 kHz dla składowej Y.

Rys. 5.2. Podział zbioru punktów na klastry w wyniku klasteryzacji przeprowadzonej dla klas WNZ – Klasy 1, 3, 5, z wykorzystaniem przykładowego algorytmu badawczego Ward – Seuclidean – 50/700

20 Porównanie przedstawionego na rys. 5.1 rzeczywistego podziału zbioru punktów dla trzech, przykładowych klas WNZ, z podziałem tego samego zbioru uzyskanym w wyniku przeprowadzonej klasteryzacji, zaprezentowanym na rys. 5.2, wskazuje na istnienie różnic pomiędzy rzeczywistą przynależnością części punktów do poszczególnych klas WNZ, a włączeniem ich do utworzonych klastrów. Można więc mówić o istnieniu pewnej dokładności, stopniu lub efektywności odtworzenia rzeczywistego rozkładu zbioru punktów (rys. 5.1) w utworzonych klastrach (rys. 5.2), a więc i skuteczności zastosowanego algorytmu klasteryzacyjnego.

Aby możliwe było przeprowadzenie procesu porównania poszczególnych algorytmów badawczych pod kątem ich skuteczności przy klasyfikacji poszczególnych form WNZ, konieczne było określenie liczbowych parametrów – wskaźników skuteczności, umożliwiających oszacowanie stopnia odtworzenia rzeczywistego rozkładu zbioru punktów w utworzonych klastrach. Jako wskaźniki skuteczności zastosowano moduł różnicy średnich

|∆𝑥̅| oraz moduł różnicy odchyleń standardowych |∆𝜎| wartości wag gęstości widma, wyznaczonych dla rozkładu rzeczywistego badanych klas WNZ i rozkładu klastrów uzyskanego w wyniku przeprowadzonej klasteryzacji, oddzielnie dla składowej X oraz składowej Y. Do obliczeń przyjęto 20 wartości wag gęstości widma, uzyskanych w wyniku przeprowadzonej analizy liczebności obu rozkładów, przy zastosowaniu standardowo dostępnej w środowisku symulacyjno-obliczeniowym Matlab funkcji hist. Wynik tej analizy w postaci histogramów przedstawiono na rys. 5.3.

Ponieważ średnia arytmetyczna, ze względu na zniekształcanie wyników w skutek dodania wartości skrajnych, jest miarą dającą dobre efekty przy badaniu zbiorów o niskim stopniu zróżnicowania cechy zmiennej, natomiast odchylenie standardowe jest miarą przydatną przy badaniu zbiorowości, które charakteryzują się niejednorodnością [88], zdecydowano o jednoczesnym stosowaniu tych dwóch, uzupełniających się wskaźników skuteczności.

Pierwszy z zastosowanych w trakcie eksperymentu badawczego wskaźników skuteczności – moduł różnicy średnich |∆𝑥̅| oparty został o średnie arytmetyczne wyznaczane dla wartości wag gęstości widma dla badanych klas WNZ oraz uzyskanych klastrów. Wskaźnik ten określa równanie:

|∆𝑥̅| = |𝑥̅(𝑘𝑙𝑎𝑠𝑡𝑟𝑎)−𝑥̅(𝑘𝑙𝑎𝑠𝑦)| = |1𝑛𝑛𝑖=1𝑥𝑛(𝑘𝑙𝑎𝑠𝑡𝑟𝑎)𝑛1𝑛𝑖=1𝑥𝑛(𝑘𝑙𝑎𝑠𝑦)|, (5.1)

dla 𝑛 = 20.

gdzie: |∆𝑥̅| – moduł różnicy średnich, 𝑥̅(𝑘𝑙𝑎𝑠𝑡𝑟𝑎) – średnia arytmetyczna wartości wag gęstości widma dla badanego klastra, 𝑥̅(𝑘𝑙𝑎𝑠𝑦) – średnia arytmetyczna wartości wag gęstości widma dla badanej klasy WNZ, 𝑥𝑛(𝑘𝑙𝑎𝑠𝑡𝑟𝑎) – wartość n-tej wagi gęstości widma w badanym klastrze, 𝑥𝑛(𝑘𝑙𝑎𝑠𝑦) – wartość n-tej wagi gęstości widma w badanej klasie WNZ.

Drugi ze wskaźników skuteczności – moduł różnicy odchyleń standardowych |∆𝜎|, oparto o wyliczone wartości odchyleń standardowych dla wartości wag gęstości widma, dla badanych klas WNZ oraz uzyskanych klastrów. Wskaźnik ten opisuje równanie:

|∆𝜎| = |𝜎(𝑘𝑙𝑎𝑠𝑡𝑟𝑎)− 𝜎(𝑘𝑙𝑎𝑠𝑦)| =

21

= |√𝑛−11𝑛𝑖=1(𝑥𝑛(𝑘𝑙𝑎𝑠𝑡𝑟𝑎)− 𝑥̅(𝑘𝑙𝑎𝑠𝑡𝑟𝑎))2 − √𝑛−11𝑛𝑖=1(𝑥𝑛(𝑘𝑙𝑎𝑠𝑦)− 𝑥̅(𝑘𝑙𝑎𝑠𝑦))2|, (5.2)

dla 𝑛 = 20,

gdzie: |∆𝜎| - moduł różnicy odchyleń standardowych, 𝜎(𝑘𝑙𝑎𝑠𝑡𝑟𝑎) – odchylenie standardowe wartości wag gęstości widma dla badanego klastra, 𝜎(𝑘𝑙𝑎𝑠𝑦)– odchylenie standardowe wartości wag gęstości widma dla badanej klasy WNZ, 𝑥𝑛(𝑘𝑙𝑎𝑠𝑡𝑟𝑎) – wartość n-tej wagi gęstości widma w badanym klastrze, 𝑥̅(𝑘𝑙𝑎𝑠𝑡𝑟𝑎) średnia arytmetyczna wartości wag gęstości widma dla badanego klastra, 𝑥𝑛(𝑘𝑙𝑎𝑠𝑦)– wartość n-tej wagi gęstości widma w badanej klasie WNZ, 𝑥̅(𝑘𝑙𝑎𝑠𝑦)– średnia arytmetyczna wartości wag gęstości widma dla badanej klasy WNZ.

Wyznaczenie skuteczności analizowanego algorytmu badawczego polegało w pierwszym etapie na wyliczeniu wartości średniej 𝑥̅ oraz odchylenia standardowego 𝜎 wartości wag gęstości widma dla badanych klas WNZ oraz uzyskanych klastrów, oddzielnie dla składowej X i dla składowej Y.

Graficzną reprezentację tego etapu obliczeń stanowią histogramy obrazujące liczebność elementów w poszczególnych wagach gęstości widma oryginalnego rozkładu danych pomiarowych oraz rozkładu uzyskanego w wyniku klasteryzacji dla wybranej składowej.

Rysunek 5.3 przedstawia przykładowe histogramy, prezentujące rozkłady liczebności elementów w poszczególnych wagach gęstości widma dla składowej X, wraz z wyliczonymi wartościami średniej 𝑥̅ (Mean) oraz odchylenia standardowego 𝜎 (STD) wartości wag gęstości widma dla Klasy 5 i klastra 3 oraz Klasy 3 i klastra 1, utworzonych dla algorytmu badawczego Ward – Seuclidean – 50/700 oraz wybranych, przykładowych klas WNZ – Klasy 1, 3, 5. Na rysunku tym znajdują się również graficzne porównania uzyskanych rozkładów liczebności elementów w poszczególnych wagach gęstości widma dla Klasy 5 i klastra 3 oraz Klasy 3 i klastra 1. Gdy charakterystyki pokrywają się odwzorowanie klasy w klastrze jest wierne (Rys.

5.3a), gdy znajdują sie z dala od siebie brak jest odwzorowania (Rys. 5.3b)[60].

a)

22 b)

Rys. 5.3. Rozkłady liczebności elementów w poszczególnych wagach gęstości widma dla składowej X, wraz z wyliczonymi wartościami średniej 𝑥̅ (Mean) oraz odchylenia standardowego 𝜎 (STD) oraz porównaniem uzyskanych rozkładów a) dla Klasy 5 i klastra 3 b) Klasy 3 i klastra 1, utworzonych dla algorytmu badawczego Ward – Seuclidean – 50/700 oraz wybranych, przykładowych klas WNZ – Klasy 1, 3, 5

Następnie dla każdej pary klasa-klaster, dla badanych klas WNZ oraz uzyskanych klastrów, wyznaczono moduł różnicy średnich |∆𝑥̅|, zgodnie ze wzorem (5.1) oraz moduł różnicy odchyleń standardowych |∆𝜎|, zgodnie ze wzorem (5.2), pomiędzy wartościami średniej 𝑥̅ oraz odchylenia standardowego 𝜎 dla wartości wag gęstości widma, oddzielnie dla składowej X i składowej Y. Wartości różnic uzyskane dla poszczególnych składowych, uśredniono przy wykorzystaniu średniej arytmetycznej, zgodnie z zależnościami:

∆𝑥

ś𝑟

=

|∆𝑥̅(𝑋)|+|∆𝑥̅(𝑌)|

2

=

|𝑥̅(𝑋)(𝑘𝑙𝑎𝑠𝑡𝑟𝑎)−𝑥̅(𝑋)(𝑘𝑙𝑎𝑠𝑦)|+|𝑥̅(𝑌)(𝑘𝑙𝑎𝑠𝑡𝑟𝑎)−𝑥̅(𝑌)(𝑘𝑙𝑎𝑠𝑦)|

2 , (5.3)

gdzie: ∆𝑥ś𝑟 – uśredniona dla składowych X i Y wartość modułów różnic średnich, |∆𝑥̅(𝑋)| – moduł różnicy średnich dla składowej X, |∆𝑥̅(𝑌)| – moduł różnicy średnich dla składowej Y, 𝑥̅(𝑋)(𝑘𝑙𝑎𝑠𝑡𝑟𝑎) średnia arytmetyczna wartości wag gęstości widma dla badanego klastra, dla składowej X, 𝑥̅(𝑋)(𝑘𝑙𝑎𝑠𝑦) średnia arytmetyczna wartości wag gęstości widma dla badanej klasy WNZ, dla składowej X, 𝑥̅(𝑌)(𝑘𝑙𝑎𝑠𝑡𝑟𝑎) – średnia arytmetyczna wartości wag gęstości widma dla badanego klastra, dla składowej Y, 𝑥̅(𝑌)(𝑘𝑙𝑎𝑠𝑦) – średnia arytmetyczna wartości wag gęstości widma dla badanej klasy WNZ, dla składowej Y.

∆𝜎

ś𝑟

=

|∆𝜎(𝑋)|+|∆𝜎(𝑌)|

2

=

|𝜎(𝑋)(𝑘𝑙𝑎𝑠𝑡𝑟𝑎) − 𝜎(𝑋)(𝑘𝑙𝑎𝑠𝑦)|+|𝜎(𝑌)(𝑘𝑙𝑎𝑠𝑡𝑟𝑎) − 𝜎(𝑌)(𝑘𝑙𝑎𝑠𝑦)|

2 , (5.4)

gdzie: ∆𝜎ś𝑟 - uśredniona dla składowych X i Y wartość modułów różnic odchyleń standardowych,

|∆𝜎(𝑋)| – moduł różnicy odchyleń standardowych dla składowej X, |∆𝜎(𝑌)| – moduł różnicy odchyleń standardowych dla składowej Y, 𝜎(𝑋)(𝑘𝑙𝑎𝑠𝑡𝑟𝑎) – odchylenie standardowe wartości wag gęstości widma dla badanego klastra, dla składowej X, 𝜎(𝑋)(𝑘𝑙𝑎𝑠𝑦) – odchylenie standardowe wartości wag gęstości widma dla badanej klasy WNZ, dla składowej X, 𝜎(𝑌)(𝑘𝑙𝑎𝑠𝑡𝑟𝑎) – odchylenie standardowe wartości wag

23 gęstości widma dla badanego klastra, dla składowej Y, 𝜎(𝑌)(𝑘𝑙𝑎𝑠𝑦) – odchylenie standardowe wartości wag gęstości widma dla badanej klasy WNZ, dla składowej Y.

Biorąc pod uwagę jednorodność przedstawionych powyżej wskaźników, opisanych wzorami (5.3) i (5.4), będących uśrednionymi dla składowych X i Y modułami różnic odpowiednio średnich |∆𝑥̅| oraz odchyleń standardowych |∆𝜎| wartości wag gęstości widma dla badanych klasy i klastra, zdecydowano o ich połączeniu w jeden wskaźnik poprzez uśrednienie wartości przy wykorzystaniu średniej arytmetycznej, zgodnie z zależnością:

∆̅=

∆𝑥ś𝑟+∆𝜎2 ś𝑟, (5.5)

gdzie: ∆̅ – uśredniona wartość modułów różnic średnich i modułów różnic odchyleń standardowych, ∆𝑥ś𝑟

– uśredniona dla składowych X i Y wartość modułów różnic średnich, ∆𝜎ś𝑟 – uśredniona dla składowych X i Y wartość modułów różnic odchyleń standardowych.

Uzyskany wskaźnik ∆̅ odzwierciedla skuteczność odtworzenia klasy w klastrze, zapewniając jednocześnie uwzględnienie obu uzupełniających się wskaźników skuteczności – średniej arytmetycznej oraz odchylenia standardowego, wybranych w celu przeprowadzenia procesu porównania poszczególnych algorytmów badawczych pod kątem ich skuteczności przy klasyfikacji poszczególnych form WNZ.

Wyboru najskuteczniejszego odwzorowania badanych klas WNZ w poszczególnych, utworzonych klastrach dokonywano poprzez wskazywanie najmniejszej wartości wskaźnika ∆̅

[25, 32, 59]. Obliczenia wykonano przy użyciu procedur dostępnych w środowisku symulacyjno-obliczeniowym Matlab, stosując instrukcje mean oraz STD.

W tabeli 5.2 przedstawiono uzyskane tą drogą wyniki dla przykładowego algorytmu badawczego Ward – Seuclidean – 50/700 oraz wybranych, przykładowych klas WNZ – Klasy 1, 3, 5. Wyróżniono wyniki najskuteczniejszych odwzorowań poszczególnych klas WNZ w uzyskanych klastrach.

Tabela 5.2 Zestawienie wyników odwzorowania klas WNZ w utworzonych klastrach dla przykładowego algorytmu badawczego Ward – Seuclidean – 50/700 oraz wybranych, przykładowych klas WNZ – Klasy 1, 3, 5

Klasa Klaster Składowa

24 W celu przeprowadzenia jednoznacznej oceny skuteczności analizowanego algorytmu badawczego zaproponowano procentowy wskaźnik pod nazwą Sprawność algorytmu badawczego, bazujący na porównaniu liczby wielokrotnych wskazań najskuteczniejszego odwzorowania poszczególnych klas WNZ w jednym klastrze, przy czym powtórzenie liczone było od kolejnego wskazania, a liczbą analizowanych klas WNZ. Wskaźnik ten określono

Stosując wskaźnik S (5.6) do analizy wyników zawartych w tabeli 5.2, uzyskanych dla przykładowego algorytmu badawczego Ward – Seuclidean – 50/700 oraz przykładowych klas WNZ – Klasy 1, 3, 5, otrzymano wynik, w którym:

 Klasa 1 najlepiej została odwzorowana w klastrze 1,

 Klasa 3 w klastrze 2,

 Klasa 5 w klastrze 3,

nie wystąpiło więc powtórzenie, czyli odtworzenie kilku klas WNZ w tym samym klastrze.

Zgodnie z regułą (5.6) sprawność przykładowego algorytmu badawczego Ward – Seuclidean – 50/700 oraz wybranych, przykładowych klas WNZ – Klasy 1, 3, 5 wynosi więc 100%.

W tabeli 5.3 zamieszczono wyniki podobnego badania, przeprowadzonego dla innego, przykładowego algorytmu badawczego Ward – Cityblock – 280/610, a więc dla metody klasteryzacji Warda, odległości miejskiej oraz pary częstotliwości PSD o wartościach 280 kHz dla składowej X oraz 610 kHz dla składowej Y, a także innych, przykładowych klas WNZ:

Klasy 1 (wyładowania w układzie ostrze), Klasy 2 (wyładowania w układzie ostrze-ostrze ze swobodnie przemieszczającymi się pęcherzykami gazowymi) i Klasy 3 (wyładowania w układzie ostrze-płyta).

Tabela 5.3 Zestawienie wyników odwzorowania klas WNZ w utworzonych klastrach dla przykładowego algorytmu badawczego Ward – Cityblock – 280/610 oraz wybranych, przykładowych klas WNZ – Klasy 1, 2, 3

5 1 X -2,94 0,5470 -2,79 0,3810 0,1510 0,1660

25 W przypadku algorytmu badawczego: Ward – Cityblock – 280/610 oraz wybranych, przykładowych klas WNZ – Klasy 1, 2, 3 otrzymano wynik, w którym:

 Klasa 1 najlepiej została odwzorowana w klastrze 2,

 Klasa 2 również najlepiej odwzorowana została w klastrze 2,

 Klasa 3 w klastrze 3,

wystąpiło powtórzenie, czyli najlepsze odwzorowanie Klasy 1 i Klasy 2 w klastrze 2. Zgodnie z regułą (5.6) sprawność przykładowego algorytmu badawczego Ward – Cityblock – 280/610 dla wybranych, przykładowych klas WNZ – Klasy 1, 2, 3, wynosi zatem 66,67%.

Powiązane dokumenty