• Nie Znaleziono Wyników

WYDZIAŁ ELEKTROTECHNIKI, AUTOMATYKI I INFORMATYKI. Instytut Elektroenergetyki i Energii Odnawialnej. Autoreferat

N/A
N/A
Protected

Academic year: 2022

Share "WYDZIAŁ ELEKTROTECHNIKI, AUTOMATYKI I INFORMATYKI. Instytut Elektroenergetyki i Energii Odnawialnej. Autoreferat"

Copied!
44
0
0

Pełen tekst

(1)

WYDZIAŁ ELEKTROTECHNIKI, AUTOMATYKI I INFORMATYKI

Instytut Elektroenergetyki i Energii Odnawialnej

Autoreferat

Zastosowanie metod klasteryzacji do klasyfikacji sygnałów emisji akustycznej generowanej przez wyładowania niezupełne

Promotor: Autor:

dr hab. inż. Sebastian Borucki, prof. uczelni mgr inż. Jacek Łuczak

Opole, luty 2020 r.

(2)

2 Spis treści

1. Wprowadzenie ... 3

2. Cel, zakres i teza pracy ... 5

3. Opis bazy sygnałów EA ... 6

4. Charakterystyka algorytmów klasteryzacji ... 8

4.1. Wybór reprezentacji obiektów ... 8

4.2. Miary podobieństwa obiektów ... 14

4.2.1. Odległość euklidesowa ... 14

4.2.2. Standaryzowana odległość euklidesowa ... 14

4.2.3. Odległość Minkowskiego ... 15

4.2.4. Odległość miejska ... 15

4.2.5. Odległość Mahalanobisa ... 15

4.3. Metody klasteryzacji hierarchicznej ... 16

4.3.1. Metoda pojedynczego wiązania ... 16

4.3.2. Metoda pełnego wiązania ... 16

4.3.3. Metoda średnich połączeń ... 17

4.3.4. Metoda Warda ... 17

5. Przebieg eksperymentu badawczego ... 17

6. Wyniki przeprowadzonego eksperymentu badawczego ... 25

6.1. Analiza algorytmów badawczych rodziny Single ... 26

6.2. Analiza algorytmów badawczych rodziny Complete ... 27

6.3. Analiza algorytmów badawczych rodziny Average ... 29

6.4. Analiza algorytmów badawczych rodziny Ward ... 31

6.5. Dobór najskuteczniejszego algorytmu badawczego do klasyfikacji ośmiu podstawowych form WNZ występujących jednocześnie ... 33

6.6. Ocena wpływu liczby jednocześnie analizowanych klas WNZ na sprawność algorytmów badawczych ... 35

7. Wnioski ... 37

8. Spis literatury ... 40

(3)

3 1. Wprowadzenie

Jedną z istotnych przyczyn awarii systemu elektroenergetycznego, obok dominującej roli katastrofalnych warunków atmosferycznych, są uszkodzenia transformatorów dużej mocy, których zadaniem jest transformacja energii elektrycznej na różnych poziomach napięć.

Znacząca część ogólnej liczby awarii transformatorów mocy, około 40%, związana jest z różnego rodzaju uszkodzeniami układu izolacyjnego. Są to typowe uszkodzenia wewnętrzne wywołane wystąpieniem zwarć zwojowych, spowodowanych m.in. lokalnym obniżeniem się wytrzymałości elektrycznej izolacji. Zjawisko to ma swoje bezpośrednie przyczyny w występowaniu w tych miejscach wyładowań niezupełnych (WNZ), których przyczyną może być: uszkodzenie izolacji celulozowej części aktywnej; obecność rozpuszczonych „wtrącin”

gazowych w oleju; a także niewłaściwe wysuszenie, odgazowanie i impregnacja papieru izolacyjnego. Wśród innych przyczyn uszkodzeń transformatorów mocy, stanowiących około 18 % ogólnej ich liczby, znajduje się również zawilgocenie oleju elektroizolacyjnego, prowadzące do powstawania WNZ w pęcherzykach gazowych już przy napięciu zdecydowanie niższym od znamionowego, a także występowanie lokalnych wyładowań elektrycznych w obszarach o nierównomiernym rozkładzie pola elektrycznego, związanego z zastosowaniem dielektryków o różnych wartościach przenikalności dielektrycznej – rozwój wyładowań niezupełnych typu powierzchniowego (WNZP). Rozwój WNZ różnego typu może być zatem przyczyną nawet ponad 50% wszystkich awarii transformatorów mocy, a wykrywanie i rozpoznawanie tych zjawisk odgrywa kluczowa rolę w zapewnieniu ich ciągłej i bezawaryjnej ich pracy [30, 47].

W celu oceny stanu technicznego transformatorów mocy pod kątem detekcji WNZ w ich układzie izolacyjnym praktyka inżynierska wskazuje na stosowanie wielu metod diagnostycznych, do których zalicza się m.in. metodę elektryczną (pomiar ładunku pozornego), czy metodę chromatografii gazowej (DGA) [3, 6, 18, 24, 48]. Od wielu lat z powodzeniem stosuje się również tzw. metody uzupełniające, do których należy m.in. metoda emisji akustycznej (EA). Metoda EA stosowana jest głównie do detekcji, lokalizacji i oceny intensywności WNZ występujących w układzie izolacyjnym strategicznych dla systemu transformatorów. Obecnie sama metodyka przeprowadzania pomiarów EA jest w znaczącym stopniu rozpoznana, zwłaszcza w zakresie występujących zakłóceń i sposobów ich eliminacji [68, 75, 77, 79]. Natomiast kierunkiem aktualnie prowadzonych prac nad rozwojem tej metody są poszukiwania skutecznych mechanizmów analizy uzyskiwanych wyników pomiarowych, w szczególności do skutecznej identyfikacji poszczególnych form WNZ i odnoszenia ich do oceny stopnia degradacji układu izolacyjnego transformatora. Przeprowadzone dotychczas próby identyfikowania podstawowych form WNZ realizowano wykorzystując do tego celu wyniki przekształceń częstotliwościowych i czasowo-częstotliwościowych mierzonych sygnałów EA, które następnie analizowano przy użyciu metod statystycznych, korelacyjnych, a także elementów sztucznej inteligencji [13, 21, 38, 56]. W Instytucie Elektroenergetyki i Energii Odnawialnej Politechniki Opolskiej prowadzone są obecnie prace zmierzające do opracowania systemu ekspertowego realizującego diagnostykę stanu układu izolacyjnego urządzeń elektroenergetycznych w oparciu o różne metody analizy sygnałów EA.

Jedną z metod statystycznych wykorzystywanych do klasyfikacji i analizy dużej ilości danych jest tzw. analiza skupień, czyli klasteryzacja. Metoda ta, ze względu na brak

(4)

4 konieczności prowadzenia procesu uczenia, jest dużo szybsza od metod opartych o sztuczne sieci neuronowe (SSN) oraz algorytmy neuronowo-rozmyte i logikę rozmytą.

Algorytmy klasteryzacji ze względu na swoją użyteczność znajdują obecnie szerokie zastosowanie w zdaniach z zakresu porządkowania i segregowania wielowymiarowej informacji zarówno w obszarach teoretycznych jak i praktycznych. Zastosowania te obejmują obszar medycyny, psychologii i socjologii, ekonomii, biznesu i badań rynkowych, rolnictwa, archeologii, astronomii, biologii, chemii, elektroniki, farmacji, geologii, informatyki, kryminalistyki, kryptografii, ochrony środowiska czy też zarządzania produkcją, przetwarzania i wyszukiwania informacji oraz wiele innych. Szeroko tematykę tę opisują autorzy publikacji [2, 4, 7, 8, 9, 10, 33, 35, 37, 42, 43, 49, 52, 65, 67, 72, 74, 80, 81, 82, 85, 86].

Istnieje wiele metod i algorytmów grupowania. Ze względu na stosowany sposób podejścia do podziału analizowanego zbioru, metody grupowania podzielić można na pięć podstawowych kategorii: metody hierarchiczne, metody iteracyjno-optymalizacyjne, metody gęstościowe, metody gridowe, metody oparte na modelu [39, 65]. Zastosowanie konkretnej metody i algorytmu grupowania uzależnione jest od dziedziny, w jakiej prowadzona jest analiza skupień, a także wybranej reprezentacji obiektów oraz funkcji podobieństwa.

Zdefiniowanie macierzy podobieństwa lub niepodobieństwa dla przyjętej reprezentacji obiektów jest istotnym etapem procesu grupowania, przy czym większość algorytmów grupowania oparta jest o macierz niepodobieństwa obiektów. Istnieje możliwość przejścia od macierzy podobieństwa do macierzy niepodobieństwa przy użyciu odpowiedniej funkcji odwzorowującej. Podobieństwo obiektów zwykle mierzone jest przy wykorzystaniu funkcji (miary) odległości między dwoma obiektami. W przypadku, gdy obiekty reprezentowane są w postaci punktów w wielowymiarowej przestrzeni euklidesowej, odległość między dwoma obiektami jest definiowana, jako odległość euklidesowa, Manhattan lub odległość Minkowskiego.

Klasteryzacja, jako statystyczna metoda analizy dużych zbiorów danych wykorzystywana jest również w różnych dziedzinach elektroenergetyki. Znajduje ona zastosowanie zarówno w zakresie analizy pracy oraz oceny stanu technicznego pojedynczych urządzeń elektroenergetycznych, w tym w szczególności transformatorów, jak również całych systemów, w tym zużycia energii elektrycznej oraz obciążenia sieci elektroenergetycznej, a także pracy elektrowni wiatrowych i słonecznych.

Przegląd doniesień literaturowych dotyczących wykorzystania algorytmów klasteryzacji w diagnostyce urządzeń elektroenergetycznych, wskazuje, że najczęściej stosowaną w różnych obszarach elektroenergetyki jest klasteryzacja z użyciem algorytmu k-średnich. W przypadku diagnostyki urządzeń elektroenergetycznych stosuje się również metodę grupowania pików gęstości DPC (ang. Density Peak Clustering), metodę grupowania przestrzennego DBSCAN (ang. Density-Based Spatial Clustering of Applications with Noise), technikę klastrowania odejmującego (ang. Subtractive Clustering Method) metodę szarej analizy skupień GCA (ang.

Grey clustering analysis) oraz metodę klasteryzacji rozmytych C-średnich FCM (ang. Fuzzy C-means) [5, 27, 28, 29, 34, 36, 40, 41, 44, 45, 46, 57, 58, 63, 64, 66, 69, 70, 71, 73, 76, 83, 84, 87].

W dostępnych Autorowi rozprawy doniesieniach literaturowych nie występują natomiast informacje dotyczące zastosowania metod klasteryzacji hierarchicznej do analizy sygnałów EA generowanej przez WNZ, jako metody klasyfikacji defektów papierowo-olejowej izolacji

(5)

5 urządzeń elektroenergetycznych. Dlatego przeprowadzenie prac naukowo-badawczych mających na celu określenie możliwości zastosowania tych metod wydaje się być aktualne i uzasadnione.

2. Cel, zakres i teza pracy

Celem ogólnym rozprawy doktorskiej jest określenie możliwości zastosowania metod klasteryzacji do analizy sygnałów EA generowanej przez podstawowe formy WNZ, jakie mogą występować w izolacji papierowo-olejowej wysokonapięciowych urządzeń elektroenergetycznych, w szczególności transformatorów dużej mocy. Do celów szczegółowych pracy należy m.in. zaliczyć:

 określenie wpływu dobranej metody klasteryzacji na uzyskaną skuteczność klasyfikacji ośmiu rozpatrywanych klas WNZ,

 określenie wpływu dobranej funkcji podobieństwa na uzyskaną skuteczność klasyfikacji ośmiu rozpatrywanych klas WNZ,

 określenie wpływu liczby analizowanych klas na uzyskaną skuteczność klasyfikacji ośmiu rozpatrywanych klas WNZ,

 określenie wpływu doboru zaproponowanego deskryptora na uzyskaną skuteczność klasyfikacji ośmiu rozpatrywanych klas WNZ,

 wybór najskuteczniejszego mechanizmu klasteryzacji przy klasyfikacji ośmiu rozpatrywanych klas WNZ.

W pracy przyjęto następującą tezę: „W ściśle określonych warunkach metrologicznych istnieje możliwość klasyfikacji jednoźródłowych form wyładowań niezupełnych generowanych w papierowo-olejowych układach izolacyjnych, rejestrowanych metodą emisji akustycznej, przy zastosowaniu metod klasteryzacji hierarchicznej.

W celu udowodnienia założonej w rozprawie tezy, podjęto następujące zagadnienia:

 dokonano wyboru i scharakteryzowano osiem podstawowych form WNZ generowanych w papierowo-olejowych układach izolacyjnych,

 scharakteryzowano sygnały EA generowanej przez WNZ,

 scharakteryzowano metodę EA, omówiono jej wady i zalety oraz określono zakres techniczny jej zastosowania,

 przedstawiono modele sygnałów EA generowanej przez WNZ,

 dokonano przeglądu deskryptorów charakteryzujących sygnały EA: czasowych, częstotliwościowych, czasowo-częstotliwościowych i wskaźników statystycznych,

 dokonano przeglądu metod stosowanych do identyfikacji WNZ, w tym: sztucznych sieci neuronowych, narzędzi statystycznych, algorytmów neuronowo-rozmytych i logiki rozmytej oraz algorytmu komparacyjnego,

 przedstawiono sposób generacji, rejestracji i analizy WNZ, których sygnały EA zostały skatalogowane w bazie danych, wykorzystanej w rozprawie,

(6)

6

 scharakteryzowano bazę sygnałów EA, reprezentujących podstawowe formy WNZ, wykorzystaną w rozprawie,

 przeprowadzono badania skuteczności algorytmów klasteryzacji hierarchicznej w zastosowaniu do klasyfikacji podstawowych form WNZ, a w szczególności:

- określono warunki pracy,

- przedstawiono mechanizmy działania,

- przeprowadzono dobór deskryptora częstotliwościowego, - przeprowadzono dobór funkcji podobieństwa,

- wykonano dobór i walidację liczbowych wskaźników podobieństwa,

 przeprowadzono badania porównawcze poszczególnych algorytmów klasteryzacji hierarchicznej poprzez:

- wyznaczenie wartości liczbowych wskaźników podobieństwa dla poszczególnych algorytmów klasteryzacji,

- porównanie uzyskanych wartości liczbowych wskaźników podobieństwa dla poszczególnych algorytmów klasteryzacji,

 dokonano wyboru najskuteczniejszego mechanizmu klasteryzacji przy jednoczesnej klasyfikacji ośmiu rozpatrywanych klas WNZ,

 sformułowano wnioski w oparciu o uzyskane wyniki.

3. Opis bazy sygnałów EA

W Instytucie Elektroenergetyki i Energii Odnawialnej Politechniki Opolskiej prowadzone są od wielu lat prace naukowo-badawcze dotyczące WNZ występujących w papierowo - olejowej izolacji wysokonapięciowych urządzeń elektroenergetycznych.

Tematyka prowadzonych w tej jednostce badań naukowych została opisana m.in. w pracach [11, 12, 14, 15, 16, 17, 19]. W toku badań wypracowana została własna klasyfikacja WNZ powiązana z określonymi typami defektów izolacji, obejmująca 8 podstawowych klas:

 Klasa 1 – wyładowania w układzie ostrze-ostrze.

Wyładowania te mogą odpowiadać WNZ powstałym w wyniku uszkodzenia izolacji dwóch sąsiadujących zwojów uzwojeń transformatora.

 Klasa 2 – wyładowania w układzie ostrze-ostrze ze swobodnie przemieszczającymi się pęcherzykami gazowymi.

Wyładowania modelujące WNZ występujące w izolacji olejowo-papierowej sąsiadujących uzwojeń transformatora i będące efektem uszkodzenia lub osłabienia układu izolacyjnego w oleju o silnym zagazowaniu (rozwinięty proces starzenia dielektryków).

 Klasa 3 – wyładowania w układzie ostrze-płyta.

Wyładowania mogące odpowiadać WNZ występującym między uszkodzoną częścią izolacji uzwojenia transformatora a uziemionymi częściami płaskimi, takimi jak elementy rdzenia, jarzma, kadzi, ekranów magnetycznych.

 Klasa 4 – wyładowania w układzie powierzchniowym dwóch elektrod płaskich, między którymi znajduje się izolacja papierowo-olejowa.

(7)

7 Wyładowania modelujące WNZ występujące w tzw. punkcie potrójnym, tzn. na styku przewodów roboczych uzwojenia transformatora oraz dielektryka papierowego zaimpregnowanego olejem elektroizolacyjnym, w których miedź posiada gładką i równą powierzchnię. Jest to najczęstsza forma WNZ.

 Klasa 5 – wyładowania w układzie powierzchniowym z jedną elektrodą płaską, drugą wieloostrzową, między którymi znajduje się izolacja papierowo-olejowa.

Wyładowania mogące odzwierciedlać WNZ rozwijające się na styku przewodów miedzianych i papierowo-olejowego układu izolacyjnego (tzw. punkcie potrójnym), w którym występuje nierównomierność powierzchni uzwojeń (miejsca łączenia poszczególnych elementów uzwojenia, np. spawy przewodów).

 Klasa 6 – wyładowania w układzie wieloostrze-płyta w oleju.

Wyładowania mogące odpowiadać WNZ występującym między wielopunktowym uszkodzeniem izolacji uzwojenia transformatora a uziemionymi częściami płaskimi, takimi jak elementy rdzenia, jarzma, kadzi, ekranów magnetycznych.

 Klasa 7 – wyładowania w układzie wieloostrze-płyta w oleju, ze swobodnie przemieszczającymi się pęcherzykami gazowymi.

Wyładowania modelujące WNZ pomiędzy uszkodzonym w wyniku degradacji warstw zaimpregnowanego papieru kablowego fragmentem uzwojenia transformatora (zamiast jednego punktu generacji WNZ może wystąpić ich kilka lub kilkanaście w nieznacznej odległości), a elementami uziemionymi takimi jak elementy rdzenia, jarzma, kadzi, ekranów magnetycznych.

 Klasa 8 – wyładowania w układzie wieloostrze-płyta ze swobodnie przemieszczającymi się cząstkami stałymi o nieokreślonym potencjale.

Wyładowania mogące odzwierciedlać WNZ w transformatorach o długim czasie eksploatacji, podczas którego następują procesy starzeniowe izolacji papierowej połączone z wydzielaniem włókien celulozy [11, 14, 20, 22, 54, 55].

W oparciu o powyższy podział WNZ oraz wymienione układy modelujące, wygenerowano w warunkach symulacyjnych sygnały EA, które utworzyły bazę stanowiącą podstawę prowadzonych następnie badań. Bazę utworzono dokonując pomiarów sygnałów EA oraz rejestracji ich przebiegów czasowych w plikach pomiarowych, dla poszczególnych form WNZ. Z plików wyodrębniono informacje dotyczące amplitudy zmierzonego sygnału EA i zapisano w formacie umożliwiającym ich obróbkę i analizę w środowisku symulacyjno- obliczeniowym pakietu oprogramowania Matlab. Szczegółowy opis bazy znaleźć można m.in.

w pracach [11, 14, 20, 22, 55].

Baza sygnałów EA, a w szczególności jej wersja opracowana przez dr hab. inż.

S. Boruckiego oraz dr hab. inż. Andrzeja Cichonia, stanowiły podstawę prac naukowo- badawczych podjętych w celu sprawdzenia przydatności algorytmów klasteryzacji (analizy skupień), do klasyfikacji podstawowych form WNZ. Autorzy wspomnianej bazy sygnałów EA wyrazili zgodę na jej wykorzystanie przez Autora rozprawy.

Do przeprowadzenia badań przyjęto po 100 zarejestrowanych sygnałów EA dla 8 klas WNZ, tworząc próbę badawczą obejmującą łącznie 800 sygnałów.

(8)

8 4. Charakterystyka algorytmów klasteryzacji

Analiza skupień (klasteryzacja), jako grupowanie, obok klasyfikacji, należy do jednej z najstarszych i najpopularniejszych metod analizy danych. W pojęciu ogólnym jest narzędziem statystycznej analizy danych służącym do wykrycia w badanym zbiorze naturalnej struktury, o ile taka istnieje. Celem klasteryzacji jest podział badanego zbioru obiektów fizycznych lub abstrakcyjnych na homogeniczne grupy – podzbiory, zwane skupieniami. Analiza skupień zaliczana jest do systemów uczących się bez nadzoru. Ich charakterystyczną cechą jest brak typowych danych uczących, a więc zadaniem systemu jest opisanie obserwowanych danych (danych wejściowych) wyłącznie na podstawie nich samych. Można stwierdzić, że każdy element zbioru uczącego składa się jedynie z wektora cech, a zadanie systemu to wykrycie struktury zbioru danych lub współzależności między nimi [52]. Poprawnie przeprowadzona analiza skupień pozwala na lepsze zrozumienie informacji zawartych w zbiorze danych, ustalenie własności grup elementów do siebie podobnych oraz ich syntetycznej charakterystyki [50]. Kolejne etapy procesu analizy skupień przedstawia rys. 4.1.

Rys. 4.1. Etapy procesu analizy skupień [65]

4.1. Wybór reprezentacji obiektów

Ponieważ procesowi grupowania podlegają nie same obiekty, lecz ich abstrakcyjne reprezentacje, ich wybór, zwany również ekstrakcją cech, powinien wskazać najbardziej odpowiedni zbiór cech, który najlepiej opisuje grupowane obiekty. Wybór reprezentacji obiektów ma bowiem kluczowe znaczenie dla efektywności i jakości procesu grupowania [65].

Obiektami w przypadku analizy sygnałów EA od WNZ są informacje o tych sygnałach, zarejestrowane w plikach pomiarowych w bazie sygnałów EA, natomiast reprezentacjami odpowiednio wybrane ich cechy lub też parametry. Reprezentacje te określa się mianem deskryptorów. Istnieje wiele deskryptorów opisujących sygnały EA od WNZ. Ogólnie dzieli się je na:

 deskryptory określane w dziedzinie czasu,

 deskryptory określane w dziedzinie częstotliwości,

 deskryptory określane w dziedzinie czasowo-częstotliwościowej,

ekstrakcja danych podobieństwo

obiektów

grupowanie

obiekt reprezentacja obiektu

sprzężenie zwrotne

klastry

(9)

9

 wskaźniki statystyk opisowych,

 wyniki analizy falkowej [12, 15, 16, 19, 53].

Szczegółowo deskryptory opisujące sygnały EA od WNZ przedstawiają m.in. autorzy prac [16, 53, 61, 62].

W trakcie przeprowadzonych przez Autora prac naukowo-badawczych, jako parametr opisujący obiekty – informacje o sygnałach EA zawarte w plikach pomiarowych – wykorzystano gęstość mocy zarejestrowanego sygnału, którą wyznaczono przy użyciu dyskretnej transformaty Fouriera DFT (ang. Discrete Fourier Transform). Wybór tego deskryptora wynikał z dotychczasowych doświadczeń zebranych przez pracowników Katedry Wysokich Napięć Instytutu Elektroenergetyki i Energii Odnawialnej Politechniki Opolskiej – widmo gęstości mocy sygnału EA było już wykorzystywane m.in. w badaniach prowadzonych przez dr hab. inż. S. Boruckiego oraz dr inż. P. Kurtasza [22, 54].

Dla każdego z sygnałów EA, będącego czasowym przebiegiem wartości napięcia generacji wyładowania o długości 20 ms, wyznaczano charakterystykę jego widma gęstości mocy. Wykorzystano w tym celu dostępną w środowisku symulacyjno-obliczeniowym Matlab funkcję widmo gęstości mocy PSD (ang. Power Spectrum Density). Parametrem wpływającym na dokładność wyznaczenia widmowej gęstości mocy jest dla funkcji PSD wybrana liczba punktów uśredniających. Na podstawie wniosków przedstawionych w pracy [22], w prowadzonych analizach przyjęto wartość 128 punktów uśredniających. Następnie na wyznaczonych obrazach PSD, dla danego sygnału EA z wybranej klasy WNZ, wskazano dwie wartości wagi gęstości widma dla dwóch wartości częstotliwości, wyznaczonych w drodze eksperymentu. Uzyskano w ten sposób dwuelementowy wektor, z którego pierwszy element przyjęty został jako tzw. składowa X, a drugi jako tzw. składowa Y, wyznaczając współrzędne punktu w przestrzeni euklidesowej. Współrzędne te, będąc reprezentacją wybranego sygnału EA z wybranej klasy WNZ, dla wybranej pary częstotliwości PSD, stanowiły podstawę obliczeń prowadzonych w dalszej części eksperymentu.

Opisany powyżej proces tworzenia dwuelementowych wektorów schematycznie przedstawiono na rysunku 4.2. Wybrano przykładowy sygnał EA od WNZ w układzie ostrze- ostrze (Klasa 1), dla częstotliwości PSD o wartościach 40 kHz dla składowej X oraz 700 kHz dla składowej Y. Postępując w opisany sposób z każdym z zarejestrowanych sygnałów EA, w każdej badanej klasie WNZ otrzymano osiem 100-tu elementowych, dwukolumnowych, macierzy danych, zawierających wektory współrzędnych punktów na płaszczyźnie XY, wyznaczonych dla wybranej pary częstotliwości widma gęstości mocy. Wyznaczone wektory są reprezentacjami poszczególnych obiektów – badanych przebiegów EA – uzyskanych w drodze zastosowania wybranego deskryptora, zaś punkty na płaszczyźnie XY ich graficznym obrazem.

(10)

10

0 2 4 6 8 10 12 14 16 18 20

-0.2 -0.1 0 0.1 0.2

Czas [ms]

Napięcie [V]

Przebieg sygnału EA w funkcji czasu

0 100 200 300 400 500 600 700 800 900 1000 1100 1200

-6 -5 -4 -3 -2

Częstotliwość [Hz]

Waga gęstości widma [dB] Widmo gęstości mocy

-3.5 -3.4 -3.3 -3.2 -3.1 -3 -2.9 -2.8 -2.7 -2.6 -2.5 -2.4 -2.3 -2.2 -2.1 -2 -1.9 -1.8 -1.7 -1.6 -1.5

-5.7 -5.6 -5.5 -5.4 -5.3

Gęstość widmowa dla f = 40 kHz

Gęstość widmowa dla f = 700 kHz

Uzyskany punkt

Składowa Y, f = 700 kHz

Składowa X, f = 40 kHz

Składowa Y, f = 700 kHz

Składowa X, f = 40 kHz

Rys. 4.2. Proces uzyskiwania współrzędnych punktu dla przykładowego sygnału EA od WNZ w układzie ostrze- ostrze (Klasa 1), dla częstotliwości PSD o wartościach 40 kHz dla składowej X oraz 700 kHz dla składowej Y:

a) zarejestrowany przebieg czasowy sygnału EA od WNZ, b) widmo gęstości mocy sygnału z zaznaczonymi, wybranymi częstotliwościami PSD, c) uzyskany punkt w układzie współrzędnych XY

Rysunek 4.3 przedstawia zbiór punktów obrazujących sygnały EA od WNZ dla przykładowej klasy WNZ w układzie ostrze-ostrze (Klasa 1), dla pary częstotliwości PSD o wartościach 30 kHz dla składowej X oraz 340 kHz dla składowej Y. Natomiast rysunek 4.4 ilustruje zbiory punktów opisujących sygnały EA od WNZ dla wszystkich badanych Klas WNZ i przykładowej pary częstotliwości PSD o wartościach 30 kHz dla składowej X oraz 340 kHz dla składowej Y.

Rys. 4.3. Zbiór punktów obrazujących sygnały EA od WNZ dla przykładowej klasy WNZ w układzie ostrze-ostrze (Klasa 1), wyznaczony dla pary częstotliwości PSD o wartościach 30 kHz dla składowej X

oraz 340 kHz dla składowej Y

(11)

11 Rys. 4.4. Zbiór punktów obrazujących sygnały EA od WNZ dla wszystkich, badanych klas WNZ i przykładowej

pary częstotliwości PSD o wartościach 30 kHz dla składowej X oraz 340 kHz dla składowej Y

Jak już wspomniano właściwy dobór pary częstotliwości PSD, dla których wskazywane są dwie wartości wagi gęstości widma będące współrzędnymi punktu reprezentującego wybrany sygnał EA z wybranej klasy WNZ, ma kluczowe znaczenie dla późniejszej skuteczności zastosowanych algorytmów badawczych. Niesatysfakcjonujący wynik analizy skupień może być następstwem niewłaściwego wyboru zbioru cech opisujących obiekt, które okazały się niereprezentatywne [65].

W celu właściwego doboru par częstotliwości PSD dokonano szerokiej analizy graficznych obrazów uzyskanych wektorów na płaszczyźnie euklidesowej, poszukując rozkładów charakteryzujących się występowaniem skupień. Analiza ta przeprowadzona została dla trzech wybranych klas WNZ występujących łącznie [25]. Wybrano Klasę 1 – wyładowania w układzie ostrze-ostrze, Klasę 3 – wyładowania w układzie ostrze-płyta oraz Klasę 5 – wyładowania w układzie powierzchniowym z jedną elektrodą płaską, drugą wieloostrzową, między którymi znajduje się izolacja papierowo-olejowa. Uzyskano na wstępie około 10 000 charakterystyk, wyznaczonych dla par częstotliwości PSD zmienianych dla składowej X i składowej Y w granicach od 10 kHz do 990 kHz, z krokiem 10 kHz. Połowę charakterystyk odrzucono, ze względu na ich powielenie się w przypadku tej samej pary częstotliwości PSD, lecz przypisanej do odmiennych składowych. Odrzucono również charakterystyki dla par częstotliwości PSD o tej samej wartości, ponieważ w takim przypadku wszystkie punkty grupują się w formę linii na przekątnej charakterystyki.

Zgodnie z dostępnymi w literaturze wynikami badań, jak również badaniami prowadzonymi przez pracowników Katedry Wysokich Napięć Instytutu Elektroenergetyki i Energii Odnawialnej Politechniki Opolskiej, m.in. [11, 15, 16, 23, 31], przedział częstotliwości, w którym zawarte są sygnały EA, powstające podczas występowania WNZ, zawiera się w granicach od fd = 20 kHz do fg = 700 kHz. W tym też zakresie częstotliwości, w celu poprawnego odwzorowania struktury sygnałów EA, ustawiono pasmo filtracji badanych sygnałów. Kolejne ograniczenie uzyskanej grupy charakterystyk wynikało więc z filtracji częstotliwości zastosowanej w toku gromadzenia badanych obiektów – przebiegów czasowych EA. Odrzucono charakterystyki dla par częstotliwości PSD, w których którakolwiek ze

(12)

12 składowych miała wartość poniżej 20 kHz lub powyżej 700 kHz. Ostatecznie analizowano dokładnie 2 346 charakterystyk.

Wśród uzyskanych, graficznych obrazów rozkładu wektorów wyznaczonych dla wybranych par częstotliwości PSD wyróżnić można 5 typów grupowań. Dla każdego z nich wybrano jedną, reprezentującą je parę częstotliwości PSD. Wybrane pary częstotliwości zestawiono w tabeli 4.1.

Tabela 4.1 Zestawienie wybranych par częstotliwości PSD Oznaczenie

w algorytmie badawczym Składowa X Składowa Y

20/80 20 kHz 80 kHz

40/700 40 kHz 700 kHz

170/350 170 kHz 350 kHz

430/550 430 kHz 550 kHz

570/670 570 kHz 670 kHz

Rysunki od 4.4 do 4.8 przedstawiają zbiory punktów obrazujące wektory wyznaczone dla wybranych klas WNZ – Klasy 1, 3 i 5 – przy wybranych parach częstotliwości PSD, wymienionych w tabeli 4.1.

Rys. 4.4. Zbiór punktów obrazujących wektory wyznaczone dla wybranych klas WNZ – Klasy 1, 3 i 5 przy wybranej parze częstotliwości PSD o wartościach 20 kHz dla składowej X oraz 80 kHz dla składowej Y

(13)

13 Rys. 4.5. Zbiór punktów obrazujących wektory wyznaczone dla wybranych klas WNZ – Klasy 1, 3 i 5 przy

wybranej parze częstotliwości PSD o wartościach 40 kHz dla składowej X oraz 700 kHz dla składowej Y

Rys. 4.6. Zbiór punktów obrazujących wektory wyznaczone dla wybranych klas WNZ – Klasy 1, 3 i 5 przy wybranej parze częstotliwości PSD o wartościach 170 kHz dla składowej X oraz 350 kHz dla składowej Y

Rys. 4.7. Zbiór punktów obrazujących wektory wyznaczone dla wybranych klas WNZ – Klasy 1, 3 i 5 przy wybranej parze częstotliwości PSD o wartościach 430 kHz dla składowej X oraz 550 kHz dla składowej Y

(14)

14 Rys. 4.8. Zbiór punktów obrazujących wektory wyznaczone dla wybranych klas WNZ – Klasy 1, 3 i 5 przy

wybranej parze częstotliwości PSD o wartościach 570 kHz dla składowej X oraz 670 kHz dla składowej Y

4.2. Miary podobieństwa obiektów

Na występowanie struktury w zbiorze danych poddawanym procesowi klasteryzacji wskazuje istnienie odrębnych obszarów, skupień, posiadających tę własność, że dwa dowolne obiekty należące do wspólnego skupienia są do siebie podobne w większym stopniu, niż dwa obiekty wybrane z dwóch różnych skupień. Istotnym elementem procesu klasteryzacji pozostaje więc określenie miary (funkcji) podobieństwa między obiektami, chociaż w wielu sytuacjach wygodniej jest posługiwać się pojęciem odmienności lub niepodobieństwa, np.

odległości. W toku prowadzonych badań zastosowano opisane poniżej, najczęściej stosowane miary odmienności.

4.2.1. Odległość euklidesowa

Najpopularniejszą miarą odmienności jest odległość euklidesowa (ang. Euclidean Metric), dla której wszystkie cechy użyte do opisu obiektów ze zbioru 𝔛 są ilościowe, a każdy obiekt 𝔯𝑖 ∈ 𝔛 utożsamia się z n - wymiarowym wektorem 𝐱𝑖 = (𝑥𝑖1,𝑥𝑖2,… , 𝑥𝑖𝑛)𝑇. Odległość euklidesowa przyjmuje postać:

𝑑(𝔯𝑖, 𝔯𝑗) = ‖𝐱𝑖− 𝐱𝑗‖ = √∑𝑛𝑙=1(𝑥𝑖𝑙− 𝑥𝑗𝑙)2 . (4.1)

4.2.2. Standaryzowana odległość euklidesowa

W przypadku, gdy cechy opisujące obiekty są wyrażone w różnych jednostkach, w celu zniwelowania ich wpływu stosujemy standaryzowaną (ważoną) odległość euklidesową (ang.

Standardized Euclid Metric). Jeżeli macierz W jest macierzą diagonalną o elementach określonych zależnością:

(15)

15 𝓌𝑖𝑗 = {𝜔𝑖𝑗, jeżeli 𝑖 = 𝑗

0 w p. p. , (4.2)

otrzymujemy standaryzowaną (ważoną) odległość euklidesową, daną wzorem:

𝑑𝑊(𝔯𝑖, 𝔯𝑗) = √∑𝑛𝑙=1𝜔𝑙(𝑥𝑖𝑙− 𝑥𝑗𝑙)2 = √∑𝑛𝑙=1(𝑦𝑖𝑙 − 𝑦𝑗𝑙)2 , (4.3)

gdzie 𝑦𝑖𝑙 = √𝜔𝑙𝑥𝑖𝑙 jest ważoną wartością cechy 𝑙 zmierzoną w i - tym obiekcie [85].

4.2.3. Odległość Minkowskiego

Odległość (miara) Minkowskiego (ang. Minkowski Metric, Distance in an Absolute Minkowski Power Metric) jest jednym z najczęściej stosowanych uogólnień odległości euklidesowej scharakteryzowanej w punkcie 4.2.1. Definiuje się ją w następujący sposób:

𝑑𝑝(𝔯𝑖, 𝔯𝑗) = ‖𝐱𝑖− 𝐱𝑗𝑝 = [∑𝑛𝑙=1|𝑥𝑖𝑙− 𝑥𝑗𝑙|𝑝]1/𝑝 , dla 𝑝 ≥ 1. (4.4) Z metryki Minkowskiego wywodzą się m.in. odległość Czebyszewa, a także odległości:

miejska, Frechéta, Canberry, poczty, metra i inne. Mają one pewne istotne wady, m.in. na skutek sumowania różnic w lokalizacji obiektów w poszczególnych wymiarach, wraz ze wzrostem wymiarowości problemu, zanika różnica między bliskimi, a dalekimi punktami w przestrzeni ℝ𝑛. Rozwiązaniem tego problemu jest stosowanie ułamkowych odległości Minkowskiego z parametrem 𝑝 ∈ (0, 1]. W literaturze podaje się trzy wartości tego parametru p = 0,3; p = 0,5 oraz p = 0,8 [85].

4.2.4. Odległość miejska

Wspomniana już odległość miejska, zwana też taksówkową lub odległością Manhattan (ang. City-Block Metric, Manhattan Distance) jest wariantem odległości (miary) Minkowskiego, w której parametr 𝑝 przyjmuje wartość równą 1. W takim przypadku zależność (4.4) ma postać [85]:

𝑑1(𝔯𝑖, 𝔯𝑗) = ‖𝐱𝑖− 𝐱𝑗1 = ∑𝑛𝑙=1|𝑥𝑖𝑙− 𝑥𝑗𝑙| , dla 𝑝 = 1. (4.5)

4.2.5. Odległość Mahalanobisa

Odległość Minkowskiego, scharakteryzowana w punkcie 4.2.3 opiera się na założeniu, że nie istnieje korelacja pomiędzy poszczególnymi cechami obiektów. W przypadku, gdy cechy opisujące obiekty są jednak ze sobą skorelowane zastosowanie znajduje odległość (miara) Mahalanobisa (ang. Mahalanobis Metric). Miarę tę wyraża zależność [85]:

𝑑(𝐱𝑖, 𝐱𝑗) = √(𝐱𝑖 − 𝐱𝑗)𝑇−1(𝐱𝑖 − 𝐱𝑗) . (4.6)

(16)

16 4.3. Metody klasteryzacji hierarchicznej

Metody hierarchiczne należą do najczęściej stosowanych metod klasteryzacji. Ich wspólną cechą jest wyznaczanie skupień poprzez łączenie lub dzielenie skupień powstałych w poprzednich krokach wykonywanego algorytmu. W metodzie hierarchicznej, w celu uzyskania oczekiwanych skupień, stosowane są dwa rozwiązania. Pierwsze z nich, zwane podejściem aglomeracyjnym (ang. Agglomerative Approach) lub wstępującym zakłada na początku, że każdy obiekt stanowi osobny klaster. W kolejnych krokach uzyskane klastry są łączone w większe klastry, aż do momentu uzyskania klastra obejmującego wszystkie obiekty.

Proces ten może zostać zakończony wcześniej, po osiągnięciu warunku stopu, jakim jest zadana liczba klastrów. Skupienia łączy się zgodnie ze zmniejszającym się stopniem podobieństwa (lub wzrastającym stopniem odmienności). Drugie z rozwiązań stosowanych w hierarchicznych metodach analizy skupień nazywane jest podejściem podziałowym (ang.

Divisive Approach), zstępującym lub rozdrobnieniowym, w którym zakłada się, że wszystkie obiekty należą do jednego klastra. W kolejnych krokach klaster ten dzielony jest na mniejsze klastry, zgodnie ze wzrastającym stopniem podobieństwa wewnątrz klastra, aż do momentu, gdy każdy obiekt tworzył będzie osobny klaster. Podobnie jak miało to miejsce przy podejściu aglomeracyjnym, również w rozwiązaniu podziałowym, możliwe jest zakończenie dzielenia klastrów w momencie osiągnięcia założonej ich liczby, czyli po spełnieniu warunku stopu [52, 65, 85]. Częściej stosowanym rozwiązaniem jest podejście aglomeracyjne, ponieważ poważnym problemem w przypadku podejścia podziałowego jest znalezienie efektywnej procedury dzielącej klaster na mniejsze części [52, 65]. W toku prowadzonych prac naukowo- badawczych zastosowano podejście aglomeracyjne. Wybór skupień podlegających łączeniu w kolejnych krokach algorytmu uzależniony jest od zastosowanej metody z rodziny metod hierarchicznych. Ich przegląd przedstawiono poniżej.

4.3.1. Metoda pojedynczego wiązania

Metoda pojedynczego wiązania, zwana też metodą najbliższego sąsiedztwa (ang. Single linkage) opiera się o obliczenie odległości między dwoma skupieniami na podstawie odległości między dwoma najbliższymi obiektami należącymi do różnych skupień, zgodnie z zależnością:

𝑑(𝐶𝑖, 𝐶𝑗) = min

𝑖∈𝐶𝑖,𝑗∈𝐶𝑗𝑑(𝑥𝑖 , 𝑥𝑗), (4.7)

gdzie: 𝐶𝑖, 𝐶𝑗 są klastrami, a 𝑑(𝐶𝑖, 𝐶𝑗) oznacza miarę niepodobieństwa między nimi.

Metoda pojedynczego wiązania charakteryzuje się tworzeniem skupień o wydłużonych kształtach, tzw. łańcuchów [52, 78, 85].

4.3.2. Metoda pełnego wiązania

Metoda pełnego wiązania lub najdalszego sąsiedztwa (ang. Complete linkage) wykorzystuje zasadę wyznaczania odległości między dwoma skupieniami na podstawie odległości między dwoma najodleglejszymi obiektami należącymi do różnych skupień. Metodę tę opisuje zależność:

(17)

17 𝑑(𝐶𝑖, 𝐶𝑗) = max

𝑖∈𝐶𝑖,𝑗∈𝐶𝑗𝑑(𝑥𝑖 , 𝑥𝑗). (4.8) Metoda pełnego wiązania, będąc przeciwieństwem metody pojedynczego wiązania, tworzy zwarte skupienia o małej średnicy. Jest najbardziej odpowiednia, gdy rzeczywiste obiekty tworzą skupienia zwarte i dobrze separowane [52, 78, 85].

4.3.3. Metoda średnich połączeń

Metoda średnich połączeń, zwana też metodą średniego wiązania (ang. Average linkage, Unweighted Pair-Group Average, UPGA) oparta jest o wyznaczanie odległości miedzy dwoma skupieniami na podstawie średniej odległości między wszystkimi parami obiektów należących do porównywanych skupień, zgodnie ze wzorem:

𝑑(𝐶𝑖, 𝐶𝑗) =𝑛 1

𝐶𝑖𝑛𝐶𝑗𝑖∈𝐶𝑖𝑗∈𝐶𝑗𝑑(𝑥𝑖 , 𝑥𝑗), (4.9)

gdzie: 𝑛𝐶𝑖, 𝑛𝐶𝑗są liczbami obiektów odpowiednio w skupieniu 𝐶𝑖, 𝐶𝑗.

Metoda średnich połączeń, w przeciwieństwie do metod pojedynczego i pełnego wiązania, jest odporna na występowanie zaszumionych danych oraz punktów osobliwych. [52, 65, 78, 85].

4.3.4. Metoda Warda

Obok metod wiązania skupień opisanych w punktach 4.3.1.do 4.3.3. istnieje również, sformułowana w 1963 roku, popularna metoda minimalnej wariancji Warda, zwana również po prostu metodą Warda. Metoda ta opiera się o obliczenie miary niepodobieństwa między skupieniami 𝐶𝑖 i 𝐶𝑗 ∪ 𝐶𝑗 na podstawie zależności:

𝑑(𝐶𝑖, 𝐶𝑗 ∪ 𝐶𝑗) =n n𝐶𝑖+ n𝐶𝑗

𝐶𝑖+n𝐶𝑗 + n

𝐶𝑗 𝑑(𝐶𝑖, 𝐶𝑗) + n n𝐶𝑖+ n𝐶𝑗

𝐶𝑖+n𝐶𝑗 + n

𝐶𝑗 𝑑(𝐶𝑖, 𝐶𝑗) − − n n𝐶𝑖

𝐶𝑖+n𝐶𝑗 + n

𝐶𝑗 𝑑(𝐶𝑗, 𝐶𝑗), (4.10)

gdzie: n𝐶𝑖, 𝑛𝐶𝑗, 𝑛𝐶

𝑗 są liczbami obiektów odpowiednio w skupieniu 𝐶𝑖, 𝐶𝑗 [52, 85].

Metoda Warda traktowana jest jako bardzo efektywna, jednakże w wyniku jej zastosowania otrzymuje się skupienia o niewielkiej, zbliżonej liczebności [52, 85].

5. Przebieg eksperymentu badawczego

Utworzone zbiory danych w postaci 100-elementowych, dwukolumnowych macierzy dla każdej z 8 form WNZ, poddano analizie przy użyciu algorytmów badawczych, składających się z wybranej metody klasteryzacji oraz wybranej funkcji podobieństwa. Celem tego badania

(18)

18 było określenie skuteczności poszczególnych algorytmów przy klasyfikacji podstawowych form WNZ. Algorytmy badawcze oznaczono skrótowo w następujący sposób [32]:

metoda klasteryzacji – funkcja podobieństwa – częstotliwości PSD X/Y,

wskazując wybraną metodę klasteryzacji oraz wybraną funkcję podobieństwa, a także, dodatkowo, parę częstotliwości widma gęstości mocy, dla której utworzono badany zbiór danych. Algorytmy przyjęte w ramach przeprowadzonych przez Autora prac badawczych umożliwiały sprawdzenie poszczególnych metod klasteryzacji pod kątem ich skuteczności, dla różnych funkcji podobieństwa – odległości i dla wybranych par częstotliwości PSD.

Zastosowane metody klasteryzacji oraz funkcje podobieństwa opisane zostały w rozdziale 4 niniejszego autoreferatu. Zestawienie skróconych nazw poszczególnych metod klasyteryzacji oraz funkcji podobieństwa, stosowanych w dalszych badaniach zamieszczono w tabeli 5.1.

Tabela 5.1 Zestawienie skróconych nazw poszczególnych metod klasteryzacji oraz funkcji podobieństwa Nazwa pełna Nazwa skrócona

Metody klasteryzacji

Metoda pojedynczego wiązania Single Metoda pełnego wiązania Complete Metoda średnich połączeń Average

Metoda Warda Ward

Funkcje podobieństwa

Odległość euklidesowa Euclidean Standaryzowana odległość euklidesowa Seuclidean

Odległość Minkowskiego Minkowski

Odległość miejska Cityblock

Odległość Mahalanobisa Mahalanobis

Proces klasteryzacji zadany w poszczególnych, roboczych algorytmach badawczych realizowany był przy zastosowaniu procedur numerycznych dostępnych w środowisku symulacyjno-obliczeniowym pakietu oprogramowania Matlab, w którym klasteryzacja realizowana jest przez zestaw trzech instrukcji: pdist , linkage oraz cluster. Instrukcja cluster służy do grupowania elementów w zbiorze, w instrukcji pdist określa się funkcję podobieństwa, według której obliczana będzie odległość między elementami zbioru, natomiast w instrukcji linkage wskazuje się wybraną metodę klasteryzacji [51].

Przeprowadzony eksperyment badawczy polegał na dokonaniu analizy porównawczej rzeczywistego rozkładu zbioru danych dla rozpatrywanych klas WNZ, z rozkładem uzyskanym w drodze klasteryzacji przy użyciu wybranego algorytmu badawczego, a w szczególności porównaniu przynależności poszczególnych punktów z klas WNZ do utworzonych klastrów.

Rysunek 5.1 przedstawia rzeczywisty rozkład punktów reprezentujących zbiory danych dla trzech przykładowych klas WNZ [26] i przykładowej pary częstotliwości PSD [25].

W trakcie analizowanego eksperymentu wybrano następujące klasy: Klasę 1 – wyładowania w układzie ostrze-ostrze, Klasę 3 – wyładowania w układzie ostrze-płyta oraz Klasę 5 – wyładowania w układzie powierzchniowym z jedną elektrodą płaską, drugą wieloostrzową, między którymi znajduje się izolacja papierowo-olejowa. Natomiast pary częstotliwości PSD

(19)

19 klasyfikowanych sygnałów EA określono następująco: 50 kHz dla składowej X i 700 kHz dla składowej Y.

Rys. 5.1. Zbiór punktów obrazujących sygnały EA od WNZ dla przykładowych klas WNZ – Klasy 1, 3, 5 i pary częstotliwości PSD o wartościach 50 kHz dla składowej X oraz 700 kHz dla składowej Y

Rysunek 5.2 prezentuje wynik klasteryzacji, przeprowadzonej dla klas WNZ – Klasy 1, 3, 5, z wykorzystaniem następującego, przykładowego algorytmu badawczego [26]:

Ward – Seuclidean – 50/700,

a więc dla metody klasteryzacji Warda, standaryzowanej odległości euklidesowej oraz pary częstotliwości PSD o wartościach 50 kHz dla składowej X oraz 700 kHz dla składowej Y.

Rys. 5.2. Podział zbioru punktów na klastry w wyniku klasteryzacji przeprowadzonej dla klas WNZ – Klasy 1, 3, 5, z wykorzystaniem przykładowego algorytmu badawczego Ward – Seuclidean – 50/700

(20)

20 Porównanie przedstawionego na rys. 5.1 rzeczywistego podziału zbioru punktów dla trzech, przykładowych klas WNZ, z podziałem tego samego zbioru uzyskanym w wyniku przeprowadzonej klasteryzacji, zaprezentowanym na rys. 5.2, wskazuje na istnienie różnic pomiędzy rzeczywistą przynależnością części punktów do poszczególnych klas WNZ, a włączeniem ich do utworzonych klastrów. Można więc mówić o istnieniu pewnej dokładności, stopniu lub efektywności odtworzenia rzeczywistego rozkładu zbioru punktów (rys. 5.1) w utworzonych klastrach (rys. 5.2), a więc i skuteczności zastosowanego algorytmu klasteryzacyjnego.

Aby możliwe było przeprowadzenie procesu porównania poszczególnych algorytmów badawczych pod kątem ich skuteczności przy klasyfikacji poszczególnych form WNZ, konieczne było określenie liczbowych parametrów – wskaźników skuteczności, umożliwiających oszacowanie stopnia odtworzenia rzeczywistego rozkładu zbioru punktów w utworzonych klastrach. Jako wskaźniki skuteczności zastosowano moduł różnicy średnich

|∆𝑥̅| oraz moduł różnicy odchyleń standardowych |∆𝜎| wartości wag gęstości widma, wyznaczonych dla rozkładu rzeczywistego badanych klas WNZ i rozkładu klastrów uzyskanego w wyniku przeprowadzonej klasteryzacji, oddzielnie dla składowej X oraz składowej Y. Do obliczeń przyjęto 20 wartości wag gęstości widma, uzyskanych w wyniku przeprowadzonej analizy liczebności obu rozkładów, przy zastosowaniu standardowo dostępnej w środowisku symulacyjno-obliczeniowym Matlab funkcji hist. Wynik tej analizy w postaci histogramów przedstawiono na rys. 5.3.

Ponieważ średnia arytmetyczna, ze względu na zniekształcanie wyników w skutek dodania wartości skrajnych, jest miarą dającą dobre efekty przy badaniu zbiorów o niskim stopniu zróżnicowania cechy zmiennej, natomiast odchylenie standardowe jest miarą przydatną przy badaniu zbiorowości, które charakteryzują się niejednorodnością [88], zdecydowano o jednoczesnym stosowaniu tych dwóch, uzupełniających się wskaźników skuteczności.

Pierwszy z zastosowanych w trakcie eksperymentu badawczego wskaźników skuteczności – moduł różnicy średnich |∆𝑥̅| oparty został o średnie arytmetyczne wyznaczane dla wartości wag gęstości widma dla badanych klas WNZ oraz uzyskanych klastrów. Wskaźnik ten określa równanie:

|∆𝑥̅| = |𝑥̅(𝑘𝑙𝑎𝑠𝑡𝑟𝑎)−𝑥̅(𝑘𝑙𝑎𝑠𝑦)| = |1𝑛𝑛𝑖=1𝑥𝑛(𝑘𝑙𝑎𝑠𝑡𝑟𝑎)𝑛1𝑛𝑖=1𝑥𝑛(𝑘𝑙𝑎𝑠𝑦)|, (5.1)

dla 𝑛 = 20.

gdzie: |∆𝑥̅| – moduł różnicy średnich, 𝑥̅(𝑘𝑙𝑎𝑠𝑡𝑟𝑎) – średnia arytmetyczna wartości wag gęstości widma dla badanego klastra, 𝑥̅(𝑘𝑙𝑎𝑠𝑦) – średnia arytmetyczna wartości wag gęstości widma dla badanej klasy WNZ, 𝑥𝑛(𝑘𝑙𝑎𝑠𝑡𝑟𝑎) – wartość n-tej wagi gęstości widma w badanym klastrze, 𝑥𝑛(𝑘𝑙𝑎𝑠𝑦) – wartość n-tej wagi gęstości widma w badanej klasie WNZ.

Drugi ze wskaźników skuteczności – moduł różnicy odchyleń standardowych |∆𝜎|, oparto o wyliczone wartości odchyleń standardowych dla wartości wag gęstości widma, dla badanych klas WNZ oraz uzyskanych klastrów. Wskaźnik ten opisuje równanie:

|∆𝜎| = |𝜎(𝑘𝑙𝑎𝑠𝑡𝑟𝑎)− 𝜎(𝑘𝑙𝑎𝑠𝑦)| =

(21)

21

= |√𝑛−11𝑛𝑖=1(𝑥𝑛(𝑘𝑙𝑎𝑠𝑡𝑟𝑎)− 𝑥̅(𝑘𝑙𝑎𝑠𝑡𝑟𝑎))2 − √𝑛−11𝑛𝑖=1(𝑥𝑛(𝑘𝑙𝑎𝑠𝑦)− 𝑥̅(𝑘𝑙𝑎𝑠𝑦))2|, (5.2)

dla 𝑛 = 20,

gdzie: |∆𝜎| - moduł różnicy odchyleń standardowych, 𝜎(𝑘𝑙𝑎𝑠𝑡𝑟𝑎) – odchylenie standardowe wartości wag gęstości widma dla badanego klastra, 𝜎(𝑘𝑙𝑎𝑠𝑦)– odchylenie standardowe wartości wag gęstości widma dla badanej klasy WNZ, 𝑥𝑛(𝑘𝑙𝑎𝑠𝑡𝑟𝑎) – wartość n-tej wagi gęstości widma w badanym klastrze, 𝑥̅(𝑘𝑙𝑎𝑠𝑡𝑟𝑎) średnia arytmetyczna wartości wag gęstości widma dla badanego klastra, 𝑥𝑛(𝑘𝑙𝑎𝑠𝑦)– wartość n-tej wagi gęstości widma w badanej klasie WNZ, 𝑥̅(𝑘𝑙𝑎𝑠𝑦)– średnia arytmetyczna wartości wag gęstości widma dla badanej klasy WNZ.

Wyznaczenie skuteczności analizowanego algorytmu badawczego polegało w pierwszym etapie na wyliczeniu wartości średniej 𝑥̅ oraz odchylenia standardowego 𝜎 wartości wag gęstości widma dla badanych klas WNZ oraz uzyskanych klastrów, oddzielnie dla składowej X i dla składowej Y.

Graficzną reprezentację tego etapu obliczeń stanowią histogramy obrazujące liczebność elementów w poszczególnych wagach gęstości widma oryginalnego rozkładu danych pomiarowych oraz rozkładu uzyskanego w wyniku klasteryzacji dla wybranej składowej.

Rysunek 5.3 przedstawia przykładowe histogramy, prezentujące rozkłady liczebności elementów w poszczególnych wagach gęstości widma dla składowej X, wraz z wyliczonymi wartościami średniej 𝑥̅ (Mean) oraz odchylenia standardowego 𝜎 (STD) wartości wag gęstości widma dla Klasy 5 i klastra 3 oraz Klasy 3 i klastra 1, utworzonych dla algorytmu badawczego Ward – Seuclidean – 50/700 oraz wybranych, przykładowych klas WNZ – Klasy 1, 3, 5. Na rysunku tym znajdują się również graficzne porównania uzyskanych rozkładów liczebności elementów w poszczególnych wagach gęstości widma dla Klasy 5 i klastra 3 oraz Klasy 3 i klastra 1. Gdy charakterystyki pokrywają się odwzorowanie klasy w klastrze jest wierne (Rys.

5.3a), gdy znajdują sie z dala od siebie brak jest odwzorowania (Rys. 5.3b)[60].

a)

(22)

22 b)

Rys. 5.3. Rozkłady liczebności elementów w poszczególnych wagach gęstości widma dla składowej X, wraz z wyliczonymi wartościami średniej 𝑥̅ (Mean) oraz odchylenia standardowego 𝜎 (STD) oraz porównaniem uzyskanych rozkładów a) dla Klasy 5 i klastra 3 b) Klasy 3 i klastra 1, utworzonych dla algorytmu badawczego Ward – Seuclidean – 50/700 oraz wybranych, przykładowych klas WNZ – Klasy 1, 3, 5

Następnie dla każdej pary klasa-klaster, dla badanych klas WNZ oraz uzyskanych klastrów, wyznaczono moduł różnicy średnich |∆𝑥̅|, zgodnie ze wzorem (5.1) oraz moduł różnicy odchyleń standardowych |∆𝜎|, zgodnie ze wzorem (5.2), pomiędzy wartościami średniej 𝑥̅ oraz odchylenia standardowego 𝜎 dla wartości wag gęstości widma, oddzielnie dla składowej X i składowej Y. Wartości różnic uzyskane dla poszczególnych składowych, uśredniono przy wykorzystaniu średniej arytmetycznej, zgodnie z zależnościami:

∆𝑥

ś𝑟

=

|∆𝑥̅(𝑋)|+|∆𝑥̅(𝑌)|

2

=

|𝑥̅(𝑋)(𝑘𝑙𝑎𝑠𝑡𝑟𝑎)−𝑥̅(𝑋)(𝑘𝑙𝑎𝑠𝑦)|+|𝑥̅(𝑌)(𝑘𝑙𝑎𝑠𝑡𝑟𝑎)−𝑥̅(𝑌)(𝑘𝑙𝑎𝑠𝑦)|

2 , (5.3)

gdzie: ∆𝑥ś𝑟 – uśredniona dla składowych X i Y wartość modułów różnic średnich, |∆𝑥̅(𝑋)| – moduł różnicy średnich dla składowej X, |∆𝑥̅(𝑌)| – moduł różnicy średnich dla składowej Y, 𝑥̅(𝑋)(𝑘𝑙𝑎𝑠𝑡𝑟𝑎) średnia arytmetyczna wartości wag gęstości widma dla badanego klastra, dla składowej X, 𝑥̅(𝑋)(𝑘𝑙𝑎𝑠𝑦) średnia arytmetyczna wartości wag gęstości widma dla badanej klasy WNZ, dla składowej X, 𝑥̅(𝑌)(𝑘𝑙𝑎𝑠𝑡𝑟𝑎) – średnia arytmetyczna wartości wag gęstości widma dla badanego klastra, dla składowej Y, 𝑥̅(𝑌)(𝑘𝑙𝑎𝑠𝑦) – średnia arytmetyczna wartości wag gęstości widma dla badanej klasy WNZ, dla składowej Y.

∆𝜎

ś𝑟

=

|∆𝜎(𝑋)|+|∆𝜎(𝑌)|

2

=

|𝜎(𝑋)(𝑘𝑙𝑎𝑠𝑡𝑟𝑎) − 𝜎(𝑋)(𝑘𝑙𝑎𝑠𝑦)|+|𝜎(𝑌)(𝑘𝑙𝑎𝑠𝑡𝑟𝑎) − 𝜎(𝑌)(𝑘𝑙𝑎𝑠𝑦)|

2 , (5.4)

gdzie: ∆𝜎ś𝑟 - uśredniona dla składowych X i Y wartość modułów różnic odchyleń standardowych,

|∆𝜎(𝑋)| – moduł różnicy odchyleń standardowych dla składowej X, |∆𝜎(𝑌)| – moduł różnicy odchyleń standardowych dla składowej Y, 𝜎(𝑋)(𝑘𝑙𝑎𝑠𝑡𝑟𝑎) – odchylenie standardowe wartości wag gęstości widma dla badanego klastra, dla składowej X, 𝜎(𝑋)(𝑘𝑙𝑎𝑠𝑦) – odchylenie standardowe wartości wag gęstości widma dla badanej klasy WNZ, dla składowej X, 𝜎(𝑌)(𝑘𝑙𝑎𝑠𝑡𝑟𝑎) – odchylenie standardowe wartości wag

(23)

23 gęstości widma dla badanego klastra, dla składowej Y, 𝜎(𝑌)(𝑘𝑙𝑎𝑠𝑦) – odchylenie standardowe wartości wag gęstości widma dla badanej klasy WNZ, dla składowej Y.

Biorąc pod uwagę jednorodność przedstawionych powyżej wskaźników, opisanych wzorami (5.3) i (5.4), będących uśrednionymi dla składowych X i Y modułami różnic odpowiednio średnich |∆𝑥̅| oraz odchyleń standardowych |∆𝜎| wartości wag gęstości widma dla badanych klasy i klastra, zdecydowano o ich połączeniu w jeden wskaźnik poprzez uśrednienie wartości przy wykorzystaniu średniej arytmetycznej, zgodnie z zależnością:

∆̅=

∆𝑥ś𝑟+∆𝜎2 ś𝑟, (5.5)

gdzie: ∆̅ – uśredniona wartość modułów różnic średnich i modułów różnic odchyleń standardowych, ∆𝑥ś𝑟

– uśredniona dla składowych X i Y wartość modułów różnic średnich, ∆𝜎ś𝑟 – uśredniona dla składowych X i Y wartość modułów różnic odchyleń standardowych.

Uzyskany wskaźnik ∆̅ odzwierciedla skuteczność odtworzenia klasy w klastrze, zapewniając jednocześnie uwzględnienie obu uzupełniających się wskaźników skuteczności – średniej arytmetycznej oraz odchylenia standardowego, wybranych w celu przeprowadzenia procesu porównania poszczególnych algorytmów badawczych pod kątem ich skuteczności przy klasyfikacji poszczególnych form WNZ.

Wyboru najskuteczniejszego odwzorowania badanych klas WNZ w poszczególnych, utworzonych klastrach dokonywano poprzez wskazywanie najmniejszej wartości wskaźnika ∆̅

[25, 32, 59]. Obliczenia wykonano przy użyciu procedur dostępnych w środowisku symulacyjno-obliczeniowym Matlab, stosując instrukcje mean oraz STD.

W tabeli 5.2 przedstawiono uzyskane tą drogą wyniki dla przykładowego algorytmu badawczego Ward – Seuclidean – 50/700 oraz wybranych, przykładowych klas WNZ – Klasy 1, 3, 5. Wyróżniono wyniki najskuteczniejszych odwzorowań poszczególnych klas WNZ w uzyskanych klastrach.

Tabela 5.2 Zestawienie wyników odwzorowania klas WNZ w utworzonych klastrach dla przykładowego algorytmu badawczego Ward – Seuclidean – 50/700 oraz wybranych, przykładowych klas WNZ – Klasy 1, 3, 5

Klasa Klaster Składowa

Wartość wskaźników

w klasie

Wartość wskaźników

w klastrze |∆𝑥̅| |∆𝜎| ∆𝑥ś𝑟 ∆𝜎ś𝑟 ∆̅

𝑥̅ 𝜎 𝑥̅ 𝜎

1 1 X -3,15 0,5910 -2,79 0,3810 0,3550 0,2100

0,1794 0,1061 0,1428

1 1 Y -5,58 0,0817 -5,57 0,0795 0,0038 0,0022

1 2 X -3,15 0,5910 -3,9 0,2860 0,7540 0,3050

0,4325 0,1656 0,2991

1 2 Y -5,58 0,0817 -5,69 0,0557 0,1110 0,0261

1 3 X -3,15 0,5910 -2,94 0,5470 0,2030 0,0442

0,4295 0,0323 0,2309

1 3 Y -5,58 0,0817 -4,92 0,1020 0,6560 0,0204

3 1 X -4,05 0,1970 -2,79 0,3810 1,2600 0,1850

0,6875 0,1044 0,3960

3 1 Y -5,69 0,0557 -5,57 0,0795 0,1150 0,0238

3 2 X -4,05 0,1970 -3,9 0,2860 0,1510 0,0891

0,0755 0,0446 0,0601

3 2 Y -5,69 0,0557 -5,69 0,0557 0,0000 0,000

3 3 X -4,05 0,1970 -2,94 0,5470 1,1100 0,3500

0,9390 0,1982 0,5686

3 3 Y -5,69 0,0557 -4,92 0,1020 0,7680 0,0464

(24)

24 W celu przeprowadzenia jednoznacznej oceny skuteczności analizowanego algorytmu badawczego zaproponowano procentowy wskaźnik pod nazwą Sprawność algorytmu badawczego, bazujący na porównaniu liczby wielokrotnych wskazań najskuteczniejszego odwzorowania poszczególnych klas WNZ w jednym klastrze, przy czym powtórzenie liczone było od kolejnego wskazania, a liczbą analizowanych klas WNZ. Wskaźnik ten określono w następujący sposób:

𝑆 = 100 −𝑁𝑁𝑅

𝐶× 100 [%] , (5.6)

gdzie: S – sprawność algorytmu badawczego, NR – liczba powtórzeń, NC – liczba analizowanych klas WNZ [32].

Stosując wskaźnik S (5.6) do analizy wyników zawartych w tabeli 5.2, uzyskanych dla przykładowego algorytmu badawczego Ward – Seuclidean – 50/700 oraz przykładowych klas WNZ – Klasy 1, 3, 5, otrzymano wynik, w którym:

 Klasa 1 najlepiej została odwzorowana w klastrze 1,

 Klasa 3 w klastrze 2,

 Klasa 5 w klastrze 3,

nie wystąpiło więc powtórzenie, czyli odtworzenie kilku klas WNZ w tym samym klastrze.

Zgodnie z regułą (5.6) sprawność przykładowego algorytmu badawczego Ward – Seuclidean – 50/700 oraz wybranych, przykładowych klas WNZ – Klasy 1, 3, 5 wynosi więc 100%.

W tabeli 5.3 zamieszczono wyniki podobnego badania, przeprowadzonego dla innego, przykładowego algorytmu badawczego Ward – Cityblock – 280/610, a więc dla metody klasteryzacji Warda, odległości miejskiej oraz pary częstotliwości PSD o wartościach 280 kHz dla składowej X oraz 610 kHz dla składowej Y, a także innych, przykładowych klas WNZ:

Klasy 1 (wyładowania w układzie ostrze-ostrze), Klasy 2 (wyładowania w układzie ostrze- ostrze ze swobodnie przemieszczającymi się pęcherzykami gazowymi) i Klasy 3 (wyładowania w układzie ostrze-płyta).

Tabela 5.3 Zestawienie wyników odwzorowania klas WNZ w utworzonych klastrach dla przykładowego algorytmu badawczego Ward – Cityblock – 280/610 oraz wybranych, przykładowych klas WNZ – Klasy 1, 2, 3

5 1 X -2,94 0,5470 -2,79 0,3810 0,1510 0,1660

0,4020 0,0943 0,2482

5 1 Y -4,92 0,1020 -5,57 0,0795 0,6530 0,0226

5 2 X -2,94 0,5470 -3,90 0,2860 0,9570 0,2610

0,8625 0,1537 0,5081

5 2 Y -4,92 0,1020 -5,69 0,0557 0,7680 0,0464

5 3 X -2,94 0,5470 -2,94 0,5470 0,0000 0,0000

0,0000 0,0000 0,0000

5 3 Y -4,92 0,1020 -4,92 0,1020 0,0000 0,0000

Klasa Klaster Składowa

Wartość wskaźników

w klasie

Wartość wskaźników

w klastrze |∆𝑥̅| |∆𝜎| ∆𝑥ś𝑟 ∆𝜎ś𝑟 ∆̅

𝑥̅ 𝜎 𝑥̅ 𝜎

1 1 X -4,38 0,5570 -5,00 0,1910 0,6200 0,3670

0,4575 0,2675 0,3625 1 1 Y -5,30 0,2130 -5,59 0,0454 0,2950 0,1680

Cytaty

Powiązane dokumenty

Jeśli żaden wektor ofertowy nie będzie poprawiał aktualnego wyniku i wszystkie sztuczne zmienne wynoszą zero (z założoną dokładnością), to oznacza to, że

Najwartościowszą pracą z tej tematyki jest publikacja [BIODEV GVM], gdzie habilitant konfrontuje swój projekt z badaniami eksperymentalnymi wykonanego prototypu układu

Rady Wydziału Elektrotechniki, Elektroniki, Informatyki i Automatyki Politechniki Łódzkiej z OS lipca 2016 r. w sprawie nadania stopnia naukowego doktora habilitowanego

gdzie net to obiekt opisujący stworzoną sieć, PR macierz z wartościami minimalnymi i maksymalnymi dla kolejnych wejść, S i liczba neuronów w i-tej warstwie sieci, T fi definicja

10) Z punktu widzenia OSD do aktywnego zarządzania siecią w czasie rzeczywistym niezbędne będzie pozyskiwanie informacji obejmujących m.in prognozy produkcji źródeł

Procedura określania odgałęzienia objętego zwarciem doziemnym jest wykonywana po otwarciu wyłącznika i polega na przesłaniu zarejestrowanych wielkości do jednostki

Autor w bardzo ogólny sposób przedstawił cel rozprawy nie formułując zagadnienia naukowego, które jest rozwiązane. Bardziej konkretna jest teza pracy „Układ

W tej części autoreferatu przedstawione zostały charakterystyki widmowe struktur Bragga, wytworzonych w laboratorium przy wykorzystaniu opisanego wcześniej układu