• Nie Znaleziono Wyników

W Instytucie Elektroenergetyki i Energii Odnawialnej Politechniki Opolskiej prowadzone są od wielu lat prace naukowo-badawcze dotyczące WNZ występujących w papierowo - olejowej izolacji wysokonapięciowych urządzeń elektroenergetycznych.

Tematyka prowadzonych w tej jednostce badań naukowych została opisana m.in. w pracach [11, 12, 14, 15, 16, 17, 19]. W toku badań wypracowana została własna klasyfikacja WNZ powiązana z określonymi typami defektów izolacji, obejmująca 8 podstawowych klas:

 Klasa 1 – wyładowania w układzie ostrze-ostrze.

Wyładowania te mogą odpowiadać WNZ powstałym w wyniku uszkodzenia izolacji dwóch sąsiadujących zwojów uzwojeń transformatora.

 Klasa 2 – wyładowania w układzie ostrze-ostrze ze swobodnie przemieszczającymi się pęcherzykami gazowymi.

Wyładowania modelujące WNZ występujące w izolacji olejowo-papierowej sąsiadujących uzwojeń transformatora i będące efektem uszkodzenia lub osłabienia układu izolacyjnego w oleju o silnym zagazowaniu (rozwinięty proces starzenia dielektryków).

 Klasa 3 – wyładowania w układzie ostrze-płyta.

Wyładowania mogące odpowiadać WNZ występującym między uszkodzoną częścią izolacji uzwojenia transformatora a uziemionymi częściami płaskimi, takimi jak elementy rdzenia, jarzma, kadzi, ekranów magnetycznych.

 Klasa 4 – wyładowania w układzie powierzchniowym dwóch elektrod płaskich, między którymi znajduje się izolacja papierowo-olejowa.

7 Wyładowania modelujące WNZ występujące w tzw. punkcie potrójnym, tzn. na styku przewodów roboczych uzwojenia transformatora oraz dielektryka papierowego zaimpregnowanego olejem elektroizolacyjnym, w których miedź posiada gładką i równą powierzchnię. Jest to najczęstsza forma WNZ.

 Klasa 5 – wyładowania w układzie powierzchniowym z jedną elektrodą płaską, drugą wieloostrzową, między którymi znajduje się izolacja papierowo-olejowa.

Wyładowania mogące odzwierciedlać WNZ rozwijające się na styku przewodów miedzianych i papierowo-olejowego układu izolacyjnego (tzw. punkcie potrójnym), w którym występuje nierównomierność powierzchni uzwojeń (miejsca łączenia poszczególnych elementów uzwojenia, np. spawy przewodów).

 Klasa 6 – wyładowania w układzie wieloostrze-płyta w oleju.

Wyładowania mogące odpowiadać WNZ występującym między wielopunktowym uszkodzeniem izolacji uzwojenia transformatora a uziemionymi częściami płaskimi, takimi jak elementy rdzenia, jarzma, kadzi, ekranów magnetycznych.

 Klasa 7 – wyładowania w układzie wieloostrze-płyta w oleju, ze swobodnie przemieszczającymi się pęcherzykami gazowymi.

Wyładowania modelujące WNZ pomiędzy uszkodzonym w wyniku degradacji warstw zaimpregnowanego papieru kablowego fragmentem uzwojenia transformatora (zamiast jednego punktu generacji WNZ może wystąpić ich kilka lub kilkanaście w nieznacznej odległości), a elementami uziemionymi takimi jak elementy rdzenia, jarzma, kadzi, ekranów magnetycznych.

 Klasa 8 – wyładowania w układzie wieloostrze-płyta ze swobodnie przemieszczającymi się cząstkami stałymi o nieokreślonym potencjale.

Wyładowania mogące odzwierciedlać WNZ w transformatorach o długim czasie eksploatacji, podczas którego następują procesy starzeniowe izolacji papierowej połączone z wydzielaniem włókien celulozy [11, 14, 20, 22, 54, 55].

W oparciu o powyższy podział WNZ oraz wymienione układy modelujące, wygenerowano w warunkach symulacyjnych sygnały EA, które utworzyły bazę stanowiącą podstawę prowadzonych następnie badań. Bazę utworzono dokonując pomiarów sygnałów EA oraz rejestracji ich przebiegów czasowych w plikach pomiarowych, dla poszczególnych form WNZ. Z plików wyodrębniono informacje dotyczące amplitudy zmierzonego sygnału EA i zapisano w formacie umożliwiającym ich obróbkę i analizę w środowisku symulacyjno-obliczeniowym pakietu oprogramowania Matlab. Szczegółowy opis bazy znaleźć można m.in.

w pracach [11, 14, 20, 22, 55].

Baza sygnałów EA, a w szczególności jej wersja opracowana przez dr hab. inż.

S. Boruckiego oraz dr hab. inż. Andrzeja Cichonia, stanowiły podstawę prac naukowo-badawczych podjętych w celu sprawdzenia przydatności algorytmów klasteryzacji (analizy skupień), do klasyfikacji podstawowych form WNZ. Autorzy wspomnianej bazy sygnałów EA wyrazili zgodę na jej wykorzystanie przez Autora rozprawy.

Do przeprowadzenia badań przyjęto po 100 zarejestrowanych sygnałów EA dla 8 klas WNZ, tworząc próbę badawczą obejmującą łącznie 800 sygnałów.

8 4. Charakterystyka algorytmów klasteryzacji

Analiza skupień (klasteryzacja), jako grupowanie, obok klasyfikacji, należy do jednej z najstarszych i najpopularniejszych metod analizy danych. W pojęciu ogólnym jest narzędziem statystycznej analizy danych służącym do wykrycia w badanym zbiorze naturalnej struktury, o ile taka istnieje. Celem klasteryzacji jest podział badanego zbioru obiektów fizycznych lub abstrakcyjnych na homogeniczne grupy – podzbiory, zwane skupieniami. Analiza skupień zaliczana jest do systemów uczących się bez nadzoru. Ich charakterystyczną cechą jest brak typowych danych uczących, a więc zadaniem systemu jest opisanie obserwowanych danych (danych wejściowych) wyłącznie na podstawie nich samych. Można stwierdzić, że każdy element zbioru uczącego składa się jedynie z wektora cech, a zadanie systemu to wykrycie struktury zbioru danych lub współzależności między nimi [52]. Poprawnie przeprowadzona analiza skupień pozwala na lepsze zrozumienie informacji zawartych w zbiorze danych, ustalenie własności grup elementów do siebie podobnych oraz ich syntetycznej charakterystyki [50]. Kolejne etapy procesu analizy skupień przedstawia rys. 4.1.

Rys. 4.1. Etapy procesu analizy skupień [65]

4.1. Wybór reprezentacji obiektów

Ponieważ procesowi grupowania podlegają nie same obiekty, lecz ich abstrakcyjne reprezentacje, ich wybór, zwany również ekstrakcją cech, powinien wskazać najbardziej odpowiedni zbiór cech, który najlepiej opisuje grupowane obiekty. Wybór reprezentacji obiektów ma bowiem kluczowe znaczenie dla efektywności i jakości procesu grupowania [65].

Obiektami w przypadku analizy sygnałów EA od WNZ są informacje o tych sygnałach, zarejestrowane w plikach pomiarowych w bazie sygnałów EA, natomiast reprezentacjami odpowiednio wybrane ich cechy lub też parametry. Reprezentacje te określa się mianem deskryptorów. Istnieje wiele deskryptorów opisujących sygnały EA od WNZ. Ogólnie dzieli się je na:

 deskryptory określane w dziedzinie czasu,

 deskryptory określane w dziedzinie częstotliwości,

 deskryptory określane w dziedzinie czasowo-częstotliwościowej,

ekstrakcja danych podobieństwo

obiektów

grupowanie

obiekt reprezentacja obiektu

sprzężenie zwrotne

klastry

9

 wskaźniki statystyk opisowych,

 wyniki analizy falkowej [12, 15, 16, 19, 53].

Szczegółowo deskryptory opisujące sygnały EA od WNZ przedstawiają m.in. autorzy prac [16, 53, 61, 62].

W trakcie przeprowadzonych przez Autora prac naukowo-badawczych, jako parametr opisujący obiekty – informacje o sygnałach EA zawarte w plikach pomiarowych – wykorzystano gęstość mocy zarejestrowanego sygnału, którą wyznaczono przy użyciu dyskretnej transformaty Fouriera DFT (ang. Discrete Fourier Transform). Wybór tego deskryptora wynikał z dotychczasowych doświadczeń zebranych przez pracowników Katedry Wysokich Napięć Instytutu Elektroenergetyki i Energii Odnawialnej Politechniki Opolskiej – widmo gęstości mocy sygnału EA było już wykorzystywane m.in. w badaniach prowadzonych przez dr hab. inż. S. Boruckiego oraz dr inż. P. Kurtasza [22, 54].

Dla każdego z sygnałów EA, będącego czasowym przebiegiem wartości napięcia generacji wyładowania o długości 20 ms, wyznaczano charakterystykę jego widma gęstości mocy. Wykorzystano w tym celu dostępną w środowisku symulacyjno-obliczeniowym Matlab funkcję widmo gęstości mocy PSD (ang. Power Spectrum Density). Parametrem wpływającym na dokładność wyznaczenia widmowej gęstości mocy jest dla funkcji PSD wybrana liczba punktów uśredniających. Na podstawie wniosków przedstawionych w pracy [22], w prowadzonych analizach przyjęto wartość 128 punktów uśredniających. Następnie na wyznaczonych obrazach PSD, dla danego sygnału EA z wybranej klasy WNZ, wskazano dwie wartości wagi gęstości widma dla dwóch wartości częstotliwości, wyznaczonych w drodze eksperymentu. Uzyskano w ten sposób dwuelementowy wektor, z którego pierwszy element przyjęty został jako tzw. składowa X, a drugi jako tzw. składowa Y, wyznaczając współrzędne punktu w przestrzeni euklidesowej. Współrzędne te, będąc reprezentacją wybranego sygnału EA z wybranej klasy WNZ, dla wybranej pary częstotliwości PSD, stanowiły podstawę obliczeń prowadzonych w dalszej części eksperymentu.

Opisany powyżej proces tworzenia dwuelementowych wektorów schematycznie przedstawiono na rysunku 4.2. Wybrano przykładowy sygnał EA od WNZ w układzie ostrze-ostrze (Klasa 1), dla częstotliwości PSD o wartościach 40 kHz dla składowej X oraz 700 kHz dla składowej Y. Postępując w opisany sposób z każdym z zarejestrowanych sygnałów EA, w każdej badanej klasie WNZ otrzymano osiem 100-tu elementowych, dwukolumnowych, macierzy danych, zawierających wektory współrzędnych punktów na płaszczyźnie XY, wyznaczonych dla wybranej pary częstotliwości widma gęstości mocy. Wyznaczone wektory są reprezentacjami poszczególnych obiektów – badanych przebiegów EA – uzyskanych w drodze zastosowania wybranego deskryptora, zaś punkty na płaszczyźnie XY ich graficznym obrazem.

10

0 100 200 300 400 500 600 700 800 900 1000 1100 1200

-6

Waga gęstości widma [dB] Widmo gęstości mocy

-3.5 -3.4 -3.3 -3.2 -3.1 -3 -2.9 -2.8 -2.7 -2.6 -2.5 -2.4 -2.3 -2.2 -2.1 -2 -1.9 -1.8 -1.7 -1.6 -1.5

Gęstość widmowa dla f = 700 kHz

Uzyskany punkt

Składowa Y, f = 700 kHz

Składowa X, f = 40 kHz

Składowa Y, f = 700 kHz

Składowa X, f = 40 kHz

Rys. 4.2. Proces uzyskiwania współrzędnych punktu dla przykładowego sygnału EA od WNZ w układzie ostrze-ostrze (Klasa 1), dla częstotliwości PSD o wartościach 40 kHz dla składowej X oraz 700 kHz dla składowej Y:

a) zarejestrowany przebieg czasowy sygnału EA od WNZ, b) widmo gęstości mocy sygnału z zaznaczonymi, wybranymi częstotliwościami PSD, c) uzyskany punkt w układzie współrzędnych XY

Rysunek 4.3 przedstawia zbiór punktów obrazujących sygnały EA od WNZ dla przykładowej klasy WNZ w układzie ostrze-ostrze (Klasa 1), dla pary częstotliwości PSD o wartościach 30 kHz dla składowej X oraz 340 kHz dla składowej Y. Natomiast rysunek 4.4 ilustruje zbiory punktów opisujących sygnały EA od WNZ dla wszystkich badanych Klas WNZ i przykładowej pary częstotliwości PSD o wartościach 30 kHz dla składowej X oraz 340 kHz dla składowej Y.

Rys. 4.3. Zbiór punktów obrazujących sygnały EA od WNZ dla przykładowej klasy WNZ w układzie ostrze-ostrze (Klasa 1), wyznaczony dla pary częstotliwości PSD o wartościach 30 kHz dla składowej X

oraz 340 kHz dla składowej Y

11 Rys. 4.4. Zbiór punktów obrazujących sygnały EA od WNZ dla wszystkich, badanych klas WNZ i przykładowej

pary częstotliwości PSD o wartościach 30 kHz dla składowej X oraz 340 kHz dla składowej Y

Jak już wspomniano właściwy dobór pary częstotliwości PSD, dla których wskazywane są dwie wartości wagi gęstości widma będące współrzędnymi punktu reprezentującego wybrany sygnał EA z wybranej klasy WNZ, ma kluczowe znaczenie dla późniejszej skuteczności zastosowanych algorytmów badawczych. Niesatysfakcjonujący wynik analizy skupień może być następstwem niewłaściwego wyboru zbioru cech opisujących obiekt, które okazały się niereprezentatywne [65].

W celu właściwego doboru par częstotliwości PSD dokonano szerokiej analizy graficznych obrazów uzyskanych wektorów na płaszczyźnie euklidesowej, poszukując rozkładów charakteryzujących się występowaniem skupień. Analiza ta przeprowadzona została dla trzech wybranych klas WNZ występujących łącznie [25]. Wybrano Klasę 1 – wyładowania w układzie ostrze-ostrze, Klasę 3 – wyładowania w układzie ostrze-płyta oraz Klasę 5 – wyładowania w układzie powierzchniowym z jedną elektrodą płaską, drugą wieloostrzową, między którymi znajduje się izolacja papierowo-olejowa. Uzyskano na wstępie około 10 000 charakterystyk, wyznaczonych dla par częstotliwości PSD zmienianych dla składowej X i składowej Y w granicach od 10 kHz do 990 kHz, z krokiem 10 kHz. Połowę charakterystyk odrzucono, ze względu na ich powielenie się w przypadku tej samej pary częstotliwości PSD, lecz przypisanej do odmiennych składowych. Odrzucono również charakterystyki dla par częstotliwości PSD o tej samej wartości, ponieważ w takim przypadku wszystkie punkty grupują się w formę linii na przekątnej charakterystyki.

Zgodnie z dostępnymi w literaturze wynikami badań, jak również badaniami prowadzonymi przez pracowników Katedry Wysokich Napięć Instytutu Elektroenergetyki i Energii Odnawialnej Politechniki Opolskiej, m.in. [11, 15, 16, 23, 31], przedział częstotliwości, w którym zawarte są sygnały EA, powstające podczas występowania WNZ, zawiera się w granicach od fd = 20 kHz do fg = 700 kHz. W tym też zakresie częstotliwości, w celu poprawnego odwzorowania struktury sygnałów EA, ustawiono pasmo filtracji badanych sygnałów. Kolejne ograniczenie uzyskanej grupy charakterystyk wynikało więc z filtracji częstotliwości zastosowanej w toku gromadzenia badanych obiektów – przebiegów czasowych EA. Odrzucono charakterystyki dla par częstotliwości PSD, w których którakolwiek ze

12 składowych miała wartość poniżej 20 kHz lub powyżej 700 kHz. Ostatecznie analizowano dokładnie 2 346 charakterystyk.

Wśród uzyskanych, graficznych obrazów rozkładu wektorów wyznaczonych dla wybranych par częstotliwości PSD wyróżnić można 5 typów grupowań. Dla każdego z nich wybrano jedną, reprezentującą je parę częstotliwości PSD. Wybrane pary częstotliwości zestawiono w tabeli 4.1.

Tabela 4.1 Zestawienie wybranych par częstotliwości PSD Oznaczenie

w algorytmie badawczym Składowa X Składowa Y

20/80 20 kHz 80 kHz

40/700 40 kHz 700 kHz

170/350 170 kHz 350 kHz

430/550 430 kHz 550 kHz

570/670 570 kHz 670 kHz

Rysunki od 4.4 do 4.8 przedstawiają zbiory punktów obrazujące wektory wyznaczone dla wybranych klas WNZ – Klasy 1, 3 i 5 – przy wybranych parach częstotliwości PSD, wymienionych w tabeli 4.1.

Rys. 4.4. Zbiór punktów obrazujących wektory wyznaczone dla wybranych klas WNZ – Klasy 1, 3 i 5 przy wybranej parze częstotliwości PSD o wartościach 20 kHz dla składowej X oraz 80 kHz dla składowej Y

13 Rys. 4.5. Zbiór punktów obrazujących wektory wyznaczone dla wybranych klas WNZ – Klasy 1, 3 i 5 przy

wybranej parze częstotliwości PSD o wartościach 40 kHz dla składowej X oraz 700 kHz dla składowej Y

Rys. 4.6. Zbiór punktów obrazujących wektory wyznaczone dla wybranych klas WNZ – Klasy 1, 3 i 5 przy wybranej parze częstotliwości PSD o wartościach 170 kHz dla składowej X oraz 350 kHz dla składowej Y

Rys. 4.7. Zbiór punktów obrazujących wektory wyznaczone dla wybranych klas WNZ – Klasy 1, 3 i 5 przy wybranej parze częstotliwości PSD o wartościach 430 kHz dla składowej X oraz 550 kHz dla składowej Y

14 Rys. 4.8. Zbiór punktów obrazujących wektory wyznaczone dla wybranych klas WNZ – Klasy 1, 3 i 5 przy

wybranej parze częstotliwości PSD o wartościach 570 kHz dla składowej X oraz 670 kHz dla składowej Y

4.2. Miary podobieństwa obiektów

Na występowanie struktury w zbiorze danych poddawanym procesowi klasteryzacji wskazuje istnienie odrębnych obszarów, skupień, posiadających tę własność, że dwa dowolne obiekty należące do wspólnego skupienia są do siebie podobne w większym stopniu, niż dwa obiekty wybrane z dwóch różnych skupień. Istotnym elementem procesu klasteryzacji pozostaje więc określenie miary (funkcji) podobieństwa między obiektami, chociaż w wielu sytuacjach wygodniej jest posługiwać się pojęciem odmienności lub niepodobieństwa, np.

odległości. W toku prowadzonych badań zastosowano opisane poniżej, najczęściej stosowane miary odmienności.

4.2.1. Odległość euklidesowa

Najpopularniejszą miarą odmienności jest odległość euklidesowa (ang. Euclidean Metric), dla której wszystkie cechy użyte do opisu obiektów ze zbioru 𝔛 są ilościowe, a każdy obiekt 𝔯𝑖 ∈ 𝔛 utożsamia się z n - wymiarowym wektorem 𝐱𝑖 = (𝑥𝑖1,𝑥𝑖2,… , 𝑥𝑖𝑛)𝑇. Odległość euklidesowa przyjmuje postać:

𝑑(𝔯𝑖, 𝔯𝑗) = ‖𝐱𝑖− 𝐱𝑗‖ = √∑𝑛𝑙=1(𝑥𝑖𝑙− 𝑥𝑗𝑙)2 . (4.1)

4.2.2. Standaryzowana odległość euklidesowa

W przypadku, gdy cechy opisujące obiekty są wyrażone w różnych jednostkach, w celu zniwelowania ich wpływu stosujemy standaryzowaną (ważoną) odległość euklidesową (ang.

Standardized Euclid Metric). Jeżeli macierz W jest macierzą diagonalną o elementach określonych zależnością:

15 𝓌𝑖𝑗 = {𝜔𝑖𝑗, jeżeli 𝑖 = 𝑗

0 w p. p. , (4.2)

otrzymujemy standaryzowaną (ważoną) odległość euklidesową, daną wzorem:

𝑑𝑊(𝔯𝑖, 𝔯𝑗) = √∑𝑛𝑙=1𝜔𝑙(𝑥𝑖𝑙− 𝑥𝑗𝑙)2 = √∑𝑛𝑙=1(𝑦𝑖𝑙 − 𝑦𝑗𝑙)2 , (4.3)

gdzie 𝑦𝑖𝑙 = √𝜔𝑙𝑥𝑖𝑙 jest ważoną wartością cechy 𝑙 zmierzoną w i - tym obiekcie [85].

4.2.3. Odległość Minkowskiego

Odległość (miara) Minkowskiego (ang. Minkowski Metric, Distance in an Absolute Minkowski Power Metric) jest jednym z najczęściej stosowanych uogólnień odległości euklidesowej scharakteryzowanej w punkcie 4.2.1. Definiuje się ją w następujący sposób:

𝑑𝑝(𝔯𝑖, 𝔯𝑗) = ‖𝐱𝑖− 𝐱𝑗𝑝 = [∑𝑛𝑙=1|𝑥𝑖𝑙− 𝑥𝑗𝑙|𝑝]1/𝑝 , dla 𝑝 ≥ 1. (4.4) Z metryki Minkowskiego wywodzą się m.in. odległość Czebyszewa, a także odległości:

miejska, Frechéta, Canberry, poczty, metra i inne. Mają one pewne istotne wady, m.in. na skutek sumowania różnic w lokalizacji obiektów w poszczególnych wymiarach, wraz ze wzrostem wymiarowości problemu, zanika różnica między bliskimi, a dalekimi punktami w przestrzeni ℝ𝑛. Rozwiązaniem tego problemu jest stosowanie ułamkowych odległości Minkowskiego z parametrem 𝑝 ∈ (0, 1]. W literaturze podaje się trzy wartości tego parametru p = 0,3; p = 0,5 oraz p = 0,8 [85].

4.2.4. Odległość miejska

Wspomniana już odległość miejska, zwana też taksówkową lub odległością Manhattan (ang. City-Block Metric, Manhattan Distance) jest wariantem odległości (miary) Minkowskiego, w której parametr 𝑝 przyjmuje wartość równą 1. W takim przypadku zależność (4.4) ma postać [85]:

𝑑1(𝔯𝑖, 𝔯𝑗) = ‖𝐱𝑖− 𝐱𝑗1 = ∑𝑛𝑙=1|𝑥𝑖𝑙− 𝑥𝑗𝑙| , dla 𝑝 = 1. (4.5)

4.2.5. Odległość Mahalanobisa

Odległość Minkowskiego, scharakteryzowana w punkcie 4.2.3 opiera się na założeniu, że nie istnieje korelacja pomiędzy poszczególnymi cechami obiektów. W przypadku, gdy cechy opisujące obiekty są jednak ze sobą skorelowane zastosowanie znajduje odległość (miara) Mahalanobisa (ang. Mahalanobis Metric). Miarę tę wyraża zależność [85]:

𝑑(𝐱𝑖, 𝐱𝑗) = √(𝐱𝑖 − 𝐱𝑗)𝑇−1(𝐱𝑖 − 𝐱𝑗) . (4.6)

16 4.3. Metody klasteryzacji hierarchicznej

Metody hierarchiczne należą do najczęściej stosowanych metod klasteryzacji. Ich wspólną cechą jest wyznaczanie skupień poprzez łączenie lub dzielenie skupień powstałych w poprzednich krokach wykonywanego algorytmu. W metodzie hierarchicznej, w celu uzyskania oczekiwanych skupień, stosowane są dwa rozwiązania. Pierwsze z nich, zwane podejściem aglomeracyjnym (ang. Agglomerative Approach) lub wstępującym zakłada na początku, że każdy obiekt stanowi osobny klaster. W kolejnych krokach uzyskane klastry są łączone w większe klastry, aż do momentu uzyskania klastra obejmującego wszystkie obiekty.

Proces ten może zostać zakończony wcześniej, po osiągnięciu warunku stopu, jakim jest zadana liczba klastrów. Skupienia łączy się zgodnie ze zmniejszającym się stopniem podobieństwa (lub wzrastającym stopniem odmienności). Drugie z rozwiązań stosowanych w hierarchicznych metodach analizy skupień nazywane jest podejściem podziałowym (ang.

Divisive Approach), zstępującym lub rozdrobnieniowym, w którym zakłada się, że wszystkie obiekty należą do jednego klastra. W kolejnych krokach klaster ten dzielony jest na mniejsze klastry, zgodnie ze wzrastającym stopniem podobieństwa wewnątrz klastra, aż do momentu, gdy każdy obiekt tworzył będzie osobny klaster. Podobnie jak miało to miejsce przy podejściu aglomeracyjnym, również w rozwiązaniu podziałowym, możliwe jest zakończenie dzielenia klastrów w momencie osiągnięcia założonej ich liczby, czyli po spełnieniu warunku stopu [52, 65, 85]. Częściej stosowanym rozwiązaniem jest podejście aglomeracyjne, ponieważ poważnym problemem w przypadku podejścia podziałowego jest znalezienie efektywnej procedury dzielącej klaster na mniejsze części [52, 65]. W toku prowadzonych prac naukowo-badawczych zastosowano podejście aglomeracyjne. Wybór skupień podlegających łączeniu w kolejnych krokach algorytmu uzależniony jest od zastosowanej metody z rodziny metod hierarchicznych. Ich przegląd przedstawiono poniżej.

4.3.1. Metoda pojedynczego wiązania

Metoda pojedynczego wiązania, zwana też metodą najbliższego sąsiedztwa (ang. Single linkage) opiera się o obliczenie odległości między dwoma skupieniami na podstawie odległości między dwoma najbliższymi obiektami należącymi do różnych skupień, zgodnie z zależnością:

𝑑(𝐶𝑖, 𝐶𝑗) = min

𝑖∈𝐶𝑖,𝑗∈𝐶𝑗𝑑(𝑥𝑖 , 𝑥𝑗), (4.7)

gdzie: 𝐶𝑖, 𝐶𝑗 są klastrami, a 𝑑(𝐶𝑖, 𝐶𝑗) oznacza miarę niepodobieństwa między nimi.

Metoda pojedynczego wiązania charakteryzuje się tworzeniem skupień o wydłużonych kształtach, tzw. łańcuchów [52, 78, 85].

4.3.2. Metoda pełnego wiązania

Metoda pełnego wiązania lub najdalszego sąsiedztwa (ang. Complete linkage) wykorzystuje zasadę wyznaczania odległości między dwoma skupieniami na podstawie odległości między dwoma najodleglejszymi obiektami należącymi do różnych skupień. Metodę tę opisuje zależność:

17 𝑑(𝐶𝑖, 𝐶𝑗) = max

𝑖∈𝐶𝑖,𝑗∈𝐶𝑗𝑑(𝑥𝑖 , 𝑥𝑗). (4.8) Metoda pełnego wiązania, będąc przeciwieństwem metody pojedynczego wiązania, tworzy zwarte skupienia o małej średnicy. Jest najbardziej odpowiednia, gdy rzeczywiste obiekty tworzą skupienia zwarte i dobrze separowane [52, 78, 85].

4.3.3. Metoda średnich połączeń

Metoda średnich połączeń, zwana też metodą średniego wiązania (ang. Average linkage, Unweighted Pair-Group Average, UPGA) oparta jest o wyznaczanie odległości miedzy dwoma skupieniami na podstawie średniej odległości między wszystkimi parami obiektów należących do porównywanych skupień, zgodnie ze wzorem:

𝑑(𝐶𝑖, 𝐶𝑗) =𝑛 1

𝐶𝑖𝑛𝐶𝑗𝑖∈𝐶𝑖𝑗∈𝐶𝑗𝑑(𝑥𝑖 , 𝑥𝑗), (4.9)

gdzie: 𝑛𝐶𝑖, 𝑛𝐶𝑗są liczbami obiektów odpowiednio w skupieniu 𝐶𝑖, 𝐶𝑗.

Metoda średnich połączeń, w przeciwieństwie do metod pojedynczego i pełnego wiązania, jest odporna na występowanie zaszumionych danych oraz punktów osobliwych. [52, 65, 78, 85].

4.3.4. Metoda Warda

Obok metod wiązania skupień opisanych w punktach 4.3.1.do 4.3.3. istnieje również, sformułowana w 1963 roku, popularna metoda minimalnej wariancji Warda, zwana również po prostu metodą Warda. Metoda ta opiera się o obliczenie miary niepodobieństwa między skupieniami 𝐶𝑖 i 𝐶𝑗 ∪ 𝐶𝑗 na podstawie zależności:

𝑑(𝐶𝑖, 𝐶𝑗 ∪ 𝐶𝑗) =n n𝐶𝑖+ n𝐶𝑗

𝐶𝑖+n𝐶𝑗 + n

𝐶𝑗 𝑑(𝐶𝑖, 𝐶𝑗) + n n𝐶𝑖+ n𝐶𝑗

𝐶𝑖+n𝐶𝑗 + n

𝐶𝑗 𝑑(𝐶𝑖, 𝐶𝑗) − − n n𝐶𝑖

𝐶𝑖+n𝐶𝑗 + n

𝐶𝑗 𝑑(𝐶𝑗, 𝐶𝑗), (4.10)

gdzie: n𝐶𝑖, 𝑛𝐶𝑗, 𝑛𝐶

𝑗 są liczbami obiektów odpowiednio w skupieniu 𝐶𝑖, 𝐶𝑗 [52, 85].

Metoda Warda traktowana jest jako bardzo efektywna, jednakże w wyniku jej zastosowania otrzymuje się skupienia o niewielkiej, zbliżonej liczebności [52, 85].

5. Przebieg eksperymentu badawczego

Utworzone zbiory danych w postaci 100-elementowych, dwukolumnowych macierzy dla każdej z 8 form WNZ, poddano analizie przy użyciu algorytmów badawczych, składających się z wybranej metody klasteryzacji oraz wybranej funkcji podobieństwa. Celem tego badania

18 było określenie skuteczności poszczególnych algorytmów przy klasyfikacji podstawowych form WNZ. Algorytmy badawcze oznaczono skrótowo w następujący sposób [32]:

metoda klasteryzacji – funkcja podobieństwa – częstotliwości PSD X/Y,

wskazując wybraną metodę klasteryzacji oraz wybraną funkcję podobieństwa, a także, dodatkowo, parę częstotliwości widma gęstości mocy, dla której utworzono badany zbiór danych. Algorytmy przyjęte w ramach przeprowadzonych przez Autora prac badawczych umożliwiały sprawdzenie poszczególnych metod klasteryzacji pod kątem ich skuteczności, dla różnych funkcji podobieństwa – odległości i dla wybranych par częstotliwości PSD.

Zastosowane metody klasteryzacji oraz funkcje podobieństwa opisane zostały w rozdziale 4

Zastosowane metody klasteryzacji oraz funkcje podobieństwa opisane zostały w rozdziale 4

Powiązane dokumenty