Wybór rodzaju sieci neuronowej - Metodyka przeprowadzonych badań

5. Metodyka przeprowadzonych badań

5.6. Wybór rodzaju sieci neuronowej

W pracy rozważano problem dotyczący możliwości zastosowania sztucznej sieci neuronowej do oceny stopnia wyszkolenia operatora pojazdu prowadzonego według

wskazań panelu nawigacji na pasach równoległych. Oceny określające stopień wyszkolenia operatora mieściły się w przedziale 0–1. Analizowany w pracy problem opierał się więc na klasyfikacji do dwóch grup: grupy przejazdów poprawnych, utrzymanych w zadanym torze jazdy (ocenianych jako 1) oraz grupy przejazdów o zbyt dużym odchyleniu od zadanego toru jazdy (ocenianych jako 0).

Klasyfikacja jest jednym z najczęściej rozwiązywanych zagadnień, do których stosuje się sieci neuronowe. W niniejszej pracy klasyfikacją nazywamy dzielenie dowolnego zbioru elementów (tzw. obiektów) na grupy (tzw. klasy). Algorytm klasyfikacji polega więc na znalezieniu odwzorowania danych w zbiór predefiniowanych klas:

fc: R  X  C

gdzie C={C1, C2, …, Cn} jest skończonym zbiorem klas, natomiast zbiór X  R jest przestrzenią cech, na podstawie których sieć podejmuje decyzję o wyniku klasyfikacji [Setlak, Szajnar, online]. Odwzorowanie klasyfikujące f_c dzieli przestrzeń X na n obszarów decyzyjnych, grupujących wzorce cech należących do jednej kategorii [Zieliński 2000]. O klasyfikacji mówimy wtedy, gdy klasy, do których będzie przyporządkowany zbiór wejściowy, zostaną zdefiniowane przed procesem podziału. Gdy klasy są określane dopiero w trakcie analizy danych – mamy do czynienia z alternatywnym zagadnieniem tak zwanej analizy skupień (ang. cluster analysis). Elementy (obiekty) w każdej grupie są do siebie podobne (tzn. mają podobne cechy), ale różnią się między sobą. Podobieństwo cech poszczególnych obiektów jest podstawą klasyfikacji. Celem klasyfikacji jest skojarzenie obiektu, na podstawie jego cech charakterystycznych, z pewną grupą (klasą).

W problemie analizowanym w rozprawie, elementy (obiekty) w każdej grupie są reprezentowane w ten sam sposób – jako współczynniki wielomianu tego samego stopnia, ale każdy z obiektów różni się od innych obiektów wartościami współczynników.

Wybór stosowanej metody (tj. sieci neuronowej) automatycznego rozpoznawania wzorców zależy od rozwiązywanego problemu. Brak jednego, uniwersalnego narzędzia nie wynika z niedoskonałości metod rozpoznawania, ale ze złożoności pozyskiwanych sygnałów źródłowych [Kwiatkowski 2007].

Tabela 5.6.1. Przedstawia rodzaje sztucznych sieci neuronowych i ich przydatność do rozwiązywania poszczególnych problemów.

Tabela 5.6.1. Rodzaje sztucznych sieci neuronowych stosowanych do rozwiązywania poszczególnych problemów

Lp. Rodzaj sztucznej sieci neuronowej

Rodzaj rozwiązywanego problemu Regresja Klasyfikacja Szereg

czasowy Analiza skupień 1 Sieć liniowa + + + – 2 Perceptron wielowarstwowy – MLP + + + – 3 Sieć o radialnych funkcjach bazowych – RBF + + + – 4 Probabilistyczna sieć neuronowa – PNN – + – –

5 Sieć realizująca regresję uogólnioną – GRNN

+ + + –

6 Samoorganizująca się mapa cech Kohonena

– – – +

7 Sieci grupujące – – – +

+ oznacza przydatność sieci do rozważanego problemu, – oznacza brak przydatności

[Lewandowski 2009]

Jak wynika z tabeli, problemy klasyfikacji rozwiązują sieci: liniowe, MLP, RBF, PNN oraz GRNN. Uwzględniając analizę literatury przedmiotu [Stanisz 2006, Lewandowski 2009, STATISTICA Neural Networks 2001a,b,c,d, Szymczyk 2015] stwierdzono, że do przedstawionego w pracy problemu najbardziej przydatne będą: sieć typu perceptron wielowarstwowy – MLP (ang. Multilayer Perceptron) oraz sieć o radialnych funkcjach bazowych – RBF (ang. Radial Basis Function).

Sieci MLP mają szerokie zastosowanie w wielu dziedzinach, ponieważ są uniwersalnymi aproksymatorami i doskonałymi klasyfikatorami wzorców [Kacprzyk 2003]. Z kolei sieci neuronowe o radialnych funkcjach bazowych (RBF) również znalazły zastosowanie w rozwiązywaniu problemów klasyfikacyjnych, ponieważ wyróżniają się właściwościami, które umożliwiają lepsze odwzorowanie lokalnych cech charakterystycznych modelowanego procesu. Celem szkolenia sieci klasyfikujących jest

wymodelowanie generatora danych w celu zapewnienia możliwie najlepszych prognoz, gdy znane są dane wejściowe [Nabney 2001]. Przepływ informacji w tych sieciach następuje jednokierunkowo, od wejścia, poprzez neurony warstwy ukrytej, aż do wyjścia sieci. Choć sieci MLP i RBF mają podobną typologię, różnią się od siebie sposobem działania oraz funkcją transferu neuronów warstw ukrytych. W sieciach MLP neuron działa jak dyskryminator liniowy, tzn. neuron o dwóch wejściach potrafi zaklasyfikować sygnały wejściowe do dwóch klas, oddzielając punkty na płaszczyźnie sygnałów wejściowych linią prostą. Jeśli zwiększymy liczbę wejść, neuron podzieli punkty na dwie klasy w przestrzeni sygnałów wejściowych o odpowiednio większym wymiarze za pomocą hiperpłaszczyzny decyzyjnej. Przestrzeń parametrów neuronu odpowiada przy tym dokładnie przestrzeni jego sygnałów wejściowych [Skubalska – Rafajłowicz 2011]. Z kolei neuron radialny reprezentuje hipersferę dokonując podziału kołowego wokół punktu centralnego. Różnicę w działaniu sieci MLP i RBF zaprezentowano na rysunku 5.6.1.

Rysunek 5.6.1. Sposób podziału przestrzeni danych w sieciach MLP i RBF [Jankowski 1999]

Jak widać na rysunku, sieć sigmoidalna (MLP) reprezentuje aproksymację typu globalnego zadanej funkcji, ponieważ funkcja aktywacji rozciąga się od pewnego punktu w przestrzeni, aż do nieskończoności. Z kolei sieć radialna (RBF) realizuje aproksymację lokalną, ponieważ bazuje na funkcjach aktywacji mających wartość niezerową jedynie w określonej przestrzeni wokół centrów. Z tego powodu sieci RBF

osiągają zazwyczaj gorsze wyniki w uogólnianiu sieci. Z drugiej strony, dzięki funkcjom lokalnym możliwe jest łatwe powiązanie parametrów funkcji bazowych z fizycznym rozmieszczeniem danych uczących w przestrzeni wielowymiarowej. Tego rodzaju cecha sieci neuronowej sprawia, że można w krótkim czasie uzyskać dobre wartości startowe, zwielokrotniając prawdopodobieństwo sukcesu podczas uczenia sieci [Domaradzki 2007]. Oba rodzaje sieci dostarczają informacji, do jakiej klasy należy dany wzorzec, ale przewagą sieci radiowych nad sieciami sigmoidalnymi jest umiejętność wskazania na ewentualną możliwość utworzenia oddzielnej klasy. Jest to problem szczególnie istotny, gdy nie ma pewności, że rozkład wzorów testujących jest inny niż wzorców uczących [Domaradzki 2007]. Różnice między funkcjami transferów neuronów warstw ukrytych w sieciach MLP i RBF przedstawiają poniższe wzory:

ℎ_𝑖^𝑀𝐿𝑃 = 𝜙₁(𝑥𝑇𝑡_𝑖) ℎ_𝑖^𝑅𝐵𝐹 = 𝜙₂||(𝑥 − 𝑡_𝑖)||

Jak widać, dla sieci RBF funkcja przyjmuje wartość radialną, natomiast dla sieci MLP – skalarną. Z funkcji tych wynika opisana wyżej zasada działania sieci – dzielenie wielowymiarowej przestrzeni hiperpłaszczyznami (przez sieć MLP) oraz tworzenie lokalnych obszarów wokół klastrów danych (przez sieć RBF) [Jankowski 1999].

Sieci MLP i RBF, poza odmiennością zasady działania oraz postaci funkcji transferów, różnią się od siebie ilością warstw ukrytych. W sieciach radialnych nie ma potrzeby stosowania wielu warstw ukrytych (sieć RBF składa się zazwyczaj z jednej warstwy ukrytej), ponieważ pełnią one odmienną funkcję niż neurony ukryte w sieciach MLP. Wspólny pozostaje jedynie problem doboru liczby neuronów warstw ukrytych, decydujący w dużym stopniu o skuteczności sieci (tj. o stopniu dokładności odwzorowywania) i zdolnościach uogólniania sieci. W pracy problem ten rozwiązano przez zastosowanie modułu Automatycznego Projektanta Sieci będącego częścią pakietu Statistica Neural Networks StatSoft.

W dokumencie Index of /rozprawy2/11161 (Stron 75-80)