Modele wysokości zadziorów poobróbkowych o postaci sieci neuronowej FFBP i systemu logiki rozmytejFFBP i systemu logiki rozmytej

il I lii i lii I u mil R! »

PARAMETRY NOMINALNE WIERTEŁ

7.7. Modele wysokości zadziorów poobróbkowych o postaci sieci neuronowej FFBP i systemu logiki rozmytejFFBP i systemu logiki rozmytej

Charakterystykę modeli wysokości zadziorów poobróbkowych o postaci sieci neuronowej FFBP i systemu logiki rozmytej prowadzi się głównie pod kątem porównania uzyskanych wartości miar jakość Rm i W S r. Podejmuje się również dyskusję wybranych zagadnień związanych z konstruowaniem sieci FFBP i systemów FL. W pierwszym kroku rozpatrywane są modele wysokości zadziorów poobróbkowych w funkcji wartości średniej Wws przetworzonego sygnału pomiarowego (Dn=1.52 mm, To=0.389 s i TR=0.195 s, wariant CF, tab. 7.1) i parametrów obróbki Hz=f(Wws, vc, V B Ma x , K pks/kks). Wybrane wielkości charakteryzujące wyznaczone modele zestawiono w tab. 7.4.

Dokonując porównania należy zwrócić uwagę na modele o postaci sieci neuronowej, które pozwalały na uzyskiwanie najkorzystniejszych wartości Rm i W Sr. Uwypukla się także relatywnie prostą, wyrażaną małą liczbą komórek ukrytych, strukturę zastosowanych sieci FFBP. Równie korzystne wartości miar jakości modeli uzyskano w przypadku zastosowania systemu logiki rozmytej. Jednakże za dyskusyjną uznać należy postać modelu FL, charakteryzowaną w tym miejscu relatywnie dużą liczbą reguł rozmytych. Stwierdzając uzyskanie zadowalających wartości Rm i W S r odniesiono się do uwzględnionego w tab. 7.4 modelu opisanego zależnością (7.6). Zaznacza się, że przytaczany model nie jest uznawany za optymalny model wyznaczony z zastosowaniem metod statystycznych. Zwraca się uwagę na złożoność zadania wyboru postaci modelu, a tym samym praktyczny brak możliwości wykazania, że dana postać jest postacią optymalną. Dlatego też ponownie uwypuklić można atrakcyjność sieci neuronowych FFBP ze względu na relatywnie łatwy, w niniejszym przypadku, proces konstruowania. Szacując liczbę komórek ukrytych uzyskano jednoznaczne wskazanie na 3 komórki w warstwie ukrytej. Zgodnie z przyjętym w pracy podejściem stosowano także sieci o 2 komórkach ukrytych. Symulacje sieci o przyjętej liczbie komórek prowadzono do wystąpienia wyraźnie ujawniającego spowolnienia treningu (wyraźnego zmniejszenia zmian wartości błędów treningu). Czas realizacji treningu wynosił w przybliżeniu 4+5 minut.

Tabela 7.4 Wybrane modele wysokości zadziorów Hz=f(Wws, V c, V B m a x , pks/kks)

Model / Postać modelu Rm WSr fmm]

sieć neuronowa FFBP : 5-2-1 0.979 0.050

sieć neuronowa FFBP : 5-3-1 0.984 0.044

F L (R N , AG-H2); MFwe : 2-3-2-2-2; M Fwy : 3; 18 reguł 0.978 0.051

F L (R N , WTA(0.04)); MFwe : 2-3-2-2-2; MFwy : 3; 12 reguł 0.975 0.054

FLĆRN. WTAfO.O'»: M Fwe : 3-3-2-2-2; M Fwy : 3; 23 reguły 0.978 0.051

model opisany zależnością (7.6) (podrozdział 7.4.3) 0.974 0.054

Zdecydowanie bardziej kłopotliwe było konstruowanie systemów logiki rozmytej.

Przede wszystkim problematyczne było określenie liczby reguł systemu z zastosowaniem metody WTA(*). Zastosowanie WTA(0.1) prowadziło do redukcji liczby reguł uniemożliwiającej uzyskanie wartości RM i WSR zbliżonych do wartości przedstawionych w tab. 7.4. Dążąc do zmniejszenia liczby reguł dokonywano stopniowego, żmudnego zwiększania progowej siły reguł, co powodowało wydłużenie czasu konstruowania systemu.

Czas konstruowania z zastosowaniem metody WTA(*) porównywalny było do czasu konstruowania w przypadku zastosowania metody AG-H*, a zarazem dłuższy o około 70%

od zasygnalizowanego powyżej czasu konstruowania sieci neuronowej FFBP.

Kontynuując dyskusję zastosowań sieci FFBP i systemu FL do wyznaczenia modelu wysokości zadziorów poobróbkowych podjęto próbę rozszerzonej analizy zagadnienia zdolności generalizacji. Przypomnieć można, że zagadnienie to związane jest z możliwością uznania wyznaczonego modelu za model uogólniający dane (model zjawiska), a nie jedynie za model stanowiący zapis danych w innej postaci [Diagnostyka techniczna, 1997]. Na potrzeby niniejszego opisu przyjmuje się, że model stanowiący zapis danych w innej postaci nazywany jest modelem zdegenerowanym. Koncentrując się na sieciach neuronowych przypomnieć można, że problem utraty zdolności generalizacji jest problemem złożonym, związanym głównie z przewymiarowaniem struktury sieci. Nie mniej istotny, aczkolwiek zdecydowanie rzadziej komentowany w literaturze, jest warunek zakończenia treningu sieci oraz rozkład danych stosowanych do wyznaczenia modelu. W celu rozwinięcia dyskusji zagadnienia generalizacji dogodne jest odwołać się do analizowanych w poprzednich podrozdziałach (np. podrozdział 7.4.2) modeli Hz=f(Wws) i Hz=f(WRMs) (vc=12 m/min, Dn= 1.52, wariant CF z tab. 7.1). Zaznacza się, że podjęcie analiz tych modeli ma jednoznacznie na celu dyskusję (również wizualizację) utraty zdolności generalizacji sieci neuronowej i systemu logiki rozmytej. Zastosowanie sieci FFBP czy systemu FL nie jest oczywiście konieczne w niniejszym przypadku i może być uważane za próby rozwiązania trywialnego zadania.

Fig. 7.22. Hz=f(Wws) burr height models developed with FFBP neural network

Prowadząc symulacje sieci neuronowej FFBP jako warunek zakończenia treningu przyjęto realizację 2,000,000 iteracji. Przyjęta liczba iteracji jest kilkunastokrotnie większa od liczby iteracji, po zrealizowaniu której następowało zauważalne spowolnienie treningu sieci o strukturze 1-3-1. Wybrane spośród wyznaczonych modele wysokości zadziorów Hz=f(Wws) przedstawiono na rys. 7.22a i b. Symulując sieci o liczbie komórek ukrytych od 2 do 15 nie wykazano zasadniczego zróżnicowania krzywych reprezentujących modele. Szczególnie uwypuklić należy model wyznaczony z zastosowaniem sieci 1-15-1 (rys. 7.22a). Istotne jest w tym przypadku, iż liczba parametrów sieci, których wartości identyfikowane są podczas treningu (46 parametrów), jest większa od liczby wektorów wejściowych (32 wektory), co mogłoby wskazywać na wystąpienie, jednakże nie ujawniającej się, utraty zdolności generalizacji.

Zaznacza się, iż uznanie wyznaczonego modelu jako modelu zjawiska dokonywane jest arbitralnie, rozważając intuicyjnie możliwe postaci krzywej reprezentującej model.

Przykładowo, zmianę postaci krzywej (rys. 7.22a) ujawniającą się dla wartości WWs=-30 N/s uznano za możliwą, nie będącą konsekwencją przewymiarowania struktury sieci neuronowej

(por. postać końcową modelu Hz=f(Wws) z rys. 7.23). Dodać również można, że przyjęcie przez potencjalnego Użytkownika struktury 1-15-1 wydaje się być mało prawdopodobne przy założeniu stosowania rozważanych w pracy metod szacowania liczby komórek ukrytych.

Na rys. 7.22b przedstawiono model o postaci sieci neuronowej 1-10-5-1. Wprowadzenie drugiej warstwy ukrytej (81 parametrów identyfikowanego modelu) doprowadziło do wyznaczenia modelu, który nie można uznać za model rozpatrywanego zjawiska (modelu zdegenerowanego). Jednakże zastosowanie sieci 1-10-5-1 należy traktować podobnie jak wyżej jako mało prawdopodobne, a zamieszczenie wyznaczonego modelu (w pracy stosuje się sieci FFBP o jednej warstwie ukrytej) służy głównie zobrazowaniu zagadnienia degeneracji modeli.

Podejmując próbę wstępnego uogólnienia wniosków wynikających z przeprowadzonych symulacji można by optymistycznie pomniejszyć wpływ zarówno przewymiarowania struktury sieci neuronowej FFBP, jak i pozostałych analizowanych wielkości na utratę zdolności generalizacji. Jednak kolejne symulacje zdecydowanie zaprzeczyły takiej możliwości. Na rys. 7.22c i d przedstawiono wybrane modele wysokości zadzioru Hz w funkcji wartości skutecznej przetworzonego sygnału reprezentującego posuwową siłę wiercenia Hz=F(WRMs).

Zwraca się szczególną uwagę na rys. 7.22d, gdzie przedstawiono model wysokości zadzioru opisany siecią neuronową o strukturze 1-7-1. Modelu tego, w przeciwieństwie do modelu z rys. 7.22c, nie można uznać za model rozważanego zjawiska. Wyznaczenie modelu zdegenerowanego może wydawać się nieco zaskakujące, ponieważ liczba identyfikowanych parametrów sieci (22 parametry) jest mniejsza od liczby wektorów trenujących. Wnioskuje się zatem, iż nawet w przypadku poprawnie sformułowanego zadania może nastąpić degeneracja modelu spowodowana specyficznym rozkładem wartości danych i/lub przyjętym warunkiem zakończenia treningu sieci FFBP. Podkreśla się szczególne znaczenie warunku zakończenia treningu. Podobnie jak w symulacjach scharakteryzowanych w pierwszej części podrozdziału, podczas treningu sieci 1-7-1 (rys. 7.22d) występowało wyraźne spowolnienie zmian błędu Erms, ujawniające możliwość (lub konieczność) podjęcia przez Użytkownika decyzji o weryfikacji przyjętego warunku zakończenia treningu.

Testy systemu logiki rozmytej przeprowadzono analogicznie do testów sieci neuronowej FFBP. Na rys. 7.23 przedstawiono reprezentację wybranych wielkości opisujących jeden ze skonstruowanych systemów FL. Reprezentując system dokonano podziału na postaci początkowe i końcowe. Postaci początkowe odpowiadają postaciom uzyskiwanym po wyborze reguł rozmytych, a postaci końcowe są postaciami uzyskiwanymi po zastosowaniu treningu algorytmem BP. Komentując wyznaczony model wysokości zadziorów (rys. 7.23) wskazuje się na zbliżoną postać krzywych z rys. 7.23 i rys. 7.22a. Oczywiste jest w tym przypadku stwierdzenie o wyznaczeniu modelu, który uznaje się za model rozpatrywanego zjawiska.

System logiki rozmytej FL(RN, AG)

postać początkowa postać końcowa

wyjście

wejście

Rys. 7.23. Reprezentacja wybranych wielkości opisujących system logiki rozmytej zastosowany do wyznaczenia modelu wysokości zadzioru Hz=f(Wws)

Fig. 7.23. Representation o f the selected quantities describing the fuzzy logic system applied for development o f the burr height model Hz=f(Wws)

Niemniej jednak konieczne jest wskazanie na końcową postać funkcji przynależności. Jak można zauważyć (rys. 7.23), faza treningu BP istotnie zmienia postaci funkcji w stosunku do postaci zainicjalizowanych metodą RN. Końcowa postać funkcji przynależności (szczególnie MFwy) sprawiać może znaczne trudności w interpretacji skonstruowanego systemu FL, co w efekcie znacznie utrudnia wyznaczenie reguł „ Jeżeli ... to ... ”, odzwierciedlających relacje pomiędzy cechą sygnału pomiarowego i wysokością zadzioru Hz. Przypomina się, iż relatywnie prosta interpretacja struktury systemu FL była wcześniej sygnalizowana jako jedna z istotnych cech uwypuklanych z punktu widzenia możliwości odzyskiwania wiedzy.

Dążąc do oceny możliwości wystąpienia zjawiska degeneracji podjęto próby konstruowania systemów FL o zwiększonej liczbie wejściowych funkcji przynależności.

Zwiększenie liczby MF uznać można za analogię do zwiększenia liczby komórek ukrytych sieci FFBP, a tym samym za próbę przewymiarowania sytemu. Jak wykazano, stosując 5 wejściowych funkcji przynależności MFwe, w każdej z przeprowadzonych symulacji wyznaczano modele wysokości zadziorów zbliżone do modeli z rys. 7.22b i d. Jednakże struktur skonstruowanych systemów FL nie można uznać za przewymiarowane (16 parametrów identyfikowanych w fazie treningu algorytmem BP). Modele zdegenerowane uzyskiwano wprowadzając jako daną wejściową zarówno wartość średnią Wws, jak i wartość skuteczną Wrms- Nie ujawniał się zatem wpływ rozkładu wartości Wws zmniejszający, jak to miało miejsce w przypadku symulacji sieci neuronowej FFBP, możliwość wyznaczenia modelu zdegenerowanego. Następnie, w fazie treningu algorytmem BP nie obserwowano korzystnego spowolnienia treningu umożliwiającego ingerencję Użytkownika. Wskazuje się także na zależność uzyskiwanych wyników od metody inicjalizacji parametrów funkcji przynależności.

Szczególnie niekorzystne wyniki uzyskiwano stosując metodę KFM. Stwierdzono nieco zaskakująco, że uwzględnienie rozkładu wartości danej wejściowej poprzez inicjalizację funkcji przynależności metodą KFM powodowało wyznaczanie modeli zdegenerowanych nawet w przypadku stosowania 3 wejściowych funkcji

MFwe-Podsumowując powyższe rozważania uwypukla się przede wszystkim większą podatność systemów logiki rozmytej na utratę zdolności generalizacji, na co wskazywano także w podsumowaniu rozdziału 6. Zalecić należy szczególną ostrożność w fazie wyboru liczby i postaci funkcji przynależności. Błąd popełniony w tej fazie może, bez względu na realizowany w kolejnym kroku trening z zastosowaniem algorytmu BP, doprowadzić do utraty zdolności generalizacji. Niemniej jednak ponownie podkreśla się złożoność problemu utraty zdolności generalizacji i brak ogólnych metod oceny modeli zjawisk. Hipotetyczny Użytkownik polegać musi na własnym doświadczeniu lub też oprzeć się może na stosowanych w pracy, jakkolwiek nie zapewniających uzyskania optymalnego rozwiązania, podejściach.

Zastosować zatem może zbiór weryfikujący lub obserwować może zmiany błędu treningu.

Sygnalizuje się również, iż pomocne w tym przypadku może być zastosowanie koncepcji modeli jednostronnych [Diagnostyka techniczna, 1997].

W dokumencie Wybrane zagadnienia projektowania układów diagnostycznych obrabiarki i procesu skrawania (Stron 81-84)