• Nie Znaleziono Wyników

W niniejszej pracy podjęto próbę oceny możliwości zastosowań i efektywności neuronowych systemów rozmytych do modelowania danych chemicznych o zróżnicowanej strukturze. Jako parametr charakteryzujący jakość konstruowanych modeli przyjęto ich moc predykcyjną wyrażoną poprzez wartości błędów RMSEP (kalibracja) i CCRT (dyskryminacja). Poniżej zamieszczono wykresy charakteryzujące moc predykcyjną skonstruowanych modeli kalibracyjnych (Rys. 115) oraz klasyfikacyjnych (Rys. 116).

0 . 3

0 . 2 5

0.2

CO

1 0-1

0 .0 5

0

Rys. 115 W ykres charakteryzujący m odele kalibracyjne - pierwiastek średniego błędu kwadratowego dla próbek z n iezależnego zbioru testow ego, przerywaną lin ią zaznaczono zakres otrzymanych wartości błędów , w ypełn ione słupki obejm ują drugi i trzeci kwantyl wartości błędów , a fioletow a kreska obrazuje wartość w skazaną przez medianę

I

>Kennard & Stone

*Duplex__________

CART PLS ANN NFS

___i________ ______ i__________ ______ i_________________ 1__

CART DPLS ANN NFS

Rys. 116 W ykres charakteryzujący m odele dyskryminacyjne - procent błędnie sklasyfikow anych próbek z niezależnego zbioru testow ego; przerywaną linią zaznaczono zakres otrzymanych wartości błędów, w ypełnione słupki obejmują drugi i trzeci kwantyl wartości błędów , a fioletow a kreska obrazuje wartość wskazaną przez medianę

Podsumowania przeprowadzonych analiz dokonano pod kątem kilku zagadnień.

Po pierwsze porównano metodę NFS z trzema wybranymi technikami modelowania danych. Techniki te różniły się sposobem przetwarzania informacji (modele liniowe i nieliniowe) oraz charakterem konstruowanego modelu (lokalny i globalny).

Porównano metodę NFS z m etodą CART. Obie metody modelowania danych pozwalają na automatyczną konstrukcję reguł logicznych przez model w oparciu o analizowane dane. Jednak metoda CART nie zawsze pozwalała na konstrukcję modelu o satysfakcjonującej mocy predykcyjnej. Drugą wybraną m etodą była metoda PLS, która jest powszechnie stosowaną techniką modelowania danych chemicznych z uwagi na prostotę modelu i łatwość w aplikacji samego algorytmu. Jest to jednak liniowa i globalna metoda modelowania danych co nie zawsze było pożądaną cechą konstruowanego modelu i czasem skutkowało pogorszeniem jego mocy predykcyjnej.

Jako trzecią technikę modelowania danych, będącą odnośnikiem dla neuronowych systemów rozmytych, wybrano metodę ANN. Sieci neuronowe pozwalają na nieliniowe przetwarzanie danych co zaowocowało modelami o bardzo dobrej mocy predykcyjnej.

Niestety modele ANN są bardzo trudne w interpretacji, w przeciwieństwie do modeli NFS.

Po drugie przedstawiono wyniki dla danych, gdzie modelowany problem miał charakter kalibracyjny, lub klasyfikacyjny. Analizowane dane różniły się liczebnością obiektów oraz parametrów, a także rozkładem obiektów w przestrzeni pomiarowej. Analizowano także dane po uprzedniej eliminacji obiektów odległych.

N a rysunku 115 widoczne jest, iż konstruowane modele kalibracyjne za pomocą neuronowych systemów rozmytych (NFS) były obarczone nieznacznie mniejszym błędem w porównaniu do metody PLS. Metoda NFS dawała także modele o lepszej mocy predykcyjnej w porównaniu do metody drzew klasyfikacji regresji CART.

Na uwagę zasługuje także fakt, iż tendencja ta nie była zależna od sposobu wyboru próbek do niezależnego zbioru testowego. Ponadto widoczne jest, iż sieci neuronowe pozwoliły na konstrukcję nieznacznie lepszych modeli w porównaniu do NFS. Należy jednak pamiętać, iż w przypadku sztucznych sieci neuronowych ewentualna interpretacja skonstruowanego modelu jest bardzo utrudniona. Rys. 116 charakteryzuje moc predykcyjną konstruowanych modeli dyskryminacyjnych. Podobnie jak w przypadku modeli kalibracyjnych, metoda NFS odznaczała się modelami

o lepszej mocy predykcyjnej niż metoda CART oraz o porównywalnej mocy predykcyjnej do modeli ANN. Ponadto metoda NFS pozwala na konstrukcję modeli dyskryminacyjnych obarczonych mniejszym błędem niż metoda PLS.

Po trzecie porównano efektywność zastosowania metody NFS do modelowania skompresowanych danych zawierających czynniki główne z danymi zawierającymi wybrane zmienne istotne. Ponieważ istnieje wiele metod wyboru zmiennych istotnych, a przedmiotem niniejszej pracy nie było rozstrzyganie o wyższości którejkolwiek z nich, postanowiono wykorzystać zmienne decyzyjne z modelu CART jako zmienne istotne. Nie odnotowano bezpośredniej korelacji pomiędzy zastosowanym podejściem do redukcji wymiarowości danych, a m ocą predykcyjną modelu NFS. Dylemat ten wymaga każdorazowo indywidualnego podejścia do analizowanych danych.

Po czwarte przeanalizowano możliwości zastosowań NFS w chemii i korzyści z tego płynących. Jak pokazano dzięki odpowiednim zabiegom transformacji danych metoda NFS nadaje się do modelowania danych chemicznych o szerokim spektrum pochodzenia nie ustępując innym m etodą pod względem mocy predykcyjnej.

W szystkie cztery aspekty oceny neuronowych systemów rozmytych przenikają się wzajemnie, a ostatecznym wyznacznikiem efektywności metody jest wartość jego mocy przewidywania modelowanej własności. W niniejszej pracy wykorzystywano dwie miary mocy predykcyjnej modeli RMSEP i CCR odpowiednio dla modeli kalibracyjnych i dyskryminacyjnych. Z uwagi na różny charakter opisywanych problemów obie miary błędów nie są porównywane miedzy sobą.

Jednakże można w oparciu o otrzymane wyniki wyprowadzić uogólnione wnioski.

Na uwagę zasługuje także fakt, iż tendencja ta nie była zależna od sposobu wyboru próbek do niezależnego zbioru testowego. Ponadto widoczne jest, iż sieci neuronowe pozwoliły na konstrukcję nieznacznie lepszych modeli w porównaniu do NFS. Należy jednak pam iętać, iż w przypadku sztucznych sieci neuronowych ewentualna interpretacja skonstruowanego modelu jest bardzo utrudniona. Rys. 116 charakteryzuje moc predykcyjną konstruowanych modeli dyskryminacyjnych. Podobnie jak w przypadku modeli kalibracyjnych, metoda NFS odznaczała się modelami

o lepszej mocy predykcyjnej niż metoda CART oraz o porównywalnej mocy predykcyjnej do modeli ANN. Ponadto metoda NFS pozwala na konstrukcję modeli dyskryminacyjnych obarczonych mniejszym błędem niż metoda PLS.

Po trzecie porównano efektywność zastosowania metody NFS do modelowania skompresowanych danych zawierających czynniki główne z danymi zawierającymi wybrane zmienne istotne. Ponieważ istnieje wiele metod wyboru zmiennych istotnych, a przedmiotem niniejszej pracy nie było rozstrzyganie o wyższości którejkolwiek z nich, postanowiono wykorzystać zmienne decyzyjne z modelu CART jako zmienne istotne. Nie odnotowano bezpośredniej korelacji pomiędzy zastosowanym podejściem do redukcji wymiarowości danych, a m ocą predykcyjną modelu NFS. Dylemat ten wymaga każdorazowo indywidualnego podejścia do analizowanych danych.

Po czwarte przeanalizowano możliwości zastosowań NFS w chemii i korzyści z tego płynących. Jak pokazano dzięki odpowiednim zabiegom transformacji danych metoda NFS nadaje się do modelowania danych chemicznych o szerokim spektrum pochodzenia nie ustępując innym m etodą pod względem mocy predykcyjnej.

W szystkie cztery aspekty oceny neuronowych systemów rozmytych przenikają się wzajemnie, a ostatecznym wyznacznikiem efektywności metody jest wartość jego mocy przewidywania modelowanej własności. W niniejszej pracy wykorzystywano dwie miary mocy predykcyjnej modeli RMSEP i CCR odpowiednio dla modeli kalibracyjnych i dyskryminacyjnych. Z uwagi na różny charakter opisywanych problemów obie miary błędów nie są porównywane miedzy sobą.

Jednakże m ożna w oparciu o otrzymane wyniki wyprowadzić uogólnione wnioski.

Powiązane dokumenty