Wymienność między obciążeniem a wariancją

i neuronowo-rozmytych prognoz zapotrzebowania na energię

4. Niepewność (szum) wejściowy. W przypadku modeli prognostycznych zakładamy zwykle, że zmienne wejściowe (objaśniające) mają charakter

3.1.3. Wymienność między obciążeniem a wariancją

Analizując czynniki wpływające na fakt, że model prognostyczny nie sta-nowi dokładnego predyktora wartości oczekiwanej zmiennej objaśnianej w rozkładzie warunkowym, dla danej wartości wzorca wejściowego zmiennych objaśniających, wyodrębniliśmy wśród nich dwa główne komponenty,

mianowi-cie obciążenie modelu oraz jego wariancję (patrz zależność (3.1.21)). Te dwa źródła błędu modeli analizy danych mają przy tym charakter współzależny, a nawet więcej, możemy mówić o pewnej wymienności między nimi.

Zasadniczo, spoglądając na problem dopasowania pewnej funkcji do danych z punktu widzenia obciążenia i wariancji, możemy mówić o dwóch przeciw-stawnych skrajnościach zaprezentowanych poglądowo na rysunku 3.1.2. W pierwszym przypadku, w części a), przyjmijmy, że dopasowywana do danych funkcja to ustalona prosta nieposiadająca żadnych parametrów wolnych (szaco-wanych na podstawie danych). Niezależnie więc od wyboru podzbioru danych, prosta położona jest zawsze tak samo – wariancja modelu wynosi więc zero. Trudno jednak uznać, że dopasowana funkcja dobrze odzwierciedla średnie wartości zmiennej y, dla różnych argumentów x. Mamy więc do czynienia z dużym obciążeniem modelu.

Rysunek 3.1.2. Schematyczna ilustracja wymienności między obciążeniem i wariancją modelu Źródło: opracowanie własne

Drugi skrajny przypadek zaprezentowany został w części b) rysunku 3.1.2. Dopasowywana funkcja uzyskana została poprzez interpolację dla wybranego podzbioru danych, przy użyciu łamanej. Jak widzimy, obciążenie w tym przypadku jest niewielkie. Jeżeli liczba punktów danych będzie rosła do nieskończoności, to łamana będzie coraz dokładniej odzwierciedlać aproksy-mowaną funkcję. Ponieważ jednak funkcja interpolacyjna musi przechodzić przez definiujące ją punkty, to w zależności od wyboru wykorzystywanego podzbioru danych, otrzymujemy nieco inną łamaną (linia ciągła, wykreskowana, wykropkowana). W związku z tym mamy do czynienia z dużą wariancją modelu zakłócającą poprawne wyniki modelowania.

Jak więc widzimy, między obciążeniem a wariancją modelu istnieje pewna naturalna wymienność. Funkcja ściśle dopasowana do danych będzie miała tendencję do dużej wariancji, a przynajmniej to wariancja będzie miała główny udział w błędzie opartego na niej modelu. Możemy redukować wariancję

a) _b)

y _y

poprzez upraszczanie funkcji, ale jeśli posuniemy ten proces za daleko, to wzrosnąć z kolei może obciążenie i tym razem to ono będzie główną przyczyną znacznego błędu (Bishop 1995).

Powstaje w związku z tym pytanie: jak wygląda sytuacja w przypadku mo-deli neuronowych i systemów rozmytych, których wykorzystanie do prognozy zapotrzebowania na energię elektryczną i moc omawialiśmy w rozdziale 2? W którym punkcie należy je umieścić między skrajnymi przypadkami z rysunku 3.1.2? Otóż zarówno sieci neuronowe, jak i neuronowo-rozmyte należą do kategorii modeli indukcyjnych, potrafiących dobrze dopasowywać się do danych. W przypadku omawianych kategorii modeli istnieje dobrze rozbudowa-na teoria aproksymacji, przede wszystkim rozbudowa-należą one do kategorii tzw. uniwer-salnych aproksymatorów (dla sieci MLP patrz Hornik, Stinchcombe, White 1989, dla systemów neuronowo-rozmytych FBF np. Wang, Mendel 1992; Zeng, Singh 1995, dla systemów rozmytych typu Takagi–Sugeno: Ying 1998a, b). Oznacza to, mówiąc ogólnie, że dla dowolnej funkcji (w naszym przypadku możemy ograniczyć się do kategorii funkcji ciągłych) można zbudować model neuronowy, czy też neuronowo-rozmyty, który będzie ją aproksymował z dowolnie dużą dokładnością.

Sieci neuronowe i systemy rozmyte należą więc do kategorii modeli charak-teryzujących się niewielkim obciążeniem, natomiast dużą wariancją. Ujmując rzecz dokładniej, na przykładzie procesu uczenia tego typu modeli dostrzec możemy doskonałą ilustrację wspomnianej wcześniej wymienności między obciążeniem a wariancją modelu. Manifestuje się ona w postaci tzw. efektu przetrenowania albo nadmiernego dopasowania modelu do danych. Zjawisko to jest dobrze znane i opisywane w każdym podstawowym podręczniku poświęco-nym zagadnieniem sieci neuronowych czy też uczenia statystycznego (np. Hertz, Krogh, Palmer 1993; Korbicz, Obuchowicz, Uciński 1994; Masters 1996; Żurada, Barski, Jędruch 1996; Zieliński 2000), a więc w tym miejscu wyjaśnimy tylko przyczyny jego powstawania oraz konsekwencje dla niepewności modelu.

Stosunkowo proste modele, o małej liczbie jednostek w sieci neuronowej czy reguł w systemie rozmytym, mogą okazać się zbyt mało rozbudowane i nie móc osiągnąć właściwej dokładności aproksymacji wartości oczekiwanej zmiennej wyjściowej. Aby rozwiązać ten problem, możemy zwiększać złożo-ność modelu, dodając nowe neurony (lub ich warstwy) albo reguły rozmyte. Rozbudowywanie struktury modelu przy określonej liczbie wzorców treningo-wych wymaga jednak pewnej uwagi. Jeżeli model staje się za bardzo złożony w stosunku do rozmiaru zbioru treningowego, to zbyt długa kontynuacja procesu uczenia doprowadza do nadmiernego jego dopasowania do konkretnych danych, co z kolei skutkuje wzrostem błędu z powodu wzrostu wariancji modelu.

Schematyczną ilustrację efektu przetrenowania widzimy na rysunku 3.1.3. Konkretna sieć neuronowa lub system rozmyty z powodu dopasowania do zbioru treningowego nie przybliża właściwej funkcji regresji, tylko dane z tego

konkretnego zestawu wykorzystanego do uczenia. Obciążenie jest małe, tzn. dla rosnącej liczby wzorców danych uczących aproksymacja byłaby coraz dokład-niejsza. Natomiast wzrasta błąd wynikający z wariancji modelu. Jeśli wykonu-jemy prognozę dla wzorca danych wejściowych, który nie występuje w zbiorze treningowym, to błąd sieci neuronowej (neuronowo-rozmytej) zaczyna rosnąć. Na rysunku 3.1.3 obrazuje to wzrost krzywej błędu na zbiorze testowym.

Rysunek 3.1.3. Schematyczna ilustracja wymienności między obciążeniem i wariancją w procesie dopasowywania modelu do danych

Źródło: opracowanie własne

Czy jednoczesna minimalizacja obciążenia i wariancji modelu jest możli-wa? Najlepszym oczywiście sposobem okaże się tutaj wykorzystanie jakiejś dodatkowej wiedzy. Na przykład jeśli wiemy, że zależność między zmienną wejściową x a wyjściową y ma charakter liniowy, to zastosowanie w systemie prognostycznym modelu liniowego, zamiast, powiedzmy, sieci neuronowej, powinno dać dobre efekty – mniejszą wariancję, ponieważ model jest prostszy oraz ma mniej parametrów, natomiast obciążenie nie powinno wzrosnąć. Stanie się tak oczywiście pod warunkiem, że nasza wiedza na temat liniowego charak-teru zależności między zmiennymi jest poprawna.

W procesie tworzenia systemu prognostycznego opartego na nieliniowych złożonych modelach aproksymacyjnych, takich jak sieci neuronowe czy systemy rozmyte, znalezienie jakiegoś uporządkowanego podejścia do jednoczesnej minimalizacji obciążenia i wariancji jest, niestety, dosyć trudne. Istnieją pewne metody konstruowania optymalnej struktury modelu, ale przy zazwyczaj ogra-niczonych ilościach danych historycznych i dużych nakładach obliczeniowych potrzebnych do ich realizacji (zwłaszcza w przypadku sieci neuronowych), rozwiązania te mają znaczenie raczej teoretyczne.

W odniesieniu do omawianych modeli niezbędne jest więc znalezienie pewnej równowagi pomiędzy obciążeniem a wariancją. Polega to zazwyczaj na

Błąd Złożoność modelu Zbiór treningowy Zbiór testowy Duże obciążenie (słabe dopasowanie) Duża wariancja (nadmierne dopasowanie, przetrenowanie)

tym, że podczas uczenia modelu staramy się wychwycić punkt, w którym błąd wynikający z obciążenia jest już mały, a błąd wynikający z wariancji jeszcze nie zaczął rosnąć, oceniając model nie tylko w kategoriach dopasowania do danych treningowych, ale również w kategoriach generalizacji na dodatkowym zbiorze testowym, tzw. zbiorze walidacyjnym. Tę dobrze znaną i najczęściej chyba obecnie wykorzystywaną metodę określa się mianem walidacji krzyżowej (cross-validation).

Jakie są konsekwencje takiego sposobu postępowania dla niepewności mo-delu i sposobu jej modelowania? Aby zminimalizować ryzyko wystąpienia obciążenia z powodu zbyt prostej struktury modelu, jego ocenę wykonuje się zazwyczaj dla kilku wariantów sieci neuronowej (systemu neuronowo-roz-mytego). Jeżeli ponadto dane do budowy systemu zostały przygotowane poprawnie, to komponent obciążenia wynikający z doboru danych również powinien być minimalny. Jeżeli zarówno zbiór treningowy, jak i testowy są reprezentatywne w całej przestrzeni wejść systemu, to ponieważ wybierane były z tej samej populacji ogólnej, różnica w błędzie modelu dla obu zbiorów powinna wynikać przede wszystkim z wariancji. Obciążenie powinno być niewielkie.

Podsumowując więc, obciążenie poprawnie, zgodnie ze wszystkimi kano-nami sztuki, przygotowanego modelu, ocenianego na podstawie jakości genera-lizacji metodą walidacji krzyżowej, powinno być nieznaczne, przynajmniej w porównaniu z jego wariancją. Modele nieliniowe o bogatych możliwościach aproksymacyjnych, takie jak sieci neuronowe lub systemy rozmyte, należą do kategorii systemów o niskim obciążeniu i wysokiej wariancji. W związku z tym w dalszej części naszej pracy zakładać będziemy, że wykorzystywane modele prognostyczne są nieobciążone, a źródłami ich błędu są przede wszystkim wariancja wynikająca z parametrów, wariancja czynnika losowego i (jeżeli występuje) niepewność (wariancja) zmiennych wejściowych.

W dokumencie Modelowanie niepewności krótkoterminowego popytu na energię elektryczną z wykorzystaniem sieci neuronowych i neuronowo-rozmytych (Stron 182-186)