• Nie Znaleziono Wyników

Określanie rozkładu warunkowego prognozy dla modeli regresji liniowej liniowej

i neuronowo-rozmytych prognoz zapotrzebowania na energię

4. Niepewność (szum) wejściowy. W przypadku modeli prognostycznych zakładamy zwykle, że zmienne wejściowe (objaśniające) mają charakter

3.2. Charakterystyka rozkładu prognozy

3.2.4. Określanie rozkładu warunkowego prognozy dla modeli regresji liniowej liniowej

Zanim przejdziemy do charakterystyki metod szacowania poszczególnych elementów składowych wariancji wyjściowej modelu, w przypadku sieci neuronowych i neuronowo-rozmytych, w kolejnym podpunkcie przyjrzymy się jeszcze metodom wyznaczania rozkładu warunkowego prognozy dla modeli liniowych.

Istnieje kilka powodów, dla których poświęcimy nieco uwagi tej klasie mo-deli, pomimo że nie stanowi ona głównego tematu naszej pracy. Po pierwsze, modele liniowe posłużą nam jako stosunkowo prosty przykład ilustracyjny wnioskowania na temat parametrów rozkładu warunkowego prognozowanej wielkości, co pozwoli lepiej zrozumieć kilka koncepcji prezentowanych w poprzednich punktach. Po drugie, pamiętać należy, że w niektórych prezento-wanych w rozdziale 2 podejściach do krótkoterminowego prognozowania zapotrzebowania na energię i moc wykorzystuje się również modele liniowe. Po trzecie w końcu, i chyba najważniejsze, przedstawione tutaj pewne rozważania dotyczące regresji liniowej uogólnimy i wykorzystamy w niektórych metodach szacowania odchylenia standardowego prognozy dla systemów neuronowych i neuronowo-rozmytych – zostaną one przedstawione w następnych punktach bieżącego rozdziału.

Na początek przedstawmy krótko najważniejsze zagadnienia związane ze sformułowaniem zadania regresji liniowej oraz jego rozwiązaniem. Nasz cel polega na znalezieniu współczynników funkcji liniowej bi, i = 0, …, n modelu-jącej pewną zależność stochastyczną między wyjściową zmienną objaśnianą (nazywaną również często zmienną zależną) y a wejściowymi zmiennymi objaśniającymi (niezależnymi) x1, …, xn.

y = b0 + b1x1 + … + bnxn + ε = xTb + ε = y(x) + ε (3.2.16) gdzie b = (b0, b1,…, bn)T, x = (1, x1, …, xn)T, zaś ε jest czynnikiem losowym zależności. Do znalezienia współczynników powyższej funkcji liniowej metodą najmniejszych kwadratów musimy mieć, oczywiście, próbę danych, odpowied-nik zbioru treningowego dla sieci neuronowych lub neuronowo-rozmytych, składającą się ze wzorców wejściowych oraz odpowiadających im znanych (treningowych) wartości zmiennej wyjściowej {xk, yk} = {(xk1, …, xkn), yk},

k = 1, …, N. Dla każdej znajdującej się w próbie obserwacji tworzymy

równa-nie, które postaramy się rozwiązać ze względu na niewiadome bi:

y1 = b0 + b1x11 + … + bnx1n

y2 = b0 + b1x21 + … + bnx2n (3.2.17a) …

yN = b0 + b1xN1 + … + bnxNn

albo w notacji macierzowej:

y = Xb (3.2.17b)

gdzie y = (y1, …, yN)T, X = [1 xki], k = 1, …, N, i = 1, …, n, zaś 1 jest

N-elementową kolumną jedynek (czyli X jest macierzą o wymiarach N × (n+1)). Macierz X często określa się macierzą obserwacji, zaś wektor y wektorem obserwacji.

Oczywiście utworzony układ równań (3.2.17) nie ma rozwiązania. Gdyby miał, to wszystkie równania musiałyby się układać wzdłuż prostej, czyli zależność (3.2.16) musiałaby mieć charakter funkcyjny, a nie stochastyczny. Zauważmy ponadto, że w układzie (3.2.17) zazwyczaj będziemy mieli znacznie więcej równań (tyle ile obserwacji w próbie – N) niż niewiadomych (n + 1 parametrów bi). Jeśli przyjmiemy, że poszczególne zmienne wejściowe nie są liniowo zależne, co jest jednym z założeń procedury regresji, to rzeczywiste więzy potrzebne do obliczenia niewiadomych, dla dokładnej zależności funkcyj-nej między y i x, narzucałyby n + 1 równań. Pozostałe równania definiują zależności dodatkowe. Ich liczbę, N – n – 1, nazywamy liczbą stopni swobody regresji.

Ponieważ układ równań (3.2.17) nie ma rozwiązania, możemy rozwiązać go jedynie w sposób przybliżony, to znaczy znaleźć takie wartości niewiadomych

bi, aby różnica między prawą i lewą stroną każdego z równań była jak najmniej-sza. Zdefiniujmy więc różnicę (błąd) między obiema stronami równań:

e = y – Xb (3.2.18)

gdzie e = (e1, …, eN)T jest wektorem odchyleń między wartościami obu stron każdego z równań, nazywanych resztami (albo residuami). Błąd kwadratowy oszacowania zależności (3.2.16), dla danej próby, możemy więc zdefiniować następująco: e e b x x T 1 2 1 2 1 2 2 1 2 1 ) ( 2 1 )) ( ( 2 1 =

− =

− =

= = = = N k k N k T k k N k k k e y y y E (3.2.19)

Zauważmy przy tym, że:

eTe = (y – Xb)T(y – Xb) = yTy – yTXb – bTXTy + bTXTXb = (3.2.20)

= yTy – 2bTXTy + bTXTXb

ponieważ bTXTy jest liczbą (skalarem), a więc bTXTy = (bTXTy)T = yTXb.

Widzimy więc, że błąd (3.2.19) względem parametrów b jest funkcją kwa-dratową. Macierz postaci XTX jest dla dowolnej macierzy X dodatnio określona

(i dodatkowo symetryczna), a więc błąd (3.2.19) ma dokładnie jedno minimum, które można znaleźć, przyrównując pochodną błędu do 0:

–XTy + XTXb = 0 (3.2.21a)

albo alternatywnie:

XTXb = XTy (3.2.21b)

Układ (3.2.21) to układ liniowy nazywany układem równań normalnych. Jeżeli macierz XTX jest nieosobliwa, to układ ten ma rozwiązanie wyznaczające

oszacowania wartości parametrów b liniowej zależności (3.2.16), minimalizują-ce błąd kwadratowy (3.2.19), dane wzorem:

b = (XTX)–1XTy (3.2.22)

W praktyce do wyznaczenia parametrów b rzadko stosuje się, rzecz jasna, bezpośrednio wzór (3.2.22). Zazwyczaj rozwiązuje się układ równań normal-nych numerycznie (3.2.21), stosując szybką metodę rozkładu Cholesky’ego macierzy XTX (która, jak wspomnieliśmy, jest dodatnio określona i

symetrycz-na). Często rezygnuje się w ogóle z generowania równań normalnych, rozwiązu-jąc bezpośrednio układ (3.2.17) (w sposób przybliżony, w sensie najmniejszych kwadratów) wolniejszą, ale znacznie bardziej odporną metodą rozkładu na wartości osobliwe (SVD) (Press, Teukolsky, Vetterling, Flannery 1992). Pamiętać jednak należy, że są to tylko różne metody obliczania tej samej wartości b, którą mamy w przypadku (3.2.22).

Na tym kończymy nasze wprowadzenie do zagadnień związanych z rozwią-zywaniem zadań regresji liniowej. Miało ono naturalnie charakter bardzo skrótowy; zaprezentowaliśmy w nim jedynie główną ideę sposobu otrzymywa-nia oszacowań parametrów. Co do szczegółów oraz wielu innych zagadnień związanych z diagnostyką, analizą i badaniem uzyskanego modelu, odsyłamy Czytelnika do pozycji poświęconych statystyce i analizie danych, takich jak: Draper, Smith 1973; Brandt 1998.

Przejdźmy więc do właściwego tematu naszych zainteresowań, czyli do kwestii szacowania warunkowego rozkładu prawdopodobieństwa wyjścia modelu dla danego wejścia. Pamiętać należy, że procedura stosowana do wyznaczania parametrów modeli liniowych opiera się na metodzie najmniej-szych kwadratów, a zatem większość wniosków z wykonanej w punkcie 3.1 analizy błędu kwadratowego, podsumowanych w punkcie 3.2.1, pozostaje w mocy również i w tym przypadku. Jeżeli więc otrzymany model jest popraw-nie zbudowany, popraw-nieobciążony, to wartość oczekiwana rozkładu prognozowanej zmiennej dana jest przez wyjście modelu (prognozę). Wariancja tego rozkładu składa się z komponentów związanych z wariancją czynnika losowego oraz wariancją modelu wynikającą z parametrów (zależność (3.2.1)). W bieżącym punkcie pominiemy kwestie związane z uwzględnianiem ewentualnej niepewno-ści wejść.

Wnioskowanie o rozkładzie prognozy w przypadku modeli regresji liniowej prowadzi się przy pewnych podstawowych założeniach dotyczących rozkładu błędów resztowych modelu. Zakłada się mianowicie, że błędy te są niezależne oraz stanowią realizacje tego samego błędu losowego ε, o rozkładzie normalnym

N(0, σε), czyli o wartości oczekiwanej 0 i stałym odchyleniu standardowym σε. Zauważmy, że w konsekwencji przyjęcia powyższego założenia powodowany przez niego rozkład prawdopodobieństwa pomierzonych wartości yi, dla poszczególnych xi, i = 1, …, N, w układzie (3.2.17) będzie również miał charakter rozkładu normalnego.

Jeżeli więc spojrzymy na sposób wyznaczania parametrów funkcji liniowej (3.2.22), to widzimy, że obliczane są one za pomocą transformacji liniowej zmiennej losowej y, o rozkładzie normalnym. Wyznaczone za pomocą tej zależności parametry b obarczone są więc wynikającą z tego faktu niepewno-ścią, opisywaną wielowymiarowym normalnym rozkładem prawdopodobień-stwa N(b, Cb): )) ( ) ( 2 1 exp( ) (β =kβb TCb1βb p (3.2.23)

gdzie wyznaczone metodą najmniejszych kwadratów parametry b są wartościa-mi oczekiwanywartościa-mi rozkładu, Cb macierzą kowariancji oszacowanych parametrów (musimy ją znaleźć), zaś k współczynnikiem normalizacyjnym, którego dokład-na postać nie będzie dokład-nas interesowała. Adokład-nalizując dalej wpływ tej niepewności na wyjście modelu y(x), dla danego wzorca wejściowego x, tj. y(x) = xTb,

ponownie zauważmy, że dla ustalonego wejścia jest ono funkcją liniową parametrów b. Innymi słowy, warunkowy rozkład prognozy modelu spowodo-wany niepewnością parametrów będzie miał (przy przyjętych założeniach) charakter rozkładu normalnego N(xTb, σb(x)), którego wartość oczekiwana równa jest wyjściu modelu (co wynika z analizy błędu kwadratowego i