• Nie Znaleziono Wyników

Prognozowanie zapotrzebowania na energię elektryczną z wykorzystaniem inteligentnych systemów pomiarowych

N/A
N/A
Protected

Academic year: 2021

Share "Prognozowanie zapotrzebowania na energię elektryczną z wykorzystaniem inteligentnych systemów pomiarowych"

Copied!
29
0
0

Pełen tekst

(1)

Polska Akademia Nauk Instytut Badań Systemowych

Streszczenie rozprawy doktorskiej

Prognozowanie zapotrzebowania na energię elektryczną z wykorzystaniem inteligentnych

systemów pomiarowych

Mgr Krzysztof Gajowniczek

Wydział Zastosowań Informatyki i Matematyki Szkoła Główna Gospodarstwa Wiejskiego w Warszawie

Promotor:

Dr hab. Wiesław Szczesny, prof. SGGW Promotor pomocniczy:

Dr inż. Tomasz Ząbkowski

Warszawa, 2016

(2)

Wstęp

Problem badawczy

Inteligentne systemy pomiarowe (ang. Smart Metering), będące częścią inteligentnej sieci elek- troenergetycznej (ang. Smart Grid), są stosunkowo nowym tematem, który od pewnego czasu zyskuje na znaczeniu na całym świecie. Inteligentne systemy pomiarowe są kompleksowymi, zintegrowanymi systemami informatycznymi obejmującymi liczniki energii elektrycznej, infrastrukturę telekomunika- cyjną, centralną bazę danych oraz system zarządzający. Liczniki nowe generacji (nazywane w literatu- rze krótko: inteligentne liczniki [Billewicz, 2012]) pozwalają na generowanie, przesyłanie i analizę danych dotyczących konsumentów w znacznie większym stopniu niż rozwiązania tradycyjne. Dzięki systemom tym, dostawca energii będzie miał możliwość gromadzenia szczegółowych informacji na temat zużycia i sposobu użytkowania energii elektrycznej, natomiast klient końcowy na podstawie tych samych informacji, zyska możliwość skutecznego zarządzania jej poborem.

Cechy charakterystyczne energii elektrycznej jako towaru, takie jak brak praktycznych możliwo- ści jej magazynowania na dużą skalę, konieczność nieustannego równoważenia wytwarzania i odbioru energii, powodują występowanie na rynkach energii szybkich zmian zapotrzebowania oraz tym sa- mym cen. Niepewność popytowa stanowi więc jeden z podstawowych czynników wpływających na powstawanie ryzyka działania przedsiębiorstwa energetycznego. Nieodłączną cechą obrotu energią elektryczną jest, z jednej strony, konieczność jego ścisłego planowania i ustalania z góry wolumenów obrotu w formie zawieranych kontraktów handlowych, z drugiej zaś, niemożność dokładnej realizacji zawartych umów, spowodowana niepewnością zapotrzebowania. Dążenie do redukcji tej niepewności, jest jednym z głównych powodów usilnego poszukiwania jak najdokładniejszych metod krótkotermi- nowego prognozowania zapotrzebowania na energię elektryczną. Zmniejszenie błędu w oszacowaniu popytu nawet o ułamek procenta, przekłada się bowiem na wymierną kwotę w wynikach finansowych przedsiębiorstwa energetycznego. Zaawansowane metody modelowania danych stanowią obecnie standardowy element systemów prognozowania zapotrzebowania odbiorców na rynku energii.

Z uwagi na wagę problemu i szerokie zastosowanie w praktyce, prognozowanie zużycia energii elektrycznej stało się jednym z najczęściej podejmowanych tematów od połowy XX wieku [Hooke, 1956]. W Polsce omawianą problematyką zajmował się już pod koniec lat pięćdziesiątych K. Kopecki (1958). Do innych autorów pionierskich badań można zaliczyć (por. [Piotrowski, 2013]): Dobrzańską (1962), Malko (1966), Kowalskiego (1980) oraz Skorupskiego (1990). Do dnia dzisiejszego powstało wiele metod opartych na różnych podejściach, spośród których można wyróżnić metody i modele analizy szeregów czasowych takie jak: metody średniej ruchomej, metody wygładzania wykładnicze- go, modele tendencji rozwojowej, modele autoregresji i średniej ruchomej [Witkowska, 2000], [Piotrowski, 2013] oraz metody oparte na teorii chaosu deterministycznego [Dobrzańska i in., 2002].

Wraz z dynamicznym rozwojem mocy i szybkości komputerów, uwaga badaczy zajmujących się problematyką prognozowania skupiła się na metodach wykorzystujących szeroko pojęte algorytmy sztucznej inteligencji, jak na przykład: logika rozmyta [Popławski, 2004], sztuczne sieci neuronowe [Siwek i Osowski, 2009], k-najbliższych sąsiadów [Lora i in., 2004], drzewa regresyjne [Gładysz i Kuchta, 2008], lasy losowe [Fijorek i in., 2010], maszyny wektorów wspierających [Ganyun i in., 2006], systemy ekspertowe [Mulawka, 1996], sztuczne systemy immunologiczne [Dudek, 2013], sys- temy rojowe PSO [Baczyński, 2010].

Instalacja tzw. inteligentnych liczników otwiera nowe możliwości dla zaawansowanych analiz zużycia energii elektrycznej w różnych skalach, od pojedynczego odbiorcy, aż do całej grupy odbior-

(3)

Wstęp ców. Prognozowanie zapotrzebowania na moc elektryczną jest kluczowym zagadnieniem w sterowa- niu pracą systemu elektroenergetycznego. Stanowi ono podstawę do szeregu działań związanych z zapewnieniem niezawodnej pracy systemu. Szczególna rola krótkoterminowej prognozy obciążenia wynika z braku możliwości magazynowania energii elektrycznej na dużą skalę, co pociąga za sobą konieczność ciągłego równoważenia mocy wytwarzanej i konsumowanej.

Prognozowanie zapotrzebowania na energię elektryczną w skali kraju, regionu czy miasta, jest zwykle osiągane z wysoką dokładnością [Weron, 2007]. Spowodowane jest to „uśrednieniem się”

zachowań odbiorców indywidualnych składających się na dany agregat. Motywacja do realizacji ba- dania na tym poziomie agregacji danych jest trojaka. Po pierwsze, prognozowanie zużycia energii elektrycznej dla grup odbiorców wychodzi naprzeciw wymogom regulacyjnym (w tym dyrektywom unijnym), co powinno być realizowane na etapie planowania przez spółki dystrybucyjne rozwoju elek- troenergetycznych sieci rozdzielczych [Stephenson i in., 2001]. Po drugie, znajomość profili zapotrze- bowania odbiorców końcowych na energię elektryczną jest podstawą do formułowania strategii ceno- wych, konstruowania systemu taryfowego oraz podejmowania działań marketingowych [Zalewski, 2011]. Po trzecie, wiedza na temat wielkości zużycia energii elektrycznej występującej w różnych grupach odbiorców energii elektrycznej jest bardzo istotna z punktu widzenia poprawy efektywności i niezawodności sieci elektroenergetycznej oraz prawidłowego zarządzania eksploatacją elektroener- getycznych sieci rozdzielczych.

Prognozowanie w mniejszej skali, np. na poziomie indywidualnego gospodarstwa domowego czy budynku, jest stosunkowo trudnym zadaniem, z uwagi na dużą dynamikę w poziomie zużycia godzi- nowego czy dobowego. Zapotrzebowanie na energię elektryczną na tym poziomie agregacji danych, determinowane jest nie tylko poprzez zachowanie się gospodarstwa domowego jako całości, ale też ze względu na zachowania poszczególnych osób wchodzących w jego skład. Z tego też powodu, narzę- dzia krótkookresowego prognozowania (do 24 godzin) wymagają pewnych adaptacji, zarówno co do techniki, jak i zakresu samych informacji objaśniających [Javed i in., 2012]. W tego typu problemach rozważyć należy nie tylko historyczne dane o zużyciu, lecz również charakterystyki behawioralne takie jak np. wzorce korzystania z urządzeń elektrycznych [Dent, 2015].

Wykorzystanie inteligentnych systemów pomiarowych to przede wszystkim zmiana w dotych- czasowej relacji z dostawcą energii, opartej przez ostatnie lata na prostej zależności, wynikającej z konieczności zapłaty za dostarczoną energię elektryczną. Dane na temat zużycia energii, którymi dysponował dotychczas dostawca miały niewielką wartość, ponieważ nie poddane jakiejkolwiek ana- lizie stanowiły zaledwie namiastkę informacji, pozwalających wyciągać wnioski. Dlatego skuteczne zarządzanie popytem wymaga od końcowego odbiorcy pełnej świadomości na temat dostępnych na rynku taryf, ofert konkurencyjnych sprzedawców, jak i tworzenia we własnym zakresie, prognoz cza- sowych włączeń posiadanych urządzeń elektrycznych.

Cele i tezy pracy

Głównym celem rozprawy jest identyfikacja efektywnych metod prognostycznych, połączo- na z opracowaniem skutecznego podejścia do procesu krótkoterminowego prognozowania zapo- trzebowania na energię elektryczną, na podstawie danych pochodzących z inteligentnych syste- mów pomiarowych. Ze względu na dużą zmienność w poziomie badanego zjawiska zaproponowane podejście, w głównej mierze, oparte jest o algorytmy uczenia maszynowego. Dla osiągnięcia tak po- stawionego celu głównego zdefiniowano następujące cele szczegółowe:

 zaproponowanie odpowiedniej (dla celów analitycznych) struktury zbioru danych w inteli- gentnych systemach pomiarowych,

 identyfikacja wzorców zachowań użytkowników w gospodarstwie domowym,

(4)

Wstęp

 zaproponowanie i przetestowanie metod prognostycznych wykorzystujących zmienne obja- śniające wzorce zachowań użytkowników w gospodarstwie domowym,

 zaproponowanie miar podobieństwa szeregów czasowych indywidualnego zapotrzebowania na energię elektryczną,

 podział gospodarstw domowych na jednorodne i rozłączne grupy,

 analiza wpływu wyboru miary podobieństwa szeregów czasowych oraz optymalnej (wzglę- dem zaproponowanych miar) liczby skupień na jakość modelu prognostycznego.

W pracy postawiono następujące tezy badawcze:

 Teza 1. Algorytmy grupowania i rozpoznawania wzorców mogą być dobrymi narzędziami do rozpoznawania wzorców zachowań użytkowników, na podstawie danych pochodzących z inte- ligentnych systemów pomiarowych.

 Teza 2. Szeregi czasowe zapotrzebowania na energię elektryczną mogą być skutecznie pro- gnozowane za pomocą modeli opartych o zaawansowane algorytmy uczenia maszynowego, w szczególności sztuczne sieci neuronowe wspomagane zmiennymi opisującymi wzorce za- chowań użytkowników w gospodarstwie domowym. Biorąc pod uwagę dokładność prognoz, modele te mogą być konkurencyjne w stosunku do klasycznych metod prognostycznych takich jak: metoda naiwna i losowa oraz modele regresji liniowej i ARIMA.

 Teza 3. Możliwe jest wyodrębnienie rozłącznych i jednorodnych grup gospodarstw domo- wych, dla których zagregowane wartości prognoz uzyskane w oparciu o modele zbudowane dla poszczególnych grup odbiorców indywidualnych, prowadzić będą do otrzymania mniej- szego błędu prognostycznego, niż błąd modelu zbudowanego dla całej populacji.

Zakres i struktura pracy

Zakres przeprowadzonych badań obejmuje m.in.: opracowanie, komputerową implementację oraz optymalizację parametrów przygotowanych modeli prognostycznych. Dokonano również analizy po- równawczej metod, miar i algorytmów wykorzystywanych w pracy.

Praca zorganizowana jest w następujący sposób. Pierwszy rozdział stanowi wprowadzenie do po- ruszanych w rozprawie zagadnień. Zawarto w nim przegląd istniejącego stanu wiedzy dotyczącego elektroenergetyki, rynku energii elektrycznej, inteligentnych systemów pomiarowych oraz problemu prognozowania w elektroenergetyce. Następne rozdziały rozprawy przedstawiają wyniki eksperymen- tów numerycznych w połączeniu z omówieniem metod, miar i algorytmów wykorzystywanych w konkretnym miejscu rozprawy. Rozdziały empiryczne opracowano na podstawie zbiorów danych, związanych z gospodarstwami domowymi znajdującymi się w Polsce (SMEPI1), Kanadzie (AMPDs) oraz Stanach Zjednoczonych (WikiEnergy). W drugim rozdziale rozprawy zidentyfikowano wzorce zachowań gospodarstw domowych, na których podstawie w rozdziale trzecim zaproponowano modele prognozujące godzinowe zapotrzebowanie na energię elektryczną z wyprzedzeniem godzinowym i dobowym oraz zapotrzebowanie w skali całego dnia z wyprzedzeniem dziennym. W czwartym roz- dziale rozprawy w oparciu o wybrane miary podobieństwa szeregów czasowych, pogrupowano rozpa- trywane gospodarstwa domowe. W nawiązaniu do wyników grupowania, zaproponowano następnie modele prognozujące zagregowane zapotrzebowanie na energię elektryczną, dla każdej otrzymanej grupy odbiorców indywidualnych. Całość pracy zakończono podsumowaniem, w którym omówiono realizację celów pracy oraz zweryfikowano postawione we wstępie tezy badawcze. Na zakończenie przedstawiono możliwe kierunki dalszych badań.

1 W nawiasach zawarto skróty nazw wykorzystywanych zbiorów danych, które omówiono w rozdziale 2.

(5)

1 Wykrywanie wzorców zachowań użytkowników

1. Wykrywanie wzorców zachowań użytkowników

1.1. Wykorzystywane dane w wykrywaniu wzorców zachowań użytkowników

Głównym celem analizy prezentowanej w tym rozdziale jest wykrycie typowych zachowań go- spodarstw domowych. Odkryte zależności posłużą następnie do stworzenia cech (atrybutów), będą- cych zmiennymi objaśniającymi dla modeli prognostycznych zbudowanych w rozdziale 2.

W prezentowanym rozdziale wykorzystano dane pochodzące z Polski (SMEPI). Pomiary energii elektrycznej, stały się możliwe dzięki miernikowi, zainstalowanemu w jednym z warszawskich go- spodarstw domowych o powierzchni 140 m2. Dane zebrane w trakcie 44 dni począwszy od 10 wrze- śnia do 23 października 2012, związane z pobieraną czynną mocą elektryczną dla każdej sekundy, posiadają także zestaw informacji o zachowaniach użytkownika, związanych ze stanami pracy niektó- rych urządzeń w gospodarstwie domowym. Dane te, pochodziły z systemu referencyjnego, który przekazywał binarną informację o stanie pracy (w danej sekundzie) takich urządzeń jak: pralka (PR), zmywarka (ZM), suszarka (SU), czajnik (CZ) i kuchenka mikrofalowa (MK) (Rysunek 1).

Rysunek 1. Pobór czynnej mocy elektrycznej oraz informacja referencyjna dla 11 Października 2012 (dane SMEPI). Źródło: Opracowanie własne.

W końcowym etapie przygotowania obydwu zestawów danych, informacje referencyjne zagre- gowane zostały do wartości godzinowych. Wynika to bezpośrednio ze schematu wykonanych badań w kolejnych rozdziałach (godzinowy poziom agregacji danych) oraz z różnej częstotliwości próbko- wania mocy elektrycznej. Każda zagregowana wartość wskazuje liczbę unikalnych włączeń konkret- nego urządzenia w określonej godzinie, tj. jeżeli czajnik pracował od 12:05 do 12:09 oraz od 12:42 do 12:44, to zagregowana informacja referencyjna przyjmuje wartość 2. W związku z czym, aby było możliwe odkrycie typowych zachowań gospodarstw domowych, agregacja informacji referencyjnych, dokonana została z zachowaniem pewnych zależności. Dwa unikalne stany pracy mniejszych urządzeń takich jak mikrofalówka czy czajnik, rozdzielone musiały być jedną minutą, w przeciwnym razie uznaje się, że przerwa w pracy spowodowana była czynnikami zewnętrznymi (np. sprawdzenie przez domownika czy przyrządzane potrawy są już gotowe do spożycia). Unikalna praca większych urzą- dzeń takich jak pralka, zmywarka czy suszarka, rozdzielona musiała być pięcioma minutami.

(6)

1 Wykrywanie wzorców zachowań użytkowników

1.2. Wykrywanie wzorców zachowań w oparciu o grupowanie hierarchiczne

Techniki klasteryzacji hierarchicznej służące do podziału zbiorowości na rozłączne i jak najbar- dziej jednorodne skupienia, podzielić można na dwie grupy: skupiające i dzielące [Krzyśko i in., 2008]. Przy technice dzielącej procedurę rozpoczyna się od zdefiniowania jednego klastra, do którego należą wszystkie dane wejściowe. W kolejnych krokach dokonuje się podziału dotąd, aż każdy ele- ment wejściowy sam będzie stanowił skupienie (będzie jedynym elementem należącym do tego sku- pienia). Stosując technikę skupiającą zaczyna się od pojedynczych obiektów tworzących klastry (w których same są jedynym elementem), a następnie w każdym kroku, łączy się dwa klastry, aż do momentu uzyskania jednej grupy skupiającej wszystkie obiekty. Wynik klasteryzacji hierarchicznej przedstawiany jest zazwyczaj w postaci drzewa zwanego dendrogramem.

Punktem wyjścia do wykrywania wzorców zachowań użytkowników, było wyznaczenie macierzy z prawdopodobieństwami włączeń poszczególnych urządzeń, na przestrzeni określonego przedziału czasu. Prawdopodobieństwa zostały szacowane według następującego wzoru:

P =liczba włączeń danego urządzenia w wybranym okresie

całkowita liczba włączeń danego urządzenia . 1.1 Tabela 1 przedstawia macierz prawdopodobieństw wyznaczoną dla konkretnego urządzenia na przestrzeni całego dnia (prawdopodobieństwa sumują się do jedności dla każdej kolumny) uzyskaną dla danych z projektu SMEPI. Dodatkowo, kolorem czerwonym oznaczone zostały prawdopodobień- stwa włączenia urządzenia powyżej wartości 0,08.

Tabela 1. Prawdopodobieństwa włączeń poszczególnych urządzeń dla danych SMEPI.

Go- dzina

Czaj- nik

Mikrofa- lówka

Pral ka

Su- szarka

Zmy- warka

Go- dzina

Czaj- nik

Mikrofa- lówka

Pral ka

Su- szarka

Zmy- warka

0 0 0 0,02 0,06 0 12 0,05 0,01 0,08 0,04 0,05

1 0 0 0 0,04 0 13 0,05 0,02 0,05 0,06 0,08

2 0 0 0 0,02 0 14 0,05 0,03 0,05 0,04 0,06

3 0 0 0,02 0 0 15 0,03 0,02 0,06 0,04 0,09

4 0 0,01 0 0,02 0 16 0,04 0,03 0,08 0,11 0,06

5 0 0,01 0 0,02 0 17 0,03 0,02 0,03 0,06 0,03

6 0,03 0,03 0,02 0 0 18 0,06 0,10 0,05 0,04 0,05

7 0,12 0,16 0,02 0 0,08 19 0,08 0,03 0,06 0,02 0,03

8 0,08 0,08 0,06 0,02 0,06 20 0,09 0,12 0,08 0,07 0,03

9 0,09 0,08 0,05 0,02 0,09 21 0,05 0,09 0,08 0,07 0,06

10 0,07 0,06 0,05 0,07 0,08 22 0,02 0,06 0,06 0,09 0,05

11 0,06 0,04 0,08 0,06 0,11 23 0,01 0 0,06 0,06 0,02

Źródło: Opracowanie własne.

Opierając się tylko i wyłącznie na powyższej tabeli, można zaobserwować już na tym etapie, do- syć oczekiwane relacje i charakterystyki włączeń niektórych urządzeń. W badaniu wykorzystano ist- niejącą implementację algorytmu, zawartą w funkcji hclust w środowisku obliczeniowym R-CRAN (ang. Comprehensive R Archive Network) [R Core Team, 2015]. W wyniku grupowania pięciu po- wyższych urządzeń elektrycznych wykorzystując metodę Warda do obliczania odległości pomiędzy grupami, otrzymano dendrogram zaprezentowany na Rysunku 2. Z analizy wizualnej dendrogramu wynika, że prawdopodobieństwa włączenia czajnika i mikrofalówki w określonych godzinach są do siebie bardzo podobne (kolor niebieski). W szczególności zaobserwować to można w przypadku go- dzin 7–9 (Tabela 1), co zwykle związane jest z czynnością przygotowywania śniadania przez domow- ników. Podobną zależność w okresach wspólnej pracy można dostrzec w przypadku pralki i suszarki.

W badanym gospodarstwie istnieje logiczna zależność robienia najpierw prania, a później suszenia wypranych ubrań (kolor czerwony).

(7)

1 Wykrywanie wzorców zachowań użytkowników

Rysunek 2. Grupowanie urządzeń na przestrzeni całego dnia dla danych SMEPI. Źródło:

Opracowanie własne.

1.3. Wykrywanie wzorców zachowań w oparciu o analizę gradacyjną

Gradacyjna analiza danych jest zaliczana do metod wielowymiarowej eksploracji danych. Stano- wi ona ważny krok na drodze integracji statystyki, eksploracji danych, taksonomii i teorii pomiaru oraz do jednolitego traktowania danych ciągłych i dyskretnych. Gradacyjną analizę danych można postrzegać jako metodę ukierunkowaną na bardzo dobrą wizualizację danych, w celu lepszego ich zrozumienia oraz poznania całościowej struktury danych i występujących w nich współzależności.

Szerszy jej opis można znaleźć m.in. w [Szczesny, 2002], [Kowalczyk, Pleszczyńska i Rulad, 2004].

W pierwszym kroku, na podstawie danych zawartych w Tabeli 1, zostały wyliczone tzw. wskaź- niki nadreprezentacji dla każdej komórki leżącej na przecięciu godzin oraz poszczególnych urządzeń.

Dla tak wyznaczonych wskaźników nadreprezentacji można stworzyć mapę obrazującą stopień repre- zentacji danych. W tym celu, za pomocą kilku odcieni szarości można określić obszary niedoreprezen- tacji, idealnej reprezentacji oraz nadpreprezentacji w danych (Rysunek 3).

Rysunek 3. Mapa nadreprezentacji po przekształceniach i grupowaniu dla całego dnia dla danych SMEPI. Źródło: Opracowanie własne.

Mikrofalówka Zmywarka Suszarka

7 9

18

19

10

11

13

12 16 23

6

8

20

21

14

15

22 17 5

0.6666 0.99 1.0101 1.5

silna niedoreprezentacja słaba niedoreprezentacja idealna reprezentacja słaba nadreprezentacja silna nadreprezentacja

Czajnik Pralka

Urządzenie

Godzina

(8)

1 Wykrywanie wzorców zachowań użytkowników

W następnym kroku wykorzystano algorytm GCA, który poszukuje w macierzy danych najwięk- szej zależności pomiędzy wierszami i kolumnami. Wynikiem optymalnego ustawienia są duże warto- ści wskaźnika nadreprezentacji w lewym górnym rogu oraz prawym dolnym rogu tabeli. Z kolei małe wartości wskaźnika nadreprezentacji znajdują się w lewym dolnym oraz prawym górnym rogu tabeli.

Kolejny krok w badaniu polegał na pogrupowaniu badanej zbiorowości urządzeń na okresy o podobnych charakterystykach. Do wyznaczenia segmentów posłużyła dostępna w GradeStat2 proce- dura analizy skupień. Proces wyszukiwania skupień dla danych był przeprowadzony według zaimple- mentowanego algorytmu GCCA. Dokonuje on dekompozycji każdej uporządkowanej przez GCA tabe- li danych, na jednorodne podzbiory wierszy i kolumn. Efekt tej analizy przedstawia Rysunek 3, który prezentuje sześć najbardziej jednorodnych segmentów ze względu na urządzenie oraz godzinę pracy.

Na podstawie wizualizacji skupień, można zauważyć pewien związek pomiędzy urządzeniem, a korzystaniem z niego w określonych godzinach. Korzystanie z takich urządzeń jak czajnik, mikrofa- lówka oraz zmywarka w godzinach porannych oraz wieczornych jest od siebie zależne i dużym stop- niu nadreprezentowane. Korzystanie natomiast z tychże urządzeń w rozważanym gospodarstwie do- mowym w godzinach południowych jest niedoreprezentowane w stosunku do całości.

1.4. Wykrywanie wzorców zachowań w oparciu o reguły sekwencyjne

Celem sekwencyjnych reguł asocjacyjnych (ang. sequential patterns) jest znalezienie zależności pomiędzy występowaniem określonych zdarzeń w wybranym przedziale czasu. Sekwencją nazywana jest uporządkowana lista zbiorów elementów. Rozmiarem sekwencji nazywa się liczbę występujących w niej elementów. Długością sekwencji nazywa się liczbę występujących w niej wyrazów. Z każdym wyrazem sekwencji związany jest znacznik czasowy [Morzy i Wojciechowski, 2002].

Punktem wyjścia do wykrywania wzorców zachowań użytkowników w oparciu o sekwencyjne reguły asocjacyjne, było wyznaczenie tzw. macierzy transakcyjnej. Każda transakcja zawiera znacznik czasu informujący o momencie wystąpienia danych elementów w określonej sekwencji. W omawia- nym przypadku zakłada się, że pojedynczą sekwencją jest cały dzień, dlatego też znacznikiem se- kwencji jest data. Znacznikiem czasu jest godzina, w której włączone zostały określone urządzenia (kolumna nr 3 w Tabeli 2). W badaniu wykorzystywano procedury PROC ASSOC i PROC SEQUEN- CE zaimplementowane w środowisku obliczeniowym SAS 9.4 [SAS Institute Inc., 2011].

Tabela 2. Przykład tabeli transakcyjnej dla danych SMEPI.

Znacznik sekwencji Znacznik czasu Elementy

20120910 8 czajnik

20120910 9 czajnik, mikrofalówka

20120910 10 czajnik, zmywarka

20120910 11 czajnik, zmywarka

20120910 18 mikrofalówka

20120910 19 czajnik

20120910 20 pralka

20120910 21 pralka, suszarka

20120910 22 mikrofalówka, pralka, suszarka

Źródło: Opracowanie własne.

Biorąc pod uwagę reguły ze wsparciem większym niż 0,01, minimalną różnicą czasu pomiędzy kolejnymi elementami w sekwencji równą 1 oraz maksymalną różnicą czasu pomiędzy kolejnymi elementami w sekwencji równą 24, zaobserwować można następujące wzorce zachowań (Tabela 3), uszeregowane w kolejności nierosnącej względem miary przyrostu:

2 Więcej informacji o programie znajduje się na stronie http://gradestat.ipipan.waw.pl/index.html.

(9)

1 Wykrywanie wzorców zachowań użytkowników

Przy wsparciu równym 0,05 oraz z ufnością wynoszącą 100%, zaobserwować można, że jeżeli o pewnej godzinie pracowała pralka i suszarka to w następnych godzinach również pracowała pralka, suszarka oraz mikrofalówka (reguła nr 1).

Reguła nr 2 przy wsparciu równym 0,05 oraz z ufnością równą 66% pokazuje, że jeżeli o pewnej godzinie pracowała suszarka, w następnych godzinach włączona była pralka, w kolejnych godzinach również pracowała pralka oraz czajnik to w następnej godzinie rów- nież pracowała pralka oraz suszarka i czajnik.

Występowanie po sobie takich urządzeń jak czajnik, pralka, suszarka oraz mikrofalówka, jest od siebie zależne (reguła nr 3).

Reguła nr 4 przy wsparciu równym 0,05 oraz z ufnością na poziomie 100% pokazuje, że wy- stępowanie w sekwencji takich urządzeń jak czajnik i zmywarka wpływa na pojawienie się w sekwencji także suszarki, pralki oraz mikrofalówki.

Przy wsparciu równym 0,07 oraz z ufnością wynoszącą 100%, można stwierdzić, że jeżeli o pewnej godzinie pracowała suszarka, w następnych godzinach włączona była zmywarka, jeszcze w kolejnej godzinie pracowała pralka, to w następnych godzinach pracował czajnik oraz suszarka (reguła nr 5).

Tabela 3. Wybrane odkryte reguły sekwencyjne dla danych SMEPI.

Źródło: Opracowanie własne.

Wszystkie wymienione reguły sekwencyjne posiadają wartość przyrostu większą od jedności, co oznacza, że występowanie po sobie elementów z lewej strony reguły wpływa na występowanie ele- mentów znajdujących się po prawej stronie reguły sekwencyjnej (kolumna nr 4 w Tabeli 3).

2. Prognozowanie zapotrzebowania na energię elektryczną dla pojedynczego odbiorcy

Głównym celem prezentowanego rozdziału jest identyfikacja efektywnych metod prognostycz- nych, połączona z opracowaniem skutecznego podejścia do procesu krótkoterminowego prognozowa- nia zapotrzebowania na energię elektryczną, na poziomie pojedynczego odbiorcy. Ze względu na dużą zmienność badanego zjawiska, zaproponowane metody opierają się o algorytmy uczenia maszynowe- go, które są w stanie wychwycić zależności pomiędzy wykorzystywanymi urządzeniami a zapotrze- bowaniem całkowitym w danej chwili. Skuteczność opracowanych metod prognostycznych, spraw- dzono dla przypadku zapotrzebowania godzinowego z horyzontem prognostycznym wynoszącym 24 godziny. W każdym rozpatrywanym przypadku, przeanalizowano ponadto jakość wypracowanych metod prognostycznych, ze względu na dodanie zmiennych opisujących wzorce zachowań gospo- darstw domowych. Wzorce te, są efektem badań przedstawionych w poprzednim rozdziale.

Postać sekwencji Wsparcie

(%)

Ufność

(%) Przyrost pralka & suszarka ==> mikrofalówka & pralka & suszarka 5 100 13,33 zmywarka ==> pralka ==> czajnik & pralka ==> czajnik & pralka & suszarka 5 66 8,88 czajnik ==> czajnik & pralka ==> pralka & suszarka ==> mikrofalówka & pralka

& suszarka 5 50 6,66

czajnik & zmywarka ==> czajnik & zmywarka ==> pralka & suszarka ==> mi-

krofalówka & suszarka 5 100 5,71

suszarka ==> zmywarka ==> pralka ==> czajnik & suszarka 7 100 4,44

(10)

2 Prognozowanie zapotrzebowania na energię elektryczną dla pojedynczego odbiorcy

2.1. Teoretyczne podstawy budowy modeli prognostycznych

Dla przejrzystości opracowania, przed przystąpieniem do prezentacji otrzymanych wyników, omówiono w skrócie, wykorzystane algorytmy uczenia maszynowego.

Sztuczne sieci neuronowe

Sztuczne sieci neuronowe (ang. artificial neural networks) to matematyczne obiekty w postaci równań lub układów równań, zwykle nieliniowych, służące analizie oraz przetwarzaniu danych. Ce- lem sieci neuronowych jest przekształcenie danych wejściowych w dane wyjściowe o określonej cha- rakterystyce lub taka modyfikacja układów równań, by z ich struktury i parametrów odczytać użytecz- ną informacje. Sieci neuronowe typu wielowarstwowego perceptronu (ang. Multilayer Perceptron – MLP) są jednym z najpopularniejszych typów nadzorowanych sieci neuronowych. Powszechność ich stosowania wynika m.in. z uniwersalnych zdolności aproksymujących [Tadeusiewicz, 1993].

Drzewa regresyjne

Drzewa regresyjne (ang. regression trees) należą do popularnych narzędzi maszynowego uczenia indukcyjnego. Charakterystyczny dla drzew decyzyjnych jest podział wielowymiarowej przestrzeni cech na rozłączne segmenty 𝑅𝑘, w ramach których dopasowywany jest następnie prosty model aprok- symujący lokalnie funkcję docelową wewnątrz rozpatrywanego segmentu [Koronacki i Ćwik, 2008].

W pracy wykorzystane zostało drzewo regresyjne w wersji CART (ang. Classification and Regression Trees) zaproponowanej przez [Breiman i in., 1984].

Regresyjne lasy losowe

Ogólna idea lasów losowych polega na stworzeniu wielu różnych drzew regresyjnych, stąd w na- zwie słowo „las” [Gatnar, 2011]. W ten sposób ograniczone zostaje zjawisko niestabilności prognoz [Breiman, 2001]. Słowo „losowe” bierze swój początek w tym, że każde drzewo jest tworzone na lo- sowej próbie 𝑛 obserwacji pobieranych ze zwracaniem ze zbioru uczącego 𝑼 (próba bootstrapowa).

Drugi element losowości polega na tym, że w przeciwieństwie do regresyjnych drzew losowych, gdzie każdy kolejny podział jest wyłaniany na podstawie wszystkich zmiennych objaśniających, w algoryt- mie lasów losowych, najlepszy podział jest określany w oparciu o próbę losową zmiennych. Progno- zowanie na podstawie modelu lasu losowego polega na określeniu prognoz dla każdego drzewa wcho- dzącego w skład lasu oraz wyznaczeniu średniej arytmetycznej tych prognoz indywidualnych, jako prognozy całego modelu.

Regresja wektorów wspierających

Choć maszyny wektorów wspierających (ang. support vector machines) pierwotnie były przezna- czone tylko do rozwiązywania zadania klasyfikacji [Cortes i Vapnik, 1995], można je także zastoso- wać do zadania analizy regresji, co zostało zaproponowane pierwszy raz w 1997 roku w [Drucker i in., 1997], jako algorytm 𝜀-SVR (ang. Support Vector Regression). Ponadto regresyjna metoda wektorów nośnych ma wiele pożądanych własności, które przenoszą się z metody dyskryminacyjnej o czym można przeczytać m.in. w [Ganyun i in. 2006]

Regresja k-najbliższych sąsiadów

Estymator regresji k-najbliższych sąsiadów (k-nn, ang. k-nearest neighbors regression) [Hardle, 1995] jest metodą nieparametryczną. Jego główną zaletą jest prostota konstrukcji i niska złożoność obliczeniowa. Prognozę wartości zmiennej objaśnianej metodą k-nn na podstawie wektora zmiennych objaśniających wyznacza się jako wartość średnią zmiennych zależnych, należących do k najbliższych sąsiadów.

(11)

2 Prognozowanie zapotrzebowania na energię elektryczną dla pojedynczego odbiorcy

2.2. Charakterystyka danych wykorzystywanych w prognozowaniu zapotrzebo- wania na energię elektryczną dla pojedynczego odbiorcy

W prezentowanym badaniu wykorzystywane są trzy zbiory danych SMEPI, AMPDs oraz WikiE- nergy. Pierwszy zestaw danych dotyczy gospodarstwa domowego, które zostało omówione w po- przednim rozdziale. Drugi z prezentowanych zestawów danych nosi nazwę Almanac of Minutely Po- wer Dataset (AMPds) [Makonin i in., 2013]. Zestaw ten zawiera zagregowane dane minutowe, z sze- regiem pomiarów odnotowanych dla gospodarstwa domowego znajdującego się w Vancouver w Ka- nadzie. Pomiary wykonano w okresie 01.04.2012–31.03.2014 Omawiany zbiór danych, zawiera in- formacje pochodzące z 22 urządzeń referencyjnych, wskazujących pobór mocy przez poszczególne urządzenia. Trzeci zestaw danych zatytułowany WikiEnergy, zawiera dane pozyskane z Pecan Street Inc [Pecanstreet, 2015]. Zbiór ten zawiera dane z 46 gospodarstw domowych z miasta Austin (Texas, USA), w których łączne zagregowane zapotrzebowanie na energię elektryczną monitorowane było w odstępach 1-godzinnych, w okresie prawie 14 miesięcy tj. od marca 2014 do kwietnia 2015 roku.

Zbiór danych zawiera dodatkowo informacje pochodzące z 5 urządzeń referencyjnych, monitorują- cych zapotrzebowanie na energię przez pralkę (PR), zmywarkę (ZM), suszarkę (SU) do ubrań, ku- chenkę mikrofalową (MK) oraz pozostałe drobne urządzenia znajdujące się w kuchni (KU).

2.2.1. Budowa wektora atrybutów

W prezentowanych w tym rozdziale opisach badań, główna uwaga skupiona została na progno- zowaniu zapotrzebowania na energię elektryczną w danym gospodarstwie domowym o horyzoncie jednej godziny oraz 24 godzin do przodu. W tym celu, skonstruowany został wektor zmiennych nieza- leżnych (atrybutów) przedstawiony w Tabeli 4. Atrybuty te, wyznaczone zostały empirycznie na pod- stawie szeregów czasowych godzinowego zapotrzebowania na energię elektryczną, temperatury, wil- gotności, oraz informacji kalendarzowych.

Oprócz atrybutów, które opisują historyczne zużycie energii elektrycznej, został dodatkowo przygotowany zestaw cech behawioralnych opisujący zwyczaje gospodarstwa domowego, związane z użytkowaniem określonych urządzeń elektrycznych (Tabela 5). Przedstawiony zestaw cech ma za zadanie opisać wzorce zachowań domowników, odkryte w trakcie wcześniejszy etapów badań (roz- dział 1). Prezentowany wektor cech, zawiera liczbę stanów pracy dla każdego urządzenia w ciągu ostatnich (a) 3, 6, 12, 24 godzin; (b) kilku poprzednich dniach; (c) kilku poprzednich tygodniach oraz (d) różnicę w czasie między kolejnymi pięcioma włączeniami poszczególnych urządzeń. Zmienne te, w połączniu ze zmiennymi jakościowymi z Tabeli 4, opisują:

 Strukturę profili korzystania z urządzeń na przestrzeni dnia, tygodnia oraz miesiąca. Istnienie struktur profilowych odkryte zostało za pomocą analizy macierzy z prawdopodobieństwami włączeń poszczególnych urządzeń (por. Tabela 1). Cechami przedstawiającymi profile są zmienne od 147 do 196, które związane są z charakterystyką pojedynczego urządzenia.

Podobieństwo w strukturach profili wymienionych w punkcie powyżej. Zależności współwy- stępowania stanów włączeniowych konkretnych urządzeń, ujawnione zostały dzięki grupowa- niu hierarchicznemu (por. Rysunek 2). Atrybutami przedstawiającymi zależności profilowe są zmienne od 147 do 196, które związane są z kombinacjami pewnych urządzeń.

 Zależności w następstwie oraz przybliżony czas oczekiwania (zmienne 197–221) na włączenie urządzenia. Istnienie oraz najczęściej występujące kolejności we włączaniu urządzeń przed- stawiają wyniki z podrozdziału 1.4 (reguły sekwencyjne).

 Ponadto, zmienne objaśniające 147–196 w połączeniu ze zmiennymi jakościowymi 1–76, opi- sują powiązania we włączaniu urządzeń w poszczególnych godzinach w zależności od dnia tygodnia czy miesiąca, odkrytych dzięki gradacyjnej analizie danych (np. Rysunki 3).

(12)

2 Prognozowanie zapotrzebowania na energię elektryczną dla pojedynczego odbiorcy

Tabela 4. Wektor cech opisujący przeszłe godzinowe zużycie energii elektrycznej.

Zmienna nr Opis Formuła

1–24 Binarna informacja wskazująca rozpatrywaną godzinę 𝐺𝑖, 𝑖 = 1, … , 24 25–55 Binarna informacja wskazująca rozpatrywany dzień miesiąca 𝐷𝑖, 𝑖 = 1, … , 31 56–62 Binarna informacja wskazująca rozpatrywany dzień tygodnia 𝑇𝑖, 𝑖 = 1, … , 7 63–74 Binarna informacja wskazująca rozpatrywany miesiąc w roku 𝑀𝑖, 𝑖 = 1, … , 12

75 Binarna informacja wskazująca dzień świąteczny 𝑆

76 Binarna informacja wskazująca zachód słońca 𝑁

77–100 Zapotrzebowanie w poprzednich 24 godzinach 𝑍𝑔−𝑖, 𝑖 = 1, … , 24 101–104 Minimalne zużycie w poprzednich 3, 6, 12, 24 godzinach 𝑚𝑖𝑛{𝑍𝑔−1, … , 𝑍𝑔−𝑖},

𝑖 = 3,6,12, 24 105–108 Maksymalne zużycie w poprzednich 3, 6, 12, 24 godzinach 𝑚𝑎𝑥{𝑍𝑔−1, … , 𝑍𝑔−𝑖},

𝑖 = 3,6,12, 24 109–114 Zapotrzebowanie o tej samej godzinie w poprzednim tygodniu 𝑍𝑔,𝑑−𝑖, 𝑖 = 2, … , 7 115–118 Zapotrzebowanie o tej samej godzinie w poprzednim miesiącu 𝑍𝑔,𝑑−𝑖, 𝑖 = 14,21,28, 35 119–122 Średnia temperatura w wybranym okresie poprzedniego tygodnia 𝑎𝑣𝑔{𝑇𝑔−𝑖, … , 𝑇𝑔−𝑖[+1]},

𝑖 = 1,3,6,12,24 123–128 Temperatura o tej samej godzinie w poprzednim tygodniu 𝑇𝑔,𝑑−𝑖, 𝑖 = 2, … , 7 129–132 Średnia temperatura w wybranym okresie poprzedniego miesiąca 𝑎𝑣𝑔{𝑇𝑔,𝑑−𝑖, … , 𝑇𝑔,𝑑−𝑖[+1]},

𝑖 = 7,14,21,28,35 133–136 Średnia wilgotność w wybranym okresie poprzedniego tygodnia 𝑎𝑣𝑔{𝑊𝑔−𝑖, … , 𝑊𝑔−𝑖[+1]},

𝑖 = 1,3,6,12,24 137–142 Wilgotność o tej samej godzinie w poprzednim tygodniu 𝑊𝑔,𝑑−𝑖, 𝑖 = 2, … , 7 143–146 Średnia wilgotność w wybranym okresie poprzedniego miesiąca 𝑎𝑣𝑔{𝑊𝑔,𝑑−𝑖, … , 𝑊𝑔,𝑑−𝑖[+1]},

𝑖 = 7,14,21,28,35

Źródło: Opracowanie własne.

Tabela 5. Wektor cech opisujący godzinowe wzorce zachowań użytkowników.

Zmienna nr Opis Formuła

147–166 Liczba włączeń każdego urządzenia w wybranym okre- sie poprzedniego dnia

∑ {Urządzenie𝑂𝑁 𝑔−𝑖, … , Urządzenie𝑔−𝑖[+1]}, 𝑖 = 1,3,6,12, 24

167–176 Liczba włączeń każdego urządzenia w wybranym okre- sie poprzedniego tygodnia

∑ {Urządzenie𝑂𝑁 𝑑−𝑖, … , Urządzenie𝑑−𝑖[+1]}, 𝑖 = 1,3,7

177–196 Liczba włączeń każdego urządzenia w wybranym okre- sie poprzedniego miesiąca

∑ {Urządzenie𝑂𝑁 𝑑−𝑖, … , Urządzenie𝑑−𝑖[+1]}, 𝑖 = 7,14,21,28, 35

197–221 Liczba godzin pomiędzy kolejnymi pięcioma ostatnimi włączeniami każdego urządzenia

∑ (Urządzenie𝐺 𝑂𝑁, Urządzenie𝑂𝑁[+1]), 𝑂𝑁 = 0, … , 5

Źródło: Opracowanie własne.

2.3. Opracowanie podejścia do procesu prognozowania

2.3.1. Opracowanie podejścia prognostycznego opartego na modelach prognostycznych wykorzystujących algorytmy uczenia maszynowego

Punktem wyjścia w całym procesie uczenia nadzorowanego, był podział całego szeregu czasowe- go na trzy części, które odpowiadały odpowiednio próbie uczącej, walidacyjnej oraz testowej. Trzy

(13)

2 Prognozowanie zapotrzebowania na energię elektryczną dla pojedynczego odbiorcy wymienione podzbiory występowały bezpośrednio po sobie w szeregu czasowym, co pozwoliło utwo- rzyć próby dla wykorzystywanych godzinowych zbiorów danych o następujących proporcjach:

 SMEPI – próba ucząca 28 dni (672 obserwacje, okres od 18.09.2012 do 15.10.2012), próba walidacyjna 5 dni (120 obserwacji, okres od 16.10.2012 do 20.10.2012), próba testowa 2 dni (48 obserwacji, okres od 21.10.2012 do 22.10.2012),

 AMPDs – próba ucząca 330 dni (7920 obserwacji, okres od 6.05.2012 do 31.03.2013), próba walidacyjna 28 dni (672 obserwacje, okres od 1.04.2013 do 28.04.2013), próba testowa 14 dni (336 obserwacji, okres od 29.04.2013 do 12.05.2013),

 WikiEnergy – próba ucząca 330 dni (7920 obserwacji, okres od 5.04.2014 do 28.02.2015), próba walidacyjna 28 dni (672 obserwacje, okres od 1.03.2015 do 28.03.2015), próba testowa 14 dni (336 obserwacji, okres od 29.03.2015 do 11.04.2015).

Głównymi kryteriami branymi pod uwagę w procesie uczenia modeli prognostycznych, jest uzy- skanie przede wszystkim dobrej generalizacji wiedzy, przy możliwie jak najmniejszym błędzie. Naj- częściej wykorzystywaną miarą jakości prognozy w zagadnieniach elektroenergetycznych jest błąd MAPE. Z tego też względu, w procesie poszukiwania najlepszych parametrów dla wszystkich modeli zbudowanych za pomocą algorytmów uczenia maszynowego, minimalizowana była funkcja postaci:

𝑓(𝑀𝐴𝑃𝐸𝑈, 𝑀𝐴𝑃𝐸𝑊) =1

2|𝑀𝐴𝑃𝐸𝑈− 𝑀𝐴𝑃𝐸𝑊| +1

2𝑀𝐴𝑃𝐸𝑊, 2.1

gdzie 𝑀𝐴𝑃𝐸𝑈 oraz 𝑀𝐴𝑃𝐸𝑊, są odpowiednio błędami dla zbioru uczącego oraz walidacyjnego. Tak zdefiniowana funkcja celu zapewnia stabilność modelu w czasie oraz posiadanie jak najmniejszego błędu na obserwacjach jawnie nie biorących udziału w procesie uczenia tj. w przyszłości dobre prze- widywanie dla nowych danych.

2.3.2. Wykorzystywane metody porównawcze

Prognoza naiwna

Pierwszą z wykorzystywanych metod porównawczych była prognoza naiwna. Za wartość progno- zowaną uznawano dla danych godzinowych oraz horyzontu prognostycznego wynoszącego 24 godzi- ny, wartość z dnia poprzedniego tej samej godziny.

Prognoza losowa

Drugą z wykorzystywanych metod porównawczych była prognoza losowa. W pierwszym kroku zaobserwowane wartości zapotrzebowania na energię, pogrupowane zostały względem godzin w skali dnia (prognoza godzinowa). Dla każdej grupy zapotrzebowań, wyznaczone zostały dystrybuanty em- piryczne. W kolejnym kroku za pomocą funkcji runif losowana była wartość z rozkładu równomierne- go z przedziału od 0 do 1 (losowana była wartość 𝑝 – prawdopodobieństwo). Wartość ta służyła na- stępnie do oszacowania kwantyla dystrybuanty empirycznej (ostateczna wartość prognozy), poprzez ważone uśrednianie kolejnych statystyk porządkowych 𝑧𝑔 (funkcja quantile).

Model szeregu czasowego

Trzecią z wykorzystywanych metod porównawczych była prognoza wykorzystująca model ARI- MA(p,d,q)(P,D,Q) (dane godzinowe). Modele estymowane były za pomocą funkcji auto.arima zaim- plementowanej w bibliotece forecast. Funkcja ta, dokonuje automatycznej identyfikacji i estymacji postaci modelu, minimalizując kryterium informacyjne Akaikego postaci:

𝐴𝐼𝐶 = −2 𝑙𝑜𝑔(𝐿) + 2(𝑝 + 𝑞 + 𝑃 + 𝑄 + 𝑘), 2.2

gdzie 𝐿 jest maksymalizowaną funkcją wiarygodności oraz 𝑘 = 1, jeżeli wyraz wolny modelu nie równa się zero (w przeciwnym wypadku 𝑘 = 0).

(14)

2 Prognozowanie zapotrzebowania na energię elektryczną dla pojedynczego odbiorcy

W przypadku danych godzinowych maksymalne wartości opóźnień wynosiły: 𝑝 = 12, 𝑞 = 12, 𝑃 = 2, 𝑄 = 2, natomiast do estymacji modeli dla danych dobowych maksymalne wartości opóźnień ustawione zostały na: 𝑝 = 14, 𝑞 = 14. Rząd integracji każdego szacowanego modelu testowany był za pomocą testu KPSS (Kwiatkowski – Phillips – Schmidt – Shin) sprawdzającego hipotezę zerową o stacjonarności szeregu czasowego. Za ostateczną wartość prognozy uznawano dla danych godzino- wych oraz horyzontu prognostycznego wynoszącego 24 godziny, 24-tą wartość prognozy.

Regresja krokowa

Ostatnią z wykorzystywanych metod porównawczych jest liniowa regresja krokowa, wykorzystu- jąca funkcję lm w dwóch wersjach. Pierwsza wersja zakłada kolejne (krokowe) dołączanie do listy zmiennych objaśniających uwzględnionych w modelu, tych zmiennych, które mają najistotniejszy wpływ na zmienną zależną. Do zbadania tego wpływu, wykorzystana została funkcja add1. Wprowa- dzanie zmiennych do modelu określane było za pomocą wartości krytycznych dla statystyki F, badają- cej statystyczną istotność zestawu parametrów strukturalnych danego modelu liniowego. Drugą meto- dą krokowego budowania modeli była procedura eliminacji wstecznej. Zakłada ona kolejne (krokowe) usuwanie z modelu zbudowanego ze wszystkich potencjalnych zmiennych tych spośród nich, które w danym kroku mają najmniej istotny wpływ na zmienną zależną (funkcja drop1). Usuwanie zmien- nych z modelu odbywało się za pomocą wartości krytycznych dla statystyki F.

2.4. Wyniki eksperymentów numerycznych

Mając na uwadze czytelność prezentowanych wyników, ustalone zostały następujące oznaczenia:

Z-24, Z-1 lub D-1 (prognoza naiwna), Fg (prognoza losowa), L_f (krokowa postępująca regresja linio- wa), L_b (krokowa wsteczna regresja liniowa), ARIMA (model szeregu czasowego), KNN (regresja k-najbliższych sąsiadów), RPART (drzewa regresyjne), RF (regresyjne lasy losowe), NNET (sztuczne sieci neuronowe), SVR (regresja wektorów nośnych). W celu szybkiego zidentyfikowania sytuacji, w których dodanie zmiennych objaśniających, opisujących wzorce zachowań użytkowników poprawia ostateczny wynik prognozy, wprowadzony został zakres wrażliwości o długości 1 punktu procentowe- go (dla zmiennych podawanych w procentach), oznaczony odpowiednim zakresem kolorów:

 brak jakiegokolwiek koloru, związany jest z sytuacją neutralną tj. np. dla MAPE pierwotnie wynoszącego 20%, zakres neutralności wynosi 19,5%–20,5%,

 kolorem zielonym oznaczona została sytuacja, w której dodanie zmiennych objaśniających wzorce zachowań użytkowników, poprawia wynik prognozy tj. np. dla MAPE pierwotnie równego 20% ostateczny błąd prognozy powinien być mniejszy niż 19,5%,

 w przypadku koloru czerwonego zastosowanie dodatkowego zestawu zmiennych wpływa ne- gatywnie na ostateczne wyniki.

W podrozdziale zidentyfikowano efektywne metody prognostyczne oraz przeanalizowano jakość wypracowanych metod prognostycznych (podejścia do procesu prognozowania), biorąc pod uwagę rozszerzony zbiór zmiennych opisujących wzorce zachowań użytkowników.

2.4.1. Polski zbiór danych (SMEPI)

Wyniki prognoz dla modeli z horyzontem prognostycznym wynoszącym 24 godziny, zaprezento- wane są w Tabeli 6. Dla zbioru testowego średni absolutny błąd procentowy oraz odporny średni abso- lutny błąd procentowy dla RPART wynoszą odpowiednio 77,49% i 68,90%, dla NNET po 58,31%, dla SVR 72,43% i 72,83%, dla RF 42,77% i 40,35% oraz dla KNN 67,04% i 54,63%. W niektórych przypadkach, zaobserwować można mniejsze wartości odpornych błędów procentowych, mogących świadczyć o występowaniu prognoz w dużym stopniu niedokładnych, które zaburzać mogą oczekiwa- ną wartość zwykłego błędu procentowego. Miara Accuracy, która mierzy ile poprawnych wskazań

(15)

2 Prognozowanie zapotrzebowania na energię elektryczną dla pojedynczego odbiorcy dokonał model wynosi: dla regresji k-najbliższych sąsiadów 45,65%, dla drzewa regresyjnego 77,49%, dla regresyjnych lasów losowych 42,77%, dla sieci neuronowych 47,92% oraz dla regresji wektorów wspierających 33,33%. Błąd średni kwadratowy, informujący jak bardzo wartość prognozy różni się od wartości rzeczywistej wynosi odpowiednio: dla RPART 0,23, dla NNET 0,19, dla SVR 0,22, dla RF 0,17 oraz 0,13 dla KNN. Rozpatrując każdy z wydzielonych podzbiorów (uczący, wali- dacyjny, testowy) oraz posługując się błędem MAPE, stwierdzić można, że opracowane modele ucze- nia maszynowego wykazują się dobrą stabilnością.

Tabela 6. Wyniki prognoz dla modeli bez zmiennych opisujących wzorce zachowań (wyprzedzenie dobowe dla danych godzinowych SMEPI).

Model

MAPE (%)

r_MAPE (%)

Acc

(%) MSE MAPE (%)

r_MAPE (%)

Acc

(%) MSE MAPE (%)

r_MAPE (%)

Acc (%) MSE

Próba ucząca Próba walidacyjna Próba testowa

Z-24 117,33 61,62 55,51 0,24 85,55 57,20 57,85 0,16 77,87 45,59 47,92 0,20 Fg 152,30 74,05 53,13 0,25 70,62 54,12 57,02 0,12 132,87 66,68 45,83 0,29 ARIMA 79,97 71,86 64,58 0,10 75,78 69,50 47,11 0,09 56,05 56,02 50,00 0,13 L_f 99,39 89,47 48,07 0,10 90,28 87,05 27,27 0,11 136,17 130,18 8,33 0,37 L_b 103,64 93,98 47,47 0,11 78,31 73,73 42,15 0,10 59,29 59,38 47,92 0,15 KNN 73,33 57,63 61,76 0,09 75,12 71,00 40,50 0,07 67,04 54,63 45,65 0,13 RPART 59,22 42,98 67,41 0,07 57,51 51,05 61,98 0,11 77,49 68,90 47,92 0,23 RF 1,10 0,97 100,00 0,00 33,83 33,22 72,73 0,07 42,77 40,35 58,33 0,17 NNET 52,84 44,00 73,51 0,03 45,00 43,13 67,77 0,08 58,31 58,31 50,00 0,19 SVR 47,21 45,38 72,17 0,14 44,06 44,06 64,46 0,10 72,43 72,83 33,33 0,22

Źródło: Opracowanie własne.

Wykorzystanie do prognozy informacji behawioralnych, przyczyniło się do poprawy wyników w dwóch przypadkach (kolumna MAPE oraz r-MAPE w Tabeli 7). W przypadku zbioru testowego, dla KNN miara MAPE zmalała o 4,18 punktu procentowego, r-MAPE zmalało o 2,1 p.p., MSE nie- znacznie wzrosło o 0,01, natomiast miara Acc pozostała na tym samym poziomie. Dla SVR miara Acc wzrosła o 29,17 p.p., MSE zmalało o 0,05, MAPE zmalało o 21,26 p.p. oraz r-MAPE spadło o 22,03 p.p. W przypadku pozostałych modeli, informacje behawioralne wpłynęły negatywnie na ostateczne wyniki prognoz. Wynikać to może z małej ilości danych uczących oraz z małej ilości godzin w zbio- rze testowym, na których wyliczane są odpowiednie błędy.

Tabela 7. Wyniki prognoz dla modeli ze zmiennymi opisującymi wzorce zachowań (wyprzedzenie do- bowe dla danych godzinowych SMEPI).

Model

MAPE (%)

r_MAPE (%)

Acc

(%) MSE MAPE (%)

r_MAPE (%)

Acc

(%) MSE MAPE (%)

r_MAPE (%)

Acc (%) MSE

Próba ucząca Próba walidacyjna Próba testowa

L_f 94,31 83,28 51,93 0,09 177,63 173,57 25,62 0,35 277,78 259,64 2,08 0,88 L_b 97,73 84,96 49,26 0,10 69,95 67,84 54,55 0,11 76,97 59,24 39,58 0,10 KNN 46,73 32,72 71,13 0,06 52,07 48,99 57,85 0,10 62,86 52,53 45,65 0,14 RPART 59,20 47,98 69,35 0,06 60,11 51,83 57,02 0,09 94,62 71,99 45,83 0,14 RF 0,84 0,72 100,00 0,00 33,10 32,58 68,60 0,07 44,54 42,25 56,25 0,19 NNET 45,47 39,20 79,02 0,02 43,97 43,79 68,60 0,08 77,09 75,05 26,09 0,15 SVR 66,01 61,69 70,68 0,12 69,26 63,83 48,76 0,07 51,17 50,80 62,50 0,15

Źródło: Opracowanie własne.

2.4.2. Kanadyjski zbiór danych (AMPDs)

Wyniki prognoz dla metod z horyzontem prognostycznym wynoszącym 24 godziny dla danych godzinowych, zaprezentowane są w Tabeli 8. W przeciwieństwie do wyników prognoz związanych ze

Cytaty

Powiązane dokumenty

rzystając odpowiedzialnie z mass mediów, głosiciele Ewangelii przekonują się, w jaki sposób współczesna kultura analizuje i poddaje dyskusji najistotniej­ sze

elektrycznej umożliwia odbiorcy zakup energii od dowolnie wybranego sprzedawcy, a świadczenie usługi dystrybucji pozostaje w gestii obecnego.. operatora

Celem pracy była analiza wpływu różnych metod wstępnego przetwarzania danych wejściowych na jakość prognoz godzinowego zapotrzebowania na energię elektryczną opracowanych

W aktualnych warunkach bardzo ważne jest rozpoznanie możliwości sterowania popytem przy wykorzystaniu programów taryfowych w powiązaniu z oceną skuteczności ich oddzia- ływania,

Wielu warszawskich przedsiębiorców i przedstawicieli elity burżuazyjnej próbowało podnieść swą rangę w opinii społecznej, ubiegając się o form alną nobilitację. Starali się

Ze względu na warunki klimatyczne Polski uważa się, że przy wykorzystaniu energii ze źródeł odnawialnych czyli OZE (Odnawialne Źródła Energii), jest

Program priorytetowy Prosument (Program priorytetowy 2016) utworzony na podstawie Ustawy o odnawialnych źródłach energii (Ustawa OZE 2015) w pewien sposób zawęża obszar

• mając na uwadze szczególnie wysokie opłaty dla odbiorców przyłączonych do sieci nN oraz coraz niższe ceny liczników elektrycznych, które dokonują pomiaru energii