• Nie Znaleziono Wyników

Metody oceny modelu

W dokumencie Atlas temperatury powietrza w Polsce: (Stron 61-66)

4. Metody opracowania

4.2. Metody oceny modelu

Zgodnie z założeniami opracowania ocena wyników modelowania powinna mieć charakter wieloaspektowy. We wstępie podkreślano, iż oce-niany może być zarówno sam model matematyczny, jak i mapa powstała przez wizualizację jego wyników dla całego obszaru badań, w zadanej roz-dzielczości przestrzennej. Ocena taka może być oparta na danych pomiaro-wych ze stacji meteorologicznych, niezależnie od tego czy zostały one wyko-rzystane w specyfikacji i kalibracji modelu czy nie, lub też może uwzględ-niać wyniki modelowania dla lokalizacji, w których pomiary nie były prowa-dzone. W pierwszym przypadku może zostać wykorzystany odpowiedni apa-rat statystyczny i wtedy ocena będzie miała charakter ilościowy, obiektywny.

W drugim przypadku, z powodu braku wielkości odniesienia uzyskanych obserwacyjnie, ocena musi nosić charakter opisowy, w dużej mierze subiek-tywny, bazujący na wiedzy eksperckiej. Można w tym celu używać także metod ilościowych, które powiązane są z konkretnymi technikami, ale nie mają charakteru uniwersalnego i nie mogą być aplikowane dla większości algorytmów zastosowanych w opracowaniu. Przykładem takiej metody oceny jest wariancja krigingowa, używana dla metod geostatystycznych (Namy-słowska-Wilczyńska, 2006; Zawadzki, 2011).

Ocena wizualna powinna być traktowana jako dopełnienie ilościo-wych metod kontroli i służyć identyfikacji takich cech modelu, które mogą nie zostać ujawnione przez metody bazujące na rzeczywistych wielkościach zmiennej interpolowanej. W szczególności pozwala ona na detekcję takich mało realistycznych efektów, jak: zerwania ciągłości przestrzennej, nadspo-dziewanie duże bądź małe wartości modelowane zmiennej, zwłaszcza w ob-szarach ekstrapolacji, silne tendencje kierunkowe lub regionalne oraz różno-rodne artefakty, obrazujące częściej właściwości algorytmu interpolacyjnego,

a nie interpolowanej zmiennej. Należy jednak zaznaczyć, że taka metoda oceny, zwłaszcza stosowana samodzielnie, nie daje wymiernych podstaw do przyjęcia lub odrzucenia uzyskanego rezultatu, a decyzja co można uznać za ewidentny błąd jest subiektywna. Możliwe są przypadki, w których mate-matycznie optymalny model daje wyniki, które mogą zostać uznane za nie-wiarygodne, przynajmniej dla części obszaru analizy. Zgodnie z podstawo-wym celem opracowania, dołożono starań, aby otrzymane rozkłady prze-strzenne temperatury powietrza były uzupełnione o informację ilościową umożliwiającą interpretację możliwych błędów i stopnia niepewności pre-dykcji oraz opatrzone ogólnym komentarzem, odnoszącym się do zauważal-nych na mapach, a nieuwzględniozauważal-nych ze względu na swoją specyfikę w miarach ilościowych, efekty, które mogą być uznane za błędne.

Mapa tworzona w procesie interpolacji jest reprezentacją rzeczywi-stości obarczoną określonym stopniem niepewności, wynikającym m.in.

z uproszczeń wprowadzonych do modelu koncepcyjnego, błędów pomiaro-wych i, co najważniejsze w tym przypadku, błędów analitycznych, wynikają-cych z założeń zastosowanej metody modelowania. Obiektywne, ilościowe metody oceny wyników estymacji można podzielić na dwie grupy. Do pierw-szej należy zaliczyć metody właściwe dla konkretnych technik, jak wspo-mniana wariancja krigingowa, które nie mają jednak charakteru uniwersalne-go, więc istotniejsze są metody oceny znajdujące zastosowanie dla dowol-nych technik modelowania. Możemy tu zaklasyfikować tzw. prostą walida-cję, przeprowadzaną na podstawie podzbioru kontrolnego (testowego), który, wydzielony ze zbioru danych obserwacyjnych, nie jest uwzględniany w pro-cesie estymacji, a służy jedynie do oceny statystycznej rezultatów. Metoda ta w terminologii anglojęzycznej bywa nazywana jackknifing, jednak pod tą nazwą spotyka się czasami także procedurę wydzielania do walidacji k-elementowych podzbiorów kontrolnych w omówionej poniżej metodzie

oceny krzyżowej (CV – cross-validation, walidacja krzyżowa, kroswalida-cja). Wydaje się, że prosta walidacja nie powinna jednak być zaliczana do CV, gdyż elementy podzbioru kontrolnego nigdy nie są uwzględniane w estymacji, jak to się dzieje w przypadku oceny krzyżowej. Cechą walida-cji prostej jest zmniejszenie liczebności populawalida-cji danych w estymawalida-cji, co może być bardzo niekorzystne przy niewielkich liczebnościach zbioru wejściowego, jednak gdy zbiór wejściowy jest liczny, metoda ta jest uważana za bardzo użyteczną (Stach, Tamulewicz, 2003). We właściwej ocenie krzy-żowej oryginalna próba jest dzielona na k podzbiorów, kolejno branych jako zbiory testowe, podczas gdy pozostałe dane wykorzystywane są do estyma-cji. Procedura ta jest powtarzana k-krotnie, a k wyników jest następnie agre-gowane przez uśrednianie lub zastosowanie innych miar zbiorczych. Dla ma-łych zbiorów danych, szczególnie użyteczna jest metoda typu leave-one-out, która polega na sekwencyjnej eliminacji każdego punktu i dokonaniu esty-macji w położeniu odpowiadającemu usuniętemu punktowi danych. Jej nie-wątpliwą zaletą jest możliwość analizy rozkładu błędów estymacji w prze-strzeni, i jako taka stanowi istotną informację uzupełniającą w analizie oceny niepewności wyników predykcji przestrzennej.

Ze względu na stosunkowo nieliczny, 250-elementowy zbiór wej-ściowy (ponieważ dane pomiarowe były dostępne z 250 stacji), w opracowa-niu wykorzystano walidację krzyżową typu leave-one-out. Jej rezultatem jest także 250-elementowy zbiór błędów CV, które wykorzystano w ocenie jako-ści modelu na dwa sposoby. Obliczono wielkojako-ści diagnostycznych miar zbiorczych oraz wykonano analizę przestrzennego rozkładu błędów CV, zwłaszcza pod kątem systematycznych tendencji lokalnych i regionalnych.

W końcowej analizie zbiór błędów CV ograniczono jedynie do obszaru inter-polacji docelowej, a więc uwzględniono jedynie błędy obliczone dla stacji polskich.

W literaturze opisano wiele syntetycznych wskaźników jakości dopa-sowania, zarówno o charakterze bezwzględnym, np. błąd średni – ME, średni błąd bezwzględny – MAE, pierwiastek błędu średniokwadratowego – RMSE, jak i względnym, np. błąd średni znormalizowany, średni znormalizowany błąd bezwzględny, średni błąd systematyczny (Willmott, Matsuura, 2006).

W tym opracowaniu miary podsumowujące miały służyć głównie ocenie stopnia niepewności wyników modelowania, a jedynie pomocniczo wykorzy-stano je do porównania wyników modelowania i jako kryterium wyboru mo-delu optymalnego. W związku z tym zdecydowano się na wykorzystanie trzech często stosowanych i wskazujących na nieco odmienne aspekty anali-zowanego zbioru statystyk: ME, MAE i RMSE. Należy podkreślić, iż miary zbiorcze zostały tu zastosowane do błędów oceny krzyżowej, a nie bezpo-średnio do różnicy wielkości modelowanych i obserwowanych (reszt mode-lu). Takie rozwiązanie zostało wprowadzone, aby uniknąć nieścisłości zwią-zanych z „idealnym” dopasowaniem interpolatorów wiernych, gdzie w punk-cie obserwacji wielkość estymowana jest równa obserwowanej. Z taką sytua-cją możemy mieć do czynienia na przykład w przypadku krigingu resztowe-go, jeśli efekt samorodków jest równy zero. Relację pomiędzy wielkościami wymienionych błędów można zdefiniować jako: ME ≤ MAE ≤ RMSE, przy czym dwie ostatnie miary przyjmują tylko wielkości nieujemne, z wartością oczekiwaną równą zero. Zastosowanie drugiej potęgi błędów CV we wskaź-niku RMSE powoduje, że miara ta może być mocno obciążona nawet przez nieznaczną liczbę dużych błędów, pomimo że pozostałe błędy mogą być ma-łe i akceptowalne. W opinii części badaczy za najbardziej naturalną miarę zbiorczą uważana jest MAE (Willmott, Matsuura, 1995).

Opisane powyżej statystyki globalne, niezależnie czy obliczane na podstawie reszt modelu czy błędów walidacji krzyżowej, choć niezbędne i użyteczne, pozwalają jedynie na ogólną ocenę jakości modelu i, pośrednio,

stopnia jego dopasowania do obserwacji, a w konsekwencji – niepewności oszacowania. Można jednak założyć, iż model nigdy nie jest tak samo efek-tywny w całej analizowanej domenie przestrzennej, a zastosowane miary globalne nie pozwalają na identyfikację regionów, w których stopień nie-pewności jest większy niż w pozostałych częściach obszaru badań. Częścio-wo problem ten rozwiązano przez umieszczenie wielkości błędów CV na mapach, co jednak pozwala jedynie na wizualną ocenę rozkładu prze-strzennego błędów, nie dając podstaw do oceny statystycznej obserwowanej tendencji. Z analitycznego punktu widzenia kluczowa jest odpowiedź na py-tanie: czy i gdzie występują stacje z wielkościami błędów istotnie różnymi lub istotnie podobnymi do stacji sąsiednich. W pierwszym przypadku mamy do czynienia z tzw. elementami odstającymi (outliers), które przy założeniu braku błędów pomiarowych, informują o wystąpieniu lokalnego czynnika, zbyt słabo reprezentowanego lub pominiętego w modelu. W drugim przy-padku następuje identyfikacja klastrów podobnych wielkości błędów, dająca podstawę do określenia regionalnych tendencji do przeszacowania lub niedo-szacowania estymowanej zmiennej. Rozpoznanie tych właściwości przepro-wadzono za pomocą analizy lokalnej autokorelacji przestrzennej, której mia-rą jest lokalna statystyka Morana (m.in Anselin 1995, Mitchell, 2005, Kop-czewska, 2007, Suchecki, 2010). Jej wielkości, wraz z unormowaną statysty-ką oraz granicznym poziomem istotności (p-value), obliczono dla każde-go punktu danych. Dodatkowo, dla punktów z istotną statystycznie autokore-lacją został określony i umieszczony na mapach typ relacji przestrzennej we-dług moranowskiego wykresu rozproszenia (Moran scatterplot): HL (High – Low; wysokie wartości w punkcie – niskie w punktach sąsiadujących) i LH (Low – High; niskie – wysokie) dla autokorelacji ujemnej oraz HH (High – High; wysokie – wysokie) i LL (Low – Low; niskie – niskie) dla autokorelacji

dodatniej. Relacja typu HL lub LH wskazuje na element odstający, natomiast HH lub LL na skupienia wielkości podobnych.

W dokumencie Atlas temperatury powietrza w Polsce: (Stron 61-66)

Powiązane dokumenty