• Nie Znaleziono Wyników

Wprowadzenie

Statystyka matematyczna jest bardzo istotna w badaniach naukowych, gdyż dostarcza narzędzi, które pozwalają zweryfikować rozpoznane powiązania, korelacje, ale również pomagają wykryć nierozpoznane dotąd współzależności. Ich opis statystyczny pozwala na ich zrozumienie, modyfikację oraz predykcję przyszłych wyników.

Zależności opisywane są funkcjami regresji, które określają sposób przyporządkowania wartości zmiennej zależnej (objaśnianej), określonym wartościom zmiennej niezależnej (objaśniającej) (Stanisz, 2007). Proces wyznaczania modelu regresji można podzielić na 4, główne etapy:

specyfikacja modelu - odpowiednie sformułowanie problemu, opierając się o znane przesłanki teoretyczne;

estymacja parametrów modelu - czyli prawidłowe zastosowanie odpowiednich metod statystycznych, w celu jak najlepszego dopasowania modelu do pomiaru;

11.Statystyka w obliczeniach inżynierskich

154 weryfikacja - sprawdzenie, czy wykazana zależność jest zgodna z teorią na dany temat. Dodatkowo określa się istotność otrzymanych parametrów;

użycie modelu do predykcji - jeżeli otrzymany model uzna się za poprawny, można prognozować na jego podstawie nieznane wartości wyznaczanych przez dany model parametrów.

W celu wykazania wpływu wielu czynników na analizowaną zmienną zależną wykorzystano analizę regresji wielorakiej (wzór 58). Ma ono ogólną postać:

• ž- ž Q ž+Q+ . . . ž Q Ÿ (58) gdzie:

b0 - wyraz wolny równania;

bi - parametry modelu (współczynniki regresji, estymatory najmniejszych kwadratów współczynników xi);

ε - składnik losowy.

W hydrologii najczęściej stosowana jest regresja wieloraka, gdyż zjawiska hydrologiczne zależą od dużej liczby różnych czynników i zjawisk. Najtrudniejszym etapem tworzenia modelu jest wybór zmiennych opisujących. Na początku niezbędne jest określenie tzw. zespołu zmiennych potencjalnych, z którego następnie eliminuje się zmienne silnie ze sobą skorelowane. Tworzymy w ten sposób tzw. zespół zmiennych potencjalnych słabo skorelowanych, z którego wybierany jest tzw. zespół optymalny użyty do równania regresji.

Matematyczną postać danej funkcji regresji wyznaczono za pomocą pakietu Statistica v.10. Współczynniki regresji wyznaczono metodą najmniejszych kwadratów, przy spełnieniu kilku założeń (Wątroba i Harańczyk, 2007; Kujawska, 2008):

model jest liniowy względem parametrów;

warunek identyfikacji - zmienne niezależne są nielosowe, a ich wartości w próbie są ustalonymi liczbami;

liczba obserwacji „n” musi być większa od liczby oszacowanych parametrów

„k” - n > k+1;

żadna ze zmiennych niezależnych nie jest kombinacją innych zmiennych niezależnych;

składnik losowy εi ma wartość oczekiwaną równą 0 (E(εi) = 0), dla wszystkich i = 1,2,…n);

homoscedastyczność modelu - wariancja δ składnika losowego jest taka sama dla wszystkich obserwacji;

11.Statystyka w obliczeniach inżynierskich

155 składniki losowe „k” są nieskorelowane ze sobą;

każdy ze składników losowych ma rozkład normalny.

W celu określenia precyzji uzyskanych wyników - tj. otrzymanych estymatorów wykorzystano rachunek błędu w programie Statistica v.10, który m.in. wyznacza (Kujawska, 2008):

błąd standardowy estymacji Se; współczynnik determinacji R2; średni błąd względny równania δ;

odchylenie standardowe równania σ;

wartość statystyki f - iloraz parametru b i jego błędu średniego;

poziom ufności p otrzymanych wartości współczynników regresji.

Podczas dodawania kolejnych parametrów do modelu współczynnik determinacji systematycznie wzrastał, jednak dodawane zmienne niezależne, często okazywały się statystycznie nieistotne.

Założony przedział ufności wynosił 0.95, co tłumaczy że wyznaczona wartość należy do przedziału ufności z prawdopodobieństwem 95% .

Poziom istotności natomiast był przyjmowany arbitralnie. Często proponuje się by do testowania danych ciągów pomiarowych przyjmować go na poziomie: α = 0.05 (Wątroba, 2013). Zaobserwowane w badaniach trendy na tym poziomie okazały się być istotne statystycznie.

Do wyodrębnienia ilości czynników, które mają wpływ na analizowaną wielkość, stosuje się metody analizy czynnikowej oraz regresji wielokrotnej (wielorakiej). Metody te odznaczają się dużą wiarygodnością opisywanych cech danej zbiorowości. Ponadto są one powszechnie stosowane przy interpretacji statystycznej wyników pomiarów (Watała, 2005; Wątroba, 2005; Harańczyk i Gurycz, 2006; Stanisz, 2007; Stanisz, 2007; StatSoft, 2011; Samek, i in., 2013; Watała, 2014).

Program Statistica v.10 umożliwia określenie funkcji, która najlepiej estymuje zależność zmiennej objaśnianej od zmiennych objaśniających. Modułem, który umożliwia tą operację jest funkcja regresji liniowej oraz nieliniowej. Analiza regresji wielorakiej umożliwia przeprowadzenie tzw. analizy reszt, wraz z określeniem wpływu na kształt modelu obserwacji od niego odstających. Wartości prawdopodobieństwa testowego p pozwala stwierdzić, że dana zmienna jest statystycznie istotnie powiązana ze zmienną opisująca.

11.Statystyka w obliczeniach inżynierskich

156 W pracy zastosowano tzw. regresję krokową. Narzędzie to pozwala na usunięcie z modelu regresji nieistotnych zmiennych niezależnych. Są dwie możliwości jej przeprowadzania - jako postępującą (wtedy przyjmuje się kolejne dołączanie do listy zmiennych, tych które mają istotny wpływ na zmienną opisywaną) lub wsteczną, która polega na usuwaniu ze zbioru zmiennych, które mają mały wpływ na zmienną opisywaną.

Po analizie wielorakiej regresji liniowej, w niektórych przypadkach zaobserwowano brak zakładanej liniowości między zmiennymi. W takim przypadku skorzystano z analizy regresji nieliniowej, będącej standardowym modułem programu Statistica v.10. Jednakże w wyniku ograniczonej ilości dostępnych modeli nieliniowych podjęto decyzję o wykorzystaniu estymacji najmniejszych kwadratów modelu nieliniowej funkcji regresji określonej prze użytkownika. W badaniach własnych wykorzystano metodę estymacji Levenberga-Marquardta, która wg badaczy jest najefektywniejsza i najszybciej zbieżna (Rabiej, 2012).

Dzięki rozwojowi statystycznych metod obliczeniowych stosowanych w programach komputerowych, obecnie bardzo rzadko przeprowadza się weryfikację hipotez w sposób tradycyjny. Dla przykładu w programie Statistica v.10 ważnym pojęciem jest poziom prawdopodobieństwa „p”, który jeżeli jest większy od poziomu istotności α powoduje odrzucenie hipotezy zerowej, gdy jest odwrotnie to hipoteza ta jest przyjmowana. Porównanie to jest podstawowym narzędziem do weryfikacji analizowanych założeń (Wątroba i Jakubowski, 2003; Węglarczyk, 2010).

W toku analiz otrzymane zależności, trzeba było poddać weryfikacji w programie Statistica v.10 dla metody najmniejszych kwadratów. Przy weryfikacji wymagane jest sprawdzenie kilku warunków:

reszty modelu mają rozkład normalny - potwierdzają to histogram oraz normalny wykres prawdopodobieństwa;

zmienne niezależne są nieskorelowane ze sobą - tego typu weryfikację przeprowadza się za pomocą testu Durbina-Watsona;

wariancja składnika losowego jest taka sama dla wszystkich obserwacji - założenie o homoscedastyczności modelu - wykres rozrzutu kwadratu reszt względem wartości przewidywanych - brak tendencji spadku ani wzrostu reszt;

liniowość modelu względem parametrów - wykres rozrzutu reszt względem wartości przewidywanych.

11.Statystyka w obliczeniach inżynierskich

157 Wszystkie analizowane korelacje spełniły w/w wymagania.

Większość obliczeń oraz analiz statystycznych wykonano w programie Excel z pakietu Microsoft Office. Arkusz kalkulacyjny jest bardzo przydatnym modułem, zarówno w obliczeniach naukowych jak i czysto inżynierskich (Męczyńska, i in., 2011;

Carlberg, 2012; Flanczewski, 2012). Część analiz w niniejszej pracy wykonano z użyciem dodatku Analisys ToolPak, w oparciu o literaturę przedmiotu (Sączewska-Piotrkowska i Pieczyński, 2009; Parlińska i Parliński, 2011). Najbardziej przydatna okazała się funkcji REGLINP, użyta do wyznaczenia parametrów funkcji regresji, przy użyciu metody najmniejszych kwadratów.

Sprawdzenie poprawności modelu dokonano na podstawie porównania uzyskanych wyników z modelowania i pomiarów terenowych. Następnie określono ich stopień zgodności, który był podstawą do stwierdzenie, czy dany model przedstawia zadowalającą zgodność i kwalifikuje model do stosowania. Dla pełnego stwierdzenia, czy zaproponowany model jest prawidłowy przeprowadzono tzw. dwustopniową weryfikację.

Pierwszy etap weryfikacji został przeprowadzony wyłącznie na danych pomiarowych użytych przy identyfikacji modelu. Natomiast drugi etap weryfikacji został sprawdzony na niezależnych danych pomiarowych, czyli takich które nie zostały wykorzystane do jego opracowania.

Istnieje wiele metod oceny miar zgodności modelu z danymi pomiarowymi. Nie ma jednak z góry ustalonych i obowiązujących miar dla poszczególnych klas modeli. Istnieją różne rodzaje możliwych kryteriów i miar jakości modelu np. względny średniokwadratowy błąd resztowy, współczynnik korelacji liniowej, specjalny współczynnik korelacji (Ozga-Zielińska i Brzeziński, 1997). Należy jednak podkreślić, iż w większości miary te różnią się od siebie nieznacznie, więc ich wybór jest niejako sprawą indywidualną obserwatora.

W niniejszej pracy jako miarę dopasowania modelu do wartości zmierzonych przyjęto współczynnik determinacji R2 opisanego w części literaturowej niniejszej rozprawy.