• Nie Znaleziono Wyników

ANALIZA REGRESJI JAKO NARZĘDZIE PROGNOZOWANIA

W dokumencie Index of /rozprawy2/10374 (Stron 34-40)

3. METODYCZNE PODSTAWY BADAŃ

3.1. KRÓTKA CHARAKTERYSTYKA WYKORZYSTYWANYCH KLASYCZNYCH

3.1.1. ANALIZA REGRESJI JAKO NARZĘDZIE PROGNOZOWANIA

Celem zastosowania analizy regresji, jest ocena wpływu chemizmu filtrującej wody na wyniki mierzonej wartości przepuszczalności gruntów słaboprzepuszczalnych (współczynnika filtracji) uzyskanych przyrządem Kaczyńskiego. Analiza regresji jako metoda określania postaci zależności między badanymi cechami znalazła szerokie zastosowanie m.in. w opracowywaniu wyników badań dotyczących nauk przyrodniczych, również z zakresu geologii i geofizyki (Draper 1973; Twardowski i in. 1987).

Słowo regresja zostało po raz pierwszy użyte w 1885 r. przez F. Galtona dla oznaczenia pewnych powiązań, z jakimi można się zetknąć w tzw.; teorii dziedziczenia (Stanisz 2007). Obecnie słowo to jednak posiada inne znaczenie w statystyce.

Definiując termin „regresja” należy powiedzieć, że jest to badanie wpływu jednej lub kilku zmiennych tzw. objaśniających na zmienną, której rozkład najbardziej nas interesuje, a więc na zmienną objaśnianą. Jeśli mówimy o występowaniu zależności pomiędzy wieloma zmiennymi, regresję tego rodzaju nazywamy; wieloraką lub wielowymiarową. Istota regresji jest w obu przypadkach taka sama (Aczel 2000; Brandt 1999; Draper 1973; Volk 1973).

Analiza regresji polega na estymacji parametrów równania teoretycznego, które w sposób jak najbardziej dokładny odwzorowuje zachodzącą pomiędzy zmienną objaśnianą a objaśniającą zależność empiryczną. Wyznaczeniu równania regresji często towarzyszy graficzne wykreślenie linii wykresu, która w sposób optymalny zbliża się do każdego z punktów reprezentujących daną obserwację określoną w pewnym układzie. Formalnym zapisem tego wpływu są funkcje regresji, które określają sposób przyporządkowania wartości zmiennej zależnej (objaśnianej) określonym wartościom zmiennej niezależnej (objaśniającej).

Analiza regresji wykorzystywana jest w celu (Brandt 1999; Draper 1973; Stanisz 2007; Volk 1973):

 rozpoznania wielkości i rodzaju wpływu jednej zmiennej na drugą,

 przewidywania nieznanych wartości jednej zmiennej na podstawie znanej lub założonej wartości drugiej zmiennej (predykcja zmiennej zależnej),

 objaśniania zmienności jednej zmiennej za pomocą zmienności drugiej zmiennej. Narzędziem badania mechanizmu powiązań między tymi zmiennymi jest funkcja regresji, funkcja ta jest przybliżeniem faktycznej zależności między zmiennymi. Postać funkcji jest ustalona na podstawie zaobserwowanych wartości (xi, yi). Dokładny obraz takiej zależności w populacji daje funkcja regresji I rodzaju, jednakże najczęściej analityczna postać tej funkcji jest nieznana. W praktyce na ogół postępuje się w ten sposób, że na podstawie zaobserwowanych wyników z próby możemy graficznie przedstawić tzw. empiryczną linię regresji. Przy jej pomocy wyznaczamy najbardziej odpowiednią postać analityczną funkcji opisującą powiązanie między zmiennymi, funkcja ta nosi nazwę funkcji regresji II rodzaju. Funkcja ta, jeśli uzyskane przybliżenie jest wystarczająco dokładne, zastępuje nieznaną funkcję I rodzaju. Ogólnie proces wyznaczania modelu funkcji regresji II rodzaju możemy podzielić na 4 etapy (Stanisz 2007):

1. Specyfikacja modelu.

2. Estymacja parametrów modelu. 3. Weryfikacja modelu.

4. Użycie modelu do prognozowania. Klasyczny model regresji

W klasycznym modelu regresji liniowej jednakowym przyrostom zmiennej niezależnej odpowiadają jednakowe co do kierunku i siły zmiany zmiennej zależnej. Regresja I rodzaju opisująca zależność zmiennej Y od X przyjmuje następującą postać (np. Brandt 1999; Stanisz 2007):

Y = E(Y/X = x) = β0 + βix +ε, (3.2) gdzie: E(Y|X = X) = E(Y/X) – oznacza wartość zmiennej Y oczekiwana przy warunku, że

zmienna przyjmuje wartość x, ε – składnik losowy.

Taki zapis równania oznacza, że znajomość jednej zmiennej (X) pozwala nam na uściślenie jakich wartości należy oczekiwać od drugiej zmiennej. Składnik losowy reprezentuje losowe zakłócenia funkcyjnego powiązania między wartościami zmiennej zależnej,

a wartościami zmiennej niezależnej. Składnik pozwala na obliczenie dokładności szacunku parametrów liniowej funkcji regresji. Jednakże należy pamiętać, że w rzeczywistości nie są znane parametry β0 + βi, możemy je jedynie oszacować na podstawie n - elementowej próby (xi, yi) dla i = 1, 2,…, n. Oszacowana funkcja regresji przyjmuje wówczas postać (Stanisz 2007):

(3.3) gdzie: i = 1, 2,…, n – kolejne numery elementów obserwacji, ei – tzw. reszty (zmienna losowa) definiowane jako .

Najbardziej znanym i stosowanym sposobem oszacowania parametrów b0 i b1 jest metoda najmniejszych kwadratów (MNK), metoda polega na takim oszacowaniu parametrów funkcji (3.3), by dla danych z próby spełniony był warunek, gdzie poniższe wyrażenie ma osiągnąć minimum:

(3.4) gdzie yi oznaczają wartości empiryczne zmiennej Y, a wartości teoretyczne wyznaczone na podstawie równania (3.3). Wykorzystując powyższe równanie otrzymujemy wzory na współczynniki regresji b0 i bi:

(3.5) (3.6) Kolejnym krokiem analizy regresji jest wyznaczenie parametrów estymacji, czyli oceny czy estymatory MNK są odpowiednio „dobre”, tzn. mają potrzebne własności takie jak: zgodność, nieobciążoność, efektywność (Draper 1973; Stanisz 2007). Punktem wyjściowym w estymacji jest wylosowanie z populacji n - elementowej próby i poznanie w niej interesującej nas zmiennej, na podstawie uzyskanych wyników wyciągamy wnioski dotyczące badanej zmiennej w całej populacji. Przykładowym estymatorem wartości oczekiwanej jest średnia z próby losowej, a estymatorem wariancji dla całej populacji jest wariancja wyliczona na podstawie z próby. Liczba estymatorów jest bardzo duża, ale użyteczne są jedynie te, które mają określone właściwości. Jedną z nich jest nieobciążoność, estymator nieobciążony to taki, którego przeciętna wartość jest dokładnie równa wartości szacowanego parametru, natomiast obciążoność oznacza, że oszacowania dostarczone przez taki estymator są obarczone systematycznym błędem (Stanisz 2007). Kolejną cechą świadczącą od dobrych własnościach estymatora jest efektywność, estymator jest tym efektywniejszy, im mniejsza jest jego wariancja. Trzecią omawianą cechą jest zgodność, estymator jest zgodny, jeżeli jest stochastycznie zbieżny do szacowanego parametru, w praktyce zgodność odnosi się do prób o dużej liczności, dla polepszenia dokładności wnioskowania statystycznego należy się starać, aby próba wybrana do badania była jak najliczniejsza. Estymatory o wymienionych powyżej własnościach są najbardziej użyteczne i zapewniają otrzymanie wyników z próby najbardziej zbliżonych do rzeczywistości (Stanisz 2007). Aczkolwiek, mimo swej użyteczności, mają pewną wadę, nie zapewniają oszacowania precyzji i wiarygodności uzyskanych wyników, dlatego bardziej popularne są przedziały ufności. Przedział ufności określa prawdopodobny zasięg odchylenia naszych wyliczeń od wartości rzeczywistej. Im krótszy przedział ufności, tym dokładniej obliczony przez nas estymator przybliża wartość rzeczywistą dla całej populacji. Reasumując, estymacja pozwala nam przy ustalonym z góry prawdopodobieństwie (poziomie ufności) utworzyć dla nieznanego parametru populacji oszacowanie zwane przedziałem ufności (Stanisz 2007; Volk 1973).

Kolejnym, niezmiernie ważnym aspektem analizy regresji są założenia jakie muszą spełnić estymatory klasycznej regresji, pokrótce zostaną omówione poniżej (Brandt 1999; Gunst 1980; Stanisz 2007):

Założenie 1. Model jest liniowy względem parametrów, tzn. yi = β01x1 dla

i = 1,2,…,n.

Liniowość pozwala na korzystanie z prostych metod estymacji, w praktyce jednak to założenie jest niemożliwe do sprawdzenia. Jednakże niewielkie naruszenie tego założenia nie powoduje zakłóceń w procedurach analizy regresji. Aby się zdiagnozować nieliniowość, należy przestudiować wykres rozrzutu, natomiast w przypadku oczywistej nieliniowości można dokonać przekształcenia zmiennych.

Założenie 2. Liczba obserwacji n musi być większa lub równa liczbie oszacowanych parametrów (b0, b1), tj. n ≥ 2.

Bez spełnienia tego warunku nie możemy rozwiązywać układu równań gwarantujących istnienie parametrów spełniających warunek (3). W praktyce staramy się, aby liczba n była wielokrotnie większa od liczby oszacowanych parametrów.

Założenie 3. Składnik losowy ei ma wartość oczekiwaną równą 0, (E(ei) = 0 dla wszystkich i = 1,2,…,n.

Założenie to mówi, że czynniki nieuwzględnione w modelu nie oddziałują w istotny sposób na średnią wartość zmiennej niezależnej Y. Naruszenie tego założenia powoduje, że otrzymane oceny b0 i b1 są obarczone błędem systematycznym.

Założenie 4. Wariancja składnika losowego ei (wariancja reszt) jest taka sama dla wszystkich obserwacji (Var(ei) = 2σ dla wszystkich i = 1, 2,…, n).

Założenie to nosi nazwę homoscedastyczności i mówi nam, że czynniki nie ujęte w modelu mają taką samą zmienność (rozrzut) niezależnie od numeru obserwacji. Założenie to jest konieczne, jeśli chcemy, by oceny b0, b1 miały pożądane własności BLUE (ang. Best Liner

Unbiased Estimators), czyli spełniają warunki o najmniejszej wariancji, liniowości oraz

nieobciążoności. W przypadku nie spełnienia tego warunku można stosować transformację modelu lub zastosować ważoną metodę najmniejszych kwadratów.

Założenie 5. Składniki losowe (reszty) są nieskorelowane, czyli ei oraz ej są od siebie

niezależne dla wszystkich par i oraz j, gdzie i, j = 1, 2,…, n oraz i ≠ j.

Jeśli to założenie nie jest spełnione, mamy do czynienia z autokorelacją. Stwierdziwszy autokorelację, stosujemy uogólnioną metodę najmniejszych kwadratów.

Założenie 6. Każdy z czynników (losowych) reszt ma rozkład normalny.

Niespełnienie tego założenia nie powoduje utraty przez estymatory ich własności, a jedynie niemożność weryfikacji hipotez dotyczących wartości wyliczonych ocen parametrów b0 i b1. Podobnie jak w przypadku założenia 1 procedury analizy regresji są odporne na niewielkie odstępstwa od tego założenia.

Model regresji wielorakiej

Ogólnym celem regresji wielorakiej (termin ten został po raz pierwszy użyty przez Pearsona w 1908 roku) jest ilościowe ujęcie związków pomiędzy wieloma zmiennymi niezależnymi (objaśniającymi) a zmienną zależną (objaśnianą). Liniowym modelem regresji wielorakiej będziemy nazywać równość postaci (Draper 1973; Stanisz 2007): (3.7) gdzie: βj – parametry modelu (współczynniki regresji) opisujące wpływ j-tej zmiennej,

ε – składnik losowy.

Współczynniki βj są wielkościami teoretycznymi, wyznaczenie ich wymagałoby zmierzenia nieskończonej liczby obserwacji. W praktyce posługujemy się oszacowaniami

tych współczynników na podstawie n - elementowej próby. Wynika z tego następujące oszacowanie równania regresji wielorakiej:

, (3.8) Aby ułatwić zapis tego równania używamy języka macierzowego, otrzymane w ten sposób równanie wygląda następująco:

(3.9)

Kolejnym, niezmiernie ważnym aspektem analizy regresji wielorakiej, są podobnie jak poprzednio, założenia, jakie muszą spełnić estymatory regresji. Zostaną one pokrótce omówione poniżej (Draper 1973; Stanisz 2007). Spełnienie pierwszych dwóch, podobnie jak w klasycznym modelu liniowym, gwarantuje uzyskanie jednoznacznego rozwiązania układu k+1 równań.

Założenie 3. Żadna ze zmiennych niezależnych nie jest kombinacją liniową innych zmiennych niezależnych.

Jest to założenie o braku współliniowości, które przekłada się na warunek, że żadna ze zmiennych nie dostarcza do modelu informacji, które zawarte są w innych zmiennych. Pozostałe założenia są również sformułowane podobnie jak w klasycznym modelu, dostarczają informacji o homoscedastyczności składnika losowego w modelu lub o jej braku, jednocześnie także dostarczają informacji o poziomie efektywności estymatorów. Model regresji segmentowej

Bardzo często w badaniach dotyczących nauk przyrodniczych zależność między zmiennymi niezależnymi, a zmienną zależną zmienia się wraz z wartościami zmiennej niezależnej. Dotyczy to np. przypadku gdy zmienna gwałtownie rośnie, po przekroczeniu pewnego punktu rośnie o wiele wolniej lub obserwujemy spadek. Takie zachowanie można opisać równaniem regresji segmentowej w następującej postaci (Stanisz 2007):

(3.10) W równaniu powyżej występują dwa oddzielne równania regresji w zależności od wartości zmiennej niezależnej. W wyniku takiego podejścia możemy estymować punkt przełamania i dokładniej oszacować wartość zmiennej zależnej.

Model regresji linearyzowanej i nieliniowej

Poprzednio opisane metody estymacji regresji dotyczyły sytuacji, gdzie założenia o liniowości są spełnione. Jednakże w badaniach naukowych wiele zależności ma charakter nieliniowy, stąd potrzeba rozważenia modelu krzywoliniowego. Najczęściej o tym, że badany związek dwóch zmiennych ma charakter krzywoliniowy, informuje wykres rozrzutu, jego wstępna analiza pomoże dobrać typ funkcji krzywoliniowej.

W regresji nieliniowej modele możemy ogólnie wyrazić zależnością (Stanisz 2007): Y = X · β + ε

y = F(x1, x2,..., xk), (3.11) gdzie F(x1,...) oznacza dowolną funkcję, za pomocą której sami możemy określić typ

zależności. Na przykład możemy przyjąć, że zmienna zależna jest funkcją logarytmiczną lub wykładniczą zmiennych niezależnych. Najczęściej stosowanym przykładem tego typu modeli jest regresja wielomianowa. Wielomiany mogą przedstawiać wiele rodzajów krzywych, co powoduje, że dla każdego zbioru można w zadawalający sposób dopasować wielomian. Po wybraniu właściwego modelu transformacji szacujemy parametry, następnie wykorzystując uzyskane wielkości estymatorów, sprawdzamy dopasowanie modelu do danych empirycznych.

Regresja krokowa

Metoda ta polega na sekwencyjnym (ekonomicznym) doborze zmiennych niezależnych dla celów predykcyjnych. Metoda ta (krok po kroku) tworzy najlepiej dopasowany model regresji. Stąd jej nazwa – regresja krokowa (Stanisz 2007).

W obrębie metody krokowej wyróżniamy dwie kolejne metody: 1. Regresje krokową postępującą.

2. Regresję krokową wsteczną.

Regresja krokowa postępująca polega na kolejnym dołączaniu do listy zmiennych objaśniających uwzględnionych w modelu tych zmiennych, które mają najistotniejszy wpływ na zmienną zależną. Natomiast w metodzie krokowej wstecznej kolejno usuwamy z modelu, zbudowanego ze wszystkich potencjalnych zmiennych, te spośród nich, które w danym kroku mają najmniej istotny wpływ na zmienną zależną (Draper 1973; Stanisz 2007).

Jako, że w pracy została zastosowana metoda regresji krokowej postępującej, zostanie ona szerzej opisana poniżej. Dla regresji postępującej krokowej spełnione muszą zostać następujące założenia (Stanisz 2007):

 w punkcie początkowym nie ma żadnej zmiennej w równaniu regresji,

 dla każdej możliwej zmiennej niezależnej x1, x2,…,xk budowany jest model z jedną zmienną niezależną postaci:

y = b0 +b1xj j = 1,2,…,k, (3.12)  dla każdego z tych modeli sprawdzana jest istotność występującej w nim zmiennej.

Weryfikowana jest hipoteza H0: b1 = 0 przy hipotezie alternatywnej H1: b1≠0. Zmienna kandydująca to ta, dla której wartość statystyki F przekracza wartość progową. Dla każdej z pozostałych k – 1 zmiennych budowany jest model postaci:

y = b0 +b1xj + b2xj j = 2,…,k, (3.13) poczym obliczana jest statystyka F dla weryfikacji kolejnej hipotezy.

W kolejnych krokach procedury budujemy dla wszystkich pozostałych k – 2 zmiennych modele z trzema zmiennymi niezależnymi (y = b0 + b1x1 + b2x2 + b3xj, j = 3,…, k).

Oceniamy istotność nowo uwzględnionych zmiennych, do modelu przyjmujemy tą zmienną, której statystyka F jest większa od progowej. Weryfikujemy następnie istotność już wprowadzonych zmiennych i, jeśli zmienna jest np. nieistotna, usuwamy ją z modelu. W podobny sposób postępujemy z wszystkimi pozostałymi zmiennymi, aż do momentu, gdy uwzględnimy w modelu wszystkie zmienne niezależne, które istotnie wpływają na zmienną zależną.

W wyniku wcześniej przeprowadzonych analiz oraz testowych obliczeń stwierdzono, że tego typu eksperyment wymaga zastosowania regresji liniowej, liniowej

segmentowej i linearyzowanej dla sprawdzenia dopasowania najlepszego modelu, a w dalszym etapie zastosowania regresji wielorakiej krokowej.

Należy pamiętać, że wcześniej poddano dane przekształceniu służącemu normalizacji rozkładu oraz zapewnieniu spełnienia określonych wymagań dotyczących homoscedastyczności oraz wymaganej dokładności szacowanych parametrów analizy regresji.

Dla potrzeb analizy zastosowano ogólnie znany pakiet komputerowy STATISTICA PL 8, w szczególności wykorzystano moduły: Ogólne modele regresji, Linearyzowana regresja

nieliniowa oraz Estymacja nieliniowa.

W dokumencie Index of /rozprawy2/10374 (Stron 34-40)