• Nie Znaleziono Wyników

Algorytm postępowania w zastosowaniu regresji krokowej przy rozwiązywaniu zagadnień inżyniersko-organizacyjnych

N/A
N/A
Protected

Academic year: 2022

Share "Algorytm postępowania w zastosowaniu regresji krokowej przy rozwiązywaniu zagadnień inżyniersko-organizacyjnych"

Copied!
7
0
0

Pełen tekst

(1)

ZESZYTY NAUKOWE POLITECHNIKI ŚLĄSKIEJ 1980

Seria: GÓRNICTWO z. 106 Nr kol. 646

Czesław POTOCKI Jerzy CHOWANIEC

ALGORYTM POSTĘPOWANIA W ZASTOSOWANIU REGRESJI KROKOWEJ PRZY ROZWIĄZYWANIU ZAGADNIEŃ INŻYNIERSKO-ORGANIZACYJNYCH

Streszczenie. W artykule podano szczegółową metodykę postępowa- nia przy zastosowaniu regresji krokowej. Metoda ta jest^ przydatna tam, gdzie należy rozpatrywać dużą liczbę zmiennych w różnym stop­

niu ze sobą skorelowanych i gdzie należy ograniczyć się do zmien­

nych najistotniejszych.

1. SFORMUŁOWANIE PROBLEMU

Załóżmy, że dokonujemy obserwacji pewnej zmiennej Y, która jest zależ­

na od k zmiennych objaśniających X i w wyniku tej obserwacji otrzymu­

jemy -n-elementową próbę. Modele matematyczne, opisujące zależność pomię­

dzy zmienną objaśniającą Y, a zmiennymi objaśniającymi k), można podzielić na dwie grupy: ,

- funkcje addytywne, - funkcje multyplikatywne.

Pierwszą grupę stanowią funkcje zakładające, że zmienna objaśniana jest sumą wpływów działających na nią czynników.

gdzie ofQ, - parametry strukturalne modelu.

Drugą grupę modeli stanowią funkcje zakładające, że zmienna objaśniana jest iloczynem wpływów działających na nią zmiennych objaśniających. Spoś­

ród nich najczęściej stosowana jest funkcja Cobb-Douglasa o wzorze anali­

tycznym:

k

Y = of± X± + oę0 + $ , (11

i=1

k

(?■) 1 = 1

Jest to model nieliniowo zależny ou parametrów strukturalnych , lecz łatwo sprowadzalny do postaci modelu liniowo-zależnego od oę^ drogą pro­

stych przekształceń nieliniowych.

(2)

98 Cz. Potocki, J. Chowaniec

Po ustaleniu postaci analitycznej funkcji występującej w problemie można przystąpić do oceny przydatności zmiennych w regresji wielokrotnej bezwarunkową metodą najmniejszej sumy kwadratów. Istnieje kilka procedur statystycznych, które pozwalają dokonać wyboru najlepszego równania re­

gresji. Przy wyborze najlepszego równania regresji należy się kierować na­

stępującymi zasadami, które z natury rzeczy są antagońistyczne:

- do równania regresji wprowadza się możliwie najwięcej zmiennych w celu zapewnienia wiarygodności wyznaczonych ocen,

- ze względu na pracochłonność i koszty uzyskania informacji o dużej licz­

bie zmiennych należałoby uwzględnić Jak najmniejszą liczbę nieskorelowa- nych ze sobą zmiennych najbardziej istotnie wpływających na analizowane zjawiska.

Spełnienie tych dwóch przeciwstawnych postulatów napotyka w praktyce na trudności, stąd należy się posługiwać określonymi procedurami doboru zespołu zmiennych kształtujących zmienną objaśnianą Y.

2. PROCEDURA REGRESJI KROKOWEJ

W celu właściwego doboru zmiennych objaśniających do modelu opisujące­

go zmienność badanśgo zjawiska zastosowano procedurę, w której badania istotności regresji podlegają na każdym etapie zmiennej wprowadzonej do .równania w poprzednich etapach.

Dokonuje Bię tego badania ze względu na to, że zmienna objaśniająca, która mogła być najlepszą pojedynczą zmieńną do wprowadzenia w poprzedza­

jącym etapie, może w etapie późniejszym być zbyteczna ze względu na swoją zależność od innych zmiennych objaśniających, mimo faktu, że jej współ­

czynnik korelacji ze zmienną objaśnianą był większy od współczynnika kore­

lacji zmiennych wprowadzonych później do funkcji regresji. Każda zmienna, która nie wnosi istotnego wkładu do wyjaśnienia zmienności badanego zja­

wiska jest usuwana z modelu.

Przedstawiamy teraz kilka kroków metody obliczeniowej, służącej do zna­

lezienia najlepszego równania predykcji (1).

Krok 1. Procedura regresji krokowej rozpoczyna się od wyznaczenia sy­

metrycznej macierzy korelacji R stopnia k + 1.

j

(3)

Algorytm postępowania w zastosowaniu. 99

X 1 x2 • • •

Xk Y

X1 1

v12 • • •

v1k v1k+1

*2 1 • • •

v2k v2k+1

Y

k k+1

Następnie rozszerza się daną macierz korelacji w następujący sposób:

[ aij]

R (k x k) T (1 x k) -I (k x k)

T' (k x 1) S ( 1 x 1 ) 0 (k x 1)

I (k x k) 0 (1 x k) 0 (k x k)

gdziet

R (k x k) - macierz korelacji cząstkowej dla k zmiennych objaśniają­

cych ,

T (1 x k) - wektor korelacji k zmiennych objaśniających ze zmienną objaśnianą Y,

/

T (k x 1) - macierz transponowana macierzy T.

S (1 x 1) - macierz jednoelementowa (korelacja własna zmiennej objaś­

nianej),

I (k x k) - macierz jednostkowa,

-I (k x k) - ujemna macierz jednostkowa.

Dla wprowadzenia zmiennych objaśniających do równania regresji stosuje się ciąg statystyki

iy yvi ai.k+1 ak+1.i ... . . - „

" ■ % . . » d l a 1 “ 1 » 2 ’ k*

vii aii

Wyboru pierwszej zmiennej dla wprowadzenia do regresji dokonuje się na podstawie warunku:

(4)

Cz. Potocki. J. Chowaniec

Warunek ten wyznacza zmienną najbardziej skorelowaną ze zmienną objaśnia­

ną Y. Macierz A = [ai;jj musi być dostosowana do wprowadzenia wybranej zmiennej do regresji. W tym celu wiersz macierzy A = [aij]' odpowiadający wprowadzonej zmiennej, należy podzielić przez element diagonalny w tym wierszu i wstawić otrzymany w ten sposćb wiersz do macierzy B = [ b ^ J . Po­

zostałe elementy macierzy B = uzyskuje się przez zastosowanie na­

stępującego wzoru

a ii a,,.

b^j “ a^j — ’ i ** k,

gdzie i - numer zmiennej wprowadzonej do regresji w danym kroku.

Następnie przy użyciu typowego testu P sprawdza się, czy w ogćle wy­

brana zmienna powinna być wprowadzona do regresji. W tym celu oblicza się wartość funkcji testowej

A p

Kwadrat.współczynnika korelacji wielokrotnej R£ jest określony wzorem r2 m suma kwadratów w regresji

centrowaną suma kwadratów'

Jeżeli model regresyjny jest istotny, to w pierwszym a także w każdym na­

stępnym kroku zestawia się tablicę analizy wariancji oraz oblicza się du­

że miary struktury stochastycznej:

- kwadrat współczynnika korelacji wielokrotnej, - odchylenie standardowe reszt.

Z tablic rozkładu F Snedecora wyznacza się dla poziomu oę (np. cy=0,05) przy k = 1 i n - k - 1 = n - 2 stopniach swobody wartość krytyczną P(1; n-2; 0,05). Jeżeli > F (1; n-2; 0,05), to odrzuca się hipote­

zę o nieistotności równania regresji, tzn. wprowadza się zmienną do równania regresji. W przypadku przeciwnym, gdy P (1| n-2{ 0,05) nie wprowadza się do równania żadnej zmiennej. Wartość krytyczna P usta­

lona jest w każdym kroku oddzielnie zarówno dla wprowadzenia, jak i dla usuwania zmiennych objaśniających. W późniejszych etapach stosuje się sek­

wencyjny test P, służący do testowania hipotezy, czy ostatnia zmienna wpro­

wadzona do regresji ma istotny udział w zmniejszeniu niewyjaśnionej zmien­

ności ciągu danych empirycznych.

T e s t e l i m i n a c j i zmiennej występującej w regresji Wartość krytyczna testu P dla wprowadzenia zmiennej jest nie mniej­

sza od wartości krytycznej P dla eliminacji zmiennej. Zazwyczaj obie wartości są równe. Oczywiście na tym etapie test eliminacji zmiennej wy­

stępującej w regresji nie jest przeprorf&dzony, ponieważ w równaniu wystę-

(5)

Algorytm postępowania w zastosowaniu.. 101 puje tylko jedna zmienna. jTest dotyczący eliminacji zmiennych występują­

cych już w regresji zostanie omówiony w kroku 2.

Krok 2. Na tym etapie przeprowadza się wybór drugiej zmiennej dla wpro­

wadzenia do regresji. Posługując się macierzą B = określa się ciąg statystyk jvBj dla zmiennych nie występujących w regresji«

v _ bs.k+1 bk+1.s

9 bss

Wyboru drugiej zmiennej dla wprowadzenia do regresji dokonuje się na pod­

stawie tego samego warunku:

max V = max j V.,, V2, • • • T s|*

Hastępnie oblicza się wartość F testu sekwencyjnego dla wprowadzenia drugiej zmiennej. Łatwo stwierdzić, że w dowolnym etapie wielkość testowa­

na, dotycząca pozycji następnej zmiennej, ma postać:

p o max 7

"P = S - max V*

gdzie:

q - liczba stopni swobody zmiennej resztowej, s - suma kwadratów zmiennej resztowej.

Jeśli spełniona jest nierówność F > F (2j n-3j 0,05), to przyjmuje wp

się drugą zmienną do równania regresji. W przypadku przeciwnym, gdy F < F (2j n-3j 0,05) drugiej zmiennej, a tym bardziej pozostałych zmień- nych nie należy wprowadzać do modelu.

T e s t e l i m i n a c j i zmiennych występujących w regresji.

Na tym etapie eliminuje się zmienną wprowadzoną do regresji, na pierw­

szym kroku za pomocą częściowego testu Fcz> Częściowy test F jest wygod­

nym kryterium dla usuwania zmiennych z modelu. Wpływ pewnej zmiennej na wyjaśnienie zmiennej objaśniającej Y może być duży, jeżeli równanie regresji zawiera tylko zmienną Xq. Jeśli jednak taka zmienna wchodzi do równania wraz z innymi zmiennymi, może ona oddziaływać bardzo mało na zmienną Y, ze względu na to, że Xq jest silnie skorelowana ze zmienny­

mi już występującymi w równaniu regresji. Częściowy test F można prze­

prowadzić dla wszystkich zmiennych występujących w regresji, tak jak gdy­

by była ostatnią zmienną wprowadzaną d~ równania, a więc stwierdzić względne oddziaływanie każdej zmiennej w stosunku do innych. Można jed­

nak nie rozpatrywać częściowego testu F dla ostatniej zmiennej, gdyż war­

tość krytyczna F dla wprowadzenia zmiennej jest zawsze większa lub rów­

na wartości krytycznej F dla usuwania zmiennej. Dla usunięcia zmiennej z regresji tworzy się nową macierz C = [°ij]' ^ ce^u elementy wiersza

(6)

102 Cz. Potocki, J. Chowaniec

macierzy B = odpowiadające wprowadzonej zmiennej dzieli się przez pierwszy element diagonalny w tym wierszu i wstawia się otrzymany w ten sposób wiersz do macierzy C = [°ij]*

Wszystkie pozostałe elementy macierzy C = wyznacza się ze wzoru:

bil bl.1

°ij ° bij

gdzie 1 - jest aktualnie podawaną zmienną (wynik ten jest ważny dla każ­

dego elementu, z wyjątkiem znajdujących się w wierszu odpowia­

dającym właśnie wprowadzonej zmiennej).

Wartość F testu częściowego dla eliminacji zmiennej wprowadzonej do rów­

nania w poprzednim kroku oblicza się według wzoru

W przypadku gdy ?oz > P (2j n-3? 0,05) nie ma podstaw do wyeliminowania pierwszej zmiennej z regresji, w przypadku przeciwnym F =£■ P (2; n-3$

1 L cz

0,05)J usuwa się zmienną z regresji. Dla ustalenia, jak dalece funkcja bę­

dzie regresji przydatna jako predyktor podsumowuje się otrzymaną informa­

cję po wprowadzeniu każdej zmiennej. W tym celu zestawia się tablicę ana­

lizy wariancji oraz wyznacza się nieobciążone estymatory parametrów struk­

turalnych modelu, standardowe błędy ocen parametrów strukturalnych, kwad­

rat współczynnika korelacji wielokrotnej i odchylenie standardowe reszt.

Krok 3. Podobnie jak w kroku poprzednim do określenia zmiennej dla wprowadzenia do regresji tworzy się macierz D = [d^iJ , oblicza się ciąg statystyk jl^J dla zmiennych nie występujących w regresji i wybiera się zmienną, której odpowiada największa wartość V^. Następnie oblicza się wartość P testu dla wprowadzenia oraz wartość P testów dla eliminacji zmiennych wprowadzonych do regresji w dwóch poprzednich krokach. Proces ten trwa tak długo, aż żądana ze zmiennych objaśniających nie będzie mog­

ła być już wprowadzona do równania regresji i żadna odrzucona. Przyjęta metoda doboru zmiennych objaśniających do równania regresji zabezpiecza przed wprowadzeniem do modelu zmiennych przypadkowych, nieistotnie wpływa­

jących na badane zjawisko. Metoda regresji krokowej jest przydatna tam, gdzie należy rozpatrywać dużą liczbę zmiennych w różnym stopniu ze sobą skorelowanych i gdzie należy ograniczyć się do zmiennych najistotniej­

szych.

Na podstawie wyznaczonych w ten sposób równań można oszacować wartości oczekiwane zmiennej Y i odwrotnie. Wartości zmiennej Y odpowiadające określonym wartościom zmiennych objaśniających można oczasować również za pomocą przedziałów ufności.

(7)

Algorytm postępowania w zastosowaniu.. 103

LITERATURA

[1] Cbajkim W., Najdzienow W., Crałzow S.* Korelacja 1 modelowanie staty­

styczne w rachunku ekonomicznym. PWN, Warszawa 1968.

[2] Draper N.R., Smith H.: Analiza regresji stosowana. PWN, Warszawa 1973«

. 1

AJirOPHTM UPOBEJlEHHfl B UPHMEHEHHH DBArOBOił PErPECCHH nPH PEIHEHHH HHEEHEPHO-OPrAHH3AIJHOHHHX BOUPOCOB

P e 3 c u e

B c s a z b e n p a B o x n c a n o x p o O a a a uezoxaica n o B e x e H a a n p a n p m c e H e H H H naroeofi p e r p e c a a . 3 t o t h o t o ą n p a r o x e a ta n , rxe o a e x y e z p a c c u a i p H B a T b O o x b a o e ihcjio n e p e a s H a u z b p a s s o # o z e a e a a K o p p e a B p o B a B H u z x p y r c x p y r o w a r*e o x e x y e z o r p a r a w E T b o a k c a a u a c y a e c z e e H H H M n e p e a e H H u u .

THE ALGORITHM OP PROCEDING IN THE APPLICATION OP STEPWISE REGRESSION IN SOLVING ENGINEERIHGr-ORGANISATIONAL PROBLEMS

S u m m a r y

The paper presents a detailed method of operations undertaken in app­

lying the stepwise regression. The method is especially useful in the case of analysing a big number of variables correlated to different de­

gree and where it is necessary to constraint to the most essential varia­

bles.

\

Cytaty

Powiązane dokumenty

Według podziałów administracyjnych kraju po 1989 r. Turobin należy do gminy turobińskiej, położonej w powiecie biłgorajskim, w województwie lubelskim. Powierzchnia gminy,

Jeszcze przed chwilą powodowała nim raczej ciekawość, teraz świat odmienił się dokoła

Однако, несмотря на геом етрический рост количественны х и качественных показателей знаний, товаров и коммуникаций, цель научной парадигмы,

Istnieje kilka wersji logicznej regresji: kla- syczna, z algorytmem simulated annealing jako metodą przeszukiwania, (Schwen- der (2007)), logiczna regresja z algorytmem Monte

Celem niniejszego opracowania jest analiza przyczyn i skutków poziomu zanieczyszczenia wód zbiorników małej retencji oraz ich dopływów na terenie województwa podlaskiego

W wielu przypadkach, wiemy, że punktowa hipoteza zerowa jest fałszywa, nawet nie patrząc na dane.. Ponadto wiemy, że im więcej danych, tym większa moc

Jubileusz z jednej strony pozwoli podsumować wiekową historię i działalność Szkoły, jak również będzie okazją do spotkań dla absolwentów, uczniów,

Mam po wsiach rozstawione te pszczoły, tam gdzie dużo jest rzepaku, dużo jest lipy, tam gdzie kasztan, gdzie jary rzepak, gdzie fasola.. To wyszukuję takie tereny, podwożę,