Ćwiczenie 4
1. Metody estymacji -MNK i wpasowanie krzywych
Zadanie 1 Pewien przedsiębiorca chce ustalić właściwą cenę na wyroby przez siebie
produkowane. Zaobserwował przy różnych cenach za 100 szt. detalu następujące wyniki sprzedaży
Cena za 100 szt. w zł 21 22 23 24 25 26
Sprzedaż w tys.szt. 20,3 17,8 15,9 14,1 12,4 10,8
Dopasować właściwą krzywą zależności sprzedaży o ceny . Jaka powinna być cena za 100 szt. jeżeli przedsiębiorca chce sprzedać 15 tys. szt. Uwagi o problemie kalibracji.
S p r z e d a ż = 5 9 , 1 9 5 - 1 , 8 7 1 * C e n a K o r e la c ja : r = - , 9 9 6 9
2 0 2 1 2 2 2 3 2 4 2 5 2 6
C e n a 1 0
1 2 1 4 1 6 1 8 2 0 2 2
Sprzedaż
0 , 9 5 P r z . U f n .
Wykonanie wykresu. Zakładka Reszty, założenia predykcja wykonaj analizę reszt wykres rozrzutukorelacje dwóch zmiennych
Zadanie 2 Rozważmy model liniowy yt=0.5t +2+t , t=1,...,50, gdzie wektor reszt t jest generowany przez następujące mechanizmy losowe
1. t i.i.d. N(0,1)
2. t = -0.9t-1 +t , gdzie +t i.i.d. N(0,1) 3. t = 0.9t-1 +t , gdzie +t i.i.d. N(0,1)
4. t , niezależne zm. losowe o rozkładach N(0,t2 0.2t 0.3), t=1,...,50
Wykorzystując dane wygenerowane w ćwiczeniu 1 wyestymować liniowy model metodą MNK.
Zanalizować reszty uzyskane metodą MNK. Jakie stąd wynikają wnioski co do stosowalności MNK Transformacja Orcutta i usuwanie autokorelacji
*
*
* 1
* 0
*
1 1
1 0
1
1 1 1 0 1
1 0
) (
) 1(
/
t t t
t t t t t
t
t t t
t t t
T Y
T T Y
Y
T Y
T Y
Zadanie 3 W poniżej osadzonym pliku jest zestaw czterech zbiorów danych opracowanych przez Francisa Anscombe’a . Dla każdej pary zmiennych (xi,yi);i 1 , ,4 można dopasować model liniowy opisujący zależność miedzy zmienną objaśniającą x a objaśnianą i y i.
Francis Anscombe 1
x1 2 y1
3 x2
4 y2
5 x3
6 y3
7 x4
8 y4 1
2 3 4 5 6 7 8 9 10 11
10 8,04 10 9,14 10 7,46 8 6,58 8 6,95 8 8,14 8 6,77 8 5,76 13 7,58 13 8,74 13 12,74 8 7,71 9 8,81 9 8,77 9 7,11 8 8,84 11 8,33 11 9,26 11 7,81 8 8,47 14 9,96 14 8,1 14 8,84 8 7,04 6 7,24 6 6,13 6 6,08 8 5,25 4 4,26 4 3,1 4 5,39 19 12,5 1210,84 12 9,13 12 8,15 8 5,56 7 4,82 7 7,26 7 6,42 8 7,91 5 5,68 5 4,74 5 5,73 8 6,89
Podsumowanie regresji zmiennej zależnej: y1 (Arkusz in Dokument1) R= ,81642052 R^2= ,66654246 Popraw. R2= ,62949162
F(1,9)=17,990 p<,00217 Błąd std. estymacji: 1,2366 N=11
b* Bł. std.
z b*
b Bł. std.
z b
t(9)p
W. wolny x1
3,0001,1252,6670,026 0,8160,1920,5000,1184,2410,002
Podsumowanie regresji zmiennej zależnej: y2 (Arkusz in Dokument1) R= ,81623651 R^2= ,66624203 Popraw. R2= ,62915782
F(1,9)=17,966 p<,00218 Błąd std. estymacji: 1,2372 N=11
b* Bł. std.
z b*
b Bł. std.
z b
t(9)p
W. wolny x2
3,0011,1252,6670,026 0,8160,1930,5000,1184,2390,002
Podsumowanie regresji zmiennej zależnej: y3 (Arkusz in Dokument1) R= ,81628674 R^2= ,66632404 Popraw. R2= ,62924893
F(1,9)=17,972 p<,00218 Błąd std. estymacji: 1,2363 N=11
b* Bł. std.
z b*
b Bł. std.
z b
t(9)p
W. wolny x3
3,0021,1242,6700,026 0,8160,1930,5000,1184,2390,002
Podsumowanie regresji zmiennej zależnej: y4 (Arkusz in Dokument1) R= ,81652144 R^2= ,66670726 Popraw. R2= ,62967473
F(1,9)=18,003 p<,00216 Błąd std. estymacji: 1,2357 N=11
b* Bł. std.
z b*
b Bł. std.
z b
t(9)p
W. wolny x4
3,0021,1242,6710,026 0,8170,1920,5000,1184,2430,002 W każdym przypadku wyestymowany model (z dokładnością do zaokrągleń ) jest postaci
3 5 , 0
i
i x
y z tym samym wskaźnikiem dopasowania R2 0,666 i poprawionym R2 0,629 oraz taką samą istotnością parametrów mierzoną p-wartością. Jednak wykresy rozrzutu
y 1 = 3 , 0 0 0 1 + 0 , 5 0 0 1 * x
2 4 6 8 1 0 1 2 1 4 1 6
x 1 3
4 5 6 7 8 9 1 0 1 1 1 2
y1
y 2 = 3 , 0 0 0 9 + 0 , 5 * x
2 4 6 8 1 0 1 2 1 4 1 6
x 2 2
3 4 5 6 7 8 9 1 0
y2
y 3 = 3 , 0 0 2 5 + 0 , 4 9 9 7 * x
2 4 6 8 1 0 1 2 1 4 1 6
x 3 5
6 7 8 9 1 0 1 1 1 2 1 3 1 4
y3
y 4 = 3 , 0 0 1 7 + 0 , 4 9 9 9 * x
6 8 1 0 1 2 1 4 1 6 1 8 2 0
x 4 4
5 6 7 8 9 1 0 1 1 1 2 1 3
y4
pokazują, że o ile w pierwszym przypadku model liniowy wydaje się być dobrze dopasowany, to w trzech ostatnich przypadkach coś jest nie tak. W przypadku drugiej pary zmiennych lepszym rozwiązaniem wydaje się być model kwadratowy (lub inny z wklęsłą funkcją). Trzecim przypadku jedna obserwacja wydaje się być odstająca a w czwartym przypadku liniowy trend został wygenerowany przez jedną obserwację, więc model liniowy wydaje się być nieodpowiednim w tej sytuacji.
Przykłady te pokazują jak ważna jest diagnostyka modelu a nie poprzestawanie na być może dobrym dopasowaniu mierzonym współczynnikiem R2.
Identyfikacja obserwacji wpływowych –dźwignie (lub reszty usunięte) i reszty Cooke’a
Wykrywanie zależności reszt np. autokorelacja Poniżej jest osadzony plik z resztami dla modelu nr3
Odległości Cooka (Arkusz in C:\Users\User\Documents\Dydaktyka\Statystyka\Statystyka WMS 2009- 2017\Ćwiczenia\statistica_lab04.doc) Zmienna zależna: y3
Odległości Cooka
Przyp. ,000 . . . . 1,39 Obserw.
Wartość
Przewidyw.
Wartość
ResztaStandard Przewid.
1 .* . . | . . . 2 .* . . | . . . 3 . . . | . . * 4 .* . . | . . . 5 .* . . | . . . 6 . . * . | . . . 7 .* . . | . . . 8 .* . . | . . . 9 . * . . | . . . 10 .* . . | . . . 11 .* . . | . . . Minimum .* . . | . . . Maksim. . . . | . . * Średnia . *. . | . . . Mediana .* . . | . . .
7,460007,999727-0,539730,30151 6,770007,000273-0,23027-0,30151 12,740009,4989093,241091,20605
7,110007,500000-0,390000,00000 7,810008,499454-0,689450,60302 8,840009,998636-1,158641,50756 6,080006,0008180,07918-0,90453 5,390005,0013640,38864-1,50756 8,150008,999182-0,849180,90453 6,420006,500546-0,08055-0,60302 5,730005,5010910,22891-1,20605 5,390005,001364-1,15864-1,50756 12,740009,9986363,241091,50756
7,500007,500000-0,000000,00000 7,110007,500000-0,230270,00000
Obserwowane wartości. Jest to zmierzona (obserwowana) wartość zmiennej zależnej.
Wartość przewidywana. Jest to wartość przewidywana przez aktualne równanie regresji.
Wartość resztowa. Jest to różnica między wartością obserwowaną a przewidywaną . Standaryzowana wartość przewidywana. Jest to standaryzowana wartość przewidywana zmiennej zależnej.
Standaryzowana wartość resztowa. Jest to standaryzowana wartość resztowa (obserwowana minus przewidywana podzielona przez pierwiastek kwadratowy z średniego kwadratu reszt).
Błąd standardowy wartości przewidywanej. Jest to błąd standardowy niestandaryzowanej wartości przewidywanej.
Odległość Mahalanobisa. O zmiennych niezależnych (będących w równaniu) można myśleć w ten sposób, że rozpinają one wielowymiarową przestrzeń, w której każda obserwacja (pomiar) stanowi jeden punkt. Można w ten sposób wykreślić w tej przestrzeni punkt reprezentujący wartości średnie wszystkich zmiennych niezależnych. Ten "punkt średni"
nazywany bywa też centrum rozkładu. Odległość Mahalanobisa jest odległością danego punktu pomiarowego (danej obserwacji) od centrum w przestrzeni wielowymiarowej zdefiniowanej przez skorelowane zmienne niezależne (jeśli zmienne niezależne są
nieskorelowane to odległość Mahalanobisa jest identyczna z odległością Euklidesową). Miara ta może stanowić wskaźnik pozwalający ustalić czy dana obserwacja może być zaliczona do odstających.
Usunięte reszty. Usuniętą resztą jest reszta dla danej obserwacji, obliczana tak jakby ten przypadek nie był włączony do analizy regresji. Jeśli reszta usunięta różni się znacznie od reszty standaryzowanej, wówczas można sądzić, że dany przypadek jest przypadkiem odstającym ponieważ jego usunięcie znacznie zmieniło równanie regresji.
Odległość Cooka. Jest to inna miara wpływu danego przypadku na równanie regresji.
Wskazuje ona różnice pomiędzy obliczoną wartością B a taką samą wartością obliczona przy założeniu, że dany przypadek zostałby wyłączony z równania regresji. Wszystkie odległości powinny być tego samego rzędu. Jeśli nie są to można przypuszczać, że dany przypadek (przypadki) miał istotny wpływ na obciążenie równania regresji.
Postępowanie z odstającymi obserwacjami. Celem tych statystyk jest identyfikacja odstających obserwacji. Pamiętajmy, że w szczególności dla małych N (mniejsze niż 100) oceny współczynników regresji mogą nie być stabilne. Innymi słowy, pojedyncze obserwacje mogą mieć duży wpływ na wartości tych współczynników. Jest zatem rzeczą pożądaną korzystanie z tych statystyk (wykorzystując dostępne tu opcje), i powtarzanie istotnych analiz po usunięciu odstających obserwacji. Inną możliwością jest powtórzenie analizy przy użyciu raczej regresji metodą absolutnych odchyleń niż metodą najmniejszych kwadratów, co pozwala na zmniejszenie wpływu obserwacji odstających.
Zadanie 4. Stężenie chloru pewnym produkcie w procesie produkcyjnym jest równe 0,5 i maleje po zakończeniu produkcji osiągając w 8 tygodniu (wówczas produkt dociera do odbiorcy) wartość 0,49. Od tego momentu na aktualne stężenie chloru ma wpływ wiele czynników niekontrolowanych (sposób magazynowania). W poniższej tabeli zebrano dane dotyczące stężenia chloru CHLORINE w pewnym produkcie poszczególnych tygodniach WEEKS. Nieliniową metodą najmniejszych kwadratów MNK dopasować krzywą
CHLORINE= 1+(0,49-1)*exp(-2*(WEEKS-8)) przyjmując za oszacowanie początkowe 1=0,3 2=0,3.
To jest osadzony plik sg_nonlin.sta zawierający wszystkie dane funkcję i początkowe parametry. Wskazując myszką plik klikamy prawym klikiem ObiektArkusz / Open Uzyskamy od razu dostęp do pliku Statistica.
1 WEEKS
2 CHLORINE
3 FUNKCJA
4 PARAMETR 1
2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
8 0,49 8 0,49 10 0,48 10 0,47 10 0,48 10 0,47 12 0,46 12 0,46 12 0,45 12 0,43 14 0,45 14 0,43 14 0,43 16 0,44 16 0,43 16 0,43 18 0,46 18 0,45 20 0,42 20 0,42 20 0,43 22 0,41
Wsk:
Uruchomić procedurę Statystyka - > Zaawansowane modele liniowe i nieliniowe - >
Estymacja nieliniowa. Następnie wybrać Regresja użytkownika met. najmniejszych kwadratów. W polu Funkcja estymowana podajemy wzór
chlorine= b1+(0,49- b1)*exp(- b2*(WEEKS-8)).Następnie w zakładce Więcej należy podać wartości początkowe parametrów b1=0,3, b2=0,2. Klikając Dopasowana funkcja 2W otrzymujemy wykres
Model: chlorine= b1+(0.49- b1)*exp(- b2*(WEEKS-8)) y= (,39014)+(0.49- (,39014))*exp(- (,101632)*(x-8))
5 10 15 20 25 30 35 40 45
weeks 0,36
0,38 0,40 0,42 0,44 0,46 0,48 0,50 0,52 0,54
chlorine
Zadanie 5. Według modelu S. Knothego lewy profil podłużny niecki obniżeniowej (w ujęciu jednowymiarowym) jest opisywany krzywą z 2 parametrowej rodziny krzywych postaci
) 1
( )
,
;
(x Wmax r max2 1 e ( )2dt W
x r
W rt
, gdzie
Wmax oznacza maksymalne obniżenie (obniżenia są brane ze znakiem - ) r oznacza tzw. zasięg wpływów głównych.
Wprowadzając dodatkowy parametr przesunięcia c i zastępując wykładnik 2 w całce dodatkowym parametrem b0 otrzymujemy 4 parametrową rodzinę krzywych
) 1
( )
, , ,
;
(x V r c b0 2 1 e | |0dt W
x r V
max
b rc t
max
, gdzie parametr Wmax zastąpiono
parametrem Vmax.
Po zmianie zmiennych w całce rodzinę krzywych można przedstawić w postaci ) )
( 1
( )
, , ,
; (
0 0 1
0 1
|
|
0
1 )
(1 2
0 sign x c y e dy
b c r W x W
b rc x
b b
max y
W
max
, gdzie Wmax oznacza maksymalne obniżenie (obniżenia są brane ze znakiem - ) r oznacza zasięg wpływów głównych.
c współrzędna (odcięta) punktu przegięcia (c, Wmax2
)
b0 dodatkowy parametr kształtu (w klasycznym przypadku b0=2)
Funkcja y e dy
b r
c x
b b
y
|
|
0
1 )
(
1 1
1
wyraża się za pomocą dystrybuanty rozkładu Gamma w
następujący sposób ( | | ,1)
|
|
0
1 )
(
1 1
1 b
b r
c ydy Igamma Pi x
e y
b r
c x
b b
(zobacz definicję funkcji Igamma w programie STATISTICA. Na postawie danych zgromadzonych w pliku obnizenie.sta wyestymować MNK parametry modelu i znaleźć asymptotyczną macierz kowariancji estymatorów.
Ograniczyć (używając warunków selekcji) rozważania do argumentów X<150.
Uwaga .W pliku obnizenie.sta jest zapisana także funkcja (po podwójnym kliknięciu zmiennej Funkcja w okienku komentarza jest przepis ) i parametry początkowe.
1 X
2 W
3 FUNKCJA
4
PARAMETR 1
2 3 4 5 6 7 8 9 10 11 12 13
-65,28 -1 -53,19 -2 -49,23 -5 -43,41 -1 -33,35 -23 -23,38 -7 -16,39 -10 -6,38 -37 -3,70 -121 13,61 -314 23,59 -584 33,66 -807 43,61 -989
M o d e l : w = w m / 2 * ( - 1 - s i g n ( x - c ) * i g a m m a ( P i * A b s ( ( x - c ) / r ) ^ b 0 ; 1 / b 0 ) )
y = ( 1 2 3 2 , 4 8 ) / 2 * ( - 1 - s i g n ( x - ( 2 6 , 0 5 0 7 ) ) * i g a m m a ( p i * a b s ( ( x - ( 2 6 , 0 5 0 7 ) ) / ( 5 3 , 6 1 0 7 ) ) ^ ( 1 , 7 4 6 8 8 ) ; 1 / ( 1 , 7 4 6 8 8 ) ) ) W a r u n e k u w z g l ę d n i a n i a : X < 1 5 0
- 8 0 - 6 0 - 4 0 - 2 0 0 2 0 4 0 6 0 8 0 1 0 0 1 2 0 1 4 0 1 6 0
X - 1 4 0 0
- 1 2 0 0 - 1 0 0 0 - 8 0 0 - 6 0 0 - 4 0 0 - 2 0 0 0 2 0 0
W