• Nie Znaleziono Wyników

Estymacja parametrów modelu matematycznego stanowi podstawowy element procesu jego wyznaczania. Wybór optymalnej metody estymacji zależy od wielu czynników, a zwłaszcza od własności wyników pomiarów. Przedstawiono kryteria oceny jakości estymatorów oraz metody ich wyznaczania.

4.1. Podstawowe pojęcia i definicje

Przedmiotem estymacji punktowej jest wnioskowanie, na podstawie obserwa-cji, o wartościach nieznanych parametrów rozkładów badanych zmiennych loso-wych (np. gęstości). W rozpatrywanych tu zagadnieniach są to zwykle parametry modeli matematycznych badanych obiektów. Ciąg wartości liczbowych x1, . . . , xn

obserwowanych w eksperymencie ma charakter losowy i dlatego traktowany jest jako realizacja zmiennych losowych x = x(ω)1

. Ciąg ten nazywamy próbą prostą, jeśli obserwowane zmienne losowe są losowo niezależne i każda zmienna losowa ma ten sam rozkład.

W estymacji punktowej pojedynczego parametru należy wyznaczyć (na pod-stawie próby) taką liczbę, którą w świetle przyjętych kryteriów można uznać za jej „najlepsze przybliżenie”. Jeśli celem estymacji jest wyznaczenie ocen p parame-trów a1, . . . , ap, to grupujemy je w wektor a = [a1, . . . , ap]T. W dalszej części, dla ustalenia uwagi, będziemy często rozważali estymację pojedynczego parametru, by następnie uogólnić analizę na wektor parametrów. Przejdziemy obecnie do omówienia pojęcia estymatora.

1

Przypomnijmy, że zarówno zmienne losowe, jak i ich realizacje oznaczamy tymi samymi symbolami, x, y, . . ., a bezpośrednio z towarzyszącego tekstu wynika aktualne znaczenie sym-bolu. Jednak w przypadku gdyby mogło to prowadzić do niejednoznaczności, zmienną losową oznaczamy pełnym symbolem, x(ω), y(ω), . . ., a jej realizację x, y, . . .

Każdą funkcję T (x1, . . . , xn) próby losowej x1, . . . , xn nazywamy statystyką. Statystyka jako funkcja (borelowska2) zmiennych losowych jest też zmienną losową mającą rozkład zależny od funkcji T i rozkładów zmiennych losowych x1, . . . , xn. Definicja 4.1. Każdą statystykę Tn(x1, . . . , xn), której wartość można przyjąć za ocenę nieznanego parametru a nazywamy estymatorem, a otrzymaną na podstawie realizacji zmiennych losowych wartość liczbową nazywamy oceną lub estymatą.

Dla uproszczenia zapisu będziemy pomijali argumenty, oznaczając estymator krótko symbolem Tn lub ˆa. Gęstość obserwacji xi powinna zależeć od parametru

a, gdyż w przeciwnej sytuacji w obserwacjach nie byłoby informacji o wartości

parametru.

Przykład 4.1. Niech x1, . . . , xnbędzie próbą prostą, zmiennych losowych o roz-kładzie normalnym, xi ∼ N(µ, σ), wtedy średnia arytmetyczna ¯x jest

estymato-rem parametru µ. 2

Z definicji 4.1 wynika, że estymatorem może być dowolna funkcja zmiennych losowych, której wartość można przyjąć za ocenę wyznaczanego parametru. Jeśli znana jest pewna liczba estymatorów tego samego parametru, to powstaje pro-blem wyboru najlepszego z nich. Stąd pojawia się potrzeba określenia kryteriów pozwalających na wybór „optymalnego estymatora” oraz metod wyznaczania es-tymatorów.

4.2. Własności estymatorów

W teorii estymacji rozważa się trzy podstawowe własności estymatorów nie-obciążoność, zgodność i efektywność. Przedstawimy kolejno te pojęcia.

4.2.1. Nieobciążoność estymatorów

Pożądaną własnością estymatora jest, aby jego realizacje grupowały się wokół estymowanej wartości a. Własność tę określa się za pomocą terminu nieobciążo-ność estymatora i definiuje następująco.

Definicja 4.2. Statystykę Tn nazywamy nieobciążonym estymatorem parametru

a, jeśli dla każdego n

E[Tn] = a. (4.1)

2

Nie każda funkcja zmiennych losowych jest zmienną losową, funkcja ta musi być funkcją borelowską, por. np. [9].

4.2. Własności estymatorów 71

Jeśli Tn nie jest estymatorem nieobciążonym, to nazywany jest estymatorem ob-ciążonym, a różnicę

E[Tn]− a

obciążeniem lub błędem systematycznym estymatora. Jeśli Tn6= a oraz

lim

n→∞Tn= a,

to Tn nazywamy asymptotycznie nieobciążonym estymatorem parametru a. Z de-finicji 4.2 wynika, że realizacje nieobciążonego estymatora parametru a grupują się wokół wartości tego parametru.

Przykład 4.2. Niech x1, . . . , xn będzie obserwowaną w eksperymencie próbą prostą, przy czym E[xi] = a, i = 1, . . . , n, wtedy statystyka ¯x jest nieobciążonym

estymatorem parametru a, gdyż

E[¯x] = 1 n n X i=1 E[xi] = a. 2 Przykład 4.3. Niech x1, . . . , xn będzie próbą prostą, dla której E[xi] = a oraz

D2[xi] = σ2, i = 1, . . . , n, przy czym parametry a oraz σ nie są znane. Do esty-macji σ2 stosowana jest wariancja próby

s2 = 1 n n X i=1 (xi− ¯x)2.

Zbadamy obciążenie tego estymatora. W tym celu zauważmy, że

D2x] = 1 n2 n X i=1 D2[xi] = σ 2 n, ponadto s2 = 1 n n X i=1 (xi− ¯x)2 = 1 n n X i=1 (x2i − 2xix + ¯¯ x2) = 1 n n X i=1 x2i − ¯x2, a stąd E[s2] = 1 n n X i E[x2i]− E[¯x2]. (4.2)

Wartość oczekiwana E[x2

i] pierwszej składowej wzoru (4.2) wynosi

E[x2i] = E[(xi−a)2+2axi−a2] = E[(xi−a)2]+a2= σ2+a2, i = 1, . . . , n, (4.3)

natomiast drugiej

E[¯x2] = E[(¯x− a)2+ 2a¯x− a2] = E[(¯x− a)2+ a2] = σ

2

n + a

2. (4.4)

Po podstawieniu tych wyników do (4.2) otrzymamy

E[s2] = n− 1 n σ

2, (4.5)

co oznacza, że s2 jest obciążonym estymatorem parametru σ2 (ale jest asympto-tycznie nieobciążonym estymatorem). Mnożąc estymator s2 przez współczynnik

n/(n− 1), likwiduje się obciążenie i otrzymuje nieobciążony estymator wariancji

s21= 1 n− 1 n X i=1 (xi− ¯x)2. (4.6)

Estymator ten jest najczęściej używaną oceną wariancji σ2. 2

4.2.2. Zgodność estymatorów

Pożądane jest, aby wraz ze wzrostem liczności próby n wzrastała „dokładność” estymatora. Własność ta określona jest terminem „zgodność estymatora”.

Definicja 4.3. Statystykę Tnnazywamy zgodnym estymatorem parametru a, jeśli lim

n→∞P{|Tn− a| < ε} = 1 (4.7) dla dowolnie małej dodatniej wartości ε.

Zgodność estymatora powoduje, że opłaca się powiększać liczbę obserwacji, gdyż wtedy maleje prawdopodobieństwo, że odchylenie oceny od wartości prawdzi-wej przekroczy zadaną wartość. Zgodność nabiera znaczenia przy dużych próbach, natomiast przy małych próbach ważniejsze znaczenia ma obciążenie estymatora.

Następujące twierdzenie pozwala zbadać zgodność estymatorów.

Twierdzenie 4.1. Jeżeli Tn jest nieobciążonym lub asymptotycznie nieobciążo-nym estymatorem parametru a oraz

lim

n→∞D2[Tn] = 0, to Tn jest zgodnym estymatorem.

4.2. Własności estymatorów 73

4.2.3. Efektywność estymatorów

Pożądaną własnością estymatora jest, aby jego realizacje miały możliwie mały rozrzut wokół wyznaczanej wartości. Tę własność określa się za pomocą pojęcia efektywności, która opiera się na wariancji jako mierze rozrzutu.

Definicja 4.4. Niech {Ti

n}, i = 1, . . . , n będzie zbiorem nieobciążonych

estyma-torów parametru a. Estymator Tk

n, o najmniejszej wariancji w tym zbiorze, tj. spełniający warunek

D2[Tnk]6D2[Tni], dla i = 1, . . . n nazywamy najefektywniejszym estymatorem w zbiorze {Ti

n}. Estymator, który ma

najmniejszą wariancję w zbiorze wszystkich możliwych estymatorów nieobciążo-nych nazywamy estymatorem najefektywniejszym.

Przykład 4.4. Założono, że dokonano dwóch, losowo niezależnych pomiarów pa-rametru a i otrzymano wyniki x1 oraz x2, o własnościach: E[x1] = E[x2] = a,

D2[x1] = D2[x2] = σ2 (wartość σ2 nie jest znana), cov[x1, x2] = 0. Jako klasę estymatorów parametru a rozpatrzymy kombinacje liniowe obserwacji

T2 = αx1+ βx2.

Nakładając warunek nieobciążoności E[T2] = αE[x1] + βE[x2] = αa + βa = a, otrzymamy równanie α + β = 1. Po podstawieniu w powyższym wzorze β = 1 − α otrzymuje się następującą klasę estymatorów nieobciążonych parametru a

T2 = αx1+ (1− α)x2.

Dla α = 1 otrzymano T2 = T21 = x1, więc pierwsza obserwacja jest estymatorem tej klasy; analogicznie dla α = 0, T2 = T2

2 = x2 – druga obserwacja jest również estymatorem.

Wariancja estymatora T2 wynosi

D2[T2] = α2D2[x1] + (1− α)2D2[x2] = [α2+ (1− α)22,

więc jej wartość zależy od współczynnika α i osiąga minimum dla α = 1/2. Stąd najefektywniejszym estymatorem parametru a, w klasie kombinacji liniowych, jest statystyka

T2 = 1

Wniosek. Dla podanych założeń najefektywniejszym estymatorem w klasie kom-binacji liniowych jest średnia arytmetyczna. Jej wariancja D2[T2] = 14(D2[x1] +D2[x2]) = 12σ2, natomiast wariancja estymatora T1

2 = x1 wynosi D2[T21] = σ2 i jest większa od wariancji wartości średniej – optymalnego estymatora. Analo-giczna uwaga dotyczy estymatora T2

2. 2

Przykład 4.5. Wyznaczyć estymator parametru a w warunkach z przykładu 4.4 z jedną zmianą, odstępujemy od założenia, że wariancje obserwacji są takie same i zastępujemy je założeniem, że wariancja obserwacji x1 pozostaje jak w przykła-dzie D2[x1] = σ2, natomiast wariancja drugiej obserwacji x2wynosi D2[x2] = 2σ2. Pozostawiamy czytelnikowi sprawdzenie, że najefektywniejszym estymatorem nie-obciążonym w klasie liniowych kombinacji, dla tych założeń, jest statystyka

T2 = 2 3x1+

1 3x2.

2 Z analizy i przykładów wynika, że relacje między wariancjami poszczególnych obserwacji w istotny sposób wpływają na „postać” najefektywniejszego estyma-tora. Analogiczna uwaga dotyczy również korelacji między obserwacjami, które powinny być uwzględniane podczas wyznaczania estymatora.

W poprzednich przykładach wyznaczano estymatory najefektywniejsze w kla-sie kombinacji liniowych. Rodzi się pytanie, do jakiego stopnia można minimalizo-wać wariancję estymatorów nieobciążonych? Czy jeśli, na przykład, rozszerzymy, w przykładzie 4.4 klasę estymatorów, to możemy otrzymać efektywniejszy esty-mator niż średnia arytmetyczna? Odpowiedzi na to pytanie udzielili niezależnie od siebie Rao i Cramér [70]. Znana jest ona pod nazwą nierówności Rao–Craméra, którą przedstawimy dla jednego parametru.

Niech x1, . . . , xn będzie ciągiem zaobserwowanych wartości n niezależnych zmiennych losowych o tej samej gęstości f(xi; a) zależnej od parametru a. Wyra-żenie

L = L(x1, . . . , xn; a) = f1(x1; a) f2(x2; a)· · · fn(xn; a) (4.8) nazywamy funkcją wiarygodności, a

In= E " 2ln L ∂a2 # = nE " 2ln f (x1; a) ∂a2 # (4.9)

ilością informacji w sensie Fishera lub krótko informacją Fishera. Rao i Cramér niezależnie wykazali (por. [70]), że wariancja dowolnego estymatora Tn

parame-4.2. Własności estymatorów 75

tru a, wyznaczonego na podstawie próby prostej x1, . . . , xn spełnia następujący warunek D2[Tn]> 1 In = 1 nE " 2ln f (x1; a) ∂a2 #, (4.10)

nazywany nierównością Rao–Craméra. Tak więc wariancja dowolnego estymato-ra jest nie mniejsza niż odwrotność informacji Fisheestymato-ra. Uogólnieniem informacji Fishera, dla jednego parametru, jest dla wektora parametrów macierz informacji Fishera.

Przykład 4.6. Załóżmy, że dokonano n pomiarów parametru a i otrzymano próbę prostą x1, . . . , xn, przy czym każda obserwacja xi ma rozkład normalny,

xi ∼ N(a, σ) – gęstość σ1

exph12 x−aσ 2i .

Wyznaczymy liczbę informacji w sensie Fishera tej próby względem parametru

a. W tym celu obliczymy

ln f (xi; a) = ln(σ√ 2π)−1 2 x1− a σ 2 , i = 1, . . . , n, oraz 2ln f (x1; a)) ∂a2 = 1 σ2

i po podstawieniu do (4.9) liczba informacji In = n/σ2, a stąd i (4.10) wynika dolne ograniczenie wariancji dowolnego estymatora Tn parametru a

D2[Tn]> σ2

n. (4.11)

Zgodnie z nierównością Rao–Craméra nie istnieje nieobciążony estymator pa-rametru a z tej próby o mniejszej wariancji niż σ2/n. Zwykle do oceny parametru a stosowana jest średnia arytmetyczna ¯x z obserwacji, której wariancja wynosi

D2x] = D2 " 1 n n X i=1 xi # = 1 n2 n X i=1 D2[xi] = 1 n22 = σ 2 n,

więc dla estymatora Tn = ¯x nierówność Rao–Craméra przechodzi w równość.

Stąd ważny wniosek, że wartość średnia z próby prostej o rozkładzie normalnym

N (x, σ) jest najefektywniejszym estymatorem w klasie wszystkich możliwych

Warunek nieobciążoności może jednak eliminować estymatory obciążone w małym stopniu o być może istotnie mniejszej wariancji. Bywa również, że esty-matory nieobciążone, jak również estyesty-matory o minimalnej wariancji nie istnieją.

Rozpatrzono statystykę s2

1 = n−11 P

(xi−¯x)2opartą na obserwacjach x1, . . . , xn

pochodzących z rozkładu normalnego xi ∼ N(µ, σ2). Wykazano (por. przykład 4.3), że E[s2

1] = σ2, czyli s2

1 jest nieobciążonym estymatorem parametru σ2. Po-nieważ [70] (n− 1)s21 σ2 ∼ χ2n−1, więc D2[(n− 1)s2 1 σ2 ] = D22n−1] = 2(n− 1), a stąd D2[s21] = 4 n− 1. Rozpatrzymy estymatory γs2

1 parametru σ2, które powstają przez pomnoże-nie s2

1 przez liczbę γ. Dla γ 6= 1 statystyka γs2

1 jest obciążonym estymatorem. Wyznaczymy wartość γ, która minimalizuje wariancję względem σ2, więc

E[γs21− σ2]2 = E[γ(s21− σ)2− σ2)− σ2(1− γ)]2= ( 2 n− 1+ (1− γ) 2 ) σ4. Wyrażenie E[γs2

1− σ2]2 osiąga minimum dla γm = (n− 1)/(n + 1) i ma wartość

4/(n + 1), która jest mniejsza od wariancji D2[s21] = 2σ4/(n− 1). Po

podsta-wieniu γm do γs2

1 otrzymuje się obciążony estymator

s22= 1 n + 1 n X i=1 (xi− ¯x)2

wariancji σ2, który charakteryzuje się mniejszą wariancją niż nieobciążony esty-mator s2

1 – jest estymatorem najefektywniejszym. Powstaje więc pytanie, który z nich należy wybrać? Odpowiedź zależy od celu estymacji i nie może być roz-strzygnięta jedynie na gruncie analizy statystycznej.

Przedstawiona tu analiza wskazuje, że w wielu przypadkach nie ma jedno-znacznego rozwiązania i eksperymentator musi sam dokonać wyboru kryterium.

4.3. Metody wyznaczania estymatorów 77

4.3. Metody wyznaczania estymatorów

Dotychczas omówiono kryteria oceny estymatorów. Przedstawiono trzy meto-dy wyznaczania estymatorów: historycznie najstarszą metodę momentów, metodę największej wiarygodności (NW) oraz metodę najmniejszych kwadratów (NK). Dwie ostatnie z wymienionych znajdują najszersze zastosowania.

4.3.1. Metoda momentów

Należy wyznaczyć oceny parametrów a1, . . . , ap analizowanej zmiennej losowej

x. Metoda momentów polega na porównaniu momentów – najczęściej kolejnych –

rozkładu zmiennej losowej x (będących funkcjami nieznanych parametrów) z mo-mentami próby. Otrzymuje się, w ten sposób, układ równań, którego rozwiązanie wyznacza estymatory. Opiszemy ten proces bardziej szczegółowo.

Niech

hr(a1, . . . , ap), (4.12) będzie momentem zwykłym rzędu r, natomiast

mr = 1 n n X i=1 xri (4.13)

momentem próby x1, . . . , xn rzędu r . Jeśli p momentów zwykłych rzędów

r1, . . . , rp porówna się z momentami zmiennej losowej odpowiednich rzędów, to otrzyma się układ p równań

mr1 = hr1(a1, . . . , ap),

mr2 = hr2(a1, . . . , ap),

... ... ...

mrp = hrp(a1, . . . , ap),

(4.14)

przy czym rzędy momentów dobierane są tak, aby istniało jednoznaczne rozwią-zanie układu równań. Poszczególne rozwiązania względem parametrów aj wyzna-czają estymatory. Przedstawimy przykład z jednym parametrem.

Przykład 4.7. Założono, że znane jest n realizacji x1, . . . , xn zmiennych loso-wych N(a, σ2). Należy wyznaczyć estymator parametru a metodą momentów. Moment rozkładu pierwszego rzędu wynosi h1(a) = a, natomiast moment próby

m1 = ¯x. Układ równań (4.14) sprowadza się do jednego równania m1= h1(a). Po podstawieniu m1 = ¯x otrzymuje się równanie ¯x = a, którego rozwiązanie ˆa = ¯x

Zaletą metody momentów jest prostota, natomiast podstawową wadą, jak wy-kazał Fisher (por. [86]), jest mniejsza efektywność w porównaniu z estymatorami największej wiarygodności.

4.3.2. Metoda największej wiarygodności

Metoda największej wiarygodności, ze względu na cenne własności i jasną interpretację, jest najważniejszą, obok metody najmniejszych kwadratów, metodą estymacji. Jej podstawy teoretyczne opracował Fisher.

Niech

L = f1(x1; a1, . . . , ap) f2(x2; a1, . . . , ap) · · · fn(xn; a1, . . . , ap) (4.15) będzie funkcją wiarygodności próby x1, . . . , xn, gdzie f(xi; a1, . . . , ap) są gęsto-ściami obserwacji. Wartość funkcji L nazywana jest wiarygodnością. Zasadniczą ideą metody NW jest, aby za ocenę parametrów przyjąć takie ich wartości, dla których wiarygodność jest największa – funkcja L przyjmuje maksimum. Ponie-waż ln L osiąga wartość największą dla tych samych wartości parametrów, jak funkcja L, więc estymatory zwykle wyznacza się, obliczając maksimum ln L – co jest prostsze.

Maksimum funkcji L spełnia układ równań

∂ ln L

∂ai = 0, i = 1, . . . , p, (4.16) którego rozwiązanie wyznacza estymatory.

Przykład 4.8. Na podstawie n elementowej próby prostej pobranej z populacji o rozkładzie wykładniczym

f (x; a) = ae−ax, gdzie a > 0 i x > 0,

wyznaczymy estymator NW parametru a. Funkcja wiarygodności

L = n Y i=1 f (xi; a) = ane−aPxi, więc ln L = n ln a− a n X i=1 xi.

4.3. Metody wyznaczania estymatorów 79

Przyrównując pochodną tej funkcji do zera

∂ ln L ∂a = n a− n X i=1 xi

i rozwiązując równanie względem parametru a, otrzymuje się estymator

ˆ a = Pnn i=1xi = 1 ¯ x. 2 Przykład 4.9. Na podstawie próby prostej x1, . . . , xnpobranej z populacji o roz-kładzie normalnym N(µ, σ2) wyznacza się, metodą NW, estymatory parametrów

µ i σ2 tego rozkładu. Funkcja wiarygodności L = n Y i=1 f (xi; a) = 1 (2π)n/2σnexp " 1 2 n X i=1 (xi− µ)2 σ2 # , stąd ln L =−n 2ln(2πσ 2) 1 2 n X i=1 (xi− µ)2.

Obliczając pochodną względem µ, a następnie σ2, otrzymuje się układ równań

∂ ln L ∂µ =σ12 n X i=1 (xi− µ) = 0, ∂ ln L∂σ2 =n2σ12 + 1 4 n X i=1 (xi− µ)2 = 0.

Po rozwiązaniu pierwszego równania względem µ otrzymuje się estymator

ˆ µ = 1 n n X i=1 xi = ¯x,

natomiast po rozwiązaniu drugiego równania względem σ2 i podstawieniu ¯x

w miejsce µ otrzymuje się estymator

ˆ σ2 = 1 n n X i=1 (xi− ¯x)2 = s2.

Wykazano więc, że średnia arytmetyczna ¯x i wariancja próby s2 są estymatorami

Przykład 4.10. Na podstawie próby prostej x1, . . . , xn pobranej z populacji o rozkładzie geometrycznym

f (x; a) = (1− a)x−1a, gdzie x = 1, 2, . . . , oraz 0 < a < 1, wyznaczymy estymator parametru a metodą największej wiarygodności. Funk-cja f(x; a) określa prawdopodobieństwo pojawienia się wyróżnionego zdarzenia losowego po raz pierwszy w x-tym doświadczeniu, jeśli kolejne doświadczenia są losowo niezależne, a prawdopodobieństwo zdarzenia w każdym doświadczeniu jest takie samo i wynosi a ∈ (0, 1).

Jako przykład sytuacji praktycznej opisanej przez rozkład geometryczny może służyć rzut kostką do gry. Prawdopodobieństwo pojawienia się określonej licz-by, powiedzmy szóstki, w każdym pojedynczym rzucie równe jest a, stąd praw-dopodobieństwo, że „szóstka” pojawi się po raz pierwszy w kolejnych rzutach (x = 1, 2, . . .) wynosi f(1; a) = a, f(2; a) = (1 − a)a, f(3; a) = (1 − a)2a itd. Funkcja wiarygodności L = an n Y i=1 (1− a)xi−1, stąd ln L = n ln a + n X i=1 (xi− 1) ln(1 − a).

Po obliczeniu pochodnej i przyrównaniu jej do zera otrzymano

∂ ln L ∂a = n a 1 1− a n X i=1 (xi− 1) = 0, więc ˆ a = 1 ¯ x (4.17)

jest estymatorem parametru a. Wynik ten może się wydać zaskakujący, gdyż je-steśmy przyzwyczajeni do estymatora równego średniej arytmetycznej, a tu

otrzy-maliśmy jej odwrotność. 2

Jeśli chcemy wyznaczyć prawdopodobieństwo wyrzucenia „szóstki” w poje-dynczym rzucie, to można zrobić to w dwojaki sposób. Rzucać kostką n razy i ocenić prawdopodobieństwo zdarzenia jako stosunek liczby wyrzuconych szóstek

4.3. Metody wyznaczania estymatorów 81

do liczby wszystkich rzutów lub w alternatywny sposób, jak w omawianym tu przykładzie, wykonywać serie rzutów i notować, w którym rzucie, xi, danej serii po raz pierwszy pojawi się szóstka i oszacować a ze wzoru (4.17). Porównanie własności obu metod pozostawiamy czytelnikowi.

4.3.3. Metoda najmniejszych kwadratów

Metoda najmniejszych kwadratów ma długą historię. Przyjmuje się, że jej koncepcja została opracowana przez Gaussa [86]. Niech x1, . . . , xnbędzie zbiorem zaobserwowanych wartości n-elementowej próby prostej, której rozkład zależy od nieznanych parametrów a1, . . . , ap. Wartości tych parametrów należy oszacować na podstawie zaobserwowanych wartości. Niech g(a1, . . . , ap) będzie znaną funk-cją parametrów aj, która określa wartość obserwacji. Postać funkcji g zależy od specyfiki analizowanego problemu. Metoda najmniejszych kwadratów (NK) polega na takim wyborze ocen parametrów ˆaj, które minimalizują wyrażenie

Q = min aj n X i=1 [xi− g(a1, . . . , ap)]2. (4.18)

Jeśli g jest liniową funkcją parametrów aj, to oceny parametrów ˆajliniowy-mi funkcjaliniowy-mi obserwacji x1, . . . , xn. Ponadto, co wykażemy później, dla liniowych zależności i rozkładów normalnych oceny otrzymane metodą NK pokrywają się z ocenami otrzymanymi metodą NW.

Poprzednio wykazaliśmy (por. (3.22)), że jeśli próba prosta x1, . . . , xn pocho-dzi ze zmiennych losowych o tej samej wartości oczekiwanej równej a oraz tej samej wariancji, to minaPn

i=1(xi− a)2 osiągane jest dla ˆa = ¯x, a to oznacza, że

estymatorem wartości oczekiwanej jest średnia arytmetyczna próby. Ta własność wartości średniej mogła być podstawą sformułowania kryterium najmniejszych kwadratów przez Gaussa.

Metoda NK jest podstawowym narzędziem analizy regresji i będzie przedmio-tem szczegółowej analizy w dalszych rozdziałach.

Rozdział 5

Powiązane dokumenty