• Nie Znaleziono Wyników

Estymacja i estymatory

N/A
N/A
Protected

Academic year: 2021

Share "Estymacja i estymatory"

Copied!
27
0
0

Pełen tekst

(1)

Statystyka i opracowanie danych

Podstawy wnioskowania statystycznego.

Prawo wielkich liczb. Centralne twierdzenie graniczne.

Estymacja i estymatory

Dr Anna ADRIAN Paw B5, pok 407

adrian@tempus.metal.agh.edu.pl

(2)

Wprowadzenie

Jeśli S jest przestrzenią zdarzeń elementarnych (w statystyce nazywana populacją), to

Prostą próbą losową (próbką statystyczną) o liczności n nazywamy ciąg niezależnych zmiennych losowych X1, X2 ,….., Xn , określonych na przestrzeni S i takich, że każda z nich ma ten sam rozkład.

Ciąg wartości x1, x2 ,….., xn próby losowej X1, X2 ,….., Xn nazywamy realizacją próby losowej .

Wybór n elementów populacji powinien być dokonany

w taki sposób, żeby każdy podzbiór populacji, składający się z n elementów miał taką samą szansę wybrania

(3)

Zadanie:

ocenić średni wzrost dorosłych Polaków.

– Jeśli wybieramy próbę spośród studentów – nie jest to jednak próba wszystkich dorosłych Polaków

– Utożsamiamy populację z badaną cechą

– Szacujemy szukaną wartość ( średni wzrost) obliczając pewną wartość z próby

– Niech T(X1, X2 ,….., Xn) , w naszym rozumieniu, dobrze przybliża wartość nieznanego wskaźnika.

– Taką funkcję T nazywamy statystyką.

– Każda tak rozumiana statystyka jest zmienną losową, a zatem posiada określony rozkład i ten rozkład

odgrywa bardzo ważną rolę w analizie statystycznej.

(4)

Rozkład średniej w prostej próbie losowej

Średnią, w prostej próbie losowej X1, X2 ,….., Xn o liczności n, nazywamy statystykę

Podana definicja jest szczególnym przypadkiem statystyki T(X1, X2 ,….., Xn)

Średnia X jest zmienną losową, a x jest konkretną wartością z jednej konkretnej próby. Możemy

wylosować kilka prób 100 elementowych i z każdej otrzymać inną wartość np.x=`176,5; x =177,8 ...

n

X X

X X + + + n

= 1 2 ...

(5)

Prawo Wielkich Liczb (PWL)

Prawo Wielkich Liczb:

Niech X będzie zmienną losową o wartości oczekiwanej µX

i skończonej wariancji σ2X< i niech X1, X2 ,….., Xn będzie prostą próbą losową z rozkładu zmiennej X.

Wówczas dla dowolnie małej dodatniej liczby ε i n→∞

]) ,

[

( X µ

X

ε µ

X

+ ε

P

1

(6)

Charakterystyki rozkładu wartości średniej

Zakładając, że prosta próba losowa X1, X2 ,….., Xn

pochodzi z rozkładu o wartości średniej µ i wariancji σ2, Otrzymamy

( )

n n

n n

Xn

X X X

Xn X

X X

2 2

2 2

2

2 1 ....

.

) ...

1 ( )

...

1 (

2 1

2 1

σ σ σ

σ σ

µ µ

µ µ

µ µ

µ µ

= +

+ +

=

= +

+ +

= +

+ +

=

X n

X

σ σ

µ µ

= zatem =

(7)

Centralne twierdzenie graniczne

Jeśli X1, X2 ,….., Xn jest prostą próbą losową z rozkładu o wartości średniej µ i skończonej wariancji σ2 .

Wówczas dla prób losowych o dużej liczebności rozkład

standaryzowanej średniej jest bliski standardowemu rozkładowi normalnemu N(0,1), tzn rozkład średniej X jest w przybliżeniu równy rozkładowi

Zatem dla dowolnych a i b (a b) i zmiennej losowej Z o standardowym rozkładzie normalnym

) ( )

( )

/ b P(a Z b b a

n a X

P = Φ Φ

σ

µ

) /

,

( n

N µ σ

(8)

Zastosowanie - przykład

Rozkład naszego codziennego dojazdu do pracy jest

w przybliżeniu jednostajny na odcinku ( 0,5h,1h) a jednocześnie czasy dojazdów w różne dni są niezależne. Jakie ( w przybliżeniu) jest prawdopodobieństwo zdarzenia, że średni dzienny dojazd

w ciągu 30 dni przekroczy 0,8h (48 min) Rozwiązanie:

niech Xi oznacza czas dojazdu w i-tym dniu, i=1,…,30 Xi ma rozkład jednostajny na odcinku [0,5 , 1], zatem

stąd

( )

48 1 12

5 , 0 1

4 3 2

1 5

,

0 2 2

=

= + =

= i

i X

X oraz σ

µ

03 , 0 )

89 , 1 ( 1

) 89 , 1 (

30

* 48

1 4 8 3

, 0

30

* 48

1 4 3

= Φ

=

>

>

Z P X

P

(9)

Rozkład częstości

Zakładamy, że zmienna X z rozkładu, z którego pochodzi próba, może przyjmować tylko dwie wartości:

• 1, gdy badany obiekt posiada określoną cechę

• 0, gdy obiekt tej cechy nie posiada oznaczmy

• p=P(X=1)

• q=1-p=P(X=0)

Liczba p, zwana proporcją jest równa prawdopodobieństwu posiadania wybranej cechy (własności) przez losowo wybraną jednostkę.

Zauważmy, że µX=1*p+0*(1-p)=p, stąd też wynika że rozpatrywany wcześniej problem szacowania wartości średniej jest w tym konkretnym przypadku jednoznaczny z szacowaniem proporcji.

Przykłady zastosowań: szacowanie proporcji produktów wadliwych wyprodukowanych w ciągu miesiąca, albo leworęcznych uczniów przychodzących do I klasy

(10)

Rozkład częstości

Częstością występowania w prostej próbie losowej nazywamy statystykę

gdzie

X1, X2 ,….., Xn jest prostą próbą losową z rozkładu dwupunktowego o wartościach 0 i 1.

Statystykę p obliczoną dla konkretnych wartości w próbie nazywamy wartością częstości

n p X

n

i i

=

= 1

ˆ

(11)

Twierdzenia o częstości występowania

1. Częstość występowania pomnożona przez liczność próby ma rozkład dwumianowy (Bernouliego) B (n, p). Ponadto

2. Dla dowolnych rzeczywistych a i b, gdy n→∞

n p p

p

p p

) 1

2 (

ˆ ˆ

=

= σ

µ

) ( )

) ( 1

(

ˆ b b a

n p p

p a p

P Φ Φ

(12)

Przykład zastosowań

• W populacji dorosłych Polaków 39% ma kłopoty ze snem. Jakie jest prawdopodobieństwo, że w próbie 100 elementowej ,

częstość osób mających kłopoty ze snem nie przekroczy 0,33.

• Interesuje nas

• Dane: a=-, b=33, n=100

) 33 , ˆ 0

( pP

( )

( 1.13) 0.1292

61 . 0

* 39 . 0

* 100

39 5

. 0 5 33

. 0

ˆ 33  = Φ =



+

Φ

+

p P

(13)

Estymacja i estymatory.

(14)

Techniki wnioskowania statystycznego

W statystyce matematycznej stosowane są dwie techniki wnioskowania:

• Estymacja polegająca na oszacowaniu z pewną dokładnością

określonych wartości charakteryzujących rozkład badanej cechy np. częstości, wartości oczekiwanej, wariancji.

• Weryfikacja hipotez statystycznych polegająca na sprawdzeniu słuszności przypuszczeń dotyczących postaci rozkładu cechy

(testy zgodności) bądź wartości jego parametrów (parametryczne testy istotności)

Obie wymienione techniki uzupełniają się wzajemnie.

(15)

Co to jest estymator

• Zakładamy, że rozkład badanej cechy w populacji generalnej jest opisany za pomocą dystrybuanty

F (x;Θ), gdzie Θ oznacza parametr od którego zależy ta dystrybuanta (taki jak np. λ w rozkładzie Poissona).

• Nieznana wartość parametru Θ będzie szacowana

(obliczona) na podstawie próby n-elementowej (X

1

,. ,X

n

)

(16)

Definicja estymatora

• Estymatorem T

n

parametru Θ rozkładu populacji

generalnej nazywa się statystykę (dowolną) z próby T

n

= t (X

1

,.... ,X

n

), która służy do oszacowania wartości

liczbowej tego parametru.

• Skoro szacunku parametru dokonuje się w oparciu o dane z próby, zatem istnieje możliwość popełnienia błędu (

niech go oznacza litera d), który nazywany jest błędem szacunku (estymacji) parametru Θ

d = T

n

- Θ

(17)

Błąd estymacji

Błąd d jest też zmienną losową ( zależną od próby losowej), a za miarę tego błędu przyjmuje się

= E (T

n

– Θ)

2

Zauważmy, że jeśli E (T

n

) = Θ wtedy wyrażenie określające

, jest wariancją D

2

(T

n

) estymatora T

n,

, a odchylenie standardowe D(T

n

) jest średnim

(standardowym) błędem szacunku parametru Θ,

błędem względnym oszacowania jest iloraz D(T

n

) / Θ

(18)

Estymacja i estymatory

Rozpatrywane dotychczas statystyki: średnia i częstość należą do najczęściej stosowanych w praktyce.

W przypadku gdy statystyki używane są do szacowania (przybliżania) nieznanych parametrów rozkładu zmienne losowej noszą specjalną nazwę:

• Statystykę T(X1, X2 ,….., Xn ), służącą do oszacowania nieznanego parametru populacji nazywamy estymatorem.

• Dla konkretnych wartości próby X1=x1, X2=x2 , ….., Xn= xn liczbę T(X1, X2 ,….., Xn ) nazywamy wartością estymatora

(19)

Estymacja i estymatory

W zależności od tego co chcemy oszacować rozróżnia się

estymację parametryczną, gdy szacowane są parametry rozkładu zmiennej X (np. E(X), D2(X))

Estymację nieparametryczną, gdy próbujemy wnioskować o postaci rozkładu cechy X w populacji.

Podstawy teorii estymacji sformułował Karl Pearson na przełomie XIX i XX wieku.

1. Pierwszym krokiem w estymacji jest wylosowanie z populacji n - elementowej próby, po czym

2. na podstawie badań próby - obliczeń wykonanych na danych zawartych w próbce

3. wyciągamy wnioski dotyczące badanej cechy w całej populacji.

(20)

Rodzaje estymacji wg kryterium wyniku

• Estymacja punktowa – ma zastosowanie gdy, na podstawie danych z próby, chcemy ustalić liczbową wartość określonego parametru rozkładu cechy w całej populacji

• Estymacja przedziałowa polega na wyznaczeniu granic przedziału liczbowego, w którym, z określonym prawdopodobieństwem,

zawiera się wartość szacowanego parametru

Podstawowym narzędziem szacowania nieznanego parametru jest estymator obliczony na podstawie próby. np. dla wartości

oczekiwanej jest to średnia arytmetyczna, albo średnia ważona.

Liczba możliwych estymatorów konkretnego parametru rozkładu może być duża ale, bierze się pod uwagę tylko te, które posiadają określone właściwości (cechy).

(21)

Cechy dobrego estymatora

• Zgodny

• Nieobciążony

• Najefektywniejszy Estymator jest

zgodny jeśli jest stochastycznie zbieżny z szacowanym parametrem.

W praktyce oznacza to, że im większa próba (liczność próbki) tym większe prawdopodobieństwo, że

estymator przyjmie wartości bliższe szacowanemu parametrowi. Przykład im więcej ćwiczymy tym

bardziej prawdopodobny sukces.

(22)

Zbieżność stochastyczna

Ciąg zmiennych losowych (X1, X2 ,….., Xn )={Xn} jest stochastycznie zbieżny do stałej c, jeśli dla dowolnego ε>0, jest spełniona zależność

Oznacza to, że prawdopodobieństwo zdarzenia

wzrasta do 1, co nie oznacza zbieżności w sensie analizy matematycznej

( ) 1

lim < =

P X

n

c ε

n

( X

n

c < ε )

(23)

Estymator zgodny

Estymator Tn jest zgodny jeśli dla dowolnego ε>0.

1 }

lim { Θ < =

n

ε

n

T P

Jeśli wybrany estymator nie jest zgodny to zwiększenie

liczebności próby może go oddalić od wartości szacowanej.

Przykład estymatorem średnich wyników grupy jest średnia ocena najlepszego studenta, tak skrajnie zdefiniowany

estymator nie jest zgodny, bo zwiększenie liczności grupy zwiększa prawdopodobieństwo oddalania go od średniej oceny w całej grupie.

Jeśli estymator jest zgodny to jest asymptotycznie nieobciążony

(24)

Podstawowe własności estymatorów

• Tw.2: Jeśli estymator jest nieobciążony lub

asymptotycznie nieobciążony oraz jego wariancja spełnia relację

to jest on estymatorem zgodnym

• Estymator Tn parametru Θ jest nieobciążony jeśli spełniona jest relacja

E (Tn) = Θ

Jeśli ta relacja nie zachodzi, to estymator nazywamy obciążonym , a wielkość

b (Tn) = E (Tn) - Θ nazywamy obciążeniem estymatora

0 )

2(

lim

=

n

n

T D

(25)

Cechy dobrego estymatora -

Nieobciążoność

• Nieobciążoność estymatora oznacza, że wartość oczekiwana estymatora nieobciążonego jest

dokładnie równa wartości szacowanego parametru.

Obciążoność oznacza, że wartości dostarczane przez taki estymator obciążone są błędem

systematycznym

(26)

Cechy dobrego estymatora -

Efektywność

• Efektywność – estymator jest tym efektywniejszy im mniejsza jest jego wariancja.

• Spośród wszystkich estymatorów, które są zgodne i nieobciążone wybieramy ten, który ma

najmniejszą wariancję, jest najefektywniejszy.

(27)

Własności estymatora - podsumowanie Jeśli dany jest zbiór estymatorów Tn1,... Tnr

nieobciążonych, to ten estymator, który ma w tym zbiorze najmniejsza wariancję, jest estymatorem najefektywniejszym.

Tw. Estymator parametru statystycznego powinien być:

• nieobciążony

• zgodny

• najefektywniejszy

Metody wyznaczania estymatorów:

metoda momentów,

metoda największej wiarygodności

Cytaty

Powiązane dokumenty

Tematem niniejszej pracy jest asympto- tycznie odporna (w sensie: najbardziej stabilna) ze względu na obciążenie estymacja parametru położenia bądź parametru skali

Huber [16] otrzymał asymptotycznie najodporniejszy ze względu na wariancję ciąg M-estymatorów logarytmu parametru skali przy e-zaburzeniu ogonów rozkładu normalnego,

• Estymacja punktowa – ma zastosowanie gdy, na podstawie danych z próby, chcemy ustalić liczbową wartość określonego parametru rozkładu cechy w całej populacji. •

• Przedział na poziomie ufności 0.95 to taki przedział, że jak wiele razy będziemy powtarzali eksperyment, to średnio 95% wyznaczonych w ten sposób przedziałów zawiera

14.1 W celu oszacowania wartości przeciętnego czasu bezawaryjnej pracy maszyny z partii tych maszyn wybrano losowo 7 maszyn i mierzono czas ich pracy do pierwszej awarii.. Wiedząc,

• Dokonać estymacji gęstości prawdopodobieństwa metodą histogramu i estymato- rów jądrowych na rzeczywistym zbiorze danych oraz danych wygenerowanych z wybranego rozkładu.

Dokonano 100 pomiarów ciśnienia wody na ostatnim piętrze bloku 15 piętrowego i okazało się, że średnie ciśnienie wynosiło 2,21 podczas gdy wariancja wyniosła 4,41..

klientów pewnego banku. 2 ) Znaleźć 98% przedział ufności dla średniego czasu obsługi  , jeśli można założyć, że czas obsługi klienta przy okienku kasowym ma