1
Analiza danych
Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/
Estymacja parametryczna (2).
Prawo wielkich liczb.
Centralne twierdzenie graniczne.
ESTYMACJA WARTOŚCI ŚREDNIEJ
Niech µ– wartość oczekiwana zmiennej losowej X. Wówczas:
≈ x µ
Czyli jeżeli wiemy (lub zakładamy), że próbka jest realizacją pewnej zmiennej losowej, to średnia z próbki dobrze przybliża wartość oczekiwaną. Mówi o tym:
Twierdzenie (prawo wielkich liczb):
Niech X - zm. losowa o skończonej wariancji i wart. oczekiwanej µ, x1, ... xn- próba losowa o średniej z rozkładu zmiennej X.
Wówczas:
( ) 1
lim − ≤ =
∀
ε →∞ nµ ε
n
P x
Czyli: dla dużych próbek wartość średnia będzie dowolnie bliska µ. xn
2
ESTYMACJA ŚREDNIEJ - c.d.
Na ile dobrze średnia z próby przybliża wartość oczekiwaną?
Twierdzenie: Jeśli σ2- wariancja zmiennej losowej, n - wielkość próbki, to:
n n
x
σ = σ
Okazuje się, że dla dużych próbek (n>25) ich średnia zachowuje się jak zmienna losowa o rozkładzie normalnym, niezależnie od rozkładu wyjściowej zmiennej X.
Twierdzenie (centralne twierdzenie graniczne):
Niech X - zm. losowa o wariancji σ2i wart. oczekiwanej µ, x1, ... xn- próba losowa o średniej z rozkładu zmiennej X.
Wówczas:
xn
( a ) P ( N ( ) a )
P
nx n
n−
< = <
∞
→
0 , 1
lim
σ/ µPRZYKŁAD
Serwer bazy danych zapisuje w dzienniku wszystkie
obsługiwane (niezależne) zapytania użytkowników.
Dziennik podzielony jest na pliki po 1000 zapytań każdy.
Nie znamy rozkładu długości pojedynczego zapytania, ale wiemy, że średnio zapytanie ma 500 znaków (z odch. std. 100).
Jakie jest prawdopodobieństwo, że plik dziennika przekroczy 600000 znaków?
0 0,05 0,1 0,15 0,2 0,25
3
PRZYKŁAD
Z centralnego twierdzenia granicznego wiemy, że:
N n
x~ µ, σ
31 ,100 500
~ N x czyli
Szukamy prawdopodobieństwa, że: x>600 Standaryzując, jest to prawdopodobieństwo:
( ) (
0,1 31)
31 / 100
500 600 31
/ 100
500 = >
−
− >
N x P
P
Tej wartości nie znajdziemy w tablicach - jest za mała (rzędu 10-420).
PORÓWNYWANIE ESTYMATORÓW
Estymator – pewna statystyka, czyli funkcja wartości próby, mająca przybliżyć wartość parametru populacji.
Estymator nieobciążony – taki estymator, którego wartość średnia jest równa wartości przybliżanego parametru.
Np. wartość średnia jako estymator wart. oczekiwanej.
Estymator nieobciążony wariancji.
Estymatorów nieobciążonych może być wiele. Najbardziej interesowałby nas estymator NMW – nieobciążony o minimalnej wariancji.
Zależy od rozkładu – np. średnia i wariancja z próbki to estymatory NMW dla rozkładu normalnego.
4
ZASADA NAJWIĘKSZEJ WIAROGODNOŚCI
Który kształt gęstości rozkładu najlepiej pasuje do danych?
Załóżmy, że kształt jest sparametryzowany pewną cechą rozkładu, np. wartością oczekiwaną.
Funkcja wiarogodności: wartość rozkładu łącznego dla danej próbki, przy czym nieznany parametr rozkładu traktujemy jako zmienną. Możemy znaleźć maksimum L ze względu na tę zmienną.
PRZYKŁAD
( = ) = λ e
−λk k
X P
k
Rozkład Poissona:
!
(liczba sukcesów dla zdarzeń rzadkich)
Obserwujemy wyniki n kolejnych losowań z tego rozkładu.
Funkcja prawdopodobieństwa łącznego:
( λ ) λ
nλn x x
n
e
x x x
x f
n −
+ +
= !... !
; ,...,
1 ...
1
1
Traktujemy x1,...xnjako stałe i liczymy maksimum f względem λ. Otrzymujemy: