• Nie Znaleziono Wyników

Analiza danych

N/A
N/A
Protected

Academic year: 2021

Share "Analiza danych"

Copied!
4
0
0

Pełen tekst

(1)

1

Analiza danych

Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/

Estymacja parametryczna (2).

Prawo wielkich liczb.

Centralne twierdzenie graniczne.

ESTYMACJA WARTOŚCI ŚREDNIEJ

Niech µ– wartość oczekiwana zmiennej losowej X. Wówczas:

≈ x µ

Czyli jeżeli wiemy (lub zakładamy), że próbka jest realizacją pewnej zmiennej losowej, to średnia z próbki dobrze przybliża wartość oczekiwaną. Mówi o tym:

Twierdzenie (prawo wielkich liczb):

Niech X - zm. losowa o skończonej wariancji i wart. oczekiwanej µ, x1, ... xn- próba losowa o średniej z rozkładu zmiennej X.

Wówczas:

( ) 1

lim − ≤ =

ε n

µ ε

n

P x

Czyli: dla dużych próbek wartość średnia będzie dowolnie bliska µ. xn

(2)

2

ESTYMACJA ŚREDNIEJ - c.d.

Na ile dobrze średnia z próby przybliża wartość oczekiwaną?

Twierdzenie: Jeśli σ2- wariancja zmiennej losowej, n - wielkość próbki, to:

n n

x

σ = σ

Okazuje się, że dla dużych próbek (n>25) ich średnia zachowuje się jak zmienna losowa o rozkładzie normalnym, niezależnie od rozkładu wyjściowej zmiennej X.

Twierdzenie (centralne twierdzenie graniczne):

Niech X - zm. losowa o wariancji σ2i wart. oczekiwanej µ, x1, ... xn- próba losowa o średniej z rozkładu zmiennej X.

Wówczas:

xn

( a ) P ( N ( ) a )

P

n

x n

n

< = <

0 , 1

lim

σ/ µ

PRZYKŁAD

Serwer bazy danych zapisuje w dzienniku wszystkie

obsługiwane (niezależne) zapytania użytkowników.

Dziennik podzielony jest na pliki po 1000 zapytań każdy.

Nie znamy rozkładu długości pojedynczego zapytania, ale wiemy, że średnio zapytanie ma 500 znaków (z odch. std. 100).

Jakie jest prawdopodobieństwo, że plik dziennika przekroczy 600000 znaków?

0 0,05 0,1 0,15 0,2 0,25

(3)

3

PRZYKŁAD

Z centralnego twierdzenia granicznego wiemy, że:



 

 N n

x~ µ, σ 

 

31 ,100 500

~ N x czyli

Szukamy prawdopodobieństwa, że: x>600 Standaryzując, jest to prawdopodobieństwo:

( ) (

0,1 31

)

31 / 100

500 600 31

/ 100

500 = >

 

 −

− >

N x P

P

Tej wartości nie znajdziemy w tablicach - jest za mała (rzędu 10-420).

PORÓWNYWANIE ESTYMATORÓW

Estymator – pewna statystyka, czyli funkcja wartości próby, mająca przybliżyć wartość parametru populacji.

Estymator nieobciążony – taki estymator, którego wartość średnia jest równa wartości przybliżanego parametru.

Np. wartość średnia jako estymator wart. oczekiwanej.

Estymator nieobciążony wariancji.

Estymatorów nieobciążonych może być wiele. Najbardziej interesowałby nas estymator NMW – nieobciążony o minimalnej wariancji.

Zależy od rozkładu – np. średnia i wariancja z próbki to estymatory NMW dla rozkładu normalnego.

(4)

4

ZASADA NAJWIĘKSZEJ WIAROGODNOŚCI

Który kształt gęstości rozkładu najlepiej pasuje do danych?

Załóżmy, że kształt jest sparametryzowany pewną cechą rozkładu, np. wartością oczekiwaną.

Funkcja wiarogodności: wartość rozkładu łącznego dla danej próbki, przy czym nieznany parametr rozkładu traktujemy jako zmienną. Możemy znaleźć maksimum L ze względu na tę zmienną.

PRZYKŁAD

( = ) = λ e

λ

k k

X P

k

Rozkład Poissona:

!

(liczba sukcesów dla zdarzeń rzadkich)

Obserwujemy wyniki n kolejnych losowań z tego rozkładu.

Funkcja prawdopodobieństwa łącznego:

( λ ) λ

nλ

n x x

n

e

x x x

x f

n

+ +

= !... !

; ,...,

1 ...

1

1

Traktujemy x1,...xnjako stałe i liczymy maksimum f względem λ. Otrzymujemy:

= x

λ ˆ

Cytaty

Powiązane dokumenty

Tetrisa możemy kłaść w dowolny sposób na szachownicę tak, aby boki tetrisa pokry- wały się z bokami pól na szachownicy, możemy również go obracać.. Mamy dane dwa

Jeśli jednak, z jakiegoś powodu niemożliwe jest stosowanie detekcji cech ad hoc i magazynowanie ich w bazie danych (np. w przypadku dynamicznie aktualizowanej bazy danych w

Zadanie 13. Oba gazy przereagowały całkowicie. Napisz równanie reakcji i oblicz liczbę cząsteczek otrzymanego produktu z dokładnością do drugiego miejsca po

Znaleźć wartość oczekiwaną pola prostokąta, którego obwód równy jest 20, a jeden bok jest zmienną losową X o rozkładzie jednostajnym na odcinku [1, 10].. Niech X będzie

Jakie jest prawdopodobieństwo, że losowo wybrana osoba waży więcej niż 83 kg?. Jaka jest frakcja osób mających wagę pomiędzy 71 a

Jaka jest oczekiwana liczba sukcesów w pierwszym doświadczeniu, jeżeli wiadomo, że w serii n doświadczeń zaszło k sukcesów?. Z.12 Obliczyć prawdopodobieństwo, że serię

Niech X będzie

Świadectwem nastrojów i przemian w obrębie rodziny i małżeństwa, cha- rakterystycznych dla pierwszych dekad PRL, będzie niniejszy artykuł, którego celem jest