• Nie Znaleziono Wyników

Statystyka i eksploracja danych Statystyki dostateczne i ENMW — teoria

N/A
N/A
Protected

Academic year: 2021

Share "Statystyka i eksploracja danych Statystyki dostateczne i ENMW — teoria"

Copied!
2
0
0

Pełen tekst

(1)

Statystyka i eksploracja danych

Statystyki dostateczne i ENMW — teoria

Rozważamy model statystyczny (X , {Pθ, θ∈ Θ}). Najczęściej mamy do czynienia z pró- bą prostą n-elementową i wówczas X = Xn, gdzie X to zbiór możliwych wyników pojedyn- czego losowania, a Pθ to iloczyn rozkładów n pojedynczych prób.

Definicja: Statystyką nazywamy odwzorowanie T : X → Rk, k ∈ N. (Czyli statystyka to po prostu pewna funkcja próby, być może o wartościach w Rk).

Definicja: Statystyka T jest dostateczna, jeżeli dla każdej wartości t tej statystyki jej roz- kład warunkowy Pθ(· | T = t) nie zależy od θ.

Kryterium faktoryzacji:Statystyka T jest dostateczna wtedy i tylko wtedy, gdy gęstość rozkładu prawdopodobieństwa próby X1, . . . , Xn można przedstawić w postaci

fθ(x1, . . . , xn) = gθ(T (x1, . . . , xn))h(x1, . . . , xn),

czyli w postaci iloczynu funkcji h zależnej od wartości próby, ale niezależnej od parametru θ i funkcji gθ zależnej od parametru θ i zależnej od próby, ale tylko poprzez wartość staty- styki T .

Uwaga:

• Statystyki dostateczne mają następujące zastosowanie praktyczne: zamiast brać pod uwagę całą próbę, tzn. uwzględniać wszystkie wylosowane wartości oraz ich kolejność, możemy ograniczyć się do informacji zawartej w wartości statystyki; jeśli statysty- ka jest dostateczna, to jej wartość jest wystarczającą (dostateczną) informacją do wnioskowania o wartości nieznanego parametru.

• Dla danej rodziny rozkładów może istnieć kilka statystyk dostatecznych. Np. ca- ła próba jest zawsze statystyką dostateczną. Najczęściej statystyką dostateczną jest również statystyka porządkowa, czyli próba uporządkowana od wartości najmniej- szej do największej. Powstaje problem jak wybrać statystykę, która będzie zawierała minimalną ilość informacji wystarczającą do wyznaczenia wartości nieznanego pa- rametru.

Definicja: Statystykę dostateczną S nazywamy minimalną statystyką dostateczną, jeżeli dla każdej statystyki dostatecznej T istnieje funkcja h taka, że S = h(T ) (czyli S powstaje jako pewna funkcja każdej innej statystyki dostatecznej).

Fakt: S jest minimalną statystyką dostateczną, jeżeli S(x1, . . . , xn) = S(x1, . . . , xn) wtedy i tylko wtedy, gdy iloraz

fθ(x1, . . . , xn) fθ(x1, . . . , xn)

(2)

nie zależy od θ.

Definicja: Statystyka T jest zupełna, jeżeli z faktu, że Eθh(T ) = 0 wynika, że h ≡ 0.

Twierdzenie:Każda statystyka dostateczna zupełna jest minimalną statystyką dostatecz- ną.

Uwaga:Dla pewnych szczególnych rodzin rozkładów (rodziny wykładnicze) można podać twierdzenie, które pozwala łatwo wyznaczać statystyki dostateczne zupełne.

Definicja:Rodzinę rozkładów prawdopodobieństwa {Pθ} nazywamy rodziną wykładniczą, jeżeli każdy z rozkładów ma gęstość, którą można zapisać w postaci

fθ(x) = exp

k

X

j=1

cj(θ)Tj(x) − b(θ)

· h(x),

gdzie T1(x), . . . , Tk(x) są funkcjami liniowo niezależnymi, a (c1(θ), . . . , ck(θ)), θ ∈ Θ tworzą zbiór k-wymiarowy.

Twierdzenie: Jeżeli X1, . . . , Xn jest próbą z pewnego rozkładu z rodziny wykładniczej,

to n

X

i=1

T1(Xi), . . . ,

n

X

i=1

Tk(Xi)

!

jest k-wymiarową statystyką dostateczną zupełną.

Definicja: Estymator nieobciążony nazywamy estymatorem nieobciążonym minimalnej wariancji (ENMW), jeśli jego ryzyko (w klasie wszystkich estymatorów nieobciążonych) jest minimalne. Dla estymatora nieobciążonego pojęcia ryzyka i wariancji są równoważne.

Twierdzenie: Jeżeli T jest statystyką dostateczną zupełną i dla danej funkcji g istnieje taka funkcja ˆg, że ˆg(T ) jest nieobciążonym estymatorem parametru g(θ), to ˆg(T ) jest ENMW parametru g(θ).

(Na podstawie: Ryszard Zieliński, Siedem wykładów wprowadzających do statystyki ma- tematycznej, PWN, Warszawa, 1990)

Cytaty

Powiązane dokumenty

2.10 Podaj przykład dwóch wektorów losowych o różnych rozkładach łącznych, które mają te same

[r]

Przy założeniu, że długości rozmów mają rozkład normalny, wyznacz przedział ufności dla średniej długości rozmowy na poziomie ufności

Zakładając, że droga hamowania ma rozkład normalny, zbadaj, czy liczba prób jest wystarczająca do znalezienia 90% przedziału ufności dla wartości przeciętnej o długości

W związku z tym hipotezę zerową odrzucamy, gdy istotność podawana przez pro- gram jest mniejsza niż deklarowany przez nas poziom istotności, a nie mamy podstaw do odrzucenia, gdy

Na podstawie tych danych, na poziomie istotności 0, 01, prze- testować hipotezę, ze odsetek dorosłych Polaków, którzy nie przeczytali w ubiegłym miesiącu żadnej książki wynosi

Na poziomie istotności 0,05 zweryfikować hipotezę, że frakcja jajek złej jakości jest równa zakładanej, przeciw hipotezie, że frakcja ta jest inna, używając najpierw testu t

Warto tak˙ze zauwa˙zy´c, ˙ze warto´s´c TRUE jest zawsze konwertowana do liczby 1, za´s FALSE do 0.. Maj ˛ ac dany wektor logiczy sprawdzi´c, ile znajduje si˛e w nim