Statystyka i eksploracja danych Statystyki dostateczne i ENMW — teoria

(1)

Statystyka i eksploracja danych

Statystyki dostateczne i ENMW — teoria

Rozważamy model statystyczny (X , {Pθ, θ∈ Θ}). Najczęściej mamy do czynienia z pró- bą prostą n-elementową i wówczas X = Xⁿ, gdzie X to zbiór możliwych wyników pojedyn- czego losowania, a Pθ to iloczyn rozkładów n pojedynczych prób.

Deﬁnicja: Statystyką nazywamy odwzorowanie T : X → R^k, k ∈ N. (Czyli statystyka to po prostu pewna funkcja próby, być może o wartościach w R^k).

Deﬁnicja: Statystyka T jest dostateczna, jeżeli dla każdej wartości t tej statystyki jej roz- kład warunkowy Pθ(· | T = t) nie zależy od θ.

Kryterium faktoryzacji:Statystyka T jest dostateczna wtedy i tylko wtedy, gdy gęstość rozkładu prawdopodobieństwa próby X₁, . . . , X_n można przedstawić w postaci

f_θ(x₁, . . . , x_n) = gθ(T (x₁, . . . , x_n))h(x₁, . . . , x_n),

czyli w postaci iloczynu funkcji h zależnej od wartości próby, ale niezależnej od parametru θ i funkcji gθ zależnej od parametru θ i zależnej od próby, ale tylko poprzez wartość staty- styki T .

Uwaga:

• Statystyki dostateczne mają następujące zastosowanie praktyczne: zamiast brać pod uwagę całą próbę, tzn. uwzględniać wszystkie wylosowane wartości oraz ich kolejność, możemy ograniczyć się do informacji zawartej w wartości statystyki; jeśli statystyka jest dostateczna, to jej wartość jest wystarczającą (dostateczną) informacją do wnioskowania o wartości nieznanego parametru.

• Dla danej rodziny rozkładów może istnieć kilka statystyk dostatecznych. Np. ca- ła próba jest zawsze statystyką dostateczną. Najczęściej statystyką dostateczną jest również statystyka porządkowa, czyli próba uporządkowana od wartości najmniej- szej do największej. Powstaje problem jak wybrać statystykę, która będzie zawierała minimalną ilość informacji wystarczającą do wyznaczenia wartości nieznanego parametru.

Deﬁnicja: Statystykę dostateczną S nazywamy minimalną statystyką dostateczną, jeżeli dla każdej statystyki dostatecznej T istnieje funkcja h taka, że S = h(T ) (czyli S powstaje jako pewna funkcja każdej innej statystyki dostatecznej).

Fakt: S jest minimalną statystyką dostateczną, jeżeli S(x₁, . . . , x_n) = S(x^′₁, . . . , x^′_n) wtedy i tylko wtedy, gdy iloraz

f_θ(x₁, . . . , x_n) f_θ(x^′₁, . . . , x^′_n)

(2)

nie zależy od θ.

Deﬁnicja: Statystyka T jest zupełna, jeżeli z faktu, że Eθh(T ) = 0 wynika, że h ≡ 0.

Twierdzenie:Każda statystyka dostateczna zupełna jest minimalną statystyką dostatecz- ną.

Uwaga:Dla pewnych szczególnych rodzin rozkładów (rodziny wykładnicze) można podać twierdzenie, które pozwala łatwo wyznaczać statystyki dostateczne zupełne.

Deﬁnicja:Rodzinę rozkładów prawdopodobieństwa {Pθ} nazywamy rodziną wykładniczą, jeżeli każdy z rozkładów ma gęstość, którą można zapisać w postaci

fθ(x) = exp





k

X

j=1

cj(θ)Tj(x) − b(θ)



· h(x),

gdzie T₁(x), . . . , Tk(x) są funkcjami liniowo niezależnymi, a (c₁(θ), . . . , ck(θ)), θ ∈ Θ tworzą zbiór k-wymiarowy.

Twierdzenie: Jeżeli X₁, . . . , X_n jest próbą z pewnego rozkładu z rodziny wykładniczej,

to n

X

i=1

T₁(Xi), . . . ,

n

X

i=1

T_k(Xi)

!

jest k-wymiarową statystyką dostateczną zupełną.

Deﬁnicja: Estymator nieobciążony nazywamy estymatorem nieobciążonym minimalnej wariancji (ENMW), jeśli jego ryzyko (w klasie wszystkich estymatorów nieobciążonych) jest minimalne. Dla estymatora nieobciążonego pojęcia ryzyka i wariancji są równoważne.

Twierdzenie: Jeżeli T jest statystyką dostateczną zupełną i dla danej funkcji g istnieje taka funkcja ˆg, że ˆg(T ) jest nieobciążonym estymatorem parametru g(θ), to ˆg(T ) jest ENMW parametru g(θ).

(Na podstawie: Ryszard Zieliński, Siedem wykładów wprowadzających do statystyki ma- tematycznej, PWN, Warszawa, 1990)