Statystyka i eksploracja danych
Statystyki dostateczne i ENMW — teoria
Rozważamy model statystyczny (X , {Pθ, θ∈ Θ}). Najczęściej mamy do czynienia z pró- bą prostą n-elementową i wówczas X = Xn, gdzie X to zbiór możliwych wyników pojedyn- czego losowania, a Pθ to iloczyn rozkładów n pojedynczych prób.
Definicja: Statystyką nazywamy odwzorowanie T : X → Rk, k ∈ N. (Czyli statystyka to po prostu pewna funkcja próby, być może o wartościach w Rk).
Definicja: Statystyka T jest dostateczna, jeżeli dla każdej wartości t tej statystyki jej roz- kład warunkowy Pθ(· | T = t) nie zależy od θ.
Kryterium faktoryzacji:Statystyka T jest dostateczna wtedy i tylko wtedy, gdy gęstość rozkładu prawdopodobieństwa próby X1, . . . , Xn można przedstawić w postaci
fθ(x1, . . . , xn) = gθ(T (x1, . . . , xn))h(x1, . . . , xn),
czyli w postaci iloczynu funkcji h zależnej od wartości próby, ale niezależnej od parametru θ i funkcji gθ zależnej od parametru θ i zależnej od próby, ale tylko poprzez wartość staty- styki T .
Uwaga:
• Statystyki dostateczne mają następujące zastosowanie praktyczne: zamiast brać pod uwagę całą próbę, tzn. uwzględniać wszystkie wylosowane wartości oraz ich kolejność, możemy ograniczyć się do informacji zawartej w wartości statystyki; jeśli statysty- ka jest dostateczna, to jej wartość jest wystarczającą (dostateczną) informacją do wnioskowania o wartości nieznanego parametru.
• Dla danej rodziny rozkładów może istnieć kilka statystyk dostatecznych. Np. ca- ła próba jest zawsze statystyką dostateczną. Najczęściej statystyką dostateczną jest również statystyka porządkowa, czyli próba uporządkowana od wartości najmniej- szej do największej. Powstaje problem jak wybrać statystykę, która będzie zawierała minimalną ilość informacji wystarczającą do wyznaczenia wartości nieznanego pa- rametru.
Definicja: Statystykę dostateczną S nazywamy minimalną statystyką dostateczną, jeżeli dla każdej statystyki dostatecznej T istnieje funkcja h taka, że S = h(T ) (czyli S powstaje jako pewna funkcja każdej innej statystyki dostatecznej).
Fakt: S jest minimalną statystyką dostateczną, jeżeli S(x1, . . . , xn) = S(x′1, . . . , x′n) wtedy i tylko wtedy, gdy iloraz
fθ(x1, . . . , xn) fθ(x′1, . . . , x′n)
nie zależy od θ.
Definicja: Statystyka T jest zupełna, jeżeli z faktu, że Eθh(T ) = 0 wynika, że h ≡ 0.
Twierdzenie:Każda statystyka dostateczna zupełna jest minimalną statystyką dostatecz- ną.
Uwaga:Dla pewnych szczególnych rodzin rozkładów (rodziny wykładnicze) można podać twierdzenie, które pozwala łatwo wyznaczać statystyki dostateczne zupełne.
Definicja:Rodzinę rozkładów prawdopodobieństwa {Pθ} nazywamy rodziną wykładniczą, jeżeli każdy z rozkładów ma gęstość, którą można zapisać w postaci
fθ(x) = exp
k
X
j=1
cj(θ)Tj(x) − b(θ)
· h(x),
gdzie T1(x), . . . , Tk(x) są funkcjami liniowo niezależnymi, a (c1(θ), . . . , ck(θ)), θ ∈ Θ tworzą zbiór k-wymiarowy.
Twierdzenie: Jeżeli X1, . . . , Xn jest próbą z pewnego rozkładu z rodziny wykładniczej,
to n
X
i=1
T1(Xi), . . . ,
n
X
i=1
Tk(Xi)
!
jest k-wymiarową statystyką dostateczną zupełną.
Definicja: Estymator nieobciążony nazywamy estymatorem nieobciążonym minimalnej wariancji (ENMW), jeśli jego ryzyko (w klasie wszystkich estymatorów nieobciążonych) jest minimalne. Dla estymatora nieobciążonego pojęcia ryzyka i wariancji są równoważne.
Twierdzenie: Jeżeli T jest statystyką dostateczną zupełną i dla danej funkcji g istnieje taka funkcja ˆg, że ˆg(T ) jest nieobciążonym estymatorem parametru g(θ), to ˆg(T ) jest ENMW parametru g(θ).
(Na podstawie: Ryszard Zieliński, Siedem wykładów wprowadzających do statystyki ma- tematycznej, PWN, Warszawa, 1990)