Bootstrapowe przedziały ufności Definicja
Definicja
Przedział (L, R) określony parą statystyk L i R takich, że
Pθ(L ¬ Q) = 1 dla każdego θ ∈ Θ, nazywamyprzedziałem ufności dla parametru θ, napoziomie ufności 1 − α (0 < α < 1), gdy dla każdego θ ∈ Θ
Poziom ufności jest to prawdopodobieństwo wyznaczenia takiego przedziału, że rzeczywista wartość parametru w populacji znajdzie się w tym przedziale. Im większa wartość tego współczynnika, tym szerszy przedział ufności, a więc mniejsza dokładność estymacji parametru. Im mniejsza wartość tego współczynnika, tym większa dokładność estymacji, ale jednocześnie tym większe
prawdopodobieństwo popełnienia błędu. Wybór odpowiedniego współczynnika jest więc kompromisem pomiędzy dokładnością estymacji a ryzykiem błędu.
Typowe wartości poziomu ufności to 90%, 95% i 99%. Szczególnie popularny jest poziom ufności 95%.
Bootstrapowe przedziały ufności Konstrukcja
Definicja
Funkcję Q(XXX , θ) nazywamy funkcją centralnądla parametru θ, gdy:
1 Rozkład prawdopodobieństwa zmiennej losowej Q jest absolutnie ciągły i nie zależy od parametru θ.
1 Wybieramy funkcję centralną Q(XXX , θ). 2 Wyznaczmy stałe a i b tak, aby
∀θ∈Θ: Pθ(a < Q < b) = 1 − α. 3 Rozwiązując nierówność
a < Q(XXX , θ) < b względem θ otrzymujemy szukany przedział
(L(XXX ), R(XXX )). Zazwyczaj stałe a i b wybieramy tak, aby
Pθ(Q ¬ a) = Pθ(Q b) = α
2
Bootstrapowe przedziały ufności Konstrukcja
Theorem
Niech XXX będzie próbą prostą z rozkładu normalnego z wartością oczekiwaną µ i nieznaną wariancją. Wtedy
¯ X − µ
S √
n ∼ t(n − 1).
Przedział ufności dla parametru µ w rozkładzie normalnym
¯ X − √S nt(1 − α 2, n − 1), ¯X + S √ nt(1 − α 2, n − 1) , gdzie t(p, n) = Ft−1(p) oznacza kwantyl rzędu p z rozkładu t(n). Jeśli chcemy oszacować parametr z określoną dokładnością, po przekształceniach wzorów na przedziały ufności możemy wyznaczyć liczebność próby potrzebną do osiągnięcia zakładanej dokładności.
Bootstrapowe przedziały ufności
Dystrybuanta empiryczna i podstawowe twierdzenie statystyki matematycznej
Definicja
Dystrybuanta empirycznaz próby ma postać: Fn(x ) = #{j ¬ n : Xj ¬ x} n , x ∈ R. Theorem (Gliwienki-Cantellego) P lim n→∞supx ∈R|Fn(x ) − F (x )| = 0 ! = 1
Gdy nie znamy rozkładu statystyki centralnej lub nie znamy rozkładu zmiennej losowej opisującej cechę nie możemy skorzystać z klasycznych przedziałów ufności. W takiej sytuacji możemy próbować zastosować metody asymptotyczne (o ile próba jest dostatecznie duże) lubbootstrapowe.
Metoda bootstrap polega na losowaniu kolejno B próbek na podstawie wyjściowej próbki, przy czym losowanie odbywa się ze zwracaniem, a wielkości próbek są takie same jak wielkość próbki wyjściowej. Jeżeli chcemy estymować dany parametr, to estymator bootstrapowy danego parametru określamy jako średnią z wartości tego estymatora obliczonych dla każdej próbki.
Metodę bootstrap można używać także do wyznaczania
przedziałów ufności określonych parametrów. Istnieje tutaj kilka metod – my poznamy tak zwanąmetodę percentylową.
Bootstrapowe przedziały ufności
Metoda percentylowa
Losujemy zatem B próbek bootstrapowych. Dla każdej z nich wyznaczamy interesujący nas parametr, otrzymując B wartości parametru. Teraz poszukujemy kwantyli rzędu α/2 oraz 1 − α/2 z otrzymanego rozkładu empirycznego badanego parametru.