Niech od tej pory (X1, X2, . . . ) oznacza ciąg niezależnych zmiennych losowych o tym samym rozkładzie. Załóżmy, że dystrybuanta F zmiennych Xi, gdzie i = 1, 2, . . . , jest ciągła i ściśle rosnąca na przedziale [a, b] takim, że a = inf{x : F (x) > 0} oraz b = sup{x : F (x) < 1}, a < b.
Przedstawimy teraz kilka ważnych własności pewnej podklasy S-statystyk w rozpatrywanym modelu statystycznym, m.in. pokażemy, że są one silnie zgodnym estymatorami indeksów ̺, podamy dokładną postać ich rozkładu oraz udowodnimy ich asymptotyczną normalność. Kilka wyników teoretycz-nych przytoczoteoretycz-nych z tym podrozdziale zamieściliśmy w pracy [84].
Rozpatrzmy S-statystyki, których współczynniki są generowane przez funkcję kontrolną.
Definicja 4.3.1. S-statystyką generowaną przez funkcję kontrolną κ : [0, 1] → [c, d] ⊆ [a, b] nazywamy funkcję próby losowej (X1, . . . , Xn)
Z wyników zamieszczonych w rozdz. 2.4.8 wynika, iż w ten sposób zdefi-niowana statystyka jest dla d = b funkcją agregującą w sensie def. 2.1.1 oraz że nie jest ona funkcją wpływu (gdyż nie spełnia warunku (I2) z def. 2.2.1).
Skupienie uwagi na takiej podklasie S-statystyk jest jednak celowe; pozwala na wyprowadzenie m.in. ich własności asymptotycznych. Później jednak uzy-skane wyniki będziemy mogli stosować dla konkretnego n.
Przykład 4.3.2. Ustalmy n∈ N. Niech N będzie trójkątem współczynników określonym w tw. 2.4.23. Jeśli κ(x) = nx dla x ∈ [0, n], to Ven,κ = SN|In orazVen,κ(⌊x1⌋, . . . , ⌊xn⌋) = H(x1, . . . , xn). Zatem, dzięki analizie własności S-statystyk, będziemy mogli rozpatrzyć także statystyczne aspekty indeksu h.
Z tego powodu, bez straty ogólności, będziemy od tej pory rozważać S-statystyki postaci loso-wych i.i.d. o ciągłej, ściśle rosnącej dystrybuancie G := F ◦ κ określonej na przedziale [0, 1].
Ponadto, dla uproszczenia zapisu, niech Ven :=Ven,id. FunkcjaeVn
Wartości opisanych wyżej statystyk można obliczać z pomocą biblioteki CITAN, zob. funkcje Sstat() oraz Sstat2() (rozdz. B.4.1).
4.3.1 Rozkład S-statystyk i indeksu h
S-statystykę Ven można zdefiniować w równoważny sposób za pomocą dystry-buanty empirycznej.
Dowód. Mamy Pni=1I(Yi x) = max{i : Y(n−i+1) x}. Dalej:
Z ciągłości G na przedziale (0, 1) przejście z (4.19) do (4.18) jest oczywiste, więc dowód uznajemy za zakończony.
Zanotujmy, że (∀x ∈ (0, 1)) spełnione jest ˆGn(x) p.w.→ G(x) oraz n ˆGn(x) ma rozkład Bin(n, G(x)).
Dokładny rozkład Ven określamy w poniższym twierdzeniu.
Twierdzenie 4.3.4. Dystrybuanta statystyki Ven(Y1, . . . , Yn) określona jest dla x ∈ (0, 1), gdzie I(p; a, b) jest regularyzowaną niekompletną funkcją beta.
Dowód. Dystrybuanta i-tej statystyki pozycyjnej Y(i), i = 1, 2, . . . , n, okre-ślona jest następująco [por. 50, s. 9n]:
G(i)(x) = P(Y(i) ¬ x)
Zwróćmy uwagę, iż rozkład Ven jest typu dyskretno-ciągłego o ewentual-nych skokach w punktach ze zbioru {0, 1/n, 2/n, . . . , n/n}.
Na podstawie wyżej przytoczonych wyników łatwo pokazać, że zachodzi następujący lemat.
Lemat 4.3.5. Dystrybuanta rozkładu indeksu h dla n elementowej próby Rozkład
indeksu h
zmiennych losowych i.i.d. określonych dystrybuantą F dana jest wzorem En(x) = I (F (⌊x + 1⌋); n − ⌊x⌋, ⌊x⌋ + 1⌋) . (4.22) W bibliotece CITAN zdefiniowaliśmy funkcjedhirsch() iphirsch() słu-żące, odpowiednio, do wyznaczania wartości funkcji masy prawdopodobień-stwa i dystrybuanty rozkładu indeksu h dla danej n elementowej próby z roz-kładu ciągłego (por. rozdz. B.4.3).
Ponadto, funkcja psstat() wyznacza wartość dystrybuanty statystyki Ven,κ (dla danego n i κ; por. rozdz. B.4.3).
4.3.2 Silna zgodność S-statystyk
Okazuje się, że S-statystykiVen są silnie zgodnymi estymatorami ̺ := ̺id dla dowolnej dystrybuanty G spełniającej przyjęte na s. 119 założenia. Aby poka-zać, że to stwierdzenie zachodzi, najpierw udowodnimy kilka pomocniczych lematów.
Lemat 4.3.6. Dla każdego x∈ (0, 1) mamy
P(Ven> x) = P(1− x > ˆGn(x)). (4.23) Dowód. Skoro n ˆGn(x)∼ Bin(n, G(x)), to (∀t ∈ (0, n))
P(n ˆGn(x)¬ t) = I(1 − G(x), n − ⌊t⌋, 1 + ⌊t⌋).
Z lematu 4.3.4 otrzymujemy (∀x ∈ (0, 1))
P(Ven > x) = 1− I (G (x) ; n − ⌊xn⌋, ⌊xn⌋ + 1)
= I (1− G(x); ⌊xn⌋ + 1, n − ⌊xn⌋)
= I (1− G(x); n − (n − ⌊xn⌋ − 1), 1 + (n − ⌊xn⌋ − 1))
= P(n ˆGn(x)¬ n − (⌊xn⌋ + 1))
= P( ˆGn(x) < 1− x),
co jest spełnione, gdyż ⌊xn⌋ ¬ xn < ⌊xn⌋ + 1.
Kolejny lemat znany jest jako nierówność Hoeffdinga. Wynik ten został udowodniony w pracy [109].
Lemat 4.3.7 (Nierówność Hoeffdinga). Niech (Z1, . . . , Zn) będzie ciągiem niezależnych zmiennych losowych o skończonych drugich momentach oraz niech 0¬ Zi ¬ 1 dla i = 1, . . . , n. Wtedy dla każdego t > 0 zachodzi
Okazuje się, że zbieżność S-statystyk Ven do ̺ jest wykładnicza.
Lemat 4.3.8. Dla każdego n ∈ N oraz ε > 0 mamy
P̺(|Ven− ̺| > ε) ¬ 2e−2nδ2, (4.25) gdzie δ =|G(̺ + ε) − (1 − (̺ + ε))| ∧ |1 − (̺ − ε) − G(̺ − ε)|.
Dowód. Warto zauważyć, że dowód tego lematu jest podobny do dowodu twierdzenia 2.3.2 z pracy [172] dotyczącego kwantyli z próby.
Zmienna losowa I(Yi > ̺ + ε) ma, rzecz jasna, skończony drugi moment zwykły, bowiem pochodzi z rozkładu Bernoulliego. Dla każdego ε > 0 otrzy-mujemy (z lematów 4.3.6 oraz 4.3.7):
P(Ven > ̺ + ε) = P(1− ̺ − ε > ˆGn(̺ + ε))
Teraz już możemy sformułować następujące twierdzenie.
Twierdzenie 4.3.9. Ven jest silnie zgodnym estymatorem ̺. Silna zgodność
Dowód. Z lematu 4.3.8, P(|Ven−̺| > ε) → 0 z szybkością wykładniczą wzglę-dem n, zatem otrzymujemy Ven p.w.→ ̺ na mocy [172, tw. 1.3.4], co należało pokazać.
4.3.3 Rozkład asymptotyczny S-statystyk
Niestety, wykorzystanie do obliczeń analitycznych bądź praktycznych wzoru (4.21) na rozkładVen może być czasem kłopotliwe. Jest to wystarczająca mo-tywacja, aby postarać się znaleźć jego przybliżenie. W niniejszym paragrafie rozważamy więc asymptotyczny rozkład S-statystyk.
Najpierw przypomnijmy dobrze znany rezultat dotyczący szybkości zbież-ności w Centralnym Twierdzeniu Granicznym Lindeberga-Lévy’ego, które będzie potrzebne do dowodu twierdzenia o asymptotycznej normalności S-statystyk.
Lemat 4.3.10 (Twierdzenie Berry’ego-Esséena). Niech (Z1, Z2, . . . ) oznacza ciąg zmiennych losowych i.i.d. o skończonej wartości oczekiwanej µ, skoń-czonej wariancji σ2 oraz taki, że (∀i) E |Zi− µ|3 <∞. Wtedy dla dowolnego
Φ(x) oznacza dystrybuantę standardowego rozkładu normalnego, a C jest do-datnią stałą niezależną od rozkładu Zi.
Na marginesie, najlepszym znanym nam górnym ograniczeniem dla C jest wartość 0,7056 [zob. 173].
Twierdzenie 4.3.11. Jeśli G jest różniczkowalna w punkcie ̺, to Asymptotyczna normalność
Dowód. Niech x ∈ (0, 1) oraz A > 0 będzie dodatnią stałą, której wartość wyznaczymy za chwilę. Nadto, niech
Kn(x) = P eVn− ̺ A
√n¬ x
!
.
Pokażemy, że gdy n → ∞, to Kn(x)→ Φ(x).
Z lematu 4.3.6 mamy:
Kn(x) = PVen¬ ̺ + xAn−0,5
= P1− ̺ − xAn−0,5 ¬ ˆGn(̺ + xAn−0,5).
Załóżmy, że ∆n,x := ̺ + xAn−0,5. Korzystając z faktu, iż n ˆGn(∆n,x) ma rozkład Bin(n, G(∆n,x)), otrzymujemy
Kn(x) = P
n ˆGn(∆n,x)− nG(∆n,x)
qnG(∆n,x)(1− G(∆n,x)) n(1− ∆n,x)− nG(∆n,x)
qnG(∆n,x)(1− G(∆n,x))
.
Niech Zn,x∗ oraz ζn,x będą takie, że
Zn,x∗ = n ˆGn(∆n,x)− nG(∆n,x)
qnG(∆n,x)(1− G(∆n,x)),
ζn,x = n(1− ∆n,x)− nG(∆n,x)
qnG(∆n,x)(1− G(∆n,x)).
Po podstawieniu ich do powyższego równania uzyskujemy:
Kn(x) = P(Zn,x∗ ζn,x).
Jako że Z1 ∼ Bern(G(∆n,x)), to
E|Z1− E Z1|3 = G(∆n,x)(1− G(∆n,x))((1− G(∆n,x))2+ G(∆n,x)2) (a więc jest skończona) oraz Var Z1 = G(∆n,x)(1− G(∆n,x)).
Z lematu 4.3.10 dla pewnej stałej C > 0 zachodzi:
PZn,x∗ < ζn,x
− Φ(ζn,x) ¬ C
√n
(1− G(∆n,x))2+ G(∆n,x)2
qG(∆n,x)(1− G(∆n,x))
n→∞→ 0,
ponieważ G(∆n,x)(1 − G(∆n,x)) n→∞→ (1 − ̺) ̺ > 0, jako że G jest ciągła w punkcie ̺. Ostatecznie mamy:
|Φ(x) − Kn(x)| = |P (Zn∗ < ζn,x)− (1 − Φ(x))|
= |Φ(x) − Φ(−ζn,x) + P (Zn∗ < ζn,x)− Φ(ζn,x)|
¬ |Φ(x) − Φ(−ζn,x)| + |P r(Zn∗< ζn,x)− Φ(ζn,x)|
→ |Φ(x) − Φ(−ζn,x)|.
Nasze twierdzenie będzie udowodnione, jeśli |Φ(x) − Φ(−ζn,x)| → 0. Powin-niśmy więc ustalić wartość A tak, że −ζn,x → x. Łatwo pokazać, że
−ζn,x = 1
qG(∆n,x) (1− G(∆n,x))
1− ∆n,x− G(∆n,x) n−0,5
= xA
qG(∆n,x) (1− G(∆n,x))
1− ̺ − xAn−0,5− G(̺ + xAn−0,5) xAn−0,5
= − xA
qG(∆n,x) (1− G(∆n,x))
G(̺ + xAn−0,5)− G(̺) + xAn−0,5 xAn−0,5
n→∞→ − xA
q(1− ̺) ̺(G′(̺) + 1) ,
zatem poszukiwane A =q̺ (1− ̺)/(1 + G′(̺)), QED.
Zauważmy, że tw. 4.3.11 implikuje ponadto, że Ven jest asymptotycznie nieobciążonym, (słabo) zgodnym estymatorem ̺.
Przykład 4.3.12. S-statystyki nie są w ogólności estymatorami nieobcią-żonymi parametru ̺κ. Dla przykładu, rys. 4.11 przedstawia obciążenie tego estymatora w przypadku n-elementowej próby i.i.d. pochodzącej z rozkładu P2(1, 1) w zależności od n dla różnych funkcji kontrolnych κ. Obserwujemy, że w tych przypadkach estymatory te cechują się obciążeniem dodatnim.
20 40 60 80 100
0.00020.00060.0010
P2(1,1)
n
Obciazenie
kappa(x)=nx kappa(x)=10x kappa(x)=25x kappa(x)=100x
Rysunek 4.11: Obciążenie S-statystyk jako estymatorów indeksu ̺.
0.0 0.2 0.4 0.6 0.8 1.0
0.00.20.40.60.81.0
x
Aproksym.
Dokładny
0.0 0.2 0.4 0.6 0.8 1.0
0.00.20.40.60.81.0
x
Aproksym.
Dokładny
Rysunek 4.12: Aproksymacja dystrybuanty rozkładu Ven dla n zmiennych losowych i.i.d. z rozkładu B(0,5, 0,5) odpowiednią dystrybuantą rozkładu normalnego; n = 10 (góra) i n = 30 (dół).
Przykład 4.3.13. W praktyce dystrybuanta DnrozkładuVenzbiega w pew-nych przypadkach na tyle szybko do odpowiedniej dystrybuanty rozkładu normalnego D∗n, że stosowanie D∗n jako przybliżenia Dn wydaje się uzasad-nione już dla n 30.
Na przykład, jeśli G jest dystrybuantą rozkładu beta B(0,5, 0,5), wtedy dla n = 30 mamy supx|Dn(x)− Dn∗(x)| ≃ 0,072 (por. rys. 4.12). Zanotujmy, że w tym przypadku zachodzi ̺ = 0,5.
Z kolei dla rozkładu B(10, 3) (̺ ≃ 0,713494) mamy supx|Dn(x) −
Dn∗(x)| ≃ 0,071 (por. rys. 4.13).
0.0 0.2 0.4 0.6 0.8 1.0
0.00.20.40.60.81.0
x
Aproksym.
Dokładny
0.0 0.2 0.4 0.6 0.8 1.0
0.00.20.40.60.81.0
x
Aproksym.
Dokładny
Rysunek 4.13: Aproksymacja dystrybuanty rozkładu Ven dla n zmiennych losowych i.i.d. z rozkładu B(10, 3) odpowiednią dystrybuantą rozkładu nor-malnego; n = 10 (góra) i n = 30 (dół).
Co więcej, na podstawie powyższych wyników łatwo pokazać, że staty- H jako
estymator Hn
styka H/n, czyli przekształcony próbkowy indeks h, jest asymptotycznie nie-obciążonym (i zgodnym) estymatorem wartości Hn/n, czyli przekształconego teoretycznego indeksu Hirscha. Nie musi być to jednak prawdą, jeśli pomno-żymy obydwa obiekty przez n. Problemowi temu przyjrzymy w następnym podrozdziale.