Własności S-statystyk i indeksu h w modelu i.i.d

Niech od tej pory (X1, X₂, . . . ) oznacza ciąg niezależnych zmiennych losowych o tym samym rozkładzie. Załóżmy, że dystrybuanta F zmiennych Xi, gdzie i = 1, 2, . . . , jest ciągła i ściśle rosnąca na przedziale [a, b] takim, że a = inf{x : F (x) > 0} oraz b = sup{x : F (x) < 1}, a < b.

Przedstawimy teraz kilka ważnych własności pewnej podklasy S-statystyk w rozpatrywanym modelu statystycznym, m.in. pokażemy, że są one silnie zgodnym estymatorami indeksów ̺, podamy dokładną postać ich rozkładu oraz udowodnimy ich asymptotyczną normalność. Kilka wyników teoretycz-nych przytoczoteoretycz-nych z tym podrozdziale zamieściliśmy w pracy [84].

Rozpatrzmy S-statystyki, których współczynniki są generowane przez funkcję kontrolną.

Deﬁnicja 4.3.1. S-statystyką generowaną przez funkcję kontrolną κ : [0, 1] → [c, d] ⊆ [a, b] nazywamy funkcję próby losowej (X1, . . . , Xn)

Z wyników zamieszczonych w rozdz. 2.4.8 wynika, iż w ten sposób zdeﬁ-niowana statystyka jest dla d = b funkcją agregującą w sensie def. 2.1.1 oraz że nie jest ona funkcją wpływu (gdyż nie spełnia warunku (I2) z def. 2.2.1).

Skupienie uwagi na takiej podklasie S-statystyk jest jednak celowe; pozwala na wyprowadzenie m.in. ich własności asymptotycznych. Później jednak uzy-skane wyniki będziemy mogli stosować dla konkretnego n.

Przykład 4.3.2. Ustalmy n∈ N. Niech N będzie trójkątem współczynników określonym w tw. 2.4.23. Jeśli κ(x) = nx dla x ∈ [0, n], to V^e_n,κ = SN|^Iⁿ orazV^e_n,κ(⌊x1⌋, . . . , ⌊xn⌋) = H(x1, . . . , xn). Zatem, dzięki analizie własności S-statystyk, będziemy mogli rozpatrzyć także statystyczne aspekty indeksu h.

Z tego powodu, bez straty ogólności, będziemy od tej pory rozważać S-statystyki postaci loso-wych i.i.d. o ciągłej, ściśle rosnącej dystrybuancie G := F ◦ κ określonej na przedziale [0, 1].

Ponadto, dla uproszczenia zapisu, niech V^e_n :=V^e_n,id. ^Funkcjae^Vn

Wartości opisanych wyżej statystyk można obliczać z pomocą biblioteki CITAN, zob. funkcje Sstat() oraz Sstat2() (rozdz. B.4.1).

4.3.1 Rozkład S-statystyk i indeksu h

S-statystykę V^e_n można zdeﬁniować w równoważny sposób za pomocą dystry-buanty empirycznej.

Dowód. Mamy ^Pⁿ_i=1I(Yi  x) = max{i : Y^(n−i+1) x}. Dalej:

Z ciągłości G na przedziale (0, 1) przejście z (4.19) do (4.18) jest oczywiste, więc dowód uznajemy za zakończony.

Zanotujmy, że (∀x ∈ (0, 1)) spełnione jest ˆGn(x) ^p.w.→ G(x) oraz n ˆGn(x) ma rozkład Bin(n, G(x)).

Dokładny rozkład V^e_n określamy w poniższym twierdzeniu.

Twierdzenie 4.3.4. Dystrybuanta statystyki V^e_n(Y1, . . . , Yn) określona jest dla x ∈ (0, 1), gdzie I(p; a, b) jest regularyzowaną niekompletną funkcją beta.

Dowód. Dystrybuanta i-tej statystyki pozycyjnej Y(i), i = 1, 2, . . . , n, okre-ślona jest następująco [por. 50, s. 9n]:

G(i)(x) = P(Y(i) ¬ x)

Zwróćmy uwagę, iż rozkład V^e_n jest typu dyskretno-ciągłego o ewentual-nych skokach w punktach ze zbioru {0, 1/n, 2/n, . . . , n/n}.

Na podstawie wyżej przytoczonych wyników łatwo pokazać, że zachodzi następujący lemat.

Lemat 4.3.5. Dystrybuanta rozkładu indeksu h dla n elementowej próby ^Rozkład

indeksu h

zmiennych losowych i.i.d. określonych dystrybuantą F dana jest wzorem En(x) = I (F (⌊x + 1⌋); n − ⌊x⌋, ⌊x⌋ + 1⌋) . (4.22) W bibliotece CITAN zdeﬁniowaliśmy funkcjedhirsch() iphirsch() słu-żące, odpowiednio, do wyznaczania wartości funkcji masy prawdopodobień-stwa i dystrybuanty rozkładu indeksu h dla danej n elementowej próby z roz-kładu ciągłego (por. rozdz. B.4.3).

Ponadto, funkcja psstat() wyznacza wartość dystrybuanty statystyki Ve_n,κ (dla danego n i κ; por. rozdz. B.4.3).

4.3.2 Silna zgodność S-statystyk

Okazuje się, że S-statystykiV^e_n są silnie zgodnymi estymatorami ̺ := ̺id dla dowolnej dystrybuanty G spełniającej przyjęte na s. 119 założenia. Aby poka-zać, że to stwierdzenie zachodzi, najpierw udowodnimy kilka pomocniczych lematów.

Lemat 4.3.6. Dla każdego x∈ (0, 1) mamy

P(V^e_n> x) = P(1− x > ˆGn(x)). (4.23) Dowód. Skoro n ˆGn(x)∼ Bin(n, G(x)), to (∀t ∈ (0, n))

P(n ˆG_n(x)¬ t) = I(1 − G(x), n − ⌊t⌋, 1 + ⌊t⌋).

Z lematu 4.3.4 otrzymujemy (∀x ∈ (0, 1))

P(V^e_n > x) = 1− I (G (x) ; n − ⌊xn⌋, ⌊xn⌋ + 1)

= I (1− G(x); ⌊xn⌋ + 1, n − ⌊xn⌋)

= I (1− G(x); n − (n − ⌊xn⌋ − 1), 1 + (n − ⌊xn⌋ − 1))

= P(n ˆGn(x)¬ n − (⌊xn⌋ + 1))

= P( ˆGn(x) < 1− x),

co jest spełnione, gdyż ⌊xn⌋ ¬ xn < ⌊xn⌋ + 1.

Kolejny lemat znany jest jako nierówność Hoeﬀdinga. Wynik ten został udowodniony w pracy [109].

Lemat 4.3.7 (Nierówność Hoeﬀdinga). Niech (Z1, . . . , Zn) będzie ciągiem niezależnych zmiennych losowych o skończonych drugich momentach oraz niech 0¬ Zi ¬ 1 dla i = 1, . . . , n. Wtedy dla każdego t > 0 zachodzi

Okazuje się, że zbieżność S-statystyk V^e_n do ̺ jest wykładnicza.

Lemat 4.3.8. Dla każdego n ∈ N oraz ε > 0 mamy

P̺(|V^e_n− ̺| > ε) ¬ 2e^−2nδ², (4.25) gdzie δ =|G(̺ + ε) − (1 − (̺ + ε))| ∧ |1 − (̺ − ε) − G(̺ − ε)|.

Dowód. Warto zauważyć, że dowód tego lematu jest podobny do dowodu twierdzenia 2.3.2 z pracy [172] dotyczącego kwantyli z próby.

Zmienna losowa I(Yi > ̺ + ε) ma, rzecz jasna, skończony drugi moment zwykły, bowiem pochodzi z rozkładu Bernoulliego. Dla każdego ε > 0 otrzy-mujemy (z lematów 4.3.6 oraz 4.3.7):

P(V^e_n > ̺ + ε) = P(1− ̺ − ε > ˆG_n(̺ + ε))

Teraz już możemy sformułować następujące twierdzenie.

Twierdzenie 4.3.9. V^e_n jest silnie zgodnym estymatorem ̺. Silna zgodność

Dowód. Z lematu 4.3.8, P(|V^e_n−̺| > ε) → 0 z szybkością wykładniczą wzglę-dem n, zatem otrzymujemy V^e_n ^p.w.→ ̺ na mocy [172, tw. 1.3.4], co należało pokazać.

4.3.3 Rozkład asymptotyczny S-statystyk

Niestety, wykorzystanie do obliczeń analitycznych bądź praktycznych wzoru (4.21) na rozkładV^e_n może być czasem kłopotliwe. Jest to wystarczająca mo-tywacja, aby postarać się znaleźć jego przybliżenie. W niniejszym paragraﬁe rozważamy więc asymptotyczny rozkład S-statystyk.

Najpierw przypomnĳmy dobrze znany rezultat dotyczący szybkości zbież-ności w Centralnym Twierdzeniu Granicznym Lindeberga-Lévy’ego, które będzie potrzebne do dowodu twierdzenia o asymptotycznej normalności S-statystyk.

Lemat 4.3.10 (Twierdzenie Berry’ego-Esséena). Niech (Z1, Z2, . . . ) oznacza ciąg zmiennych losowych i.i.d. o skończonej wartości oczekiwanej µ, skoń-czonej wariancji σ² oraz taki, że (∀i) E |Zi− µ|³ <∞. Wtedy dla dowolnego

Φ(x) oznacza dystrybuantę standardowego rozkładu normalnego, a C jest do-datnią stałą niezależną od rozkładu Zi.

Na marginesie, najlepszym znanym nam górnym ograniczeniem dla C jest wartość 0,7056 [zob. 173].

Twierdzenie 4.3.11. Jeśli G jest różniczkowalna w punkcie ̺, to Asymptotyczna normalność

Dowód. Niech x ∈ (0, 1) oraz A > 0 będzie dodatnią stałą, której wartość wyznaczymy za chwilę. Nadto, niech

Kn(x) = P^eV_n− ̺ A

√n¬ x

Pokażemy, że gdy n → ∞, to Kn(x)→ Φ(x).

Z lematu 4.3.6 mamy:

Kn(x) = PV^e_n¬ ̺ + xAn^−0,5

= P1− ̺ − xAn^−0,5 ¬ ˆGn(̺ + xAn^−0,5).

Załóżmy, że ∆n,x := ̺ + xAn^−0,5. Korzystając z faktu, iż n ˆGn(∆n,x) ma rozkład Bin(n, G(∆n,x)), otrzymujemy

K_n(x) = P



 n ˆG_n(∆_n,x)− nG(∆n,x)

qnG(∆n,x)(1− G(∆n,x)) n(1− ∆n,x)− nG(∆n,x)

qnG(∆n,x)(1− G(∆n,x))



.

Niech Z_n,x^∗ oraz ζn,x będą takie, że

Z_n,x^∗ = n ˆG_n(∆_n,x)− nG(∆n,x)

qnG(∆n,x)(1− G(∆n,x)),

ζn,x = n(1− ∆n,x)− nG(∆n,x)

qnG(∆n,x)(1− G(∆^n,x)).

Po podstawieniu ich do powyższego równania uzyskujemy:

Kn(x) = P(Z_n,x^∗  ζ^n,x).

Jako że Z1 ∼ Bern(G(∆^n,x)), to

E|Z¹− E Z¹|³ = G(∆n,x)(1− G(∆^n,x))((1− G(∆^n,x))²+ G(∆n,x)²) (a więc jest skończona) oraz Var Z1 = G(∆_n,x)(1− G(∆n,x)).

Z lematu 4.3.10 dla pewnej stałej C > 0 zachodzi:

PZ_n,x^∗ < ζn,x

− Φ(ζn,x) ¬ C

√n

(1− G(∆n,x))²+ G(∆n,x)²

qG(∆n,x)(1− G(∆^n,x))

n→∞→ 0,

ponieważ G(∆n,x)(1 − G(∆n,x)) ^n→∞→ (1 − ̺) ̺ > 0, jako że G jest ciągła w punkcie ̺. Ostatecznie mamy:

|Φ(x) − Kⁿ(x)| = |P (Zn^∗ < ζn,x)− (1 − Φ(x))|

= |Φ(x) − Φ(−ζn,x) + P (Z_n^∗ < ζ_n,x)− Φ(ζn,x)|

¬ |Φ(x) − Φ(−ζn,x)| + |P r(Zn^∗< ζn,x)− Φ(ζn,x)|

→ |Φ(x) − Φ(−ζ^n,x)|.

Nasze twierdzenie będzie udowodnione, jeśli |Φ(x) − Φ(−ζn,x)| → 0. Powin-niśmy więc ustalić wartość A tak, że −ζn,x → x. Łatwo pokazać, że

−ζ^n,x = 1

qG(∆n,x) (1− G(∆n,x))

1− ∆^n,x− G(∆^n,x) n^−0,5

= xA

qG(∆n,x) (1− G(∆^n,x))

1− ̺ − xAn^−0,5− G(̺ + xAn^−0,5) xAn^−0,5

= − xA

qG(∆n,x) (1− G(∆n,x))

G(̺ + xAn^−0,5)− G(̺) + xAn^−0,5 xAn^−0,5

n→∞→ − xA

q(1− ̺) ̺(G^′(̺) + 1) ,

zatem poszukiwane A =^q̺ (1− ̺)/(1 + G^′(̺)), QED.

Zauważmy, że tw. 4.3.11 implikuje ponadto, że V^e_n jest asymptotycznie nieobciążonym, (słabo) zgodnym estymatorem ̺.

Przykład 4.3.12. S-statystyki nie są w ogólności estymatorami nieobcią-żonymi parametru ̺κ. Dla przykładu, rys. 4.11 przedstawia obciążenie tego estymatora w przypadku n-elementowej próby i.i.d. pochodzącej z rozkładu P2(1, 1) w zależności od n dla różnych funkcji kontrolnych κ. Obserwujemy, że w tych przypadkach estymatory te cechują się obciążeniem dodatnim.

20 40 60 80 100

0.00020.00060.0010

P2(1,1)

Obciazenie

kappa(x)=nx kappa(x)=10x kappa(x)=25x kappa(x)=100x

Rysunek 4.11: Obciążenie S-statystyk jako estymatorów indeksu ̺.

0.0 0.2 0.4 0.6 0.8 1.0

0.00.20.40.60.81.0

Aproksym.

Dokładny

0.0 0.2 0.4 0.6 0.8 1.0

0.00.20.40.60.81.0

Aproksym.

Dokładny

Rysunek 4.12: Aproksymacja dystrybuanty rozkładu V^e_n dla n zmiennych losowych i.i.d. z rozkładu B(0,5, 0,5) odpowiednią dystrybuantą rozkładu normalnego; n = 10 (góra) i n = 30 (dół).

Przykład 4.3.13. W praktyce dystrybuanta DnrozkładuV^e_nzbiega w pew-nych przypadkach na tyle szybko do odpowiedniej dystrybuanty rozkładu normalnego D^∗_n, że stosowanie D^∗_n jako przybliżenia Dn wydaje się uzasad-nione już dla n 30.

Na przykład, jeśli G jest dystrybuantą rozkładu beta B(0,5, 0,5), wtedy dla n = 30 mamy sup_x|Dn(x)− Dn^∗(x)| ≃ 0,072 (por. rys. 4.12). Zanotujmy, że w tym przypadku zachodzi ̺ = 0,5.

Z kolei dla rozkładu B(10, 3) (̺ ≃ 0,713494) mamy supx|Dn(x) −

D_n^∗(x)| ≃ 0,071 (por. rys. 4.13).

0.0 0.2 0.4 0.6 0.8 1.0

0.00.20.40.60.81.0

Aproksym.

Dokładny

0.0 0.2 0.4 0.6 0.8 1.0

0.00.20.40.60.81.0

Aproksym.

Dokładny

Rysunek 4.13: Aproksymacja dystrybuanty rozkładu V^e_n dla n zmiennych losowych i.i.d. z rozkładu B(10, 3) odpowiednią dystrybuantą rozkładu nor-malnego; n = 10 (góra) i n = 30 (dół).

Co więcej, na podstawie powyższych wyników łatwo pokazać, że staty- ^{H jako}

estymator Hn

styka H/n, czyli przekształcony próbkowy indeks h, jest asymptotycznie nie-obciążonym (i zgodnym) estymatorem wartości Hn/n, czyli przekształconego teoretycznego indeksu Hirscha. Nie musi być to jednak prawdą, jeśli pomno-żymy obydwa obiekty przez n. Problemowi temu przyjrzymy w następnym podrozdziale.

4.4

W dokumencie systemu oceny jakości w nauce (Stron 118-128)