• Nie Znaleziono Wyników

Własności S-statystyk i indeksu h w modelu i.i.d

W dokumencie systemu oceny jakości w nauce (Stron 118-128)

Niech od tej pory (X1, X2, . . . ) oznacza ciąg niezależnych zmiennych losowych o tym samym rozkładzie. Załóżmy, że dystrybuanta F zmiennych Xi, gdzie i = 1, 2, . . . , jest ciągła i ściśle rosnąca na przedziale [a, b] takim, że a = inf{x : F (x) > 0} oraz b = sup{x : F (x) < 1}, a < b.

Przedstawimy teraz kilka ważnych własności pewnej podklasy S-statystyk w rozpatrywanym modelu statystycznym, m.in. pokażemy, że są one silnie zgodnym estymatorami indeksów ̺, podamy dokładną postać ich rozkładu oraz udowodnimy ich asymptotyczną normalność. Kilka wyników teoretycz-nych przytoczoteoretycz-nych z tym podrozdziale zamieściliśmy w pracy [84].

Rozpatrzmy S-statystyki, których współczynniki są generowane przez funkcję kontrolną.

Definicja 4.3.1. S-statystyką generowaną przez funkcję kontrolną κ : [0, 1] → [c, d] ⊆ [a, b] nazywamy funkcję próby losowej (X1, . . . , Xn)

Z wyników zamieszczonych w rozdz. 2.4.8 wynika, iż w ten sposób zdefi-niowana statystyka jest dla d = b funkcją agregującą w sensie def. 2.1.1 oraz że nie jest ona funkcją wpływu (gdyż nie spełnia warunku (I2) z def. 2.2.1).

Skupienie uwagi na takiej podklasie S-statystyk jest jednak celowe; pozwala na wyprowadzenie m.in. ich własności asymptotycznych. Później jednak uzy-skane wyniki będziemy mogli stosować dla konkretnego n.

Przykład 4.3.2. Ustalmy n∈ N. Niech N będzie trójkątem współczynników określonym w tw. 2.4.23. Jeśli κ(x) = nx dla x ∈ [0, n], to Ven,κ = SN|In orazVen,κ(⌊x1⌋, . . . , ⌊xn⌋) = H(x1, . . . , xn). Zatem, dzięki analizie własności S-statystyk, będziemy mogli rozpatrzyć także statystyczne aspekty indeksu h.



Z tego powodu, bez straty ogólności, będziemy od tej pory rozważać S-statystyki postaci loso-wych i.i.d. o ciągłej, ściśle rosnącej dystrybuancie G := F ◦ κ określonej na przedziale [0, 1].

Ponadto, dla uproszczenia zapisu, niech Ven :=Ven,id. FunkcjaeVn

Wartości opisanych wyżej statystyk można obliczać z pomocą biblioteki CITAN, zob. funkcje Sstat() oraz Sstat2() (rozdz. B.4.1).

4.3.1 Rozkład S-statystyk i indeksu h

S-statystykę Ven można zdefiniować w równoważny sposób za pomocą dystry-buanty empirycznej.

Dowód. Mamy Pni=1I(Yi ­ x) = max{i : Y(n−i+1)­ x}. Dalej:

Z ciągłości G na przedziale (0, 1) przejście z (4.19) do (4.18) jest oczywiste, więc dowód uznajemy za zakończony.

Zanotujmy, że (∀x ∈ (0, 1)) spełnione jest ˆGn(x) p.w.→ G(x) oraz n ˆGn(x) ma rozkład Bin(n, G(x)).

Dokładny rozkład Ven określamy w poniższym twierdzeniu.

Twierdzenie 4.3.4. Dystrybuanta statystyki Ven(Y1, . . . , Yn) określona jest dla x ∈ (0, 1), gdzie I(p; a, b) jest regularyzowaną niekompletną funkcją beta.

Dowód. Dystrybuanta i-tej statystyki pozycyjnej Y(i), i = 1, 2, . . . , n, okre-ślona jest następująco [por. 50, s. 9n]:

G(i)(x) = P(Y(i) ¬ x)

Zwróćmy uwagę, iż rozkład Ven jest typu dyskretno-ciągłego o ewentual-nych skokach w punktach ze zbioru {0, 1/n, 2/n, . . . , n/n}.

Na podstawie wyżej przytoczonych wyników łatwo pokazać, że zachodzi następujący lemat.

Lemat 4.3.5. Dystrybuanta rozkładu indeksu h dla n elementowej próby Rozkład

indeksu h

zmiennych losowych i.i.d. określonych dystrybuantą F dana jest wzorem En(x) = I (F (⌊x + 1⌋); n − ⌊x⌋, ⌊x⌋ + 1⌋) . (4.22) W bibliotece CITAN zdefiniowaliśmy funkcjedhirsch() iphirsch() słu-żące, odpowiednio, do wyznaczania wartości funkcji masy prawdopodobień-stwa i dystrybuanty rozkładu indeksu h dla danej n elementowej próby z roz-kładu ciągłego (por. rozdz. B.4.3).

Ponadto, funkcja psstat() wyznacza wartość dystrybuanty statystyki Ven,κ (dla danego n i κ; por. rozdz. B.4.3).

4.3.2 Silna zgodność S-statystyk

Okazuje się, że S-statystykiVen są silnie zgodnymi estymatorami ̺ := ̺id dla dowolnej dystrybuanty G spełniającej przyjęte na s. 119 założenia. Aby poka-zać, że to stwierdzenie zachodzi, najpierw udowodnimy kilka pomocniczych lematów.

Lemat 4.3.6. Dla każdego x∈ (0, 1) mamy

P(Ven> x) = P(1− x > ˆGn(x)). (4.23) Dowód. Skoro n ˆGn(x)∼ Bin(n, G(x)), to (∀t ∈ (0, n))

P(n ˆGn(x)¬ t) = I(1 − G(x), n − ⌊t⌋, 1 + ⌊t⌋).

Z lematu 4.3.4 otrzymujemy (∀x ∈ (0, 1))

P(Ven > x) = 1− I (G (x) ; n − ⌊xn⌋, ⌊xn⌋ + 1)

= I (1− G(x); ⌊xn⌋ + 1, n − ⌊xn⌋)

= I (1− G(x); n − (n − ⌊xn⌋ − 1), 1 + (n − ⌊xn⌋ − 1))

= P(n ˆGn(x)¬ n − (⌊xn⌋ + 1))

= P( ˆGn(x) < 1− x),

co jest spełnione, gdyż ⌊xn⌋ ¬ xn < ⌊xn⌋ + 1.

Kolejny lemat znany jest jako nierówność Hoeffdinga. Wynik ten został udowodniony w pracy [109].

Lemat 4.3.7 (Nierówność Hoeffdinga). Niech (Z1, . . . , Zn) będzie ciągiem niezależnych zmiennych losowych o skończonych drugich momentach oraz niech 0¬ Zi ¬ 1 dla i = 1, . . . , n. Wtedy dla każdego t > 0 zachodzi

Okazuje się, że zbieżność S-statystyk Ven do ̺ jest wykładnicza.

Lemat 4.3.8. Dla każdego n ∈ N oraz ε > 0 mamy

P̺(|Ven− ̺| > ε) ¬ 2e−2nδ2, (4.25) gdzie δ =|G(̺ + ε) − (1 − (̺ + ε))| ∧ |1 − (̺ − ε) − G(̺ − ε)|.

Dowód. Warto zauważyć, że dowód tego lematu jest podobny do dowodu twierdzenia 2.3.2 z pracy [172] dotyczącego kwantyli z próby.

Zmienna losowa I(Yi > ̺ + ε) ma, rzecz jasna, skończony drugi moment zwykły, bowiem pochodzi z rozkładu Bernoulliego. Dla każdego ε > 0 otrzy-mujemy (z lematów 4.3.6 oraz 4.3.7):

P(Ven > ̺ + ε) = P(1− ̺ − ε > ˆGn(̺ + ε))

Teraz już możemy sformułować następujące twierdzenie.

Twierdzenie 4.3.9. Ven jest silnie zgodnym estymatorem ̺. Silna zgodność

Dowód. Z lematu 4.3.8, P(|Ven−̺| > ε) → 0 z szybkością wykładniczą wzglę-dem n, zatem otrzymujemy Ven p.w.→ ̺ na mocy [172, tw. 1.3.4], co należało pokazać.

4.3.3 Rozkład asymptotyczny S-statystyk

Niestety, wykorzystanie do obliczeń analitycznych bądź praktycznych wzoru (4.21) na rozkładVen może być czasem kłopotliwe. Jest to wystarczająca mo-tywacja, aby postarać się znaleźć jego przybliżenie. W niniejszym paragrafie rozważamy więc asymptotyczny rozkład S-statystyk.

Najpierw przypomnijmy dobrze znany rezultat dotyczący szybkości zbież-ności w Centralnym Twierdzeniu Granicznym Lindeberga-Lévy’ego, które będzie potrzebne do dowodu twierdzenia o asymptotycznej normalności S-statystyk.

Lemat 4.3.10 (Twierdzenie Berry’ego-Esséena). Niech (Z1, Z2, . . . ) oznacza ciąg zmiennych losowych i.i.d. o skończonej wartości oczekiwanej µ, skoń-czonej wariancji σ2 oraz taki, że (∀i) E |Zi− µ|3 <∞. Wtedy dla dowolnego

Φ(x) oznacza dystrybuantę standardowego rozkładu normalnego, a C jest do-datnią stałą niezależną od rozkładu Zi.

Na marginesie, najlepszym znanym nam górnym ograniczeniem dla C jest wartość 0,7056 [zob. 173].

Twierdzenie 4.3.11. Jeśli G jest różniczkowalna w punkcie ̺, to Asymptotyczna normalność

Dowód. Niech x ∈ (0, 1) oraz A > 0 będzie dodatnią stałą, której wartość wyznaczymy za chwilę. Nadto, niech

Kn(x) = P eVn− ̺ A

√n¬ x

!

.

Pokażemy, że gdy n → ∞, to Kn(x)→ Φ(x).

Z lematu 4.3.6 mamy:

Kn(x) = PVen¬ ̺ + xAn−0,5

= P1− ̺ − xAn−0,5 ¬ ˆGn(̺ + xAn−0,5).

Załóżmy, że ∆n,x := ̺ + xAn−0,5. Korzystając z faktu, iż n ˆGn(∆n,x) ma rozkład Bin(n, G(∆n,x)), otrzymujemy

Kn(x) = P

n ˆGn(∆n,x)− nG(∆n,x)

qnG(∆n,x)(1− G(∆n,x)) ­ n(1− ∆n,x)− nG(∆n,x)

qnG(∆n,x)(1− G(∆n,x))

.

Niech Zn,x oraz ζn,x będą takie, że

Zn,x = n ˆGn(∆n,x)− nG(∆n,x)

qnG(∆n,x)(1− G(∆n,x)),

ζn,x = n(1− ∆n,x)− nG(∆n,x)

qnG(∆n,x)(1− G(∆n,x)).

Po podstawieniu ich do powyższego równania uzyskujemy:

Kn(x) = P(Zn,x ­ ζn,x).

Jako że Z1 ∼ Bern(G(∆n,x)), to

E|Z1− E Z1|3 = G(∆n,x)(1− G(∆n,x))((1− G(∆n,x))2+ G(∆n,x)2) (a więc jest skończona) oraz Var Z1 = G(∆n,x)(1− G(∆n,x)).

Z lematu 4.3.10 dla pewnej stałej C > 0 zachodzi:

PZn,x < ζn,x

− Φ(ζn,x) ¬ C

√n

(1− G(∆n,x))2+ G(∆n,x)2

qG(∆n,x)(1− G(∆n,x))

n→∞→ 0,

ponieważ G(∆n,x)(1 − G(∆n,x)) n→∞→ (1 − ̺) ̺ > 0, jako że G jest ciągła w punkcie ̺. Ostatecznie mamy:

|Φ(x) − Kn(x)| = |P (Zn < ζn,x)− (1 − Φ(x))|

= |Φ(x) − Φ(−ζn,x) + P (Zn < ζn,x)− Φ(ζn,x)|

¬ |Φ(x) − Φ(−ζn,x)| + |P r(Zn< ζn,x)− Φ(ζn,x)|

→ |Φ(x) − Φ(−ζn,x)|.

Nasze twierdzenie będzie udowodnione, jeśli |Φ(x) − Φ(−ζn,x)| → 0. Powin-niśmy więc ustalić wartość A tak, że −ζn,x → x. Łatwo pokazać, że

−ζn,x = 1

qG(∆n,x) (1− G(∆n,x))

1− ∆n,x− G(∆n,x) n−0,5

= xA

qG(∆n,x) (1− G(∆n,x))

1− ̺ − xAn−0,5− G(̺ + xAn−0,5) xAn−0,5

= xA

qG(∆n,x) (1− G(∆n,x))

G(̺ + xAn−0,5)− G(̺) + xAn−0,5 xAn−0,5

n→∞ xA

q(1− ̺) ̺(G(̺) + 1) ,

zatem poszukiwane A =q̺ (1− ̺)/(1 + G(̺)), QED.

Zauważmy, że tw. 4.3.11 implikuje ponadto, że Ven jest asymptotycznie nieobciążonym, (słabo) zgodnym estymatorem ̺.

Przykład 4.3.12. S-statystyki nie są w ogólności estymatorami nieobcią-żonymi parametru ̺κ. Dla przykładu, rys. 4.11 przedstawia obciążenie tego estymatora w przypadku n-elementowej próby i.i.d. pochodzącej z rozkładu P2(1, 1) w zależności od n dla różnych funkcji kontrolnych κ. Obserwujemy, że w tych przypadkach estymatory te cechują się obciążeniem dodatnim. 

20 40 60 80 100

0.00020.00060.0010

P2(1,1)

n

Obciazenie

kappa(x)=nx kappa(x)=10x kappa(x)=25x kappa(x)=100x

Rysunek 4.11: Obciążenie S-statystyk jako estymatorów indeksu ̺.

0.0 0.2 0.4 0.6 0.8 1.0

0.00.20.40.60.81.0

x

Aproksym.

Dokładny

0.0 0.2 0.4 0.6 0.8 1.0

0.00.20.40.60.81.0

x

Aproksym.

Dokładny

Rysunek 4.12: Aproksymacja dystrybuanty rozkładu Ven dla n zmiennych losowych i.i.d. z rozkładu B(0,5, 0,5) odpowiednią dystrybuantą rozkładu normalnego; n = 10 (góra) i n = 30 (dół).

Przykład 4.3.13. W praktyce dystrybuanta DnrozkładuVenzbiega w pew-nych przypadkach na tyle szybko do odpowiedniej dystrybuanty rozkładu normalnego Dn, że stosowanie Dn jako przybliżenia Dn wydaje się uzasad-nione już dla n ­ 30.

Na przykład, jeśli G jest dystrybuantą rozkładu beta B(0,5, 0,5), wtedy dla n = 30 mamy supx|Dn(x)− Dn(x)| ≃ 0,072 (por. rys. 4.12). Zanotujmy, że w tym przypadku zachodzi ̺ = 0,5.

Z kolei dla rozkładu B(10, 3) (̺ ≃ 0,713494) mamy supx|Dn(x)

Dn(x)| ≃ 0,071 (por. rys. 4.13). 

0.0 0.2 0.4 0.6 0.8 1.0

0.00.20.40.60.81.0

x

Aproksym.

Dokładny

0.0 0.2 0.4 0.6 0.8 1.0

0.00.20.40.60.81.0

x

Aproksym.

Dokładny

Rysunek 4.13: Aproksymacja dystrybuanty rozkładu Ven dla n zmiennych losowych i.i.d. z rozkładu B(10, 3) odpowiednią dystrybuantą rozkładu nor-malnego; n = 10 (góra) i n = 30 (dół).

Co więcej, na podstawie powyższych wyników łatwo pokazać, że staty- H jako

estymator Hn

styka H/n, czyli przekształcony próbkowy indeks h, jest asymptotycznie nie-obciążonym (i zgodnym) estymatorem wartości Hn/n, czyli przekształconego teoretycznego indeksu Hirscha. Nie musi być to jednak prawdą, jeśli pomno-żymy obydwa obiekty przez n. Problemowi temu przyjrzymy w następnym podrozdziale.

4.4

W dokumencie systemu oceny jakości w nauce (Stron 118-128)