Empiryczne rozkłady prawdopodobieństwa
Rozkład empiryczny to uzyskany na podstawie badania statystycznego opis wartości przyj- mowanych przez cechę statystyczną przy pomocy częstości ich występowania. Rozkład empiryczny z reguły jest prezentowany jako szereg rozdzielczy (punktowy lub prze- działowy). Informacje o próbce daje nam również histogram, wykres kołowy, słupkowy, pudełkowy itp.
Def. Niech X1, . . . , Xn będzie próbą z rozkładu o dystrybuancie F . Wówczas dy- strybuantą empiryczną nazywamy funkcję
Fˆn(x) = 1 n
n
X
i=1
1[Xi,∞)(x).
Tw. Gliwienki-Cantellego (Podstawowe Twierdzenie Statystyki Matematycznej) Niech
Dn= sup
−∞<x<∞
| ˆFn(x) − F (x)|.
Jeżeli próba X1, . . . , Xn pochodzi z rozkładu o dystrybuancie F , to Dnn→∞−→ 0
z prawdopodobieństwem 1.
Def. Niech X1, . . . , Xn będzie próbą z nieznanego rozkładu zmiennej X, zaś A ⊂ R.
Wówczas przybliżeniem nieznanej liczby pA = P (X ∈ A) jest prawdopodobieństwo empiryczne
ˆ pA=
n
P
i=1
1A(Xi)
n .
Def. Niech X1, . . . , Xn będzie próbą losową. Niech X1:n ≤ X2:n ≤ . . . ≤ Xn:n będzie ciągiem liczb X1(ω), . . . , Xn(ω) uporządkowanym w kolejności niemalejącej. Wówczas Xi:n, i = 1, . . . , n, nazywamy i-tą statystyką pozycyjną (porządkową).
Próbkowe odpowiedniki wielkości populacyjnych Oznaczenia:
x1, . . . , xn – wartości obserwacji (realizacje próby X1(ω), . . . , Xn(ω)), n – liczba obserwacji (wielkość próby),
x1:1, . . . , xn:n – statystyki pozycyjne z próby.
Średnia arytmetyczna z próbki:
¯ x = 1
n
n
X
i=1
xi,
1
jest wartością oczekiwaną rozkładu empirycznego.
Wariancja próbkowa dana jest wzorem:
ˆ s2 = 1
n
n
X
i=1
(xi− ¯x)2 = 1 n
n
X
i=1
x2i − ¯x2,
jest wariancją rozkładu empirycznego.
Odchylenie standardowe z próbki (ˆs) to pierwiastek z wariancji próbkowej, jest ono odchyleniem standardowym rozkładu empirycznego.
Ogólnie, wyróżniamy następujące typy momentów z próbki:
• zwykłe ˆak = 1 n
n
P
i=1
xki, są odpowiednikiem momentów ak= EXk,
• centralne ˆmk = 1 n
n
P
i=1
(xi− ¯x)k, są odpowiednikiem momentów mk= E(X − EX)k,
• absolutne ˆAk= 1 n
n
P
i=1
|xi|k, są odpowiednikiem momentów Ak = E|X|k,
• centralne momenty absolutne ˆMk = 1 n
n
P
i=1
|xi− ¯x|k, są odpowiednikiem momentów Mk = E|X − EX|k.
Kwantylem rzędu p, gdzie 0 ≤ p ≤ 1, rozkładu zmiennej losowej X nazywamy wartość xp, dla której spełnione są nierówności
P (X ≤ xp) ≥ p i P (X ≥ xp) ≥ 1 − p, lub równoważnie:
P (X < xp) = F (xp−) ≤ p ≤ F (xp) = P (X ≤ xp).
Taka liczba xp zawsze istnieje, ale nie musi być wyznaczona jednoznacznie. Jeżeli istnieje dokładnie jedna liczba xp taka, że P (X ≤ xp) = F (xp) = p, to xp jest p-tym kwantylem.
Podobnie jest w przypadku, gdy F (xp−) < p < F (xp). Jeżeli jednak F (a) = F (b) = p, to każda z liczb z przedziału [a, b] jest p-tym kwantylem. W przypadku rozkładów absolutnie ciągłych (gdzie F (xp−) = F (xp)) definicja kwantyla się upraszcza:
P (X ≤ xp) = F (xp) = p, czyli xp = F−1(p).
Liczbę ˆxp nazywamy kwantylem empirycznym rzędu p, jeżeli Fˆn(ˆxp−) ≤ p ≤ ˆFn(ˆxp)
W przypadku rozkładów dyskretnych sytuacja nie jest jednoznaczna, a rozkład empi- ryczny zawsze jest dyskretny. Oczywiście, statystyka pozycyjna Xdnpe:n jest kwantylem
2
empirycznym rzędu p, ale nie jedynym. Najlepiej widać to na przykładzie mediany próbkowej (kwantyla rzędu 1/2), którą przyjęło się definiować następująco:
med =ˆ
xn+1
2 :n, n − nieparzyste,
1 2 xn
2:n+ xn
2+1:n , n − parzyste.
Formalnie, jeśli rozmiar próbki n jest liczbą nieparzystą, to medianą z próbki jest staty- styka pozycyjna o numerze (n + 1)/2. Jeżeli jednak rozmiar próbki n jest liczbą parzystą, to medianą próbkową jest każda z liczb z przedziału [Xn
2:n, Xn
2+1:n]. Środek przedziału podaje się po to, aby uniknąć niejednoznaczności.
Kwantyle rzędu 1/4, 1/2, 3/4 są inaczej nazywane kwartylami. Przy pewnym uprosz- czeniu można powiedzieć, że kwartyle dzielą uporządkowane dane statystyczne na cztery równe części. Drugi kwartyl pokrywa się z medianą. Mediana dzieli uporządkowane dane na dwie części. Mediana pierwszej z nich to dolny kwartyl (pierwszy kwartyl), a dru- giej to górny kwartyl (trzeci kwartyl). Różnica między górnym i dolnym kwartylem to rozstęp międzykwartylowy.
Kwantyle rzędu 1/10, 2/10,..., 9/10 to inaczej decyle. Kwantyle rzędu 1/100, 2/100,..., 99/100 to inaczej percentyle.
Dominanta (moda) to wartość, która w danych występuje najczęściej i nie jest war- tością skrajną (tzn. minimalną lub maksymalną). Jeżeli w zestawie danych występuje kilka wartości z tą samą, najwyższą częstotliwością, to każda z tych wartości jest modą;
w zestawie danych może również moda nie występować.
3