• Nie Znaleziono Wyników

CZĘŚĆ II – STATYSTYKA MATEMATYCZNA

N/A
N/A
Protected

Academic year: 2021

Share "CZĘŚĆ II – STATYSTYKA MATEMATYCZNA"

Copied!
24
0
0

Pełen tekst

(1)

CZĘŚĆ II – STATYSTYKA MATEMATYCZNA

Rachunek prawdopodobieństwa a statystyka matematyczna. Część I, rachunek prawdopodobieństwa, dostarcza podstawowych pojęć i wzorów – języka, za pomocą którego możemy rozmawiać w sposób ścisły o problemach dotyczących zjawisk i procesów, w których czynnik losowy odgrywa niezaniedbywalną rolę.

Rachunek prawdopodobieństwa daje też modele zjawisk (rozkłady prawdopodo- bieństwa). Część niniejsza – statystyka matematyczna – jest związana z zastosowa- niem modeli probabilistycznych a jej celem jest formułowanie wniosków dotyczących określonej zbiorowości (tzw. populacji generalnej, łączonej dalej ze zmienną losową) na podstawie pewnego podzbioru tej zbiorowości, zwanego próbą lub próbką. Fakt ten oznacza, że statystyka zajmuje się wnioskowaniem o całości (zbiorze) na podstawie części (podzbioru), czyli wnioskowaniem w warunkach niepełnej infor- macji. Wnioskowanie to jest związane z dwoma następującymi podstawowymi zagad- nieniami.

Dwa podstawowe zagadnienia klasycznej statystyki matematycznej.

Wnioskowanie statystyczne w postaci klasycznej (tzw. klasyczna statystyka mate- matyczna) obejmuje dwa zasadnicze zagadnienia, którymi są

(i) estymacja statystyczna (punktowa i przedziałowa) oraz

(ii) weryfikacja hipotez statystycznych (parametrycznych i nieparametrycznych).

Estymacja statystyczna. Podstawowym problemem estymacji statystycznej jest odpowiedź na pytanie typu "ile wynosi wartość nieznanego parametru g populacji generalnej?" Jeśli podana odpowiedzieć ma postać "g . ĝ", gdzie ĝ jest obliczoną przez nas liczbą, to mamy do czynienia z estymacją punktową. Jeśli natomiast odpowiedź jest typu: "g zawarte jest w przedziale (ĝ1, ĝ2)", to taki przypadek estymacji nazywa się estymacją przedziałową.

Weryfikacja hipotez statystycznych oznacza pewien sposób postępowania (tzw. test statystyczny) pozwalający przyjąć lub odrzucić postawioną hipotezę statystyczną H0 dotyczącą pewnej charakterystyki. Gdy hipoteza H0 dotyczy parametru g populacji – np. H0:(g=5) – nazywana jest parametryczną, gdy

(2)

natomiast dotyczy funkcji rozkładu populacji – np. H0:(rozkładem populacji jest rozkład normalny o parametrach µ=1.5 i σ=0.23) – nazywamy ją nieparametryczną, a test z tym związany – testem nieparametrycznym (lub: zgodności).

(3)

Rozdział 5 PODSTAWOWE POJĘCIA STATYSTYKI

W rozdziale tym zostaną omówione takie pojęcia, jak populacja generalna – obiekt badań statystyki, próba losowa, czyli posiadana informacja o populacji generalnej, statystyka – zmienna losowa będąca funkcją próby, oraz rozkłady najważniejszych statystyk – informacja niezbędna dla wnioskowania statystycznego.

5.1 PRÓBA LOSOWA I STATYSTYKA JAKO FUNKCJA PRÓBY

Zbiorowość generalna. Pojęciem podstawowym, podobnie jak w części I, jest doświadczenie losowe. Często używanym da-

lej synonimem tego pojęcia jest słowo obser- wacja. Dotyczy ona pewnej zbiorowości (czyli zbioru), której elementy obserwujemy. Zbio- rowość ta nosi nazwę zbiorowości generalnej lub populacji generalnej (rys. 5.1) i składa się z pewnych obiektów, które mogą być obiek- tami materialnymi, np. jakimiś przed- miotami, lub też obiektami niematerialnymi, np. wynikami obserwacji, zarówno ilościowy- mi, jak i jakościowymi. Tak więc zbiorowością generalną może być zarówno zbiór samocho- dów danej marki, jakie zostały wyproduko-

wane w danym roku, zbiór prostokątów z rys. 5.1, zbiór wszystkich opadów, jakie spadły (i spadną) w danym punkcie geograficznym, jak też zbiór wszystkich możliwych wyników pomiarów długości danego przedmiotu.

Cecha X populacji generalnej. Wspomniane obiekty – elementy populacji – badamy zwykle ze względu na pewną cechę (charakterystykę), którą zawsze muszą posiadać wszystkie elementy danej populacji. Cechę tę zawsze kwantyfikujemy, tzn.

wyrażamy ją liczbowo. W przypadku zbiorowości samochodów cechą tą może być np.

Rys. 5.1. Przykład skończonej zbiorowości generalnej (zbiorowość prostokątów) i podzbioru tej zbiorowości – próby

(4)

czas do pierwszej naprawy (jedna liczba dla każdego samochodu), dla zbioru prosto- kątów z rys. 5.1 – może to być długość i szerokość prostokąta (dwie liczby dla każdego prostokąta), w przypadku opadów może nas interesować wysokość opadu, czas jego trwania oraz maksymalne natężenie (trzy liczby na każdy opad), podczas gdy w ostatnim przypadku – pomiaru długości danego przedmiotu – jest to jedna liczba (długość) na każdy pomiar.

Badana i skwantyfikowana cecha, nazwijmy ją X, jest z założenia zmienną losową i jako taka posiada pewien rozkład prawdopodobieństwa o dystrybuancie FX(x). Często mówi się też, że dana populacja ma rozkład FX(x)1. Należy tutaj od razu zdać sobie sprawę z faktu, że rozkład ten jest na ogół nieznany (jeśli jest znany, to informacja o tym pochodzi spoza statystyki). Dysponujemy jednak pewną informacją pochodzącą z obserwacji – próbą losową {x1, x2, ..., xn}. Informacja ta jest prawie zawsze niepełna, tzn. nie sposób na jej podstawie określić absolutnie dokładnie postać rozkładu FX(x).

Niepełność informacji o nieznanym rozkładzie FX(x), pochodzącej z szeroko rozu- mianego eksperymentu, spowodowana jest tym, że eksperyment ten daje pewien podzbiór zbioru możliwych obserwacji i na podstawie tego podzbioru – tzw. próby – wysuwamy wnioski dotyczące cechy X wszystkich elementów danej zbiorowości.

Przykład 5.1. Zmienna losowa i jej realizacje. Wykonano trzy serie pomiarów długości pewnego odcinka po 5 pomiarów w każdej serii. Tabela 5.1 zawiera uzyskane wyniki.

Tabela 5.1. Wyniki pomiarów długości odcinka Każda z trzech 5-elemen-

towych serii pomiarów może być traktowana jako realizacja 5-elementowej próby losowej (X1,X2,X3,X4,X5), natomiast wartości w kolejnych kolum-

nach są realizacjami kolejnych zmiennych losowych – składowych wektora losowego (X1,X2,X3,X4,X5). Na przykład liczby 9.99, 10.00 i 10.00 (pierwsza kolumna) są realizacjami zmiennej losowej X1. Oczywiście, realizacji zmiennej losowej X1 (i pozostałych zmiennych) może być nieskończenie wiele.

wynik xi i-go pomiaru w danej serii, m numer serii

pomiarów x1 x2 x3 x4 x5

1 9.99 10.02 9.98 9.99 9.98

2 10.00 10.01 9.99 10.01 10.00

3 10.00 10.00 10.00 10.02 9.99

Próba losowa. Niech doświadczenie losowe polega na n-krotnej obserwacji zmiennej losowej X. Wynikiem tego doświadczenia będzie zbiór n liczb x1, x2, ...,xn, gdzie indeks oznacza numer pomiaru. Ponieważ doświadczenie było losowe (nie mogliśmy z całkowitą pewnością przewidzieć jego wyników i przeprowadzono je tak, aby nie preferować żadnych wyników), to wartości te są realizacjami pewnych

1 To sformułowanie sugeruje, że każdą populację możemy w końcu rozumieć jako zbiór X liczb (zbiór X możliwych wyników pomiaru) i do takiego spojrzenia prowadzi podejście statystyczne. Dla prawi- dłowego wnioskowania jest wszakże konieczne, aby jak najlepiej rozumieć czego dotyczą liczby x i ich

(5)

zmiennych losowych, odpowiednio: X1, X2, ...,Xn, lub inaczej: realizacjami wektora losowego (X1, X2, ...,Xn). Zmienną Xi nazwiemy wynikiem i-tej obserwacji (lub:

wynikiem i-go pomiaru) zmiennej losowej X, wektor (X1, X2, ...,Xn) nazwiemy próbą losową, a zbiór liczb (x1, x2, ..., xn) – realizacją tej próby. Formalną definicję próby losowej można znaleźć np. w podręczniku Fisza [11]. Zamiast sformułowania realizacja próby losowej często stosuje się sformułowanie próba losowa, co prowadzi do konfliktu z podanym powyżej określeniem – przeważnie jednak kontekst pozwala domyślić się, o którym z dwu powyższych terminów jest mowa. Liczba n nazywana jest liczebnością próby i jest to bardzo ważny parametr statystyczny.

Losowość próby. Losowość próby jest niezbędnym warunkiem tego, aby można było używać jej do wyciągania wniosków dotyczących całej populacji (aby próba była reprezentatywna). (Tak więc przedstawiona na rys. 5.1 próba, jeśli tylko jest losowa, może być podstawą wnioskowania o całej populacji prostokątów).

Próba losowa jest podstawą wnioskowania statystycznego o rozkła- dzie badanej cechy X populacji generalnej. Ponieważ próba jest częścią całej populacji, zawiera informację lokalną – związaną wyłącznie z samą próbą – i informację globalną, która dotyczy całej populacji. Z punktu widzenia wnioskowania statystycznego informacja lokalna zaciemnia poszukiwaną przez nas informację o populacji (jest „szumem”), co oznacza, że wnioskowanie statystyczne jest zawsze obarczone niepewnością.

Prosta próba losowa. Spośród prób losowych szczególne zastosowanie znala- zła prosta (lub: niezależna) próba losowa. Jest to taka próba losowa, która posiada następującą własność:

1 2 1 2

( , ,..., ) ( ) ( )... ( )

n n X X X n

F x x x =F x F x F x (5.1)

gdzie Fn(x1,x2,...,xn) jest dystrybuantą łącznego rozkładu wektora losowego (X1, X2, ..., Xn), FX(·) – nieznaną dystrybuantą zmiennej losowej (cechy) X, a n – dowolną liczbą naturalną.

Powyższa równość oznacza, że zmienne X1,X2,...,Xn

(1) mają taki sam rozkład FX(x) oraz że (2) są niezależne (zespołowo).

Możemy więc uważać, że w prostej próbie losowej kolejność jej elementów nie odgrywa żadnej roli, co oznacza, że wartość kolejnego elementu próby nie zależy od wartości elementów poprzednich (i następnych). Mówiąc jeszcze inaczej:

œi>1 Fi(xi|xi-1, xi-2,...,x1) = FX(xi).

(6)

Wynika z tego dalej, że jeśli poprzez zmianę kolejności wyrazów utworzymy z ciągu {x1,x2,..., xn} tzw. ciąg uporządkowany (albo inaczej: próbę uporządkowaną) niemalejący {x(1),x(2),...,x(n)}, tj. taki, że:

(1) ( 2) ... ( )n

xx ≤ ≤x (5.2)

lub nierosnący {x(1),x(2),...,x(n)}, tzn. taki, że

(1) ( 2) ... ( )n

xx ≥ ≥x (5.3)

to dostarcza on tyle samo informacji co oryginalny ciąg (x1, x2, ...,xn). Bardzo często założenie (2) przyjmowane jest bez dowodu, co może prowadzić do poważnych błędów.

Przykład 5.2. Uporządkowana próba losowa.

Niech będzie dana 5-elementowa próba losowa {x1, x2, x3, x4, x5} = {2, 4, 1, 3, 7}.

Uporządkowana rosnąca próba losowa to {x(1), x(2), x(3), x(4), x(5)} = {1,2,3,4,7}, a próba uporządkowana malejąco to oczywiście {x(1), x(2), x(3), x(4), x(5)} = {7, 4, 3, 2, 1}.

Wyrażając istotę prostej próby losowej w terminach mniej matematycznych, moż- na powiedzieć, że zasadza się ona na założeniu o identycznych warunkach, w jakich przeprowadzane jest doświadczenie (obserwacja) oraz równomożliwości (identycz- nym prawdopodobieństwie) uzyskania wszystkich otrzymanych wyników.

Statystyka. Ponieważ próba losowa jest wektorem losowym, to wynika stąd, że dowolna funkcja Zn próby (X1, X2,...,Xn)

1 2

( , ,..., )

n n

Z =g X X X (5.4)

jest także zmienną losową. Funkcja Zn nosi nazwę statystyki. Jest więc, na przykład, zmienną losową (i zarazem statystyką) wartość średnia z próby, wariancja z próby, itp. Wyznaczanie rozkładów statystyk jest jednym z podstawowych zagadnień statystyki matematycznej. Niektóre rozkłady statystyk są zamieszczone w rozdziale 5.3.

Mała i duża próba. Istnieją dwa podejścia do rozwiązania problemu wyznacza- nia rozkładu danej statystyki. Podejście pierwsze polega na wyznaczeniu dla każdego n rozkładu ( )

Zn

F x statystyki Zn (na podstawie znajomości FX(x), czyli znajomości rozkładu danej cechy populacji generalnej). Taki rozkład nazywamy dokładnym rozkładem statystyki Zn.

Gdy liczba n jest duża, możemy skorzystać z pewnych twierdzeń rachunku prawdopodobieństwa i wyznaczyć rozkład danej statystyki Zn, gdy n zmierza do nieskończoności (taki rozkład nazywa się rozkładem granicznym lub asymptotycz- nym). Rozkłady asymptotyczne statystyk mają tę ważną cechę, że nie zależą od roz-

(7)

kładu FX(x) populacji, co czyni z nich bardzo pożądane narzędzie analizy staty- stycznej.

Jeśli n jest tak duże, że możemy skorzystać z rozkładu granicznego badanej statystyki, to taka próba nazywa się dużą próbą (dla danej statystyki). Jeśli natomiast wielkość n nie pozwala na skorzystanie z rozkładu granicznego, to mamy do czynienia z próbą małą (dla danej statystyki).

Ostrzeżenie. Niestety nie istnieje kryterium pozwalające jednoznacznie zdefiniować próbę małą i dużą – zależy to od rozpatrywanej statystyki. Chyba najczęściej stosowaną liczbą definiującą dużą próbę jest n=30. Należy jednak mocno podkreślić, że liczba ta dotyczy przede wszystkim statystyki średnia wartość z próby. W każdym innym przypadku liczba ta może być inna.

5.2 PODSTAWOWE TWIERDZENIE STATYSTYKI MATEMATYCZNEJ

Informacją najbardziej pożądaną, jaką chcemy uzyskać o cesze X na podstawie próby losowej jest znajomość rozkładu FX(x). Ponieważ próba losowa niesie z sobą informację o X, to znaczy, że niesie ona informację o rozkładzie FX(x). Poniższe twierdzenie, zwane czasami podstawowym twierdzeniem statystyki matematycznej lub częściej twierdzeniem Gliwienki albo też Gliwienki-Cantelliego, pozwala zbu- dować pewien empiryczny odpowiednik nieznanej dystrybuanty FX(x) – tak zwaną dystrybuantę empiryczną Fn(x) i wykazuje użyteczność tego pojęcia.

5.2.1 Dystrybuanta empiryczna

Mamy daną prostą próbę losową (x1, x2, ...,xn) (mówiąc ściśle mamy daną realizację prostej próby losowej, jednakże słowo realizacja często się opuszcza). Dystrybuanta empiryczna Femp(x), gdzie x jest dowolną liczbą rzeczywistą, jest taką funkcją, że

( ) i , i

emp

liczba elementów x próby takich że x x F x

n

= < (5.5)

Jeśli utworzymy próbę uporządkowaną rosnąco (zwaną też czasem rosnącym cią- giem rozdzielczym) (x(1), x(2),...,x(n)), gdzie x(1)#x(2)#...#x(n), to definicja Femp(x) równo- ważna definicji (5.5) będzie miała postać:

(1)

( ) ( 1)

( )

0, ( ) ,

1,

emp k k

n

dla x x

F x k dla x x x

n

dla x x

+

 ≤



= ≤ <

 >

(5.6)

(8)

Wzory (5.5) i (5.6) wynikają z przyjmowanego powszechnie założenia o równym prawdopodobieństwie pojawiania się wyników danej próby losowej (x1, x2, ...,xn):

P(X xi) 1, i 1, 2,...,n

= =n = (5.7)

Można spotkać też inne wzory na dystrybuantę empiryczną, m.in. taki dla próby uporządkowanej rosnąco x(1)#x(2)#...#x(n). :

( ( ))

emp k 1 F x k

= n

+ (5.8)

podający wartości dystrybuanty w punktach jej nieciągłości.

Przykład 5.3. Wykreślanie dystrybu- anty empirycznej.

Dana jest 10-elementowa próba losowa {xi}i=1,10 = {4.61, 6.90, -1.03, -0.76, 4.50, 0.81, 1.64, 5.84, 5.56, 0.14} wylosowana z pewnej populacji X, gdzie X oznacza ciągłą zmienną losową.

Zadanie. Wykreślić dystrybuantę empi- ryczną Femp(x) zmiennej losowej X dla tej próby.

Rozwiązanie. Porządkujemy rosnąco pró- bę {xi}i=1,10 i dostajemy próbę uporządko- waną {x(i)}i=1,10 = {-1.03, -0.76, 0.14, 0.81, 1.64, 4.5, 4.61, 5.56, 5.84, 6.9}, po czym korzystamy ze wzoru (5.6). (Można też korzystać, co jest często stosowane, ze wzo- ru(5.8)). Wynik pokazany jest na rys. 5.2.

5.2.2 Podstawowe twierdzenie statystyki matematycznej – twierdzenie Gliwienki-Cantelliego

Jeśli prosta próba losowa (X1,X2,...,Xn) pochodzi z populacji o rozkładzie FX(x), to

n

P lim sup emp( ) X( ) 0 1

x R

F x F x

→∞

 

− = =

 

  (5.9)

gdzie Femp(.) jest dystrybuantą empiryczną zmiennej losowej X, a P(·) oznacza prawdopodobieństwo. Wzór ten jest teoretycznym uzasadnieniem przekonania, że w miarę wzrostu liczebności n próby powiększa się nasza wiedza o nieznanym rozkładzie FX(x), co wyraża się mniejszą maksymalną odległością sup|Femp(x)-FX(x)|

Rys. 5.2. Dystrybuanta empiryczna zmiennej X obliczona na podstawie 10-elementowej próby loso- wej.

(9)

pomiędzy rozkładem empirycznym Femp(x) a rzeczywistym rozkładem FX(x) (zob. rys. 5.3, gdzie przedsta- wiono 3 dystrybuanty empiryczne dla n = 10, 20 i 40). (Istnieją inne możli- wości zdefiniowania odległości pomię- dzy funkcjami).

Histogram (wykres częstości względnych) jako obraz funkcji gęstości. Dystrybuanta empiryczna jest eksperymentalnym obrazem rze- czywistej dystrybuanty badanej zmiennej X. Na podstawie danej pró- by losowej można także zbudować

empiryczny odpowiednik funkcji gęstości, co jest zilustrowane na rys. 5.4. Należy w tym celu obrać w sposób mniej lub więcej arbitralny pewne przedziały na osi wartości zmiennej X, zliczyć liczbę ni realizacji zmiennej w kolejnych przedziałach, obliczyć wartość częstości względnej ni/n, gdzie n jest liczebnością próby, oraz wykreślić prostokąt o wysokości ni/(n)x) i szerokości )x. Niestety ta reprezentacja – w odróżnieniu od dystrybuanty empirycznej – zawsze gubi część informacji zawartej w próbie. Dzieje się tak wskutek czynności grupowania elementów próby – "wrzucania"

n wartości zmiennej do n'<n przedziałów )x, gdzie tracą one swoją indywidualność (tzn. wiadomo, ile elementów próby należy do danego przedziału, nie wiadomo jednak, gdzie one leżą wewnątrz tego przedziału). Pewną negatywną rolę odgrywa tutaj również arbitralność w wyborze długości przedziału )x, co doskonale ilustrują wykresy B, C i D na rys. 5.4, jak też arbitralność wyboru początku przedziału zmienności zmiennej X (na rys. 5.4 jest to punkt x0=5).

Przykład 5.4. Histogram jest obrazem funkcji gęstości prawdopodobieństwa.

Z populacji normalnej o parametrach µ=10 i σ=2 (rys. 5.4A), N(10,2), wylosowano n=40- elementową prostą próbę losową. Wyniki zawarte są w tabeli A.

Tabela A. 40-elementowa próba wylosowana z populacji N(10,2) 11.37 11.31 13.19 9.10 11.27 11.84 10.44 11.29 10.57 8.55 13.58 9.47 7.94 11.38 14.36 8.92 5.53 8.43 8.77 11.12 9.76 8.20 11.57 8.81 5.72 6.59 12.65 8.96 7.71 10.69 9.90 7.88 9.06 8.81 10.29 7.21 10.26 13.16 11.05 7.06 Następnie zakres zmienności próby losowej (dla wygody przyjęto przedział (5;15)) został podzielony trzykrotnie: odpowiednio na 10, 8 i 5 równych przedziałów ∆xi i w każdym z nich znaleziono liczbę ni wartości danej próby losowej. Uzyskane wyniki przedstawione są kolejno w tabelach B, C i D.

Rys. 5.3. Ilustracja sensu twierdzenia Cantelliego: im bardziej liczna próba tym bardziej dystrybuanta empiryczna jest bliższa dystrybuancie populacji (linia pogrubiona)

(10)

w tabelach B, C i D.

Tabela B. 10 przedziałów grupowania wartości 40-elementowej próby losowej (rys. 5.4B)

i 1 2 3 4 5 6 7 8 9 10

)xi 5-6 6-7 7-8 8-9 9-10 10-11 11-12 12-13 13-14 14-15

ni 2 1 5 8 5 5 9 1 3 1

Tabela C. 8 przedziałów grupowania wartości 40-elementowej próby losowej (rys. 5.4C)

i 1 2 3 4 5 6 7 8

)xi 5.0-6.25 6.25-7.50 7.50-8.75 8.75-10.00 10.00-11.25 11.25-12.50 12.50-13.75 13.75-15.00

ni 2 3 6 10 7 7 4 1

Tabela D. 5 przedziałów grupowania wartości 40-elementowej próby losowej (rys. 5.4D)

i 1 2 3 4 5

)xi 5-7 7-9 9-11 11-13 13-15

ni 3 13 13 10 4

Wszystkie histogramy (rys. 5.4B, C i D) są empirycznymi obrazami (reprezentacjami) tej samej funkcji gęstości

f(x) (rys. 5.4A). Każdy z nich w innym stopniu niesie informację o rzeczywistej funkcji gęstości. Wydaje się, że histogram B jest zbyt szczegółowy: za dużo jest tam informacji po- wstałej na skutek tego podziału. Z kolei, histo- gram D jest zbyt ogólny:

sugeruje, że rzeczywista funkcja gęstości ma maksimum na lewym krańcu przedziału zmienności. W porów- naniu z tymi dwoma histogramami, najlepszy

(w sensie podobieństwa do f(x)), wydaje się histogram C.

6. 8. 10. 12. 14. x 0.05

0.1 0.15 0.2

f*HxL nDx=8

C

6. 8. 10. 12. 14. x 0.05

0.1 0.15

0.2

f*HxL nDx=5

D

6 8 10 12 14 x

0.05 0.1 0.15 0.2

fHxL NH10; 2L A

6. 8. 10. 12. 14. x 0.05

0.1 0.15

0.2

f*HxL nDx=10

B

Rys. 5.4. Wykreślone dla 40-elementowej próbki: A. funkcja gęstości populacji N(10,2) oraz histogramy o przedziałach zliczania B. )x=1.0, C.

)x=1.25 i D. )x=2.

Istnieje inna metoda znajdowania empirycznej funkcji gęstości – tzw. estymacja nieparametryczna funkcji gęstości – pozwalająca uniknąć większości błędów opisa- nego wyżej histogramu. Metoda ta nie będzie jednak tutaj omawiana.

(11)

5.3 NAJWAŻNIEJSZE STATYSTYKI I ICH ROZKŁADY

Dana jest próba losowa (X1,X2,...,Xn). Możemy określić dla niej wiele statystyk, czyli zmiennych losowych będących funkcjami próby. Najważniejsze z nich, z prak- tycznego punktu widzenia, to momenty z próby i ich funkcje. W kolejnych pod- rozdziałach podane zostały równania definicyjne niektórych podstawowych statystyk wraz z najważniejszymi rozkładami z nimi związanymi. W niektórych podręcznikach statystyki te oznaczane są małymi literami niezależnie od tego, czy ma ona w danej chwili sens zmiennej losowej, czy jej wartości. W niniejszym tekście takie rozróżnienie będzie zachowane. Stosowana dalej pozioma kreska (6) nad symbolem lub grupą symboli („kreska ponad”) oznacza średnią arytmetyczną liczoną ze względu na zmienną lub zmienne występujące pod tym znakiem. Jest ona odpowiednikiem operatora wartości oczekiwanej E używanego dla średniej przy znanym rozkładzie prawdopodobieństwa.

Przykład 5.5. Działanie operatora kreska ponad.

2 2 2 2

1 1 1

1 1 1

( ) ( ) ( ) ( )

n n n

def

i i i

i i i

g x g x x x x x x x

n = n = n =

=

=

− =

(5.10)

Wszędzie powyżej zakładamy, że liczebność próby wynosi n.

W kolejnych podrozdziałach przedstawione zostaną ważne statystyki i ich rozkłady w zależności od tego, czy badana jest populacja jednowymiarowa, dwuwymiarowa, czy dwie populacje jednowymiarowe.

5.3.1 Populacja jednowymiarowa. Wartość średnia z próby

Dana jest próba losowa (X1, X2, ...,Xn) pobrana z badanej jednowymiarowej popu- lacji X. Statystyka wartość średnia z próby (lub: wartość średnia w próbie) jest zdefiniowana równością

1

1 n

i i

X X

n =

=

(5.11)

Populacja X normalna ze znaną wartością odchylenia standardowe- go σσσσ. Jeśli populacja, z której pochodzi n elementowa prosta próba, ma rozkład normalny: FX=N(µ,σ) ze znaną wartością σ, to statystyka

U X µ n

σ

= − (5.12)

ma rozkład normalny N(0,1).

(12)

Przypadek ten jest często spotykany w praktyce pomiarowej, gdy przyjmujemy tzw.

normalny model niepewności (błędów) pomiarowych, tzn. przyjmujemy za praw- dziwe założenie, że niepewności pomiarowe (zwane często mniej precyzyjnie błędami pomiarowymi) – czyli odchyłki X-µ wyników x pomiaru od nieznanej wartości praw- dziwej µ – podlegają rozkładowi normalnemu N(0,σ), gdzie σ jest znaną dokładnością przyrządu pomiarowego (dokładnością pojedynczego pomiaru). Inaczej mówimy, że wynik X pomiaru nieznanej wartości prawdziwej µ podlega rozkładowi normalnemu N(µ,σ). Fakt, że statystyka (5.12) podlega rozkładowi N(0,1) jest inną formą stwierdzenia, że użycie wartości średniej x z n pomiarów zamiast pojedynczej wartości x daje korzyść polegającą na mniejszej niepewności (mniejszym błędzie), gdyż zmienna X podlega rozkładowi normalnemu N(µ,σ/ n ) zamiast N(µ,σ) jak dla X. (Zwróćmy uwagę na fakt, że EX = EX = µ).

Przykład 5.6. Obliczanie liczby pomiarów niezbędnych do 10-krotnego zmniejszenia niepewności pomiaru.

Wykonujemy n pomiarów xi, i=1,2,...,n, długości L pewnego przedmiotu przyrządem o dokładności σ = 1 mm, po czym obliczamy wartość średnią x . Ile pomiarów trzeba wykonać, aby prawdopodobieństwo, że uzyskana średnia nie różni się od wartości prawdziwej więcej niż 0.1 mm było równe 95%?

Odpowiedź. Przyjmujemy, że wartość prawdziwa L odpowiada parametrowi µ statystyki U (5.12), stąd można przyjąć, że warunek postawiony w zadaniu ma postać

( )

P |X −µ|<0.1 mm =0.95 (5.13) Z uwag zamieszczonych bezpośrednio powyżej można przyjąć następujący ciąg dalszy:

( ) ( )

( ) ( ) ( )

( ) ( ( ) ) ( )

| | 0.1

P | |<0.1 mm P < P | | <0.1 n

/ n / n

P 0.1 n 0.1 n 0.1 n 0.1 n

0.1 n 1 0.1 n 2 0.1 n 1 0.95

X X U

U µ µ

σ σ

 − 

− =  =

 

= − < < = Φ − Φ −

= Φ − − Φ = Φ − =

(5.14)

bo σ=1 mm a Φ() jest dystrybuantą rozkładu N(0,1). Z (5.14) mamy, że wartość 0.1 njest kwantylem rzędu 0.975: 0.1 n= u0.975. Z tablic rozkładu normalnego mamy: u0.975 = 1.96.

Równanie 0.1 n = 1.96 daje rozwiązanie: n=384.16, skąd mamy odpowiedź: Trzeba co najmniej n=385 pomiarów.

Populacja X normalna z nieznaną wartością σ. Jeśli populacja, z której pochodzi n elementowa prosta próba, ma rozkład normalny FX=N(µ,σ) z nieznaną wartością σ, to statystyka

(13)

X 1

t n

S µ

= − − (5.15)

ma rozkład Studenta z parametrem <=n-1 nazywanym liczbą stopni swobody.

Wielkość S jest odchyleniem standardowym z próby ( 2 2 (1/ ) n1( i )

S n i x x

=

=). Wy-

jątkowo, ze względu na tradycję, zmienna losowa (tj. t) jest tutaj oznaczana małą, nie dużą, literą.

Ze względu na swą niezależność od σ rozkład ten znajduje szerokie zastosowa- nie. Charakteryzuje się on następujący- mi pierwszymi momentami

E 0

var 1

2 3

t t n

n ν ν

=

= = −

− −

(5.16) i bardzo szybko ze wzrostem < upodab- nia się do rozkładu normalnego N(0,1) (rys. 5.5). Z dokładnością wystarczającą dla praktycznych zastosowań można przyjąć, że dla ν>30 rozkłady te są iden- tyczne. Wartości niektórych kwantyli tego rozkładu dla 1≤ν≤30 podane są w tabeli 3 zamieszczonej w Dodatku A.

Populacja X o rozkładzie nie-normalnym lub nieznanym. Gdy rozkład populacji nie jest znany lub gdy jest znany ale nie jest normalny, to dla dużej próby (tj. więcej niż ok. 30) ma zastosowanie graniczny rozkład normalny, co oznacza, że wartość średnia X z n-elementowej próby losowej podlega w przybliżeniu rozkładowi N( x , sX / n).

Przykład 5.7. Duża próba. Z populacji X o nieznanym rozkładzie pobrano n=100- elementową prostą próbę losową i znaleziono, że x=28.3 i sX=1.75. Zgodnie z powyższym twierdzeniem zmienna losowa podlega w przybliżeniu rozkładowi N(28.3, 1.75/ 100) = N(28.3, 0.175).

5.3.2 Populacja jednowymiarowa. Wariancja z próby

Populacja X normalna. Wariancja z próby S2 jest zdefiniowana następująco:

2 2 2

1

( ) 1 ( )

def n

i i

S X X X X

n =

= − =

(5.17)

Rys. 5.5. Im większa liczba stopni swobody ν tym bardziej rozkład Studenta jest bliższy rozkładowi N(0,1) (linia pogrubiona)

(14)

Jeśli populacja, z której pochodzi n elementowa prosta próba losowa, ma rozkład normalny FX=N(µ,σ) z nieznaną wartością σ, to statystyka χ2 (chi-kwadrat)

2 2

2

χ nS

= σ (5.18)

podlega rozkładowi χ2 z parametrem ν=n-1 (z ν stopniami swobody). Wartość oczeki- wana i wariancja tej zmiennej wyrażają się wzorami

2 2

Eχ =ν varχ =2ν (5.19)

skąd (i z (5.18)) wynikają wzory dla S2:

2 2 2 4

2

1 2( 1)

E n var n

n n

χ = σ χ = σ (5.20)

Tabela 4 z Dodatku A zawiera niektóre kwantyle tego rozkładu dla liczby stopni swobody 1 ÷30. Dla ν>30 można stosować rozkład graniczny zmiennej losowej (2χ2)1/2, która podlega rozkładowi normalnemu N[(2n-1)1/2,1].

Przykład 5.8. Rozkład wariancji z próby. Obliczyć prawdopodobieństwo, że obliczo- na wartość wariancji S2 z próby o liczebności n=20 nie różni się od wartości prawdziwej wariancji σ2 o więcej niż 5%.

Rozwiązanie. Zadanie można zapisać następująco:

2

P 0.95 S2 1.05 ? σ

 

< < =

 

  (5.21)

Biorąc pod uwagę definicję , mamy dalej

( ) ( )

2 2

2

2 2

P 0.95 2 1.05 P 0.95 1.05 P 19 21

(21; 19) (19; 19) 0.663 0.543 0.120

S n n

F F

χ χ

χ χ

σ

ν ν

 

< < = < < = < <

 

 

= = − = = − =

(5.22)

Wartości dystrybuanty Fχ2(x) zostały odczytane z tablicy 4 (Dodatek A) rozkładu χ2.

Populacja X o rozkładzie nie-normalnym lub nieznanym. Gdy rozkład populacji X nie jest określony, to dla dużej próby ma zastosowanie graniczny rozkład normalny dla S2 = M2, tzn. zmienna S2 podlega wtedy w przybliżeniu rozkładowi nor- malnemu:

( )

2 2 2

2

2 2 2 4 2

( ) (E , D )

E = D = 1

FS x N M M

M M

µ n µ µ

− (5.23)

gdzie µk = E(X-EX)k. *********przykład??

(15)

5.3.3 Populacja jednowymiarowa. Odchylenie standardowe z próby Odchylenie standardowe z próby S. Określa je równanie

2 2

1

1 ( )

def n

i i

S S X X

n =

= =

(5.24)

Rozkłady zmiennej losowej S są oczywiście ściśle związane z rozkładami wariancji z próby S2, toteż łatwo obliczyć żądane wartości związane z S na podstawie zależności dotyczących S2.

Przykład 5.9. Rozkład odchylenia standardowego z próby. Obliczyć prawdopodo- bieństwo, że obliczona wartość odchylenia standardowego S z próby o liczebności n=20 nie różni się od wartości prawdziwej odchylenia standardowego σ o więcej niż 5%.

Rozwiązanie. Zadanie jest podobne do zadania z przykładu 5.8:

2

2 2

P 0.95 S 1.05 P 0.95 S2 1.05 ?

σ σ

 

 

< < =  < < =

 

    (5.25)

Jak w przykładzie 5.8, dostajemy dalej dla n=20:

( ) ( )

2 2

2

2 2 2 2 2 2

P 0.95 2 1.05 P 0.95 1.05 P 18.05 22.05

(22.05; 19) (18.05; 19) 0.718 0.481 0.237

S n n

F F

χ χ

χ χ

σ

ν ν

 

< < = < < = < <

 

 

= = − = = − =

(5.26)

Wartości dystrybuanty Fχ2(x) zostały odczytane z tablic 4 (Dodatek A) rozkładu χ2. 5.3.4 Populacja jednowymiarowa. Moment początkowy Ak rzędu k z

próby

Definicja momentu początkowego Ak rzędu k z próby jest analogiczna do definicji momentu teoretycznego αk (??):

1

1 n

def k k

k i

i

A X X

n =

= =

(5.27)

Prawdziwe jest następujące twierdzenie o rozkładzie granicznym momentu Ak: Jeśli mamy daną n-elementową prostą próbę losową i istnieje skończony moment "2k

populacji generalnej, to

( ) (E , D )

Ak k k

n

F x N A A

→∞

→ (5.28)

gdzie

(

2 2

)

EAk= k DAk= 1 k k

α n α −α (5.29)

(16)

Rys. 5.6. W miarę wzrostu liczebności n próby rozkłady R1, R2, R3, R4 (R=A, B, C, D) wartości średniej z próby są coraz mniej podobne do rozkładu R zmiennej losowej X skupionego na przedziale (0,1).

Rys. 5.6 ilustruje powyższe twierdzenie dla pierwszego momentu A1≡ X . Przepro- wadzony został następujący eksperyment numeryczny. Wybrane zostały 4 różne (pod względem symetrii) rozkłady populacji (A, B, C i D), następnie z każdej z tych populacji losowane było 200 prób o liczebności n i dla każdej próby obliczano wartość średnią x . W ten sposób tworzone były 200-elementowe próby wartości średnich.

Rozkłady częstości względnych wystąpień wartości średniej X , przedstawione na rys.

5.6, już dla n=10 praktycznie nie przypominają rozkładu wyjściowego cechy X populacji.

5.3.5 Populacja jednowymiarowa. Moment centralny Mk rzędu k z próby Moment centralny Mk rzędu k z próby jest zdefiniowany jak następuje:

1

( ) 1 ( )

def n

k k

k i

i

M X X X X

n =

= − =

(5.30)

Analogicznie jak moment początkowy, również moment centralny ma swój rozkład graniczny:

(17)

(

2 1 1 2 2 2 21

)

( ) (E , D )

E = D = 1 2

Mk k k

n

k k k k k k k k

F x N M M

M M k k

µ n µ µ µ µ µ µ

→∞

+

− − + (5.31)

gdzie µk jest momentem centralnym rzędu k zmiennej X: µk=E(X-EX)k.

Przykład 5.10*******************

5.3.6 Populacja dwuwymiarowa. Współczynnik korelacji R z próby Mamy daną dwuwymiarową (prostą) próbę losową {(X1,Y1), (X2,Y2), ..., (Xn,Yn)}

wziętą z dwuwymiarowej populacji (X,Y). Definiujemy współczynnik korelacji R z próby zmiennych losowych (X,Y):

1

1 ( )( )

( )( )

n def i

i XY

X Y

X X Y Y R X X Y Y n

S S

=

− −

= − − =

(5.32) gdzie SX i SY są odchyleniami standardowymi (5.24) odpowiednio zmiennej X i Y.

Populacja normalna ze współczynnikiem korelacji DDDD=0. Jeżeli populacja, z której pobrano prostą próbę, podlega dwuwymiarowemu rozkładowi normalnemu ze współczynnikiem korelacji D=0, to statystyka

2 2

1

t R n

R

= −

− (5.33)

podlega rozkładowi Studenta o ν=n-2 stopniach swobody.

Przykład 5.11. Rozkład współczynnika korelacji z próby (ρρρρ=0).

Dana jest dwuwymiarowa populacja normalna o współczynniku korelacji ρ=0. Obliczyć prawdopodobieństwo, że współczynnik korelacji z n=20-elementowej próby nie różni się od zera więcej niż 0.1.

Rozwiązanie. Ponieważ funkcja t(R) jest funkcją rosnącą, to prawdziwa jest następująca równość:

( ) ( )

P |R| 0.1< =P | ( ) |t R <t(0.1) =? (5.34) skąd mamy dalej:

( ) ( )

0.1 2

( )

P | | 0.1 P | ( ) | (0.1) P | | 20 2 P | | 0.4264 1 0.1

P( 0.4264 0.4264) (0.4264; 18) ( 0.4264; 18) 0.6535 0.3465 0.3070

t t

R t R t t t

t F ν F ν

 

< = < =  < − = <

 − 

= − < < = = − − =

= − =

(5.35)

Symbol Ft(x,<) oznacza wartość dystrybuanty rozkładu Studenta o < stopniach swobody w punkcie x (tabela 3 w Dodatku A).

(18)

Populacja normalna z dowolnym współczynnikiem korelacji. Jeżeli populacja, z której pobrano prostą próbę,

podlega dwuwymiarowemu rozkładowi normalnemu z dowolnym współczynnikiem korelacji ρ (a więc niekoniecznie ρ=0 jak wyżej) to statystyka Z (tzw. przekształcenie Fishera)

1 1 2ln1 Z R

R

= +

− (5.36)

(zob. rys. 5.7) ma już dla niedużych n (prak- tycznie dla n$ 20 [?]) rozkład w przybliżeniu normalny

1 1 1

N ln ;

2 1 2(n 1) n 1

ρ ρ

ρ

 + 

 + 

 − − − 

  (5.37)

Przykład 5.12. Jakość przybliżenia (5.37), gdy współczynnik korelacji z próby ρρ

ρρ=0. (Zadanie jak w przykładzie 5.11). Dana jest dwuwymiarowa populacja normalna o współczynniku korelacji ρ=0. Korzystając z (5.37) obliczyć prawdopodobieństwo, że współ- czynnik korelacji z n=20-elementowej próby nie różni się od zera więcej niż 0.1.

Rozwiązanie. Ponieważ przekształcenie Fishera jest funkcją rosnącą i symetryczną względem punktu (0,0), to można napisać

( ) ( )

P |R| 0.1< =P | ( ) |Z R <Z(0.1) =? (5.38) Dalej mamy:

( ) ( )

( )

P | | 0.1 P | ( ) | (0.1) 1 0.1

P | | 0.5 ln P | | 0.1003 ...

1 0.1

R Z R Z

Z Z

< = <

 + 

=  < = < =

 − 

(5.39)

Zgodnie z zmienna Z w tym przykładzie podlega rozkładowi N(0, 1/19) = N(0,0.2294). Aby więc móc skorzystać z tablic dystrybuanty Φ(u) rozkładu N(0,1), należy zmienną Z standa- ryzować, co sprowadza się w tym przypadku do podzielenia obu stron nierówności w przez wartość 0.2294

( )

| | 0.1003

... P P | | 0.4372

0.2294 0.2294

(0.4372) ( 0.4372) 2 (0.4372) 1 2 0.6690 1 0.338

Z U

 

=  < = <

 

= Φ − Φ − = ⋅ Φ −

= ⋅ − =

(5.40)

Otrzymana wartość 0.338 jest o nieco ponad 10% wyższa od wartości dokładnej (0.307) uzyskanej w przykładzie 5.11. Gdyby próba losowa była 30-elementowa, wtedy otrzymane

-1 -0.5 0.5 1 R

-2 -1 1 2 ZHRL

Rys. 5.7. Przekształcenie Z Fishera (5.36)

(19)

wartości prawdopodobieństwa P(|R|<0.1) wyniosłyby odpowiednio 0.4108 i 0.3874 (różnica 6%).

Przykład 5.13. Rozkład współczynnika korelacji z próby (ρρρρ=0.5).

Dana jest dwuwymiarowa populacja normalna o współczynniku korelacji ρ=0.5. Obliczyć prawdopodobieństwo, że współczynnik korelacji z n=30-elementowej próby nie różni się od 0.5 więcej niż 0.1.

Rozwiązanie. Trochę inaczej niż w poprzednim przykładzie 5.12 mamy 1 1

ln 0.5407

2 1 2( 1)

1 0.1857 1

n

n

ρ ρ

µ ρ

σ

= + + =

− −

= =

(5.41)

i dalej:

( ) ( ) ( )

( )

P | | 0.1 P 0.1 0.1 P ( 0.1) ( ) ( 0.1)

1 (0.5 0.1) 1 (0.5 0.1)

P 0.5ln 0.5 ln

1 (0.5 0.1) 1 (0.5 0.1) P 0.4326 0.6931

0.4326 0.5407 0.5407 0.6931 0.5407

P 0.1857 0.1857 0.1857

P 0.6

R R Z Z R Z

Z Z

Z

ρ ρ ρ ρ ρ

− < = − < < + = − < < +

 + − + + 

=  < < 

− − − +

 

= < <

− − −

 

=  < < 

 

=

(

306 0.8207

)

(0.8207) ( 0.6306)

0.7941 0.2642

<U < = Φ − Φ −

= − = 0.5299

(5.42)

5.3.7 Populacja dwuwymiarowa. Współczynnik kierunkowy A regresji liniowej z próby zmiennej Y względem zmiennej X

Współczynnik kierunkowy A regresji liniowej z próby zmiennej Y względem zmiennej X dany jest równaniem

Y X

A RS

= S (5.43)

gdzie R jest współczynnikiem korelacji z próby (5.32), a SX i SY są odchyleniami standardowymi odpowiednio zmiennych X i Y.

Jeżeli populacja, z której pobrano prostą próbę, podlega dwuwymiarowemu rozkładowi normalnemu o (rzeczywistej) funkcji regresji E(Y|x) = αx+β znalezionej jako funkcja regresji z próby w postaci Ŷ = Ax+B, to statystyka

2

( ) 2 1

X

Y

S n t A

S R

α

= −

− (5.44)

(20)

podlega rozkładowi Studenta o n-2 stopniach swobody (tzw. twierdzenie Bartletta).

Losowość oceny prawdziwej regresji wyraża się tutaj poprzez losowe współczynniki regresji A i B, co będzie miało swoją konsekwencję w rozdziale o weryfikacji hipotez statystycznych.

Przykład 5.14. Twierdzenie Bartletta. Dana jest dwuwymiarowa ....

5.3.8 Dwie populacje jednowymiarowe. Różnica X1X2wartości średnich z próby

Dane są dwie proste próby losowe (X1,X2,...,

n1

X ) oraz (X1,X2,...,

n2

X ) wzięte niezależnie z dwu badanych populacji jednowymiarowych.

Populacje normalne o znanych odchyleniach standardowych FFFF1 i FFFF2. Jeśli populacje, z których pochodzą n1 i n2-elementowe proste próby losowe, mają rozkłady normalne, odpowiednio: N(µ11) i N(µ22), ze znanymi wartościami σ1 i σ2, to statystyka

(

1 2

)

1 2

2 2

1 1 2 2

( )

/ /

X X

U

n n

µ µ

σ σ

− − −

=

+ (5.45)

ma rozkład normalny N(0,1).

Przykład 5.15. Pomiar dwoma przyrządami. Dana jest dwuwymiarowa ....

Jakie jest p-stwo Populacje normalne o nieznanych ale identycznych odchyleniach standardowych σ12=σ. Jeśli populacje, z których pochodzą n1 i n2-elementowe proste próby, mają rozkłady normalne, odpowiednio: N(µ1,σ) i N(µ2,σ), z nieznaną wspólną wartością σ, to statystyka

(

1 2

)

1 2

2 2

1 1 2 2

1 2 1 2

( )

1 1

2

X X

U

n S n S

n n n n

µ µ

− − −

= +  

 + 

+ −  

(5.46)

ma rozkład Studenta z n1+n2-2 stopniami swobody.

Przykład 5.16. ... ....

5.3.9 Dwie populacje jednowymiarowe. Stosunek dwu wariancji z próby Stosunek dwu wariancji z próby F=S12/S22. Jeśli populacje, z których pochodzą n1 i n2-elementowe proste próby losowe, mają rozkłady normalne, odpo- wiednio: N(µ1, σ) i N(µ2, σ), z nieznaną wspólną wartością σ, to statystyka

(21)

2 1

2 2

F S

= S

 (5.47)

ma rozkład F Snedecora z odpowiednio n1-1 i n2-1 stopniami swobody. Użyte powyżej symbole oznaczają dla każdej z próby z osobna:

2 2 2

1

1 ( )

1 1

n i i

S n S X X

n n =

= = −

− −

 (5.48)

Wartości kwantyli rozkładu F dla wybranych par stopni swobody są podane w Do- datku A (tabela 5).

** wyrzucić? **********************

5.4 STATYSTYKI EKSTREMALNE I ICH ROZKŁADY

Definicja statystyki wartość ekstremalna. Dany jest ciąg wartości x1, x2, ..., xN, obserwacji zmiennej losowej X o (na

ogół nieznanym) rozkładzie FX(x). Ciąg ten dzielimy na T podciągów, często o tej samej liczebności m, tak że mT=N. Najczęściej T oznacza długość okresu obserwacji (np. T lat), a m – liczbę obserwacji (np. wartości dobowych, dekadowych czy miesięcznych).

Z każdego podciągu wybieramy największą (albo najmniejszą) wartość. Powstaje w ten sposób (r) nowa próba losowa zawierająca realizację nowej zmiennej losowej: war- tości maksymalnej Xmax (albo minimalnej

Xmin). Obie te zmienne noszą wspólną nazwę: wartości ekstremalne i poszukiwanie ich rozkładu, odpowiednio Fmax(x) (albo Fmin(x)) jest ważnym zagadnieniem statystyki znajdującym zastosowanie np. w hydrologii czy gospodarce wodnej.

Wyznaczanie rozkładu wartości ekstremalnych I. Jeśli jest możliwe wyznaczenie rozkładu FX(x) (bo np. znamy wszystkie wartości z rys. 5.8) i liczebność próby n jest znana, to rozkłady wartości maksymalnej Fmax(x) lub minimalnej Fmin(x) dają się stosunkowo łatwo wyznaczyć, jak to pokazano w rozdziale 2.3.6. I tak np. dla wartości maksymalnej wyprowadzono następujący wzór

[ ]

P(Xmax <x)≡Fmax( )x = FX( )x n (5.49) Wyznaczanie rozkładu wartości ekstremalnych II. Z reguły jednak sytu- acja wygląda inaczej, a najczęstszym przypadkiem jest taki, gdy dany jest tylko zbiór wartości ekstremalnych, xmax1, xmax2, ..., xmaxn, (jak na rys. 5.8 wartości kropkowane), Rys. 5.8. Najczęstszy sposób definiowania war- tości maksymalnej (jako maksimum w danym okresie)

(22)

po jednej wartości na każdy podzbiór zbioru wartości zmiennej X (tj. na każdy przedział )t osi t, gdzie t może być kolejnym numerem danych; może też oznaczać czas).

W takim przypadku możemy traktować zmienną Xmax jak każdą inną zmienną i poszukiwać jej rozkładu używając zwykłych technik estymacyjnych (tzn. założyć funkcję rozkładu i na podstawie posiadanej próby uzasadnić dokonany wybór, zob.

rozdział 6).

Wyznaczanie rozkładu wartości ekstremalnych III. Istnieje wszakże pewna możliwość potraktowania wartości ekstremalnych w sposób szczególny. Jest to przypadek, gdy możemy zastosować rozkłady asymptotyczne (czyli gdy mamy dużą próbę). Oczywiście można wtedy stosować twierdzenia graniczne, które wskazują na rozkład normalny. Mamy jednak inną możliwość. Otóż udowodniono, że pod pewnymi warunkami wariancja wartości ekstremalnych jest mniejsza od wariancji przewidywanej przez twierdzenia graniczne (Yevjevich [30]), co oznacza, że rozkłady te lepiej wykorzystują posiadaną informację od centralnego twierdzenia granicznego.

Zostały wyprowadzone nie-normalne rozkłady asymptotyczne wartości ekstremal- nych (zwane rozkładami ekstremalnymi), spośród których dwa są znane i stosowane najszerzej. Są to: rozkład Gumbela o dystrybuancie

( )

( ) exp x , 0,

Fmax x = eα −∈  α > x>∈ (5.50) zwany również rozkładem podwójnie wykładniczym (zob. rys. 5.9), i rozkład Fishe- a-Tippeta (zwany też rozkładem Weibulla), którego dystrybuanta może być przedsta- iona następująco (zob. rys. 5.10):

( ) 1 exp ( ) , , 0,

Fmax x = − −α x− ∈β α β > x>∈ (5.51)

(23)

Dwa znaczenia terminu rozkład ekstremalny. Tak więc pojęcie rozkład ekstremalny ma dwa znaczenia: (i) szersze – rozkład wartości ekstremalnych i (ii) węższe – asymptotyczny rozkład wartości ekstremalnych (rozkłady Gumbela i Fishera-Tippeta), co może czasami wprowadzać pewne zamieszanie.

Oba powyższe rozkłady mogą być stosowane do analizy wartości minimalnych – jest to tylko kwestia zmiany przedziału wartości zmiennej X. W przypadku (5.50) oznacza to ujemną wartość współczynnika ", a dla (5.51) zastąpienie wyrażenia (x-ß) wyrażeniem (ß-x), tzn. przejście z przedziału ograniczonego od dołu (wartości maksymalne) do przedziału ograniczonego od góry (wartości minimalne).

Sposób definiowania wartości ekstrealnych poprzez poziom odcię- cia. Drugim ważnym sposobem definio- wania wartości maksymalnych jest ustale- nie pewnego progu – poziomu odcięcia, jak to zilustrowano na rys. 5.11 (wartość x0), i przyjęciu za wartości Xmax wszystkie wartości przekraczające x0. Ten sposób podziału dostępnej informacji wprowadza dodatkową zmienną losową – liczbę Rys. 5.9 Funkcja gęstości i dystrybuanta rozkładu Gumbela dla kilku wartości parametru α

Rys. 5.10 Funkcja gęstości i dystrybuanta roz- kładu Weibulla dla kilku wartości parametru ß

Rys. 5.11. Wybór wartości maksymalnych przez określenie poziomu odcięcia (por. z rys. 5.8)

(24)

przekroczeń zadanego poziomu, czyli liczbę realizacji zmiennej X przekraczających poziom odcięcia (wartość progową) w jednym okresie. Liczba ta może wynosić zero (jak w przedziale 1 na rys. 5.11), może być większa od jedności. Oczywiście takie podejście komplikuje matematyczną stronę problemu, może jednak czasami lepiej wykorzystać dostępną informację.

Najprostszy sposób analizy tego przypadku polega na tym, że wprowadza się średnią liczbę, nśr, zdarzeń (przekroczeń zadanego poziomu) na okres i rozwiązanie zadania ma postać analogiczną do wzoru (5.49). Wyrazimy ją tym razem trochę inaczej – poprzez funkcje prawdopodobieństwa przewyższenia:

[ ]

( ) P( ) 1 1 ( ) nsr, 0

max max X sr

p x = Xx = − −F x n > (5.52)

Wzór ten jest wyprowadzany przy założeniu, że w każdym okresie wystąpi z praw- dopodobieństwem 1 przynajmniej jedno zdarzenie (przekroczenie zadanego pozio- mu).

, a więc należałoby napisać inaczej lewą stronę równania :

P(Xmaxx)=P(Xmaxx I| ≥1) (5.53) gdzie I oznacza liczbę zdarzeń opadowych w danym okresie (roku). W takim przy- padku, jaki został przedstawiony na rys. 5.11, warunek ten (tj. P(I$1)=1) nie jest speł- niony – trzeba więc uwzględniać prawdopodobieństwo przekroczenia czy nieprzekro- czenia wartości progowej, a więc, zamiast , napisać tak:

1

P( max | 1)= P( max | )P( )

i

X x I X x I i I i

=

≥ ≥

≥ = = (5.54)

gdzie I oznacza liczbę przekroczeń danego poziomu w zadanym okresie czasu. Jeśli założymy, że liczba ta nie ma wpływu na wartość Xmax, to wzór można uprościć:

1

P( max | 1) P( max ) P( ) P( max )P( 0)

i

X x I X x I i X x I

=

≥ ≥ = ≥

= = ≥ > (5.55)

Tak więc wynikowe prawdopodobieństwo zostało teraz zmniejszone o czynnik P(I=0)

= 1-P(I>0), tj. prawdopodobieństwo nieprzekroczenia zadanej wartości progowej x0.

Cytaty

Powiązane dokumenty

Chcemy: przedział ufności symetryczny wokół estymatora punktowego (rozkład funkcji centralnej jest symetryczny wokół

Procedura, która na podstawie konkretnych obserwacji (tj.. Test statystyczny formalnie – cd.. Test statystyczny formalnie – cd. statystyki testowej) oraz liczby c (tzw..

Stosowany zwł. dla próbek o liczebności do 30, kiedy jest lepszy niż test zgodności chi- kwadrat.. Test zgodności chi-kwadrat – postać testu. Ogólna

(nieznanych) parametrach opisujemy przy pomocy rozkładów prawdopodobieństwa, przy czym dodatkowa wiedza może wpływać na nasz

Estymator Bayesowski przy zadanej funkcji straty.. przedział

Metody momentów i kwantyli (wszystkie podane tu zadania należy rozwiązać tymi dwoma metodami)..

Informacja Fishera, asymptotyczna normalność

Co roku ta suma najpierw wzrasta o 5%, ale od tych 5% musimy odprowadzić 19% podatku..