• Nie Znaleziono Wyników

Z WYKORZYSTANIEM OBJĘTOŚCI ELIPSOID UFNOŚCI

4. Analiza symulacyjna

Wszystkie analizy symulacyjne i obliczenia wykonano w programie R (http://www.r-project.org). W symulacjach rozważano populacje 5-wymiarowe.

Dane o wektorach wartości oczekiwanych μA i μB oraz macierzach wariancji- -kowariancji ΣA i ΣB populacji przedstawia tabela 1. Kolejne wiersze tabeli (a-f) korespondują z prezentacją graficzną na rysunku 1.

Tabela 1

Wektory wartości przeciętnych i macierze wariancji-kowariancji przypadków testowych

Przypadek μA μB ΣA ΣB

a) [0, 0, 0, 0, 0] [0, 0, 0, 0, 0] I I b) [0, 0, 0, 0, 0] [1, 1, 1, 1, 1] I I c) [0, 0, 0, 0, 0] [0, 0, 0, 0, 0] Σ1 Σ2

d) [0, 0, 0, 0, 0] [0, 0, 0, 0, 0] I 1,7I e) [0, 0, 0, 0, 0] [0, 0, 0, 0, 0] I Σ3

f) [0, 0, 0, 0, 0] [1, 1, 1, 1, 1] Σ2 Σ2

O porównywaniu dwóch populacji wielowymiarowych…

153

Macierze występujące w tabeli 1 są zadane następującymi wzorami:

I – macierz jednostkowa o wymiarach 5 x 5.

⎥ ⎥

Dla każdego z przedstawionych w tabeli 1 przypadków rozważano próbki o liczebnościach n1 = n2 = 10, 20, 30 i 50. Dla tych przypadków generowano 1000-krotnie próby z populacji A oraz B. Następnie przyjmując poziom istotno-ści α = 0,05 oraz wykorzystując statystykę (5), przeprowadzano test permuta-cyjny. Na tej podstawie wyznaczano oceny prawdopodobieństw odrzucenia hi-potezy H0.

Niezależnie od powyżej opisanych symulacji wykonano analizę Monte Car-lo pozwalającą porównać własności rozważanego testu z klasycznym testem T2 Hotellinga. W tym celu porównywano dwie populacje o dwuwymiarowych roz-kładach normalnych o parametrach μA

= [ 0 ; 0 ]

,

Jacek Stelmach, Grzegorz Kończak

154

]

; [ x

x

B

=

μ ,

⎢ ⎤

= ⎡ 1 0

0 1

ΣB , gdzie x = 0,1; 0,2; …;2. W symulacjach uwzględ-niono próbki o liczebnościach n1 = n2 = 10, 20, 30 i 50. Na podstawie N = 1000 symulacji dla każdej takiej pary prób przeprowadzono test permutacyjny oraz T2 Hotellinga. W obu przypadkach wyznaczono liczbę odrzuceń hipotezy o równo-ści wektorów wartorówno-ści przeciętnych. Na tej podstawie otrzymano oceny praw-dopodobieństw odrzucenia hipotezy H0.

5. Wyniki

W analizach uwzględniono objętości elipsoid ufności pokrywających wie-lowymiarową przestrzeń z badanymi obserwacjami – z 95% prawdopodobień-stwem, wykorzystując procedury pakietu R. Wyniki analiz (dane porównywa-nych populacji w tabeli 1) umieszczono w tabeli 2. Przedstawiono w niej oceny prawdopodobieństw odrzucenia hipotezy o identyczności rozkładów 5-wymia-rowych populacji (dla rozkładów identycznych – przypadek testowy a) oznacza błąd pierwszego rodzaju, dla pozostałych, w których symulowano różnice w rozkładach – moc testu) – z poziomem istotności α = 0.05.

Tabela 2

Oceny prawdopodobieństw odrzucenia hipotezy o identyczności rozkładów

Przypadek Liczebność próby

10 20 30 50 a) 0,036 0,037 0,048 0,037 b) 0,120 0,312 0,337 0,397 c) 0,897 1,000 1,000 1,000 d) 0,095 0,361 0,626 0,890 e) 0,486 0,969 1,000 1,000 f) 0,213 0,615 0,825 0,953

Dla przypadku identycznych rozkładów populacji (wariant a) rozmiar pro-ponowanego testu jest nieco mniejszy od przyjętego poziomu istotności α. We wszystkich przypadkach, gdy rozkłady nie są identyczne, test dla wszystkich

O porównywaniu dwóch populacji wielowymiarowych…

155

rozważanych liczebności skutecznie wskazuje na występujące różnice. Szcze-gólnie dobrze jest to widoczne dla prób o liczebności przynajmniej 30. Przecięt-ny błąd ocePrzecięt-ny szacowaPrzecięt-nych prawdopodobieństw we wszystkich analizowaPrzecięt-nych sytuacjach jest mniejszy od 0,016.

Rys. 2. Oceny prawdopodobieństwa odrzucenia hipotezy zerowej dla testu permutacyjnego w za-leżności od różnicy w wartościach współrzędnych x

Rys. 3. Oceny prawdopodobieństwa odrzucenia hipotezy zerowej dla testu T2-Hotellinga w za-leżności od różnicy w wartościach współrzędnych x

Test permutacyjny

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2 2.1

parametr x

prawdopodobieństwo

10 obs.

20 obs.

30 obs.

50 obs.

Test T2-Hotellinga

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2 2.1

parametr x

prawdopodobistwo

10 obs.

20 obs.

30 obs.

50 obs.

Jacek Stelmach, Grzegorz Kończak

156

Na rysunkach 2 i 3 zawarto wyniki analizy Monte Carlo – porównawczo test permutacyjny ze statystyką testową jak w (5) oraz test T2 Hotellinga dla dwuwymiarowych prób o rozkładach różniących się wektorami średnich. Różni-cę w wartościach współrzędnych tych wektorów opisuje parametr x wykresu le-żący na osi odciętych. Badanie przeprowadzono dla różnych liczebności symu-lowanych prób. Analizując otrzymane w tej części wyniki, można zauważyć, że test T2 Hotellinga skuteczniej odróżnia populacje różniące się wektorami warto-ści średnich. Porównań dokonano dla populacji o rozkładach normalnych, bo tylko wówczas jest uprawnione porównanie tych dwóch testów. Stosowanie te-stu T2 Hotellinga wymaga spełnienia założenia o normalności rozkładu w bada-nych populacjach. Zaletą proponowanego testu permutacyjnego jest fakt, że mo-że on być stosowany dla populacji o dowolnych rozkładach.

Podsumowanie

Proponowana statystyka testowa, oparta na analizie objętości elipsoid ufno-ści obejmujących badane próby pozwala na weryfikację hipotez o identycznoufno-ści rozkładów, także w przypadkach, w których test T2 Hotellinga z uwagi na rów-ność wartości średnich z badanych prób nie doprowadzi do odrzucenia hipotezy.

Dodatkowo wykorzystanie testów permutacyjnych zwalnia z weryfikacji założe-nia o zgodności badanych rozkładów z rozkładem normalnym wielowymiaro-wym i nie wielowymiaro-wymaga tablicowania proponowanej statystyki testowej. Przepro-wadzone badania symulacyjne wykazały zadowalające prawdopodobieństwo odrzucenia hipotezy zerowej dla rozkładów różniących się macierzą kowarian-cji czy wektorem wartości przeciętnych już dla prób o liczebności powyżej 30 obserwacji, a wysokie prawdopodobieństwo – dla liczebności ponad 50 ob-serwacji.

Przeprowadzona analiza Monte Carlo, porównująca moc testów permuta-cyjnego i T2 Hotellinga, przeprowadzona dla rozkładów dwuwymiarowych nor-malnych, różniących się tylko wektorem wartości średnich (a więc dla rozkła-dów, do których jest predystynowany test parametryczny T2 Hotellinga) wykazała większą moc testu parametrycznego. Niemniej jednak test permuta-cyjny cechował się porównywalną wielkością błędu pierwszego rodzaju, a zdol-ność rozpoznawania różniących się populacji osiągał dla różnicy wektorów war-tości średnich na poziomie [1.0; 1.0].

O porównywaniu dwóch populacji wielowymiarowych…

157

Literatura

Blalock H.M. (1974): Statystyka dla socjologów. PWN, Warszawa.

Efron B., Tibshirani R. (1993): An Introduction to the Bootstrap. Chapman & Hall, New York.

Good P.I. (1994): Permutation Tests: A Practical Guide for Testing Hypotheses.

Springer-Verlag, New York.

Hesterberg T., Monaghan S., Moore D.S., Clipson A., Epstein R. (2003): The Practice of Business Statistics. W.H. Freeman and Company, New York.

Kanji G.K. (2006): 100 Statistical Tests. Sage Publications, London.

Rencher A.C. (2001): Methods of Multivariate Analysis. John Wiley & Sons, New York.

ON THE COMPARISON OF TWO MULTIDIMENSIONAL POPULATIONS USING THE CONFIDENCE ELLIPSOID VOLUMES

Summary

A comparison of two populations seems to be interesting and very common statisti-cal problem. The most often way is to verify the hypothesis concerned the equality of certain, characteristic parameter i.e. mean, standard deviation or fraction with parametric or non-parametric tests. The authors propose to compare the distribution of two popula-tions – comparing the confidence ellipsoid volumes. Since their distribution is unknown – permutation tests were applied. A Monte-Carlo simulation let to compare power of these tests with T2 Hotelling tests. Proposed methods can be used, when the assumptions for parametric tests couldn’t be verified.