Statystyczna analiza wyników eksperymentalnych

(1)

(2)

▪ We wszelkich zastosowaniach, które w jakiś sposób stosują metodę naukową zwykle konieczne jest upewnienie się, że wnioski wyciągane z różnego rodzaju obserwacji są prawidłowe.

▪ Jedną z technik takiego upewniania jest posłużenie się statystyką matematyczną do określenia jak bardzo prawdopodobny, albo jak bardzo nieprawdopodobny jest wynik właśnie przeprowadzonego eksperymentu.

▪ Pozwala to na rozpoznanie sytuacji w której w wyniku jakiegoś zewnętrznego, nieprzewidzianego czynnika, wynik eksperymentu zostaje zafałszowany.

(3)

Podstawowe pojęcia – czym jest eksperyment?

ane ksper ent

bserwa ja or ułowanie

proble u badaw ego nioskowanie

źródło: Mason R. L., Gunst, R. F., Hess J. L. Statistical design and analysis of experiments with applications to engineering and

(4)

1. Faza planowania projektu • Jaka wartość będzie mierzona?

• Jak wielkiego zróżnicowania danych się spodziewamy? • Jakie czynniki mogą wpłynąć na wyniki projektu?

2. Faza planowania eksperymentu

• Kontrola znanych źródeł zmienności danych (pożądanych i niepożądanych) • Plan ograniczenia wpływu źródeł niepożądanej zmienności

• Plan na wyeksponowanie zmienności wynikającej z pożądanych (badanych) jej źródeł

3. Fa a obróbki stat st nej dan h

• Wyciągnięcie wniosków z danych zebranych w eksperymencie • Projekt eksperymentu dopasowany do metod analizy

• Dobranie modeli statystycznych pozwalających na możliwie najbardziej wiarygodną ocenę zebranego materiału eksperymentalnego

(5)

▪ Populacja – popula ja stat st na składa się e ws stki h ożliw h do aobserwowania obiektów, jakie istnieją w ra a h dan h warunków

eksperymentalnych lub obserwacyjnych

▪ Proces – powtar alna seria nnoś i, której skutkie jest powstanie obserwowalnej harakter st ki lub s eregu po iarów

▪ Cecha – właś iwość lub harakter st ka, która jest po skiwana a po o ą eksper entu, lub stanowi wartość wejś iową w eksper en ie

▪ Obserwacja – pojed n a kolek ja różn h e h,

▪ Próba – grupa obserwacji

▪ Odpowiedź– każda obserwa ja stanowią a w nik eksper entu,

▪ Czynnik – ienna, którą ożna kontrolować w pr ebiegu eksper entu i która wpł wa na wartoś i odpowied i u skiwan h w w niku eksper entu

(6)

Populacja, a próba

(7)

opula ja nioskowanie róba osowe próbkowanie popula ji nr obserwa ji e ha e ha e ha , , , , , , , , , , , , , , , , bserwa je

(8)

nnik nnik

ilka reali a ji pro esu w ra a h eksper entu opula ja róbka

grupa obserwa ji opula ja

róbka grupa obserwa ji opula ja róbka grupa obserwa ji opula ja róbka grupa obserwa ji

w nik eksper entu, li estaw odpowied i dla różn h wartoś i nników

(9)

(10)

▪ Stałe – wartoś i wspólne dla ws stki h po skan h w

eksper en ie obserwa ji, nie podlegają badanio , ale de dują o własnoś ia h popula ji np as badania lub określon biór osób na jakich przeprowadzono badanie)

▪ Zmienne – właś iwoś i, które różnią pos ególne jednostki stat st ne i podlegają obserwa ji

(11)

▪ Jakościowe – ęsto są to określenia słowne np płeć lub rod aj w kon wanego awodu Nie ożna i h e sobą porówn wać

▪ Ilościowe – właś iwoś i które są ożliwe do po iaru i które ożna porówn wać:

• Porządkowe – szeregują natężenie badanej właściwości przedstawionej w

sposób opisowy (np. oceny studentów lub system ocen za pomocą gwiazdek w sklepie internetowym)

• Dyskretne (skokowe) – przyjmują skończony lub przeliczalny zbiór wartości na

danej skali liczbowej, często jest to zbiór liczb całkowitych dodatnich (np. liczba samochodów przejeżdżających dziennie przez dany odcinek drogi). Nie mogą przyjmować wszystkich wartości bez względu na dokładność

prowadzonego pomiaru

• Ciągłe – mogą przyjąć każdą wartość z określonego przedziału liczbowego

[a,b], przy czym liczba miejsc dziesiętnych jest uzależniona od dokładności dokonywanych pomiarów.

(12)

▪ Nominalna – u ożliwia jedynie klasyfikowanie pod w ględe mierzonej własnoś i, brak upor ądkowania, brak jednostki pomiaru, dotyczy tylko cech o charakterze jakoś iow , ożna jedynie stwierd ić, czy obiekty są równe czy są różne (np. płeć, kolor oczu),

▪ Porządkowa (rangowa) – u ożliwia upor ądkowanie pod w ględe mierzonej własnoś i (rangowanie), brak punktu zerowego i jednostki

pomiaru, ożna porównać obiekty ze sobą na zasadzie

więks / niejs , czy lepszy/gorszy, ale nie znamy „odległoś i” ięd pos ególn i stopniami (np. skala ocen, poziom w ks tał enia ,

(13)

▪ Przedziałowa – u ożliwia porówn wanie różni pod w ględe mierzonej wartoś i, określona jest arbitralnie jednostka pomiaru i umowne zero skali, ożna określić na ile dane wielkoś i się różnią. Nie da się natomiast opisać stosunku dwó h obiektów ze w ględu na ier oną e hę (np. poziom iśnienia akustycznego w dB – 60 dB nie jest dwa razy więks e od 30 dB),

▪ Ilorazowa – U ożliwia określenie mierzonej własnoś i dla obiektu, podany jest jednoznacznie absolutny punkt zerowy i jednostka pomiaru. Jest to skala w której ożliwe jest porówn wanie jednostek za po o ą w ględn h charakterystyk na takiej zasadzie, że np. jeden obiekt jest dwa razy iężs od drugiego (np. masa w kilogramach, albo liczba kand datów pr jęta na dany kierunek na uczelni)

(14)

Zbiór obserwacji oże awierać bardzo wiele danych, każda z cech oże posiadać wiele wartoś i po hod ą h z wielu różn h próbek.

Z tego w ględu powstał szereg sposobów na opisanie własności statystycznych wszystkich badanych cech za po o ą para etrów o pojedynczej wartoś i.

r kłada i grup takich wartoś i są:

▪ miary tendencji centralnych (np. średnia arytmetyczna, mediana),

▪ miary rozproszenia iennoś i danych (np. ro stęp, wariancja, odchylenie standardowe, kwartyle),

▪ miary asymetrii (np. skośność ,

▪ miary koncentracji (np. kurtoza).

(15)

Średnia arytmetyczna – wartość obliczana ze wzoru: ҧ𝑥 = 1 𝑁 ෍ 𝑛=1 𝑁 𝑥[𝑛] ,

gdzie przez ҧ𝑥 rozumiemy wartość średniej arytmetycznej, 𝑁 stanowi li ebność prób ,

𝑛 stanowi indeks pojedynczej wartoś i cechy

𝑥[𝑛] po hod ą ej z kolejnych obserwacji pobranych z prób .

(16)

W przypadku gdy chcemy uśrednić kilka średnich składowych policzonych z kilku estawów obserwacji, średnia wynikowa staje się średnią ważoną:

ҧ𝑥_𝑝 = ෍ 𝑖=1 𝑘 ҧ𝑥_𝑖 𝑁𝑖 𝑁_𝑝 , 𝑁𝑝= ෍ 𝑖=1 𝑘 𝑁_𝑖 ,

gdzie ҧ𝑥_𝑝 oznacza w nikową średnią ważoną,

𝑘 oznacza li bę populacji, dla któr h liczona jest średnia, ҧ𝑥_𝑖 to średnia składowa wyliczona dla każdej populacji,

𝑁_𝑖 to li ebność prób , dla której policzona ostała każda ze średni h, 𝑁_𝑝 to suma li ebnoś i wszystkich prób składow h.

(17)

Mediana – zwana też wartoś ią środkową, którą ożna obli ć dla szeregu uporządkowanego. Jej spe jalną e hą jest to, że powyżej i poniżej niej znajduje się jednakowa liczba obserwacji (czyli dokładnie połowa).

Aby ją obli ć konieczne jest posortowanie obserwacji ze w ględu na w braną e hę, dla której mediana jest obliczana. Następnie dla nieparzystej liczby obserwacji wybierana jest wartość w środku, a dla parzystej liczby obserwacji obliczana jest średnia dwóch środkowych próbek, co ożna apisać też wzorem: 𝑀𝑒 = 𝑥 𝑁 + 1 2 , dla 𝑁 nieparzystego 1 2 𝑥 𝑁 2 + 𝑥 𝑁 + 1 2 , dla 𝑁 parzystego

Gdzie 𝑀𝑒 oznacza obli aną wartość mediany, 𝑥 to wartoś i cech obserwacji uż wan h w obliczeniach, a 𝑁 to liczba obserwacji

(18)

Rozstęp – oznaczany przez 𝑅 , najprostsza miara będą a różni ą po ięd aks alną (𝑥_𝑚𝑎𝑥), a ini alną (𝑥_𝑚𝑖𝑛) wartoś ią cechy:

𝑅 = 𝑥_𝑚𝑎𝑥 − 𝑥_𝑚𝑖𝑛. Wariancja – oznaczana przez 𝑠2 i obliczana ze wzoru:

𝑠2 = 1

𝑁෍

𝑖=1 𝑁

𝑥𝑖 − ҧ𝑥 2,

gdzie 𝑁 to liczba obserwacji dla któr h wariancja jest obliczana, ҧ𝑥 to średnia cechy dla której obliczana jest wariancja,

a 𝑥_𝑖 to 𝑖-ta wartość tej cechy.

Wariancja jest średnią wartoś ią cechy unormowanej i której wartoś i ostał podniesione do kwadratu.

(19)

Kwartyl dolny (pierwszy) – taka wartość, poniżej której znajduje się 1

4 wartoś i obserwacji, a pow żej której najdują się 3

4 wartoś i, oznaczany przez 𝑄1. Kwartyl górny (trzeci) – taka wartość, poniżej której najdują się 3

4 wartoś i obserwacji, a pow żej której znajduje się 1

4 wartoś i, oznaczany przez 𝑄3.

Rozstęp międzykwartylowy (ang. interquartile range, IQR) – miara ro stępu obliczana poprzez odję ie wartoś i kwartyla górnego od wartoś i kwartyla dolnego, oznaczana jako IQR lub 𝑄:

IQR = 𝑄 = 𝑄₃ − 𝑄₁.

ielkość 𝑄/2 ęsto nazywana bywa odchyleniem ćwiartkow lub kwantylowym (ang. quartile deviation).

(20)

Opis własności cechy statystycznej – miary rozproszenia (zmienności)

ws stki h obserwa ji

e

ws stki h obserwa ji ws stki h obserwa ji

(21)

Skośność – oznaczana przez 𝐴𝑠 , pozwala na dodatkowe określenie tego, czy wdanym ro kład ie w żs e prawdopodobie stwa w stąpienia danych wartoś i pr eważają wartoś i pow żej/poniżej średniej arytmetycznej

𝐴𝑠 = ҧ𝑥 − 𝐷 𝑠 ,

gdzie ҧ𝑥 oznacza średnią ar t et ną badanego iągu obserwacji,

𝑠 oznacza odchylenie standardowe obliczone na podstawie posiadanych obserwacji, a 𝐷 oznacza do inantę odę , czyli naj ęś iej w stępują ą wartość tego ro kładu

(22)

Opis własności cechy statystycznej – skośność

d str bu ja s etr na średnia ar t et na ediana oda d str bu ja dodatnią skośnoś ią oda średnia ar t et na ediana d str bu ja uje ną skośnoś ią oda średnia ar t et na ediana

średnia arytmetyczna = mediana = moda

moda < mediana < średnia arytmetyczna średnia arytmetyczna < mediana < moda

(23)

Kurtoza – oznaczana przez 𝐾, oznacza, czy dany układ jest bardziej czy mniej skupiony wokół pojedynczej wartoś i niż ro kład Gaussa

𝐾 = 1

𝑁σ𝑖=1𝑁 𝑥𝑖 − ҧ𝑥 4

𝑠4 − 3,

gdzie 𝑁 to liczba obserwacji dla któr h wariancja jest obliczana, ҧ𝑥 to średnia cechy dla której obliczana jest kurtoza,

𝑥_𝑖 to 𝑖-ta wartość tej cechy,

a 𝑠4 to kwadrat wariancji tej cechy obliczony na podstawie posiadanych obserwacji.

(24)

Opis własności cechy statystycznej – kurtoza

Rozkład o smukłości takiej jak rozkład

Gaussa nazywamy rozkładem

mezokurtycznym (K=0).

Rozkład bardziej smukły od rozkładu

Gaussa to rozkład leptokurtyczny (K>0),

a mniej smukły to rozkład

platokurtyczny (K<0).

ro kład e okurt n ,

ro kład leptokurt n ,

(25)

nogość wskaźników, jakie opisują pos ególne cechy jest bardzo duża. Z tego w ględu powstał graficzne przedstawienia służą e np. do analizy znacznych biorów cech. r kłade takiego zobrazowania jest tzw. wykres pudełkow .

Na wykresie pudełkow w formie graficznej przedstawione są najważniejs e parametry danego iągu wartoś i takie jak:

▪ wartość ini alna i aks alna,

▪ położenie kwartyli dolnego i górnego,

▪ mediana,

▪ wartoś i odstają e

Istnieje także wariant wykresu pudełkowego, na któr naniesiona jest graficzna prezentacja estymowanego ro kładu danej zmiennej. Nazywany jest on wtedy wykresem skrzypcowym.

(26)

Wizualizacja danych – wykres pudełkowy i skrzypcowy

obserwacja odstająca wartość maksymalna kwartyl górny (𝑄3) kwartyl dolny (𝑄1) mediana wartość minimalna nazwa cechy

Na wykresie pudełkowym naniesione oprócz

podstawowych parametrów statystycznych

naniesione są także wartości maksymalne i

minimalne znajdujące się w ciągu wartości

powiązanym z wizualizowaną cechą.

Wąs obrazujący wartość maksymalną nie

może być jednak wyższy niż wartość progowa:

𝑄

₃

+ 1,5 ⋅ 𝑄

₃

− 𝑄

₁

A wąs wartości minimalnej nie może być

niższy niż:

𝑄

₁

− 1,5 ⋅ 𝑄

₃

− 𝑄

₁

Wartości poza tym zakresem uznawane są za

tzw. wartości odstające.

(27)

(28)

import pandas as pd

import seaborn as sns

import matplotlib.pyplot as plt sns.set(style="whitegrid")

dataset = pd.read_excel("kaggle_income.xlsx")

sns.boxplot(x='State_Name',y='Median', data=dataset)

plt.xticks(rotation=90, size=14)

plt.yticks(size=15)

plt.xlabel('nazwa stanu', size=15)

plt.ylabel('mediana przychodu gospodarstw [USD]', size=15)

plt.subplots_adjust(bottom=0.3)

(29)

(30)

import pandas as pd

import seaborn as sns

import matplotlib.pyplot as plt sns.set(style="whitegrid")

dataset = pd.read_excel("kaggle_income.xlsx")

sns.violinplot(x='State_Name',y='Median', data=dataset, width=2.5)

plt.xticks(rotation=90, size=14)

plt.yticks(size=15)

plt.xlabel('nazwa stanu', size=15)

plt.ylabel('mediana przychodu gospodarstw [USD]', size=15)

plt.subplots_adjust(bottom=0.3)

plt.gca().set_ylim([0,None])

(31)

Czasem zachodzi potrzeba ustalenia, w jakim przedziale wielkoś i znajduje się wartość zmierzona w eksperymencie.

Oszacowanie takie nazywane jest określenie tzw. przedziału ufności. r ed iał u noś i, jest to zakres wartoś i w któr znajduje się pewna zmierzona wielkość z zadanym prawdopodobie stwe , np. 0,95. W takim przypadku akłada , że prawdopodobie stwo tego, że nasze oszacowanie jest błędne wynosi 0,05.

ielkość tę nazywamy poziomem istotności (ang. significance level) i ęsto oznaczany jest gre ką literą 𝜶.

(32)

ęstą prakt ką jest obliczanie pr ed iałów u noś i dla średni h wartoś i jakiejś mierzonej wielkoś i.

Wpierw z szeregu 𝑁 o estymowanej wariancji 𝑠2 i odchylenia standardowego 𝑠 obserwacji wyliczana jest wartość średnia ҧ𝑥.

r ed iał u noś i w takim przypadku dany jest wzorem: ҧ𝑥 − 𝑡₁₋𝛼 2,𝑁−1 ⋅ 𝑠 𝑁 − 1; ҧ𝑥 + 𝑡1−𝛼2,𝑁−1 ⋅ 𝑠 𝑁 − 1 , gdzie 𝑡₁₋𝛼 2,𝑛−1

jest wartoś ią z pomocniczego ro kładu zmiennej 𝑡 odczytanej z tablicy, lub pozyskanej z programu komputerowego przy zadanych wartoś ia h

𝛼 i 𝑁.

(33)

Testy statystyczne – zmienna t

Jest to specjalna, unormowana zmienna ają a ro kład prawdopodobie stwa unormowanego ro kładu, któr jest wynikiem obserwacji populacji o rozkładzie normalnym za pomocą próby o 𝑵 obserwacjach. Fakt obserwacji objawia się ięd innymi konie noś ią liczenia estymaty odchylenia standardowego 𝑠, która astępuje nam „prawd iwą” wartość odchylenia o na aną przez 𝜎.

Wartość 𝑵 przy takiej obserwacji ęsto nazywa się liczbą stopni swobody rozkładu.

Im mniejsza wartość 𝑵 , tym bardziej rozkład ten różni się od rozkładu normalnego.

Im wartość 𝑵 większa, tym bardziej ten rozkład przypomina rozkład normalny. tąd, jeżeli wartość 𝑵 jest bardzo duża (zwyczajowo ówi się o 30 obserwacjach), to ożna zamiast rozkładu i zmiennej 𝒕 stosować „ w kł ” rozkład Gaussa

(34)

(35)

Testy statystyczne – zmienna t

−𝑡

₁₋𝛼 2,𝑁−1

+𝑡

1−𝛼_2,𝑁−1 , prawdopodobie stwa , prawdopodobie stwa , prawdopodobie stwa

0

(36)

(37)

drębn zagadnieniem jest możliwość wyciągania wniosków na podstawie danych zebranych w eksperymencie. Na pr kład oże b ć to w iągnię ie wniosku, że średni pr hód gospodarstwa domowego w stanie X jest więks niż w stanie Y.

Do tego celu konieczne jest przeprowadzenie testu statystycznego. Konstrukcja tego typu testów polega na dwó h podstawowych poję ia h: Hipotezie zerowej (ang. null hypothesis) – oznaczanej przez 𝐻₀ i która oznacza hipote ę sprawd aną w teś ie statystycznym,

Hipotezie alternatywnej (ang. alternative hypothesis) – oznaczanej przez 𝐻₁, która oznacza dowolną hipote ę inną niż hipoteza zerowa

(38)

Jednym z najprostszych testów statystycznych jest test t-Studenta. Pozwala on na sprawdzenie, czy wartość średnia danego ciągu jest równą wielkości 𝝁_𝟎.

Test ten akłada, że populacja z której pozyskiwane są obserwacje ma rozkład Gaussa.

Hipoteza zerowa akłada, że iąg ma wartość średnią równą 𝜇₀, czyli: 𝐻₀: 𝜇 = 𝜇₀

Hipoteza alternatywna oże ieć różną postać:

Testy statystyczne – test t-Studenta

𝐻1: 𝜇 = 𝜇1 < 𝜇0 , tzw. hipoteza lewostronna

𝐻₁: 𝜇 = 𝜇₁ > 𝜇₀ , tzw. hipoteza prawostronna 𝐻₁: 𝜇 = 𝜇₁ ≠ 𝜇₀ , tzw. hipoteza dwustronna

(39)

Statystyka testowa ma postać:

𝑡 = ҧ𝑥 − 𝜇0

𝑠 𝑁 − 1, gdzie ҧ𝑥 to wartość średnia iągu obserwacji,

𝜇₀ to wartość średnia akładana przez hipote ę erową,

𝑠 to estymowana ze zbioru obserwacji wartość odchylenia standardowego 𝑁 to liczba obserwacji, na podstawie której dokonywane są obliczenia. Obliczona wartość t jest porówn wana z ro kłade wzorcowym zmiennej 𝑡 . Jeżeli wartość statystyki znajduje się w obszarze odrzucenia, to Przyjmowana jest hipoteza alternatywna. Jeśli wartość ta nie znajdzie się w tym obszarze – w mocy pozostaje hipoteza zerowa

(40)

Hipoteza alternatywna 𝐻₁ jest przyjmowana:

▪ W przypadku hipotezy lewostronnej, jeżeli wartość statystyki 𝑡 będ ie mniejsza niż wartość progowa −𝑡_{1−𝜶,𝑁−1},

▪ W przypadku hipotezy prawostronnej, jeżeli wartość statystyki 𝑡 będ ie mniejsza niż wartość progowa 𝑡_{1−𝜶,𝑁−1},

▪ W przypadku hipotezy dwustronnej, jeżeli wartość statystyki 𝑡 będ ie mniejsza niż wartość progowa - 𝑡₁₋𝛼

2,𝑁−1

, lub więks a niż wartość progowa 𝑡₁₋𝛼

2,𝑁−1

(41)

Testy statystyczne – test t-Studenta

obszary odrzucenia w teście dwustronnym

𝑡

₁₋𝛼 2,𝑁−1

−𝑡

₁₋𝛼 2,𝑁−1 , prawdopodobie stwa , prawdopodobie stwa obs ar odr u enia ,

prawdopodobie stwa obs ar odr u enia

(42)

Testy statystyczne – test t-Studenta

obszar odrzucenia w teście lewostronnym

−𝑡

_{1−𝛼,𝑁−1}

,

prawdopodobie stwa ,

prawdopodobie stwa obs ar odr u enia

(43)

Testy statystyczne – test t-Studenta

obszar odrzucenia w teście prawostronnym

𝑡

_{1−𝛼,𝑁−1}

,

prawdopodobie stwa _{prawdopodobie stwa} ,

(44)

Czasem zamiast podawać wynik w postaci stwierdzenia faktu, że odrzucono hipote ę erową, podaje się tzw. p-wartość.

Jest to najmniejszy poziom istotności, któr prowadzi do odrzucenia hipotezy zerowej. Pozwala to na pozbycie się problemu arbitralnego doboru poziomu istotności, któr zwyczajowo przyjmowany jest jako 0,05.

Poprzez podanie p-wartoś i każd oże do danych w ników stosować kryterium w postaci swojego własnego progu istotnoś i.

(45)

Testy statystyczne – p-wartość

,

prawdopodobie stwa _{prawdopodobie stwa} ,

obs ar wią an p wartoś ią np

obli ona wartość

(46)

ażd test stat st n wiąże się ożliwoś ią popełnienia błędu, w różnia się dwa t p błędów:

▪ Błąd 1. rodzaju, gdy hipoteza zerowa została odrzucona pomimo tego, że jest ona prawdziwa. Jest on tym mniej prawdopodobny im niższa jest wartość poziomu istotności 𝜶. Wartość poziomu istotności jest prawdopodobieństwem popełnienia błędu 1. rodzaju.

▪ Błąd 2. rodzaju, gdy hipoteza zerowa nie została odrzucona pomimo tego, że jest ona fałszywa. Im mniejsze prawdopodobie stwo tego błędu tym więks a jest tak zwana moc testu statystycznego.

Przy wyborze testu statystycznego należy wybierać taki test, który wartość 𝜶 i zapewnia maksymalną moc.

(47)

(48)

Testy statystyczne – problem wielokrotnego testowania

Jeżeli wykonujemy zestaw trzech

testów, to efektywne

prawdopodobieństwo

popełnienia błędu 1. rodzaju

wynosi nie 𝛼, tylko 1 − 1 − 𝛼

3

,

co dla 𝜶 = 𝟎, 𝟎𝟓 daje efektywną

wartość prawdopodobieństwa

pomyłki równą aż 0,14.

Prawdopodobieństwo

popełnienia błędu 1. rodzaju w

takim przypadku jest prawie 3

razy większe niż w przypadku

pojedynczego testu!

porównanie 2

(prawdopodobieństw

o błędu równe 𝛼)

porównanie 3

(prawdopodobieństw

o błędu równe 𝛼)

porównanie 1

(prawdopodobieństw

o błędu równe 𝛼)

Zmienna A

Zmienna B

Zmienna C

(49)

Aby pr e iwd iałać problemowi wielokrotnego testowania ożna astosować tzw. poprawkę na wielokrotne testowanie, np. poprawkę Bonferroniego, która polega na pr ję iu faktycznego poziomu istotnoś i równego

𝛼_𝑒𝑓𝑓 = 𝛼 𝑘 ,

gdzie 𝛼 to poziom istotnoś i ałego zestawu bada , k to liczba testów wykonanych w ramach zestawu bada , a 𝛼_𝑒𝑓𝑓 to efektywny poziom istotnoś i, jaki jest stosowany do pos ególn h testów składow h.

Dla testowania gdzie podawane są p-wartości poprawka ta polega po prostu na przemnożeniu podanych p-wartości przez 𝒌, co odpowiada operacji dzielenia zaproponowanej dla podejścia z wykorzystaniem 𝜶_𝒆𝒇𝒇.

ostępne są także inne poprawki, np. poprawka Holma-Bonferonniego.

(50)

Innym podejściem do wykonywania wielu testów na raz, na pr kład porówn wania ze sobą wielu estymowanych średni h jest zastosowanie specjalnych testów wykonujących jednoczesne porównanie, np. testu ANOVA (Analysis of Variance).

Dostarczana przez nie p-wartość pozwala na zweryfikowanie hipotezy, czy którakolwiek z k średnich różni się od którejkolwiek z pozostałych.

b dowied ieć się, która para średnich jest parą różnią ą się konie ne jest wykorzystanie testu specjalnie przystosowanego do

wielokrotnego testowania, tzw. testu post-hoc.

ęst teste post-ho w kor st wan po teś ie N V jest test HSD Tukeya.

Dodatkowo, ANOVA zakłada, że wariancje wszystkich analizowanych zmiennych są równe, co wymaga uprzednio wykonania

dodatkowego testu na równość wariancji – testu Levene’a lub Browna-Forsythe’a.

(51)

Testy statystyczne – ANOVA (zasada działania)

grupa

𝑆

₁2

𝑆

₂2

𝑆

₃2

𝑆

₁₂₃2

𝑆

₁2

- wariancja grupy 1.

𝑆

₂2

- wariancja grupy 2.

𝑆

₃2

- wariancja grupy 3.

𝑆

₁₂₃2

- wariancja zbiorcza

sumy grup 1.-3.

(52)

Czasem nie jest możliwe spełnienie założeń przyjmowanych do zastosowania określon h testów statystycznych, na pr kład ro kładu Gaussa dla testu t-Studenta, czy równoś i wariancji dla testu ANOVA. O testach przyjmujących tego typu dodatkowe założenia mówimy, że są to testy parametryczne.

W takim wypadku konieczne jest posłużenie się tzw. testami nieparametrycznymi. Testy te skonstruowane są w oparciu o mniejszą liczbę założeń (aczkolwiek nie są ich pozbawione), zwykle mają tez mniejszą moc.

(53)

ęst nieparametrycznym odpowiednikiem dla testu t-Studenta jest test kolejności par Wilcoxona.

Podobnie dla testu ANOVA jego nieparametrycznym odpowiednikiem jest test Kruskala-Wallisa. Odpowiednikiem testu post-hoc HSD Tukeya w przypadku testu Kruskala-Wallisa jest test post-hoc Dunn.

(54)

stnieje wiele inn h testów stat st n h dostosowan h do konkretn h potr eb, na pr kład:

▪ Test na godność ro kładów dwó h iągów,

▪ Test na równość warian ji dwó h iągów,

▪ Test oł ogorowa-Smirnova do stwierd enia dan iąg wartoś i a ro kład nor aln ,

… i wiele inn h, które ożna dobierać do danego astosowania według konkretnego zapotrzebowania.

(55)