Analiza wariancji - ANOVA

(1)

Analiza wariancji - ANOVA

(2)

• Analiza wariancji jest metodą pozwalającą na podział zmienności zaobserwowanej wśród wyników eksperymentalnych na oddzielne części.

Każdą z tych części możemy przypisać oddzielnemu źródłu oraz oszacować ich względne wielkości.

• Czyli możemy sprawdzić, czy któraś z

wyodrębnionych części zmienności jest większa

od oczekiwań jakie złożyliśmy w hipotezie

zerowej naszego eksperymentu.

(3)

• Analiza wariancji jest więc techniką, która wśród całej zmienności wskaże te najistotniejsze części, czyli te czynniki, które prawdopodobnie w znaczący sposób wpływają na wyniki eksperymentu.

• Termin „analiza wariancji” pochodzi od

Ronalda A. Fishera !

(4)

(5)

Ogólne postępowanie w Analizie

wariancji

(6)

ANOVA (ANalysis Of VAriance) – klasyfikacja jednoczynnikowa

• To zespół metod statystycznych do porównywania kilku populacji.

To technika badania wyników, które zależą od 1 lub kilku czynników działających równocześnie.

• Mogą to być np. leki, płeć, metoda leczenia, diety itp. Anova pozwala sprawdzić, czy analizowane czynniki wywierają wpływ na obserwowane wyniki.

(7)

Idea

(8)

• Testujemy działanie 2 leków przeciwbólowych dołączając do porównania placebo. Czasy działania leku w godzinach oraz wartości średnich mamy w tabeli:

pacjenci Lek A Lek B placebo

1 3 2 1

2 4 3 0,5

3 3 4 0,5

4 6 4 1

Średnie 4 3,25 1

Średnia całkowita: 2,75

(9)

(10)

Mamy 3 średnie:

(11)

średnie

4 (4-2,75)² = 6,75

4 (3,25- 2,75)² = 1

4 (1-2,75)² = 12,25

SS_efekt = 19,5

(12)

(13)

(14)

(15)

SS _total

SS Error (miara zmienności wewnątrz grup) SS efektu (miara zmienności między grupami)

(16)

(17)

Stopnie swobody

(18)

Liczba df (degrees of freedom)

• To liczba wszystkich możliwych pomiarów pomniejszona o liczbę wszystkich powiązań. Powiązanie to każda wielkość obliczona na podstawie znajomości tych pomiarów. Każde powiązanie unieruchamia jedną z danych, czyli zmniejsza o 1 liczbę danych, które można swobodnie dobrać.

• Df dla SS_całk= n-1

• Df dla SS_błędu= n-k

• Df dla SS_efektu= k-1

(19)

(20)

Tewst F

(21)

algorytm

(22)

(23)

(24)

• Czyli średnie czasy wykonania detalu różnią się od siebie: tym jest niższy im wyższy poziom kwalifikacji pracowników, oraz że wariancje w grupach różnią się od siebie.

• Możemy też dodatkowo narysować wykresy pudełkowe przedstawiające wartość mediany, Q1 i Q3, oraz min i maks….

(25)

(26)

(27)

• Wartość statystyki F wynosiła 7,4076 i na podstawie prawdopodobieństwa testowego hipotezę zerową o równości średnich w grupach odrzucamy na korzyść hipotezy alt. Czyli twierdzimy, że czas wykonania detalu zależy od poziomu kwalifikacji pracownika.

(28)

• Po odrzuceniu Ho zazwyczaj przeprowadzane są tzw. Testy post hoc, które pozwalają sprawdzić, które średnie istotnie różnią się od siebie. W programie R dostępy jest test Tukeya który wymaga uprzedniego zapisania zależności między czynnikiem a zmienną objaśnianą za pomocą funkcji aov.

(29)

(30)

Przedziały ufności dla różnic w średnich czasach wykonania detalu

między różnymi poziomami kwalifikacji pracowników

(31)

• Widać, że różnica w przeciętnym czasie wykonania detalu między drugim i pierwszym poziomem kwalifikacji pracownika wynosiła - 0,80 jednakże na podstawie wartości prawdopodobieństwa testowego nie została ona uznana za istotną (p_adj = 0,11 i przekracza progową wartość 0,05).

• Za nieistotną została także uznana różnica między średnim czasem wykonania detalu w przypadku 2 i 3 poziomu kwalifikacji pracowników (p_adj = 0,25). Jedynie istotna różnica między 1 i 3 poziomem kwalifikacji i wynosi 1,42 bo o tyle krócej trwa przeciętny czas wykonania detalu przez osobę o trzecim poziomie kwalifikacji w porównaniu z osobą o pierwszym poziomie kwalifikacji.

(32)

(33)

(34)

Dwuczynnikowa analiza wariancji

• Przed wykonaniem dwuczynnikowej analizy wariancji warto w sposób graficzny sprawdzić, czy w modelu powinny zostać uwzględnione także interakcje między czynnikami.

• Kiedy zakłada się istnienie interakcji, wtedy efekt wpływu jednej zmiennej niezależnej na zmienną objaśnianą jest różny na różnych poziomach drugiego czynnika (zmiennej niezależnej).

• Tu potencjalne wystąpienie interakcji oznaczałoby np. że wpływ płci na czas wykonaniu jest różny w zależności od poziomu kwalifikacji.

• By przeprowadzić graficzną analizę pozwalającą wykryć potencjalne istnienie interakcji należy zastosować polecenie interaction.plot…

(35)

(36)

• Widać z wykresu ze każdy z czynników (kwalifikacje i płec) ma wpływ na czas wykonania detalu, jednakże nie zachodzą między nimi żadne interakcje. Świadczy o tym fakt, że na rysunku linie biegną mniej więcej równolegle (nie przecinają się, co świadczy o braku interakcji).

(37)

A co jeśli interakcje są ?

(38)

• Na podstawie uzyskanych wartości statystyki F oraz odpowiadających im wartości prawdopodobieństwa testowego można stwierdzić, ze zarówno płeć, jak i poziom kwalifikacji wpływają na czas wykonania.

(39)

Twesty post hoc

(40)

• Przeprowadzone testy post hoc pozwalają stwierdzić, że jeżeli chodzi o kwalifikacje to chociaż pracownicy mający 3 stopień klasyfikacji potrzebuje o 0,62 mniej czas niż pracownicy z 2 poziomem kwalifikacji to jednak różnica ta jest nieistotna(p adj = 0.053).

• Różnice dla pozostałych kombinacji poziomu kwalifikacji zostały uznane za istotne.

• Natomiast biorąc pod uwagę wyniki dla drugiego czynnika, stwierdzamy, że miedzy kobietami i mężczyznami zachodzi istotna różnica w przeciętnym czasie wykonania detalu.

(41)

(42)

Analiza wariancji gdy są interakcje

• Przeprowadzono badania mające na celu stwierdzenie czy reklama telewizyjna ma wpływ na wysokość wydatków na prasę badanych osób oraz czy wydatki te zależą od grupy dochodowej osoby.

(43)

(44)

• Wykresy wyraźnie potwierdzają, że między rozpatrywanymi czynnikami istnieją interakcje bo się przecinają krzywe.

(45)

Przykład dwuczynnikowej AW przy

uwzgl. interakcji

(46)

• Zbudowany powyżej 2czynnikowy model analizy wariancji wraz z interakcjami pozwala przetestować hipotezę zerową (H0) mówiącą, że wydatki kształtują się niezależnie od podatności na reklamę i od grupy dochodowej, wobec jednej z 3 potencjalnych hipotez:

• H1(1): na wydatki mają wpływ albo reklama albo dochód

• H1(2): addytywny wpływ reklamy i grupy dochodowej na wydatki (czyli wpływ i reklamy i dochodów)

• H1(3): multiplikatywny wpływ reklamy i grupy dochodowej (czyli na wydatki mają wpływ także interakcje między reklamą a grupą dochodową).

(47)

Na podstawie

• Na odstawie wyników takich jak wartości statystyki F i odpowiadającego mu poziomu prawdopodobieństwa testowego, można stwierdzić, że jedynie grupa dochodowa nie ma wpływu na poziom wydatków.

• Natomiast wpływ 2 czynnika, tj. reklamy oraz interakcji między czynnikami został uznany za istotny.

• Oznacza to, że po pierwsze reklama ma wpływ na wysokość wydatków oraz po drugie w każdej grupie dochodowej reklama w różny sposób wpływa na poziom wydatków.