Analiza wariancji - ANOVA
• Analiza wariancji jest metodą pozwalającą na podział zmienności zaobserwowanej wśród wyników eksperymentalnych na oddzielne części.
Każdą z tych części możemy przypisać oddzielnemu źródłu oraz oszacować ich względne wielkości.
• Czyli możemy sprawdzić, czy któraś z
wyodrębnionych części zmienności jest większa
od oczekiwań jakie złożyliśmy w hipotezie
zerowej naszego eksperymentu.
• Analiza wariancji jest więc techniką, która wśród całej zmienności wskaże te najistotniejsze części, czyli te czynniki, które prawdopodobnie w znaczący sposób wpływają na wyniki eksperymentu.
• Termin „analiza wariancji” pochodzi od
Ronalda A. Fishera !
Ogólne postępowanie w Analizie
wariancji
ANOVA (ANalysis Of VAriance) – klasyfikacja jednoczynnikowa
• To zespół metod statystycznych do porównywania kilku populacji.
To technika badania wyników, które zależą od 1 lub kilku czynników działających równocześnie.
• Mogą to być np. leki, płeć, metoda leczenia, diety itp. Anova pozwala sprawdzić, czy analizowane czynniki wywierają wpływ na obserwowane wyniki.
Idea
• Testujemy działanie 2 leków przeciwbólowych dołączając do porównania placebo. Czasy działania leku w godzinach oraz wartości średnich mamy w tabeli:
pacjenci Lek A Lek B placebo
1 3 2 1
2 4 3 0,5
3 3 4 0,5
4 6 4 1
Średnie 4 3,25 1
Średnia całkowita: 2,75
Mamy 3 średnie:
średnie
4 (4-2,75)2 = 6,75
4 (3,25- 2,75)2 = 1
4 (1-2,75)2 = 12,25
SSefekt = 19,5
SS total
SS Error (miara zmienności wewnątrz grup) SS efektu (miara zmienności między grupami)
Stopnie swobody
Liczba df (degrees of freedom)
• To liczba wszystkich możliwych pomiarów pomniejszona o liczbę wszystkich powiązań. Powiązanie to każda wielkość obliczona na podstawie znajomości tych pomiarów. Każde powiązanie unieruchamia jedną z danych, czyli zmniejsza o 1 liczbę danych, które można swobodnie dobrać.
• Df dla SS całk = n-1
• Df dla SS błędu = n-k
• Df dla SS efektu = k-1
Tewst F
algorytm
• Czyli średnie czasy wykonania detalu różnią się od siebie: tym jest niższy im wyższy poziom kwalifikacji pracowników, oraz że wariancje w grupach różnią się od siebie.
• Możemy też dodatkowo narysować wykresy pudełkowe przedstawiające wartość mediany, Q1 i Q3, oraz min i maks….
• Wartość statystyki F wynosiła 7,4076 i na podstawie prawdopodobieństwa testowego hipotezę zerową o równości średnich w grupach odrzucamy na korzyść hipotezy alt. Czyli twierdzimy, że czas wykonania detalu zależy od poziomu kwalifikacji pracownika.
• Po odrzuceniu Ho zazwyczaj przeprowadzane są tzw. Testy post hoc, które pozwalają sprawdzić, które średnie istotnie różnią się od siebie. W programie R dostępy jest test Tukeya który wymaga uprzedniego zapisania zależności między czynnikiem a zmienną objaśnianą za pomocą funkcji aov.
Przedziały ufności dla różnic w średnich czasach wykonania detalu
między różnymi poziomami kwalifikacji pracowników
• Widać, że różnica w przeciętnym czasie wykonania detalu między drugim i pierwszym poziomem kwalifikacji pracownika wynosiła - 0,80 jednakże na podstawie wartości prawdopodobieństwa testowego nie została ona uznana za istotną (padj = 0,11 i przekracza progową wartość 0,05).
• Za nieistotną została także uznana różnica między średnim czasem wykonania detalu w przypadku 2 i 3 poziomu kwalifikacji pracowników (padj = 0,25). Jedynie istotna różnica między 1 i 3 poziomem kwalifikacji i wynosi 1,42 bo o tyle krócej trwa przeciętny czas wykonania detalu przez osobę o trzecim poziomie kwalifikacji w porównaniu z osobą o pierwszym poziomie kwalifikacji.
Dwuczynnikowa analiza wariancji
• Przed wykonaniem dwuczynnikowej analizy wariancji warto w sposób graficzny sprawdzić, czy w modelu powinny zostać uwzględnione także interakcje między czynnikami.
• Kiedy zakłada się istnienie interakcji, wtedy efekt wpływu jednej zmiennej niezależnej na zmienną objaśnianą jest różny na różnych poziomach drugiego czynnika (zmiennej niezależnej).
• Tu potencjalne wystąpienie interakcji oznaczałoby np. że wpływ płci na czas wykonaniu jest różny w zależności od poziomu kwalifikacji.
• By przeprowadzić graficzną analizę pozwalającą wykryć potencjalne istnienie interakcji należy zastosować polecenie interaction.plot…
• Widać z wykresu ze każdy z czynników (kwalifikacje i płec) ma wpływ na czas wykonania detalu, jednakże nie zachodzą między nimi żadne interakcje. Świadczy o tym fakt, że na rysunku linie biegną mniej więcej równolegle (nie przecinają się, co świadczy o braku interakcji).
A co jeśli interakcje są ?
• Na podstawie uzyskanych wartości statystyki F oraz odpowiadających im wartości prawdopodobieństwa testowego można stwierdzić, ze zarówno płeć, jak i poziom kwalifikacji wpływają na czas wykonania.
Twesty post hoc
• Przeprowadzone testy post hoc pozwalają stwierdzić, że jeżeli chodzi o kwalifikacje to chociaż pracownicy mający 3 stopień klasyfikacji potrzebuje o 0,62 mniej czas niż pracownicy z 2 poziomem kwalifikacji to jednak różnica ta jest nieistotna(p adj = 0.053).
• Różnice dla pozostałych kombinacji poziomu kwalifikacji zostały uznane za istotne.
• Natomiast biorąc pod uwagę wyniki dla drugiego czynnika, stwierdzamy, że miedzy kobietami i mężczyznami zachodzi istotna różnica w przeciętnym czasie wykonania detalu.
Analiza wariancji gdy są interakcje
• Przeprowadzono badania mające na celu stwierdzenie czy reklama telewizyjna ma wpływ na wysokość wydatków na prasę badanych osób oraz czy wydatki te zależą od grupy dochodowej osoby.
• Wykresy wyraźnie potwierdzają, że między rozpatrywanymi czynnikami istnieją interakcje bo się przecinają krzywe.
Przykład dwuczynnikowej AW przy
uwzgl. interakcji
• Zbudowany powyżej 2czynnikowy model analizy wariancji wraz z interakcjami pozwala przetestować hipotezę zerową (H0) mówiącą, że wydatki kształtują się niezależnie od podatności na reklamę i od grupy dochodowej, wobec jednej z 3 potencjalnych hipotez:
• H1(1): na wydatki mają wpływ albo reklama albo dochód
• H1(2): addytywny wpływ reklamy i grupy dochodowej na wydatki (czyli wpływ i reklamy i dochodów)
• H1(3): multiplikatywny wpływ reklamy i grupy dochodowej (czyli na wydatki mają wpływ także interakcje między reklamą a grupą dochodową).
Na podstawie
• Na odstawie wyników takich jak wartości statystyki F i odpowiadającego mu poziomu prawdopodobieństwa testowego, można stwierdzić, że jedynie grupa dochodowa nie ma wpływu na poziom wydatków.
• Natomiast wpływ 2 czynnika, tj. reklamy oraz interakcji między czynnikami został uznany za istotny.
• Oznacza to, że po pierwsze reklama ma wpływ na wysokość wydatków oraz po drugie w każdej grupie dochodowej reklama w różny sposób wpływa na poziom wydatków.