Zadanie domowe 2
Część I
Zebrano dane od dzieci, które w okresie niemowlęcym w latach 2008-2012 leczone były w oddziale ogólnopediatrycznym Kliniki Pediatrii Samodzielnego Publicznego Szpitala Kli- nicznego nr 1 w Zabrzu Śląskiego Uniwersytetu Medycznego w Katowicach z powodu in- fekcji układu oddechowego, i wykonywano u nich badanie w kierunku zakażenia wirusem RSV. U części dzieci wykryto zakażenie tym wirusem, a u części nie. Po upływie trzeciego roku życia przeprowadzono u tych dzieci badanie morfologiczne krwi, w ramach którego oznaczono poziom przeciwciał: immunoglobulin E (IgE), kilku typów interleukin: IL-4, IL-5, IL-10, IL-13 oraz interferonu IFN-γ (wyniki podano w pg/ml).
Przetestuj, czy rozkład wybranego składnika morfologicznego krwi różni się u dzieci, u których w okresie niemowlęcym wystąpiła infekcja wirusem RSV, i u dzieci, u których nie zdiagnozowano zakażenia tym wirusem.
Analizy dokonaj w kilku etapach:
Korzystając ze znanych Ci narzędzi, wszechstronnie zbadaj normalność rozkładu w obu grupach (szczególnie pod kątem przeprowadzenia testu Studenta dla dwóch prób niezależnych). W wypadku asymetrii określ za pomocą metod graficznych rodzaj asymetrii oraz oceń, czy jest szansa, że przez odpowiednie monotoniczne przekształ- cenie danych (to samo w wypadku obu grup) da się dokonać wspólnej symetryzacji danych.
Wykonaj test Wilcoxona dla porównania tych rozkładów. Statystykę testową oblicz
„ręcznie” na dwa sposoby: w oparciu o rangi i poprzez porównanie obserwacji w parach. „Ręcznie” wyznacz p-wartość i na jej podstawie przedstaw wynik testu.
Dołącz „wyplujkę” z testem Wilcoxona z modułu statystycznego.
Spróbuj znaleźć przekształcenie z rodziny transformacji Boxa-Coxa wspólnie syme- tryzujące oba zbiory danych. Po znalezieniu takiego przekształcenia Twoim zdaniem najlepszego wszechstronnie zbadaj normalność rozkładu danych po transformacji (szczególnie pod kątem przeprowadzenia testu Studenta dla dwóch prób niezależ- nych). Jeśli okaże się, że dane po transformacji wydają się nie pochodzić z rozkładu normalnego, to skomentuj, w jaki sposób odbiegają od normalności.
Sprawdź wnikliwie założenia testu Studenta dla dwóch prób niezależnych dla danych zsymetryzowanych przez Ciebie. Jeśli któreś z założeń należy uznać za niespełnione, skomentuj, jaka jest Twoim zdaniem przyczyna jego niespełnienia.
Niezależnie od ewentualnego braku normalności danych po transformacji postępuj dalej tak, jakby dane były normalne: sprawdź homoskedastyczność i w zależności od jej występowania przeprowadź test Studenta dla dwóch prób niezależnych bądź test Welcha. W teście homoskedastyczności i teście Studenta bądź teście Welcha
„ręcznie” oblicz statystykę testową, „ręcznie” wyznacz p-wartość i na jej podstawie przedstaw wynik testu. Dołącz odpowiadające tym testom „wyplujki” z modułu sta- tystycznego. Porównaj otrzymane wyniki testu Studenta (Welcha) i testu Wilcoxona i skomentuj przyczynę ewentualnych różnic w konkluzjach obu testów.
Część II
Zebrano dane na temat wielkości stóp 20 uczestniczek zajęć w szkole rodzenia. Po- miarów dokonano na początku kursu i przeprowadzono je ponownie podczas ostatniego pobytu w szkole rodzenia. Mierzono długość i szerokość każdej ze stóp (w mm). Przetestuj (najlepiej w oparciu o test Studenta dla par obserwacji), czy podczas ciąży zmieniają się proporcje stopy tzn. czy zmienia się rozkład stosunku długości do szerokości stopy.
Korzystając ze znanych Ci narzędzi, wszechstronnie zbadaj założenia testu Studenta dla par obserwacji.
Jeżeli uznasz, że nie ma podstaw do odrzucenia hipotezy o ich spełnieniu, przepro- wadź test Studenta dla par obserwacji. „Ręcznie” oblicz statystykę testową, „ręcz- nie” wyznacz p-wartość i na jej podstawie przedstaw wynik testu. Dołącz odpowied- nią „wyplujkę” z modułu statystycznego.
Wybór danych, jakie będziesz analizować, zależy od Twego numeru indeksu.
W części I jeśli reszta z dzielenia numeru Twego indeksu przez 6 wynosi 0, przeanalizuj zmienną IgE, jeśli 1 – zmienną IL-4, jeśli 2 – zmienną IL-5, jeśli 3 – zmienną IL-10, jeśli 4 – zmienną IL-13, a jeśli 5 – zmienną IFN-γ.
W części II jeśli ostatnia cyfra Twego indeksu to 0, 1, 2, 3 lub 4, to przeanalizuj dane dotyczące lewej stopy, jeśli 5, 6, 7, 8 lub 9, to dane dotyczące prawej stopy.
Obliczenia należy wykonać w arkuszu kalkulacyjnym Gnumeric. Plik instalacyjny jed- nej z ostatnich wersji udostępnionych na systemy operacyjne z rodziny Windows (obecnie program ten w wersji na systemy operacyjne z rodziny Windows nie jest rozwijany) można pobrać z następującej lokalizacji: http://www.math.uni.wroc.pl/∼dyba/lz/gnumeric-1.12.17- 20140610.exe.
Rozwiązanie powinno stanowić logiczny opis poszczególnych kroków i ich znaczenia dla całości rozumowania (czyli nie tylko odpowiedź na pytanie: co?, ale także: po co? ).
W przypadku testów statystycznych za każdym razem należy ściśle i przejrzyście zanoto- wać obie testowane hipotezy a także wynik testu w języku testowanego problemu (a nie tylko zdawkowe odrzucam H na rzecz K ). Należy też podać poziom istotności, na jakim przeprowadza się dany test (poziom istotności może być ten sam dla wszystkich przepro- wadzanych testów). W przypadku wykresów należy przedstawić płynące z nich wnioski.
Oceniana będzie nie tylko strona merytoryczna rozwiązania, ale także przejrzystość spo- sobu zaprezentowania rozwiązania w arkuszu kalkulacyjnym. Dla ułatwienia sprawdzania prosi się o niestosowanie komentarzy, które są widoczne dopiero po najechaniu kursorem na odpowiednie znaczniki.
„Ręczne” obliczanie statystyk testowych i p-wartości jest konieczne tylko tam, gdzie wyraźnie zostało to zaznaczone. Jednocześnie jeśli z polecenia wynika, że konieczne jest przeprowadzenie „ręcznych” obliczeń, za „wyplujki” nie będą przyznawane punkty, a ja- kość rozwiązania będzie mierzona tylko jakością „ręcznych” obliczeń. Mimo to pominięcie
„wyplujki” na rzecz jedynie „ręcznych” obliczeń będzie skutkowało nieprzyznaniem punk- tów za dane polecenie.
Jako owoc pracy należy przesłać na adres dyba@math.uni.wroc.pl arkusz kalkulacyjny w formacie .gnumeric zawierający wszystkie obliczenia, wykresy, komentarze i wnioski.
Nie należy przesyłać żadnych innych plików poza tym jednym. Plikowi należy nadać na- zwę postaci: Imie Nazwisko 2.gnumeric. Przed przystąpieniem do pracy należy koniecznie zapisać dane w formacie .gnumeric, gdyż użycie w programie Gnumeric funkcji niedostęp- nych w programie MS Excel i zapisanie efektów pracy w formacie innym niż .gnumeric może spowodować utratę części owocu pracy.
Dotąd udało się wykryć, że Gnumeric w wersji 1.10 błędnie przeprowadza test Wil- coxona. Jeśli w Twojej wersji również pojawia się ten problem, to zainstaluj np. wersję zaproponowaną w treści zadania.
Termin nadsyłania rozwiązań to poniedziałek 30 maja, godz. 8.00.
W razie wątpliwości zachęcam do kontaktu za pomocą poczty elektronicznej lub w ja- kikolwiek inny sposób.
Kamil Dyba