• Nie Znaleziono Wyników

Komputerowe testy odsłuchowe

N/A
N/A
Protected

Academic year: 2021

Share "Komputerowe testy odsłuchowe"

Copied!
9
0
0

Pełen tekst

(1)

LABORATORIUM POMIARÓW W TECHNICE STUDYJNEJ

Ćw. 4

Komputerowe testy odsłuchowe

Specjalność: IDiO, studia 2. stopnia (mgr), sem. 2.

opracowanie: mgr inż. Adam Kurowski, wersja instrukcji z dnia: 5. stycznia 2021 roku

1. PODSTAWY TEORETYCZNE

W inżynierii dźwięku, obrazu i wielu innych dziedzinach techniki, w których efekt końcowy bywa oceniany subiektywnie przez końcowego odbiorcę często zachodzi potrzeba wiarygodnego ocenienia jakiegoś rozwiązania. Subiektywna ocena danego rozwiązania może zmieniać się w zależności od tego, kogo o nią zapytamy i w zależności od tego, w jakich warunkach ocena ta jest dokonywana. W trakcie niniejszego laboratorium przedstawiony zostanie przykład usystematyzowanego pozyskiwania opinii na temat jakości dźwięku. Proces taki nazywany jest testem odsłuchowym. Konstrukcja testu odsłuchowego pozwala na wiarygodne i powtarzalne sprawdzenie subiektywnego poziomu odczuć np. na temat jakości danego nagrania. Pozwala to na wiarygodne ocenienie jakości rozwiązań audio, miksu i innych procesów, których efekty zazwyczaj oceniane są subiektywnie. W ramach laboratorium ocenie poddawane będą nagrania muzyczne, których jakość została zdegradowana przez zniekształcenia nieliniowe (przesterowanie). Przedstawione będzie kilka wariantów badania, które pozwalają na stwierdzenie, jakie zniekształcenia będą słyszalne przez osoby biorące udział w teście odsłuchowym, albo jak bardzo zauważalne są poszczególne poziomy przesterowania dla finalnego odbiorcy. Są to procesy, które w subiektywny sposób wpływają na wrażenie odbiorcy muzyki i których wpływ może w negatywny sposób wpłynąć na komfort słuchaczy.

Pierwszym prezentowanym przykładem testu będzie test porównania parami, w ramach którego badane jest, czy zakłócenia są słyszalne dla odbiorców muzyki. Nie badamy tutaj tego, czy osoby badane są w stanie rozróżnić nasilenie zakłócenia – jedynie badamy czy osoby badane są w stanie usłyszeć, czy przesterowanie występuje w prezentowanych nagraniach. Słuchaczom prezentowane są dwa nagrania podpisane jako „próbka A” i jako „próbka B”. Przesterowane jest tylko jedno z nich. Słuchacz wybiera to, które według niego jest przesterowane. Stąd też ciąg odpowiedzi takiej osoby może mieć tylko dwie wartości. Wartość wskazująca na przesterowanie występuje w nim z prawdopodobieństwem które możemy oznaczyć jako p, a wartość oznaczająca zdarzenie odwrotne występuje z prawdopodobieństwem równym 1-p. Rozkład wartości o takich własnościach nazywamy rozkładem Bernoulliego. Przykład ciągu, który można opisać rozkładem Bernouliego zwizualizowany jest na rys. 1.

Rysunek 1. Przedstawienie przykładowych wyników z pierwszego testu odsłuchowego. Rozkład przyjmuje tylko dwie wartości – przesterowana jest albo próbka A, albo próbka B.

Jeżeli osoby badane nie słyszą różnic między badanymi próbkami nagrań, to przy pytaniu w którym jest prośba o wybranie próbki przesterowanej ilość odpowiedzi wskazujących próbkę A i próbkę B powinna być taka sama, bo osoby badane będą równie często odpowiadać prawidłowo i

p a

p a

(2)

błędnie. W praktyce częstości te nie będą identyczne, ale będą one do siebie zbliżone. Przypisanie próbek przesterowanych (zdegradowanych) i oryginalnych (referencyjnych) do oznaczeń „próbka A” i „próbka B” jest losowe, aby wykluczyć wpływ kolejności prezentacji na odpowiedzi osób badanych – przykład kolejności i sposobu prezentowania próbek nagrań pokazany jest na rys. 2.

Rysunek 2. Przykładowy sposób prezentacji osobie badanej par utworów do porównania w teście AB – po jego przeprowadzeniu otrzymujemy szereg odpowiedzi, np. Z dla wyboru próbki zdegenerowanej (np. poprzez przesterowanie) i R dla wyboru próbki referencyjnej. Można też odpowiedzi oznaczać jako „prawidłowa” i „nieprawidłowa”, bo prosimy konkretnie o wybór próbki przesterowanej.

Aby z większą pewnością stwierdzić, jak podobne do siebie powinny być częstości wyboru poszczególnych opcji w teście (próbki Z i R dla sytuacji z rys. 2) i tym samym określić, czy osoby badane w zadaniu wyboru przesterowanej próbki nagrania wybierają poprawną odpowiedź równie często, co odpowiedź błędną warto posłużyć się testem statystycznym. Dla ciągów tego

typu, których wartości podlegają rozkładowi Bernoulliego można zastosować tzw. test dwumianowy. Wykorzystuje on jako podstawę swojego działania wartość powstałą po

zsumowaniu liczby odpowiedzi od osób, które poprawnie wskazały próbkę Z jako przesterowaną (można też przeprowadzić tę analizę zliczając liczbę odpowiedzi od osób, które wybrały błędnie i zaklasyfikowały próbkę R jako przesterowaną). Zmienna taka ma rozkład dwumianowy, który dany jest wzorem:

𝑃(𝑋 = 𝑘) = (𝑛𝑘) 𝑝𝑘(1 − 𝑝)𝑛−𝑘, (1)

gdzie X oznacza zmienną losową w postaci liczby osób które zaznaczyły wybraną przez nas próbkę (Z lub R),

p oznacza prawdopodobieństwo wyboru próbki A w ciągu odpowiedzi udzielonych przez osoby

badane,

n oznacza liczbę odpowiedzi,

k oznacza liczbę odpowiedzi wskazujących na próbkę A.

Obliczając dystrybuantę rozkładu prawdopodobieństwa danego wzorem (1) możliwe jest na przykład policzenie jakie jest prawdopodobieństwo, że k przyjmie zaobserwowaną w badaniu wartość przy założeniu że badani nie słyszą różnic pomiędzy próbkami A i B (co oznacza, że

p=0,5). Najłatwiej takie zakresy oblicza się nie z rozkładu prawdopodobieństwa takiego jak we

wzorze (1), a właśnie z dystrybuanty – wtedy wystarczy wyznaczyć krańce przedziału i odjąć wartości dystrybuanty odpowiadające tym krańcom. Zwykle zakłada się, że jeżeli wartość k znajduje się w 95% najbardziej prawdopodobnych wartości, to wartość k jest typowa i nie ma podstaw do twierdzenia, że mogła się ona „wylosować” z rozkładu dla którego wartość p nie jest równa 0,5. Jeżeli natomiast znajduje się ona w tym mniej prawdopodobnym 5% wartości, to

(3)

z próbek nie jest dziełem przypadku i jest on istotny statystycznie. Graficzne

zwizualizowanie p-wartości przedstawione jest na rys. 3.

Rysunek 3. Przedstawienie graficzne obszarów w których wartość zmiennej (np. zmiennej k) uznawana jest za prawdopodobną i tych dla których uznajemy, że rozkład jednak ma wartość p inną niż 0,5 bo wylosowanie takiego k z rozkładu gdzie jednak p=0,5 jest nieprawdopodobne.

Oczywiście jeżeli chcemy aby wynik był pewniejszy i test był bardziej wiarygodny, możemy na obszar odrzucenia przeznaczyć nie aż 5% wartości, a na przykład tylko 1% lub 0,1%. Wspomnianą wielkość często oznaczamy grecką literą α i nazywamy poziomem istotności. W praktyce jako wynik testu nie podaje się tylko informacji o tym, z którego obszaru (prawdopodobnego/nieprawdopodobnego) pochodzi nasza wartość (w naszym przykładzie – k). Często jako wynik testu oblicza się tzw. p-wartość – jest to najniższa możliwa wartość poziomu istotności α, dla której badana wartość losowa jest jeszcze w zakresie wartości prawdopodobnych (czyli jest na granicy między zakresem „prawdopodobnym”, a „mało prawdopodobnym”). Graficzna wizualizacja położenia p-wartości na przykładowym rozkładzie prawdopodobieństwa pokazana jest na rys. 4.

Rysunek 4. Przedstawienie graficzne definicji p-wartości. Już przy wartości α = 0,05 uznalibyśmy, że obliczona wartość (np. parametru k, zaznaczona na rysunku wypełnionym czerwonym kolorem kółkiem) jest według rozkładu z rysunku mało prawdopodobna – znajduje się ona daleko w „ogonie” rozkładu prawdopodobieństwa. Warte jednak odnotowania jest to, że wartość α możemy obniżyć aż do 0,0001 i dalej wartość obliczona będzie musiała być uznana za nieprawdopodobną. Właśnie wartość 0,0001 będziemy w tym przypadku nazywać p-wartością.

(4)

Warto zwrócić uwagę, że p-wartość nie jest powiązana z położeniem punktu na osi, a z polem, które reprezentuje prawdopodobieństwo (wartość dystrybuanty) – na rys. 4 zaznaczone jest ono kolorem czerwonym. Stąd im dalej od środka rozkładu znajduje się czerwony punkt oznaczony na rysunku, tym związana z nim p-wartość jest mniejsza. Im ono

mniejsze, z tym mniejszą p-wartością jest powiązane, Często wartość testowaną poprzez porównanie z wybranym, powiązanym z nią rozkładem prawdopodobieństwa nazywa się tzw.

statystyką testową.

Ważne: zwyczajowo hipotezę (np. równą częstość poprawnego i niepoprawnego wskazywania próbek Z z rys. 2) związaną z tym że wartość jest z „prawdopodobnej” części rozkładu nazywamy hipotezą zerową (skrótowo oznaczana jako 𝑯𝟎)

Hipoteza związana z tym, że wartość wypadła nam w zakresie „mało prawdopodobnym” (np. różną częstość poprawnego i błędnego wskazywania przez osoby pytane próbek Z z rys. 2) nazywamy hipotezą alternatywną (skrótowo oznaczana jako 𝑯𝟏).

W przypadku stosowania p-wartości do interpretacji wyników testów statystycznych uznajemy, że jeżeli p-wartość jest większa niż α, to przyjmujemy że prawdziwa jest hipoteza zerowa. Jeśli jest odwrotnie – to prawdziwa jest hipoteza alternatywna.

W przypadku testów stosujących wielostopniowe skale bazujące lub zbliżone np. do oceny MOS (ang. mean opinion score) możliwe jest posłużenie się testami statystycznymi pozwalającymi

na porównywanie estymowanych średnich ciągów wartości. W tym przypadku są to na

przykład wartości oceny np. w skali od -2 do 2, w której -2 jest wartością wskazującą na lepszy odbiór próbki B, a wartość 2 wskazuje na lepszy odbiór próbki A. Testem dostosowanym do

takiego zastosowania jest np. test t-Studenta. Pozwala on na porównanie, która z ocen zebranych przez nagranie jest wyższa i czy różnica ta jest istotna statystycznie. Podobnie jak

w przypadku testu dwumianowego test t-Studenta zwraca tzw. p-wartość. Jest on tak skonstruowany, że jeśli średnie ciągów porównywanych są takie same, to jego p-wartość ma

wysoką wartość (powyżej progu wyznaczonego przez wartość 𝛂 ) – potwierdzona jest hipoteza zerowa o równości średnich. Podobnie jeśli jest on wykorzystywany do porównania wartości średniej ciągu z wartością numeryczną, np. z zerem – gdy zachodzi równość średniej

z wybraną liczbą to p-wartość zwrócona przez test jest wysoka (powyżej progu wyznaczonego przez wartość α, hipoteza zerowa). Brak równości jest w przypadku obu testów hipotezą

alternatywną.

Jeżeli jest znana obiektywna miara np. degradacji jakości, to możliwe jest posłużenie się testem t-Studenta do wykazania, że jakość postrzegana subiektywnie przez osoby badane degraduje się w podobny sposób, jak ten według którego rośnie lub maleje wartość miary obiektywnej. W takim przypadku, po odjęciu wskazań subiektywnych i wskazań

obiektywnych od siebie, test t-Studenta powinien stwierdzić, że wartość średnia takiego ciągu jest równa zeru (hipoteza zerowa). Warto także wspomnieć o dodatkowych sposobach

kontroli statusu eksperta osób biorących udział w testach odsłuchowych. Można taką kontrolę przeprowadzić za pomocą tzw. analizy stabilności odpowiedzi. W tym celu powtarza się

pytania zadane w teście. Zakłada się, że osoba faktycznie słysząca różnicę pomiędzy

prezentowanymi próbkami dźwiękowymi będzie udzielać takich samych odpowiedzi na

zadane pytania nawet po upływie pewnej ilości czasu. Przykładowy efekt przeprowadzenia

testu MOS ze skalą symetryczną od -3 do 3, posiadającym odpowiedź neutralną (0) pokazany jest na rys. 5.

(5)

Rysunek 5. Przykładowe odpowiedzi z testu z symetryczną skalą MOS. Najwyższy wiersz zawiera odpowiedzi wzorcowe, które wyznaczone są na przykład przez to jak bardzo faktycznie zniekształcone zostały sygnały pokazywane słuchaczowi. Każda z próbek była pokazywana badanej osobie dwa razy w czasie 2 niezależnych serii różniących się między sobą kolejnością prezentacji przykładów. Odpowiedzi z poszczególnych serii zamieszczone są w wierszach środkowym i dolnym.

Rys. 5 przedstawia trzy serie odpowiedzi – odpowiedzi wzorcowe, które wynikają z tego jak bardzo zniekształcono sygnały prezentowane słuchaczowi w procesie przygotowywania testu. Następnie wiersz środkowy i dolny zawierają odpowiedzi osoby badanej z dwóch serii testu. Zawierały one te same pokazywane sygnały, jednak zmieniona była kolejność (zawsze była ona losowa). Aby przetworzyć takie dane, odejmuje się od siebie odpowiadające odpowiedzi serii pierwszej i drugiej. W przypadku zgodności odpowiedzi ciąg różnic uzyskany w ten sposób posiada wartość średnią równą zeru (potwierdzona hipoteza zerowa), co jest możliwe do sprawdzenia testem dwumianowym, lub t-Studenta w zależności od rozkładu danych otrzymywanych z testu. Jeżeli dana osoba udzielała niestabilnych odpowiedzi, należy jej wyniki wykluczyć z dalszych analiz. Jak już było to wspomniane wcześniej – ten sposób może też posłużyć do sprawdzenia zgodności odpowiedzi ze wzorcem (jeśli jest zgodność – średnia jest równa zeru, potwierdzenie hipotezy zerowej testu t-Studenta).

Trzeci przedstawiony sposób analizy to analiza wielu nagrań za pomocą testu pozwalającego na porównanie wielu zmiennych – testu Kruskala-Wallisa. Test odsłuchowy wzorowany jest na metodologii MUSHRA i polega na ocenianiu próbek o postępującej degradacji jakości (od braku przesterowania po bardzo słyszalne przesterowanie). Osoba biorąca udział w teście ocenia jakość (brak słyszalnego przesterowania) nagrania w skali od 0 do 10, gdzie 0 to nagranie bardzo mocno zdegradowane przez przesterowanie, a 10 to sygnał bez słyszalnych zniekształceń. Przykład tego, jak może wyglądać przykładowy układ jakości (stopnia przesterowania) pokazywanych nagrań i odpowiedzi uzyskanych od osób badanych przedstawiony jest na rys. 6.

(6)

Rysunek 6. Przykładowe odpowiedzi z testu bazującego na teście MUSHRA, gdzie równolegle porównywane są 4 przykładowe utwory. Po lewej znajduje się układ utworów wraz z obiektywnym przypisaniem ich do każdej klasy (stopnia przesterowania), po prawej stronie zamieszczone są przykładowe odpowiedzi osoby biorącej udział w teście.

Ja widać na rys. 6 – spodziewamy się, że przy zadanym pytaniu w brzmieniu „wskaż w skali od 0 do 10, jak bardzo przesterowany jest każdy z 4 pokazanych fragmentów nagrania”, osoba biorąca udział w badaniu będzie przypisywać wyższe wartości utworowi z większym poziomem zniekształceń. Odpowiedzi osób badanych można następnie zwizualizować za pomocą wykresu pudełkowego. Przykład takiego wykresu wraz z opisem, jak należy go interpretować, pokazany jest na rys. 7.

Rysunek 7. Przykładowe odpowiedzi z testu w którym porównywane równolegle są cztery przykłady zdegradowanego sygnału. Wykres pudełkowy pokazuje jak bardzo subiektywna ocena degradacji rośnie, gdy odsłuchiwana jest kategoria zdegradowania o nazwie „duże”. Podobnie można też zauważyć, że osoba badana nie słyszała różnic pomiędzy brakiem i lekkim stopniem zdegradowania.

Wyniki takie jak na rys. 7 można poddać specjalnemu zestawowi testów. Na początek wykonuje się test porównujący na raz wszystkie średnie (mediany) z wykresu pudełkowego. Przykładem takiego testu jest test ANOVA (dla średnich), czy test Kruskala-Wallisa (dla median). Test taki udziela odpowiedzi na pytanie „czy w danych jest przynajmniej jedna para grup obserwacji (reprezentowanych na wykresie pudełkowym przez poszczególne „pudełka”), których średnie

(7)

różnią się między sobą istotnie statystycznie”. Niska p-wartość (tzn. mniejsza niż α) oznacza, że tak. Po takim sprawdzeniu następuje test porównań parami, do którego wykorzystany jest test dla średnich np. test HSD Tukeya, a dla testu Kruskala-Wallisa test Dunn. W trakcie laboratorium będziemy korzystać z testów dla median – Kruskala-Wallisa i Dunn. Efekt takiej pary testów, w przypadku, gdy znaleziono różnice ma postać tabelki i może wyglądać podobnie jak na rys. 8.

Rysunek 8. Przykładowy wynik testu Dunn – tam gdzie wartości są mniejsze niż wybrany poziom α, czyli w praktyce najczęściej 0,05 – tam różnice medianami ocen są statystycznie istotne. Czyli na przykład pomiędzy brakiem i lekkimi zniekształceniami badana osoba nie słyszała różnic (p-wartość to 0,579 – hipoteza zerowa testu), a pomiędzy zniekształceniami średnimi i dużymi – słyszała różnicę (p-wartość jest mniejsza od 0,001 – hipoteza alternatywna testu).

2. ZADANIA

Przygotowanie do pracy

W folderze wskazanym przez prowadzącego wygenerować zestaw plików do przeprowadzenia testu odsłuchowego. Każda osoba posiada swój własny zestaw plików do odsłuchania i arkusze Excela do wypełnienia. Sposób wypełniania różni się pomiędzy poszczególnymi zadaniami. Folder roboczy zawiera cztery foldery:

• answers – folder zawierający arkusze Excela z wyjaśnieniem kolejności próbek, powiązań próbek z plikami źródłowymi i ich stopniem degradacji ,

• exercise_01_audio – folder zawierający pliki źródłowe do przeprowadzenia testu odsłuchowego w zdaniu pierwszym,

• exercise_02_audio – folder zawierający pliki źródłowe do przeprowadzenia testu odsłuchowego w zdaniu drugim,

• exercise_03_audio – folder zawierający pliki źródłowe do przeprowadzenia testu odsłuchowego w zdaniu trzecim.

Dodatkowo dostępne tam są pliki w których możliwe jest udzielenie odpowiedzi w ramach każdego z testów:

• arkusz_odpowiedzi_ex01.xlsx – odpowiedzi dla zadania 1, • arkusz_odpowiedzi_ex02.xlsx– odpowiedzi dla zadania 2, • arkusz_odpowiedzi_ex03.xlsx– odpowiedzi dla zadania 3.

Ostatnią grupą plików, są skrypty analizujące odpowiedzi z podanych w poprzednim punkcie instrukcji. Są to skrypty:

• analyse_ex01.py – analiza wyników zadania 1, • analyse_ex02.py – analiza wyników zadania 2,

(8)

• analyse_ex03.py – analiza wyników zadania 3.

Zadanie 1: test porównań parami w skali dwustopniowej

Test polega na odsłuchaniu par nagrań w których jedna próbka jest poddana zniekształceniu za pomocą przesterowania, a druga jest niezmieniona. W arkuszu należy wskazać próbkę, która wydaje się zniekształcona. Pierwsze 10 próbek to próbki oryginalne, następnie prezentowane są próbki powtórzone. Każda próbka muzyki ma długość 20 sekund oddzielonych 2 sekundami ciszy. Pomiędzy porównywanymi parami jest dodatkowe 5 sekund ciszy. Nie należy powtórnie odsłuchiwać raz zaprezentowanych nagrań.

Po skończeniu testu odsłuchowego należy uruchomić skrypt analizujący wyniki, przeprowadzone zostaną dwa testy statystyczne, pierwszy na sprawdzenie, czy prawdopodobieństwo zaznaczenia próbki jako przesterowanej lub nieprzesterowanej jest równe 0.5, a drugie sprawdzające stabilność odpowiedzi (czy prawdopodobieństwo powtórzenia się odpowiedzi w 1. i 2. serii jest bliskie jedności).

Polecenia do wykonania, których wyniki należy zamieścić w sprawozdaniu:

• Należy zanotować p-wartości dla dwóch testów i zinterpretować ich wyniki.

• O czym świadczy odrzucenie hipotezy zerowej w pierwszym teście dotyczącym

zaznaczenia próbki jako przesterowanej lub nieprzesterowanej?

• Jaki wynik drugiego testu statystycznego świadczy o niestabilności odpowiedzi?

Zadanie 2: test porównań parami w skali siedmiostopniowej (od -3 do 3 z oceną

neutralną - 0)

Test polega na odsłuchaniu par nagrań w których jedna próbka jest poddana zniekształceniu za pomocą przesterowania, a druga jest niezmieniona. W arkuszu należy wskazać stopnień degradacji w skali od -3 (próbka B jest znacząco przesterowana w porównaniu do A) do 3 (próbka A jest znacząco przesterowana w porównaniu do próbki B). Test podobnie jak w przypadku zadania 1. Test składa się z 2 serii podobnie jak test 1. W tym przypadku także nie należy powtórnie odsłuchiwać raz zaprezentowanych nagrań.

Po wpisaniu odpowiedzi do arkusza arkusz_odpowiedzi_ex02.xlsx należy uruchomić skrypt analyse_ex02.py. Przeprowadzi on dwa testy statystyczne t-Studenta. Pierwszy z nich porówna referencyjny stopień degradacji plików audio ze stopniem wskazanym przez osobę udzielająca odpowiedzi. Drugi sprawdza, czy różnica odpowiedzi w serii pierwszej i drugiej jest równa zeru.

Polecenia do wykonania, których wyniki należy zamieścić w sprawozdaniu:

• Należy zanotować p-wartości dla dwóch testów i zinterpretować ich wyniki.

• O czym świadczy odrzucenie hipotezy zerowej w pierwszym teście dotyczącym

zaznaczenia próbki jako przesterowanej lub nieprzesterowanej?

(9)

Zadanie 3: przeprowadzenie i analiza danych z testu odsłuchowego wzorowanego na

standardzie MUSHRA

Test polega na odsłuchaniu czwórek nagrań i ocenieniu stopnia zniekształcenia każdej z próbek w skali od 0 (sygnał silnie zniekształcony) do 10 (sygnał bez zniekształceń). Odpowiedzi należy zanotować w arkuszu arkusz_odpowiedzi_ex03.xlsx. Zaprezentowane zostanie 20 czwórek nagrań, które wchodziły w skład poprzednich testów. Możliwe jest powracanie do już raz wysłuchanych nagrań.

Po zakończeniu testu uruchomić skrypt analyse_ex03.py. Wygeneruje on wykres pudełkowy obrazujący rozkłady ocen dla poszczególnych klas nagrań (o stopniu zniekształcenia od jego braku po silne przesterowanie).

Polecenia do wykonania, których wyniki należy zamieścić w sprawozdaniu:

• Należy zanotować p-wartość testu Kruskala-Wallisa i tablicę p-wartości zwróconą

przez test Dunn. Należy zinterpretować te wyniki. Jakie istotne statystycznie różnice udało się wykryć?

• Jakie tendencje widoczne są na wykresie pudełkowym i jakie cechy statystyczne

zebranego zbioru odpowiedzi uwidaczniają się w postaci cech charakterystycznych tego wykresu?

• Test nie zawiera powtórzonej prezentacji próbek, natomiast zawiera próbki które

albo nie były poddane przesterowaniu, albo były przesterowane w bardzo oczywisty sposób. Czy fakt ten jest widoczny na wykresie pudełkowym? Czy można ten fakt wykorzystać do kontroli wiarygodności odpowiedzi podawanych przez osobę biorącą udział w teście?

• Czy na podstawie wykresu pudełkowego możliwe jest przewidywanie istotności

statystycznej różnic wykazanych przez testy statystyczne? Odpowiedź uzasadnij. PYTANIA OGÓLNE

• Który z trzech zaprezentowanych w ćwiczeniu testów jest najbardziej dokładny? • Które z zaproponowanych metod prowadzenia testów odsłuchowych bardziej

nadają się do badania wyrazistych różnic pomiędzy nagraniami, a które do badania różnic, które mają bardziej subtelny charakter?

3. OPRACOWANIE

W sprawozdaniu należy zamieścić uzyskane wyniki dla każdego z testów. Do każdego z podpunktów zadania odpowiedzieć na zadane w nich pytania, dopisać komentarze i wnioski. Należy zamieścić także rysunki zawierające wykorzystywane wizualizacje (np. wykresy pudełkowy).

4. LITERATURA

[1] Rekomendacja ITU-T P.800, materiał dostępny w sieci Internet pod adresem

https://www.itu.int/rec/dologin_pub.asp?lang=e&id=T-REC-P.800-199608-I!!PDF-E&type=items

[2] Rekomendacja ITU-T BS.1116-3, materiał dostępny pod adresem https://www.itu.int/dms_pubrec/itu-r/rec/bs/R-REC-BS.1116-3-201502-I!!PDF-E.pdf

Cytaty

Powiązane dokumenty

Na podstawie tych danych, na poziomie istotno±ci 0, 01, przetestuj hipotez¦, »e odsetek dorosªych Polaków, którzy nie przeczytali w ubie- gªym miesi¡cu »adnej ksi¡»ki wynosi

Testuje się program w wybranych podzakresach danych, traktując je jako klasy danych wejściowych – testy dla każdej klasy przeprowadza się jedynie dla pewnych wybranych danych w

inter.) test

skala interwałowa skala porządkowa skala nominalna. Czy dane mają

Stosu- jemy test F, test Browna-Forsytha, test Welcha, poprawiony test Welcha, test Cochrana, test Kruskala-Wallisa oraz procedury porównań wielokrotnych. Na podstawie różnych

W związku z tym hipotezę zerową odrzucamy, gdy istotność podawana przez pro- gram jest mniejsza niż deklarowany przez nas poziom istotności, a nie mamy podstaw do odrzucenia, gdy

Na podstawie tych danych, na poziomie istotności 0, 01, prze- testować hipotezę, ze odsetek dorosłych Polaków, którzy nie przeczytali w ubiegłym miesiącu żadnej książki wynosi

Na poziomie istotności 0,05 zweryfikować hipotezę, że frakcja jajek złej jakości jest równa zakładanej, przeciw hipotezie, że frakcja ta jest inna, używając najpierw testu t