• Nie Znaleziono Wyników

Recenzja rozprawy doktorskiej mgra Ireneusza Codello pt. Komputerowe rozpoznawanie niepłynności mowy z zastosowaniem transformaty falkowej i sztucznych sieci neuronowych

N/A
N/A
Protected

Academic year: 2021

Share "Recenzja rozprawy doktorskiej mgra Ireneusza Codello pt. Komputerowe rozpoznawanie niepłynności mowy z zastosowaniem transformaty falkowej i sztucznych sieci neuronowych"

Copied!
7
0
0

Pełen tekst

(1)

Prof. zw. dr hab. inż. Ryszard Tadeusiew icz Kierownik K atedry A utom atyki i Inżynierii Biom edycznej AGH Doktor Honoris Causa Politechniki Śląskiej w Gliwicach

W

Kraków, 2 m aja 2014

Recenzja

Przedm iotem recenzji je st rozpraw a doktorska m gr Ireneusza C odello zatytułow ana "Komputerowe rozpoznawanie niepłynności mowy z zastosowaniem transformaty folkow ej i sztucznych sieci neuronowych". Rozpraw a przygotow ana została na w Zakładzie B iocybernetyki Instytutu Inform atyki U niw ersytetu M arii C urie-Skłodow skiej, pod m erytorycznym nadzorem Profesor dr hab. W iesław y K uniszyk-Jóźkow iak, której Rada W ydziału A utom atyki, Elektroniki i Inform atyki Politechniki Śląskiej pow ierzyła funkcję prom otora w ram ach studiów doktoranckich na kierunku Informatyka. Recenzję przygotow ano na zlecenie D ziekana W ydziału A utom atyki, Elektroniki i Informatyki Politechniki Śląskiej, profesora A dam a C zom ika (pism o nr R A u/527/2013/2014 z dnia 10.04.2014), działającego na podstaw ie stosownej uchw ały Rady W ydziału z dnia 01.04.2014.

Problem autom atycznego rozpoznaw ania m ow y je st obecnie intensyw nie rozw ijany naukowo, poniew aż ze w szystkich prognoz w ynika, że rozwój naturalnej (w tym zw łaszcza głosowej!) komunikacji pom iędzy człow iekiem a systemami technicznym i będzie jednym z głównych w yróżników techniki początku X XI wieku. W iększość prac, które w tym zakresie powstają, je st jednak odległa od tego, co zawarł w swojej dysertacji m gr Codello, ponieważ badacze zajm ujący się tak zw aną technologią m ow y (ang. Speech Technology albo Yoice Technology) typowo skupiają się na jednym z dw óch aspektów: rozpoznaw aniu treści w ypowiadanych słów (m. in. dla głosow ego sterow ania m aszyn i urządzeń w zględnie dla automatycznej konwersji tekstu m ów ionego na zapis alfanum eryczny (ang. Speech-to-Text Technology) albo na rozpoznaw aniu m ów cy (tu zw ykle rozw ażana je st identyfikacja nieznanej osoby lub w eryfikacja, czy osoba m ów iąca je st rzeczyw iście tą, za którą się podaje). O piniow ana praca w chodzi natom iast w inny obszar rozpoznaw ania mowy, dotykając - zgodnie z tytułem - zagadnienia jej niepłynności.

Recenzja rozprawy doktorskiej mgr Ireneusza Codello

B i u ro

D zi e k a n a

ZD

<

W płynęło dnia

JH

a:

(2)

Z badaniam i tej problem atyki, jak ie od lat prow adzi grupa naukow a Prom otora rozprawy, pani profesor dr hab. W iesław y K uniszyk-Jóźkow iak, m iałem okazję zetknąć się ju ż w cześniej, poniew aż w 1996 roku na zlecenie R ady N aukowej Instytutu Biocybernetyki i Inżynierii Biom edycznej PAN recenzow ałem habilitację Pani Profesor, a potem , w 2005 roku, recenzow ałem rozpraw ę doktorską Jej podopiecznego, dr W aldem ara Suszyńskiego. Przekonałem się w ięc ju ż w cześniej, że problem jest ciekawy, ale i trudny zarazem, zaś badania w tym zakresie są niew ątpliw ie w ażne i potrzebne, poniew aż efekt niepłynności m ow y je st pow ażnym problem em m edycznym , ale także społecznym ze w zględu na daleko idące skutki społeczne i psychologiczne tej patologii. D latego w ybór w skazanego celu

opiniowanej rozpraw y należy oceniać zdecydow anie pozytyw nie. D odam, że osobiście

cieszę się, że zespół badaw czy pani profesor dr hab. W iesław y K uniszyk-Jóźkow iak drąży ten problem niestrudzenie od wielu lat, uzyskując coraz lepsze w yniki. Podjęty temat zdecydow anie w art w ysiłku w kładanego w jeg o naukow e opracow anie, a osiągnięte przez m agistra Codello w yniki m ożna uznać za znaczące i potrzebne z punktu w idzenia potrzeb praktyki.

Bardzo pozytyw nie oceniam także zaw arty w opiniowanej pracy pomysł, aby do rozpoznawania elem entów m ow y polskiej użyć sieci neuronow ych. Taki w ybór jest logiczny i naukowo rozw ijający. Z jednej strony bow iem wiadom o, że sieci neuronow e - zw łaszcza sieci K ohonena - są doskonałym i narzędziam i do realizacji rozm aitych zadań klasyfikacji i rozpoznawania. W opiniowanej pracy to się potw ierdziło, stw ierdzono bow iem , że sieci te dostarczały bardzo dobre (tj. łatw e do sklasyfikow ania) odw zorow ania przedłużeń i pow tórzeń głosek. Z drugiej jednak strony nikt (na ile mi w iadom o) nie usiłow ał jeszcze stosować tych sieci do rozpoznaw ania niepłynności artykulacji elem entów m ow y polskiej, więc uzyskane w pracy w yniki uznać m ożna za istotny wkład D oktoranta do rozw oju wiedzy o sieciach neuronow ych (w kontekście ich m ożliw ych zastosow ań). D odatkow ym elementem, którego sform ułow anie (jako zadania naukow ego) i którego przebadanie stanowi bardzo istotny czynnik zw iększający wartość opiniowanej pracy, jest przebadanie skutków param etryzow ania sygnału m ow y algorytm em ciągłej transform aty falkowej. Znow u m am y tu do czynienia z sytuacją, że zagadnienie to w różnych innych kontekstach byw ało ju ż badane, natom iast z mojej orientacji w problem atyce wynika, że praca mgra Codello je st pionierska w zakresie zastosow ania ciągłej transform aty falkowej w autom atycznym rozpoznawaniu niepłynności m ow y polskiej.

(3)

Przechodzę teraz do szczegółow szej analizy zaw artości pracy.

Rozdział 1 - W stęp - poza krótką dyskusją literaturow ą zaw iera uzasadnienie potrzeby stw orzenia system u do autom atycznej analizy niepłynności m ow y. Z uzasadnienia tego w ynikają bezpośrednio cel i tezy pracy, przedstaw ione w rozdziale 2. C el jest dość oczyw isty („opracowanie systemu do automatycznego rozpoznawania niepłynności w mowie ciągłej z precyzyjną lokalizacją ich w czasie"), natom iast tez je st aż 5 i chyba są one trochę nadm iernie rozdrobnione. Jednak dzięki tem u zakres problem ow y pracy, jaki z tej kolekcji tez wynika, jest dość precyzyjnie w yznaczony, co znacząco ułatw ia potem śledzenie zaw artości rozprawy. Oba w ym ienione rozdziały są bardzo krótkie. O koliczność tę uw ażam jednak za zaletę ocenianej pracy - badane problem y i form ułow ane tezy zostały bowiem przedstaw ione w nich w sposób zw arty i bardzo konkretny, a to w pracy naukowej je st cenne i niestety rzadkie - napotykam bow iem liczne prace m ocno ,.przegadane", gdzie w całych kaskadach słów i zdań trudno w yśledzić jak ieś oryginalne myśli. W ocenianej pracy m gra Codello ten problem nie występuje, gdyż lakoniczna form a niesie w artościow ą treść - i fakt ten w ysoko cenię.

Przechodząc do oceny dalszych fragm entów rozpraw y stw ierdzam , że rozdział 3. („Zagadnienia niepłynności mowy") stanow i w opiniowanej pracy głów nie dyskusję literaturową. W ykazuje on dobrą znajom ość przez D oktoranta problem atyki związanej z przedm iotem upraw ianej dyscypliny naukowej, a także dobrze św iadczy o Jego oczytaniu i erudycji. Są to w ym ogi, ja k ie staw ia się ustawowo i zw yczajow o kandydatom do stopnia naukow ego doktora, dobrze w ięc, że pisząc ten rozdział m gr Codello takimi w łaśnie walorami się wykazał. Przy okazji czytelnik słabo znający tę specjalistyczną problem atykę, jak ą jest zagadnienie niepłynności m owy, grom adzi w iedzę potrzebną do tego, żeby prawidłowo doceniać i oceniać dalsze części rozprawy.

Literaturow y charakter m a także rozdział 4. param etryzacja sygnału mowy"), który oceniam pozytyw nie - podobnie ja k ten poprzedni - chociaż w sensie w łasnego w kładu naukowego D oktoranta rozdział ten nie wnosi on niczego nowego.

Podobne uwagi nie odnoszą się jednak ju ż do kolejnego (piątego) rozdziału pracy („Grupowanie i klasyfikacja danych z zastosowaniem sztucznych sieci neuronowych”). W rozdziale tym om ów ione są sieci K ohonena stosow ane przez Autora w Jego badaniach oraz uzyskiw ane z ich pom ocą w yniki. M gr Codello bardzo biegle stosuje to specyficzne narzędzie

(4)

inform atyczne, jak im są sieci neuronow e, a także w nosi swój w łasny oryginalny w kład do w iedzy na tem at tego narzędzia. W tym ostatnim zakresie (w łasnego oryginalnego w kładu Doktoranta) bardzo spodobał mi się w ym yślony przez N iego prosty, ale skuteczny sposób porządkow ania w yników prezentow anych w w arstw ie topologicznej sieci Kohonena, nazw any przez A utora ‘zerowanie pierwszego neuronu’ (str. 41). Jest to rozw iązanie oryginalne, proste, pom ysłow e i skuteczne!

G eneralnie jako praktyk o dużym dośw iadczeniu w zakresie tw orzenia i trenow ania sieci neuronow ych z dużym uznaniem odnotow uję w pełni popraw ne i znam ionujące duży talent prow adzenie badań tych sieci i ich zastosow ań, zaprezentow ane przez A utora opiniowanej pracy.

O m ów ione w e w cześniejszych etapach czynności składowe: param etryzacja plików dźw iękow ych algorytm em C W T oraz uzyskanie sekwencji indeksów w ygrywających neuronów K ohonena stanow ią podstaw ę do budow y (w rozdziale 6) autorskiego algorytmu do autom atycznego rozpoznaw ania niepłynności w m ow ie ciągłej. G łów nym elem entem tego algorytm u są zaproponow ane i przebadane przez m gra Codello m etody identyfikacji sekwencji dobrane do rozpoznaw ania każdej grupy niepłynności. O czyw iście przy okazji zachodziła potrzeba rozw iązania całego szeregu zagadnień szczegółow ych, takich jak detekcja początku i końca fonacji (problem ‘odcięcia szumów'), metody detekcji przedłużeń oraz powtórzeń głosek. To ostatnie zadanie realizowano poprzez dodatkowe zaangażowanie jeszcze jednej sieci neuronowej, mianowicie klasycznego perceptronu trój warstwowego uczonego metodą wstecznej propagacji błędów oraz metodą gradientów sprzężonych. Wyniki badań tych algorytmów, relacjonowane w rozdziale 6 opiniowanej pracy, okazały się bardzo dobre.

Niestety nie udało się tych dobrych wyników powtórzyć w odniesieniu do trudniejszego problemu detekcji powtórzeń sylab. Doceniam jednak wysiłki Doktoranta, który bardzo pomysłowo usiłował swoje metody dostosować także i do tego tmdnego zadania. To, że nie uzyskał wyników, które można by było uznać za sukces porównywalny z tym, jaki został osiągnięty dla detekcji przedłużeń oraz powtórzeń głosek, wynika z trudności podjętego zadania. Według mojej oceny fakt ten nie przeszkadza w uznaniu, że praca doktorska jako całość zakończyła się sukcesem i Doktorant osiągnął wszystko, co przy wykorzystaniu wybranych przez Niego metod osiągnięte być mogło - a jednocześnie empirycznie zbadał granice stosowalności rozważanej metodyki. To wprawdzie nie całkiem pozytywny, ale bez wątpienia także wartościowy wynik naukowy.

(5)

Do kom pletu oceny rozpraw y doktorskiej m gra Codello potrzebny je st jeszcze komentarz dotyczący zaw artości rozdziału 7, w którym um ieszczono om ów ienie (bardzo krótkie, ale pow iązane z obszernym i szczegółow ym D odatkiem A rozpraw y) stw orzonego przez D oktoranta program u „W aveB laster” , przeznaczonego do praktycznej analizy i rozpoznaw ania niepłynności m ow y m etodam i om awianym i w części teoretycznej recenzowanej pracy. W praw dzie w środow isku inform atyków panuje przekonanie (w dużej m ierze słuszne...), że sam o tw orzenie oprogram ow ania je st „nie dysertabilne”, jednak dla kom pletu opinii zaw artych w tej recenzji pragnę z naciskiem podkreślić, że stw orzenie przez Doktoranta bogatego w m ożliw ości narzędzia inform atycznego (program u W aveBlaster) w ystaw ia M u najlepsze św iadectw o jak o praktykow i i praw dziw em u profesjonaliście

inform atyki stosow anej. M oże nie pow inienem tego pisać w tej recenzji, ale ilekroć

przypada mi rola opiniodaw cy w przew odzie prow adzącym do uzyskania stopnia naukowego w dziedzinie nauk technicznych dla Osoby, która ukończyła studia nie-techniczne i pracuje w instytucji nie zw iązanej z techniką (na przykład na U niw ersytecie) - zastanaw iam się, czy jest to w łaściw y rodzaj stopnia naukow ego, jaki m a być tej O sobie nadany? Podobne rozterki m iew ają lekarze, gdy ktoś bez studiów m edycznych ubiega się o stopień naukow y zw iązany z m edycyną. C zy m ożna nadać stopień doktora m edycyny (im plicite zakładający, że posiadacz takiego stopnia m oże leczyć) kom uś, kto w praw dzie w niósł istotny w kład naukow y do medycyny, ale dysponuje podstaw ow ą w iedzą medyczną, zdobyw aną przez lekarzy na studiach i w trakcie praktyki zaw odow ej?

Lekarze rozw iązali ten problem poprze pow szechną praktykę nadaw ania w takich przypadkach stopnia doktora nauk przyrodniczych, a nic doktora medycyny. Taki sobie pożyteczny eufem izm - i problem je st rozwiązany. M y w naukach technicznych nie m am y czegoś podobnego, w ięc dyplom doktora nauk technicznych m oże oznaczać różne rzeczy.

Przytoczyłem tu te ogólne rozw ażania żeby przejść do następującej konkluzji: Otóż rozdział siódm y opiniow anej rozpraw y m gra Codello przekonuje m nie w 100%, że TEMU Doktorantowi stopień naukow y w dyscyplinie inform atyki TECH N ICZN EJ zdecydowanie m oże być nadany!

Do opiniowanej pracy m gra Ireneusza Codello, którą - jak w ynika z podanych wyżej stw ierdzeń - oceniam bardzo w ysoko i zdecydow anie pozytyw nie doceniam , chciałbym

(6)

jednak zgłosić (dla kom pletności i bezstronności recenzji) także pew ną liczbę uwag krytycznych.

K rytycznych uw ag m erytorycznych nie mam, ale w sferze edytorskiej m uszę wskazać, że chociaż praca je st na ogół dość starannie zredagowana, to jednak zdarzają się w niej drobne "wpadki". Przykładow o taką w padką redakcyjną je st przytaczanie w ykresów, na osiach których są podaw ane w artości liczbow e, bez podania opisu tych osi (jaki wartości są na nich odkładane?) i bez określenia jednostek użytych do w yznaczenia drukow anych wartości liczbowych - lub z jednostkam i dopisyw anym i do każdej oznaczającej punkt na osi wartości liczbow ej, ci nie je st pow szechnie stosow aną praktyką. Takich w adliw ych rysunków je st w pracy sporo. Ponadto m nóstw o rysunków zaw iera nietypow y opis osi (w lewym dolnym rogu w ykresu - u początku stosow anego układu w spółrzędnych - podane są w yłącznie jednostki, nie m a natom iast nazw w artości odkładanych na osiach). M oim zdaniem należało odpow iednie w ykresy opracow ać graficznie za pom ocą jednego z edytorów graficznych, żeby odpow iadały stosow nym w ym aganiom (ogólnie przyjętym w artykułach czy w książkach) a nie przytaczać „na żyw ca” w takiej postaci, w jakiej w ychodzą one z takich czy innych program ów obliczeniow ych.

Błędem je st (moim zdaniem ) pisanie z małej litery skrótu „rys.” (lub „tab.”) na początku podpisu każdego rysunku lub tabeli. Skrót ten w ystępuje przecież na początku w iersza następującego po poprzedzającym rysunek czy tabelę akapicie tekstu pracy. A kapicie zakończonym kropką! Reguły ortografii nie pozostaw iają żadnych w ątpliw ości, że w tym przypadku pow inno się stosować dużą literę, więc sposób opisu stosow any przez mgra Codello uznać trzeba za błędny.

Num eracja rysunków i tabel zastosow ana w pracy je st też dziw aczna i mało czytelna. Moim zdaniem lepsza byłaby typow o stosow ana w pracach doktorskich jed nolita num eracja ciągła.

Pozostając przy podobnej tem atyce pozw alam sobie także stwierdzić, że zdecydow anie nie sądzę, żeby dobrym pom ysłem było zastosow anie przez D oktoranta dziwacznej m etody num erowania pozycji literatury, zupełnie odm iennej od tych w szystkich, które są pow szechnie stosowane. M etodzie tej trudno odmówić oryginalności, ale nie powiem , żeby tak num erow ana literatura była szczególnie dobrze czytelna!

(7)

Podsum owując moją recenzję stw ierdzam , że przytoczone wyżej uwagi polem iczne dotyczą w yłącznie sfery redakcyjnej rozpraw y i w najm niejszym stopniu nie um niejszają om ów ionych wyżej znaczących osiągnięć ani istotnych dokonań naukow ych Doktoranta. Dlatego w ostatecznym podsum ow aniu stwierdzam, że opiniow ana praca spełnia warunki stawiane rozpraw om doktorskim przez odnośną Ustawę. Stw ierdzam dodatkow o, że doktorant zgrom adził unikatow ą w iedzę na tem at procesów i m etod analizy niepłynności m ow y polskiej, a także w niósł dużą liczbę własnych, oryginalnych pom ysłów w obszarze dotyczącym nauki na tem at sieci neuronowych Kohonena i ich zastosow ań, istotnie w zbogacających tę naukow ą w iedzę. Tw orząc algorytm y param etryzacji sygnału mowy, a potem uczenia rozpoznaw ania cech niepłynności przy pom ocy sieci neuronow ych wykazał D oktorant dużą biegłość (by nie pow iedzieć perfekcję) w operow aniu zarów no sygnałem akustycznym (jako obiektem ), ja k i siecią neuronow ą (jako narzędziem ). D latego w noszę o

przyjęcie opiniow anej pracy jak o rozpraw y doktorskiej i postuluję dopuszczenie jej Autora, m gr inż. Ireneusza C odello do jej publicznej obrony, a po pom yślnym (w co

wierzę) zakończeniu tej obrony - w noszę o nadanie Mu stopnia naukow ego doktora nauk

technicznych. U w ażam dodatkow o, że stopień oryginalności i liczba w artościow ych

naukow ych w yników zgrom adzonych w opiniowanej pracy w pełni uzasadniają wniosek o w yróżnienie tej rozprawy.

Cytaty

Powiązane dokumenty

Poza możliwością elektronicznego złożenia petycji i podpisa- nia się pod już złożonymi wnioskami, na portalu petycji można przejrzeć aktualny re- jestr petycji, zapisać się

As the result, we may conclude that also in the context of the CEE States the institutionalised judicial dialogue, organ- ised with a use of the preliminary reference, constitutes

In the middle there are the corresponding monocular point spread functions, i.e., the images obtained with the left eye and the right eye closed, respectively, and

Zadaniem niniejszego artykułu jest ukazanie, czym jest ramówka telewizyjna oraz jak się zmienia pod wpły- wem nowych technologii i sposobów oglądania treści wideo. Słowa kluczowe:

(14) stwierdzono wzrost absorpcji wapnia o 8% u szczurów karmionych dietą z 15% dodatkiem skrobi opornej RS1 (surowej skrobi ziemniaczanej) w porównaniu do grupy kontrolnej..

Zmiany w skali udziału inter- nautów w tych badaniach oraz w strukturze badanej populacji w poszczególnych ich etapach stały się podstawą do zadania pytania: Jak przybliżanie się

Zaprezentowano wyniki uczenia sztucznej sieci neuronowej w oparciu o momentowy algorytm wstecznej propagacji błędu oraz zestawiono czasy obliczeń dla algorytmu

It should be noted that the coefficients or the NMI cruising speed equations are obtained at model- rather than ship self-propulsion point Both constrained and free running