• Nie Znaleziono Wyników

Klasyfikacja segmentów sygnału mowy o różnej rozciągłości

Analiza mowy wymaga, by w sygnale będącym ciągłą sekwencją dźwięków, wyodrębnić charakterystyczne, segmenty o stosunkowo niewielkiej rozciągłości, o zróżnicowanej strukturze akustycznej. Wyróżnia się kilka takich klas jednostek wykorzystywanych najczęściej w analizie mowy na potrzeby segmentacji, syntezy i jej rozpoznawania:

Sygnał mowy i jego opis fonetyczny • alofony • difony • trifony • półsylaby • sylaby

(Wierzchowska1980) pisze: „W strukturze postaci dźwiękowej języka polskiego

szczególna rola przypada głoskom, które są najkrótszymi elementami dźwiękowymi pełniącymi funkcję dystynktywną.” Zatem głoski są najprostszymi elementami dźwiękowymi mowy rozróżnianymi słuchowo przez użytkowników danego języka i odróżniającymi od siebie formy językowe mające różne wartości semantyczne. Inwentarz głosek, zarówno jak i każdej innej jednostki akustycznej zależny jest od języka. W pracy przyjęto, iż w języku polskim występuje 37 fonemów (alfabet fonetyczny SAMPA), co odpowiada liczbie rozróżnianych głosek, a każdy z 37 fonemów jest zbiorem cech dystynktywnych odpowiadającej mu głoski. Dlatego w innych opracowaniach liczba te może się różnić. Cytując (Wierzchowska1980): „Stosując kazańsko-praską procedurę wyróżniania fonemów, dla języka polskiego ustala się inwentarz fonemów obejmujący 41 pozycji.” Przytoczona odmienna liczba fonemów wynika z faktu, iż kazańsko-praska procedura nie wyróżnia fonemu /i/ jako osobnego fonemu w przypadku jego występowania po spółgłosce, wyróżnia natomiast jako osobne fonemy te, które są zmiękczone przez następujący po nich fonem /i/ (np. zbitka fonemów /pi/ uznawana jest za osobny alofon - /p’/).

Zgodnie ze stanowiskiem (Wierzchowska 1980) należy zauważyć, iż:

„Poszczególne realizacje tych samych głosek, nawet wymawianych w takim samym kontekście fonetycznym, w tych samych formach wyrazowych, nie są nigdy zupełnie takie same; w różnych wykonaniach tych samych ruchów artykulacyjnych obserwuje się zawsze pewien naturalny rozrzut charakteryzujący wszelkie, najbardziej nawet zautomatyzowane czynności człowieka.” Oznacza to, iż głoska stanowi pewne uogólnienie dostatecznie podobnych dźwięków, będących jego realizacjami. Konkretne realizacje fonemów także mogą być rozróżniane i nazywa się je alofonami.

Sygnał mowy i jego opis fonetyczny

Difon jest jednostką akustyczną, która zawiera przejście (tranzjent) pomiędzy dwoma kolejnymi głoskami. Rozpoczyna się w połowie jednego głoski (tzw. części stacjonarnej), a kończy w połowie następnego (także w części stacjonarnej). Difon jest często stosowaną jednostką w systemach syntezy mowy. Jego zastosowanie umożliwia uzyskanie większej naturalności brzmienia mowy, niż w przypadku systemów opartych na konkatenacji głosek, ponieważ w przypadku konkatenacji difonów połączenie fragmentów mowy ma miejsce w części stacjonarnej głosek, która nie ulega „zniekształceniom” związanym z płynnymi ruchami narządów artykulacyjnych (koartykulacją). Dlatego głoski wycięte z nagrań i umieszczone w innym kontekście, często wnoszą zniekształcenia podyktowane upodobnieniami na ich krańcach, wynikającymi z ich oryginalnego otoczenia. Łączenie difonów w słowa następuje na stosunkowo stabilnych częściach segmentu, co wpływa na korzystne brzmienie. Dużą zaletą konkatenacyjnej syntezy mowy z

zastosowaniem difonów jest mały nakład pamięci potrzebny do

przeprowadzenia odpowiednich obliczeń. Ponadto, rozmiar bazy danych jest stosunkowo niewielki (1444 difony dla języka polskiego przy wyróżnieniu 37 fonemów oraz dodatkowego znacznika ciszy). Granice difonów są łatwiejsze do wyznaczenia, niż granice głosek, gdyż wspomniane części stacjonarne głosek, ulegają w znacznie mniejszym stopniu koartykulacji i są najbardziej charakterystycznymi elementami głosek. Dodatkowo granice difonów mogą być dość arbitralnie wyznaczane, w stosunkowo szerokim przedziale czasowym, np. 20% czasu trwania części stacjonarnej. Dlatego segmentacja nagrań z wykorzystaniem difonów jest łatwiejsza niż w przypadku głosek, dla których niejednokrotnie trudno, czy wręcz niemożliwe jest dokładnie określić początek i koniec danej głoski (np. dla spółgłosek płynnych, takich jak /j/).

Kolejną klasą segmentów akustycznych są trifony. Są to jednostki z określonym kontekstem lewo i prawostronnym. Oznacza to, iż trifony dzielą fonemy na grupy alofonów ze względu na ich lewe i prawe sąsiedztwo, modelując w ten sposób zależność głosek od ich kontekstu (koartykulację). Dlatego trifony dobrze nadają się do syntezy mowy i pozwalają uzyskać dość naturalne brzmienie. Warto zauważyć, że choć trifony stanowią dobrą alternatywę dla difonów, wymagają oczywiście znacznie większej bazy

Sygnał mowy i jego opis fonetyczny

akustycznej. W praktyce używa się najczęściej około 4000 występujących trifonów w danym języku. Należy dodać, że proces segmentacji trifonów dostarcza wielu problemów. (Bozkurt i wsp. 2003).

Definicja sylaby jest w fonetyce zagadnieniem spornym. Jak pisze

(Wierzchowska1980) „Problem sylaby rozpatrywany bywa bądź ze stanowiska

artykulacyjnego, bądź ze stanowiska audytywnego, bądź w obu tych aspektach jednocześnie.” Poniżej przedstawiono cytat tej samej pozycji definiujący sylabę z artykulacyjnego punktu widzenia i percepcyjnego (akustycznego) jednocześnie, gdyż ta właśnie definicja wydaje się najpełniejsza. Jest to definicja tzw. sylaby fonetycznej.

„Fonetycy, którzy opisują sylabę w obu aspektach, tj. i w aspekcie artykulacyjnym, i w aspekcie akustycznym, kładą nacisk na jednoczesność zmian w układzie narządów mowy, ciśnieniu powietrza w tchawicy oraz donośności dźwięków (postrzegalności słuchowej). Ośrodkami sylab są te odcinki ciągu mownego, na które przypada maksymalne rozwarcie kanału głosowego i maksymalna donośność; na pograniczach i na krańcach sylab donośność dźwięków mowy jest najniższa, stopień zaś zbliżenia narządów mowy - największy.”(Wierzchowska1980)

Podobnie kwestię sylaby fonetycznej ujmuje także (Roudet 1947). Sekwencje fonemów są dowolnymi jednak dopuszczalnymi w obrębie danego języka. Podstawową sekwencją fonemów jest sylaba.

Sylaba jest fonetyczno-fonologiczną jednostką słowa jak i jednym z bardziej spornych zagadnień w fonetyce. Definicję sylaby podano w 1.3.6. Należy dodać, iż segmentacja sylab jest względnie łatwa.

Przytoczone jednostki akustyczne są fundamentalne dla opisanych w kolejnych rozdziałach pracy zagadnień: segmentacji nagranych wypowiedzi, rozpoznawania mowy oraz jej konkatenacyjnej syntezy, w tym w najefektywniejszej jej wersji, to jest metody korpusowej.

Sygnał mowy i jego opis fonetyczny

ELEMENT LICZBA OPIS TRANZJENT JAKOŚĆ SYNTEZY

MOWY

Głoska 40-60 Jednostka mowy Nie Słaba

Sekwencja głosek

Około 450 Ciąg spółgłosek lub samogłosek Częściowy Słaba

Difon 1500-3000 Fragment z przejściem tranzjentowym od połowy jednego

fonemu do połowy drugiego

Tak Dobra

Sylaba Około 150000

Fonetyczno-fonologiczna jednostka mowy

Tak Bardzo dobra

Tabela 1.6 Porównanie akustycznych jednostek mowy i jakości syntezy mowy przez nie generowanych

1.6.1 Podsumowanie

W rozdziale przedstawione zostały ogólne zagadnienia związane z fonetyką akustyczną obrazującą sposób opisu dźwięków człowieka mowy w płaszczyźnie artykulacyjnej. Przedstawiono budowę narządu człowieka oraz klasyfikację dźwięków przez niego artykułowanych. W dalszej części opisane zostały zagadnienia dotyczące organizacji wypowiedzi oraz transkrypcji fonetycznej. Opisano zostały podstawowe akustyczne jednostki segmentalne w języku polskim oraz przedstawiono wpływ ich doboru na jakość syntezy mowy. W końcowej części tego rozdziału opisano podstawowe modele opisu prozodii.

Metody syntezy mowy i ich realizacje dla różnych języków

2 Metody syntezy mowy i ich realizacje