STATYSTYCZNE METODY ANALIZY SUPRASEGMENTALIÓW

PODSTAWY MATEMATYCZNEGO OPISU SUPRASEGMENTALIÓW

11.3. STATYSTYCZNE METODY ANALIZY SUPRASEGMENTALIÓW

11.3.1. OGÓLNA CHARAKTERYSTYKA METOD KLASYFIKACJI Wykorzystanie wiedzy doświadczalnej przy przejściu od jakościowego opisu zja

wiska (w przypadku suprasegmentaliów mogą to być obserwacje dotyczące zmien

ności np. częstotliwości podstawowej) do badań ilościowych wymaga dokładnej oce

ny wyników pomiarów. Należy stwierdzić, czy są one w zgodzie z przewidywaniami teoretycznymi oraz czy umożliwiają przyjęcie bądź odrzucenie założonej hipotezy.

Wyniki pomiarów nie zawsze są jednoznacznie określone poprzez procedurę do

świadczalną i podlegają fluktuacjom. Częściowo losowy charakter danych opisują

cych suprasegmentalia zawarty jest w naturze eksperymentów (badaniom podlegają różni parlatorzy oraz słuchacze) oraz w niedokładnościach ekstrakcji parametru F0, iloczasu czy energii sygnału. W praktyce wyznacza się kształt rozkładu badając próbę — zbiór złożony ze skończonej liczby pomiarów. Oszacowanie statystycz

nych parametrów rozkładu wymaga obszernego materiału doświadczalnego.

W przypadku suprasegmentaliów najczęściej wykorzystywane są metody mate

matyczne (w tym statystyczne). Metody matematyczne można podzielić na deter

ministyczne, które przyjmują pewien aparat matematyczny, ale nie wymagają żad

nych założeń co do statystycznych własności klas, jak to ma miejsce w przypadku uczących iteracyjnych algorytmów. Klasycznym przykładem jest metoda percep- tronowa (reward-punishment algorithm) opracowana przez Rosenblatta w r. 1957 (za Tadeusiewiczem 1993). Metoda została przetestowana praktycznie na sieci neu- ropodobnej Perceptron, stanowiącej pierwszą realnie funkcjonującą imitację sieci neuronowej (por. np. Tadeusiewicz 1993).

W podejściu statystycznym do analizy lub klasyfikacji danych wykorzystuje się statystyczne własności rozkładów cech opisujących badaną populację. Najbar

dziej podstawowymi narzędziami są najczęściej: analiza wariancji, analiza dyskry

minacyjna oraz metoda K-L (Karhunen-Loeve). Szczegółowe opisy większości tych metod podano np. w pracach Sobczak i Malina (1985), Lachenbruch (1975), Morrison (1990), Brandt (1998).

Popularną, statystyczną techniką stosowaną w analizie/klasyfikacji/rozpozna

waniu, szczególnie przydatną w przypadku zmian czasowych (np. w mowie), są modele Markowa (HMMs — Hidden Markov Models). Modele wykorzystują łań

cuchy Markowa o ograniczonej liczbie słów i ograniczonych zbiorach rozkładów prawdopodobieństw wyjściowych. W adą tej metody są duże obciążenia oblicze

niowe oraz konieczność wyznaczania statystycznych parametrów rozkładów.

138

W praktycznych zastosowaniach często spotyka się również inne grupy metod klasyfikacji/rozpoznawania, np. heurystyczne i syntaktyczne. Heurystyczne podej

ście oparte jest na doświadczeniu i wiedzy eksperymentatora. Klasyfikacja składa się ze sformułowanych ad hoc procedur przeznaczonych do określonego zadania.

Metody te często występują łącznie np. z metodami matematycznymi.

Metody lingwistyczne (syntaktyczne) stosowane są w odniesieniu do sygnału mowy i równie często w projektach klasyfikacji/rozpoznawania obrazów. Klasa może być opisana przez hierarchiczną strukturę podklas (analogicznie jak w ję zyku). Szczególnie ważne jest sformułowanie gramatyki pozwalającej na sterowa

nie regułami w analizie syntaktycznej.

D la zbiorów danych, opisanych nie tylko ilościowo, ale również jakościowo najczęściej wykorzystywaną techniką są tzw. zbiory rozmyte (np. W ęglarz, Czogała i Łęcki 1997).

Również w rozpoznawaniu mowy podejmowano próby stosowania tej meto

dologii (np. Gubrynowicz et al. 1981).

Poniżej zostaną omówione pokrótce tylko dwie z wymienionych procedur sta

tystycznych: analiza dyskryminacyjna i HMMs. Pierwsza z nich stosowana była także w polskich badaniach, a druga jest coraz bardziej popularna w wielu pracach dotyczących analizy sygnału mowy.

11.3.2. ANALIZA DYSKRYMINACYJNA

Zagadnienie dyskryminacji obiektów w wielowymiarowej przestrzeni analizo

wał Fisher w 1936 r. (według np. Lachenbruch 1975, Gatnar 1998). Zaproponował on funkcje liniowe opisujące hiperpłaszczyzny rozdzielające zbiory obiektów w ten sposób, aby otrzymać jak najlepsze odseparowanie poszczególnych klas obiektów.

W celu znalezienia współczynników a, określających położenie hiperpłaszczyz

ny, w równaniu (11.16):

g(x) = X aixi + ^ (11.16)

i = 1

gdzie: a; — w sp ó łc z y n n ik i fu n k cji d y sk ry m in acy jn ej,

Fisher obliczył odległości między środkami skupień dla standaryzowanych cech obiektów. Określił kierunek r, dla którego wyrażenie 11.17 przyjmuje największą wartość

Po przekształceniach równania (11.17) można otrzymać równanie 11.18

rT (xx - x2)Sr

xi - x 2 = - - ^ (11.18)

gdzie: r — szukany kierunek.

Postać funkcji dyskryminacyjnej jest w zasadzie dowolna, jednak w praktyce najczęściej stosuje się funkcje liniowe lub kwadratowe (np. Lachenbruch 1975).

Zagadnienie klasyfikacji w ramach analizy dyskryminacyjnej dotyczy głównie rozkładów normalnych lub takich, które mogą być opisane wystarczająco dokładnie za pomocą momentów 1. i 2. stopnia. W odniesieniu do badań suprasegmentaliów metodę tę wykorzystuje się dość często (np. Hunt 1994, Sagisaka et al. 1997).

Szczególnie istotne jest w tym przypadku staranne testowanie własności statystycz

nych rozkładów prawdopodobieństw cech opisujących poszczególne klasy, ponie

waż wykazano (np. Jassem et al. 1968 oraz Steffen-Batóg et al. 1970), że rozkłady wartości częstotliwości podstawowej w mowie zbliżone są do lognormalnych.

Dla własnego materiału językowego wykorzystano metodę analizy dyskrymi

nacyjnej do klasyfikacji tonów nuklearnych w dwusylabowej wypowiedzi dobrze (Demenko 1986, Demenko et al. 1988). Wypowiedzi sparametryzowano 8-ele- mentowym wektorem opisującym zmienność parametru F0 w 8 wybranych punk

tach czasowych. Zastosowano liniowe i kwadratowe funkcje dyskryminacyjne, któ

re wykazały zgodnie (w 80%) rozlączność badanych klas. Najlepiej rozpoznano najwyraźniejsze akustycznie i percepcyjnie akcenty (LHL, LH, HL).

Wyniki obecnie przeprowadzonych badań na złożonych melodycznie wypo

wiedziach oraz mowie ciągłej, przedstawione w rozdziale 13, a także wyniki kla

syfikacji akcentów przeprowadzonej w roku 1988 na materiale językowym (za

wierającym tylko izolowaną wypowiedź), wskazują, że w języku polskim istnieje co najmniej 9 tonów rdzennych (por. rozdział 6). Różnice akustyczne między nimi są na tyle wyraźne, że pozwalają na ich automatyczną klasyfikację/rozpoznawanie.

11.3.3. M ODELE MARKOW A

Ukryte modele Markowa wykorzystuje się do modelowania procesów stocha

stycznych. Każdy z modeli jest zbiorem połączonych ze sobą stanów S = {sj...sn}, gdzie n jest liczbą stanów. W kolejnych momentach czasowych t = ( l, 2,. .T) modelowany proces przechodzi z jednego stanu do drugiego, generując sygnały.

Stany są ukryte przed obserwatorem. Dla każdej pary stanów Sj oraz Sj określone jest prawdopodobieństwo przejścia z jednego stanu do drugiego. Zachowanie mo

delu zależy w chwili t + 1 wyłącznie od stanu, w którym znajdował się proces w poprzedzającej chwili t. Istnieją dwa procesy stochastyczne: jeden, dotyczy nie

znanej sekwencji stanów (symboli), którą trzeba „odkryć” (rozpoznać), i drugi 140

A

opisuje przyporządkowywanie poszczególnym stanom (symbolom) niejednoznacz

nych sygnałów, np. akustycznych.

Technice modelowania sygnału mowy z zastosowaniem łańcuchów M arkowa poświęcono od lat 80. bardzo obszerne prace (np. Rabiner 1989). Technika ta jest bardzo złożona obliczeniowo. Współczesne implementacje algorytmów rozpozna

wania mowy bazujące na HMM (np. Naturally Speaking — firmy Dragon, Via Voice — firmy IBM, FreeSpeech 98 — firmy Philips), są efektem prac wielu zespołów badawczych na całym świecie i dużych nakładów finansowych.

Modelowanie łańcuchami Markowa zmienności suprasegmentalnej mowy, jak dotąd nie przyniosło zadowalających rezultatów. O ile wyniki rozpoznania akcentu w dwusylabowych wypowiedziach są względnie zachęcające, to w zakresie mowy ciągłej nie udało się uzyskać tak dobrych rezultatów, jak w przypadku cech seg- mentalnych mowy. Freij i Falliside (1988) uzyskali przy zastosowaniu 5-stanowego HMMs dokładność klasyfikacji akcentu w dwusylabowych wyrazach równą 94%.

Butzberger (1990) w 3-stanowym HMMs uzyskał poprawność rozróżniania wzor

ców intonacyjnych (na wyrazach izolowanych) przypisanych 5 kategoriom: pyta

niu, stwierdzeniu, wątpliwości, komendzie, kontynuacji, wynoszącą 89%. Taylor et al. (1997) analizowali struktury intonacyjne dialogu w mowie spontanicznej i uzyskali na podstawie modelowania w 8-stanowym HMMs średni procent roz

poznawania 67%. Wstępne eksperymenty modelowania zmienności intonacji łań

cuchami M arkowa w systemie text-to-speech dla języka japońskiego przeprowadził Fukada et al. (1994). Osiągnięto średni błąd kwadratowy między danymi ekspe

rymentalnymi a danymi pochodzącymi z modelowania równy 9,2% (dla przeciętnej wartości 120 Hz).

Jednym z powodów trudności implementacji HMMs do analizy cech melodycz

nych mowy mogą być specyficzne własności suprasegmentaliów, związane np.

z koniecznością przetwarzania informacji w obrębie różnych iloczasowo fragmen

tów wypowiedzi. Należy uwzględnić klasyfikację intonacji na preiktyczną oraz rdzenną i nie wystarczy samo stwierdzenie obecności bądź braku akcentu w obrębie sylaby.

Ostatnio metodą częściej wykorzystywaną w analizie suprasegmentaliów są sieci neuronowe, w których problem reprezentacji czasowej struktury sygnału moż

na rozwiązać pośrednio, np. poprzez podanie informacji o iloczasach sylab doce

lowych (jak i sylab sąsiednich) wchodzących w skład danego wzorca intonacyj

nego.

12 SIECI NEURONOWE W ANALIZIE

W dokumencie Analiza cech suprasegmentalnych języka polskiego na potrzeby technologii mowy - Grażyna Demenko (Stron 139-143)