PODSTAWY MATEMATYCZNEGO OPISU SUPRASEGMENTALIÓW
11.3. STATYSTYCZNE METODY ANALIZY SUPRASEGMENTALIÓW
11.3.1. OGÓLNA CHARAKTERYSTYKA METOD KLASYFIKACJI Wykorzystanie wiedzy doświadczalnej przy przejściu od jakościowego opisu zja
wiska (w przypadku suprasegmentaliów mogą to być obserwacje dotyczące zmien
ności np. częstotliwości podstawowej) do badań ilościowych wymaga dokładnej oce
ny wyników pomiarów. Należy stwierdzić, czy są one w zgodzie z przewidywaniami teoretycznymi oraz czy umożliwiają przyjęcie bądź odrzucenie założonej hipotezy.
Wyniki pomiarów nie zawsze są jednoznacznie określone poprzez procedurę do
świadczalną i podlegają fluktuacjom. Częściowo losowy charakter danych opisują
cych suprasegmentalia zawarty jest w naturze eksperymentów (badaniom podlegają różni parlatorzy oraz słuchacze) oraz w niedokładnościach ekstrakcji parametru F0, iloczasu czy energii sygnału. W praktyce wyznacza się kształt rozkładu badając próbę — zbiór złożony ze skończonej liczby pomiarów. Oszacowanie statystycz
nych parametrów rozkładu wymaga obszernego materiału doświadczalnego.
W przypadku suprasegmentaliów najczęściej wykorzystywane są metody mate
matyczne (w tym statystyczne). Metody matematyczne można podzielić na deter
ministyczne, które przyjmują pewien aparat matematyczny, ale nie wymagają żad
nych założeń co do statystycznych własności klas, jak to ma miejsce w przypadku uczących iteracyjnych algorytmów. Klasycznym przykładem jest metoda percep- tronowa (reward-punishment algorithm) opracowana przez Rosenblatta w r. 1957 (za Tadeusiewiczem 1993). Metoda została przetestowana praktycznie na sieci neu- ropodobnej Perceptron, stanowiącej pierwszą realnie funkcjonującą imitację sieci neuronowej (por. np. Tadeusiewicz 1993).
W podejściu statystycznym do analizy lub klasyfikacji danych wykorzystuje się statystyczne własności rozkładów cech opisujących badaną populację. Najbar
dziej podstawowymi narzędziami są najczęściej: analiza wariancji, analiza dyskry
minacyjna oraz metoda K-L (Karhunen-Loeve). Szczegółowe opisy większości tych metod podano np. w pracach Sobczak i Malina (1985), Lachenbruch (1975), Morrison (1990), Brandt (1998).
Popularną, statystyczną techniką stosowaną w analizie/klasyfikacji/rozpozna
waniu, szczególnie przydatną w przypadku zmian czasowych (np. w mowie), są modele Markowa (HMMs — Hidden Markov Models). Modele wykorzystują łań
cuchy Markowa o ograniczonej liczbie słów i ograniczonych zbiorach rozkładów prawdopodobieństw wyjściowych. W adą tej metody są duże obciążenia oblicze
niowe oraz konieczność wyznaczania statystycznych parametrów rozkładów.
138
W praktycznych zastosowaniach często spotyka się również inne grupy metod klasyfikacji/rozpoznawania, np. heurystyczne i syntaktyczne. Heurystyczne podej
ście oparte jest na doświadczeniu i wiedzy eksperymentatora. Klasyfikacja składa się ze sformułowanych ad hoc procedur przeznaczonych do określonego zadania.
Metody te często występują łącznie np. z metodami matematycznymi.
Metody lingwistyczne (syntaktyczne) stosowane są w odniesieniu do sygnału mowy i równie często w projektach klasyfikacji/rozpoznawania obrazów. Klasa może być opisana przez hierarchiczną strukturę podklas (analogicznie jak w ję zyku). Szczególnie ważne jest sformułowanie gramatyki pozwalającej na sterowa
nie regułami w analizie syntaktycznej.
D la zbiorów danych, opisanych nie tylko ilościowo, ale również jakościowo najczęściej wykorzystywaną techniką są tzw. zbiory rozmyte (np. W ęglarz, Czogała i Łęcki 1997).
Również w rozpoznawaniu mowy podejmowano próby stosowania tej meto
dologii (np. Gubrynowicz et al. 1981).
Poniżej zostaną omówione pokrótce tylko dwie z wymienionych procedur sta
tystycznych: analiza dyskryminacyjna i HMMs. Pierwsza z nich stosowana była także w polskich badaniach, a druga jest coraz bardziej popularna w wielu pracach dotyczących analizy sygnału mowy.
11.3.2. ANALIZA DYSKRYMINACYJNA
Zagadnienie dyskryminacji obiektów w wielowymiarowej przestrzeni analizo
wał Fisher w 1936 r. (według np. Lachenbruch 1975, Gatnar 1998). Zaproponował on funkcje liniowe opisujące hiperpłaszczyzny rozdzielające zbiory obiektów w ten sposób, aby otrzymać jak najlepsze odseparowanie poszczególnych klas obiektów.
W celu znalezienia współczynników a, określających położenie hiperpłaszczyz
ny, w równaniu (11.16):
m
g(x) = X aixi + ^ (11.16)
i = 1
gdzie: a; — w sp ó łc z y n n ik i fu n k cji d y sk ry m in acy jn ej,
Fisher obliczył odległości między środkami skupień dla standaryzowanych cech obiektów. Określił kierunek r, dla którego wyrażenie 11.17 przyjmuje największą wartość
Po przekształceniach równania (11.17) można otrzymać równanie 11.18
rT (xx - x2)Sr
xi - x 2 = - - ^ (11.18)
gdzie: r — szukany kierunek.
Postać funkcji dyskryminacyjnej jest w zasadzie dowolna, jednak w praktyce najczęściej stosuje się funkcje liniowe lub kwadratowe (np. Lachenbruch 1975).
Zagadnienie klasyfikacji w ramach analizy dyskryminacyjnej dotyczy głównie rozkładów normalnych lub takich, które mogą być opisane wystarczająco dokładnie za pomocą momentów 1. i 2. stopnia. W odniesieniu do badań suprasegmentaliów metodę tę wykorzystuje się dość często (np. Hunt 1994, Sagisaka et al. 1997).
Szczególnie istotne jest w tym przypadku staranne testowanie własności statystycz
nych rozkładów prawdopodobieństw cech opisujących poszczególne klasy, ponie
waż wykazano (np. Jassem et al. 1968 oraz Steffen-Batóg et al. 1970), że rozkłady wartości częstotliwości podstawowej w mowie zbliżone są do lognormalnych.
Dla własnego materiału językowego wykorzystano metodę analizy dyskrymi
nacyjnej do klasyfikacji tonów nuklearnych w dwusylabowej wypowiedzi dobrze (Demenko 1986, Demenko et al. 1988). Wypowiedzi sparametryzowano 8-ele- mentowym wektorem opisującym zmienność parametru F0 w 8 wybranych punk
tach czasowych. Zastosowano liniowe i kwadratowe funkcje dyskryminacyjne, któ
re wykazały zgodnie (w 80%) rozlączność badanych klas. Najlepiej rozpoznano najwyraźniejsze akustycznie i percepcyjnie akcenty (LHL, LH, HL).
Wyniki obecnie przeprowadzonych badań na złożonych melodycznie wypo
wiedziach oraz mowie ciągłej, przedstawione w rozdziale 13, a także wyniki kla
syfikacji akcentów przeprowadzonej w roku 1988 na materiale językowym (za
wierającym tylko izolowaną wypowiedź), wskazują, że w języku polskim istnieje co najmniej 9 tonów rdzennych (por. rozdział 6). Różnice akustyczne między nimi są na tyle wyraźne, że pozwalają na ich automatyczną klasyfikację/rozpoznawanie.
11.3.3. M ODELE MARKOW A
Ukryte modele Markowa wykorzystuje się do modelowania procesów stocha
stycznych. Każdy z modeli jest zbiorem połączonych ze sobą stanów S = {sj...sn}, gdzie n jest liczbą stanów. W kolejnych momentach czasowych t = ( l, 2,. .T) modelowany proces przechodzi z jednego stanu do drugiego, generując sygnały.
Stany są ukryte przed obserwatorem. Dla każdej pary stanów Sj oraz Sj określone jest prawdopodobieństwo przejścia z jednego stanu do drugiego. Zachowanie mo
delu zależy w chwili t + 1 wyłącznie od stanu, w którym znajdował się proces w poprzedzającej chwili t. Istnieją dwa procesy stochastyczne: jeden, dotyczy nie
znanej sekwencji stanów (symboli), którą trzeba „odkryć” (rozpoznać), i drugi 140
A
opisuje przyporządkowywanie poszczególnym stanom (symbolom) niejednoznacz
nych sygnałów, np. akustycznych.
Technice modelowania sygnału mowy z zastosowaniem łańcuchów M arkowa poświęcono od lat 80. bardzo obszerne prace (np. Rabiner 1989). Technika ta jest bardzo złożona obliczeniowo. Współczesne implementacje algorytmów rozpozna
wania mowy bazujące na HMM (np. Naturally Speaking — firmy Dragon, Via Voice — firmy IBM, FreeSpeech 98 — firmy Philips), są efektem prac wielu zespołów badawczych na całym świecie i dużych nakładów finansowych.
Modelowanie łańcuchami Markowa zmienności suprasegmentalnej mowy, jak dotąd nie przyniosło zadowalających rezultatów. O ile wyniki rozpoznania akcentu w dwusylabowych wypowiedziach są względnie zachęcające, to w zakresie mowy ciągłej nie udało się uzyskać tak dobrych rezultatów, jak w przypadku cech seg- mentalnych mowy. Freij i Falliside (1988) uzyskali przy zastosowaniu 5-stanowego HMMs dokładność klasyfikacji akcentu w dwusylabowych wyrazach równą 94%.
Butzberger (1990) w 3-stanowym HMMs uzyskał poprawność rozróżniania wzor
ców intonacyjnych (na wyrazach izolowanych) przypisanych 5 kategoriom: pyta
niu, stwierdzeniu, wątpliwości, komendzie, kontynuacji, wynoszącą 89%. Taylor et al. (1997) analizowali struktury intonacyjne dialogu w mowie spontanicznej i uzyskali na podstawie modelowania w 8-stanowym HMMs średni procent roz
poznawania 67%. Wstępne eksperymenty modelowania zmienności intonacji łań
cuchami M arkowa w systemie text-to-speech dla języka japońskiego przeprowadził Fukada et al. (1994). Osiągnięto średni błąd kwadratowy między danymi ekspe
rymentalnymi a danymi pochodzącymi z modelowania równy 9,2% (dla przeciętnej wartości 120 Hz).
Jednym z powodów trudności implementacji HMMs do analizy cech melodycz
nych mowy mogą być specyficzne własności suprasegmentaliów, związane np.
z koniecznością przetwarzania informacji w obrębie różnych iloczasowo fragmen
tów wypowiedzi. Należy uwzględnić klasyfikację intonacji na preiktyczną oraz rdzenną i nie wystarczy samo stwierdzenie obecności bądź braku akcentu w obrębie sylaby.
Ostatnio metodą częściej wykorzystywaną w analizie suprasegmentaliów są sieci neuronowe, w których problem reprezentacji czasowej struktury sygnału moż
na rozwiązać pośrednio, np. poprzez podanie informacji o iloczasach sylab doce
lowych (jak i sylab sąsiednich) wchodzących w skład danego wzorca intonacyj
nego.