• Nie Znaleziono Wyników

PODSTAWY MATEMATYCZNEGO OPISU SUPRASEGMENTALIÓW

11.3. STATYSTYCZNE METODY ANALIZY SUPRASEGMENTALIÓW

11.3.1. OGÓLNA CHARAKTERYSTYKA METOD KLASYFIKACJI Wykorzystanie wiedzy doświadczalnej przy przejściu od jakościowego opisu zja­

wiska (w przypadku suprasegmentaliów mogą to być obserwacje dotyczące zmien­

ności np. częstotliwości podstawowej) do badań ilościowych wymaga dokładnej oce­

ny wyników pomiarów. Należy stwierdzić, czy są one w zgodzie z przewidywaniami teoretycznymi oraz czy umożliwiają przyjęcie bądź odrzucenie założonej hipotezy.

Wyniki pomiarów nie zawsze są jednoznacznie określone poprzez procedurę do­

świadczalną i podlegają fluktuacjom. Częściowo losowy charakter danych opisują­

cych suprasegmentalia zawarty jest w naturze eksperymentów (badaniom podlegają różni parlatorzy oraz słuchacze) oraz w niedokładnościach ekstrakcji parametru F0, iloczasu czy energii sygnału. W praktyce wyznacza się kształt rozkładu badając próbę — zbiór złożony ze skończonej liczby pomiarów. Oszacowanie statystycz­

nych parametrów rozkładu wymaga obszernego materiału doświadczalnego.

W przypadku suprasegmentaliów najczęściej wykorzystywane są metody mate­

matyczne (w tym statystyczne). Metody matematyczne można podzielić na deter­

ministyczne, które przyjmują pewien aparat matematyczny, ale nie wymagają żad­

nych założeń co do statystycznych własności klas, jak to ma miejsce w przypadku uczących iteracyjnych algorytmów. Klasycznym przykładem jest metoda percep- tronowa (reward-punishment algorithm) opracowana przez Rosenblatta w r. 1957 (za Tadeusiewiczem 1993). Metoda została przetestowana praktycznie na sieci neu- ropodobnej Perceptron, stanowiącej pierwszą realnie funkcjonującą imitację sieci neuronowej (por. np. Tadeusiewicz 1993).

W podejściu statystycznym do analizy lub klasyfikacji danych wykorzystuje się statystyczne własności rozkładów cech opisujących badaną populację. Najbar­

dziej podstawowymi narzędziami są najczęściej: analiza wariancji, analiza dyskry­

minacyjna oraz metoda K-L (Karhunen-Loeve). Szczegółowe opisy większości tych metod podano np. w pracach Sobczak i Malina (1985), Lachenbruch (1975), Morrison (1990), Brandt (1998).

Popularną, statystyczną techniką stosowaną w analizie/klasyfikacji/rozpozna­

waniu, szczególnie przydatną w przypadku zmian czasowych (np. w mowie), są modele Markowa (HMMs — Hidden Markov Models). Modele wykorzystują łań­

cuchy Markowa o ograniczonej liczbie słów i ograniczonych zbiorach rozkładów prawdopodobieństw wyjściowych. W adą tej metody są duże obciążenia oblicze­

niowe oraz konieczność wyznaczania statystycznych parametrów rozkładów.

138

W praktycznych zastosowaniach często spotyka się również inne grupy metod klasyfikacji/rozpoznawania, np. heurystyczne i syntaktyczne. Heurystyczne podej­

ście oparte jest na doświadczeniu i wiedzy eksperymentatora. Klasyfikacja składa się ze sformułowanych ad hoc procedur przeznaczonych do określonego zadania.

Metody te często występują łącznie np. z metodami matematycznymi.

Metody lingwistyczne (syntaktyczne) stosowane są w odniesieniu do sygnału mowy i równie często w projektach klasyfikacji/rozpoznawania obrazów. Klasa może być opisana przez hierarchiczną strukturę podklas (analogicznie jak w ję ­ zyku). Szczególnie ważne jest sformułowanie gramatyki pozwalającej na sterowa­

nie regułami w analizie syntaktycznej.

D la zbiorów danych, opisanych nie tylko ilościowo, ale również jakościowo najczęściej wykorzystywaną techniką są tzw. zbiory rozmyte (np. W ęglarz, Czogała i Łęcki 1997).

Również w rozpoznawaniu mowy podejmowano próby stosowania tej meto­

dologii (np. Gubrynowicz et al. 1981).

Poniżej zostaną omówione pokrótce tylko dwie z wymienionych procedur sta­

tystycznych: analiza dyskryminacyjna i HMMs. Pierwsza z nich stosowana była także w polskich badaniach, a druga jest coraz bardziej popularna w wielu pracach dotyczących analizy sygnału mowy.

11.3.2. ANALIZA DYSKRYMINACYJNA

Zagadnienie dyskryminacji obiektów w wielowymiarowej przestrzeni analizo­

wał Fisher w 1936 r. (według np. Lachenbruch 1975, Gatnar 1998). Zaproponował on funkcje liniowe opisujące hiperpłaszczyzny rozdzielające zbiory obiektów w ten sposób, aby otrzymać jak najlepsze odseparowanie poszczególnych klas obiektów.

W celu znalezienia współczynników a, określających położenie hiperpłaszczyz­

ny, w równaniu (11.16):

m

g(x) = X aixi + ^ (11.16)

i = 1

gdzie: a; — w sp ó łc z y n n ik i fu n k cji d y sk ry m in acy jn ej,

Fisher obliczył odległości między środkami skupień dla standaryzowanych cech obiektów. Określił kierunek r, dla którego wyrażenie 11.17 przyjmuje największą wartość

Po przekształceniach równania (11.17) można otrzymać równanie 11.18

rT (xx - x2)Sr

xi - x 2 = - - ^ (11.18)

gdzie: r — szukany kierunek.

Postać funkcji dyskryminacyjnej jest w zasadzie dowolna, jednak w praktyce najczęściej stosuje się funkcje liniowe lub kwadratowe (np. Lachenbruch 1975).

Zagadnienie klasyfikacji w ramach analizy dyskryminacyjnej dotyczy głównie rozkładów normalnych lub takich, które mogą być opisane wystarczająco dokładnie za pomocą momentów 1. i 2. stopnia. W odniesieniu do badań suprasegmentaliów metodę tę wykorzystuje się dość często (np. Hunt 1994, Sagisaka et al. 1997).

Szczególnie istotne jest w tym przypadku staranne testowanie własności statystycz­

nych rozkładów prawdopodobieństw cech opisujących poszczególne klasy, ponie­

waż wykazano (np. Jassem et al. 1968 oraz Steffen-Batóg et al. 1970), że rozkłady wartości częstotliwości podstawowej w mowie zbliżone są do lognormalnych.

Dla własnego materiału językowego wykorzystano metodę analizy dyskrymi­

nacyjnej do klasyfikacji tonów nuklearnych w dwusylabowej wypowiedzi dobrze (Demenko 1986, Demenko et al. 1988). Wypowiedzi sparametryzowano 8-ele- mentowym wektorem opisującym zmienność parametru F0 w 8 wybranych punk­

tach czasowych. Zastosowano liniowe i kwadratowe funkcje dyskryminacyjne, któ­

re wykazały zgodnie (w 80%) rozlączność badanych klas. Najlepiej rozpoznano najwyraźniejsze akustycznie i percepcyjnie akcenty (LHL, LH, HL).

Wyniki obecnie przeprowadzonych badań na złożonych melodycznie wypo­

wiedziach oraz mowie ciągłej, przedstawione w rozdziale 13, a także wyniki kla­

syfikacji akcentów przeprowadzonej w roku 1988 na materiale językowym (za­

wierającym tylko izolowaną wypowiedź), wskazują, że w języku polskim istnieje co najmniej 9 tonów rdzennych (por. rozdział 6). Różnice akustyczne między nimi są na tyle wyraźne, że pozwalają na ich automatyczną klasyfikację/rozpoznawanie.

11.3.3. M ODELE MARKOW A

Ukryte modele Markowa wykorzystuje się do modelowania procesów stocha­

stycznych. Każdy z modeli jest zbiorem połączonych ze sobą stanów S = {sj...sn}, gdzie n jest liczbą stanów. W kolejnych momentach czasowych t = ( l, 2,. .T) modelowany proces przechodzi z jednego stanu do drugiego, generując sygnały.

Stany są ukryte przed obserwatorem. Dla każdej pary stanów Sj oraz Sj określone jest prawdopodobieństwo przejścia z jednego stanu do drugiego. Zachowanie mo­

delu zależy w chwili t + 1 wyłącznie od stanu, w którym znajdował się proces w poprzedzającej chwili t. Istnieją dwa procesy stochastyczne: jeden, dotyczy nie­

znanej sekwencji stanów (symboli), którą trzeba „odkryć” (rozpoznać), i drugi 140

A

opisuje przyporządkowywanie poszczególnym stanom (symbolom) niejednoznacz­

nych sygnałów, np. akustycznych.

Technice modelowania sygnału mowy z zastosowaniem łańcuchów M arkowa poświęcono od lat 80. bardzo obszerne prace (np. Rabiner 1989). Technika ta jest bardzo złożona obliczeniowo. Współczesne implementacje algorytmów rozpozna­

wania mowy bazujące na HMM (np. Naturally Speaking — firmy Dragon, Via Voice — firmy IBM, FreeSpeech 98 — firmy Philips), są efektem prac wielu zespołów badawczych na całym świecie i dużych nakładów finansowych.

Modelowanie łańcuchami Markowa zmienności suprasegmentalnej mowy, jak dotąd nie przyniosło zadowalających rezultatów. O ile wyniki rozpoznania akcentu w dwusylabowych wypowiedziach są względnie zachęcające, to w zakresie mowy ciągłej nie udało się uzyskać tak dobrych rezultatów, jak w przypadku cech seg- mentalnych mowy. Freij i Falliside (1988) uzyskali przy zastosowaniu 5-stanowego HMMs dokładność klasyfikacji akcentu w dwusylabowych wyrazach równą 94%.

Butzberger (1990) w 3-stanowym HMMs uzyskał poprawność rozróżniania wzor­

ców intonacyjnych (na wyrazach izolowanych) przypisanych 5 kategoriom: pyta­

niu, stwierdzeniu, wątpliwości, komendzie, kontynuacji, wynoszącą 89%. Taylor et al. (1997) analizowali struktury intonacyjne dialogu w mowie spontanicznej i uzyskali na podstawie modelowania w 8-stanowym HMMs średni procent roz­

poznawania 67%. Wstępne eksperymenty modelowania zmienności intonacji łań­

cuchami M arkowa w systemie text-to-speech dla języka japońskiego przeprowadził Fukada et al. (1994). Osiągnięto średni błąd kwadratowy między danymi ekspe­

rymentalnymi a danymi pochodzącymi z modelowania równy 9,2% (dla przeciętnej wartości 120 Hz).

Jednym z powodów trudności implementacji HMMs do analizy cech melodycz­

nych mowy mogą być specyficzne własności suprasegmentaliów, związane np.

z koniecznością przetwarzania informacji w obrębie różnych iloczasowo fragmen­

tów wypowiedzi. Należy uwzględnić klasyfikację intonacji na preiktyczną oraz rdzenną i nie wystarczy samo stwierdzenie obecności bądź braku akcentu w obrębie sylaby.

Ostatnio metodą częściej wykorzystywaną w analizie suprasegmentaliów są sieci neuronowe, w których problem reprezentacji czasowej struktury sygnału moż­

na rozwiązać pośrednio, np. poprzez podanie informacji o iloczasach sylab doce­

lowych (jak i sylab sąsiednich) wchodzących w skład danego wzorca intonacyj­

nego.

12

SIECI NEURONOWE W ANALIZIE