• Nie Znaleziono Wyników

Baza danych tekstowych dla analizy intonacji języka polskiego - Grażyna Demenko

N/A
N/A
Protected

Academic year: 2021

Share "Baza danych tekstowych dla analizy intonacji języka polskiego - Grażyna Demenko"

Copied!
26
0
0

Pełen tekst

(1)
(2)

3.10.13. — akustyka mowy

Grażyna Demenko

BAZA DANYCH TEKSTOWYCH DLA ANALIZY INTONACJI

JĘZYKA POLSKIEGO

20/1995

W A R S Z A W A 1 9 9 5

(3)

ISSN 0208-5658

Praca wpłynęła do Redakcji dnia 21 grudnia 1993 r.

PAN

N a p r a w a c h r ę k o p i s u

UNIWERSYTECKA J V T o r u ^

Instytut Podstawowych Problemów Techniki PAN Nakład 100 egz. Ark. wyd. 1,5 Ark. druk. 2,0

Oddano do drukarni w maju 1995 r.

Wydawnictwo Spółdzielcze sp. z o.o.

Warszawa, ul. Jasna 1

t M o f o

(4)

Grażyna Demenko

Zakład Fonetyki Akustycznej IPPT PAN

B A Z A D A N Y C H T E K S T O W Y C H

DLA ANALIZY INTONACJI J Ę Z Y K A POLSKIEGO

Streszczeni e

Dla analizy intonacji w mowie ciągłej prz y g o t o w a n o materiał lingwistyczny składający się ze zróżnicowanych semantycznie, strukturalnie oraz gramatycznie fragmentów wiadomości telewizyjnych oraz reportaży. Do szczegółowego opi s u przebiegów melodycznych w zdaniach jednof razowych opra c o w a n o d wa zestawy zróżnicowanych strukturalnie tekstów.

Przygotowany materiał lingwistyczny Co długości około 10 min. m o w y ciągłej} został trzykrotnie odczytany w s t u d i o nagrań przez dwóch profesjonalnych spikerów telewizyjnych, jednego fonetyka oraz jedną osobę bez wykształcenia fonetycznego.

Przeprowadzono ekstrakcję częstotliwości podstawowej p r z y użyciu własnych programów pomiaru parametru Fo Copr a c o wanych w ZFA3 oraz spektrografu cyfrowego Kay 5500. Analizę s p e k t rograficzną wykorzystano głównie w celu segmentacji materiału słownego na sylaby. Przygotowano zbiór danych cyfrowych, ilustrujących zmienność przebiegu parametru Fo na poszczególnych sylabach analizowanych wypowiedzi. Zbiór ten stanowić będzie podstawę dla klasyfikacji wzorców intonacyjnych w języku polskim.

1 . Wstęp

Problem modelowania intonacji w mowie ciągłej nie jest w pełni rozwiązany. Opisy zmienności melodycznej nawet dla jednego języka różnią się znacznie między sobą i nie ma zgodności, który z nich jest właściwy. Zagadnienie sterowania c z ęstotliwością p o d stawową Creprezentującą fizycznie intonację} w syntezie, wymaga rozwiązania złożonych problemów w y n i k ających z k o n i e c z n o ś c i :

(5)

- 4 -

a) uwzględnienia wielu równolegle f unkcjonujących źródeł z mi enności ,

fcO oce n y subiektywnej CpercepcyjnejD i obiektywnej CfizyczneJ analizy) intonacji,

c) segmentacji sygnału na prozodyczne jednostki, dD klasyfikacji intonacyjnych wzorców.

Opracowanie reguł syntezy intonacji wymaga analizy sygnału na poziomie leksykalnym, syntaktycznym i semantycznym. W ostatnio opracowywanych opisach prozodii coraz większą uwagę zwraca się na o dpowiednie przygotowanie bazy danych. Przeprowadzone porównania różnych metod klasyfikacyjnych wykazały możliwość p oprawy wyników rozpoznawania wybranych jednostek w granicach 5 - 10>i poprzez zmianę metody klasyfikacyjnej. Przygotowaniu reprezentatywnego materiału oraz wyborowi adekwatnych cech charakteryzujących poszczególne o biekty poświęcono Ja^ dotąd mało u w a g i .

Na zjawisko to zwrócili m i ę d z y innymi uwagę Fant, Kohler Cpor. C43} - “speech technology has relied heavily on linguistic redundancies t o ensure an acceptable performance of synthesis as well as recognition", brak jest natomiast - "fundamental knowledge b y large documentary projects around our data banks".

Dla języka polskiego również więcej uwagi poświęcano metodom analizy instrumentalnej intonacji niż zagadnieniom związanym z reprezentatywnością i uniwersalnością modelowania. Z tego powodu d o t y chczasowe opracowania opisu częstotliwości podstawowej mowy polskiej Cnp. [23, C33D, obejmujące swym zakresem głównie wypowiedzi izolowane Cwyrazy, krótkie zdania) dostarczają tylko fragmentarycznych informacji o cechach melodycznych języka.

N a j o bszerniejszy opis struktur intonacyjnych języka polskiego zawiera praca z lat 60-tych M. Steffen-Batogowej Cpor. Cl 3D.

O pracowana w ostatnich latach w ZF A synteza wymaga reguł sterowania intonacją w mowie ciągłej Cpor. C53, C63D. Niniejsze o p racowanie poświęcono przygotowaniu b a z y danych, stanowiącej podstawę dla utworzenia opisu intonacji w mowie ciągłej.

Wstępnie, uwzględniono wpływ zmienności lingwistycznej oraz osobniczej na przebiegi parametru Fo. W następnym etapie pracy

(6)

- 5 -

przewidziana Jest, klasyfikacja typowych zmian intonacyjnych, między innymi w celu optymalizacji reguł syntezy mowy polskiej.

2. Materiał lingwistyczny

Dobór reprezentatywnego materiału słownego ilustrującego melodyczne struktury danego języka jest jednym z istotniejszych frag m e n t ó w badań prozodii mowy. Z uwagi na matematyczno - statystyczną analizę zbioru danych, dogodny jest taki dobór materiału lingwistycznego, który umożliwia kontrolę funkcjonowania poszczególnych źródeł zmienności sygnału.

Systematyczne uwzględnianie wpływu takich czynników jak np. : realizacji tematycznej, leksykalnej, akcentu, struktury gramatycznej i fonetycznej frazy jest możliwe tylko w przypadku sztucznie ułożonych tekstów. Przygotowanie materiału o złożonej, sztucznej strukturze, szczególnie w przypadku an a l i z y cech prozodycznych, negatywnie wpływa na wyniki badań. Dla modelowania struktur prozodycznych, optymalna jest analiza tekstów odpowiadających mowie potocznej, codziennej. Można założyć, że przygotowanie dostatecznie dużej liczby f ragmentów np. reportaży, wiadomości, dialogów umożliwi opracowanie reprezentatywnej bazy danych dla analizy intonacji.

Na obecnym etapie badań przyjęto, że realizacja akustyczna wybranego materiału lingwistycznego powinna być wzorcowa. Z tego powodu, do czytania tekstów wybrano osoby płynnie posługujące się językiem polskim. Do analizy wyselekcjonowano fragmenty wiadomości telewizyjnych oraz dwa zestawy sztucznie przygotowanych dwunastu zdań o założonej strukturze leksykalnej.

Z e stawy zawierają zdania o różnych konfiguracjach sylab akcentowanych i nieakcentowanych o długości od 3 do 35 sylab.

W materiale lingwistycznym w zestawie p i e rwszym CT1D samogłoski akcentowane znajdują się w sąsiedztwie spółgłosek dźwięcznych, w zestawie drugim CT2D — w otoczeniu spółgłosek bezdźwięcznych. W załączniku 1 podano struktury ułożonych zdań.

D-o szczegółowej analizy pryjęto materiał składający się z w y ­ powiedzi 3 głosów męskich.

(7)

-6-

3. Analiza częstotliwości podstawowej w zdaniach J ednof r azowych

Przebiegi częstotliwości podstawowej w zdaniach Jednofrazowych wyka z a ł y znaczne podobieństwa w replikacjach wypowiedzi przez poszczególne osoby. Jak i w wypowiedziach różnych mówców. Rys.l przedstawia przebiegi parametru Fo w replikacjach jednej z analizowanych wypowiedzi. Kontury częstotliwości podstawowej opisane zostały przez kolejne ekstrema: wartości maksymalne na sylabach akcentowanych i minimalne pomię d z y nimi. Przeprowadzona analiza korelacji Cwartość współczynnika korelacji zmieniała się w granicach 0,67 - 0,98 - por. załącznik 22, wykazała istotne statystyczne podobieństwa p r zebiegów parametru Fo w analizowanych wypowi edzi a c h .

M u l t i p l e X-Y F l o t

0 3 6 9 12 15 18

\Tum .r syl bv Rys.l. Przebiegi częstotliwości podstawowej w 9 replikacjach

wypowiedzi: "Londyn ma zostać jedyną stolicą europejską nie p o s i a d a j ą c ą o g rodu zoologicznego" (otrzymane dla 3 mówców ).

(8)

N N N N A N N N N A

1 A A

< t o

iOO /

\l k o) IflDj

4 3 0

4 1 0

2 A N A

< 9 0

t o o /

* (zoo) 4SO

\ • IS O U10)

4 6 0

4 * i0

3 A N N A

4*6

s i i f 25 0 ) ( 2 6 0 )

1 7 0

*>sx r

4 A NN NA

4 7 0

4 4 0 /

9 (2oo)

¿OO

\ «o

117 4 0 0

4 6 0

5 N A A 4 * 0

1 6 0

* ( 4 6 8 ) iQ d f2 °

«*>

40

6 N A N A 4 l O

<9o)^«

4 8 0

MOS" (ASO)

4 6 0

( ’W )

2<x?

1 5 0

7 N ANNA < 40 X• i 7*50) % A Q o

( Z b o ) <uo

( 4 5 0 ) ( 4 7 0 )

I S O 4<rO/

8 NANNNA

4 5 0

\o o /

^ (Z O O ) 4 5 0

/V0

" 9/

Rys.Z. a. Przebiegi parametru Fo na początkach wypowiedzi w 16-stu różnych strukturach sylab akcentowanych i nieakcentowanych. Literą A o z n a c z o n o pozycje sylaby akcentowanej, literą N - nieakcentowanej

(9)

- 8-

Rys. 2. b. Przebiegi parametru Fo na początkach wypowiedzi. Na początkach p r z ebiegów podano wartości parametru F o C w H z 3 , w nawiasach czas trwania zmiany częstotliwości podstawowej C w ms3

(10)

- 9 -

Szczegółowej analizie poddano z m i a n y częstotliwości podstawowej na początkach wypowiedzi. Rys.2a i 2 b ilustrują u ś rednione przebiegi parametru Fo na pierwszych sylabach zdań jednof razowych. Zależnie od struktury początku wypowiedzi o b s e r w u j e się różne zmiany intonacyjne na kolejnych sylabach.

Największy zakres zmienności częstotliwości podstawowej Cok.

l OO Hz w głosie męski irO obserwowano w zdaniach, które r o z p o c z y n a ł y się od sylaby akcentowanej. Jeśli sylaba akcentowana r o z p o c z y n a ł a się od spółgłoski dźwięcznej, przebieg parametru Fo miał charakter rosnący z maksimum przypadającym na następną spółgłoskę. W przypadku spółgłoski bezdźwięcznej na początku s y l a b y akcentowanej otrzymywano najczęściej przebiegi parametru F o ró w n e lub lekko rosnące z wysoką wartością początkową C l 70-180 Hz). W zdaniach rozpoczynających się od syl a b nieakcentowanych, o b s e r w o w a n o na początku wypowiedzi niewielką zmienność parametru F o C w graniach 10-15 Hz), a na pierwszej sylabie akcentowanej, z a k r e s zmienności częstotliwości podstawowej Cok. 60 Hz), z n a c z n i e mniejszy niż w wypowiedziach zaczynających s ię od sylaby a k c e n t o w a n e j .

Przebieg parametru Fo na drugiej sylabie akcentowanej, u z a l e ż n i o n y jest od struktury i ilości poprzedzających sylab ni e a k c e n t o w a n y c h .

W tabelach 1 oraz 2 podano przykładowo znormalizowane wartości parametru Fo w wypowiedziach zawierających 3 sylaby akcentowane. Normalizację danych przeprowadzono zgodnie z z a l e ż n o ś c i ą

ln F . = ln F. - ln F

ni i mi n

gdzie: F . - wartość znormalizowana, ni

F^ - kolejna wartość normalizowana, F .min - wartość minimalna parametru Fo.^

Przyjęto, że wartość F . jest względnie stała dla mi n

p o szczególnych mówców Cpor. np. C73) i może stanowić punkt o d n i e s i e n i a dla porównywania przebiegów częstotliwości podstawowej w wypowiedziach tej samej osoby. Wartość F .

mi n o b l i c z o n o jako średnią arytmetyczną z minimalnych wartości tego

(11)

- 10 -

Znormalizowane wartości parametru Fo na 3 kolejnych leksykalnie akcentowanych sylabach Al . A2 oraz A 3 dla 2 mówców, trzech replikacji oraz tekstów Tl i T2. Z a z n a c z o n o wartości początkowe i końcowe parametru Fo na sylabach. Dodatkowo, strzałkami oznaczono wzrost lub spadek wartości. Przykładowo, zapis dla mówcy nr 2. w tekście Tl, replikacji 1 dla pierwszej sylaby akcentowanej Al na leży odczytać jako wzrost wartości parametru Fo CO,08 do wartości 0,213, a następnie spadek C od wartości 0,21 do wartości 0,073.

TABELA 1

Tekst Mówca

Numer repl i - kacji

P o z y c J a s y l a b y

Al A2 A3

i 0,33

0,07 0,01 0,01

0

1 2 0,27

0.32

0 . 3 2 0 . 0 9

0,04

0.02 -

Tl

3 0,33

0.07 0 -

- 1 0.08

0.21

0.21

0 . 0 7 0.03 0.02

2 2 0.22

0.11

0.05

0.02 0.01

3 0.1

0,23

0 . 2 3 0 , 0 5

0,05

0,01 0

1

1 0.32

0,37

0.15 0.1

0,1 0.5

2 0,34

0.36

0.17

0,05 0,02

T2

3 0,32

0.28 0,15 0,01

1 0.26

0.36 0.02 -

ć.

2 0,28

0.32 0,17 0.1

0.02

3 0,34

0.36 0.06 0,02

(12)

- 11 -

TABELA 2

Wartości parametru Fo w 3 replikacjach, dwóch osób w wypowiedzi zawierającej 3 syla b y akcentowane i 2 nieakcentowane

Tekst. Mówca

Numer r epl i - kac ji

P o z y c j a s y l a b y

A N A N A

Tl 1

1 0.02

0,29

0,26 0,05

0,16 0,04

0,04

0,01 0,03

2 0.05

0.34

0.28 0.05

0,13 0,08

0,08

0,01 -

3 0.21

0,31

0,30 0,13

0.13

0,01 0,04 -

2

1 0.03

0,17 0,15 0.15

0.03 0,02 0,12

0,01

2 0.02

0,19

0,15 0,11

0.19 0,15

0,13 0,23

0,18 0,01

3 0.03

0.21

0,02 0.1

0,11

0,06 0,06 -

T2 1

1 0.32

0,36 0,26 0,09 0,09 0.03

O

2 0,39 0.26

0,18

0,09 0,07

0,07 0,01

0,01 O

3 0,31

0,36

0,29 0,24

0,09

0,08 0.06 0,11

0,01

2

1 0.19

0.26 0.01 0,15 0,08 0,01

2 0.19

0.28 0.2 0,13

0,19 0,15

0,16

0,09 0,01

3 0,23

0.3 0,14 0,14

0,05 0,05 -

parametru dla danego mówcy. W wypowiedziach r o z p oczynających się od spółgłoski dźwięcznej Czestaw zdań Tl) o b s e r w o w a n o na pierwszej sylabie akcentowanej przebiegi rosnące l ub r osnąco opadające, z maksimum przypadającym na następującą p o samo g ł o s c e akcentowanej spółgłoskę.

(13)

- 12 -

Zakres zmian parametru Fo mieści s ię w granicach 0,02-0,33, wartość p o czątkowa parametru jest niska. W wypowiedziach Cz zestawu T2) rozpoczynających się od spółgłoski bezdźwięcznej przebieg parametru Fo ma charakter lekko r o s n ą c y - lub równy C zakres zmian: 0,28 — 0,37) z w y s o k ą wa r t o ś c i ą początkową. Na dwóch pozostałych sylabach a k c e n t o w a n y c h , przebiegi parametru Fo s ą opadające lub równe i mają niewielki zakres zmienności.

Przebieg na sylabach nieakcentowanych jest kontynuacją przebiegu parametru Fo na poprzedzającej sylabie akcentowanej. W niektórych p r z y p a d k a c h , na końcu wypowiedzi niem o ż l i w y był pomiar parametru Fo z uwagi na zjawisko laryngalizacji - występowania niskich, n i eregularnych drgań.

W tabeli 3 podano wartości parametru Fo w zdaniach o złożonej strukturze. Na sylabach akcentowanych z auważa się podobieństwo przebiegów częstotliwości podstawowej w poszczególnych re p l i kacjach wypowiedzi. Na sylabach nieakcentowanych obserwuje się różne realizacje przebiegów p a r ametru Fo, nawet dla jednego mówcy.

Tabela 4 ilustruje podobieństwa i różnice zmienności częstotliwości podstawowej w 3 replikacjach 26 sylabowej wypowiedzi tego samego mówcy. Stos u n k o w o konsekwentnie realizowane są przebiegi parametru Fo na początkach i końcach wypowiedzi. W środku wypowiedzi zauważa s ię zróżnicowanie w p o szczególnych replikacjach.

W tabeli 5 podano średnie zno r m a l i z o w a n e wartości parametru Fo w charakterystycznych punktach zdań. W wypowiedziach rozpoczynających się od sylaby akcentowanej, zawierającej na początku spółgłoskę bezdźwięczną Cz d a n i e 1,5,6,7,8,10,12 w tekście T2) przebiegi częstotliwości podstawowej rozpoczynają się od wysokiej wartości CO,24-0,5). Jeżeli pierwszą samogłoskę akcent o w a n ą poprzedza spółgłoska dźwięczna, t o wartości parametru F o na początku jest niska C O,06-0,15). Wartości maksymalne częstotliwości podstawowej w zdaniach krótkich występowały na pierwszej akcentowanej sylabie. W zdan i a c h długich Czdanie nr 9,10) wartości maksymalne parametru Fo w ystępowały w dalszych f r agmentach wypowiedzi. Realizacja p r z e b i e g ó w częstotliwości

(14)

- 13 -

podstawowej na końcach wypowiedzi trudna jest do wytłumaczenia wyłącznie przy uwzględnieniu struktury wypowiedzi.

TABELA 3

Wartości parametru Fo w 3 replikacjach dwóch osób w 2 zdaniach o złożonej strukturze

Nr re p ­ lik.

P c z y <= j a s y 1 a b y

NN A NN A NN A NN

Z

1 0.08 0.21

0,3 0,34

0.29 0.05

0,09 0,32

0.33 0.05

0,08 0,01

D A

i 2 0.11

0,26 0,26 0.36

0.36 0.11

0.10 0.07 0.05

0.8 -

N I

3 0,08 0.29

0,3 0.35

0,35 0,05

0,05 0,32

0,33 0,01

0,09 0.04

E 1 0,12

0.08 0,08 0.28

0,28 0,04

0,01 0,21

0,21 0.08 0.02

r 2 2 0,13

0.09 0,09 0.32

0,^2 0,23

0,23 0.5

0,05 0,14

0,11 -

3 0,15 0,07

0.11 0.35

0.35 0,1

0.18 0.1

0,09 0,14 0,03

N A NN A NN A NN A NN A

Z 1 0,13

0,23 0,23 0,36

0,36 0,05

0.25 0,29

0.08 0,06

0,22 0,07

0,15 0,22

0,09 0,03

0,03 -

A N I

1 2 0,13

0,21 0,21 0,35

0.35 0.04

0.25 0.3

0.08 0.05

0.-23 0.06

0,06 0.13

0,13 0,03

0.02 0,01

3 0,15 0,16

0,24 0,37

0,37 0,08

0.3 0,07 0,2 0,11

0.06 0,04

0.2 0,09

0,01 0,03

n 1 0,16

0,13 0,14 0,28

0,21 0,05

0,23 0.13 0,08

0,19 0,23

0,23 0,11

0.15 0,06

0,04 0,03

0.5

2 2 2

0,11 0,2

0,23 0.3

0,32 0.1

0.23 0,24

0.24 0.06

0,18 0.24

0,24 0,1

0,18 0.09

0,08 0,03

0,07

3 0,13 0.14

0.16 0.31

0,3 0.08

0.25 0.18 0,09

0,21 0,23

0,28 0,08

0.2 0.1

0,02 0.01

(15)

-14-

Wartości parametru Fo w 3 replikacjach wypowiedzi tego samego mówcy C26-sylabowe zdanie3 TABELA 4

p o 2 y c

j E

S Y L

A B

Repl 1 —

kacje 1 2 3

NNN 0,08 0,04 0,04 o.ia

0,08 0,07

0,09 0,05

A 0,12 0,28 0,28 0,32

0,09 0,39 0,29 0,36

0,35 0,28 0 ,09 0.28 NNN 0,32

O.OS

0,3 0,03 0,03 0,08

0,3 0,05

A 0,05 0,29 0,29 0,31

0,05 0,32 0,32 0,3

0,05 0,3 0,3 0.28

NNNNNN 0,21 0.7 0,13 0,13

0,23 0.3

0,2 0,4

A 0,05

0.22

0,03 0.21

0.12 0.21 0,21 0.1

N 0,4 0,21

0,01

0.16 0,04

A 0.4 0.6 0,13

N 0,107 0,02 0,13

0,08

A 0.36

0,37

0,06 0,36

0,37

N 0,18

0,11

0,18 0,05

0,21 0,11

A 0,11

0,1

0,05 0,13

0,11

NN 0,1 0,11

0,01

0,1

A 0,035 0,01 0,05

0,03

N 0,03 O 0,03

A 0,02 - 0,01

O

(16)

- 15 -

Wartości średnie parametru Fo dla 3 mówców w 12-stu zdaniach.

Oznaczenia: Fpd — początkowa wartość parametru Fo w zdaniach rozpoczynających się od spółgłoski dźwięcznej, Fpb - wartość początkowa Fo w zdaniach rozpoczynających się od spółgłoski bezdźwięcznej, FA1 - wartość maksymalna na pierwszej sylabie akcentowanej, Fmax - wartość maksymalna Fo w całej w ypowie­

dzi, FAk-1 - wartość maksymalna Fo na przedostatniej sylabie akcentowanej, FAk - na ostatniej sylabie akcentowanej

TABELA 5

Nr zdani a

Nr

mówcy Fpd Fpb f ai F

max f a x-i FAk

1 0,16 0,39 0,38 0,38 0.04 0,02

1 2 0.11 0,29 0,32 0,32 0,02 -

3 0.2 0,25 0,3 0,3 0,08 0,01

1 0,06 0,09 0, 42 0,42 0.06 0,02

2 2 0,15 0,17 0,35 0,35 0,15 0.07

3 0,08 0.09 0,3 0,3 0,1 0

1 0,07 0.8 0,36 0.36 0,16 0.05

3 2 0,12 0,13 0,32 0,32 0,21 0,08

3 0,11 0,1 0.39 0,39 0,19 0.07

1 O,OS 0,2 0,35 0.35 0,18 0,08

4. 2 0,13 Q. 1 4 0,31 0,31 0,21 0,1

3 0.11 0,08 0,3 0.3 0.16 0,06

1 0,06 0.08 0,32 0.32 0.07 0,03

5 2 0,17 0.2 0,25 0,25 0,1 0,04

3 0,09 0.1 0,28 0,28 0,08 0

1 0,13 0.32 0,29 0,29 0,08 0,01

6 2 o.og 0.25 0.2 0,2 0,18 0,16

3 0,16 0,26 0,24 0.26 0.1 0,04

1 0,14 0.36 0.36 0.36 0.1 0,05

7 2 0,16 0.26 0,18 0,18 0,16 0,04

3 0,18 0,24 0,26 0,26 0.14 0,07

1 0.13 0,36 0,39 0,41 0,16 0,05

8 2 0,17 0.28 0.32 0,3 0.19 0,08

3 0.14 0,26 O, 36 0,39 0,12 0,03

1 0,06 0.3 0,32 0,52 0,08 0,01

9 2 0.12 0.18 0,3 0,38 0,14 -

3 0.04 0.5 0,33 0,48 0,13 0.03

1 0,22 0,42 0. 43 0,48 0,16 0.01

io 2 0,16 0,33 O. 38 0,39 0,13 0,08

3 0,18 0,28 0, 43 0.5 0,09 -

(17)

- 16 -

T A BELA 5 cd.

Nr zdania

Nr

m ó w c y Fpd Fpb f ai F

m ax FAk-l f a*

1 0,08 0,08 0,38 0,38 0,12 0,01

11 2 0,14 0.06 0,33 0,34 0,14 -

3 0,15 0,18 0,28 0.3 0,16 0.03

1 0,2 o oo *

0,35 0,35 0 . 16 0.01

12 2 0,16 0,29 0.3 0,3 0,08 0,02

3 0,11 0,22 0,28 0.3 0.06 -

4. Analiza, przebiegów parametru Fo w zdaniach złożonych

Dla a n a l i z y częstotliwości podstawowej w zdaniach w i elofrazowych wybrano materiał lingwistyczny, zawierający f r a gmenty r e p o r t a ż y oraz wiadomości Czał.3). P r z y g otowane zdania r ó ż n i ł y się m i ę d z y sobą pod względem liczby, s t r uktury i długości p o szczególnych fraz. CW przyjętym znaczeniu fraza o znacza odcinek mowy, z a w i e r a j ą c y się między znakami interpunkcyjnymi).

Poszczególne f r a z y składały się z różnej liczby grup akcentowych 0 odmiennych strukturach 1ingwistyczno-fonetycznych. Jako grupę akcentową zde f i n i o w a n o prozodyczną jedność s k ładającą się z s y laby akcentowanej oraz sąsiednich sylab nieakcentowanych.

Kompleksowa, zwłaszcza statystyczna, ocena czynników wpływających na kontur częstotliwości podstawowej w zdaniu z ł o ż o n y m wymaga przygotowania i przeanalizowania bardzo dużej liczby danych.

T e c hniczna analiza cech p r o z o d y c z n y c h , ekstrakcja częstotliwości podsta w o w e j , segmentacja sygnału wymaga znacznego nakładu p r a c y i manualnej korekty danych.

E f e k t y w n y m rozwiązaniem wydaje się analiza zróżnicowanego lingwistycznie materiału, wybór różnych konfiguracji wzorców intonacyjnych podobnie realizowanych przez poszczególnych mówców 1 stopniowe poszerzanie bazy danych przez analizę różnorodnych tekstów.

Prz e p r o w a d z o n o ekstrakcję parametru Fo oraz segmentację

(18)

- 17 -

po szczególnych wypowiedzi na sylaby, a wyniki analiz w postaci d a n y c h cyfrowych zapisano w pamięci komputera. Wstępnej ocenie po d d a n o replikacje wypowiedzi trzech osób. Wiarygodny pomiar częstotliwości podstawowej z głosu czwartego mów c y był utrudniony, z uwagi na częste nieregularne obniżanie przez niego tonu podstawowego poniżej 65 Hz.

Analiza dziewięciu replikacji C3 mówców x 3 powt ó r z e n i a ) , wykazała możliwość oceny podobieństw i zróżnicowań konturów i n t onacyjnych w obrębie poszczególnych wypowiedzi.

W tabeli 6 podano przykładowo wartości parametru Fo w p e wnych charakterystycznych punktach konturów intonacyjnych dla 9-c i u replikacji 4-frazowego zdania. Analizując dane dla poszczególnych mówców, zauważa się cechy indywidualne w realizacji konturów intonacyjnych. Na przykład mówca nr 3 k o n s ekwentnie stosuje na ostatniej sylabie frazy wzrost kontynuacyjny. Dla porównania konsekwencji w realizacji różnych struktur intonacyjnych przez Jednego mówcę podano w załączniku 4 p r z y k ł a d danych ilustrujących przebiegi parametru Fo C w 3 repli kacjach} na kolejnych sylabach bardzo długi e g o C65- sylabowegoD zdania.

T A B E L A 6

Wartości parametru Fo w kolejnych fazach wypowiedzi

"Korzystając z okazji, jaką było spotkanie z grupą dziennikarzy włoskich, pułkownik Muamar ICadafi oświadczył, że n ie wyklucza

swojego udziału w następnych wyborach we Włoszech".

Przez Fp oznaćzono wartość początkową parametru Fo, przez FAp, F A k , FNk — odpowiednio: maksymalne wartości

częstotliwości podstawowej na pierwszej sylabie akcentowanej, końcowej akcentowanej i ostatniej sylabie

nieakcentowanej frazy

Mówca 1 2 3

Nr replikacji i 2 3 1 2 3 1 2 3

FP 121 126 131 120 121 116 98 101 98

<U. 136 204 232 142* 170 160 162 176 179

UNIWERSYTECKA

(19)

18-

T A B E L A 6 cd

Mówca 1 2 3

Nr replikacji 1 2 3 1 2 3 1 2 3

W A R T O s c

p A R A M E T R U

F O

FAk 92 89 132 111 104 1OO 80 111 lOO

FNk 80 82 93 1 03 90 85 116 107 117 F

P 9 0 99 91 1 15 1 06 H O 93 107 lOl Fap 1 12 129 121 * 151 142 1 48 150 131 126**

Fak 88 102 150 90 89 90 88 87 91

FNk 152 160 1 29 167 160 150 91 113 116 F

P 10 6 120 1 22 1 2 3 121 119 101 lO O 98 F ap 12 6 142 150 1 60 1 82 170 186 1 50 1 60

Fak 86 126 1 02 111 1 30 120 113 89 88

FNk 116 132 128 9 6 1 69 135 99 113 116 F

P lOl 06 115 124 104 H O 98 1 OO 107 Fap 129 121 * 110* 1 57 1 72 160 124 167 120

Fak 88 98 112 1 05 l OO 111 92 85 1 01

FNk 81 84. 89 9 8 89 85 80 83 82

(20)

-19-

S tr u k tu r y 1 2 - s t u zdań.

Literą A oznaczono pozycję sylaby leksykalnie akcentowanej.

L i terą N p ozycję sylaby nieakcentowanej.

Z A Ł Ą C Z N I K 1

1. A N N A N N A N N A N N A N 2. N A N N A N N A N N A N N A N

3. N A N N A N N A N A N N A N N A N N A N N N A N 4. N N A N N A N N A N

5. A N A N A N A N A N 6. A N A N A

7. A N A N A N

8. A N A N N N N A N A N A N N N N N A N N N A N N 9. N N A N N N A N N A N N A N N A N A N A N A N

10. A N N N N A N N A N N A N N A N N A N N A N A N A N A N N N A N A N

11. N A N A N A N 12. A A A

(21)

-20-

Wartości współczynników korelacji dla O replikacji wypowiedzi

"Londyn ma zostać Jedyną s tolicą europejską nie posiadającą ogrodu zoologicznego"

Z A Ł Ą C Z N I K 2

Row Varl Var2 Var3 Var 4 Var 5 Var6 Var 7 Var8 Var9

1 1 0,94 0,89 0,85 O CD *

0,90 0,80 0,84 0.81 2 0,94 1 0,94 0.88 0,97 0,92 0,78 0,86 0.88 3 0,89 0,94 1 0,95 0,96 0,93 0,72 0,85 0.78 4 0,85 0,88 0,95 1 0,91 0,85 0,75 0,89 0.76 5 0,94 0,97 0,96 0,91 1 O CD

0,78 0,88 0.86 6 0,90 0,92 0,93 0,85 0,94 i 0,72 0,79 0.82 7 0,80 0,78 0.72 0,75 0,78 0,72 t

1 0,91 0.68

8 0,84 0,86 0,85 0,89 0,88 0.79 0,91 1 0,74 9 0,81 0,88 0,78 0,76 0,86 0.82 0.68 0.74 1

(22)

-21-

Z A Ł A C Z N I K 3

Fragmenty analizowanych tekstów:

1.

Przez Jeden dzień pasażerowie podróżujący m oskiewskim metrem nie musieli uiszczać żadnej opła t y za przejazd. Sta ł o s i ę tak za sprawą umowy. Jaką dyrekcja metra podpisała z pe w n ą amerykańską firmą. która zgodziła s ię opłacić kosz t y J e dnego dnia eksploatacji, w zamian za. c i ągłe nadawanie programu reklamowego.

Wysokość transakcji nie została ujawniona. Jednak amerykańscy przedsiębiorcy - po otrzymaniu wyników badania skuteczności oddziaływania tej formy re k l a m y -zdecydowali, ż e d o końca roku opłacą Jeszcze dwa dni darmowej Jazdy.

a.

Korzystając z okazji. Jaką było sp o t k a n i e z grupą dziennikarzy włoskich, pułkownik Muamar Kadafi oświadczył, że nie wyklucza swojego udziału w następnych wyborach prezydenckich we Włoszech. Zdziwionym rozmówcom wyjaśnił, ż e urodził s ię Jako obywatel włoski i nikt mu oficjalnie tego obywatelstwa nie odebrał. Kadafi przedstawił też zarys s wojego programu.

Najważniejszym punktem okazało się wypędzenie Amerykanów, których imperialistyczne zapędy ograniczają - Jego z d aniem - wolność Włoch.

3.

Londyn ma zostać Jedyną s tolicą europejską nie posiadającą ogrodu zoologicznego. Mimo ciągnących się Już od dw ó c h miesięcy d y s k u s j i , nadal nie ma źródła, z którego można b y finansować działalność tej liczącej s to pięćdziesiąt lat instytucji. Władze miasta nie mają brakującej s u m y Cokoło dwudziestu Jeden milionów dolarów), a rząd odmawia subwencji. W ogrodzie przebywa osiem tysięcy zwierząt, z których większość - w razie likwidacji zoo - zostanie uśpiona, gdyż w związku z zastojem na międzynarodowym

rynku zoologicznym nie ma ns nie nabywców.

(23)

. ..

(24)

- 23 -

Przebiegi parametru Fo na kolejnych sylabach, w 3 replikacjach wypowiedzi. Przez Fp oznaczono wartość początkową parametru Fo na sylabie, przez Fk - wartość końcową.

Z A Ł Ą C Z N I K 4

z te 1 e wi zyj ne go ki na noc ne go wciąż z s ym FP

Fk i

129 126

126 1 23

121 116

128 152

150 119 146 116

126 102

102 lOO

lOO lOO

170*

155 93 89

152 165

115 115

F 124 120 115 115 134 126 131 93 81 156 167 150 140 Fk 120 115 H O 134 165 120 96 84 80 176*1 48 144 123 F

rP 122 120 126 138 182*162 148 105 92 148 165 124 134 rk 118 1 20 116 182 173 150 105 92 93 165 138 113 113

pat wspo mi nam - czło wi e ka n któ ry s i ę

F 132 140 113 105 105 116 113 113 106* 95 102 Fk

i 116 124 H O 105 108 98 117 105 95 95 92

FP Fk

2

144 117 142 8 2

108 117

117 121

123 115

121 106

155 152

142 136

126 112

112 110

119 97 FP

Fk 3

140 140 138 113

116 119

119 120

119 123

115 107

132 131

117 115

115 99

99 90

106 89

zmniej szał n film zga tun ku fik cji na u ko wej pi F 110 80 117* 106 102 102 98 86 86 93 126 196

Fk

1 81 78 97 102 104 lOO 86 86 93 93 196 169

FP Fk

2 98 83

83 75

148* 105 1OO 1OO

106 100

lOO lOO

80 82

95 83

83 85

85 80

132 152

152 208 FP

Fk

3 111

87

87 126 94

83 94 94 92

97 96

107 106

93 81

80 80

80 78

123 140

140 172

(25)

-24-

więc ra czej fan tas tycz n y i ra czej

FP Fk

1 152 lOO

92 92

92 90

91 86

97 93

89 87

126 117

129 121

128 129

128 131

129 112 K

P 117 128 117 101 112 88 134» 134 99 91 88 '

*-k 121 111 117 84 93 86 130 132 91 88 88

pp 107 105 89 85 104 90 121 138 92 82 80

*-k 95 84 85 80 95 87 111 144 81 80 78

nie na u ko wy n

1 19 140 93 126 146 1 40 93 90 146 1 89

88 112 97 136 131 1 20 97 97 131 144 1 07 115 90 117 124 1 15 83 90 124 170

a le za to po bu dza Ją 157 1 50 1 07 1 08 116 96 1 0 0 96 150 103 105 106 112 87 85 86 138 1 40 152 148 140 131

140 144 152 150 131 99

10 8 100 84 98 148 179 160 160 162 129 121 98 179 138 158 1 52 142 121 8 0 96

cy wy ob ra i nię 86

83 96 87

87 86

83 83

83 75 86

87 87 80

83 84 8 6 101 84 91

87 87

84

92 85

80 75

74

(26)

- 25 -

Bi bl i ogr af i a

C13 Steffen-Batogowa M.

Analiza s t r u ktury przebiegu melodii polskiego języka ogólnego, rozprawa doktorska, Poznań, 1963.

[2] Jassem W. , Demenko G.

On Extracting Linguistic Information from Fo Traces, w:

Intonation in Discourse C c .Johns-Lewis ed.), Croom Helm, London 1-18, 1986.

C3] Demenko G. , J a s s e m W. , Krzyśko M.

C lassification of basic Fo patterns using discriminant functions, Phonetica, 41, 1-12, 1988.

[4] Kohler K.J.

Prosody in speech synthesis: the interplay between basic research and T T S application, Journal of Phonetics, 19, 121-138, 1991.

£53 Imiołczyk J. , Nowak J. , Demenko G.

A Text-to-Speech System for Polish Eurospeech Proceedings, 1993, V o l .2, s s .885-889.

[63 Demenko G. , Nowak J. , Imiołczyk J.

Analysis and Synthesis of Pitch Movements in a Read Polish Text, Eurospeech Proceedings, 1993, Vol 2, ss.793-797.

[73 Nöth E.

Prosodische Information in der automatischen Spracherkennung, Max Niemeyer Verlag, Tübingen 1991.

UNIWERSYTECKA Torung ^

Cytaty

Powiązane dokumenty

Właściwe odczytanie kontekstu którego jednym z elementów jest podtekst, czyli treści, która w tekście jest wypowiedziana nie wprost, ale w ten sposób, aby

Samborskiego (już na gruncie kodeksu postępowania karnego z 1997 r.). wydane właśnie opracowanie autorstwa P. zabłockiego, sędziów Sądu najwyż- szego, nie jest zatem pierwszym w

Jeśli chodzi o podobne obrazy zawarte w dziele Krasińskiego, to pojawiają się przy okazji opisu doliny, w której masy ludowe gromadzą się do ostatniego szturmu; generalnie

Based on the EFMC 2013 and 2014 papers, our meetings with academics and practitioners, and the responses to our interviews with practitioners, it can be concluded that added value and

The anammoxosome contains the vast majority of cellular iron in the form of cofactors within Fe–S proteins and multi-heme cytochromes [ 4  ], which are involved in the oxidation

Do takich dziedzin można zaliczyć zmiany polityczne, administracyjne (te zachodzą stosunkowo rzad- ko), transport (sieci dróg zmieniają się już znacznie szybciej),

Zgodnie z Paktem państw a członkowskie strefy euro m uszą przedkładać każdego roku program y stabilizacji, które określają średnio­ okresowy cel polityki