• Nie Znaleziono Wyników

Widok Stylizacja tonów tajskich za pomocą Prosogramu

N/A
N/A
Protected

Academic year: 2021

Share "Widok Stylizacja tonów tajskich za pomocą Prosogramu"

Copied!
14
0
0

Pełen tekst

(1)

S

t

y

l

i

z

a

c

j

a

t

o

n

ó

w

t

a

j

s

k

i

c

h

z

a

p

o

m

o

c

ą

P

r

o

s

o

g

r

a

m

u

Stylisation of Thai tones using Prosogram

M

a

r

c

i

n

W

ł

o

d

a

r

c

z

a

k

InstytutJęzykoznawstwa,Uniwersytetim.AdamaMickiewicza

ul.Międzychodzka5,60-371Poznań Marcin.Wlodarczak@gazeta.pl

Abstract

The aim of this study is to establish whether stylisation of F0 contours based on d'Alessandro and Mertens's model of tonal perception can be successfully applied to lexical tones of Central Thai. The percentage of correct r espon ses to the manipulated stimuli was found to be significantly lower than the results for natural tones reported in literature on the subject.

0. Wst

ę

p

Niniejszapracamanaceluocenęprzydatnościzaproponowanejprzezd’AlessandroiMertensa metodystylizacjiprzebiegówczęstotliwościpodstawowejdoopisutonówleksykalnych centralnegodialektujęzykatajskiego.Część1.stanowikrótkiprzeglądnajważniejszychmetod opisuintonacji.Część2.poświęconajestwykorzystanemutumodelowid'AlessandroiMertensa. Wczęści3.zebranezostałypodstawowedanedotyczącepercepcjitonówleksykalnych, wraz z opisemichinwentarzawjęzykutajskim.Części4.i5. poświęconezostałyzkolei odpowiednio:opisowiprzeprowadzonegoeksperymentuorazzestawieniuiomówieniuwyników.

1. Systemy stylizacji intonacji

Głównymfizycznymkorelatemwysokościdźwiękujestczęstotliwośćpodstawowa.PrzebiegF0 niemożebyćjednakuznanyzajejwpełniadekwatnąreprezentację,jakożezmianyczęstotliwości podstawowejwmowiezależąodszereguinnychczynników,takichjak:wysokośćwłasna samogłosekispółgłosek,charakterystykaźródładźwięku,siłafonacji(Pluciński2003:161). Czyni towszelkiemetodyautomatycznegoczyteżpółautomatycznegoopisuprzebiegu częstotliwościpodstawowejniezmierniecennymitakdlafonetykideskryptywnej(automatyczna analiza i transkrypcjaintonacji),jakistosowanej(naturalniebrzmiącamowasyntetyczna, systemy rozpoznawaniamowy).Istniejącemetodymożnapodzielićnatrzygrupy:anotację(ang.labeling),

modelowanie i stylizacja (por. Fujisaki, Ohno, Wang 1998).

Pierwszaznichpolegana(ręcznejlubautomatycznej)identyfikacjiisymbolicznymzapisie kluczowychelementówkonturu.Dosystemówtakichnależąm.in.ToBI(Silvermanet al. 1992),

INTSINT (Hirst, Di Cristo 1998) oraz STEM-ML (Kochanski, Shih 2001). Ten ostatni stosowany

V E S T IG A T IO N E S

L

ING U IS T IC A E

,

V O L

.

XIII;

P

O Z N A Ń

,

D

E C E M B E R

2006

(2)

byłdoopisutonówleksykalnychdialektówmandaryńskiego(Shih,Kochanski 2000) i kantońskiego(Lee,Kochanski,Shih,Li2002)językachińskiego.

Modelowanieopierasięnazałożeniu,żezmianyF0 wmowiesąuwarunkowaneprzez neuromotorycznekomendy,niosąceznaczenielingwistyczneiparalingwistyczne.Podejścieto wykorzystano w modelu Fujisakiego. Przebieg F0 jesttutajsumąasymptotycznejwartości częstotliwościpodstawowej(ang.baseline value of fundamental frequency), intonacji frazowej

i strukturyakcentowej,kształtowanychodpowiednioprzezkomendyfrazoweikomendy akcentowe (Fujisaki, Ohno, Wang 1998: 1-2). System ten pozwala na oddzielenie od siebie obu rodzajówskładowych(por.Pluciński2003:159).Stosowanogodoopisuwielujęzyków1

, w tym językówtonalnych:chińskiego(Fujisaki,Ohno,Wang1998;Mixdorff,Hu,Chen 2003), wietnamskiego (Dung, Mixdorff et al. 2004; Mixdorff 2003; Mixdorff, Hung et al. 2003) oraz tajskiego (Potisuk, Harper, Gandour 1995; Mixdorff, Luksaneeyanawin, Fujisaki, Charnvivit 2002; Mixdorff 2003; Mixdorff, Luksaneeyawin et al. 2003).

Trzeciezwymienionychpodejść,stylizacja,poleganaekstrakcjielementówkonturuistotnych zpunktuwidzeniakomunikacji(Mertens2005)czyteż,wniecościślejszymujęciu,zastąpieniu oryginalnego przebiegu F0 prostsząfunkcjąliczbową,zachowującąjednakjegomakroprozodyczną informację(Campione,Hirst,Veronis2000).Wzależnościodtego,czydanametodauwzględnia charakterystykępercepcji,wyróżnićmożnastylizacjęakustycznąipercepcyjną(d'Alessandro, Mertens 1995)2.

1.1. Stylizacja akustyczna

Stylizacja akustycznaopierasięnainterpolacjipunktówzwrotnych,będącychmiejscami,gdzie korelacjamiędzykolejnymiwartościamiF0 aichprzybliżeniemspadaponiżejwyznaczonej wartości,przyczympunktzwrotnystanowizarazempunktdocelowypoprzedzającego go fragmentukonturu.Możliwejestprzyjęcieapriorycznychparametrówfunkcjiinterpolujących lubteżaproksymacjazapomocąanalizyregresji.Liczbapunktówdocelowychzależy od zastosowanejmetody:wąskiej(dużopunktówdocelowych)lubszerokiej(małopunktów docelowych)(por.Pluciński2003:159-161). Kwestiąspornąjestturodzajinterpolacji.ItaknaprzykładHirstiEspesserkwestionujątezę 't Harta('tHart1991),jakobyinterpolacjaliniowa,niebędącazresztąwedługnichrozwiązaniem ekonomiczniejszym,byłanieodróżnialnapercepcyjneodaproksymacjizapomocąparaboli;nie podająjednakżadnychkonkretnychargumentównapoparcietegostwierdzenia3 (Hirst, Espesser 1993).Uważajątakże,żeaproksymacjazapomocąkrzywych,jakodokładniejsza,pozwala w większymzakresieporównywaćwynikistylizacjizkonturemoryginalnym.Wtejsamejpracy autorzyproponująsystemMOMEL(MOdélisationdeMELodie)– stylizacjęopartą na aproksymacjizapomocąfunkcjisklejanejdrugiegostopnia.Skutecznośćmodeluoceniano poprzezporównywaniewizualnekonturuoryginalnegoiuzyskanegowwynikustylizacji, obliczanieśredniejodległościmiędzynimioraznieformalneodsłuchy. Innyminteresującympodejściemjestwyznaczaniepunktówzwrotnychnapostawiedyskretnej transformaty falkowej (ang. discrete wavelet transform)(Wang,Narayanan2005),wktórejsygnał zostajerozłożonynadwieskładowe:aproksymację(niskoczęstotliwościoweskładowesygnału) i detal(wysokoczęstotliwościoweskładowesygnału)zapomocąkomplementarnychfiltrów:dolno- igórnopasmowego.Proceduratapowtarzanajestdlaskładowejniskoczęstotliwościościowej na każdymkolejnympoziomiedekompozycji,dająctzw.drzewodekompozycjifalkowej(por. Rak, Makowski 2006; Polikar 2001). W omawianej pracy zastosowano dekompozycję pięciopoziomową. Głównąwadąstylizacjiakustycznejjestnieidentyfikowaniezmianniepercypowanych, jak równieżuśrednianiezdarzeńpercypowanychoddzielnie(Pluciński2003:161). 1 M.in.japońskiego,angielskiego,niemieckiego,greckiego,koreańskiegoihiszpańskiego. 2

Terminy stylizacja i modelowanie będąodtądużywanezamiennie. 3

„SincequadraticsplinefunctiongivesacloserapproximationtorealF0 curves than do straight lines, it is, in our opinion, quite possible that these differences will be appreciable under certain circumstances. Even though subjects may claim that they are unable to distinguish certain stimuli it is well known that under certain circumstances thesestimulimaygiverisetodifferentreactions”(Hirst,Espesser1993:78;podkr. moje – M.W.).

(3)

1.2. Stylizacja percepcyjna

PostępowaniewopracowanympoczątkowodlajęzykaholenderskiegomodeluIPOopierasię na założeniu,żeprzebiegczęstotliwościpodstawowejmożebyćskutecznieaproksymowanyprzy pomocyzsynchronizowanychznagłosem,standaryzowanychliniiprostych.Teprototypowe odcinkistanowiąpodstawowejednostki intonacyjne danego języka.Wzałożeniutwórcówsygnał oryginalnyizresytnetyzowanypowinnybyćodsiebienieodróżnialne,wpraktycewymógtennie byłjednakrealizowany(por.Campione,Hirst,Veronis2000).Wsystemietymprzyjmujesię milczącezałożeniedotyczącenormalnegotempamowy.Metodaniewymagauprzedniej segmentacjisygnałunasylaby,opierasięjednakjedynienakonturachF0,nieuwzględniając mechanizmówpercepcjiintonacji(por.Pluciński2003:161-162).

2. Automatyczna stylizacja percepcyjna

W zaproponowanym przez d'Alessandro i Mertensa percepcyjnym modelu intonacji (d'Alessandro, Mertens1995)zmianywysokościgłosusąaproksymowanezapomocąprostoliniowych segmentówtonalnych4

wyznaczanych na podstawie progu glissanda (ang. glissando threshold) i różnicowegoprogu glissanda (ang. differential glissando threshold).Wyrażanywpółtonachna

sekundę(ST/s)prógglissanda(Gtr) odpowiada najmniejszej dostrzegalnej zmianie F0 i pozwala podzielićtony5

nadynamiczne(wartośćzmianF0 przekracza próg glissanda)istatyczne(wartość zmian nie przekracza progu glissanda). Z kolei różnicowy prógglissanda to„najmniejsza

dostrzegalnaróżnicawnachyleniu(zboczu)konturukoniecznadorozróżnieniadwóchkolejnych glissand”(Pluciński2003:162).Womawianejpracyróżnicowyprógglissanda jest zdefiniowany

jakoróżnicawyrażonychwpółtonachnasekundęwspółczynnikównachyleniasegmentów tonalnych.Przyjmujeonwartościdodatniedlakrzywychwypukłychiwartościujemnedla krzywychwklęsłych.Cowięcej,jegowielkośćjestwprostproporcjonalnadowspółczynnika nachylenia,niezależnieodjegoznaku.Ustalono,żetakzdefiniowanyróżnicowyprógglissandadla zmianwysokościgłosuprzyjmujewartościzprzedziału<12,40>,brakjednakdanych eksperymentalnych dotyczącychjegodokładnejwartości. Postępowaniewmodelusprowadzasiędopięciunastępującychkroków: 1 Określenieparametrówfizycznych(F0,intensywność,detekcjafragmentówdźwięcznych i bezdźwięcznych,etc.) 2 Wstępnasegmentacjasygnałuakustycznego(oraz przebiegu F0)najednostkidługości sylaby

3 Integracja percepcyjna chwilowych zmian F0 lubwygładzanieprzebieguF0 bazujące na odpowiednichwłasnościachpercepcjisłuchowej

4 WtórnasegmentacjaprzebieguF0 nasegmentytonalneiintegracjazmianwysokościgłosu zgodnie z progiem glissanda (detekcjastatycznychlubdynamicznychsegmentów tonalnych)iróżnicowegoprogu glissanda (detekcjarosnącychlubopadającychsegmentów tonalnych).Natymetapieprzetwarzaniadosegmentówtonalnychprzypisywane są wartościdocelowe. 5 Kategoryzacjasegmentówtonalnychwramachdanegosystemujęzykowego Naszczególnąuwagęzasługujekrokprzedostatni,tj.właściwastylizacjakonturuF0. Autorzy przyjmujązałożenie,żemożliwejestprzybliżeniekażdegoprzebieguwysokościgłosuzapomocą segmentówtonalnych,taknapoziomiesylaby,jakicałejwypowiedzi(d'Alessandro,Mertens 1995:263).Abyjednakstylizacjatakabyłamożliwa,koniecznajestsegmentacjatonówzłożonych (np.rosnąco-opadających).Polegaonanaznalezieniuw przebiegupunktówzwrotnych„poprzez dopasowywanieliniiprostejdopunktówwidzianychprzezoknoczasoweipoprzezobliczanie różnicpomiędzydopasowanąliniąawartościamitonu.Punktnajbardziejodstającyobierano za punktzwrotnyizapotencjalnągranicęsegmentutonalnego”(Pluciński2003:163).Analiza 4

Segment tonalny odpowiada fragmentowi wypowiedzi, dla którego „theperceivedpitchshowsauniformslope(either level,risingorfalling)”(d'Alessandro,Mertens1995:263).

5

Autorzyużywająterminu tone w znaczeniu „thepitchobjectperceived for a stretch of speech corresponding to a phoneticsyllable”(d'Alessandro,Mertens1995:263).

(4)

powtarzanajestrekursywniedomomentu,gdywspółczynnik glissanda6 całegosegmentu zawartego w oknie analizy jest mniejszy od progu glissanda lubgdyróżnicawmiejscu potencjalnej granicy segmentu tonalnegospadaponiżej1półtonu.Procedurętęprzedstawia schematycznie Ryc. 1.

Rycina1:Segmentacjatonówzłożonychpoprzezwyznaczaniepunktówzwrotnych (d'Alessandro, Mertens 1995:271)

Rycina2:Łączeniepotencjalnychsegmentówtonalnychwoparciuoróżnicowypróg

glissanda oraz interpolacja liniowa punktówzwrotnych(d'Alessandro,Mertens1995:271) Każdyzsegmentówjestpotencjalny,ponieważdwasąsiadującezsobąsegmentymogązostać połączone,jeśliróżnicaichwspółczynnikównachyleniaspadnieponiżejwartościróżnicowego progu glissanda.Ostatnimetapemjestinterpolacjaliniowapunktówzwrotnych.Procedurę tę ilustruje Ryc. 2. Abyocenićskutecznośćmodeluautorzyprzeprowadzilitestpercepcyjny,wktórym słuchaczomzaprezentowanoparysygnałówzłożoneznaturalnychwypowiedzifrancuskichoraz tychsamychwypowiedzipoddanychstylizacjiprzyróżnychwartościachproguglissanda i różnicowegoproguglissanda,anastępniezresyntetyzowanychzapomocąmetodyTD-PSOLA 6 Współczynnikglissandatoszybkośćzmianczęstotliwościpodstawowej,wyrażonawST/s(d'Alessandro,Mertens 1995: 264).

(5)

(Time Domain Pitch Synchronous Overlapp-Add)7.Wprzypadkukażdejparyzadaniemsłuchaczy byłopodjęciedecyzji,czyobasygnałysąjednakowe,przyczymniebylioniproszeniozwracanie szczególnejuwaginaintonacje.Wypowiedzistylizowaneprzyproguglissanda równym0,16ST/s

iróżnicowym progu glissanda równym0,20ST/sokazałysięnieodróżnialneodwypowiedzi naturalnychw67,72%przypadków8

. Jakjednakzauważająautorzy:„Many subjects reported that they could distinguish signals on the basis of changes in some aspects of sound quality rather than on the basis of intonation”(d’Alessandro,Mertens1995:282),wyniktenmożnawięcuznaćza wysoki. Systemtenstosowanotakżedomodelowaniakonturówintonacyjnychjęzyka koreańskiego(Ratajszczak2005).WtymwypadkuposłużonosięprocedurądyskryminacjiABX, zaśgrupaodsłuchowaskładałasięzdwóchdwunastoosobowychzespołów:pierwszystanowili rodzimimówcyjęzykakoreańskiego,drugi– rodzimimówcyjęzykapolskiegonieznającyjęzyka koreańskiego.Materiałbadawczyskładałsięznaturalnychwypowiedzikoreańskich9 , wypowiedzi poddanych stylizacji przy progu glissanda równym0,16ST/sorazwypowiedzi,wktórych dokonanowyraźnychmodyfikacjiwzakresieprzebieguF0

10.Wbrewoczekiwaniom,słuchacze koreańscyzwysokąskutecznościąidentyfikowali wypowiedzi naturalne oraz poddane stylizacji (76,85%poprawnychodpowiedzi);dużowiększetrudnościmieliztymnatomiastsłuchaczepolscy (55,56% poprawnych odpowiedzi).

3. T

o

n

y

l

e

k

s

y

k

a

l

n

e

j

ę

z

y

k

a

t

a

j

s

k

i

e

g

o

Niniejszapracastawiasobiezacelocenęprzydatnościtejmetodywbadaniachtonówleksykalnych językatajskiego.Wydajesiętomożliwe,gdyż,popierwsze,modeltenabstrahujeodcech konkretnychjęzyków11 oraz,podrugie,opierasięnawłasnościachukładupercepcyjnego człowiekaijakotakipowinienpoprawnieopisywaćwszelkiezjawiskamakroprozodyczneoparte nazmianachczęstotliwościpodstawowej. Języktajski,oficjalnyjęzykKrólestwaTajlandii,posiada5dystynktywnychtonów leksykalnych(Abramson1962:9),wjęzykoznawstwiezachodnimokreślanych tradycyjnymi nazwami:tonśredni(ang. mid tone), ton niski (ang. low tone),tonopadający(ang.falling tone),

ton wysoki (ang. high tone)itonrosnący(ang.rising tone)12.Tonyopadającyirosnący

klasyfikowanesąjakokonturowe,pozostałezaś– jako rejestrowe.

Kluczowymdlaniniejszejpracyproblememjestpytanie,czysamaczęstotliwośćpodstawowa umożliwiapoprawnąidentyfikacjętonówtegojęzyka.Badaniatakiezostałyprzeprowadzoneprzez Abramsona(Abramson1975).Wswoichtestachużyłonsyntetycznej sylaby [khaː](zestałą amplitudą),naktórąnałożyłpochodzącezwcześniejszejpracy(Abramson1962)uśrednione kontury, tu przedstawione na Ryc. 3.

7 Wrzeczywistości,abyzapewnićjednakowąjakośćdźwięku,zresyntetyzowanotakżesygnałniepoddanyuprzednio stylizacji. 8 Dlaporównania,parynieróżniącychsiędosiebie,naturalnychsygnałówuznanozajednakowew89,76%przypadków. Dlawiększościsłuchaczyhipotezazerowastwierdzającabrakróżnicmiędzytymiwynikamizostałaodrzucona na poziomieistotnościrównym0,01. 9 Inaczejniżwteścied’AlessandroiMertensa,wypowiedzinaturalneniezostałyzresyntetyzowane. 10 Wprowadzenieostatniegorodzajuwypowiedzimiałozapobiegaćsytuacjom,wktórych„słuchaczenasiłę szukaliby różnicwprezentowanychwypowiedziachlubuznalibywtrakcietestu,żewszystkie3bodźcejednejkolejkiA,BorazX brzmiątaksamo”(Ratajszczak2005:40). 11 Należy tujednakprzytoczyćuwagęautorówmodelu, którzyzastrzegli,że „Themodelwastestedforonelanguage only, i.e. contemporary French as spoken in France; and this could be seen as a limitation. It is clear that segmental and suprasegmental properties of French may favour a certain approach which could be less successful for other languages. For instance, syllabic decomposition is an important feature of French (when compared to English, say), and the set of possiblepitchmovementsisratherlimited(againwhencomparedtoEnglish)”(d’Alessandro, Mertens 1995: 286). 12 Wniniejszejpracybędąoneoznaczaneodpowiedniojako:t1,t2,t3,t4it5.

(6)

Rycina3:Uśrednionekonturytonówjęzykatajskiego(napodstawieAbramson1962:126)

Uzyskany wynik(92,8%poprawnychodpowiedziwporównaniuz98,6%dlasygnałów naturalnych)wskazuje,żeF0 istotniestanowiwystarczającąwskazówkędlanatywnychmówców językatajskiego.Wyniktenuległdalszejpoprawie(wzrósłdo96,1%poprawnychodpowiedzi), gdy doużytychwpoprzednimdoświadczeniusylabdodanocharakterystycznedladanegotonu zmiany amplitudy. SamAbramsontłumaczyłtofaktem,że„changes in the contraction of certain laryngeal muscles and in subglottal air pressure can separately or together produce variations in the fundamental frequency of the voice. These mechanisms are also available for controlling intensity of phonation and thus variations in the overall amplitude of the speech signal. To a certain extent, then, the two acoustic features, F0 and amplitude, may co-vary”(Abramson1975:5),wydajesię jednak,żeustaleniedokładnegozwiązkumiędzyprzebiegiemF0azmianamiamplitudyoraz wpływutychostatnichnapercepcjętonówwymagałobyoddzielnychbadań. Pewnąrolęwpoprawnejidentyfikacjitonówodgrywarównieżinformacja o charakterystycznym dla danegomówcyinterwaletonalnym.Dotyczytoszczególnietonów średniegoirównego,wykazującychnajmniejszązmiennośćczęstotliwościpodstawowej,przy czymbłędnaidentyfikacjatonurównegojakoniskiegozdarzasięczęściejniżsytuacjaodwrotna. Bowiem chociażobatetonycharakteryzująsięspadkiemczęstotliwościpodstawowej(por.Ryc. 3),jestonmniejgwałtownydlatonuśredniegoiwpewnychprzypadkach„the downdrift of the mid tone [...] may be enough to make some listeners uncertain and cause them to assign the only possible other choice, namely the low tone”(Abramson1976:9).

Coważnewkontekścieniniejszejpracy,tensambadaczwinnymmiejscu(Abramson1975) sprawdzałrozpoznawalnośćtonówtajskichpozastąpieniukonturóworyginalnychkonturami o przebieguprostoliniowym.Dotestówużytosyntetycznychsylab,naktórenałożono16płaskich konturówtonalnychzzakresu92-152Hzróżniącychsiękażdorazowoo4Hz.Sylabytezostaływ niemal 100% zidentyfikowane jako tony rejestrowe (98% odpowiedzi): ton wysoki rozpoznawano najczęściejprzywartościF0 równej152Hz(87,7%odpowiedzi),tonśredni– przy 116 Hz (73% odpowiedzi), a ton niski – przy 92 Hz (90,1% odpowiedzi). W przypadkużadnejsylabynie byłowięcpełnejzgodnościwśródsłuchaczy– nawet sylabyuzyskującenajwyższewynikiwdanej kategoriiprzypisywanodopozostałychkategoriirejestrowych.

W pracy The Thai Tonal Space (Abramson1997)autorprzedstawiłwynikitrzech analogicznychdoświadczeńzkonturamiprostoliniowymi,tymrazemjednakwartośćF0 niebyła stała,alezmieniałasięwobrębiesylaby.Wpierwszymteścieużyto16konturówostałejwartości początkowejwynoszącej106Hziwartościachkońcowychzprzedziałuod90do152Hz,takjak w poprzednimeksperymencieróżniącychsiękażdorazowo o 4 Hz. Zgodnie z przewidywaniami,

(7)

procentidentyfikacjitonuśredniegookazałsięnieznaczny(maksymalnie39%odpowiedzi dla wartościkońcowejrównej106Hz).Potwierdziłosiętakżeprzypuszczenie,żedolnewartości docelowesązbytniskie,aspadkizbytpowolnedlatonuopadającego– kategoriatawogóle nie pojawiłasięwśródodpowiedzi.Zdrugiejjednakstrony,najwyższewartościkońcoweokazały sięwystarczające,abywywołaćusłuchaczywrażenietonurosnącego(maksymalnie64% odpowiedzi, 2 sylabyuzyskaływynikpowyżej50%),rezultattenjestjednakniższyniż w przypadkutonówwysokiego(7sylabzwynikamiwyższymiod50%)iniskiego(5sylab powyżej50%imaksimumwynoszące90%odpowiedzi).Drugieksperymentróżniłsię od pierwszegoczęstotliwościąpoczątkową,wynoszącątu90Hz,wartościkońcowenieuległy zmianie.Wynikipotwierdziłytrzyzczterechhipotez:(1)Wartośćpoczątkowajestzbytniskadla tonuśredniego(maksymalnie10%odpowiedzi,dlawyższychwartościdocelowychliczba odpowiedzispadłado0);(2)SilniejszywzrostwartościF0 spowodowałwporównaniu z poprzednimtestemwiększąliczbęidentyfikacjitonurosnącego;(3)Dwiedolnewartości końcowebyłyidentyfikowaneprzezuczestnikówgłówniejakotonniski,jednakniecowyższy wynikwteściepoprzednimzdajesięsugerować,żenieznacznyspadekwzmagapercepcyjną wyrazistośćtegotonu.Wbrewoczekiwaniom,jedenzkonturówzostałrozpoznanyjakotonwysoki ażw40%przypadków.Wostatnimeksperymencieustalonostałąwartośćkońcową(152 Hz), zaś wartośćpoczątkowązmienianowzakresie90-152Hzo4Hz.Jaksięspodziewano,słuchacze rozpoznalijedynietonywysokiirosnący,przyczymczęściejidentyfikowanymtonembył ton wysoki(wystąpiłatakżezaniedbywanailośćrozpoznańtonuniskiego).

4. Eksperyment

Wniniejszejpracywynikiwyżejwymienionychbadańposłużyłyzapodstawęporównańdla rozpoznawalnościtonów,którychkonturypoddanostylizacjipercepcyjnejwProsogramie– implementacji opisanego w punkcie 2. modelu d'Alessandro i Mertensa (Mertens 2004). Prosogram13 jest makropoleceniem Praata (Boersma, Weenink 2006), darmowego programu do analizymowy.PrzykładowyprozogramprzedstawiaRyc.4.

Rycina4:Prozogramwypowiedzifrancuskiej„Cesséduranttoutesesannéesdoncdevous penchersurlesortdesfemmes”(segmentacjaautomatyczna).Linieniebieskieoznaczają

oryginalny kontur F0, czarne – kontur uzyskany w wyniku stylizacji percepcyjnej, zielone – intensywnośćdźwięku,alinieseledynowe– głośnośćdźwięku (Mertens, 2005: http://bach.arts.kuleuven.be/pmertens/prosogram/) Dotestuużytosylabę[thaː]wpięciuwariantachtonalnychwymówionąprzez8natywnych użytkownikówjęzykatajskiego(dialektucentralnego):4kobietyi4mężczyzn14.Początkowo planowanozastosowaćautomatycznąmetodędetekcjijądersylabicznychnapodstawieróżnic głośności,okazałosiętojednakniemożliwe,jakożepowodowałaonabłędy.Wlicznych przypadkach(szczególniedlatonurosnącego)programznajdowałdwamaksimagłośności w obrębiejednejsamogłoskiidokonywałosobnejstylizacjikażdegoztakwyznaczonych segmentów,pomijającprzytymfragmentśrodkowy(Ryc.5).Możliwejestzapewneusunięcietego 13 Korzystano z wersji 2.30. 14 Nagraniazostaływykonaneprzezdr.JanuszaKleśtę(InstytutJęzykoznawstwa,UAM).

(8)

błędupoprzezobniżenieodpowiedniejwartościprogowejwkodzieźródłowym.Wtejsytuacji zdecydowanosięzastosowaćsegmentacjęręczną;dotegocelutakżewykorzystanoPraata. Jeśli danasylabazawierałasegment,wobrębiektóregowystępowałyaperiodycznedrganiafałdów głosowych(ang.creaky voice),odcinkategonieobejmowanostylizacją15.Wprzypadkukażdej z 40sylab(8mówców,5wariantówtonalnych)przeprowadzonostylizacjęprzyczterechróżnych wartościachprogu glissanda (0.16ST/s,0,24ST/s,0,32ST/si0,40ST/s),anastępnie zresyntetyzowanoje(PSOLA)zapomocąPraata.Wefekcieuzyskano160sygnałów16,które następniezrandomizowanoi,abyzapobiecznużeniusłuchaczy,podzielonona5partiipo32sylaby każda.Odstępmiędzysygnałamiwkażdejgrupieustalonona4sekundy,zaśmiędzypartiami następowaładłuższa,kilkunastosekundowaprzerwa. Rycina5:Błędnadetekcjajądersylabicznychprzywyborzemetodyautomatycznej Grupęodsłuchowąstanowiłotrojenatywnychmówcówcentralnegodialektujęzykatajskiego (1mężczyznai2kobiety),obecnychlubbyłychlektorówtegojęzykawInstytucie JęzykoznawstwaUAM.Badanieprzeprowadzonowcichympomieszczeniuzwykorzystaniem komputeraPCwyposażonegowstandardowegłośniki.Zadaniemsłuchaczybyłozaznaczenie rozpoznanego przez nich tonu na karcieodpowiedzipoprzezzakreślenieodpowiedniegoznaku tonalnego.Wceluuniknięcianieporozumieńzwiązanychzróżnymisposobaminotacjitonów zastosowanotradycyjneznakiużywanewortografiitajskiej;tonśredni,któryniemaswojego ortograficznego symbolu,oznaczonojakopółpauzę.

5. Wyniki

Ogółempoprawnierozpoznanychzostało71,25%tonów(342z480odpowiedzi).Należyjednak pamiętać,żejesttowynikzbiorczydlawszystkichczterechwartościprogu glissanda. Rozpatrywanypodtymwzględemprzedstawiasięnastępująco(Tabela1): Tabela 1:Procentpoprawnychodpowiedzidlaposzczególnychwartościproguglissanda WARTOŚĆPROGU GLISSANDA PROCENT POPRAWNYCH ODPOWIEDZI LICZBA ODPOWIEDZI 0,16 69,17% (83) 120 0,24 73,33% (88) 120 0,32 71,67 % (86) 120 0,40 70,83% (85) 120 15 NagłezmianyF 0 występującewtakichprzypadkachprowadziłydogenerowaniaprzezprogrambłędów,natomiast wygładzaniekonturówdawałowysocenienaturalneefekty. 16 Zrezygnowanozprzeprowadzeniadodatkowegotestuzsylabaminaturalnymi,przyjmując,żerodzimiużytkownicy językatajskiegosąwstanieidentyfikowaćtonytegojęzykazpoprawnościąbliską100%.Hipotezętępotwierdzają przytaczanewyżejwyniki,jakrównież,pośrednio,funkcjapełnionaprzeztonyleksykalnewsystemiejęzykowym. 150 Hz t h a k1-t5 0 80 90 100 G=0.32/T2 loudness Prosogram v2.3

(9)

Wynikite,bardzozbliżonedowynikuogólnego,zdająsięsugerować,żewartośćprogu glissanda niemaznaczącegowpływunapoprawnąidentyfikacjętonów.Wceluzweryfikowania tejhipotezyprzeprowadzonotestχ2 na niezależność.Wartośćempirycznaχ2 =0,53okazałasię niższaodwartościkrytycznejχ2 α;df,któraprzy3stopniachswobodyipoziomieistotnościrównym 0,05wyniosła7,82,niebyłowięcpodstawdoodrzuceniahipotezyzerowej,stwierdzającej niezależność tychdwóchzmiennych.Uzyskanerezultatysąjednakwyraźnieniższeniżwtestach z sylabaminaturalnymi(98,6%poprawnychodpowiedzi),jakizkonturamiuśrednionymi(92,8%) (Abramson 1957). Najlepiejidentyfikowanymtonemokazałsiętonopadający– 83 poprawne odpowiedzi (86,46%).Jednakowywynikuzyskałytonywysokiiniski– po 75 poprawnych odpowiedzi (78,13%). Trzecirezultatuzyskałtonrosnącyz66poprawnymiodpowiedziami(68,75%). Tylko 43razyrozpoznanopoprawnietonrówny(44,79%).(Zob.takżeRyc.7).

Wynikizrelatywizowanedowartościprogu glissanda przedstawia Ryc. 6.

0,16 0,24 0,32 0,4 0,00% 5,00% 10,00% 15,00% 20,00% 25,00% 30,00% 35,00% 40,00% 45,00% 50,00% 55,00% 60,00% 65,00% 70,00% 75,00% 80,00% 85,00% 90,00% t1 t2 t3 t4 t5 Wartośćproguglissanda P ro ce n t p o p ra w n yc h o d p o w ie d zi Rycina6:Procentpoprawnejidentyfikacjiposzczególnychtonów wzależnościodwartościproguglissanda Jakwidać,wynikitecoprawdaróżniąsięznacznieodsiebie(np.wprzypadkutonuniskiego różnicadladwóchpierwszychwartościproguglissanda wyniosłaaż16,67%),niezaobserwowano jednaksystematycznegospadkuliczbypoprawnychodpowiedziwrazzewzrostemwartościprogu glissanda. Wprzypadkutrzechzczterechwartościprogu glissanda potwierdziłasiędominacjatonu opadającego(maksymalnie87,5%).Rezultattenjestjednakniższyodprzytaczanychprzez Abramsonawynikówdlasylabnaturalnych(99,1%)oraz„idealnych”konturów(97,8%)17 . Jedynie przy progu glissanda równym0,16ST/snajlepszywynik(także87,5%)należy do tonu niskiego. Jest to zarazemjedynyprzypadekwcałymteściezbliżaniasiędowyników eksperymentuzkonturami„idealnymi”(87,3%dlatonuniskiego);zdrugiejjednakstronytonten, oboktonuniskiego,byłwbadaniachAbramsonaidentyfikowanyowielesłabiejodpozostałych. Takżeprzynajwyższejwartościproguglissanda tonniskibyłrozpoznawanyzdużąpoprawnością (83,33%),przyczymwynikitenieznalazłyodzwierciedleniawpozostałychprzypadkach. Tonrównyosiągnąłnajniższywynikwcałymteście(37,50%przyprogu glissanda równym 0,16ST/s)orazwposzczególnychkategoriach.Cociekawe,jegonajwyższywynik,równy54,15% dla progu glissanda równego0,24ST/s,jestniższyniżwteście,wktórymjakomateriał odsłuchowyposłużyłysylabyzestałąwartościączęstotliwościpodstawowej (maksymalnie 73% poprawnych odpowiedzi dla F0 = 116 Hz).

17

Pomijamyturzeczjasnawynikuzyskanyprzystałejczęstotliwościpodstawowej,którydlategotonuwyniósł maksymalnie 0,3% poprawnych odpowiedzi przy F0 równej100oraz148Hz.

(10)

Tonwysokibyłwprawdzieidentyfikowanyzdośćwysokąskutecznościąprzyśrodkowych wartościachproguglissanda,jednakdlawartościskrajnychprocentpoprawnejidentyfikacji

wyniósłjedynie70,83%.Najwyższywynik,87,50%dlaGtr = 0,24 ST/s, jest niemal identyczny jak wprzypadkusylabostałejwartościF0 równej152Hz(87,7%).Cowięcej,sylabyzrosnącymi liniowo konturami F0 byłyrozpoznawanelepiej,bomaksymalnieażw97%(F0 początkowerówne 133HzistałeF0 końcowerówne152Hz).WpozostałychtestachAbramsonamaksymalnyprocent poprawnejidentyfikacjitegotonuwyniósłodpowiednio:97,7%(„konturidealne”),75%(stałeF0 początkowerówne106Hz,F0 końcowerówne124Hz)oraz40%(staławartośćpoczątkowarówna 90Hziwartościkońcowezprzedziału100-120Hz).Słabarozpoznawalnośćwdwóchostatnich przypadkachjestzresztązrozumiała,jakożezarówno106Hz,jaki90Hzsązbytniskimi wartościamipoczątkowymidlatonuwysokiego. Dziwićmożetakżedośćniskiwynikdlatonurosnącego.Tontennależyzwykledonajlepiej identyfikowanychnawetwprzypadkumówcównienatywnych(Fedak2005),tutajnatomiast procentpoprawnejidentyfikacjiwyniósł75%dlaGtr = 0,32 ST/s i 66,67% dla pozostałych wartościproguglissanda.OpróczwynikudlawartościpoczątkowejF0 równej106Hz (maksymalnie64%przykońcowejwartościF0 wynoszącej152Hz),rezultattenbyłwięcznacznie niższyoduzyskanychwpozostałycheksperymentachprzeprowadzonychprzezAbramsona (maksymalniepo90%poprawnychodpowiedziprzystałejczęstotliwościpoczątkowejrównej90 Hziwartościkońcowejrównej148Hzorazprzyczęstotliwościpoczątkowejrównej90Hzistałej częstotliwościkońcowejwynoszącej152Hz;99,1%wprzypadku„idealnychkonturów”)18 . Ryc.7przedstawiarozkładodpowiedzidlakażdegoztonów.Sątowynikizbiorczedla wszystkichwartościprogu glissanda. Rycina7:Rozkładodpowiedzidlaposzczególnychtonów (wynikizbiorczedlawszystkichwartościproguglissanda) Wwynikachtychznajdujeodzwierciedlenieogólnatendencjazaobserwowanawśród rodzimychmówcówjęzykatajskiego,polegającanamyleniutonuśredniegozniskiminaodwrót (Abramson1976,Shapiro[rokwydanianieznany]).Dajesiętakżedostrzecwyraźnąprzewagę pomyłekpierwszegorodzaju,copozostajewzgodziezprzytaczanąpowyżejuwagąAbramsona. (Abramson1976:9).Pomyłkitesąwręczo9,38%częstszeodrozpoznańpoprawnych. Jest to szczególniewidoczneusłuchaczkiK2,któraudzieliłajedynie7poprawnych odpowiedzi na 32wystąpieniatonurównegowcałymteście(21,88%),przyczympoprawnaidentyfikacjaniebyła wtymprzypadkuuzależnionaodwartościproguglissanda (5zbłędnierozpoznanychsylabzostało

poddanych stylizacji przy Gtr = 0,24 ST/s, 6 – przy Gtr = 0,32 ST/s, 7 – przy Gtr = 0,40 ST/s i 7 – przy Gtr =0,16ST/s).Należytakżezauważyć,żesylabytebyłypoprawnieidentyfikowaneprzez pozostałychsłuchaczy,którzywykazalizresztąwkategoriitonuniskiegoniemalcałkowitą zgodnośćcodo swoich odpowiedzi – jedynymwyjątkiembyłbłądpopełnionyprzezsłuchaczaM1, 18 Podobniejakwprzypadkutonuopadającegoabstrahujemytuodwynikudlastałejczęstotliwościpodstawowej (maksymalnie 0,1% poprawnych odpowiedzi przy F0 = 100 Hz).

t1 t2 t3 t4 t5 0,00% 10,00% 20,00% 30,00% 40,00% 50,00% 60,00% 70,00% 80,00% 90,00% t1 t2 t3 t4 t5 Ton wykonany P ro c e n t id e n ty fi k a c ji

(11)

któryrozpoznałtonopadający.Poprawnośćwyniosławichprzypadku56,25%itakżeniebyła uzależnionaodwartościproguglissanda (po8błędnierozpoznanychsylabdlaGtr = 0,16 ST/s i Gtr=0,32ST/sorazpo6przypadkówdlaGtr = 0,24 ST/s i Gtr =0,40ST/s).Zgodnośćwśród wszystkichsłuchaczywyniosłazaledwie21,88%(7z32sylab). Ton niski – pozajednymwyjątkiem,kiedyzidentyfikowanogojakotonrosnący– byłmylony z tonemśrednim(po7błędówpopełnionoprzyproguglissanda równym0,24i0,32ST/s,4błędy przy0,40ST/si2błędyprzy0,16ST/s).WtymprzypadkusłuchaczkaK2uzyskałazkoleiwynik najlepszy,zjedyniedwomabłędnymiodpowiedziami.Zgodnośćwśródwszystkichsłuchaczy wyniosładlategotonu62,5%(20sylabna32);zaśdlasłuchaczyM1iK1– 84,36% (27 sylab). Tonopadającybyłprzeważniemylonyztonemniskim,byłytojednakbłędystosunkowo rzadkie(2błędyprzyGtr =0,40ST/sorazpo3pomyłkiprzy pozostałychwartościachprogu glissanda),coznalazłoodbiciewogólnymwynikutegotonu.Słuchaczejednakoworozpoznali 30 z 32 sylab (93,75%). Owielewyraźniejszajestbłędnaidentyfikacjatonuwysokiegojakoopadającego,szczególnie dla skrajnych wartościprogu glissanda. Trzebajednakzauważyć,żew15przypadkachna16błędy

tepopełniłsłuchaczM1.Zgodnośćwśródwszystkichsłuchaczywyniosławięcjedynie37,5% (12 z 32sylab),słuchaczkiK1iK2jednakowozidentyfikowałyaż87,5%(28)sygnałów. Ton rosnącymylononatomiastgłównieztonemopadającymiwysokimoraz,wmniejszym stopniu,ztonemniskim.ZapomyłkipierwszegorodzajuodpowiadaponowniesłuchaczM1 (9 na 11razy).Należyprzytympodkreślić,żezarównowtym,jakiwpoprzednimprzypadku wszystkieudzieloneprzezniegobłędneodpowiedzipojawiłysięwdrugiejczęścitestu(dlatonu wysokiegopocząwszyod80.sygnału,dlatonurosnącego– odsygnału116.),możnabywięc przypisaćjeznużeniu.Zdrugiejjednakstronyanalogicznezjawiskoniewystąpiłoutejosoby w przypadkutrzechpozostałychtonów,trudnozatemuznaćjezareprezentatywne.Zkoleimylenie tonurosnącegozwysokimjestnajsilniejdostrzegalneusłuchaczkiK2(10na14przypadków), nie zależyjednakodwartościproguglissanda (po3pomyłkiprzyGtr = 0,24 ST/s i Gtr = 0,40 ST/s oraz po 2 przy Gtr = 0,16 ST/s i Gtr =0,32ST/s).Słuchaczebylizgodniwprzypadku13z32sylab (40,63%). Ciekawewynikiprzynosiporównaniepowyższychdanychzbłędamipopełnianymiprzez słuchaczy w przeprowadzonych przez Abramsona testach z sylabami naturalnymi i wyidealizowanymikonturami.Głównąróżnicąmiędzynimi,oczywiścieopróczwiększejilości pomyłekwdrugimprzypadku,jestwiększerozproszenieodpowiedzi.Itak,tonyśredniiniski są identyfikowanejakotony:średni,niski,opadającyiwysoki.Tonyopadającyirosnący są mylonezewszystkimipozostałymi,atonwysokizewszystkimiopróczniskiego.Podtym względemwynikiuzyskanewniniejszejpracysąbardziejzbliżonedowynikówdlasygnałów niepoddanychmanipulacji.Możetoświadczyćotym,żezresyntetyzowanesylabyniosą wskazówkipercepcyjneskuteczniezapobiegającemyleniuzsobąpewnychtonów(np.niskiego z opadającym).Zdrugiejjednakstrony,tesamewskazówkiznacznieutrudniająodróżnianie od siebieinnychtonów(niskiegoiśredniego,opadającegoiniskiego).Innymisłowy,wywołane przezstylizacjęprzesunięciawprzestrzenipercepcyjnejmogłyspowodowaćzwiększeniedystansu międzypewnymitonamiijednocześniejegozmniejszeniemiędzytonamiinnymi.Zgodność ta możebyćjednakrównieżspowodowananiewielkimrozmiaremgrupyodsłuchowej. Takskonstruowanytestniepozwalaoczywiścienabezpośredniewnioskowanieonaturalności zresyntetyzowanychsygnałów.Biorącjednakpoduwagę fakt,żenatywnimówcyjęzykatajskiego sąwstanieidentyfikowaćnaturalnetonytegojęzykazniemalstuprocentowąpoprawnością,wynik osiągniętywprzeprowadzonymprzeznasbadaniumożeświadczyćotym,żebrzmienieużytych w nimsylabbyłodalekieodnaturalności.Dopodobnychwnioskówdoszlisłuchacze po zakończeniutestu.Przypuszczalioninawet,żebyćmożemówcyużywająinnegoniżcentralny dialektulubnawetżeniesąwogólenatywnymiużytkownikamijęzykatajskiego.

(12)

6. Podsumowanie

Testy percepcyjne przeprowadzonezudziałemtakniewielkiejgrupyodsłuchowejniemogąrzecz jasnarościćsobieprawadoreprezentatywności.Niniejszapracapowinnabyćwięcuważana jedyniezaprzyczynekdobadańzakrojonychnawiększąskalę.Uzyskanetuwynikiwskazują jednoznacznie,żestylizacjatonówtajskichzapomocąProsogramunieprzynosioczekiwanych rezultatów.Procentpoprawnejidentyfikacjizresyntetyzowanychsylabokazałsięnietylkoniższy odwynikówuzyskanychdlasylabnaturalnychiuśrednionychkonturówF0,ale,coszczególnie istotne,wwiększościtakżedlasylabsyntetycznychzprostoliniowymprzebiegiemczęstotliwości podstawowej,niezależnieodprzyjętejwartościproguglissanda.Wśródniektórychsłuchaczy

zaobserwowano silne tendencje do mylenia pewnychtonów,zktórychprzynajmniejczęśćmoże okazaćsięreprezentatywnawprzypadkuwiększejgrupyodsłuchowej.

(13)

Bibliografia:

Abramson, A. S. 1962. The vowels and tones of standard Thai: Acoustical measurements and experiments. w: Indiana University Research Center in Anthropology, Folklore and Linguistics. Bloomington.

http://www.haskins.yale.edu/Reprints/HL0035.pdf [data dostępu: październik, 2006]

Abramson, A.S. 1975. The tones of central Thai: Some perceptual experiments. w: J.G. Harris, J.R. Chamberlain (Eds.) Studies in Tai Linguistics. In honor of William J. Geddney. Bankok: Central Institute of English Language. http://www.haskins.yale.edu/Reprints/HL0191a.pdf [data dostępu: październik, 2006]

Abramson, A. S. 1976. Thai tones as a reference system. w: T.W. Gething, J.G. Harris, P. Kullavanijaya (Eds.) Thai linguistics in honor of Fang-Kuei Li. Bangkok: Chulalongkorn University Press.

http://www.haskins.yale.edu/Reprints/HL0215.pdf [data dostępu: październik, 2006]

Abramson, A.S. 1997. The Thai tonal space. w: A.S. Abramson (Ed.) Southeast Asian Linguistic Studies in honour of Vichin Panupong. Bangkok: Chulalongkorn University Press.

http://www.haskins.yale.edu/Reprints/HL1074.pdf [data dostępu: październik, 2006]

D'Alessandro, C., Mertens, P. 1995. Automatic pitch contour stylization using a model of tonal perception, Computer Speech and Language, 9(3), 257-288.

http://bach.arts.kuleuven.be/pmertens/papers/csl1995.pdf [data dostępu: wrzesień, 2006]

Boersma, P., Weenink. D. 2006. Praat: doing phonetics by computer (Wersja: 4.4.30) [Program komputerowy].

http://www.praat.org [data dostępu: wrzesień, 2006]

Campione, E., Hirst, D., Veronis, J., Automatic Stylization and Symbolic Coding of F0: Implementations of the INTSINT Model. w: A. Botinis (Ed.) Intonation. Research and Applications. Dordrecht: Kluwer.

http://www.up.univ-mrs.fr/veronis/pdf/2000Campione.pdf [data dostępu: październik, 2006]

Dung, T.N., Mixdorff, H. et al. 2004. Fujisaki Model based F0 contours in Vietnamese TTS. w: Proceedings of ICSLP2004. Jeju.

http://www.tfh-berlin.de/~mixdorff/thesis/files/dung_mixdorff_icslp2004.pdf [datadostępu:grudzień,2006] Fedak, A. 2006. Percepcjatonówtajskichprzezpolskichsłuchaczy.Poznań.(Nieopublikowanapracamagisterska

napisana pod kierunkiem prof. dr hab. P.Łobacz).

Fujisaki, H., Ohno S., Wang, C. 1998. A command-response model for F0 contour generation in multilingual speech synthesis, w: Proceedings of the 3rd ESCA/COCOSDA International Workshop on Speech Synthesis. Jenolan Caves. 299-304.

http://www.slt.atr.co.jp/cocosda/jenolan/Proc/r51/r51.pdf [datadostępu:grudzień,2006]

’tHart,J.,1991.F0 stylization in speech: straight lines versus parabolas. Journal of the Acoustical Society of America, 6, 3368-3370.

Hirst, D., Espesser, R. 1993. Automatic modeling of fundamental frequency using a quadratic spline function, Travaux de l'InstitutdePhonétiqued'Aix, 15, 71-85.

http://aune.lpl.univ-aix.fr/ ~hirst/articles/1993%20Hirst&Espesser.pdf [datadostępu:październik2006] Hirst, D., Di Cristo, A. 1998. A survey of intonation systems. w: D. Hirst, A. Di Cristo (Eds.) Intonation Systems: A

Survey of Twenty Languages. Cambridge: Cambridge University Press.

http://aune.lpl.univ-aix.fr/~hirst/articles/1998%20Hirst&DiCristo.pdf [datadostępu:listopad,2006] Lee, T., Kochanski, G., Shih, C., Li, Y. 2002. Modeling tones in continous Cantonese speech. w: ICSLP 2002. Denver.

http://prosodies.org/papers/2002/stemml-cantonese.pdf [datadostępu:listopad,2006]

Mertens, P. 2004. The Prosogram: Semi-Automatic Transcription of Prosody based on a Tonal Perception Model. w: B. Bel, I. Marlien (Eds.) Proceedings of Speech Prosody 2004. Nara.

<http://bach.arts.kuleuven.be/pmertens/papers/sp2004.pdf>[datadostępu:grudzień2006]

Mertens, P. 2005. The Prosogram. http://bach.arts.kuleuven.be/pmertens/prosogram [datadostępu:wrzesień2006] Mixdorff, H., Luksaneeyanawin, S., Fujisaki, H., Charnvivit, P. 2002. Perception of Tone and Vowel Quantity in Thai.

w: Proceedings of ICSLP2002. Denver.

http://www.tfh-berlin.de/~mixdorff/thesis/files/mixdorff_luksaneeyanawin_icslp2002.pdf [datadostępu:grudzień, 2006]

Mixdorff, H. 2003. Modeling Prosody in a Cross-language Perspective. w: SASRTL Workshop, Szczyrk.

http://www.tfh-berlin.de/~mixdorff/thesis/files/mixdorff_sasrtl2003.pdf [datadostępu:grudzień,2006] Mixdorff, H., Hu, Y. and Chen, G. 2003. Towards the Automatic Extraction of Fujisaki Model Parameters for Mandarin.

w: Proceedings of Eurospeech 2003. Geneva.

http://www.tfh-berlin.de/~mixdorff/thesis/files/mixdorff_fujisaki_eurosp2003.pdf [datadostępu:grudzień,2006] Mixdorff, H., Hung, N. et al. 2003. Quantitative Analysis and Synthesis of Syllabic Tones in Vietnamese.

w: Proceedings of Eurospeech 2003. Geneva.

http://www.tfh-berlin.de/~mixdorff/thesis/files/mixdorff_bach_eurosp2003.pdf [datadostępu:grudzień,2006] Mixdorff, H., Luksaneeyawin, S. et al. 2003. Modeling Rhythmic Variation in Thai and its Application to Speech

Synthesis. w: Proceedings of ICPhS2003. Barcelona.

http://www.tfh-berlin.de/~mixdorff/thesis/files/mixdorff_luksaneeyanawin_icphs2003.pdf [datadostępu: grudzień, 2006]

Pluciński,A.2003.Modelowaniezmianprozodycznychnapotrzebysyntezymowy.Scripta Neophilologica

Posnaniensia, Tom V, 153-191.

Polikar, R. 2001. The Wavelet Tutorial. http://users.rowan.edu/~polikar/WAVELETS/WTtutorial.html [datadostępu: grudzień,2006]

(14)

Potisuk, S., Harper, M., Gandour, J.T. 1999. The Classification of Thai Tones in Connected Speech using the Analysis by Synthesis Method, IEEE Transactions on Speech and Audio Processing, Vol. 7, No. 1, 91-102.

ftp://ftp.ecn.purdue.edu/harper/papers/toneieee.pdf [datadostępu:listopad,2006] Rak, R.J., Majkowski, A. 2006. Analiza czasowo-częstotliwościowasygnałów.

< http://wazniak.mimuw.edu.pl/index.php?title=Laboratorium_wirtualne_1/Modu%C5%82_5_-_%C4%87wiczenie_5> [datadostępu:grudzień,2006]

Ratajszczak, G. 2005. Testowaniesystemudopółautomatycznejanalizyintonacji.Poznań.(Nieopublikowanapraca magisterska napisana pod kierunkiem prof. dr hab. P.Łobacz).

Shapiro, L. [brak roku wydania] Perception of Thai tones by naive and native listeners of Thai.

http://grove.ufl.edu/~linclub/focus/shapiro.pdf [datadostępu:październik,2006] Shih, C., Kochanski, G. 2000. Chinese Tone Modeling with Stem-ML. w: ICSLP 2000. Pekin.

http://www.prosodies.org/tutorial2002/papers/01232.pdf [datadostępu:listopad,2006]

Shih, C., Kochanski, G. 2003. Prosody Modeling with Soft Templates. Speech Communication, 39, 3-4, 311-352.

http://prosodies.org/papers/SpeechComm1_2001.pdf [datadostępu:listopad,2006]

Silverman, K., Beckman, M., Pitrelli, J., Ostendorf, M., Wightman, C., Price, P., Pierrehumbert, J., Hirschberg, J. 1992. ToBI: a standard for labelling English prosody. w: ProceedingsofICSLP’92. Banff. 867-870.

Wang, D. Narayanan, S. 2005. Piecewise Linear Stylization of Pitch Via Wavelet Analysis. w: INTERSPEECH 2005. Lisbon. 3277-3280. http://sail.usc.edu/publications/dagen_shri_euro_final.pdf [datadostępu:listopad,2006]

Cytaty

Powiązane dokumenty

The analysis of his poems created at the peak of Polish modernity, his concrete poetry and particularly his manifestos – the focal point of his artistic

The utterances which include the verb хотѣти in the present tense form refer to the intention of the subject of the proposition to take action, expressed by the infi nitive,

Motu proprio Ecclesiae Sanctae ustanowiło odpowiednie normy, które mają ułatwić przechodzenie duchownych z jednej diecezji do innej dla speł­ niania tam

Sesja odbywająca się w auli CNBCh pozwoliła więc zintegrować młodych biologów i chemików, którzy być może za kilka lat będą ramię w ramię pracować właśnie

die Arbeiten von Fe-i ndt. Bei einern starken Druckgefdlle von m 1 erhielt Kraemer einer Wert von etwa 700, wobei sich hier die Stromung nach ciner gewissen Lauflange

Speci fically, I present results of several experiments carried out on both human listeners and DNN-based ASR systems on the representation of speech and lexically-guided

Osłabły zatem — choć w nierównym stopniu — wszystkie cechy czyniące w poprzednim okre­ sie ze świadomości rewolucyjnej formę świadomości społecznej, zaczął się proces

Pomimo geograficznego rozprzestrzenienia ośrodków działalności aktorów, specyfika pracy solistów i naukowców wpływa na fakt, iż osoby pracujące w danej specjalności znają