dr hab. inż . Artur Janicki

(1)

dr hab. inż. Artur Janicki email: A.Janicki@tele.pw.edu.pl, pok. 407

Zakład Cyberbezpieczeństwa Instytut Telekomunikacji PW

(2)

 Kodowanie źródła – podstawowe informacje

 Sygnał mowy – informacje ogólne, jak powstaje mowa

 Analiza sygnału mowy – w dziedzinie czasu i częstotliwości

 Model psychoakustyczny

 Cyfryzacja sygnału audio – próbkowanie i kwantyzacja

 Techniki kompresji – predykcja

 Kodowanie mowy i audio – przykłady

 Badanie jakości sygnału mowy

(3)

 Źródło – część systemu telekomunikacyjnego, generująca wiadomości

 Informacja

 miara wartościująca wiadomość

 ilość informacji zależna odwrotnie od P wiadomości

 Kodowanie – przyporządkowanie wiadomościom słów kodowych do celów transmisji

 Nie mylić kodowania z szyfrowaniem!

Artur Janicki, ZCB IT PW

(4)

 Kodowanie (kompresja) bezstratne a stratne

 Podstawowe parametry:

 stopień kompresji = rozmiar danych na wejściu / rozmiar danych na wyjściu

 efektywność kodowania (ograniczenie Shannona!)

 Przykłady algorytmów kompresji:

 bezstratnej:

 algorytm Huffmana,

 metody słownikowe (LZx),

 kodowanie arytmetyczne

 stratnej:

 z wykorzystaniem kwantyzacji: liniowej, wektorowej, adapt.

 z wykorzystaniem predykcji (LPC)

 z wykorzystaniem transformaty: DCT, falkowej, KLT

(5)

 Liczba bitów przypisana wiadomości zbliżona do ilości informacji niesionej przez wiadomość

 Łączenie elementów w pary, zaczynając od elementów o najmniejszym prawdopodobieństwie

(6)

 Audio – łac. słyszę

 Sygnały audio – w szczególności:

◦ sygnał mowy

◦ sygnały muzyczne

(7)

 Transmisja: kodowanie, kompresja mowy, audio

 Synteza mowy

 Rozpoznawanie sygnału mowy

 Rozpoznawanie mówcy

 Poprawa jakości sygnału mowy (odszumianie, PLC itp.)

 Rozpoznawanie emocji

 Ewaluacja jakości transmisji mowy / audio

 Transformacja głosu

 Ukrywanie informacji w sygnale audio (watermarking, steganografia)

 Rozpoznawanie sygnałów muzycznych

 Sądowe przetwarzanie sygnału mowy

 …

(8)

(9)

Artur Janicki, ZCB IT PW [http://www.businessinsider.com/]

(10)

[bloombergbusinessweek.pl‎]

(11)

Sygnał mowy – informacje ogólne

(12)

1. Jama nosowa

2. Podniebienie twarde

3. Dziąsła

4. Podniebienie miękkie

5. Przednia część języka

6. Środkowa część języka

7. Języczek

8. Tylna część języka

9. Jama gardłowa

10. Nagłośnia

11. Fałszywe więzadła głosowe

12. Więzadła głosowe

13. Krtań

14. Przełyk

15. Tchawica Zęby

(13)

 YouTube: Anatomical Tutorial During Trans-Nasal Endoscopy

(Fauquier ENT Consultants, Varrenton, Virginia)

(14)

 Fonem - najmniejsza jednostka systemu dźwiękowego danego języka, pozwalająca różnicować znaczenie wyrazów:

(p) of pić vs. (b) of bić

 Alofon – jeden z fonetycznych wariantów fonemu, zależny od jego otoczenia:

(t) w: top, stop, trzy, kot, metal, bity Difon – para fonemów

(15)

(16)

 Samogłoski:

e

 Spółgłoski:

◦ wybuchowe:

◦ trące: h

◦ zwarto-trące: d d

◦ nosowe:

◦ boczne: ( )

◦ aproksymanty: j w

◦ drżące:

(17)

Analiza sygnału audio i sygnału mowy

(18)

 Sygnał quasi-stacjonarny

 Fragmenty bezdźwięczne i dźwięczne - pseudookresowość

 Czasy trwania poszczególnych segmentów

(19)

 Transformata Fouriera

 Odwrotna transformata Fouriera

 Dlaczego ją wykorzystujemy?

◦ łatwa interpretacja fizyczna

◦ ułatwia obliczenia

◦ dla sygnałów okresowych można użyć T zamiast 









 g t e dt f

G( ) ( ) ^j²^^ft

)]

( [ )

( f F g t

G 

)]

( [ )

(t F ¹ G f

g  ^ ^







 G f e df t

g( ) ( ) ^j²^^ft

(20)

 Transformata Fouriera

 Widmo amplitudowe segmentów dźwięcznych i bezdźwięcznych

 Częstotliwość podstawowa = ton krtaniowy = F0 Częstotliwości formantowe

(21)

 = częstotliwość podstawowa, ton ktaniowy

 Cecha indywidualna, nośnik intonacji, emocji, znaczenia

 Typowe zakresy:

◦ mężczyźni: 60 – 200 Hz (tenorzy do 480 Hz)

◦ kobiety: 150 – 350 Hz (sopranistki do 960 Hz)

◦ dzieci: 300 Hz – 500 Hz

 Pomiar: analiza korelacji wzajemnej, cepstrum, pomiar laryngograficzny

(22)

(23)

Jak słyszymy?

Model psychoakustyczny

(24)

(25)

[R.Tadeusiewicz, Sygnał mowy]

(26)

 Próg słyszalności

◦ Najlepiej słyszymy w zakresie 2-4 kHz

 Maskowanie częstotliwościowe

(27)

Sygnał Sygnał‎+‎szum (SNR = 24 dB)

Szum

[Dr. T. Collins]

(28)

(29)

Cyfryzacja sygnału audio

(30)

(31)

 Cyfryzacja – zamiana sygnału analogowego na cyfrowy

FDP próbkowanie kwantyzacja

analogowy cyfrowy

f_p

x(t) x(n)

 … i z powrotem na analogowy - interpolacja

cyfrowy D/A

x(n) x^(t)

FDP ^analogowy

(32)

 dyskretyzacja sygnału w dziedzinie czasu

 Twierdzenie Nyquista

 Typowe wartości f_samp

◦ 8 kHz – telefonia

◦ 16 kHz, 22,050 kHz – jakość średnia

◦ 44,1 kHz, 48 kHz – jakość CD / HiFi B

f_samp  2

(33)

 Dyskretyzacja sygnału w dziedzinie wartości

 Mapowanie zbioru R na skończony podzbiór R

(34)

x_k-1 y_k-1 x_k y_k x_k+1 y_k+1 x_k+2 y_k+2 x_k+3 y_k+3 x_k+4

poziomy decyzji wartości‎reprezentujące

komórka‎kwantyzacji

(35)

 Charakterystyka kwantyzatora; funkcja kwantyzacji

◦ liniowa, logarytmiczna (A-law, m-law) i inne

 Błąd kwantyzacji, szum kwantyzacji

) ( )

( )

ˆ(t x t e t

x  

] [

*

6 R dB

SNR_dB  (dla kwantyzatora równomiernego)

(36)

Kwantyzator równomierny:

)

ˆ Q ( x

x 

(37)

[Hanzo et al.]

(38)

 Kwantyzatory adaptacyjne

◦ Adaptacja w przód

◦ Adaptacja wstecz

 Kwantyzacja wektorowa (VQ)

◦ Podejście wielowymiarowe

(39)

Techniki kompresji sygnału audio – predykcja.

Kodowanie sygnału mowy i audio.

(40)

x(n) e(n) Q

x_p(n) x_p(n)

- +

+ P

P

) ˆ n( x

) ˆ n( x ) ˆ n( e

(41)

 PCM

◦ Pulse Code Modulation

◦ modulacja kodowo-impulsowa

 każda próbka kwantowana niezależnie

 fs = 8 kHz, 8 bitów/próbkę

 … czyli przepływność = 64 kb/s

 kwantyzator logarytmiczny: A-law lub m-law

(42)

obliczanie współczynników‎

LPC

subsampling

-

LPC

obliczanie współczynników‎

LPC

-

LTP

kodowanie APCM

obliczanie energii i‎parametrów‎RPE

multipleksing

8 współczynników‎LPC (36 bitów / 20 ms) 2 parametry LTP (9 bitów / 5 ms)

2 parametry RPE (8 bitów / 5 ms)

13 próbek (13 x 3 bitów / 5 ms)

strumień cyfrowy 13 kb/s wejście‎z‎

konwertera A/D

(43)

 G.723.1

5,6 / 6,3 kb/s, ACELP/MP-MLQ, ramka 30 ms (4 x 60 pr.), opóźn.

37,5 ms

 LD-CELP

16 kb/s, opóźnienie 0,675 ms, 1024 wektorów

 Speex

2 – 44 kb/s, oparty o CELP; VAD, VBR

 iLBC - Internet Low Bitrate Codec,

13,33 / 15,2 kb/s, ramka (20 / 30 ms)

 Skype

iLBC, SVOPC, obecnie: SILK (fp: 8/16/24 kHz, 6-40 kb/s)

(44)

2 bits 4

bits 4

bits 3

bits 2 bits 4

bits 4

bits 5

bits

5

bits 5 bits

Poziom‎ciśnienia‎dźwięku [dB-SPL]

80 70 60 50 40 30 20 10 0 -10 -20

5000 10000 15000

Częstotlowość

[Hz]

Próg‎

słyszenia

Średnia‎liczba‎bitów‎na‎próbkę = 3,92 Stopień‎kompresji = 16:3,92 = 4,1:1

Próg‎

maskowania

(45)

Badanie jakości sygnału audio

(46)

 SNR – Signal to Noise Ratio, S/N

 Czy jest to kryterium miarodajne?

(47)

 Metody subiektywne

◦ z wykorzystaniem słuchaczy, np. MOS (Mean Opinion Score), uśredniona opinia słuchaczy

◦ Metody konwersacyjne, odsłuchowe, kategoryzacyjne, np.:

 ACR – Absolute Category Rating

 DCR – Degradation Category Rating

 PC – Pair Comparison

◦ Badanie wyrazistości (zdaniowa, wyrazowa, logatomowa)

 Metody obiektywne

◦ Wyznaczenie odległości pomiędzy wybranymi parametrami sygnału mowy oryginalnej i przetworzonej

◦ Zastosowanie modelu psychoakustycznego

◦ Np. PESQ (mowa), PEAQ (audio), PSQM

(48)

 Wyrazistość logatomowa

◦ logatomy, np..

szypi, mijka, ben, chryszcze

 Wyrazistość wyrazowa

 Wyrazistość zdaniowa

◦ wykorzystuje np.. zdania nieprzewidywalne znaczeniowo

(Semantically Unpredictable Sentences – SUS), np.

Umysł grzęźnie pod marcowym wiadrem.

(49)

(50)

 Rozpoznawanie stanu emocjonalnego mówcy na podstawie analizy sygnału mowy

 Poprawa jakości sygnału mowy w systemach telefonii internetowej

 Weryfikacja mówcy na przykładzie systemu „Głosowy PIN”

 Wizyjna synteza mowy

 Automatyczne rozpoznawanie melodii

 Selekcja jednostek w korpusowej syntezie mowy

 Rozpoznawanie mówcy z zastosowaniem liniowej kombinacji rozkładów normalnych

 Automatyczne rozpoznawanie mowy ciągłej dla języka polskiego

 Automatyczne algorytmy badania jakości sygnału mowy

 Badanie jakości przesyłu sygnału mowy w systemach telefonii internetowej

(51)

 Czym się różni kodowanie bezstratne od kodowania stratnego?

 Omów cechy charakterystyczne sygnału mowy.

 Czym się różni dźwięczny sygnał mowy od bezdźwięcznego?

 Na czym polega proces próbkowania / kwantyzacji / cyfryzacji sygnału?

 Omów kodowanie mowy w standardzie PCM.

 Na czym polega predykcja sygnału?

 Omów sposoby badania jakości sygnału mowy.

(52)