dr hab. inż. Artur Janicki email: A.Janicki@tele.pw.edu.pl, pok. 407
Zakład Cyberbezpieczeństwa Instytut Telekomunikacji PW
Kodowanie źródła – podstawowe informacje
Sygnał mowy – informacje ogólne, jak powstaje mowa
Analiza sygnału mowy – w dziedzinie czasu i częstotliwości
Model psychoakustyczny
Cyfryzacja sygnału audio – próbkowanie i kwantyzacja
Techniki kompresji – predykcja
Kodowanie mowy i audio – przykłady
Badanie jakości sygnału mowy
Źródło – część systemu telekomunikacyjnego, generująca wiadomości
Informacja
miara wartościująca wiadomość
ilość informacji zależna odwrotnie od P wiadomości
Kodowanie – przyporządkowanie wiadomościom słów kodowych do celów transmisji
Nie mylić kodowania z szyfrowaniem!
Artur Janicki, ZCB IT PW
Kodowanie (kompresja) bezstratne a stratne
Podstawowe parametry:
stopień kompresji = rozmiar danych na wejściu / rozmiar danych na wyjściu
efektywność kodowania (ograniczenie Shannona!)
Przykłady algorytmów kompresji:
bezstratnej:
algorytm Huffmana,
metody słownikowe (LZx),
kodowanie arytmetyczne
stratnej:
z wykorzystaniem kwantyzacji: liniowej, wektorowej, adapt.
z wykorzystaniem predykcji (LPC)
z wykorzystaniem transformaty: DCT, falkowej, KLT
Liczba bitów przypisana wiadomości zbliżona do ilości informacji niesionej przez wiadomość
Łączenie elementów w pary, zaczynając od elementów o najmniejszym prawdopodobieństwie
Artur Janicki, ZCB IT PW
Audio – łac. słyszę
Sygnały audio – w szczególności:
◦ sygnał mowy
◦ sygnały muzyczne
Transmisja: kodowanie, kompresja mowy, audio
Synteza mowy
Rozpoznawanie sygnału mowy
Rozpoznawanie mówcy
Poprawa jakości sygnału mowy (odszumianie, PLC itp.)
Rozpoznawanie emocji
Ewaluacja jakości transmisji mowy / audio
Transformacja głosu
Ukrywanie informacji w sygnale audio (watermarking, steganografia)
Rozpoznawanie sygnałów muzycznych
Sądowe przetwarzanie sygnału mowy
…
Artur Janicki, ZCB IT PW
Artur Janicki, ZCB IT PW [http://www.businessinsider.com/]
[bloombergbusinessweek.pl]
Sygnał mowy – informacje ogólne
Artur Janicki, ZCB IT PW
1. Jama nosowa
2. Podniebienie twarde
3. Dziąsła
4. Podniebienie miękkie
5. Przednia część języka
6. Środkowa część języka
7. Języczek
8. Tylna część języka
9. Jama gardłowa
10. Nagłośnia
11. Fałszywe więzadła głosowe
12. Więzadła głosowe
13. Krtań
14. Przełyk
15. Tchawica Zęby
YouTube: Anatomical Tutorial During Trans-Nasal Endoscopy
(Fauquier ENT Consultants, Varrenton, Virginia)
Artur Janicki, ZCB IT PW
Fonem - najmniejsza jednostka systemu dźwiękowego danego języka, pozwalająca różnicować znaczenie wyrazów:
(p) of pić vs. (b) of bić
Alofon – jeden z fonetycznych wariantów fonemu, zależny od jego otoczenia:
(t) w: top, stop, trzy, kot, metal, bity Difon – para fonemów
Artur Janicki, ZCB IT PW
Samogłoski:
e
Spółgłoski:
◦ wybuchowe:
◦ trące: h
◦ zwarto-trące: d d
◦ nosowe:
◦ boczne: ( )
◦ aproksymanty: j w
◦ drżące:
Analiza sygnału audio i sygnału mowy
Artur Janicki, ZCB IT PW
Sygnał quasi-stacjonarny
Fragmenty bezdźwięczne i dźwięczne - pseudookresowość
Czasy trwania poszczególnych segmentów
Transformata Fouriera
Odwrotna transformata Fouriera
Dlaczego ją wykorzystujemy?
◦ łatwa interpretacja fizyczna
◦ ułatwia obliczenia
◦ dla sygnałów okresowych można użyć T zamiast
g t e dt f
G( ) ( ) j2ft
Artur Janicki, ZCB IT PW
)]
( [ )
( f F g t
G
)]
( [ )
(t F 1 G f
g
G f e df t
g( ) ( ) j2ft
Transformata Fouriera
Widmo amplitudowe segmentów dźwięcznych i bezdźwięcznych
Częstotliwość podstawowa = ton krtaniowy = F0 Częstotliwości formantowe
= częstotliwość podstawowa, ton ktaniowy
Cecha indywidualna, nośnik intonacji, emocji, znaczenia
Typowe zakresy:
◦ mężczyźni: 60 – 200 Hz (tenorzy do 480 Hz)
◦ kobiety: 150 – 350 Hz (sopranistki do 960 Hz)
◦ dzieci: 300 Hz – 500 Hz
Pomiar: analiza korelacji wzajemnej, cepstrum, pomiar laryngograficzny
Artur Janicki, ZCB IT PW
Artur Janicki, ZCB IT PW
Jak słyszymy?
Model psychoakustyczny
Artur Janicki, ZCB IT PW
[R.Tadeusiewicz, Sygnał mowy]
Próg słyszalności
◦ Najlepiej słyszymy w zakresie 2-4 kHz
Maskowanie częstotliwościowe
Artur Janicki, ZCB IT PW
Sygnał Sygnał+szum (SNR = 24 dB)
Szum
[Dr. T. Collins]
Artur Janicki, ZCB IT PW
Cyfryzacja sygnału audio
Cyfryzacja – zamiana sygnału analogowego na cyfrowy
Artur Janicki, ZCB IT PW
FDP próbkowanie kwantyzacja
analogowy cyfrowy
fp
x(t) x(n)
… i z powrotem na analogowy - interpolacja
cyfrowy D/A
x(n) x^(t)
FDP analogowy
dyskretyzacja sygnału w dziedzinie czasu
Twierdzenie Nyquista
Typowe wartości fsamp
◦ 8 kHz – telefonia
◦ 16 kHz, 22,050 kHz – jakość średnia
◦ 44,1 kHz, 48 kHz – jakość CD / HiFi B
fsamp 2
Dyskretyzacja sygnału w dziedzinie wartości
Mapowanie zbioru R na skończony podzbiór R
Artur Janicki, ZCB IT PW
xk-1 yk-1 xk yk xk+1 yk+1 xk+2 yk+2 xk+3 yk+3 xk+4
poziomy decyzji wartościreprezentujące
komórkakwantyzacji
Charakterystyka kwantyzatora; funkcja kwantyzacji
◦ liniowa, logarytmiczna (A-law, m-law) i inne
Błąd kwantyzacji, szum kwantyzacji
Artur Janicki, ZCB IT PW
) ( )
( )
ˆ(t x t e t
x
] [
*
6 R dB
SNRdB (dla kwantyzatora równomiernego)
Kwantyzator równomierny:
)
ˆ Q ( x
x
[Hanzo et al.]
Artur Janicki, ZCB IT PW
Kwantyzatory adaptacyjne
◦ Adaptacja w przód
◦ Adaptacja wstecz
Kwantyzacja wektorowa (VQ)
◦ Podejście wielowymiarowe
Techniki kompresji sygnału audio – predykcja.
Kodowanie sygnału mowy i audio.
Artur Janicki, ZCB IT PW
x(n) e(n) Q
xp(n) xp(n)
- +
+ P
P
) ˆ n( x
) ˆ n( x ) ˆ n( e
PCM
◦ Pulse Code Modulation
◦ modulacja kodowo-impulsowa
każda próbka kwantowana niezależnie
fs = 8 kHz, 8 bitów/próbkę
… czyli przepływność = 64 kb/s
kwantyzator logarytmiczny: A-law lub m-law
Artur Janicki, ZCB IT PW
obliczanie współczynników
LPC
subsampling
-
LPC
obliczanie współczynników
LPC
-
LTP
kodowanie APCM
obliczanie energii iparametrówRPE
multipleksing
8 współczynnikówLPC (36 bitów / 20 ms) 2 parametry LTP (9 bitów / 5 ms)
2 parametry RPE (8 bitów / 5 ms)
13 próbek (13 x 3 bitów / 5 ms)
strumień cyfrowy 13 kb/s wejściez
konwertera A/D
G.723.1
5,6 / 6,3 kb/s, ACELP/MP-MLQ, ramka 30 ms (4 x 60 pr.), opóźn.
37,5 ms
LD-CELP
16 kb/s, opóźnienie 0,675 ms, 1024 wektorów
Speex
2 – 44 kb/s, oparty o CELP; VAD, VBR
iLBC - Internet Low Bitrate Codec,
13,33 / 15,2 kb/s, ramka (20 / 30 ms)
Skype
iLBC, SVOPC, obecnie: SILK (fp: 8/16/24 kHz, 6-40 kb/s)
Artur Janicki, ZCB IT PW
2 bits 4
bits 4
bits 4
bits 3
bits 2 bits 4
bits 4
bits 5
bits 5
bits
5
bits 5 bits
Poziomciśnieniadźwięku [dB-SPL]
80 70 60 50 40 30 20 10 0 -10 -20
5000 10000 15000
Częstotlowość
[Hz]
Próg
słyszenia
Średnialiczbabitównapróbkę = 3,92 Stopieńkompresji = 16:3,92 = 4,1:1
Próg
maskowania
Artur Janicki, ZCB IT PW
Badanie jakości sygnału audio
SNR – Signal to Noise Ratio, S/N
Czy jest to kryterium miarodajne?
Metody subiektywne
◦ z wykorzystaniem słuchaczy, np. MOS (Mean Opinion Score), uśredniona opinia słuchaczy
◦ Metody konwersacyjne, odsłuchowe, kategoryzacyjne, np.:
ACR – Absolute Category Rating
DCR – Degradation Category Rating
PC – Pair Comparison
◦ Badanie wyrazistości (zdaniowa, wyrazowa, logatomowa)
Metody obiektywne
◦ Wyznaczenie odległości pomiędzy wybranymi parametrami sygnału mowy oryginalnej i przetworzonej
◦ Zastosowanie modelu psychoakustycznego
◦ Np. PESQ (mowa), PEAQ (audio), PSQM
Artur Janicki, ZCB IT PW
Wyrazistość logatomowa
◦ logatomy, np..
szypi, mijka, ben, chryszcze
Wyrazistość wyrazowa
Wyrazistość zdaniowa
◦ wykorzystuje np.. zdania nieprzewidywalne znaczeniowo
(Semantically Unpredictable Sentences – SUS), np.
Umysł grzęźnie pod marcowym wiadrem.
Artur Janicki, ZCB IT PW
Rozpoznawanie stanu emocjonalnego mówcy na podstawie analizy sygnału mowy
Poprawa jakości sygnału mowy w systemach telefonii internetowej
Weryfikacja mówcy na przykładzie systemu „Głosowy PIN”
Wizyjna synteza mowy
Automatyczne rozpoznawanie melodii
Selekcja jednostek w korpusowej syntezie mowy
Rozpoznawanie mówcy z zastosowaniem liniowej kombinacji rozkładów normalnych
Automatyczne rozpoznawanie mowy ciągłej dla języka polskiego
Automatyczne algorytmy badania jakości sygnału mowy
Badanie jakości przesyłu sygnału mowy w systemach telefonii internetowej
Czym się różni kodowanie bezstratne od kodowania stratnego?
Omów cechy charakterystyczne sygnału mowy.
Czym się różni dźwięczny sygnał mowy od bezdźwięcznego?
Na czym polega proces próbkowania / kwantyzacji / cyfryzacji sygnału?
Omów kodowanie mowy w standardzie PCM.
Na czym polega predykcja sygnału?
Omów sposoby badania jakości sygnału mowy.
Artur Janicki, ZCB IT PW
Kodowanie źródła – podstawowe informacje
Sygnał mowy – informacje ogólne, jak powstaje mowa
Analiza sygnału mowy – w dziedzinie czasu i częstotliwości
Model psychoakustyczny
Cyfryzacja sygnału audio – próbkowanie i kwantyzacja
Techniki kompresji – predykcja
Kodowanie mowy i audio – przykłady
Badanie jakości sygnału mowy