• Nie Znaleziono Wyników

dr hab. inż . Artur Janicki

N/A
N/A
Protected

Academic year: 2021

Share "dr hab. inż . Artur Janicki"

Copied!
52
0
0

Pełen tekst

(1)

dr hab. inż. Artur Janicki email: A.Janicki@tele.pw.edu.pl, pok. 407

Zakład Cyberbezpieczeństwa Instytut Telekomunikacji PW

(2)

Kodowanie źródła – podstawowe informacje

Sygnał mowy – informacje ogólne, jak powstaje mowa

Analiza sygnału mowy – w dziedzinie czasu i częstotliwości

Model psychoakustyczny

Cyfryzacja sygnału audio – próbkowanie i kwantyzacja

Techniki kompresji – predykcja

Kodowanie mowy i audio – przykłady

Badanie jakości sygnału mowy

(3)

Źródło – część systemu telekomunikacyjnego, generująca wiadomości

Informacja

miara wartościująca wiadomość

ilość informacji zależna odwrotnie od P wiadomości

Kodowanie – przyporządkowanie wiadomościom słów kodowych do celów transmisji

Nie mylić kodowania z szyfrowaniem!

Artur Janicki, ZCB IT PW

(4)

Kodowanie (kompresja) bezstratne a stratne

Podstawowe parametry:

stopień kompresji = rozmiar danych na wejściu / rozmiar danych na wyjściu

efektywność kodowania (ograniczenie Shannona!)

Przykłady algorytmów kompresji:

bezstratnej:

algorytm Huffmana,

metody słownikowe (LZx),

kodowanie arytmetyczne

stratnej:

z wykorzystaniem kwantyzacji: liniowej, wektorowej, adapt.

z wykorzystaniem predykcji (LPC)

z wykorzystaniem transformaty: DCT, falkowej, KLT

(5)

Liczba bitów przypisana wiadomości zbliżona do ilości informacji niesionej przez wiadomość

Łączenie elementów w pary, zaczynając od elementów o najmniejszym prawdopodobieństwie

Artur Janicki, ZCB IT PW

(6)

Audio – łac. słyszę

Sygnały audio – w szczególności:

sygnał mowy

sygnały muzyczne

(7)

Transmisja: kodowanie, kompresja mowy, audio

Synteza mowy

Rozpoznawanie sygnału mowy

Rozpoznawanie mówcy

Poprawa jakości sygnału mowy (odszumianie, PLC itp.)

Rozpoznawanie emocji

Ewaluacja jakości transmisji mowy / audio

Transformacja głosu

Ukrywanie informacji w sygnale audio (watermarking, steganografia)

Rozpoznawanie sygnałów muzycznych

Sądowe przetwarzanie sygnału mowy

Artur Janicki, ZCB IT PW

(8)
(9)

Artur Janicki, ZCB IT PW [http://www.businessinsider.com/]

(10)

[bloombergbusinessweek.pl‎]

(11)

Sygnał mowy – informacje ogólne

Artur Janicki, ZCB IT PW

(12)

1. Jama nosowa

2. Podniebienie twarde

3. Dziąsła

4. Podniebienie miękkie

5. Przednia część języka

6. Środkowa część języka

7. Języczek

8. Tylna część języka

9. Jama gardłowa

10. Nagłośnia

11. Fałszywe więzadła głosowe

12. Więzadła głosowe

13. Krtań

14. Przełyk

15. Tchawica Zęby

(13)

YouTube: Anatomical Tutorial During Trans-Nasal Endoscopy

(Fauquier ENT Consultants, Varrenton, Virginia)

Artur Janicki, ZCB IT PW

(14)

Fonem - najmniejsza jednostka systemu dźwiękowego danego języka, pozwalająca różnicować znaczenie wyrazów:

(p) of pić vs. (b) of bić

Alofon – jeden z fonetycznych wariantów fonemu, zależny od jego otoczenia:

(t) w: top, stop, trzy, kot, metal, bity Difon – para fonemów

(15)

Artur Janicki, ZCB IT PW

(16)

Samogłoski:

e

Spółgłoski:

◦ wybuchowe:

◦ trące: h

◦ zwarto-trące: d d

◦ nosowe:

◦ boczne: ( )

◦ aproksymanty: j w

◦ drżące:

(17)

Analiza sygnału audio i sygnału mowy

Artur Janicki, ZCB IT PW

(18)

Sygnał quasi-stacjonarny

Fragmenty bezdźwięczne i dźwięczne - pseudookresowość

Czasy trwania poszczególnych segmentów

(19)

Transformata Fouriera

Odwrotna transformata Fouriera

Dlaczego ją wykorzystujemy?

łatwa interpretacja fizyczna

ułatwia obliczenia

dla sygnałów okresowych można użyć T zamiast



g t e dt f

G( ) ( ) j2ft

Artur Janicki, ZCB IT PW

)]

( [ )

( f F g t

G

)]

( [ )

(t F 1 G f

g 

G f e df t

g( ) ( ) j2ft

(20)

Transformata Fouriera

Widmo amplitudowe segmentów dźwięcznych i bezdźwięcznych

Częstotliwość podstawowa = ton krtaniowy = F0 Częstotliwości formantowe

(21)

= częstotliwość podstawowa, ton ktaniowy

Cecha indywidualna, nośnik intonacji, emocji, znaczenia

Typowe zakresy:

mężczyźni: 60 – 200 Hz (tenorzy do 480 Hz)

kobiety: 150 – 350 Hz (sopranistki do 960 Hz)

dzieci: 300 Hz – 500 Hz

Pomiar: analiza korelacji wzajemnej, cepstrum, pomiar laryngograficzny

Artur Janicki, ZCB IT PW

(22)
(23)

Artur Janicki, ZCB IT PW

Jak słyszymy?

Model psychoakustyczny

(24)
(25)

Artur Janicki, ZCB IT PW

[R.Tadeusiewicz, Sygnał mowy]

(26)

Próg słyszalności

Najlepiej słyszymy w zakresie 2-4 kHz

Maskowanie częstotliwościowe

(27)

Artur Janicki, ZCB IT PW

Sygnał Sygnał‎+‎szum (SNR = 24 dB)

Szum

[Dr. T. Collins]

(28)
(29)

Artur Janicki, ZCB IT PW

Cyfryzacja sygnału audio

(30)
(31)

Cyfryzacja – zamiana sygnału analogowego na cyfrowy

Artur Janicki, ZCB IT PW

FDP próbkowanie kwantyzacja

analogowy cyfrowy

fp

x(t) x(n)

… i z powrotem na analogowy - interpolacja

cyfrowy D/A

x(n) x^(t)

FDP analogowy

(32)

dyskretyzacja sygnału w dziedzinie czasu

Twierdzenie Nyquista

Typowe wartości fsamp

8 kHz – telefonia

16 kHz, 22,050 kHz – jakość średnia

44,1 kHz, 48 kHz – jakość CD / HiFi B

fsamp 2

(33)

Dyskretyzacja sygnału w dziedzinie wartości

Mapowanie zbioru R na skończony podzbiór R

Artur Janicki, ZCB IT PW

(34)

xk-1 yk-1 xk yk xk+1 yk+1 xk+2 yk+2 xk+3 yk+3 xk+4

poziomy decyzji wartości‎reprezentujące

komórka‎kwantyzacji

(35)

Charakterystyka kwantyzatora; funkcja kwantyzacji

liniowa, logarytmiczna (A-law, m-law) i inne

Błąd kwantyzacji, szum kwantyzacji

Artur Janicki, ZCB IT PW

) ( )

( )

ˆ(t x t e t

x

] [

*

6 R dB

SNRdB (dla kwantyzatora równomiernego)

(36)

Kwantyzator równomierny:

)

ˆ Q ( x

x

(37)

[Hanzo et al.]

Artur Janicki, ZCB IT PW

(38)

Kwantyzatory adaptacyjne

Adaptacja w przód

Adaptacja wstecz

Kwantyzacja wektorowa (VQ)

Podejście wielowymiarowe

(39)

Techniki kompresji sygnału audio – predykcja.

Kodowanie sygnału mowy i audio.

Artur Janicki, ZCB IT PW

(40)

x(n) e(n) Q

xp(n) xp(n)

- +

+ P

P

) ˆ n( x

) ˆ n( x ) ˆ n( e

(41)

PCM

Pulse Code Modulation

modulacja kodowo-impulsowa

każda próbka kwantowana niezależnie

fs = 8 kHz, 8 bitów/próbkę

… czyli przepływność = 64 kb/s

kwantyzator logarytmiczny: A-law lub m-law

Artur Janicki, ZCB IT PW

(42)

obliczanie współczynników‎

LPC

subsampling

-

LPC

obliczanie współczynników‎

LPC

-

LTP

kodowanie APCM

obliczanie energii i‎parametrów‎RPE

multipleksing

8 współczynników‎LPC (36 bitów / 20 ms) 2 parametry LTP (9 bitów / 5 ms)

2 parametry RPE (8 bitów / 5 ms)

13 próbek (13 x 3 bitów / 5 ms)

strumień cyfrowy 13 kb/s wejście‎z‎

konwertera A/D

(43)

G.723.1

5,6 / 6,3 kb/s, ACELP/MP-MLQ, ramka 30 ms (4 x 60 pr.), opóźn.

37,5 ms

LD-CELP

16 kb/s, opóźnienie 0,675 ms, 1024 wektorów

Speex

2 – 44 kb/s, oparty o CELP; VAD, VBR

iLBC - Internet Low Bitrate Codec,

13,33 / 15,2 kb/s, ramka (20 / 30 ms)

Skype

iLBC, SVOPC, obecnie: SILK (fp: 8/16/24 kHz, 6-40 kb/s)

Artur Janicki, ZCB IT PW

(44)

2 bits 4

bits 4

bits 4

bits 3

bits 2 bits 4

bits 4

bits 5

bits 5

bits

5

bits 5 bits

Poziom‎cnienia‎więku [dB-SPL]

80 70 60 50 40 30 20 10 0 -10 -20

5000 10000 15000

Częstotlowość

[Hz]

Próg‎

słyszenia

Średnia‎liczba‎bitów‎na‎próbkę = 3,92 Stopień‎kompresji = 16:3,92 = 4,1:1

Próg‎

maskowania

(45)

Artur Janicki, ZCB IT PW

Badanie jakości sygnału audio

(46)

SNR – Signal to Noise Ratio, S/N

Czy jest to kryterium miarodajne?

(47)

Metody subiektywne

z wykorzystaniem słuchaczy, np. MOS (Mean Opinion Score), uśredniona opinia słuchaczy

Metody konwersacyjne, odsłuchowe, kategoryzacyjne, np.:

ACR – Absolute Category Rating

DCR – Degradation Category Rating

PC – Pair Comparison

Badanie wyrazistości (zdaniowa, wyrazowa, logatomowa)

Metody obiektywne

Wyznaczenie odległości pomiędzy wybranymi parametrami sygnału mowy oryginalnej i przetworzonej

Zastosowanie modelu psychoakustycznego

Np. PESQ (mowa), PEAQ (audio), PSQM

Artur Janicki, ZCB IT PW

(48)

Wyrazistość logatomowa

logatomy, np..

szypi, mijka, ben, chryszcze

Wyrazistość wyrazowa

Wyrazistość zdaniowa

wykorzystuje np.. zdania nieprzewidywalne znaczeniowo

(Semantically Unpredictable Sentences – SUS), np.

Umysł grzęźnie pod marcowym wiadrem.

(49)

Artur Janicki, ZCB IT PW

(50)

Rozpoznawanie stanu emocjonalnego mówcy na podstawie analizy sygnału mowy

Poprawa jakości sygnału mowy w systemach telefonii internetowej

Weryfikacja mówcy na przykładzie systemu „Głosowy PIN”

Wizyjna synteza mowy

Automatyczne rozpoznawanie melodii

Selekcja jednostek w korpusowej syntezie mowy

Rozpoznawanie mówcy z zastosowaniem liniowej kombinacji rozkładów normalnych

Automatyczne rozpoznawanie mowy ciągłej dla języka polskiego

Automatyczne algorytmy badania jakości sygnału mowy

Badanie jakości przesyłu sygnału mowy w systemach telefonii internetowej

(51)

Czym się różni kodowanie bezstratne od kodowania stratnego?

Omów cechy charakterystyczne sygnału mowy.

Czym się różni dźwięczny sygnał mowy od bezdźwięcznego?

Na czym polega proces próbkowania / kwantyzacji / cyfryzacji sygnału?

Omów kodowanie mowy w standardzie PCM.

Na czym polega predykcja sygnału?

Omów sposoby badania jakości sygnału mowy.

Artur Janicki, ZCB IT PW

(52)

Kodowanie źródła – podstawowe informacje

Sygnał mowy – informacje ogólne, jak powstaje mowa

Analiza sygnału mowy – w dziedzinie czasu i częstotliwości

Model psychoakustyczny

Cyfryzacja sygnału audio – próbkowanie i kwantyzacja

Techniki kompresji – predykcja

Kodowanie mowy i audio – przykłady

Badanie jakości sygnału mowy

Cytaty

Powiązane dokumenty

Fazy przekazywania energii eksplozji przedstawiono schematycznie na rysunku 2. Drgania o dużej częstotliwości wywołane w pierwszej fazie uderzeniem fali propagują

Analiza zmian lepkości kinematycznej badanych olejów silnikowych w trakcie eksploatacji daje podstawę do stwierdzenia, że lepkość kinematyczna olejów CE, MS oraz PE

Jeśli przyjąć, że miarą będącej do dyspozycji energii paliwa przed wtryskiem jest pole pod krzywą ciśnienia w zasobniku, to ta wielkość dla różnych długości zasobnika zmienia

W świetle analizy dostępnej literatury tematu, uważam że rozprawa mgra Wiktora Wyszywacza jest oryginalnym osiągnięciem i wnosi wartościowe elementy w nurt badań

Celem rozprawy jest bowiem opracowanie metodyki, zapisanej w formie procedury, wspomagającej budowę systemu informatycznego, przeznaczonego do automatyzacji procesu

Arkadiusza Stojeckiego jest opracowana przez Niego metodyka badań wpływu topografii terenu na poziom emisji szkodliwych związków spalin środków transportu w

Kolejne podrozdziały przedstawiają sformułowanie i wyniki jednokryterialnej optymalizacji dla każdej ze składowych funkcji celu, mianowicie maksimum odporności zmęczeniowej,

Palamas wyrażał ją nawet za pomocą tych samych greckich słów i pojęć (więc to on wygląda na najbardziej bezpośredniego inspiratora rozważań Marczyń- skiego, obok