Kodowanie informacji

(1)

Kodowanie informacji

Tomasz Jurdzi ´nski

Wykład 3: kodowanie arytmetyczne

Jurdzi ´nski Kodowanie arytmetyczne

(2)

Motywacja

Motywacje

1 ´srednia długo´sć kodu Huffmana mo˙ze odbiegać o pmax+0.086 od entropii, gdzie pmax=max_i=1,...,n{p_i} - mo˙ze to powodować du˙ze odchylenia od warto´sci entropii

2 efekt ten mo˙zna zniwelowa´c poprzez zastosowanie kodów Huffmana, w którym alfabet stanowi ˛a ci ˛agi symboli okre´slonej długo´sci - ale wtedy ro´snie gwałtownie rozmiar alfabetu.

Kodowanie arytmetyczne:

zastosowanie podej´scia z punktu 2. bez konieczno´sci tworzenia słów

(3)

Ogólnie

Pierwsze spojrzenie

tekst zostaje odwzorowany na liczb ˛e z przedziału [0, 1) nazywan ˛a ZNACZNIKiem.

zakodowan ˛a posta´c tekstu tworzy ZNACZNIK, reprezentowany z odpowiednio dobran ˛a dokładno´sci ˛a oraz n - długo´s´c

kodowanego tekstu.

(4)

Jedna litera

Znacznik dla jednej litery alfabetu:

elementy alfabetu numerujemy a₁,a₂, . . . ,an; oznaczmy ich prawdopodobie ´nstwa przez p₁,p₂, . . . ,pn;

literze ai przyporz ˛adkowujemy dowoln ˛a liczb ˛e z przedziału [F (i), F (i + 1)), gdzie F (i) = ∑ⁱ⁻¹_j₌₁pi

(5)

Znacznik dla ci ˛ agu

Kodowanie ci ˛agu x₁. . .xn nad alfabetem a₁, . . . ,am:

1 z = [0, 1); l = 0; p = 1;

2 Dla i = 1, 2, . . . , n:

1 niech x_i=a_j

2 l = l + F (j)(p − l)

3 p = l + F (j + 1)(p − l)

3 znacznik = (l + p)/2 (lub dowolna liczba z przedziału [l, p))

(6)

Przykład

P(a) = 0.7, P(b) = 0.1, P(c) = 0.2. Kodujemy tekstabc.

Tekst Lewy Prawy Znacznik

0 1 0.5

a 0 0.7 0.35

b 0.49 0.56 0.53

c 0.546 0.560 0.553

(7)

Jednoznaczno´s´c

Lemat

Dla ustalonej długo´sci tekstu n, ka˙zdy ci ˛ag jest odwzorowany na przedział rozł ˛aczny z przedziałami odpowiadaj ˛acymi innym ci ˛agom.

Gwarantuje to jednoznaczno´s´c (de)kodowania.

Dowód

Indukcja ze wzgl ˛edu na długo´s´c kodowanego tekstu.

(8)

Dekodowanie

Dekodowanie ci ˛agu o długo´sci n ze znacznika z:

1 l = 0; p = 1;

2 Dla i = 1, 2, . . . , n:

1 wybierz j takie, ˙ze l + F (j)(p − l) ≤ z < l + F (j + 1)(p − l)

2 przyjmij, ˙ze x_i=a_j

3 l = l + F (j)(p − l);

4 p = l + F (j + 1)(p − l).

3 Ci ˛ag oryginalny to x₁. . .xn.

(9)

Przykład

Niech z = 0.55 dla P(a) = 0.7, P(b) = 0.1, P(c) = 0.2 i n = 3.

Tekst l p p − l

0 1 1

a 0 0.7 0.7

b 0.49 0.56 0.07

c 0.546 0.560 0.014

(10)

Własno´sci kodowania arytmetycznego

1 Wygenerowanie znacznika dla konkretnego ci ˛agu nie wymaga wyznaczania b ˛ad´z pami ˛etania znaczników innych ci ˛agów

2 Problem! Komputerowa reprezentacja znacznika mo˙ze wymagać du˙zej pami ˛eci - jak dobrać warto´sć znacznika aby

zminimalizowa´c potrzebn ˛a pami ˛e´c?

(11)

Długo´s´c znacznika

Twierdzenie

Niech x = x₁. . .xnb ˛edzie ci ˛agiem danych o prawdopodobie ´nstwie wyst ˛apienia P(x ) = ∏ⁿ_i₌₁P(x_i). Zaokr ˛aglenie z⁰znacznika z dla ci ˛agu x do m(x ) = dlog 1/P(x )e + 1 bitów (polegaj ˛ace na usuni ˛eciu

dalszych bitów) gwarantuje jednoznaczno´s´c kodowania.

(12)

Dowód

Oznaczenia:

z = (l + p)/2 - znacznik;

z⁰- zaokr ˛aglenie do m = m(x ) bitów.

Wystarczy pokaza´c, ˙ze

l ≤ z⁰<p dla l i p wyznaczonych przez algorytm.

Jest to równowa˙zne warunkowi:

|z − z⁰| < (p − l)/2.

Zauwa˙zmy, ˙ze z⁰≤ z < p oraz 0 <= z − z⁰<2^m. Pozostaje lewy

(13)

Dowód c.d.

Zauwa˙zmy:

z⁰≤ z < p;

p − l = P(x ) (dla ci ˛agów jednoliterowych z definicji, dla dłu˙zszych dowód indukcyjny)

z(x ) − l = P(x )/2,

z⁰(x ) > z(x ) − 1/2^m⁽^x⁾ ≥ z(x ) − 1/2^log⁽^1/P⁽^x⁾⁾⁺¹

> z(x ) − 1/(2 ∗ 1/P(x )) = z(x ) − P(x )/2

= (p + l)/2 − (p − l)/2 = l.

(14)

Jednoznaczno´s´c kodowania z zaokr ˛ agleniem

Ostatecznie, jednoznaczno´s´c wynika z:

rozł ˛aczno´sci przedziałów.

faktu, ˙ze z⁰nale˙zy do przedziału odpowiadaj ˛acego danemu tekstowi.

(15)

Kod prefiksowy

Twierdzenie

Kod arytmetyczny jest (dla ustalonej długo´sci kodowanego tekstu) przy zaokr ˛aglaniu do dlog 1/P(x )e + 1 bitów jest kodem prefiksowym.

Dowód

Wynika z nast ˛epuj ˛acych faktów:

przybli˙zenie z⁰znacznika z do dlog 1/P(x )e + 1 bitów znajduje si ˛e w przedziale przypisanym ci ˛agowi x ,

przedziały ró˙znych ci ˛agów s ˛a rozł ˛aczne.

ka˙zde słowo (liczba) o prefiksie z⁰te˙z mie´sci si ˛e w przedziale przypisanym ci ˛agowi x .

(16)

Przykład

Znacznik dla P(a)=0.7, P(b)=0.1, P(c)=0.2 i tekstuabc to 0.553, binarnie 0.100011011. Liczba “potrzebnych” bitów to

d(log 1/0.014)e + 1 = 8. Czyli zakodowana posta´c tekstu to10001101.

(17)

Kod arytmetyczny a entropia

Kod a entropia

Srednia liczba bitów na jeden symbol kodu arytmetycznego (z´ zaokr ˛agleniem) dla ci ˛agów o długo´sci n jest ≤ H(P) + 2/n, gdzie P to rozkład prawdopodobie ´nstwa dla alfabetu wej´sciowego.

Dowód

∑{x | |x|=n}P(x )m(x ) = ∑{x | |x|=n}P(x )(dlog 1/P(x )e + 1)

≤ ∑{x | |x|=n}P(x )(log(1/P(x )) + 1 + 1)

= − ∑{x | |x|=n}P(x ) log P(x ) + 2 ∑{x | |x|=n}P(x )

= H(Pⁿ) +2

A zatem, liczba bitów na symbol jest nie wi ˛eksza ni˙z H(P) + 2/n.

(18)

Problemy z implementacj ˛ a

wraz ze wzrostem długo´sci ci ˛agu potrzebna coraz wi ˛eksza precyzja reprezentacji liczb; a czas operacji arytmetycznych jest proporcjonalny do długo´sci liczb...

dla efektywno´sci transmisji danych - potrzebny przyrostowy algorytm kodowania (znacznik powstaje wraz z wydłu˙zaniem si ˛e ci ˛agu, nie dopiero po przeczytaniu całego ci ˛agu).

(19)

Przeskalowanie

[l, p) ⊆ [0, 0.5) ⇒ l = 0.0l⁰,p = 0.0p⁰⇒ 2 · p = 0.p⁰,2 · l = 0.l⁰ [l, p) ⊆ [0.5, 1) ⇒ l = 0.1l⁰,p = 0.1p⁰⇒

2(l − 1/2) = 0.l⁰,2(p − 1/2) = 0.p⁰ l ∈ [0.25, 0.5), p ∈ [0.5, 0.75) ⇒ l = 0.01l⁰,p = 0.10p⁰⇒

2(l − 1/4) = 0.0l⁰,2(p − 1/4) = 0.1p⁰

(20)

Kodowanie z przeskalowaniem

Na pocz ˛atku: licznik := 0, l = 0, p = 1, kod jest słowem pustym.

Po zakodowaniu ka˙zdej litery:

Dopóki [l, p) ⊆ [0, 0.5) lub [l, p) ⊆ [0.5, 1) lub [l, p) ⊆ [0.25, 0.75):

1 Je´sli [l, p) ⊆ [0, 0.5):

1 zamie ´n [l, p) na [E₁(l), E₁(p)), gdzie E₁(x ) = 2x .

2 doł ˛acz do kodu słowo 01^licznik

3 licznik := 0

2 Je´sli [l, p) ⊆ [0.5, 1):

1 zamie ´n [l, p) na [E₂(l), E₂(p)), gdzie E₂(x ) = 2(x − 0.5).

2 doł ˛acz do kodu słowo 10^licznik

3 licznik := 0

3 l < 0.5 < p oraz [l, p) ⊆ [0.25, 0.75):

(21)

Przeskalowanie: poprawno´s´c

Lemat

1 (E1) 2 · num(0.0x ) = num(0.x )

2 (E₂) num(0.1x ) − 1/2 = num(0.0x );

3 (E3) Ci ˛ag przeskalowa ´n E1E₂ⁱ jest równowa˙zny E₃ⁱE1.

4 (E3) ci ˛ag przeskalowa ´n E2E₁ⁱ jest równowa˙zny E₃ⁱE2

gdzie num(y ) oznacza warto´s´c liczby zapisanej binarnie jako słowo y .

(22)

Dekodowanie z przeskalowaniem

Wej´scie: znacznik, czyli ci ˛ag binarny b ˛ed ˛acy zakodowan ˛a postaci ˛a tekstu.

Inicjalizacja:

1 Niech m = maxa_idlog(1/P(a_i))e. Odczytujemy pierwsze m bitów znacznika i ustalamy pierwsze przybli˙zenie znacznika z⁰i pierwszy symbol w tek´scie, a_j.

2 l := F (j); p := F (j + 1);

3 licznik := 0;

(23)

Dekodowanie z przeskalowaniem

Kontynuacja (powtarzaj a˙z do odczytania wszystkich bitów):

1 je´sli [l, p) spełnia warunki dla przeskalowania E₁lub E₂:

1 przeskaluj [l, p) przy pomocy E₁lub E₂,

2 usu ´n 1 + licznik najbardziej znacz ˛acych bitów z⁰i doł ˛acz kolejne 1 + licznik bitów jako najmniej znacz ˛ace bity z⁰

3 licznik := 0

2 je´sli [l, p) spełnia warunek dla E3: przeskalowanie E3dla [l, p) i z⁰ i zwi ˛ekszenie licznik o 1;

3 je´sli przedział nie spełnia ˙zadnego z warunków dla E1, E2, E3: odczytujemy kolejne bity z⁰tak aby było ich co najmniej m; na podstawie z⁰wyznaczamy kolejn ˛a liter ˛e tekstu i kolejny przedział.

(24)

Co daje skalowanie

wielko´s´c przedziału (p − l) pozostaje nie mniejsza ni˙z min(− log p_min,1/4), gdzie p_minto najmniejsze prawdopodobie ´nstwo pojedynczego symbolu;

Uwaga: mały przedział wymaga du˙zej dokładno´sci (aby warto´sci l i p nie zrównały si ˛e).

kodowanieprogresywne: kod powstaje w trakcie kodowania, nie dopiero na ko ´ncu;

dekodowanie: operacje na znaczniku długo´sci log(1/p_min), nie na „pełnym” znaczniku;

dekodowanie bardziej skomplikowane

(25)

Kodowanie arytmetyczne a kodowanie Huffmana

Co lepsze?

gdy grupujemy m symboli:

Huffman koduje ze ´sredni ˛a H(P) + 1/m, kodowanie arytmetyczne H(P) + 2/m

ale grupowanie dla du˙zych m w Huffmanie nierealistyczne wersja adaptacyjna: du˙zo łatwiej przy kodowaniu

arytmetycznym;

uwzgl ˛ednienie kontekstu: kodowanie arytmetyczne ma mniejsze wymagania pami ˛eciowe.