XXXVIII Konferencja
Statystyka Matematyczna Wisła 2012
TEORIA INFORMACJI
A STATYSTYKA MATEMATYCZNA Tadeusz Inglot
Instytut Matematyki i Informatyki Politechniki Wrocławskiej
Część I cd.
Rzut informacyjny
Własności geometryczne rzutu informacyjnego (Csiszár, 1975) P wypukła, domknięta w normie całkowitego wahania, µ /∈ P, µ∗ = IprojP(µ) ⇐⇒ ∀ν ∈ P D(ν||µ) > D(ν||µ∗) + D(µ∗||µ) ponadto µ∗ jest wyznaczona jednoznacznie.
Topsøe (1979), Csiszár, Matú˘s (2003)
AA AA AA AA AA AA
µ ν µ∗
P
T
1
D(ν||µ) ma analogiczną własność jak kwadrat normy euklidesowej
Rzut informacyjny
Własności geometryczne rzutu informacyjnego
T = {ν : ∞ > D(ν||µ) = D(ν||µ∗) + D(µ∗||µ)}
“hiperpłaszczyzna styczna do D-kuli o środku w µ i promieniu D(µ∗||µ) ”, (oczywiście µ∗ ∈ T )
• (Csiszár, 1975) jeśli µ∗ = IprojP(µ) oraz
∃α ∈ (0, 1) µ∗ = αν1+ (1− α)ν2, ν1, ν2 ∈ P, to ν1, ν2 ∈ T i cały odcinek zawarty w T
L liniowy, jeśli ∀ν1, ν2 ∈ L αν1+ (1− α)ν2∈ L
• (Csiszár, 1975) Jeśli L liniowy oraz µ∗= IprojL(µ), toL nie musi być zawarty w T (gdy L “nieskończenie wymiarowy”)
Rzut informacyjny
P rodzina miar probabilistycznych, µ /∈ P, ∃ ν ∈ P D(µ||ν) < ∞
µ∗ ∈ P jest odwrotnym rzutem informacyjnym (RI -projection) µ naP (µ∗= RIprojP(µ)), jeśli
D(µ||µ∗) = min
ν∈PD(µ||ν)
Rzut informacyjny
P jest logarytmicznie wypukła, jeśli dla dowolnych µ, ν ∈ P o gęstościach p, q i dowolnego t∈ (0, 1) miara o gęstości ctptq1−t, ct stała normująca, należy do P
Własności geometryczne odwrotnego rzutu informacyjnego (Csiszár, Matú˘s 2003)
JeśliP logarytmicznie wypukła, domknięta w normie całkowitego wahania, µ /∈ P, D(µ||P) < ∞, to istnieje jednoznacznie wyznaczony odwrotny rzut informacyjny µ naP oraz
∀ν ∈ P D(µ||ν) > D(µ||µ∗) + D(µ∗||ν)
Csiszár, Matú˘s (2003) uogólnienia pojęć rzutu i odwrotnego rzutu informacyjnego, uogólnione rodziny
wykładnicze, MLE
Estymatory największej wiarogodności
µ ustalony rozkład
T = (T1, ..., Tk) wektor funkcji mierzalnych a∈ Rk ustalony wektor (średnich)
La ={ν : ν ≺≺ µ, q = d νd µ, R Tqdµ = a}
La wypukła, domknięta w normie całkowitego wahania γϑ: d γϑ
d µ = cϑeϑ◦T, ϑ∈ Rk, cϑ stała normująca rozkład wykładniczy względem µ wyznaczony przez T
Estymatory największej wiarogodności
Twierdzenie (Csiszár, 1975) Jeśli
∃ ϑ0
Z
Td γϑ0
d µ d µ = a, (γϑ0 ∈ La), to
IprojLaµ = γϑ0(= µ∗) ponadto (równość Pitagorasa)
∀ ν ∈ La D(ν||µ) = D(ν||γϑ0) + D(γϑ0||µ) (La jest zawarta “w przestrzeni stycznej do D-kuli o środku µ w punkcie γϑ0”)
Estymatory największej wiarogodności
Zwiazek rzutu informacyjnego i MLE
P wykładnicza rodzina miar produktowych względem µn P = {γϑn: pnϑ = cϑnenϑ◦T, ϑ∈ Θ ⊂ Rk}, T (x) = 1nP T (xi) X = (X1, ..., Xn) próba i.i.d.
LT (X )={ν : Z
T d ν
d µnd µn= T (X )} ϑb MLE ϑ dla X w modeluP Z
T pn bϑd µn=−∇ ln cϑ|ϑ= bϑ= T (X ) =⇒ γϑnb∈ LT (X )
twierdzenie Csiszára =⇒ γϑnb= IprojL
T (X )µn najbliższą do µn miarą w LT (X ) jest γn
ϑb
Estymatory największej wiarogodności
X = {x1, ..., xr} skończony alfabet
P = {pϑ= (pϑ,1, ..., pϑ,r) : ϑ∈ Θ ⊂ Rk} rodzina rozkładów naX
X = (X1, ..., Xn) próba i.i.d. o rozkładzie pϑ, ϑ nieznane µn rozkład empiryczny próby jako miara naX
ϑ = argmaxb ϑlogQn
j =1pϑ,Xj MLE ϑ dla X
Estymatory największej wiarogodności
Związek odwrotnego rzutu informacyjnego z MLE ϑ istniejeb iff RIprojPµn istnieje ponadto
RIprojPµn= p
ϑb
Dowód.
argmaxϑlog
n
Y
j =1
pϑ,Xj = argminϑ
n
X
j =1
log 1 pϑ,Xj
= argminϑ
r
X
i =1
nµn({xi}) log 1 pϑ,i
= argminϑ
r
X
i =1
µn({xi}) logµn({xi})
pϑ,i = argminϑD(µn||pϑ)
Estymatory największej wiarogodności
Związek odwrotnego rzutu informacyjnego z MLE ϑ istniejeb iff RIprojPµn istnieje ponadto
RIprojPµn= p
ϑb
Dowód.
argmaxϑlog
n
Y
j =1
pϑ,Xj = argminϑ
n
X
j =1
log 1 pϑ,Xj
= argminϑ
r
X
i =1
nµn({xi}) log 1 pϑ,i
= argminϑ
r
X
i =1
µn({xi}) logµn({xi})
pϑ,i = argminϑD(µn||pϑ)
Informacja Fishera
Parametryczna
P = {pϑ: ϑ∈ Θ ⊂ Rk} – model statystyczny dostatecznie regularny na (X , B, λ)
• Jaka jest odległość informacyjna pϑ od pϑ0 przy małej zmianie parametru?
− log pϑ
pϑ0 = log pϑ0− log pϑ
= (∇ log pϑ)T(ϑ0−ϑ)+1
2(ϑ0−ϑ)T∂2log pϑ
∂ϑ∂ϑT (ϑ0−ϑ)+o(||ϑ0−ϑ||2)
dla wektora wynikowego∇ log pϑ mamy Z
pϑ∇ log pϑ= 0
Informacja Fishera
Parametryczna
P = {pϑ: ϑ∈ Θ ⊂ Rk} – model statystyczny dostatecznie regularny na (X , B, λ)
• Jaka jest odległość informacyjna pϑ od pϑ0 przy małej zmianie parametru?
− log pϑ
pϑ0 = log pϑ0− log pϑ
= (∇ log pϑ)T(ϑ0−ϑ)+1
2(ϑ0−ϑ)T∂2log pϑ
∂ϑ∂ϑT (ϑ0−ϑ)+o(||ϑ0−ϑ||2)
dla wektora wynikowego∇ log pϑ mamy Z
pϑ∇ log pϑ= 0
Informacja Fishera
Parametryczna
P = {pϑ: ϑ∈ Θ ⊂ Rk} – model statystyczny dostatecznie regularny na (X , B, λ)
• Jaka jest odległość informacyjna pϑ od pϑ0 przy małej zmianie parametru?
− log pϑ
pϑ0 = log pϑ0− log pϑ
= (∇ log pϑ)T(ϑ0−ϑ)+1
2(ϑ0−ϑ)T∂2log pϑ
∂ϑ∂ϑT (ϑ0−ϑ)+o(||ϑ0−ϑ||2)
dla wektora wynikowego∇ log pϑ mamy Z
pϑ∇ log pϑ= 0
Informacja Fishera
Parametryczna stąd
D(pϑ||pϑ0) =−log e
2 (ϑ0−ϑ)T Z
pϑ
∂2ln pϑ
∂ϑ∂ϑT (ϑ0−ϑ)+o(||ϑ0−ϑ||2)
= log e
2 (ϑ0− ϑ)TJ(ϑ)(ϑ0− ϑ) + o(||ϑ0− ϑ||2), ϑ0 → ϑ, gdzie współczynnik proporcjonalności (prędkość zmian D(pϑ||pϑ0))
J(ϑ)def= Z
(∇ ln pϑ)(∇ ln pϑ)Tpϑ=−
Z ∂2ln pϑ
∂ϑ∂ϑT pϑ
nazywamy macierzą informacji Fishera.
Informacja Fishera
Interpretacja J(ϑ) dla k = 1:
J1 J2 J2>J1
d
ϑ ϑl
dla danej (małej) odległości informacyjnej D(pϑ||pϑ0) = d , parametr ϑ jest tym dokładniej wyznaczony im J(ϑ) jest większa
Informacja Fishera
Nierówność Rao-Craméra
Jeśli T mierzalna EϑT (X ) = ϑ oraz EϑT (X )T (X )T = Kϑ> 0, to J(ϑ) > Kϑ−1, (Kϑ> J(ϑ)−1)
Dowód
• Z
pϑ(∇ ln pϑ)TT = Z
(∇pϑ)TT =∇ Z
pϑTT = I
• 0 6 Eϑ ∇ ln pϑ(X )− Kϑ−1T (X )
∇ ln pϑ(X )− Kϑ−1T (X )T
= J(ϑ)− 2Kϑ−1I + Kϑ−1EϑT (X )T (X )TKϑ−1
= J(ϑ)− Kϑ−1
nierówność Rao-Craméra nazywa się także
nierównością informacyjną (information inequality)
Informacja Fishera
Nieparametryczna
X o gęstości absolutnie ciągłej p w Rk
pϑ(x ) = p(x− ϑ), ϑ ∈ Rk, model z parametrem przesunięcia J(ϑ) = J(0)ozn.= J(p) = J(X ) =
Z
(∇ ln p)(∇ ln p)Tp
J(X ) = tr J(X ) = E||∇ ln p||2= 4R [∇√p]2dx ∈ [0, ∞]
informacja Fishera dla X
Informacja Fishera (nieparametryczna)
Własności
J(X + a) = J(X ), J(cX ) = 1 c2J(X ) ZK ∼ N(0, K ) =⇒ J(ZK) = K−1
(Nierówność Rao-Craméra) dla dowolnego X o średniej 0 i nieosobliwej macierzy kowariancji K
J(X )− K−1= J(X )− J(ZK) > 0 równość iff X ∼ N(0, K ) w szczególności J(X ) > tr K−1 , równość iff X ∼ N(0, K ) ponieważ tr K−1 > σk2 , równość iff K = σ2I , gdzie σ2 największa wartość własna K , to J(X ) >σk2, równość iff X ∼ N(0, σ2I ) stąd k
J(X ) jest mocą białego szumu gaussowskiego o danej informacji Fishera J(X )
Informacja Fishera
Odległość informacyjna Fishera
X , Y ∈ Rk o gęstościach absolutnie ciągłych p, q i tej samej nieosobliwej macierzy kowariancji K
J(X||Y ) = J(p||q) = Z
p(∇ lnp
q)(∇ lnp q)Tdx Jeśli ZK ∼ N(0, K ), K nieosobliwa, to
J(X||ZK) = J(X )− K−1 Dowód. (identyczny jak nierówności Rao-Craméra) J(X||ZK) =
Z
(∇ ln p(x) + K−1x )(∇ ln p(x) + K−1x )Tp(x )dx
= J(X ) + 2K−1 Z
x (∇ ln p(x))Tp(x )dx + K−1
= J(X ) + 2K−1(−I ) + K−1
Informacja Fishera
Odległość informacyjna Fishera
X , Y ∈ Rk o gęstościach absolutnie ciągłych p, q i tej samej nieosobliwej macierzy kowariancji K
J(X||Y ) = J(p||q) = Z
p(∇ lnp
q)(∇ lnp q)Tdx Jeśli ZK ∼ N(0, K ), K nieosobliwa, to
J(X||ZK) = J(X )− K−1 Dowód. (identyczny jak nierówności Rao-Craméra) J(X||ZK) =
Z
(∇ ln p(x) + K−1x )(∇ ln p(x) + K−1x )Tp(x )dx
= J(X ) + 2K−1 Z
x (∇ ln p(x))Tp(x )dx + K−1
= J(X ) + 2K−1(−I ) + K−1
Informacja Fishera
Odległość informacyjna od rozkładu normalnego
k = 1, p gęstość o średniej 0 i wariancji σ2, J(p) <∞ D(p||φσ) = 12log 2πeσ2− H(p) = H(φσ)− H(p)
J(p||φσ) = J(p)− 1
σ2 = J(p)− J(φσ)
p o średniej 0 i wariancji 1, J(p) <∞
• D(p||φ1) 6 log e
2 J(p||φ1) (z tożsamości de Bruijna)
• sup
x |p(x) − φ1(x )| 6 1 +r 6 π
!
pJ(p||φ1) (Shimizu,1975)
Informacja Fishera
Odległość informacyjna od rozkładu normalnego
k = 1, p gęstość o średniej 0 i wariancji σ2, J(p) <∞ D(p||φσ) = 12log 2πeσ2− H(p) = H(φσ)− H(p)
J(p||φσ) = J(p)− 1
σ2 = J(p)− J(φσ) p o średniej 0 i wariancji 1, J(p) <∞
• D(p||φ1) 6 log e
2 J(p||φ1) (z tożsamości de Bruijna)
• sup
x |p(x) − φ1(x )| 6 1 +r 6 π
!
pJ(p||φ1) (Shimizu,1975)
Tożsamość de Bruijna
rozkład normalny maksymalizuje entropię
i równocześnie minimalizuje informację Fishera =⇒ te wielkości powinny być ze sobą związane
Twierdzenie
Jeśli k = 1, X ∼ p, Var X = 1, Z ∼ N(0, 1), X , Z niezależne, to
∀t > 0 dtdH(X +√
tZ ) = log e2 J(X +√ tZ ).
postać całkowa
D(p||φ1) = log e 2
Z ∞
0
J(X +√
tZ )− 1 1 + t
dt
de Bruijn < 1959, Stam (1959) postać różniczkowa Barron (1986) postać całkowa
Tożsamość de Bruijna
rozkład normalny maksymalizuje entropię
i równocześnie minimalizuje informację Fishera =⇒ te wielkości powinny być ze sobą związane
Twierdzenie
Jeśli k = 1, X ∼ p, Var X = 1, Z ∼ N(0, 1), X , Z niezależne, to
∀t > 0 dtdH(X +√
tZ ) = log e2 J(X +√ tZ ).
postać całkowa
D(p||φ1) = log e 2
Z ∞
0
J(X +√
tZ )− 1 1 + t
dt
de Bruijn < 1959, Stam (1959) postać różniczkowa Barron (1986) postać całkowa
Tożsamość de Bruijna
Schemat dowodu.
• gęstość Zt spełnia równanie ciepła (∂φ∂tt(x ) = 12∂2∂xφt2(x ))
• zatem gęstość X + Zt także
• różniczkowanie pod całką określającą H(X + Zt) + cpcz ⇒ postać różniczkowa
równoważne sformułowanie (∗) ∀t > 0 d
dtI (X +√
tZ , Z ) = log e
2 J(X +√ tZ ) Dowód.
I (X +√
tZ , Z ) = H(X +√
tZ ) + H(Z )− H(X +√ tZ , Z )
= H(X +√
tZ ) + H(Z )− H(X ) − H(Z )
= H(X +√
tZ )− H(X ) (∗) w t = 0: I (X +√
tZ , Z ) = log e2 J(X ) t + o(t) Rioul (2011)
Tożsamość de Bruijna
Schemat dowodu.
• gęstość Zt spełnia równanie ciepła (∂φ∂tt(x ) = 12∂2∂xφt2(x ))
• zatem gęstość X + Zt także
• różniczkowanie pod całką określającą H(X + Zt) + cpcz ⇒ postać różniczkowa
równoważne sformułowanie (∗) ∀t > 0 d
dtI (X +√
tZ , Z ) = log e
2 J(X +√ tZ ) Dowód.
I (X +√
tZ , Z ) = H(X +√
tZ ) + H(Z )− H(X +√ tZ , Z )
= H(X +√
tZ ) + H(Z )− H(X ) − H(Z )
= H(X +√
tZ )− H(X ) (∗) w t = 0: I (X +√
tZ , Z ) = log e2 J(X ) t + o(t) Rioul (2011)
Tożsamość de Bruijna
I (X +√
tZ , Z ) = log e
2 J(X ) t + o(t), gdy t → 0
Ilość informacji wzajemnej sygnału z szumem gaussowskim i szumu jako funkcja (małej) mocy szumu t
0 t0 t
J2>J1
I(X+ tZ, Z) J1
J2
Interpretacja informacji Fishera
J(X ) czułość sygnału X na addytywny niezależny szum gaussowski. Czułość najmniejsza, gdy X gaussowska.
Wielowymiarowa tożsamość de Bruijna
Twierdzenie (Johnson, Suhov, 2001)
Jeśli X , ZK ∈ Rk niezależne, X ∼ p, Cov X = B, ZK ∼ N(0, K ) oraz K nieosobliwa, to
D(p||φK) = log e 2
Z ∞
0
tr(K J (X +√
tZK))− k 1 + t
dt
+log e
2 [tr (K−1B)− k]
B = K =⇒ drugi człon znika
Nierówności informacyjne
k = 1, X , Y niezależne o skończonych informacjach Fishera
`X = pX0 pX
, `Y = q0Y qY
funkcje wynikowe X i Y Twierdzenie (Barron, Johnson, 2004)
∀α ∈ [0, 1] α2J(X ) + (1− α)2J(Y )− J(X + Y )
= E (`X +Y(X + Y )− α`X(X )− (1 − α)`Y(Y ))2 Nierówność dla informacji Fishera (Stam, 1959, Blachman, 1965)
∀α ∈ [0, 1] J(X + Y ) 6 α2J(X ) + (1− α)2J(Y ) równość iff X , Y ∼ N(0, σ)
indukcja: X1, ..., Xn niezależne, P αi = 1
J(X1+ ... + Xn) 6 α21J(X1) + ... + α2nJ(Xn).
‘informacja Fishera maleje ze wzrostem potęgi splotowej’
Nierówności informacyjne
k = 1, X , Y niezależne o skończonych informacjach Fishera
`X = pX0 pX
, `Y = q0Y qY
funkcje wynikowe X i Y Twierdzenie (Barron, Johnson, 2004)
∀α ∈ [0, 1] α2J(X ) + (1− α)2J(Y )− J(X + Y )
= E (`X +Y(X + Y )− α`X(X )− (1 − α)`Y(Y ))2 Nierówność dla informacji Fishera (Stam, 1959, Blachman, 1965)
∀α ∈ [0, 1] J(X + Y ) 6 α2J(X ) + (1− α)2J(Y ) równość iff X , Y ∼ N(0, σ)
indukcja: X1, ..., Xn niezależne, P αi = 1
J(X1+ ... + Xn) 6 α21J(X1) + ... + α2nJ(Xn).
‘informacja Fishera maleje ze wzrostem potęgi splotowej’
Nierówności informacyjne
Idea dowodu twierdzenia
• `X +Y(u) = E (`X(X )|X + Y = u) = E (`Y(Y )|X + Y = u) p.w.
• mnożąc przez α i 1 − α i dodając mamy
`X +Y(X + Y ) = E ((α`X(X ) + (1− α)`Y(Y ))|X + Y ) p.w.
• z twierdzenia Pitagorasa dla rzutu ortogonalnego E (α`X(X ) + (1− α)`Y(Y )− `X +Y(X + Y ))2
= E (α`X(X ) + (1− α)`Y(Y ))2− E `2X +Y(X + Y )
Nierówności informacyjne
Wersje FII
(i) J(X1+ ... + Xn) 6 α21J(X1) + ... + α2nJ(Xn), P αi = 1 Równoważnie
(ii)
J(√α1X1+ ... + √αnXn) 6 α1J(X1) + ... + αnJ(Xn), P αi = 1
(iii) 1
J(X1+ ... + Xn) > 1
J(X1) + ... + 1 J(Xn)
(iv) 1
J(α1X1+ ... + αnXn) > α21
J(X1) + ... + α2n J(Xn)
(ii) dla iid: J X1+ ... + Xn
√n
6 J(X1) Barron, Madiman (2007), Rioul (2011)
Nierówności informacyjne
Wersje FII
(i) J(X1+ ... + Xn) 6 α21J(X1) + ... + α2nJ(Xn), P αi = 1 Równoważnie
(ii)
J(√α1X1+ ... + √αnXn) 6 α1J(X1) + ... + αnJ(Xn), P αi = 1
(iii) 1
J(X1+ ... + Xn) > 1
J(X1) + ... + 1 J(Xn)
(iv) 1
J(α1X1+ ... + αnXn) > α21
J(X1) + ... + α2n J(Xn)
(ii) dla iid: J X1+ ... + Xn
√n
6 J(X1) Barron, Madiman (2007), Rioul (2011)
Nierówności informacyjne
Niektóre zastosowania FII
zbieżność entropijna i szybkość zbieżności w centralnym twierdzeniu granicznym (Barron, Johnson, 2004)
ślepe oddzielanie źródeł (blind source separation) z minimalną entropią (Donoho, 1981)
ślepe odtwarzanie obrazów (blind image deconvolution) estymacja danych filtrowanych (Zamir, 1998)
Nierówności informacyjne
Moc entropijna H(Zσ) = 12log 2πeσ2
Zσ = (Z1σ, ..., Zkσ) biały szum gaussowski o mocy (wariancji) σ2 H(Zσ) = k2 log 2πeσ2
stąd σ2 = 2πe1 22kH(Zσ)= N(Zσ) moc białego szumu gaussowskiego o entropii H(Zσ) X dowolny wektor losowy w Rk o macierzy kowariancji K
N(X )def= 1
2πe22kH(X ) moc entropijna X ponieważ H(X ) 6 H(ZK) = 12log(2πe)kdet K , to
N(X ) 6 (det K )1/k 6 k1tr K równość iff X jest białym szumem
Nierówności informacyjne
Nierówności dla mocy entropijnej (EPI)
X , Y niezależne wektory losowe w Rk o rozkładach ciągłych 22kH(X +Y ) > 22kH(X )+ 22kH(Y ) (Shannon, 1948) tzn.
N(X + Y ) > N(X ) + N(Y ) równość iff X ∼ N(0, K ), Y ∼ N(0, cK ) indukcja
(∗) N(X1+ ... + Xn) > N(X1) + ... + N(Xn) dowody: Stam (1959), Blachman (1965),...,
Barron, Madiman (2007), Rioul (2011) nierówność fałszywa dla X , Y dyskretnych
Nierówności informacyjne
Nierówności dla mocy entropijnej
∀c N(cX ) = c2N(X )
podstawiając w (∗) Xi = √αiXi0, P αi = 1
(∗∗) N(P√αiXi) >P αiN(Xi) równość iff Xi gaussowskie stąd
H(P√αiXi)≥P αiH(Xi) równość iff Xi gaussowskie (wklęsłość entropii dla transformacji zachowujących wariancję) obie nierówności równoważne, gdy Xi i.i.d.
nierówności prawdziwe także dla zmiennych dyskretnych (∗∗) odpowiednik FII
zastosowania podobne jak FII (Rioul, 2011)
Przetwarzanie danych (Data Processing)
Warunkowa ilość informacji X , Y , Z dowolne
I (Y , X|Z )def= H(Y|Z ) − H(Y |Z , X ) Reguła Łańcuchowa
I ((Y , Z ), X ) = I (Z , X ) + I (Y , X|Z ) Dowód.
I ((Y , Z ), X ) = H(Y , Z )− H(Y , Z |X )
= H(Z ) + H(Y|Z ) − H(Z |X ) − H(Y |Z , X ) z drugiej strony I (Z , X ) = H(Z )− H(Z |X )
oraz I (Y , X|Z ) = H(Y |Z ) − H(Y |Z , X )
Przetwarzanie danych (Data Processing)
Warunkowa ilość informacji X , Y , Z dowolne
I (Y , X|Z )def= H(Y|Z ) − H(Y |Z , X ) Reguła Łańcuchowa
I ((Y , Z ), X ) = I (Z , X ) + I (Y , X|Z ) Dowód.
I ((Y , Z ), X ) = H(Y , Z )− H(Y , Z |X )
= H(Z ) + H(Y|Z ) − H(Z |X ) − H(Y |Z , X ) z drugiej strony I (Z , X ) = H(Z )− H(Z |X )
oraz I (Y , X|Z ) = H(Y |Z ) − H(Y |Z , X )
Przetwarzanie danych
X , Y , Z dowolne
X , Y , Z tworzą łańcuch Markowa, jeśli dla dowolnych funkcji ograniczonych g1, g2
E (g1(X )g2(Z )|Y ) = E (g1(X )|Y )E (g2(Z )|Y ) oznaczenie: X −→ Y −→ Z
“przy danej teraźniejszości, przyszłość nie zależy od przeszłości”
oczywiście X −→ Y −→ Z ⇐⇒ Z −→ Y −→ X dla dowolnej funkcji h jest X −→ Y −→ h(Y )
Przetwarzanie danych
Nierówność dla danych przetworzonych (DPI) Jeśli X −→ Y −→ Z , to
I (X , Z ) 6 I (X , Y ).
“dane przetworzone nie zawierają więcej informacji o X ” Dowód
• z reguły łańcuchowej
I ((Y , Z ), X ) = I (X , Z ) + I (Y , X|Z ) = I (Y , X ) + I (Z , X |Y )
• ponieważ X , Z są warunkowo niezależne, to I (Z , X |Y ) = 0
• I (Y , X |Z ) > 0 =⇒ I (X , Z ) 6 I (X , Y )