• Nie Znaleziono Wyników

XXXVIII Konferencja Statystyka Matematyczna Wisła 2012 TEORIA INFORMACJI A STATYSTYKA MATEMATYCZNA Tadeusz Inglot Instytut Matematyki i Informatyki Politechniki Wrocławskiej Część I cd.

N/A
N/A
Protected

Academic year: 2022

Share "XXXVIII Konferencja Statystyka Matematyczna Wisła 2012 TEORIA INFORMACJI A STATYSTYKA MATEMATYCZNA Tadeusz Inglot Instytut Matematyki i Informatyki Politechniki Wrocławskiej Część I cd."

Copied!
42
0
0

Pełen tekst

(1)

XXXVIII Konferencja

Statystyka Matematyczna Wisła 2012

TEORIA INFORMACJI

A STATYSTYKA MATEMATYCZNA Tadeusz Inglot

Instytut Matematyki i Informatyki Politechniki Wrocławskiej

Część I cd.

(2)

Rzut informacyjny

Własności geometryczne rzutu informacyjnego (Csiszár, 1975) P wypukła, domknięta w normie całkowitego wahania, µ /∈ P, µ = IprojP(µ) ⇐⇒ ∀ν ∈ P D(ν||µ) > D(ν||µ) + D(µ||µ) ponadto µ jest wyznaczona jednoznacznie.

Topsøe (1979), Csiszár, Matú˘s (2003)



AA AA AA AA AA AA

µ ν µ

P

T

1

D(ν||µ) ma analogiczną własność jak kwadrat normy euklidesowej

(3)

Rzut informacyjny

Własności geometryczne rzutu informacyjnego

T = {ν : ∞ > D(ν||µ) = D(ν||µ) + D(µ||µ)}

“hiperpłaszczyzna styczna do D-kuli o środku w µ i promieniu D(µ||µ) ”, (oczywiście µ ∈ T )

• (Csiszár, 1975) jeśli µ = IprojP(µ) oraz

∃α ∈ (0, 1) µ = αν1+ (1− α)ν2, ν1, ν2 ∈ P, to ν1, ν2 ∈ T i cały odcinek zawarty w T

L liniowy, jeśli ∀ν1, ν2 ∈ L αν1+ (1− α)ν2∈ L

• (Csiszár, 1975) Jeśli L liniowy oraz µ= IprojL(µ), toL nie musi być zawarty w T (gdy L “nieskończenie wymiarowy”)

(4)

Rzut informacyjny

P rodzina miar probabilistycznych, µ /∈ P, ∃ ν ∈ P D(µ||ν) < ∞

µ ∈ P jest odwrotnym rzutem informacyjnym (RI -projection) µ naP (µ= RIprojP(µ)), jeśli

D(µ||µ) = min

ν∈PD(µ||ν)

(5)

Rzut informacyjny

P jest logarytmicznie wypukła, jeśli dla dowolnych µ, ν ∈ P o gęstościach p, q i dowolnego t∈ (0, 1) miara o gęstości ctptq1−t, ct stała normująca, należy do P

Własności geometryczne odwrotnego rzutu informacyjnego (Csiszár, Matú˘s 2003)

JeśliP logarytmicznie wypukła, domknięta w normie całkowitego wahania, µ /∈ P, D(µ||P) < ∞, to istnieje jednoznacznie wyznaczony odwrotny rzut informacyjny µ naP oraz

∀ν ∈ P D(µ||ν) > D(µ||µ) + D(µ||ν)

Csiszár, Matú˘s (2003) uogólnienia pojęć rzutu i odwrotnego rzutu informacyjnego, uogólnione rodziny

wykładnicze, MLE

(6)

Estymatory największej wiarogodności

µ ustalony rozkład

T = (T1, ..., Tk) wektor funkcji mierzalnych a∈ Rk ustalony wektor (średnich)

La ={ν : ν ≺≺ µ, q = d νd µ, R Tqdµ = a}

La wypukła, domknięta w normie całkowitego wahania γϑ: d γϑ

d µ = cϑeϑ◦T, ϑ∈ Rk, cϑ stała normująca rozkład wykładniczy względem µ wyznaczony przez T

(7)

Estymatory największej wiarogodności

Twierdzenie (Csiszár, 1975) Jeśli

∃ ϑ0

Z

Td γϑ0

d µ d µ = a, (γϑ0 ∈ La), to

IprojLaµ = γϑ0(= µ) ponadto (równość Pitagorasa)

∀ ν ∈ La D(ν||µ) = D(ν||γϑ0) + D(γϑ0||µ) (La jest zawarta “w przestrzeni stycznej do D-kuli o środku µ w punkcie γϑ0”)

(8)

Estymatory największej wiarogodności

Zwiazek rzutu informacyjnego i MLE

P wykładnicza rodzina miar produktowych względem µn P = {γϑn: p = cϑne◦T, ϑ∈ Θ ⊂ Rk}, T (x) = 1nP T (xi) X = (X1, ..., Xn) próba i.i.d.

LT (X )={ν : Z

T d ν

d µnd µn= T (X )} ϑb MLE ϑ dla X w modeluP Z

T pn bϑd µn=−∇ ln cϑ|ϑ= bϑ= T (X ) =⇒ γϑnb∈ LT (X )

twierdzenie Csiszára =⇒ γϑnb= IprojL

T (X )µn najbliższą do µn miarą w LT (X ) jest γn

ϑb

(9)

Estymatory największej wiarogodności

X = {x1, ..., xr} skończony alfabet

P = {pϑ= (pϑ,1, ..., pϑ,r) : ϑ∈ Θ ⊂ Rk} rodzina rozkładów naX

X = (X1, ..., Xn) próba i.i.d. o rozkładzie pϑ, ϑ nieznane µn rozkład empiryczny próby jako miara naX

ϑ = argmaxb ϑlogQn

j =1pϑ,Xj MLE ϑ dla X

(10)

Estymatory największej wiarogodności

Związek odwrotnego rzutu informacyjnego z MLE ϑ istniejeb iff RIprojPµn istnieje ponadto

RIprojPµn= p

ϑb

Dowód.

argmaxϑlog

n

Y

j =1

pϑ,Xj = argminϑ

n

X

j =1

log 1 pϑ,Xj

= argminϑ

r

X

i =1

n({xi}) log 1 pϑ,i

= argminϑ

r

X

i =1

µn({xi}) logµn({xi})

pϑ,i = argminϑD(µn||pϑ)

(11)

Estymatory największej wiarogodności

Związek odwrotnego rzutu informacyjnego z MLE ϑ istniejeb iff RIprojPµn istnieje ponadto

RIprojPµn= p

ϑb

Dowód.

argmaxϑlog

n

Y

j =1

pϑ,Xj = argminϑ

n

X

j =1

log 1 pϑ,Xj

= argminϑ

r

X

i =1

n({xi}) log 1 pϑ,i

= argminϑ

r

X

i =1

µn({xi}) logµn({xi})

pϑ,i = argminϑD(µn||pϑ)

(12)

Informacja Fishera

Parametryczna

P = {pϑ: ϑ∈ Θ ⊂ Rk} – model statystyczny dostatecznie regularny na (X , B, λ)

• Jaka jest odległość informacyjna pϑ od pϑ0 przy małej zmianie parametru?

− log pϑ

pϑ0 = log pϑ0− log pϑ

= (∇ log pϑ)T0−ϑ)+1

2(ϑ0−ϑ)T2log pϑ

∂ϑ∂ϑT0−ϑ)+o(||ϑ0−ϑ||2)

dla wektora wynikowego∇ log pϑ mamy Z

pϑ∇ log pϑ= 0

(13)

Informacja Fishera

Parametryczna

P = {pϑ: ϑ∈ Θ ⊂ Rk} – model statystyczny dostatecznie regularny na (X , B, λ)

• Jaka jest odległość informacyjna pϑ od pϑ0 przy małej zmianie parametru?

− log pϑ

pϑ0 = log pϑ0− log pϑ

= (∇ log pϑ)T0−ϑ)+1

2(ϑ0−ϑ)T2log pϑ

∂ϑ∂ϑT0−ϑ)+o(||ϑ0−ϑ||2)

dla wektora wynikowego∇ log pϑ mamy Z

pϑ∇ log pϑ= 0

(14)

Informacja Fishera

Parametryczna

P = {pϑ: ϑ∈ Θ ⊂ Rk} – model statystyczny dostatecznie regularny na (X , B, λ)

• Jaka jest odległość informacyjna pϑ od pϑ0 przy małej zmianie parametru?

− log pϑ

pϑ0 = log pϑ0− log pϑ

= (∇ log pϑ)T0−ϑ)+1

2(ϑ0−ϑ)T2log pϑ

∂ϑ∂ϑT0−ϑ)+o(||ϑ0−ϑ||2)

dla wektora wynikowego∇ log pϑ mamy Z

pϑ∇ log pϑ= 0

(15)

Informacja Fishera

Parametryczna stąd

D(pϑ||pϑ0) =−log e

2 (ϑ0−ϑ)T Z

pϑ

2ln pϑ

∂ϑ∂ϑT0−ϑ)+o(||ϑ0−ϑ||2)

= log e

2 (ϑ0− ϑ)TJ(ϑ)(ϑ0− ϑ) + o(||ϑ0− ϑ||2), ϑ0 → ϑ, gdzie współczynnik proporcjonalności (prędkość zmian D(pϑ||pϑ0))

J(ϑ)def= Z

(∇ ln pϑ)(∇ ln pϑ)Tpϑ=−

Z ∂2ln pϑ

∂ϑ∂ϑT pϑ

nazywamy macierzą informacji Fishera.

(16)

Informacja Fishera

Interpretacja J(ϑ) dla k = 1:

J1 J2 J2>J1

d

ϑ ϑl

dla danej (małej) odległości informacyjnej D(pϑ||pϑ0) = d , parametr ϑ jest tym dokładniej wyznaczony im J(ϑ) jest większa

(17)

Informacja Fishera

Nierówność Rao-Craméra

Jeśli T mierzalna EϑT (X ) = ϑ oraz EϑT (X )T (X )T = Kϑ> 0, to J(ϑ) > Kϑ−1, (Kϑ> J(ϑ)−1)

Dowód

• Z

pϑ(∇ ln pϑ)TT = Z

(∇pϑ)TT =∇ Z

pϑTT = I

• 0 6 Eϑ ∇ ln pϑ(X )− Kϑ−1T (X )

∇ ln pϑ(X )− Kϑ−1T (X )T

= J(ϑ)− 2Kϑ−1I + Kϑ−1EϑT (X )T (X )TKϑ−1

= J(ϑ)− Kϑ−1

nierówność Rao-Craméra nazywa się także

nierównością informacyjną (information inequality)

(18)

Informacja Fishera

Nieparametryczna

X o gęstości absolutnie ciągłej p w Rk

pϑ(x ) = p(x− ϑ), ϑ ∈ Rk, model z parametrem przesunięcia J(ϑ) = J(0)ozn.= J(p) = J(X ) =

Z

(∇ ln p)(∇ ln p)Tp

J(X ) = tr J(X ) = E||∇ ln p||2= 4R [∇√p]2dx ∈ [0, ∞]

informacja Fishera dla X

(19)

Informacja Fishera (nieparametryczna)

Własności

J(X + a) = J(X ), J(cX ) = 1 c2J(X ) ZK ∼ N(0, K ) =⇒ J(ZK) = K−1

(Nierówność Rao-Craméra) dla dowolnego X o średniej 0 i nieosobliwej macierzy kowariancji K

J(X )− K−1= J(X )− J(ZK) > 0 równość iff X ∼ N(0, K ) w szczególności J(X ) > tr K−1 , równość iff X ∼ N(0, K ) ponieważ tr K−1 > σk2 , równość iff K = σ2I , gdzie σ2 największa wartość własna K , to J(X ) >σk2, równość iff X ∼ N(0, σ2I ) stąd k

J(X ) jest mocą białego szumu gaussowskiego o danej informacji Fishera J(X )

(20)

Informacja Fishera

Odległość informacyjna Fishera

X , Y ∈ Rk o gęstościach absolutnie ciągłych p, q i tej samej nieosobliwej macierzy kowariancji K

J(X||Y ) = J(p||q) = Z

p(∇ lnp

q)(∇ lnp q)Tdx Jeśli ZK ∼ N(0, K ), K nieosobliwa, to

J(X||ZK) = J(X )− K−1 Dowód. (identyczny jak nierówności Rao-Craméra) J(X||ZK) =

Z

(∇ ln p(x) + K−1x )(∇ ln p(x) + K−1x )Tp(x )dx

= J(X ) + 2K−1 Z

x (∇ ln p(x))Tp(x )dx + K−1

= J(X ) + 2K−1(−I ) + K−1

(21)

Informacja Fishera

Odległość informacyjna Fishera

X , Y ∈ Rk o gęstościach absolutnie ciągłych p, q i tej samej nieosobliwej macierzy kowariancji K

J(X||Y ) = J(p||q) = Z

p(∇ lnp

q)(∇ lnp q)Tdx Jeśli ZK ∼ N(0, K ), K nieosobliwa, to

J(X||ZK) = J(X )− K−1 Dowód. (identyczny jak nierówności Rao-Craméra) J(X||ZK) =

Z

(∇ ln p(x) + K−1x )(∇ ln p(x) + K−1x )Tp(x )dx

= J(X ) + 2K−1 Z

x (∇ ln p(x))Tp(x )dx + K−1

= J(X ) + 2K−1(−I ) + K−1

(22)

Informacja Fishera

Odległość informacyjna od rozkładu normalnego

k = 1, p gęstość o średniej 0 i wariancji σ2, J(p) <∞ D(p||φσ) = 12log 2πeσ2− H(p) = H(φσ)− H(p)

J(p||φσ) = J(p)− 1

σ2 = J(p)− J(φσ)

p o średniej 0 i wariancji 1, J(p) <∞

• D(p||φ1) 6 log e

2 J(p||φ1) (z tożsamości de Bruijna)

• sup

x |p(x) − φ1(x )| 6 1 +r 6 π

!

pJ(p||φ1) (Shimizu,1975)

(23)

Informacja Fishera

Odległość informacyjna od rozkładu normalnego

k = 1, p gęstość o średniej 0 i wariancji σ2, J(p) <∞ D(p||φσ) = 12log 2πeσ2− H(p) = H(φσ)− H(p)

J(p||φσ) = J(p)− 1

σ2 = J(p)− J(φσ) p o średniej 0 i wariancji 1, J(p) <∞

• D(p||φ1) 6 log e

2 J(p||φ1) (z tożsamości de Bruijna)

• sup

x |p(x) − φ1(x )| 6 1 +r 6 π

!

pJ(p||φ1) (Shimizu,1975)

(24)

Tożsamość de Bruijna

rozkład normalny maksymalizuje entropię

i równocześnie minimalizuje informację Fishera =⇒ te wielkości powinny być ze sobą związane

Twierdzenie

Jeśli k = 1, X ∼ p, Var X = 1, Z ∼ N(0, 1), X , Z niezależne, to

∀t > 0 dtdH(X +√

tZ ) = log e2 J(X +√ tZ ).

postać całkowa

D(p||φ1) = log e 2

Z

0



J(X +√

tZ )− 1 1 + t

 dt

de Bruijn < 1959, Stam (1959) postać różniczkowa Barron (1986) postać całkowa

(25)

Tożsamość de Bruijna

rozkład normalny maksymalizuje entropię

i równocześnie minimalizuje informację Fishera =⇒ te wielkości powinny być ze sobą związane

Twierdzenie

Jeśli k = 1, X ∼ p, Var X = 1, Z ∼ N(0, 1), X , Z niezależne, to

∀t > 0 dtdH(X +√

tZ ) = log e2 J(X +√ tZ ).

postać całkowa

D(p||φ1) = log e 2

Z

0



J(X +√

tZ )− 1 1 + t

 dt

de Bruijn < 1959, Stam (1959) postać różniczkowa Barron (1986) postać całkowa

(26)

Tożsamość de Bruijna

Schemat dowodu.

• gęstość Zt spełnia równanie ciepła (∂φ∂tt(x ) = 122∂xφt2(x ))

• zatem gęstość X + Zt także

• różniczkowanie pod całką określającą H(X + Zt) + cpcz ⇒ postać różniczkowa

równoważne sformułowanie (∗) ∀t > 0 d

dtI (X +√

tZ , Z ) = log e

2 J(X +√ tZ ) Dowód.

I (X +√

tZ , Z ) = H(X +√

tZ ) + H(Z )− H(X +√ tZ , Z )

= H(X +√

tZ ) + H(Z )− H(X ) − H(Z )

= H(X +√

tZ )− H(X ) (∗) w t = 0: I (X +√

tZ , Z ) = log e2 J(X ) t + o(t) Rioul (2011)

(27)

Tożsamość de Bruijna

Schemat dowodu.

• gęstość Zt spełnia równanie ciepła (∂φ∂tt(x ) = 122∂xφt2(x ))

• zatem gęstość X + Zt także

• różniczkowanie pod całką określającą H(X + Zt) + cpcz ⇒ postać różniczkowa

równoważne sformułowanie (∗) ∀t > 0 d

dtI (X +√

tZ , Z ) = log e

2 J(X +√ tZ ) Dowód.

I (X +√

tZ , Z ) = H(X +√

tZ ) + H(Z )− H(X +√ tZ , Z )

= H(X +√

tZ ) + H(Z )− H(X ) − H(Z )

= H(X +√

tZ )− H(X ) (∗) w t = 0: I (X +√

tZ , Z ) = log e2 J(X ) t + o(t) Rioul (2011)

(28)

Tożsamość de Bruijna

I (X +√

tZ , Z ) = log e

2 J(X ) t + o(t), gdy t → 0

Ilość informacji wzajemnej sygnału z szumem gaussowskim i szumu jako funkcja (małej) mocy szumu t

0 t0 t

J2>J1

I(X+ tZ, Z) J1

J2

Interpretacja informacji Fishera

J(X ) czułość sygnału X na addytywny niezależny szum gaussowski. Czułość najmniejsza, gdy X gaussowska.

(29)

Wielowymiarowa tożsamość de Bruijna

Twierdzenie (Johnson, Suhov, 2001)

Jeśli X , ZK ∈ Rk niezależne, X ∼ p, Cov X = B, ZK ∼ N(0, K ) oraz K nieosobliwa, to

D(p||φK) = log e 2

Z

0



tr(K J (X +√

tZK))− k 1 + t

 dt

+log e

2 [tr (K−1B)− k]

B = K =⇒ drugi człon znika

(30)

Nierówności informacyjne

k = 1, X , Y niezależne o skończonych informacjach Fishera

`X = pX0 pX

, `Y = q0Y qY

funkcje wynikowe X i Y Twierdzenie (Barron, Johnson, 2004)

∀α ∈ [0, 1] α2J(X ) + (1− α)2J(Y )− J(X + Y )

= E (`X +Y(X + Y )− α`X(X )− (1 − α)`Y(Y ))2 Nierówność dla informacji Fishera (Stam, 1959, Blachman, 1965)

∀α ∈ [0, 1] J(X + Y ) 6 α2J(X ) + (1− α)2J(Y ) równość iff X , Y ∼ N(0, σ)

indukcja: X1, ..., Xn niezależne, P αi = 1

J(X1+ ... + Xn) 6 α21J(X1) + ... + α2nJ(Xn).

‘informacja Fishera maleje ze wzrostem potęgi splotowej’

(31)

Nierówności informacyjne

k = 1, X , Y niezależne o skończonych informacjach Fishera

`X = pX0 pX

, `Y = q0Y qY

funkcje wynikowe X i Y Twierdzenie (Barron, Johnson, 2004)

∀α ∈ [0, 1] α2J(X ) + (1− α)2J(Y )− J(X + Y )

= E (`X +Y(X + Y )− α`X(X )− (1 − α)`Y(Y ))2 Nierówność dla informacji Fishera (Stam, 1959, Blachman, 1965)

∀α ∈ [0, 1] J(X + Y ) 6 α2J(X ) + (1− α)2J(Y ) równość iff X , Y ∼ N(0, σ)

indukcja: X1, ..., Xn niezależne, P αi = 1

J(X1+ ... + Xn) 6 α21J(X1) + ... + α2nJ(Xn).

‘informacja Fishera maleje ze wzrostem potęgi splotowej’

(32)

Nierówności informacyjne

Idea dowodu twierdzenia

• `X +Y(u) = E (`X(X )|X + Y = u) = E (`Y(Y )|X + Y = u) p.w.

• mnożąc przez α i 1 − α i dodając mamy

`X +Y(X + Y ) = E ((α`X(X ) + (1− α)`Y(Y ))|X + Y ) p.w.

• z twierdzenia Pitagorasa dla rzutu ortogonalnego E (α`X(X ) + (1− α)`Y(Y )− `X +Y(X + Y ))2

= E (α`X(X ) + (1− α)`Y(Y ))2− E `2X +Y(X + Y )

(33)

Nierówności informacyjne

Wersje FII

(i) J(X1+ ... + Xn) 6 α21J(X1) + ... + α2nJ(Xn), P αi = 1 Równoważnie

(ii)

J(√α1X1+ ... + √αnXn) 6 α1J(X1) + ... + αnJ(Xn), P αi = 1

(iii) 1

J(X1+ ... + Xn) > 1

J(X1) + ... + 1 J(Xn)

(iv) 1

J(α1X1+ ... + αnXn) > α21

J(X1) + ... + α2n J(Xn)

(ii) dla iid: J X1+ ... + Xn

√n



6 J(X1) Barron, Madiman (2007), Rioul (2011)

(34)

Nierówności informacyjne

Wersje FII

(i) J(X1+ ... + Xn) 6 α21J(X1) + ... + α2nJ(Xn), P αi = 1 Równoważnie

(ii)

J(√α1X1+ ... + √αnXn) 6 α1J(X1) + ... + αnJ(Xn), P αi = 1

(iii) 1

J(X1+ ... + Xn) > 1

J(X1) + ... + 1 J(Xn)

(iv) 1

J(α1X1+ ... + αnXn) > α21

J(X1) + ... + α2n J(Xn)

(ii) dla iid: J X1+ ... + Xn

√n



6 J(X1) Barron, Madiman (2007), Rioul (2011)

(35)

Nierówności informacyjne

Niektóre zastosowania FII

zbieżność entropijna i szybkość zbieżności w centralnym twierdzeniu granicznym (Barron, Johnson, 2004)

ślepe oddzielanie źródeł (blind source separation) z minimalną entropią (Donoho, 1981)

ślepe odtwarzanie obrazów (blind image deconvolution) estymacja danych filtrowanych (Zamir, 1998)

(36)

Nierówności informacyjne

Moc entropijna H(Zσ) = 12log 2πeσ2

Zσ = (Z, ..., Z) biały szum gaussowski o mocy (wariancji) σ2 H(Zσ) = k2 log 2πeσ2

stąd σ2 = 2πe1 22kH(Zσ)= N(Zσ) moc białego szumu gaussowskiego o entropii H(Zσ) X dowolny wektor losowy w Rk o macierzy kowariancji K

N(X )def= 1

2πe22kH(X ) moc entropijna X ponieważ H(X ) 6 H(ZK) = 12log(2πe)kdet K , to

N(X ) 6 (det K )1/k 6 k1tr K równość iff X jest białym szumem

(37)

Nierówności informacyjne

Nierówności dla mocy entropijnej (EPI)

X , Y niezależne wektory losowe w Rk o rozkładach ciągłych 22kH(X +Y ) > 22kH(X )+ 22kH(Y ) (Shannon, 1948) tzn.

N(X + Y ) > N(X ) + N(Y ) równość iff X ∼ N(0, K ), Y ∼ N(0, cK ) indukcja

(∗) N(X1+ ... + Xn) > N(X1) + ... + N(Xn) dowody: Stam (1959), Blachman (1965),...,

Barron, Madiman (2007), Rioul (2011) nierówność fałszywa dla X , Y dyskretnych

(38)

Nierówności informacyjne

Nierówności dla mocy entropijnej

∀c N(cX ) = c2N(X )

podstawiając w (∗) Xi = √αiXi0, P αi = 1

(∗∗) N(P√αiXi) >P αiN(Xi) równość iff Xi gaussowskie stąd

H(P√αiXi)≥P αiH(Xi) równość iff Xi gaussowskie (wklęsłość entropii dla transformacji zachowujących wariancję) obie nierówności równoważne, gdy Xi i.i.d.

nierówności prawdziwe także dla zmiennych dyskretnych (∗∗) odpowiednik FII

zastosowania podobne jak FII (Rioul, 2011)

(39)

Przetwarzanie danych (Data Processing)

Warunkowa ilość informacji X , Y , Z dowolne

I (Y , X|Z )def= H(Y|Z ) − H(Y |Z , X ) Reguła Łańcuchowa

I ((Y , Z ), X ) = I (Z , X ) + I (Y , X|Z ) Dowód.

I ((Y , Z ), X ) = H(Y , Z )− H(Y , Z |X )

= H(Z ) + H(Y|Z ) − H(Z |X ) − H(Y |Z , X ) z drugiej strony I (Z , X ) = H(Z )− H(Z |X )

oraz I (Y , X|Z ) = H(Y |Z ) − H(Y |Z , X )

(40)

Przetwarzanie danych (Data Processing)

Warunkowa ilość informacji X , Y , Z dowolne

I (Y , X|Z )def= H(Y|Z ) − H(Y |Z , X ) Reguła Łańcuchowa

I ((Y , Z ), X ) = I (Z , X ) + I (Y , X|Z ) Dowód.

I ((Y , Z ), X ) = H(Y , Z )− H(Y , Z |X )

= H(Z ) + H(Y|Z ) − H(Z |X ) − H(Y |Z , X ) z drugiej strony I (Z , X ) = H(Z )− H(Z |X )

oraz I (Y , X|Z ) = H(Y |Z ) − H(Y |Z , X )

(41)

Przetwarzanie danych

X , Y , Z dowolne

X , Y , Z tworzą łańcuch Markowa, jeśli dla dowolnych funkcji ograniczonych g1, g2

E (g1(X )g2(Z )|Y ) = E (g1(X )|Y )E (g2(Z )|Y ) oznaczenie: X −→ Y −→ Z

“przy danej teraźniejszości, przyszłość nie zależy od przeszłości”

oczywiście X −→ Y −→ Z ⇐⇒ Z −→ Y −→ X dla dowolnej funkcji h jest X −→ Y −→ h(Y )

(42)

Przetwarzanie danych

Nierówność dla danych przetworzonych (DPI) Jeśli X −→ Y −→ Z , to

I (X , Z ) 6 I (X , Y ).

“dane przetworzone nie zawierają więcej informacji o X ” Dowód

• z reguły łańcuchowej

I ((Y , Z ), X ) = I (X , Z ) + I (Y , X|Z ) = I (Y , X ) + I (Z , X |Y )

• ponieważ X , Z są warunkowo niezależne, to I (Z , X |Y ) = 0

• I (Y , X |Z ) > 0 =⇒ I (X , Z ) 6 I (X , Y )

Cytaty

Powiązane dokumenty

Chcemy: przedział ufności symetryczny wokół estymatora punktowego (rozkład funkcji centralnej jest symetryczny wokół

Procedura, która na podstawie konkretnych obserwacji (tj.. Test statystyczny formalnie – cd.. Test statystyczny formalnie – cd. statystyki testowej) oraz liczby c (tzw..

Stosowany zwł. dla próbek o liczebności do 30, kiedy jest lepszy niż test zgodności chi- kwadrat.. Test zgodności chi-kwadrat – postać testu. Ogólna

(nieznanych) parametrach opisujemy przy pomocy rozkładów prawdopodobieństwa, przy czym dodatkowa wiedza może wpływać na nasz

Estymator Bayesowski przy zadanej funkcji straty.. przedział

Metody momentów i kwantyli (wszystkie podane tu zadania należy rozwiązać tymi dwoma metodami)..

Informacja Fishera, asymptotyczna normalność

11.1 W celu oszacowania warto´sci przeci¸etnej czasu bezawaryjnej pracy maszyny ´ z partii tych maszyn wybrano losowo 7 maszyn i mierzono czas ich pracy do pier- wszej awarii..