Ostatnio wyszukiwane

Nie Znaleziono Wyników

Tagi

Nie Znaleziono Wyników

Dokument

Nie Znaleziono Wyników

Strona główna Szkoły Temat

Zaloguj się

XXXVIII Konferencja Statystyka Matematyczna Wisła 2012 TEORIA INFORMACJI A STATYSTYKA MATEMATYCZNA Tadeusz Inglot Instytut Matematyki i Informatyki Politechniki Wrocławskiej Część I cd.

Share "XXXVIII Konferencja Statystyka Matematyczna Wisła 2012 TEORIA INFORMACJI A STATYSTYKA MATEMATYCZNA Tadeusz Inglot Instytut Matematyki i Informatyki Politechniki Wrocławskiej Część I cd."

N/A

N/A

Protected

Rok akademicki: 2022

Info

Protected

Academic year: 2022

Share "XXXVIII Konferencja Statystyka Matematyczna Wisła 2012 TEORIA INFORMACJI A STATYSTYKA MATEMATYCZNA Tadeusz Inglot Instytut Matematyki i Informatyki Politechniki Wrocławskiej Część I cd."

Copied!

42

0

0

42

0

0

Ładowanie.... (Zobacz pełny tekst teraz)

Pobierz teraz ( 42 Stron )

Pełen tekst

(1)

XXXVIII Konferencja

Statystyka Matematyczna Wisła 2012

TEORIA INFORMACJI

A STATYSTYKA MATEMATYCZNA Tadeusz Inglot

Instytut Matematyki i Informatyki Politechniki Wrocławskiej

Część I cd.

(2)

Rzut informacyjny

Własności geometryczne rzutu informacyjnego (Csiszár, 1975) P wypukła, domknięta w normie całkowitego wahania, µ /∈ P, µ^∗ = Iproj_P(µ) ⇐⇒ ∀ν ∈ P D(ν||µ) > D(ν||µ^∗) + D(µ^∗||µ) ponadto µ^∗ jest wyznaczona jednoznacznie.

Topsøe (1979), Csiszár, Matú˘s (2003)

AA AA AA AA AA AA

µ ν µ^∗

P

T

1

D(ν||µ) ma analogiczną własność jak kwadrat normy euklidesowej

(3)

Rzut informacyjny

Własności geometryczne rzutu informacyjnego

T = {ν : ∞ > D(ν||µ) = D(ν||µ^∗) + D(µ^∗||µ)}

“hiperpłaszczyzna styczna do D-kuli o środku w µ i promieniu D(µ^∗||µ) ”, (oczywiście µ^∗ ∈ T )

• (Csiszár, 1975) jeśli µ^∗ = Iproj_P(µ) oraz

∃α ∈ (0, 1) µ^∗ = αν1+ (1− α)ν², ν1, ν2 ∈ P, to ν₁, ν2 ∈ T i cały odcinek zawarty w T

L liniowy, jeśli ∀ν¹, ν2 ∈ L αν¹+ (1− α)ν²∈ L

• (Csiszár, 1975) Jeśli L liniowy oraz µ^∗= Iproj_L(µ), toL nie musi być zawarty w T (gdy L “nieskończenie wymiarowy”)

(4)

Rzut informacyjny

P rodzina miar probabilistycznych, µ /∈ P, ∃ ν ∈ P D(µ||ν) < ∞

µ_∗ ∈ P jest odwrotnym rzutem informacyjnym (RI -projection) µ naP (µ∗= RIproj_P(µ)), jeśli

D(µ||µ∗) = min

ν∈PD(µ||ν)

(5)

Rzut informacyjny

P jest logarytmicznie wypukła, jeśli dla dowolnych µ, ν ∈ P o gęstościach p, q i dowolnego t∈ (0, 1) miara o gęstości c_tp^tq¹^−t, c_t stała normująca, należy do P

Własności geometryczne odwrotnego rzutu informacyjnego (Csiszár, Matú˘s 2003)

JeśliP logarytmicznie wypukła, domknięta w normie całkowitego wahania, µ /∈ P, D(µ||P) < ∞, to istnieje jednoznacznie wyznaczony odwrotny rzut informacyjny µ naP oraz

∀ν ∈ P D(µ||ν) > D(µ||µ∗) + D(µ_∗||ν)

Csiszár, Matú˘s (2003) uogólnienia pojęć rzutu i odwrotnego rzutu informacyjnego, uogólnione rodziny

wykładnicze, MLE

(6)

Estymatory największej wiarogodności

µ ustalony rozkład

T = (T₁, ..., T_k) wektor funkcji mierzalnych a∈ R^k ustalony wektor (średnich)

La ={ν : ν ≺≺ µ, q = ^{d ν}_{d µ}, R Tqdµ = a}

La wypukła, domknięta w normie całkowitego wahania γϑ: d γϑ

d µ = cϑe^ϑ^◦T, ϑ∈ R^k, cϑ stała normująca rozkład wykładniczy względem µ wyznaczony przez T

(7)

Estymatory największej wiarogodności

Twierdzenie (Csiszár, 1975) Jeśli

∃ ϑ0

Z

Td γ_ϑ₀

d µ d µ = a, (γ_ϑ₀ ∈ La), to

Iproj_L_aµ = γ_ϑ₀(= µ^∗) ponadto (równość Pitagorasa)

∀ ν ∈ La D(ν||µ) = D(ν||γϑ0) + D(γ_ϑ₀||µ) (L^a jest zawarta “w przestrzeni stycznej do D-kuli o środku µ w punkcie γ_ϑ₀”)

(8)

Estymatory największej wiarogodności

Zwiazek rzutu informacyjnego i MLE

P wykładnicza rodzina miar produktowych względem µⁿ P = {γϑⁿ: p_nϑ = c_ϑⁿe^nϑ^◦T, ϑ∈ Θ ⊂ R^k}, T (x) = ¹_nP T (x_i) X = (X1, ..., Xn) próba i.i.d.

L_{T (X )}={ν : Z

T d ν

d µⁿd µⁿ= T (X )} ϑb MLE ϑ dla X w modeluP Z

T p_{n b}_ϑd µⁿ=−∇ ln cϑ|_{ϑ= b}_ϑ= T (X ) =⇒ γ_ϑⁿ_b∈ LT (X )

twierdzenie Csiszára =⇒ γ_ϑⁿ_b= Iproj_L

T (X )µⁿ najbliższą do µⁿ miarą w LT (X ) jest γⁿ

ϑb

(9)

Estymatory największej wiarogodności

X = {x1, ..., xr} skończony alfabet

P = {pϑ= (p_ϑ,1, ..., p_ϑ,r) : ϑ∈ Θ ⊂ R^k} rodzina rozkładów naX

X = (X1, ..., Xn) próba i.i.d. o rozkładzie p_ϑ, ϑ nieznane µn rozkład empiryczny próby jako miara naX

ϑ = argmaxb _ϑlogQ_n

j =1p_ϑ,X_j MLE ϑ dla X

(10)

Estymatory największej wiarogodności

Związek odwrotnego rzutu informacyjnego z MLE ϑ istniejeb iff RIproj_Pµn istnieje ponadto

RIproj_Pµ_n= p

ϑb

Dowód.

argmax_ϑlog

n

Y

j =1

pϑ,Xj = argmin_ϑ

n

X

j =1

log 1 p_ϑ,X_j

= argmin_ϑ

r

X

i =1

nµ_n({xi}) log 1 pϑ,i

= argmin_ϑ

r

X

i =1

µn({xⁱ}) logµn({xi})

p_ϑ,i = argmin_ϑD(µn||pϑ)

(11)

Estymatory największej wiarogodności

Związek odwrotnego rzutu informacyjnego z MLE ϑ istniejeb iff RIproj_Pµn istnieje ponadto

RIproj_Pµ_n= p

ϑb

Dowód.

argmax_ϑlog

n

Y

j =1

pϑ,Xj = argmin_ϑ

n

X

j =1

log 1 p_ϑ,X_j

= argmin_ϑ

r

X

i =1

nµ_n({xi}) log 1 pϑ,i

= argmin_ϑ

r

X

i =1

µn({xⁱ}) logµn({xi})

p_ϑ,i = argmin_ϑD(µn||pϑ)

(12)

Informacja Fishera

Parametryczna

P = {pϑ: ϑ∈ Θ ⊂ R^k} – model statystyczny dostatecznie regularny na (X , B, λ)

• Jaka jest odległość informacyjna pϑ od p_ϑ⁰ przy małej zmianie parametru?

− log p_ϑ

p_ϑ⁰ = log p_ϑ⁰− log pϑ

= (∇ log pϑ)^T(ϑ⁰−ϑ)+1

2(ϑ⁰−ϑ)^T∂²log p_ϑ

∂ϑ∂ϑ^T (ϑ⁰−ϑ)+o(||ϑ⁰−ϑ||²)

dla wektora wynikowego∇ log pϑ mamy Z

p_ϑ∇ log pϑ= 0

(13)

Informacja Fishera

Parametryczna

P = {pϑ: ϑ∈ Θ ⊂ R^k} – model statystyczny dostatecznie regularny na (X , B, λ)

• Jaka jest odległość informacyjna pϑ od p_ϑ⁰ przy małej zmianie parametru?

− log p_ϑ

p_ϑ⁰ = log p_ϑ⁰− log pϑ

= (∇ log pϑ)^T(ϑ⁰−ϑ)+1

2(ϑ⁰−ϑ)^T∂²log p_ϑ

∂ϑ∂ϑ^T (ϑ⁰−ϑ)+o(||ϑ⁰−ϑ||²)

dla wektora wynikowego∇ log pϑ mamy Z

p_ϑ∇ log pϑ= 0

(14)

Informacja Fishera

Parametryczna

P = {pϑ: ϑ∈ Θ ⊂ R^k} – model statystyczny dostatecznie regularny na (X , B, λ)

• Jaka jest odległość informacyjna pϑ od p_ϑ⁰ przy małej zmianie parametru?

− log p_ϑ

p_ϑ⁰ = log p_ϑ⁰− log pϑ

= (∇ log pϑ)^T(ϑ⁰−ϑ)+1

2(ϑ⁰−ϑ)^T∂²log p_ϑ

∂ϑ∂ϑ^T (ϑ⁰−ϑ)+o(||ϑ⁰−ϑ||²)

dla wektora wynikowego∇ log pϑ mamy Z

p_ϑ∇ log pϑ= 0

(15)

Informacja Fishera

Parametryczna stąd

D(pϑ||pϑ⁰) =−log e

2 (ϑ⁰−ϑ)^T Z

pϑ

∂²ln p_ϑ

∂ϑ∂ϑ^T (ϑ⁰−ϑ)+o(||ϑ⁰−ϑ||²)

= log e

2 (ϑ⁰− ϑ)^TJ(ϑ)(ϑ⁰− ϑ) + o(||ϑ⁰− ϑ||²), ϑ⁰ → ϑ, gdzie współczynnik proporcjonalności (prędkość zmian D(p_ϑ||pϑ⁰))

J(ϑ)^def= Z

(∇ ln pϑ)(∇ ln pϑ)^Tpϑ=−

Z ∂²ln p_ϑ

∂ϑ∂ϑ^T pϑ

nazywamy macierzą informacji Fishera.

(16)

Informacja Fishera

Interpretacja J(ϑ) dla k = 1:

J1 J2 J2>J1

d

ϑ ϑ^l

dla danej (małej) odległości informacyjnej D(p_ϑ||pϑ⁰) = d , parametr ϑ jest tym dokładniej wyznaczony im J(ϑ) jest większa

(17)

Informacja Fishera

Nierówność Rao-Craméra

Jeśli T mierzalna E_ϑT (X ) = ϑ oraz E_ϑT (X )T (X )^T = K_ϑ> 0, to J(ϑ) > K_ϑ⁻¹, (Kϑ> J(ϑ)⁻¹)

Dowód

• Z

p_ϑ(∇ ln pϑ)T^T = Z

(∇pϑ)T^T =∇ Z

p_ϑT^T = I

• 0 6 Eϑ ∇ ln pϑ(X )− K_ϑ⁻¹T (X )

∇ ln pϑ(X )− K_ϑ⁻¹T (X )T

= J(ϑ)− 2K_ϑ⁻¹I + K_ϑ⁻¹EϑT (X )T (X )^TK_ϑ⁻¹

= J(ϑ)− Kϑ⁻¹

nierówność Rao-Craméra nazywa się także

nierównością informacyjną (information inequality)

(18)

Informacja Fishera

Nieparametryczna

X o gęstości absolutnie ciągłej p w R^k

p_ϑ(x ) = p(x− ϑ), ϑ ∈ R^k, model z parametrem przesunięcia J(ϑ) = J(0)^ozn.= J(p) = J(X ) =

Z

(∇ ln p)(∇ ln p)^Tp

J(X ) = tr J(X ) = E||∇ ln p||²= 4R [∇√p]²dx ∈ [0, ∞]

informacja Fishera dla X

(19)

Informacja Fishera (nieparametryczna)

Własności

J(X + a) = J(X ), J(cX ) = 1 c²J(X ) ZK ∼ N(0, K ) =⇒ J(ZK) = K⁻¹

(Nierówność Rao-Craméra) dla dowolnego X o średniej 0 i nieosobliwej macierzy kowariancji K

J(X )− K⁻¹= J(X )− J(ZK) > 0 równość iff X ∼ N(0, K ) w szczególności J(X ) > tr K⁻¹ , równość iff X ∼ N(0, K ) ponieważ tr K⁻¹ > _σ^k2 , równość iff K = σ²I , gdzie σ² największa wartość własna K , to J(X ) >_σ^k², równość iff X ∼ N(0, σ²I ) stąd k

J(X ) jest mocą białego szumu gaussowskiego o danej informacji Fishera J(X )

(20)

Informacja Fishera

Odległość informacyjna Fishera

X , Y ∈ R^k o gęstościach absolutnie ciągłych p, q i tej samej nieosobliwej macierzy kowariancji K

J(X||Y ) = J(p||q) = Z

p(∇ lnp

q)(∇ lnp q)^Tdx Jeśli Z_K ∼ N(0, K ), K nieosobliwa, to

J(X||ZK) = J(X )− K⁻¹ Dowód. (identyczny jak nierówności Rao-Craméra) J(X||ZK) =

Z

(∇ ln p(x) + K⁻¹x )(∇ ln p(x) + K⁻¹x )^Tp(x )dx

= J(X ) + 2K⁻¹ Z

x (∇ ln p(x))^Tp(x )dx + K⁻¹

= J(X ) + 2K⁻¹(−I ) + K⁻¹

(21)

Informacja Fishera

Odległość informacyjna Fishera

X , Y ∈ R^k o gęstościach absolutnie ciągłych p, q i tej samej nieosobliwej macierzy kowariancji K

J(X||Y ) = J(p||q) = Z

p(∇ lnp

q)(∇ lnp q)^Tdx Jeśli Z_K ∼ N(0, K ), K nieosobliwa, to

J(X||ZK) = J(X )− K⁻¹ Dowód. (identyczny jak nierówności Rao-Craméra) J(X||ZK) =

Z

(∇ ln p(x) + K⁻¹x )(∇ ln p(x) + K⁻¹x )^Tp(x )dx

= J(X ) + 2K⁻¹ Z

x (∇ ln p(x))^Tp(x )dx + K⁻¹

= J(X ) + 2K⁻¹(−I ) + K⁻¹

(22)

Informacja Fishera

Odległość informacyjna od rozkładu normalnego

k = 1, p gęstość o średniej 0 i wariancji σ², J(p) <∞ D(p||φσ) = ¹₂log 2πeσ²− H(p) = H(φσ)− H(p)

J(p||φσ) = J(p)− 1

σ² = J(p)− J(φσ)

p o średniej 0 i wariancji 1, J(p) <∞

• D(p||φ1) 6 log e

2 J(p||φ1) (z tożsamości de Bruijna)

• sup

x |p(x) − φ¹(x )| 6 1 +r 6 π

!

pJ(p||φ¹) (Shimizu,1975)

(23)

Informacja Fishera

Odległość informacyjna od rozkładu normalnego

k = 1, p gęstość o średniej 0 i wariancji σ², J(p) <∞ D(p||φσ) = ¹₂log 2πeσ²− H(p) = H(φσ)− H(p)

J(p||φσ) = J(p)− 1

σ² = J(p)− J(φσ) p o średniej 0 i wariancji 1, J(p) <∞

• D(p||φ1) 6 log e

2 J(p||φ1) (z tożsamości de Bruijna)

• sup

x |p(x) − φ¹(x )| 6 1 +r 6 π

!

pJ(p||φ¹) (Shimizu,1975)

(24)

Tożsamość de Bruijna

rozkład normalny maksymalizuje entropię

i równocześnie minimalizuje informację Fishera =⇒ te wielkości powinny być ze sobą związane

Twierdzenie

Jeśli k = 1, X ∼ p, Var X = 1, Z ∼ N(0, 1), X , Z niezależne, to

∀t > 0 _dt^dH(X +√

tZ ) = ^{log e}₂ J(X +√ tZ ).

postać całkowa

D(p||φ1) = log e 2

Z _∞

0

J(X +√

tZ )− 1 1 + t

dt

de Bruijn < 1959, Stam (1959) postać różniczkowa Barron (1986) postać całkowa

(25)

Tożsamość de Bruijna

rozkład normalny maksymalizuje entropię

i równocześnie minimalizuje informację Fishera =⇒ te wielkości powinny być ze sobą związane

Twierdzenie

Jeśli k = 1, X ∼ p, Var X = 1, Z ∼ N(0, 1), X , Z niezależne, to

∀t > 0 _dt^dH(X +√

tZ ) = ^{log e}₂ J(X +√ tZ ).

postać całkowa

D(p||φ1) = log e 2

Z _∞

0

J(X +√

tZ )− 1 1 + t

dt

de Bruijn < 1959, Stam (1959) postać różniczkowa Barron (1986) postać całkowa

(26)

Tożsamość de Bruijna

Schemat dowodu.

• gęstość Zt spełnia równanie ciepła (^∂φ_∂t^t^{(x )} = ¹₂^∂²_∂x^φ^t2^{(x )})

• zatem gęstość X + Zt także

• różniczkowanie pod całką określającą H(X + Zt) + cpcz ⇒ postać różniczkowa

równoważne sformułowanie (∗) ∀t > 0 d

dtI (X +√

tZ , Z ) = log e

2 J(X +√ tZ ) Dowód.

I (X +√

tZ , Z ) = H(X +√

tZ ) + H(Z )− H(X +√ tZ , Z )

= H(X +√

tZ ) + H(Z )− H(X ) − H(Z )

= H(X +√

tZ )− H(X ) (∗) w t = 0: I (X +√

tZ , Z ) = ^{log e}₂ J(X ) t + o(t) Rioul (2011)

(27)

Tożsamość de Bruijna

Schemat dowodu.

• gęstość Zt spełnia równanie ciepła (^∂φ_∂t^t^{(x )} = ¹₂^∂²_∂x^φ^t2^{(x )})

• zatem gęstość X + Zt także

• różniczkowanie pod całką określającą H(X + Zt) + cpcz ⇒ postać różniczkowa

równoważne sformułowanie (∗) ∀t > 0 d

dtI (X +√

tZ , Z ) = log e

2 J(X +√ tZ ) Dowód.

I (X +√

tZ , Z ) = H(X +√

tZ ) + H(Z )− H(X +√ tZ , Z )

= H(X +√

tZ ) + H(Z )− H(X ) − H(Z )

= H(X +√

tZ )− H(X ) (∗) w t = 0: I (X +√

tZ , Z ) = ^{log e}₂ J(X ) t + o(t) Rioul (2011)

(28)

Tożsamość de Bruijna

I (X +√

tZ , Z ) = log e

2 J(X ) t + o(t), gdy t → 0

Ilość informacji wzajemnej sygnału z szumem gaussowskim i szumu jako funkcja (małej) mocy szumu t

0 t0 t

J2>J1

I(X+ tZ, Z) _J1

J2

Interpretacja informacji Fishera

J(X ) czułość sygnału X na addytywny niezależny szum gaussowski. Czułość najmniejsza, gdy X gaussowska.

(29)

Wielowymiarowa tożsamość de Bruijna

Twierdzenie (Johnson, Suhov, 2001)

Jeśli X , Z_K ∈ R^k niezależne, X ∼ p, Cov X = B, ZK ∼ N(0, K ) oraz K nieosobliwa, to

D(p||φK) = log e 2

Z _∞

0

tr(K J (X +√

tZ_K))− k 1 + t

dt

+log e

2 [tr (K⁻¹B)− k]

B = K =⇒ drugi człon znika

(30)

Nierówności informacyjne

k = 1, X , Y niezależne o skończonych informacjach Fishera

`_X = p_X⁰ pX

, `_Y = q⁰_Y qY

funkcje wynikowe X i Y Twierdzenie (Barron, Johnson, 2004)

∀α ∈ [0, 1] α²J(X ) + (1− α)²J(Y )− J(X + Y )

= E (`_{X +Y}(X + Y )− α`X(X )− (1 − α)`Y(Y ))² Nierówność dla informacji Fishera (Stam, 1959, Blachman, 1965)

∀α ∈ [0, 1] J(X + Y ) 6 α²J(X ) + (1− α)²J(Y ) równość iff X , Y ∼ N(0, σ)

indukcja: X1, ..., Xn niezależne, P α_i = 1

J(X1+ ... + Xn) 6 α²1J(X1) + ... + α²_nJ(Xn).

‘informacja Fishera maleje ze wzrostem potęgi splotowej’

(31)

Nierówności informacyjne

k = 1, X , Y niezależne o skończonych informacjach Fishera

`_X = p_X⁰ pX

, `_Y = q⁰_Y qY

funkcje wynikowe X i Y Twierdzenie (Barron, Johnson, 2004)

∀α ∈ [0, 1] α²J(X ) + (1− α)²J(Y )− J(X + Y )

= E (`_{X +Y}(X + Y )− α`X(X )− (1 − α)`Y(Y ))² Nierówność dla informacji Fishera (Stam, 1959, Blachman, 1965)

∀α ∈ [0, 1] J(X + Y ) 6 α²J(X ) + (1− α)²J(Y ) równość iff X , Y ∼ N(0, σ)

indukcja: X1, ..., Xn niezależne, P α_i = 1

J(X1+ ... + Xn) 6 α²1J(X1) + ... + α²_nJ(Xn).

‘informacja Fishera maleje ze wzrostem potęgi splotowej’

(32)

Nierówności informacyjne

Idea dowodu twierdzenia

• `X +Y(u) = E (`X(X )|X + Y = u) = E (`Y(Y )|X + Y = u) p.w.

• mnożąc przez α i 1 − α i dodając mamy

`_{X +Y}(X + Y ) = E ((α`_X(X ) + (1− α)`Y(Y ))|X + Y ) p.w.

• z twierdzenia Pitagorasa dla rzutu ortogonalnego E (α`_X(X ) + (1− α)`Y(Y )− `X +Y(X + Y ))²

= E (α`_X(X ) + (1− α)`Y(Y ))²− E `²_{X +Y}(X + Y )

(33)

Nierówności informacyjne

Wersje FII

(i) J(X1+ ... + Xn) 6 α²1J(X1) + ... + α²_nJ(Xn), P α_i = 1 Równoważnie

(ii)

J(√α₁X₁+ ... + √α_nX_n) 6 α1J(X₁) + ... + α_nJ(X_n), P α_i = 1

(iii) 1

J(X1+ ... + X_n) > 1

J(X1) + ... + 1 J(X_n)

(iv) 1

J(α1X1+ ... + αnXn) > α²₁

J(X1) + ... + α²_n J(Xn)

(ii) dla iid: J X₁+ ... + X_n

√n

6 J(X1) Barron, Madiman (2007), Rioul (2011)

(34)

Nierówności informacyjne

Wersje FII

(i) J(X1+ ... + Xn) 6 α²1J(X1) + ... + α²_nJ(Xn), P α_i = 1 Równoważnie

(ii)

J(√α₁X₁+ ... + √α_nX_n) 6 α1J(X₁) + ... + α_nJ(X_n), P α_i = 1

(iii) 1

J(X1+ ... + X_n) > 1

J(X1) + ... + 1 J(X_n)

(iv) 1

J(α1X1+ ... + αnXn) > α²₁

J(X1) + ... + α²_n J(Xn)

(ii) dla iid: J X₁+ ... + X_n

√n

6 J(X1) Barron, Madiman (2007), Rioul (2011)

(35)

Nierówności informacyjne

Niektóre zastosowania FII

zbieżność entropijna i szybkość zbieżności w centralnym twierdzeniu granicznym (Barron, Johnson, 2004)

ślepe oddzielanie źródeł (blind source separation) z minimalną entropią (Donoho, 1981)

ślepe odtwarzanie obrazów (blind image deconvolution) estymacja danych filtrowanych (Zamir, 1998)

(36)

Nierówności informacyjne

Moc entropijna H(Zσ) = ¹₂log 2πeσ²

Z_σ = (Z1σ, ..., Z_kσ) biały szum gaussowski o mocy (wariancji) σ² H(Zσ) = ^k₂ log 2πeσ²

stąd σ² = _2πe¹ 2²^k^H(Z^σ⁾= N(Zσ) moc białego szumu gaussowskiego o entropii H(Z_σ) X dowolny wektor losowy w R^k o macierzy kowariancji K

N(X )^def= 1

2πe2²^k^{H(X )} moc entropijna X ponieważ H(X ) 6 H(ZK) = ¹₂log(2πe)^kdet K , to

N(X ) 6 (det K )^1/k 6 _k¹tr K równość iff X jest białym szumem

(37)

Nierówności informacyjne

Nierówności dla mocy entropijnej (EPI)

X , Y niezależne wektory losowe w R^k o rozkładach ciągłych 2²^k^{H(X +Y )} > 2²^k^{H(X )}+ 2²^k^{H(Y )} (Shannon, 1948) tzn.

N(X + Y ) > N(X ) + N(Y ) równość iff X ∼ N(0, K ), Y ∼ N(0, cK ) indukcja

(∗) N(X₁+ ... + X_n) > N(X1) + ... + N(X_n) dowody: Stam (1959), Blachman (1965),...,

Barron, Madiman (2007), Rioul (2011) nierówność fałszywa dla X , Y dyskretnych

(38)

Nierówności informacyjne

Nierówności dla mocy entropijnej

∀c N(cX ) = c²N(X )

podstawiając w (∗) X_i = √α_iX_i⁰, P α_i = 1

(∗∗) N(P√αiXi) >P α_iN(Xi) równość iff X_i gaussowskie stąd

H(P√αiXi)≥P α_iH(Xi) równość iff X_i gaussowskie (wklęsłość entropii dla transformacji zachowujących wariancję) obie nierówności równoważne, gdy X_i i.i.d.

nierówności prawdziwe także dla zmiennych dyskretnych (∗∗) odpowiednik FII

zastosowania podobne jak FII (Rioul, 2011)

(39)

Przetwarzanie danych (Data Processing)

Warunkowa ilość informacji X , Y , Z dowolne

I (Y , X|Z )^def= H(Y|Z ) − H(Y |Z , X ) Reguła Łańcuchowa

I ((Y , Z ), X ) = I (Z , X ) + I (Y , X|Z ) Dowód.

I ((Y , Z ), X ) = H(Y , Z )− H(Y , Z |X )

= H(Z ) + H(Y|Z ) − H(Z |X ) − H(Y |Z , X ) z drugiej strony I (Z , X ) = H(Z )− H(Z |X )

oraz I (Y , X|Z ) = H(Y |Z ) − H(Y |Z , X )

(40)

Przetwarzanie danych (Data Processing)

Warunkowa ilość informacji X , Y , Z dowolne

I (Y , X|Z )^def= H(Y|Z ) − H(Y |Z , X ) Reguła Łańcuchowa

I ((Y , Z ), X ) = I (Z , X ) + I (Y , X|Z ) Dowód.

I ((Y , Z ), X ) = H(Y , Z )− H(Y , Z |X )

= H(Z ) + H(Y|Z ) − H(Z |X ) − H(Y |Z , X ) z drugiej strony I (Z , X ) = H(Z )− H(Z |X )

oraz I (Y , X|Z ) = H(Y |Z ) − H(Y |Z , X )

(41)

Przetwarzanie danych

X , Y , Z dowolne

X , Y , Z tworzą łańcuch Markowa, jeśli dla dowolnych funkcji ograniczonych g₁, g2

E (g₁(X )g₂(Z )|Y ) = E (g1(X )|Y )E (g2(Z )|Y ) oznaczenie: X −→ Y −→ Z

“przy danej teraźniejszości, przyszłość nie zależy od przeszłości”

oczywiście X −→ Y −→ Z ⇐⇒ Z −→ Y −→ X dla dowolnej funkcji h jest X −→ Y −→ h(Y )

(42)

Przetwarzanie danych

Nierówność dla danych przetworzonych (DPI) Jeśli X −→ Y −→ Z , to

I (X , Z ) 6 I (X , Y ).

“dane przetworzone nie zawierają więcej informacji o X ” Dowód

• z reguły łańcuchowej

I ((Y , Z ), X ) = I (X , Z ) + I (Y , X|Z ) = I (Y , X ) + I (Z , X |Y )

• ponieważ X , Z są warunkowo niezależne, to I (Z , X |Y ) = 0

• I (Y , X |Z ) > 0 =⇒ I (X , Z ) 6 I (X , Y )

Cytaty

Pobierz teraz ( PDF - 42 Stron - 589.83 KB )

Powiązane dokumenty

Statystyka Matematyczna

Chcemy: przedział ufności symetryczny wokół estymatora punktowego (rozkład funkcji centralnej jest symetryczny wokół

Statystyka Matematyczna

Procedura, która na podstawie konkretnych obserwacji (tj.. Test statystyczny formalnie – cd.. Test statystyczny formalnie – cd. statystyki testowej) oraz liczby c (tzw..

Statystyka Matematyczna

Stosowany zwł. dla próbek o liczebności do 30, kiedy jest lepszy niż test zgodności chi- kwadrat.. Test zgodności chi-kwadrat – postać testu. Ogólna

Statystyka Matematyczna

(nieznanych) parametrach opisujemy przy pomocy rozkładów prawdopodobieństwa, przy czym dodatkowa wiedza może wpływać na nasz

Statystyka Matematyczna

Estymator Bayesowski przy zadanej funkcji straty.. przedział

Statystyka matematyczna

Metody momentów i kwantyli (wszystkie podane tu zadania należy rozwiązać tymi dwoma metodami)..

Statystyka matematyczna

Informacja Fishera, asymptotyczna normalność

Rachunek prawdopodobie´ nstwa i statystyka matematyczna 11. Estymacja punktowa

11.1 W celu oszacowania warto´sci przeci¸etnej czasu bezawaryjnej pracy maszyny ´ z partii tych maszyn wybrano losowo 7 maszyn i mierzono czas ich pracy do pier- wszej awarii..

Powiązane dokumenty

Statystyka Matematyczna

Statystyka Matematyczna

20

0

0

Statystyka Matematyczna

Statystyka Matematyczna

37

0

0

Statystyka matematyczna Statystyki dostateczne – teoria

Statystyka matematyczna Statystyki dostateczne – teoria

1

0

0

Rachunek prawdopodobieństwa i statystyka matematyczna 14. Estymacja punktowa

Rachunek prawdopodobieństwa i statystyka matematyczna 14. Estymacja punktowa

2

0

0

Statystyka matematyczna 6. Estymacja przedziałowa

Statystyka matematyczna 6. Estymacja przedziałowa

1

0

0

Rachunek prawdopodobie´nstwa i statystyka matematyczna 13. Estymacja przedzia lowa

Rachunek prawdopodobie´nstwa i statystyka matematyczna 13. Estymacja przedzia lowa

1

0

0

Statystyka matematyczna, UMK. Egzamin, czerwiec 2012

Statystyka matematyczna, UMK. Egzamin, czerwiec 2012

2

0

0

CZĘŚĆ II – STATYSTYKA MATEMATYCZNA

CZĘŚĆ II – STATYSTYKA MATEMATYCZNA

24

0

0