Ryzyko bayesowskie i rozdzielanie przetransformowanych wzorcw

w statystycznych problemach rozpoznawania

7.2 Ryzyko bayesowskie i rozdzielanie przetransformowanych wzorcw

Rozpatrzmy najpierw podstawowe wasnoci wzorcw (a raczej wektorw ich cech) po przetransformowaniu do odcinka 0

1]. Wybierzmy krzyw wypeniaj c

F

I

1 !

I

d speniaj c warunki

C1

{

C3

oraz jej quasi-odwrotno :

I

d !

I

1. W dalszym ci gu zakada bdziemy, e znana jest dokadna warto (

x

)

x

I

d. Przypomnijmy, e

F

( (

x

)) =

x x

I

d. Ponadto zauwamy, e jeli

X

jest zmienn losow przyjmuj c wartoci w

I

d, to (

X

) jest take zmienn losow (funkcja jest mierzalna) przyjmuj c wartoci w

I

1. W przypadku oglnym trudno jest poda wprost zaleno midzy rozkadem

X

i (

X

W przypadku istnienia funkcji

f

{ gstoci rozkadu

X

{ istnieje rwnie gsto rozkadu (

X

). Z lematu 4.16 wynika bezporednio, e gsto ta ma posta

f

(

F

(

t

)). Pokaemy dalej, e krzywe wypeniaj ce, ktre speniaj warunki

C1

{

C3

z rozdziau 4.5, prowadz do transformacji, ktre nie zmieniaj ryzyka Bayesa.

Niech

S

i

= 0

1 oznacza nonik (z prawdopodobiestwem 1) rozkadu cech w klasach. Jeli istniej gstoci rozkadu w klasach

f

x

) okrelone w

I

d, i zni-kaj ce poza

I

d, to zbiory

S

i =f

x

I

f

x

)

>

0g,

i

= 0

1 s nonikami gstoci rozkadw w klasach.

Denicja 7.1

Mwimy, e klasy0 i 1 s:

a

)

cile separowalne

(ze wzgldu na metryk

D

(

xx

0) w

R

wtedy i tylko wtedy, gdy istnieje

" >

0 takie, e dist(

S

1) = infx2S0x0

b

)

przemieszane

, wtedy i tylko wtedy, gdy

S

>

c

)

sabo separowalne

, wtedy i tylko wtedy, gdy

S

1) = 0. Nastpuj ce wasnoci s atwe do udowodnienia.

Lemat 7.1

S

1 s ci le separowalne ze wzgldu na metryk

D

, wtedy i tylko wtedy, gdy -

S

0 \

S

-1 = , gdzie -

S

0, -

S

1 oznacza domknicia zbiorw

S

1 (odpowiednio) w topologii wprowadzonej przez metryk

D

2) Je li

S

1) = 0, to no niki

S

1 s sabo separowalne, a nie s ci le separowalne wtedy i tylko wtedy, gdy dist(

S

1) = 0 2. Z punktu widzenia problemw rozpoznawania najistotniejsze jest to, e trans-formacja nonikw

S

0 i

S

1 za pomoc quasi{odwrotnoci krzywej wypeniaj cej zachowuje podstawowe relacje midzy nimi. Bardziej precyzyjnie formuuje ten fakt ponisze twierdzenie:

Twierdzenie 7.2.1

Przeciwobrazy no nikw

S

1 wzgldem krzywej wypenia-jcej

F

okre laj, odpowiednio, zbiory

A

i = f

t

I

1 :

F

(

t

) 2

S

i

2 f0

1g. Ponadto oznaczmy ~

A

i= (

S

i

2f0

1g.

Je li krzywa

F

spenia warunki

C1

{

C3

, to:

a

) je li

S

1 s ci le separowalne w

I

d, to

A

1 ( ~

A

0, ~

A

1) s take ci le separowalne w

I

1, ze wzgldu na t sam metryk, ktr wybrano w

C1

b

) je li

S

1 s sabo separowalne w

I

d, to wtedy take

A

1 ( ~

A

0, ~

A

1) s sabo separowalne w

I

c

) je li

S

1 s przemieszane w

I

d, to

A

1 ( ~

A

0, ~

A

1) s przemieszane.

Dowd.

Poniewa (

x

F

;1(

x

), zatem ~

A

i

= 0

:

Zamy, e zbiory

S

0 i

S

1 s cile rozdzielone. Wtedy dla kadego

x

S

x

S

1 zachodzi

"

x

;

x

k=k

F

(

t

);

F

(

t

0)k

t

;

t

j1=d

(7.3) gdzie

t

A

t

A

1s przeciwobrazami

x

oraz

x

0, odpowiednio, natomiast ostat-nia nierwno w (7.3) wynika z wasnoci

C1

krzywej wypeniaj cej

F

. St d

A

0 oraz

A

1 s cile rozdzielone, a ich odlego jest nie mniejsza ni (

"=

d)d, co koczy dowd wasnoci a). By udowodni cz b), wystarczy zauway, korzy-staj c z wasnoci

C2

krzywej, e z

S

1) = 0 wynika, i

A

1) = 0. Z wasnoci a) i b) wynika naturalnie c), co koczy dowd twierdzenia. 2 Naley zwrci uwag na fakt, i stwierdzenie odwrotne do twierdzenia 7.2.1 niekoniecznie musi by prawdziwe, to znaczy klasy, ktre s cile rozdzielone w

I

1 mog po transformacji przez krzyw

F

sta si jedynie sabo rozdzielonymi w

I

d. Z drugiej strony, jeeli klasy s cile rozdzielone w

I

d, moemy znacznie wicej wnioskowa o nonikach klas po transformacji , czyli o zbiorach

A

Twierdzenie 7.2.2

Je li zbiory

S

1 s ci le rozdzielone w

I

d, to istnieje skoczony podzia odcinka

I

1, ktry rozdziela obie klasy w ten sposb, e wntrze adnego z pododcinkw nie zawiera rwnocze nie punktw z

A

0 i

A

1. Ponadto liczba punktw konieczna do rozdzielenia punktw ze zbioru

A

0 od punktw ze zbioru

A

1 jest nie wiksza ni d(

="

)de;1.

Dowd.

Istnieje skoczone pokrycie

I

1zbiorem domknitych odcinkw o dugoci

= (

"=

d)d), gdzie

"

= dist(

S

1) oraz

d jest sta z warunku Holdera

C1

, ktry spenia krzywa

F

. St d

I

]

:::

(d1

=

e;1)

1]. Z warunku Holdera

C1

wynika, e wntrze adnego z odcinkw

i

(

i

+ 1)

]

i

= 0

:::

nie moe zawiera rwnoczenie punktw z

A

0 i z

A

1. W konsekwencji liczba punktw rozdzielaj cych

A

0 od

A

1 na pewno nie jest wiksza ni d(

L

="

)de;1. 2 Kluczowym wnioskiem wynikaj cym z powyszego twierdzenia jest stwierdze-nie, e moliwo rozdzielenia zbiorw cile rozdzielonych po przetransformowa-niu ich na odcinek

I

1za pomoc skoczonej liczby punktw dyskryminuj cych jest wasnoci konstruktywn , gdy mona poda grne oszacowanie liczby punktw dyskryminuj cych.

Ponisze twierdzenie uzasadnia poprawno zastosowania transformacji w problemach rozpoznawania, mimo i nie jest to odwzorowanie wzajemnie jed-noznaczne.

Twierdzenie 7.2.3

Niech

g

X

) bdzie bayesowsk regu klasykacji dla pro-blemu opisanego rozkadami (

XY

X

I

d, a

J

?X ryzykiem Bayesa. Niech

T

= (

X

), gdzie jest odwzorowaniem quasi-odwrotnym krzywej

F

spenia-jcej warunki

C1

{

C3

. Wtedy regua klasykacji postaci:

G

(

T

) ^def=

g

F

(

T

)) jest regu Bayesa dla problemu klasykacji o rozkadach (

TY

T

I

1. Ponadto ryzyko Bayesa

J

?T dla problemu (

TY

) jest take rwne

J

?X.

Dowd.

Zauwamy, e

F

(

T

) jest zmienn losow , a ponadto

F

(

T

) =

F

( (

X

)) =

X

. Dalej, niech

G

T

) bdzie regu Bayesa dla problemu przetransformowanego (

TY

). %atwo zauway, e

g

F

(

T

)) jest pewn regu klasykacji w problemie (

TY

), st d

J

?T =

P

G

T

)6=

Y

P

g

F

(

T

))6=

Y

g =

P

g

X

)6=

Y

J

?X. Z drugiej strony,

G

?( (

X

)) jest pewn regu klasykacji oryginalnego problemu (

XY

). St d

P

g

X

) 6=

Y

P

G

?( (

X

)) 6=

Y

g =

P

G

T

) 6=

Y

g =

J

?T. W konsekwencji

J

?X =

J

?T i

g

F

(

T

)) musi by optymaln regu klasykuj c

dla problemu (

TY

). 2

W twierdzeniu 7.2.3 nie zakadalimy adnych ogranicze na rozkad

X

(poza wstpnymi zaoeniami, e

X

przyjmuje wartoci z ograniczonego obszaru

I

d, ktrych spenienie jest atwo zagwarantowa, dokonuj c odpowiedniej wstpnej transformacji zmiennych). Ponadto, gdy

Z

jest zmienn losow przyjmuj c war-toci w

I

1, b d Bayesa

J

?F(Z) dla problemu przetransformowanego za pomoc

krzywej, czyli problemu opisanego przez zmienne losowe (

F

(

Z

)

Y

), moe by wikszy ni odpowiedni b d w problemie przed transformacj (

ZY

). Rnica ta wynika st d, e w przypadku ktrego dotyczy twierdzenie 7.2.3, transforma-cji podlega nie dowolna zmienna losowa, lecz zmienna losowa, ktra przyjmuje wartoci w (

I

a nie w caym odcinku

I

Z twierdzenia 7.2.3 wynika w szczeglnoci, e jeli istniej gstoci rozka-dw w klasach

f

0 i

f

1, to regua klasykacji Bayesa

g

x

) = 8 < : 0

gdy

p

f

x

);

p

f

x

) 0 1

w przeciwnym przypadku

prowadzi do reguy

G

t

)^def=

g

F

(

t

)),

t

I

1, ktra jest regu Bayesa problemu klasykacji z tymi samymi prawdopodobiestwami a priori

p

1oraz rozkadami w klasach

f

F

(

t

)) i

f

F

(

t

)),

t

I

Dalej koncentrowa si bdziemy na estymacji regu Bayesa, w sytuacji, gdy

S

1pokrywaj si choby czciowo na zbiorze o niezerowej mierze Lebesgue'a, a ryzyko Bayesa jest wiksze od zera. W tym przypadku nie jestemy w stanie za-gwarantowa, e istnieje skoczona liczba punktw na odcinku, ktre rozdzielaj obszary nale ce do rnych klas (ze wzgldu na optymaln regu klasykacji). Zauwamy bowiem, e kad regu decyzyjn na odcinku moemy jednoznacz-nie zdeniowa, podaj c pooejednoznacz-nie punktw, w ktrych nastpuje zmiana decyzji o przynalenoci do danej klasy (z klasy 0 na klas 1 lub odwrotnie) oraz numeru klasy, do ktrej naley przyporz dkowa punkty z pierwszego podprzedziau

I

1. Niestety, w oglnym przypadku liczba takich punktw moe by nie tylko niesko-czona, ale i nieprzeliczalna. Moemy jednak pokaza, jak wybieraj c skoczony podzia odcinka jednostkowego na odpowiednie pododcinki zwi zane z rnymi klasami moemy aproksymowa regu decyzyjn Bayesa z dowoln wymagan dokadnoci

>

0. W zwi zku z tym rozpatrzmy nastpuj c regu klasykacji, ktra dopuszcza przydzielenie danej obserwacji

x

etykiety

niesklasykowana" (por. 36], 57]). Regua ta jest postaci:

g

? (

x

) = 8 > > > < > > > : 0

p

x

);

p

x

) ;

p

x

);

p

x

)

niesklasykowany

p

x

);

p

x

< :

W tym przypadku zbiory

C

i def= f

x

I

d :

g

? (

x

) =

i

= 0

1 s cile rozdzielone i moemy do nich zastosowa wnioski wynikaj ce z twierdzenia 7.2.2.

W dokumencie Krzywe wypełniające w rozwiązywaniu wielowymiarowych problemów decyzyjnych (Stron 143-147)

Ryzyko bayesowskie i rozdzielanie przetransformowanych wzorcw

w statystycznych problemach rozpoznawania

7.2 Ryzyko bayesowskie i rozdzielanie przetransformowanych wzorcw

F

I

I

C1

C3

I

I

x

x

I

F

x

x x

I

X

I

X

I

X

X

f

X

X

f

F

t

C1

C3

S

i

f

x

I

I

S

x

I

f

x

>

i

Denicja 7.1

a

cile separowalne

D

xx

R

" >

S

S

b

przemieszane

S

S

>

c

sabo separowalne

S

S

Lemat 7.1

S

S

D

S

S

S

S

S

S

D

S

S

S

S

S

S

S

Ryzyko bayesowskie i rozdzielanie przetransformowanych wzorcw

7.2 Ryzyko bayesowskie i rozdzielanie przetransformowanych wzorcw

cile separowalne

sabo separowalne

Dowd.