• Nie Znaleziono Wyników

Ryzyko bayesowskie i rozdzielanie przetransformowanych wzorcw

w statystycznych problemach rozpoznawania

7.2 Ryzyko bayesowskie i rozdzielanie przetransformowanych wzorcw

Rozpatrzmy najpierw podstawowe wasno ci wzorcw (a raczej wektorw ich cech) po przetransformowaniu do odcinka 0



1]. Wybierzmy krzyw wypeniaj c

F

:

I

1 !

I

d speniaj c warunki

C1

{

C3

oraz jej quasi-odwrotno  :

I

d !

I

1. W dalszym ci gu zakada bdziemy, e znana jest dokadna warto  (

x

)

 x

2

I

d. Przypomnijmy, e

F

( (

x

)) =

x x

2

I

d. Ponadto zauwamy, e je li

X

jest zmienn losow przyjmuj c warto ci w

I

d, to (

X

) jest take zmienn losow (funkcja jest mierzalna) przyjmuj c warto ci w

I

1. W przypadku oglnym trudno jest poda wprost zaleno  midzy rozkadem

X

i (

X

).

W przypadku istnienia funkcji

f

{ gsto ci rozkadu

X

{ istnieje rwnie gsto  rozkadu (

X

). Z lematu 4.16 wynika bezpo rednio, e gsto  ta ma posta

f

(

F

(

t

)). Pokaemy dalej, e krzywe wypeniaj ce, ktre speniaj warunki

C1

{

C3

z rozdziau 4.5, prowadz do transformacji, ktre nie zmieniaj ryzyka Bayesa.

Niech

S

i,

i

= 0



1 oznacza no nik (z prawdopodobiestwem 1) rozkadu cech w klasach. Je li istniej gsto ci rozkadu w klasach

f

i(

x

) okre lone w

I

d, i zni-kaj ce poza

I

d, to zbiory

S

i =f

x

2

I

d

f

i(

x

)

>

0g,

i

= 0



1 s no nikami gsto ci rozkadw w klasach.

Denicja 7.1

Mwimy, e klasy0 i 1 s:

a

)

cile separowalne

(ze wzgldu na metryk

D

(

xx

0) w

R

d)



wtedy i tylko wtedy, gdy istnieje

" >

0 takie, e dist(

S

0

S

1) = infx2S0x0

b

)

przemieszane

, wtedy i tylko wtedy, gdy

d(

S

0\

S

1)

>

0,

c

)

sabo separowalne

, wtedy i tylko wtedy, gdy

d(

S

0\

S

1) = 0. Nastpuj ce wasno ci s atwe do udowodnienia.

Lemat 7.1

1)

S

0,

S

1 s ci le separowalne ze wzgldu na metryk

D

, wtedy i tylko wtedy, gdy -

S

0 \

S

-1 = , gdzie -

S

0, -

S

1 oznacza domknicia zbiorw

S

0,

S

1 (odpowiednio) w topologii wprowadzonej przez metryk

D

.

2) Je li

d(

S

0\

S

1) = 0, to no niki

S

0,

S

1 s sabo separowalne, a nie s ci le separowalne wtedy i tylko wtedy, gdy dist(

S

0

S

1) = 0 2. Z punktu widzenia problemw rozpoznawania najistotniejsze jest to, e trans-formacja no nikw

S

0 i

S

1 za pomoc quasi{odwrotno ci krzywej wypeniaj cej zachowuje podstawowe relacje midzy nimi. Bardziej precyzyjnie formuuje ten fakt ponisze twierdzenie:

Twierdzenie 7.2.1

Przeciwobrazy no nikw

S

0,

S

1 wzgldem krzywej wypenia-jcej

F

okre laj, odpowiednio, zbiory

A

i = f

t

2

I

1 :

F

(

t

) 2

S

ig

 i

2 f0



1g. Ponadto oznaczmy ~

A

i= (

S

i)

 i

2f0



1g.

Je li krzywa

F

spenia warunki

C1

{

C3

, to:

a

) je li

S

0,

S

1 s ci le separowalne w

I

d, to

A

0,

A

1 ( ~

A

0, ~

A

1) s tak e ci le separowalne w

I

1, ze wzgldu na t sam metryk, ktr wybrano w

C1

,

b

) je li

S

0,

S

1 s sabo separowalne w

I

d, to wtedy tak e

A

0,

A

1 ( ~

A

0, ~

A

1) s sabo separowalne w

I

1,

c

) je li

S

0,

S

1 s przemieszane w

I

d, to

A

0,

A

1 ( ~

A

0, ~

A

1) s przemieszane.

Dowd.

Poniewa (

x

)2

F

;1(

x

), zatem ~

A

i

A

i

 i

= 0



1

:

Zamy, e zbiory

S

0 i

S

1 s ci le rozdzielone. Wtedy dla kadego

x

2

S

0,

x

0

2

S

1 zachodzi

"

k

x

;

x

0

k=k

F

(

t

);

F

(

t

0)k



dj

t

;

t

0

j1=d



(7.3) gdzie

t

2

A

0,

t

0

2

A

1s przeciwobrazami

x

oraz

x

0, odpowiednio, natomiast ostat-nia nierwno  w (7.3) wynika z wasno ci

C1

krzywej wypeniaj cej

F

. St d

A

0 oraz

A

1 s ci le rozdzielone, a ich odlego  jest nie mniejsza ni (

"=

d)d, co koczy dowd wasno ci a). By udowodni cz  b), wystarczy zauway, korzy-staj c z wasno ci

C2

krzywej, e z

d(

S

0\

S

1) = 0 wynika, i

1(

A

0\

A

1) = 0. Z wasno ci a) i b) wynika naturalnie c), co koczy dowd twierdzenia. 2 Naley zwrci uwag na fakt, i stwierdzenie odwrotne do twierdzenia 7.2.1 niekoniecznie musi by prawdziwe, to znaczy klasy, ktre s ci le rozdzielone w

I

1 mog po transformacji przez krzyw

F

sta si jedynie sabo rozdzielonymi w

I

d. Z drugiej strony, jeeli klasy s ci le rozdzielone w

I

d, moemy znacznie wicej wnioskowa o no nikach klas po transformacji , czyli o zbiorach

A

i.

Twierdzenie 7.2.2

Je li zbiory

S

0,

S

1 s ci le rozdzielone w

I

d, to istnieje skoczony podzia odcinka

I

1, ktry rozdziela obie klasy w ten sposb, e wntrze adnego z pododcinkw nie zawiera rwnocze nie punktw z

A

0 i

A

1. Ponadto liczba punktw konieczna do rozdzielenia punktw ze zbioru

A

0 od punktw ze zbioru

A

1 jest nie wiksza ni d(



d

="

)de;1.

Dowd.

Istnieje skoczone pokrycie

I

1zbiorem domknitych odcinkw o dugo ci



= (

"=

d)d), gdzie

"

= dist(

S

0

S

1) oraz



d jest sta z warunku Holdera

C1

, ktry spenia krzywa

F

. St d

I

1 0



]

:::

(d1

=

e;1)



1]. Z warunku Holdera

C1

wynika, e wntrze adnego z odcinkw 

i

(

i

+ 1)



]

 i

= 0



1

 :::

nie moe zawiera rwnocze nie punktw z

A

0 i z

A

1. W konsekwencji liczba punktw rozdzielaj cych

A

0 od

A

1 na pewno nie jest wiksza ni d(

L

d

="

)de;1. 2 Kluczowym wnioskiem wynikaj cym z powyszego twierdzenia jest stwierdze-nie, e moliwo  rozdzielenia zbiorw ci le rozdzielonych po przetransformowa-niu ich na odcinek

I

1za pomoc skoczonej liczby punktw dyskryminuj cych jest wasno ci konstruktywn , gdy mona poda grne oszacowanie liczby punktw dyskryminuj cych.

Ponisze twierdzenie uzasadnia poprawno  zastosowania transformacji w problemach rozpoznawania, mimo i nie jest to odwzorowanie wzajemnie jed-noznaczne.

Twierdzenie 7.2.3

Niech

g

?(

X

) bdzie bayesowsk regu klasykacji dla pro-blemu opisanego rozkadami (

XY

),

X

2

I

d, a

J

?X ryzykiem Bayesa. Niech

T

= (

X

), gdzie jest odwzorowaniem quasi-odwrotnym krzywej

F

spenia-jcej warunki

C1

{

C3

. Wtedy regua klasykacji postaci:

G

(

T

) def=

g

?(

F

(

T

)) jest regu Bayesa dla problemu klasykacji o rozkadach (

TY

),

T

2

I

1. Ponadto ryzyko Bayesa

J

?T dla problemu (

TY

) jest tak e rwne

J

?X.

Dowd.

Zauwamy, e

F

(

T

) jest zmienn losow , a ponadto

F

(

T

) =

F

( (

X

)) =

X

. Dalej, niech

G

?(

T

) bdzie regu Bayesa dla problemu przetransformowanego (

TY

). %atwo zauway, e

g

?(

F

(

T

)) jest pewn regu klasykacji w problemie (

TY

), st d

J

?T =

P

f

G

?(

T

)6=

Y

g

P

f

g

?(

F

(

T

))6=

Y

g =

P

f

g

?(

X

)6=

Y

g=

J

?X. Z drugiej strony,

G

?( (

X

)) jest pewn regu klasykacji oryginalnego problemu (

XY

). St d

P

f

g

?(

X

) 6=

Y

g

P

f

G

?( (

X

)) 6=

Y

g =

P

f

G

?(

T

) 6=

Y

g =

J

?T. W konsekwencji

J

?X =

J

?T i

g

?(

F

(

T

)) musi by optymaln regu klasykuj c

dla problemu (

TY

). 2

W twierdzeniu 7.2.3 nie zakadali my adnych ogranicze na rozkad

X

(poza wstpnymi zaoeniami, e

X

przyjmuje warto ci z ograniczonego obszaru

I

d, ktrych spenienie jest atwo zagwarantowa, dokonuj c odpowiedniej wstpnej transformacji zmiennych). Ponadto, gdy

Z

jest zmienn losow przyjmuj c war-to ci w

I

1, b d Bayesa

J

?F(Z) dla problemu przetransformowanego za pomoc

krzywej, czyli problemu opisanego przez zmienne losowe (

F

(

Z

)

Y

), moe by wikszy ni odpowiedni b d w problemie przed transformacj (

ZY

). Rnica ta wynika st d, e w przypadku ktrego dotyczy twierdzenie 7.2.3, transforma-cji podlega nie dowolna zmienna losowa, lecz zmienna losowa, ktra przyjmuje warto ci w (

I

d)



a nie w caym odcinku

I

1.

Z twierdzenia 7.2.3 wynika w szczeglno ci, e je li istniej gsto ci rozka-dw w klasach

f

0 i

f

1, to regua klasykacji Bayesa

g

?(

x

) = 8 < : 0



gdy

p

1

f

1(

x

);

p

0

f

0(

x

) 0 1



w przeciwnym przypadku

prowadzi do reguy

G

?(

t

)def=

g

?(

F

(

t

)),

t

2

I

1, ktra jest regu Bayesa problemu klasykacji z tymi samymi prawdopodobiestwami a priori

p

0,

p

1oraz rozkadami w klasach

f

0(

F

(

t

)) i

f

1(

F

(

t

)),

t

2

I

1.

Dalej koncentrowa si bdziemy na estymacji regu Bayesa, w sytuacji, gdy

S

0i

S

1pokrywaj si choby cz ciowo na zbiorze o niezerowej mierze Lebesgue'a, a ryzyko Bayesa jest wiksze od zera. W tym przypadku nie jeste my w stanie za-gwarantowa, e istnieje skoczona liczba punktw na odcinku, ktre rozdzielaj obszary nale ce do rnych klas (ze wzgldu na optymaln regu klasykacji). Zauwamy bowiem, e kad regu decyzyjn na odcinku moemy jednoznacz-nie zdeniowa, podaj c pooejednoznacz-nie punktw, w ktrych nastpuje zmiana decyzji o przynaleno ci do danej klasy (z klasy 0 na klas 1 lub odwrotnie) oraz numeru klasy, do ktrej naley przyporz dkowa punkty z pierwszego podprzedziau

I

1. Niestety, w oglnym przypadku liczba takich punktw moe by nie tylko niesko-czona, ale i nieprzeliczalna. Moemy jednak pokaza, jak wybieraj c skoczony podzia odcinka jednostkowego na odpowiednie pododcinki zwi zane z rnymi klasami moemy aproksymowa regu decyzyjn Bayesa z dowoln wymagan dokadno ci

 >

0. W zwi zku z tym rozpatrzmy nastpuj c regu klasykacji, ktra dopuszcza przydzielenie danej obserwacji

x

etykiety



niesklasykowana" (por. 36], 57]). Regua ta jest postaci:

g

? (

x

) = 8 > > > < > > > : 0

 p

1(

x

);

p

0(

x

) ;



1

 p

1(

x

);

p

0(

x

)



niesklasykowany



j

p

1(

x

);

p

0(

x

)j

< :

W tym przypadku zbiory

C

i def= f

x

2

I

d :

g

? (

x

) =

i

g,

i

= 0



1 s ci le rozdzielone i moemy do nich zastosowa wnioski wynikaj ce z twierdzenia 7.2.2.