w statystycznych problemach rozpoznawania
7.2 Ryzyko bayesowskie i rozdzielanie przetransformowanych wzorcw
Rozpatrzmy najpierw podstawowe wasnoci wzorcw (a raczej wektorw ich cech) po przetransformowaniu do odcinka 0
1]. Wybierzmy krzyw wypeniaj cF
:I
1 !I
d speniaj c warunkiC1
{C3
oraz jej quasi-odwrotno :I
d !I
1. W dalszym ci gu zakada bdziemy, e znana jest dokadna warto (x
)x
2I
d. Przypomnijmy, eF
( (x
)) =x x
2I
d. Ponadto zauwamy, e jeliX
jest zmienn losow przyjmuj c wartoci wI
d, to (X
) jest take zmienn losow (funkcja jest mierzalna) przyjmuj c wartoci wI
1. W przypadku oglnym trudno jest poda wprost zaleno midzy rozkademX
i (X
).W przypadku istnienia funkcji
f
{ gstoci rozkaduX
{ istnieje rwnie gsto rozkadu (X
). Z lematu 4.16 wynika bezporednio, e gsto ta ma postaf
(F
(t
)). Pokaemy dalej, e krzywe wypeniaj ce, ktre speniaj warunkiC1
{C3
z rozdziau 4.5, prowadz do transformacji, ktre nie zmieniaj ryzyka Bayesa.Niech
S
i,i
= 01 oznacza nonik (z prawdopodobiestwem 1) rozkadu cech w klasach. Jeli istniej gstoci rozkadu w klasachf
i(x
) okrelone wI
d, i zni-kaj ce pozaI
d, to zbioryS
i =fx
2I
df
i(x
)>
0g,i
= 01 s nonikami gstoci rozkadw w klasach.Denicja 7.1
Mwimy, e klasy0 i 1 s:a
)cile separowalne
(ze wzgldu na metrykD
(xx
0) wR
d)wtedy i tylko wtedy, gdy istnieje" >
0 takie, e dist(S
0S
1) = infx2S0x0b
)przemieszane
, wtedy i tylko wtedy, gdyd(
S
0\S
1)>
0,c
)sabo separowalne
, wtedy i tylko wtedy, gdyd(
S
0\S
1) = 0. Nastpuj ce wasnoci s atwe do udowodnienia.Lemat 7.1
1)S
0,S
1 s ci le separowalne ze wzgldu na metrykD
, wtedy i tylko wtedy, gdy -S
0 \S
-1 = , gdzie -S
0, -S
1 oznacza domknicia zbiorwS
0,S
1 (odpowiednio) w topologii wprowadzonej przez metrykD
.2) Je li
d(
S
0\S
1) = 0, to no nikiS
0,S
1 s sabo separowalne, a nie s ci le separowalne wtedy i tylko wtedy, gdy dist(S
0S
1) = 0 2. Z punktu widzenia problemw rozpoznawania najistotniejsze jest to, e trans-formacja nonikwS
0 iS
1 za pomoc quasi{odwrotnoci krzywej wypeniaj cej zachowuje podstawowe relacje midzy nimi. Bardziej precyzyjnie formuuje ten fakt ponisze twierdzenie:Twierdzenie 7.2.1
Przeciwobrazy no nikwS
0,S
1 wzgldem krzywej wypenia-jcejF
okre laj, odpowiednio, zbioryA
i = ft
2I
1 :F
(t
) 2S
igi
2 f01g. Ponadto oznaczmy ~A
i= (S
i)i
2f01g.Je li krzywa
F
spenia warunkiC1
{C3
, to:a
) je liS
0,S
1 s ci le separowalne wI
d, toA
0,A
1 ( ~A
0, ~A
1) s take ci le separowalne wI
1, ze wzgldu na t sam metryk, ktr wybrano wC1
,b
) je liS
0,S
1 s sabo separowalne wI
d, to wtedy takeA
0,A
1 ( ~A
0, ~A
1) s sabo separowalne wI
1,c
) je liS
0,S
1 s przemieszane wI
d, toA
0,A
1 ( ~A
0, ~A
1) s przemieszane.Dowd.
Poniewa (x
)2F
;1(x
), zatem ~A
iA
ii
= 01:
Zamy, e zbioryS
0 iS
1 s cile rozdzielone. Wtedy dla kadegox
2S
0,x
02
S
1 zachodzi"
kx
;x
0k=k
F
(t
);F
(t
0)k djt
;t
0j1=d
(7.3) gdziet
2A
0,t
02
A
1s przeciwobrazamix
orazx
0, odpowiednio, natomiast ostat-nia nierwno w (7.3) wynika z wasnociC1
krzywej wypeniaj cejF
. St dA
0 orazA
1 s cile rozdzielone, a ich odlego jest nie mniejsza ni ("=
d)d, co koczy dowd wasnoci a). By udowodni cz b), wystarczy zauway, korzy-staj c z wasnociC2
krzywej, e zd(
S
0\S
1) = 0 wynika, i1(
A
0\A
1) = 0. Z wasnoci a) i b) wynika naturalnie c), co koczy dowd twierdzenia. 2 Naley zwrci uwag na fakt, i stwierdzenie odwrotne do twierdzenia 7.2.1 niekoniecznie musi by prawdziwe, to znaczy klasy, ktre s cile rozdzielone wI
1 mog po transformacji przez krzywF
sta si jedynie sabo rozdzielonymi wI
d. Z drugiej strony, jeeli klasy s cile rozdzielone wI
d, moemy znacznie wicej wnioskowa o nonikach klas po transformacji , czyli o zbiorachA
i.Twierdzenie 7.2.2
Je li zbioryS
0,S
1 s ci le rozdzielone wI
d, to istnieje skoczony podzia odcinkaI
1, ktry rozdziela obie klasy w ten sposb, e wntrze adnego z pododcinkw nie zawiera rwnocze nie punktw zA
0 iA
1. Ponadto liczba punktw konieczna do rozdzielenia punktw ze zbioruA
0 od punktw ze zbioruA
1 jest nie wiksza ni d(d="
)de;1.Dowd.
Istnieje skoczone pokrycieI
1zbiorem domknitych odcinkw o dugoci = ("=
d)d), gdzie"
= dist(S
0S
1) oraz d jest sta z warunku HolderaC1
, ktry spenia krzywaF
. St dI
10]:::
(d1=
e;1)1]. Z warunku HolderaC1
wynika, e wntrze adnego z odcinkwi
(i
+ 1)]i
= 01:::
nie moe zawiera rwnoczenie punktw zA
0 i zA
1. W konsekwencji liczba punktw rozdzielaj cychA
0 odA
1 na pewno nie jest wiksza ni d(L
d="
)de;1. 2 Kluczowym wnioskiem wynikaj cym z powyszego twierdzenia jest stwierdze-nie, e moliwo rozdzielenia zbiorw cile rozdzielonych po przetransformowa-niu ich na odcinekI
1za pomoc skoczonej liczby punktw dyskryminuj cych jest wasnoci konstruktywn , gdy mona poda grne oszacowanie liczby punktw dyskryminuj cych.Ponisze twierdzenie uzasadnia poprawno zastosowania transformacji w problemach rozpoznawania, mimo i nie jest to odwzorowanie wzajemnie jed-noznaczne.
Twierdzenie 7.2.3
Niechg
?(X
) bdzie bayesowsk regu klasykacji dla pro-blemu opisanego rozkadami (XY
),X
2I
d, aJ
?X ryzykiem Bayesa. NiechT
= (X
), gdzie jest odwzorowaniem quasi-odwrotnym krzywejF
spenia-jcej warunkiC1
{C3
. Wtedy regua klasykacji postaci:G
(T
) def=g
?(F
(T
)) jest regu Bayesa dla problemu klasykacji o rozkadach (TY
),T
2I
1. Ponadto ryzyko BayesaJ
?T dla problemu (TY
) jest take rwneJ
?X.Dowd.
Zauwamy, eF
(T
) jest zmienn losow , a ponadtoF
(T
) =F
( (X
)) =X
. Dalej, niechG
?(T
) bdzie regu Bayesa dla problemu przetransformowanego (TY
). %atwo zauway, eg
?(F
(T
)) jest pewn regu klasykacji w problemie (TY
), st dJ
?T =P
fG
?(T
)6=Y
gP
fg
?(F
(T
))6=Y
g =P
fg
?(X
)6=Y
g=J
?X. Z drugiej strony,G
?( (X
)) jest pewn regu klasykacji oryginalnego problemu (XY
). St dP
fg
?(X
) 6=Y
gP
fG
?( (X
)) 6=Y
g =P
fG
?(T
) 6=Y
g =J
?T. W konsekwencjiJ
?X =J
?T ig
?(F
(T
)) musi by optymaln regu klasykuj cdla problemu (
TY
). 2W twierdzeniu 7.2.3 nie zakadalimy adnych ogranicze na rozkad
X
(poza wstpnymi zaoeniami, eX
przyjmuje wartoci z ograniczonego obszaruI
d, ktrych spenienie jest atwo zagwarantowa, dokonuj c odpowiedniej wstpnej transformacji zmiennych). Ponadto, gdyZ
jest zmienn losow przyjmuj c war-toci wI
1, b d BayesaJ
?F(Z) dla problemu przetransformowanego za pomockrzywej, czyli problemu opisanego przez zmienne losowe (
F
(Z
)Y
), moe by wikszy ni odpowiedni b d w problemie przed transformacj (ZY
). Rnica ta wynika st d, e w przypadku ktrego dotyczy twierdzenie 7.2.3, transforma-cji podlega nie dowolna zmienna losowa, lecz zmienna losowa, ktra przyjmuje wartoci w (I
d)a nie w caym odcinkuI
1.Z twierdzenia 7.2.3 wynika w szczeglnoci, e jeli istniej gstoci rozka-dw w klasach
f
0 if
1, to regua klasykacji Bayesag
?(x
) = 8 < : 0 gdyp
1f
1(x
);p
0f
0(x
) 0 1 w przeciwnym przypadkuprowadzi do reguy
G
?(t
)def=g
?(F
(t
)),t
2I
1, ktra jest regu Bayesa problemu klasykacji z tymi samymi prawdopodobiestwami a priorip
0,p
1oraz rozkadami w klasachf
0(F
(t
)) if
1(F
(t
)),t
2I
1.Dalej koncentrowa si bdziemy na estymacji regu Bayesa, w sytuacji, gdy
S
0iS
1pokrywaj si choby czciowo na zbiorze o niezerowej mierze Lebesgue'a, a ryzyko Bayesa jest wiksze od zera. W tym przypadku nie jestemy w stanie za-gwarantowa, e istnieje skoczona liczba punktw na odcinku, ktre rozdzielaj obszary nale ce do rnych klas (ze wzgldu na optymaln regu klasykacji). Zauwamy bowiem, e kad regu decyzyjn na odcinku moemy jednoznacz-nie zdeniowa, podaj c pooejednoznacz-nie punktw, w ktrych nastpuje zmiana decyzji o przynalenoci do danej klasy (z klasy 0 na klas 1 lub odwrotnie) oraz numeru klasy, do ktrej naley przyporz dkowa punkty z pierwszego podprzedziauI
1. Niestety, w oglnym przypadku liczba takich punktw moe by nie tylko niesko-czona, ale i nieprzeliczalna. Moemy jednak pokaza, jak wybieraj c skoczony podzia odcinka jednostkowego na odpowiednie pododcinki zwi zane z rnymi klasami moemy aproksymowa regu decyzyjn Bayesa z dowoln wymagan dokadnoci>
0. W zwi zku z tym rozpatrzmy nastpuj c regu klasykacji, ktra dopuszcza przydzielenie danej obserwacjix
etykiety niesklasykowana" (por. 36], 57]). Regua ta jest postaci:g
? (x
) = 8 > > > < > > > : 0p
1(x
);p
0(x
) ; 1p
1(x
);p
0(x
) niesklasykowany jp
1(x
);p
0(x
)j< :
W tym przypadku zbiory
C
i def= fx
2I
d :g
? (x
) =i
g,i
= 01 s cile rozdzielone i moemy do nich zastosowa wnioski wynikaj ce z twierdzenia 7.2.2.
W dokumencie
Krzywe wypełniające w rozwiązywaniu wielowymiarowych problemów decyzyjnych
(Stron 143-147)