ROCZNIKI POLSKIEGO TOWARZYSTWA MATEMATYCZNEGO Seria III: MATEMATYKA STOSOWANA XII (1978)
MIROSŁAW KRZYŚKO (Poznań)
Metody klasyfikacji sekwencyjnej
(Praca
przyjętado druku 12.05.1976)
1.
Wstęp. Załóżmy, żerozpatrujemy pewien obiekt, który
należydo jednej z m populacji generalnych n
1 ,n
2 , ••• ,nm, lecz nie wiemy do której. Na podstawie pomiarów
wartościp cech tego obiektu mamy
zaklasyfikowaćgo do
właściwejpopulacji. W przedstawionym zagadnieniu klasyfikacji wszystkie cechy obiektu
mogą być
obserwowane
jednocześnie.Ten sposób
postępowanianazywany jest
procedurą decyzyjną
z
ustaloną liczbącech (patrz [1], [4], [7], [10]). W sposobie tym nie bierze
siępod
uwagęceny pomiarów cech. Jest
rzeczą jasną, że ·niedostateczna liczba pomierzonych cech nie pozwala
uzyskać zadowalającychwyników klasyfi- kacji. Z drugiej strony, praktycznie niecelowe jest mierzenie zbyt wielkiej liczby cech.
Jeżeli należy braćpod
uwagę cenędokonywanych pomiarów cech lub,
jeślicechy danego obiektu ze swej natury
pojawiają sięsekwencyjnie, wskazane jest stosowanie sekwencyjnej metody klasyfikacji. Takie problemy
mogą pojawiać sięnp. wtedy, gdy
daną cechę należy mierzyćw czasie procesu produkcyjnego i pomiar wymaga przerwania tego procesu lub wtedy, gdy pomiar: jest
czasochłonny,wymaga
użycia
skomplikowanego
urządzeniapomiarowego lub
teżgdy
wiąże sięze
złożonymi i ryzykownymi operacjami (np. w zastosowaniach biomedycznych). Racjonalne
rozwiązania
dylematu
międzystopniem
błędnych zaklasyfikowańi
liczbąobserwo- wanych cech
można uzyskaćprzez sekwencyjne obserwowanie cech i
zakończenietego sekwencyjnego procesu wówczas, gdy zostanie
osiągniętadostateczna lub nie- odzowna
dokładnośćklasyfikacji.
Praca niniejsza zawiera propozycje
rozwiązańprzedstawionego zagadnienia.
Łączy
ona metody klasyfikacji bayesowskiej z ideami Walda sekwencyjnego testo- wania hipotez. W tej postaci zagadnienie klasyfikacji sekwencyjnej nie
byłodo tej pory w literaturze rozpatrywane .
.
Załóżmy, żefunkcja fik(x1, „., xk) = fik(x) jest
znaną funkcją gęstościprawdo-
podobieństwa
k-wymiarowej zmiennej losowej Xi = [Xii, ... , Xik]', której
wartościobserwować możemy
na obiektach (osobnikach) populacji nh gdzie i= 1, 2, „., m, k=l,2, ... ,p.
Niech J.~j>(x) będzie ilorazem wiarogodności postaci
(1) ;.~p(x)=jj_k(x~_ dla i,j= 1,2,„.,m,j#-i, k= l,2,„.,p, f;k(x)
.1.~J>(x) = 1 dla i, j = 1 , 2, ... , m, j #- i.
[119]
2. Klasyfikacja sekwencyjna w przypadku dwóch populacji.
Załóżmychwilowo,
że
dany obiekt mamy
zaklasyfikowaćdo jednej z dwóch populacji ni lub n
2 •Przyj- mujemy
następującysposób
postępowaniawzorowany na
teściesekwencyjnym Walda ([11], rozdz. 3, [2], [3]):
Dany obiekt klasyfikujemy do populacji ni wówczas, gdy (2) B < J..\1'1.(x
0)< A dla k = O, 1, 2, ... , n-1, a dla n, gdy
(3) J..W(x
0)?: A, przy czym
n~p.
Dany obiekt klasyfikujemy do populacji :rc
2wówczas, gdy dla k = O, I, 2, „., n- I zachodzi (2), natomiast dla n
(4) J..i'1](x
0) ~B, przy czym n
~p.
Zdefiniujmy
następująceobszary (dla k = 1,2, .„,p):
(5) R~k) = {x: flk(x)?: Af2k(x)},
(6) R~k> = {x: flk(x) ~ Bf2k(x)},
(7) Rbk) = {x: Bf2k(x) < flk(x) < Af2k(x)}.
Niech Pr<n>(:rci ln2)
będzie prawdopodobieństwem błędnegozaklasyfikowania (na podstawie pierwszych n cech) obserwowanego obiektu do populacji ni, gdy w
rzeczywistościjest on elementem populacji n
2 • Ponieważ decyzjęo zaklasyfiko- waniu obiektu do ni podajemy
wyłączniena podstawie
nierówności(3), bo
spełnienie
nierówności(2) nie stanowi podstawy do
żadnejdecyzji klasyfikacyjnej,
więc powyższe prawdopodobieństwo wyraża sięwzorem
(8) Pr<n>(n
1ln2) = Pr(
J..~nł(x)?:Al:rc
2 )=
= Pr(f1n(x) ~ Af2n(x)J:rc2) = ~ f2n(x)dx.
R~">
Niech Pr<n>(:rc
2/ini)
będzie prawdopodobieństwem błędnegozaklasyfikowania (na podstawie pierwszych n cech) obserwowanego obiektu do populacji :rc
2 ,gdy w
rzeczywistościjest on elementem populacji ni. Mamy
(rozumującjak dla Pr<n>(ni ln2)):
(9) Pr<n>(n2Jn1) = Pr( J..W(x) ~ Blni) =
= Pr(f1n(x) ~ Bf2n(x)Jn1) = ~ f 1n(x)dx.
R~n>
Zachodzą następujące związki:
2 2
(10)
Stąd
(Il)
_L ~ fin(x)dx = I oraz L ~ f 2n(x)dx = I.
i=O
R1">
i=O
R1">
~ f1n(x)dx ~ 1- ~ fin(x)dx
R~n) R~n)
Metody klasyfikacji sekwencyjnej 121
oraz
(12) ~ / 2n(x)dx :s;; 1- ~ f 2n(x)dx.
R~n) R~n)
Scałkujmy funkcję
f 1n(x) po obszarze R\n>. Wobec (5) otrzymamy
(13) ~ /1n(x)dx)?; A ~ /2n(x)dx.
R\"> R\">
Pqdobnie, wobec (6) otrzymamy
(14) ~ / 1n(x)dx :s;; B ~ / 2n(x)dx.
R~n) R~n)
Chcemy teraz tak
dobraćA, aby Pr<n>(n1 ln2) =
IXoraz tak
dobraćB, aby·
Pr<n>(n2ln
1)= {J. Aby to
zapewnić,musimy dla danego n
dobraćodpowiednio A = A(n,
IX,{J) i B = B(n,
IX,{J) tak, by prawe strony wzorów (8) i (9)
byłyodpo- wiednio równe
IXi {J. Wobec (13) i (14) otrzymamy wówczas jako warunki konieczne
nierówności
(15)
(16)
1-{J
A:s;;--,
IXB )?; _{J_ dla O <
IX< 1 .
I-IX
Znalezienie A i B
dokładnietakich,
żebydla danego n
byłoPr<">(n1ln2) = ex,.
a Pr<">(n2ln1) = {J, jest skomplikowane.
Możemyjednak
aproksymowaćA(n,
IX,{J) i B(n, ex, {J),
biorącdla
każdegon
za~iastA(n, ex, {J)
wielkośćA = (1- {J)/
IX,a zamiast B(n,
IX,{J)
wielkośćB = fJ /(1-
IX). Zauważmy, żegdy
IX+fJ < 1 oraz O <
IX< 1, wówczas B < I < A. W dalszym
ciągu będziemy zakładać, żewarunek
ten jest
spełniony.Prześledźmy
skutki takiego wyboru
wielkościA i B.
WielkośćA jest nie mniejsza od
dokładnej wartościA(n,
IX,{J), natomiast B jest nie
większaod
dokładnej wartościB(n, ex, {J).
Stąd zastąpienieprawdziwych
wartościA(n,
IX,{J) i B(n,
IX,{J)
wyżej"dobranymi A i B
prowadzić możedo zmiany
prawdopodobieństw błędnychklasy- fikacji.
Aktualne
prawdopodobieństwa błędnejklasyfikacji
spełniają następujące związki:-:(17)
(18) Pr<n>(n
2ln
1)= ~ f
1n(x)dx = ~ fin(x)dx ~
R~")
{x:f1n(x).;;l~a/2n(x)J
Z (17) wynika
także związekPr<n>(n
1in
2)(l -/1)
~rx[l -Pr<n>(n
2!n
1)],a z (18)
związekStąd
(19)
Powyższe rozważania
zbierzemy w formie
następującegotwierdzenia.
TWIERDZENIE
1.
Jeżelidany obiekt klasyfikujemy do populacji n
1wówczas, gdy zachodzi (2) i (3), natomiast do populacji n
2wówczas, gdy zachodzi (2) i ( 4), przy czym
(20) A=--, 1-/J
a B=-- 1-a fJ dla O<a<I,
to aktualne
prawdopodobieństwa błędnejklasyfikacji zdefiniowane w (8) i (9)
spełniająnierówności
(17), (18) i (19), przy czym a i fJ
sąz góry obranymi
wartościamiprawdo-
podobieństw
zdefiniowanych odpowiednio w (8) i (9).
Uwag a. 1.
Nierówności(17), (18) i (19)
dają ważneoszacowanie z góry
prawdopodobieństw
Pr<n>(n
1in
2 )i Pr<n>(n
2ln
1 ).W praktyce, a i (3
sąliczbami
małymi {najczęściejrównymi 0,01 lub 0,05). Zatem ograniczenia górne a/(1-(3) i (3/(1- a) podane odpowiednio w (17) i (18)
będąw zastosowaniach
przeważniebliskie war-
tościomrx i {J. Ponadto z
nierówności(19) wynika,
że zastąpienie wartościA(n, a, (3) i B(n, a, {J)
stałymiA i B
może spowodować zwiększenie siętylko jednego z prawdo-
podobieństw
Pr<n>(n
1ln
2 )lub Pr<n>(n
2ln
1 ),bo
zachodzić możeco
najwyżejjedna z
nierównościPr<n>(n
1ln
2)> rx lub Pr<n>(n
2ln
1)> {J. Tak
więc niezależnieod tego przy jakim n zostanie
podjętadecyzja klasyfikacyjna, aktualne
prawdopodobieństwaPr<n>(n
1ln
2)i Pr<n>(n
2ln
1) będąw praktyce
przeważnienie
większe niża i {J, odpo- wiednio, przy czym
najwyżejjedno z tych
prawdopodobieństw może być większeod z góry obranego (i to dla
małycha i (3 tylko nieznacznie
większe).U w a g a 2.
Zauważmy, żedla O < rx < I i fJ > O
zachodzą następującenie-
równości:
1-(3 1
--- < -,
'Y.
a (3
-1- -a > {J.
Stąd, biorąc
pod
uwagę nierówności(15) i (16),
możemy aproksymowaćA(n, a, {J)
i B(n, rx,{J)
obierającdla
każdegon
wielkościA= rx-
1i B = {J.
Metody klasyfikacji sekwencyjnej 123 Dla tak obranych granic A i B
można pokazać (rozumującanalogicznie jak w (17) i (18)),
żeaktualne
prawdopodobieństwa błędnychklasyfikacji
spełniająnastępujące związki:
Pr<n>(n1!n2)
~et,Pr<n>(n2ln1)
~{J,
Pr<">(n1ln2)+Pr<">(n2ln1)
~et+{J, dla n
~p.(21)
Wykazaliśmy prawdziwość następującego
twierdzenia:
TWIERDZENIE
2.
Jeżelidany obiekt klasyfikujemy do populacji n
1wtedy, gdy_
zachodzi (2) i (3), natomiast do populacji n
2wtedy, gdy zachodzi (2) i (4), przy czym (22) A= ct-
1,B = fJ dla et >O,
to aktualne
prawdopodobieństwa błędnejklasyfikacji zdefiniowane w (8) i (9)
spełniają nierówności(21), przy czym
cti fJ
sąz góry obranymi
wartościami prawdopodobieństwzdefiniowanych odpowiednio w (8) i (9).
3. Klasyfikacja sekwencyjna w przypadku wielu populacji (zmodyfikowana metoda bayesowska). Wrócimy teraz do przypadku m (m
~2) populacji generalnych n1, ... ,nm.
Oznaczmy przez Pr(n;) = qi
prawdopodobieństwoa priori
przynależnościobiektu klasyfikowanego do populacji ni dla i = 1, 2, „„ m.
Przy stosowaniu niesekwencyjnych
regułklasyfikacji z
prostą funkcjąstraty, optymalna (w sensie minimalizacji ryzyka bayesowskiego)
reguła klasyfikacyj~ajest
następująca(patrz [1], [4], [10]): obiekt, na którym zaobserwowano
wartościp
składowychwektora x
0 , kla~yfikujemydo populacji ni wówczas, gdy (23) dla j = 1 , 2, „. , m, j -::/= i.
Widzimy,
że wartościilorazów
wiarogodnościporównywane
sątu z
wartościamigranicznymi
będącymiilorazami
prawdopodobieństwa priori. Metoda ta pozwala definitywnie zaklasyfikować każdy obiekt, jednakże prawdopodobieństwa błędnych klasyfikacji
mogą być niezadowalające.Podamy teraz
metodęklasyfikacji sekwencyjnej
nawiązującądo
powyższej reguły.W metodzie tej wykorzystamy, tak jak poprzednio,
wartościilorazów wiaro-
godności. Będą
one
jednakżeporównywane z inaczej zdefiniowanymi
wartościamigranicznymi.
Proponujemy
następującysposób klasyfikacji.
Przestrzeńobserwowanych war-
tości
wektorów losowych Xi dzielimy na m + 1 nie
przecinających sięobszarów n~>, T~k~, ... , T~> zdefiniowanych następująco dla k = 1, 2, ... , p:
(24) nk> = {x:,...., PW(x) ~ Aij(k), i,j = 1, 2, „., m, j i= il},
(25) T~k> = {x: A~J>(x) ~ A
1i(k), j = 1, ... , m, j-::/= i}.
Dany obiekt klasyfikujemy do populacji ni wówczas, gdy
(26) dla k = O, 1 , 2, ... , n - 1 ,
a dla n
(27) x
0 ET~"),i= I, 2, „., m , n
~ p.Granice Aij(n)
można związaćz
prawdopodobieństwami błędnychklasyfikacji.
Niech Pr<">(nilni)
będzie prawdopodobieństwempoprawnego zaklasyfikowania danego obiektu do populacji ni, gdy w
rzeczywistościobiekt ten jest elementem populacji nb oraz niech Pr<")(nilni)
będzie prawdopodobieństwem błędnegozakla- syfikowania badanego obiektu do populacji ni, gdy w
rzeczywistościobiekt ten jest'elementem populacji ni (i,j = I, 2, „., m, j # i). Mamy
(28) Pr<")(nilni) = Pr(.AtPCx) ~ Aii(n), j = 1, 2, ... , m, j #J ilni) =
= Pr(.fin(x) ~ Aij(n)fjn(x), j = 1, 2, „., m, j # ilni) =
= ~ .fin(x)dx,
T~11>
natomiast
(29) Pr<")(nilni) = Pr(.A~j)(x) ~ Aij(n), j = 1, 2, „., m, j # ilni) =
= Pr(.fin(x) ~ Aij(n)fj„(x), j = 1, 2, „ ., m, j # ilni) =
= ~ fjn(x)dx (i,j= l,2,„.,m,j#i).
r~">
Niech Pr<">( nil U
mni)
będzie prawdopodobieństwem błędnegozaklasyfikowania
j# j=lbadanego obiektu do populacji ni, podczas gdy w
rzeczywistościobiekt ten jest ele- mentem jednej z populacji n
1 , ••. ,nm ~ z wyjątkiem populacji ni, dla i = I, 2, ... , m.
Mamy
(30) Pr<")(ni!U
mni) =
j = l j=f.i
L
mPr( ni) Pr<">(n;ln)
j=l j=f.i --- - - - -m
I Pr(ni)
j=l Ni
m m
= (L qj rl L qj Pr<">(niln),
i=l j=l
#i #i
gdzie
prawdopodobieństwaPr<">(nilnj) dane
sąwzorem (29), dla i, j = 1, 2, „., m, j
=/=i,
n~p.
Zachodzą następujące związki:
(31)
StądL
m~ .fin (x) dx = I dla i = 1 , 2, ... , m, n ~ p.
k=O
ri">
m
(32) ~ .fin(x)dx ~ 1- L ~ .fin(x)dx dla i= I, 2, „., m, n~ p.
r<">
I k= t k=f.i kr<">
Metody klasyfikacji sekwencyjnej 125
Scałkujmy funkcję
fin(x) po obszarze
T~n>,i = 1, 2, ... , m. Wobec (25) otrzymamy (33) ~ fin(x)dx?;; Aij(n) ~ fjn(x)dx (i,j = 1, 2, ... , m, j #i, n ~p).
T~n) T~n)
Korzystając
z (32) i (33) otrzymamy
(34)
m
1- L Pr<n>(.nkf.n;)
k=l k#
(i,j =I, 2, ... ; m, j #i, n
~p).Chcemy teraz dla danego n tak
dobraćgranice Aii(n), aby Pr<n>(.nd.ni) = aii' gdzie aii
sąz góry
przyjętymiliczbami.
Znalezienie Aiin)
dokładnietakich,
żeby,dla danego n, Pr<n>(n;lni) = aii, jest skomplikowane.
Możemyjednak
aproksymowaćAii(n)
biorącdla
każdegon zamiast
A;j{n)
stałąA;i postaci
m
(35) Aii = ( 1- _L aki) / aii (i, j = 1, 2, ... , m, j # i).
k=l k=f:.i
Taki wybór
stałychA;i spowoduje
zmianęaktualnych
prawdopodobieństw błędnejklasyfikacji. ·
Obszar nn> przyjmie
następującą postać:m
(36) T~n) = {x: fjn(x) ~ [a ii/( 1- .L IY.ki)] fin(x), j = I, 2, „., m, j # i},
k=l
i=I,2,„.,m.
Aktualne
prawdopodobieństwa błędnejklasyfikacji
spełniają następujące związki:~.--aii
m- - (i,j = 1, 2, ... , m, j #i).
I -Ł
IY.kik=i k=l
Ponadto
prawdopodobieństwa określonewzorem (30)
spełniają nierówności(38)
dla i = 1, 2, ... , m, n
~p.
Jeśli
ponadto obierzemy aii = rx dla i, j = 1, 2, ... , m, j =I= i, to
(39) dla n
~p.Zachodzi
również następująca nierówność(40)
niezależnie
od
wartości prawdopodobieństwa priori qi, dla i, j = 1, 2, ... , m, j =I=
i~n~
p. Z (37) wynika,
że(41)
dla i, j = 1 , 2, ... , m, j =I= i, n
~p.
Stąd
dostajemy
(42) ,L Pr<n>(nilni) ~ (m-1) a ,L Pr<n>(ndni) + ,L a-
i,i
i,j i,j#i #i #i
m
- a~ [.L Pr<n>(nklni)] = m(m- I)a,
I,} k=J
i# k-/=i
dla n
~p.Powyższe rozważania
zbierzemy w formie
następującegotwierdzenia:
TWIERDZENIE
3.
Jeżelidany obiekt klasyfikujemy do populacji ni wówczas, gdy zachodzi (26) i (27) oraz granice Aii dane
sąwzorem (35), to aktualne
prawdopodobieństwa
błędnejklasyfikacji zdefiniowane w (29) i (30)
spełniają nierówności(37) i (38), przy czym aii
sąz góry obranymi
wartościami prawdopodobieństwzdefiniowanych w (29), dla i, j = 1, 2, ... , m, j
=I=i.
Jeśliponadto aii = a, dla i, j = 1, 2, ... , m, j =I= i, to aktualne
prawdopodobieństwa błędnejklasyfikacji zdefiniowane w (29)
i (39)
spełniają nierówności(39), (30) i ( 42).
U w a g a 3.
Nierówności(39) i ( 42)
dają ważneoszacowania od góry aktualnych
prawdopodobieństw błędnych
klasyfikacji. Tak
więc niezależnieod tego, dla jakiego n zostanie
podjętaklasyfikacja, suma aktualnych
prawdopodobieństw błędnychklasyfikacji nie
przewyższasumy
prawdopodobieństw błędnychklasyfikacji przy-
jętych
przez nas jako dopuszczalne
(nierówność(42)), natomiast niektóre z po- szczególnych
prawdopodobieństw mogą byćtylko nieznacznie
większeod obranych
(nierówność
(39)).
Metody klasyfikacji sekwencyjnej 127 Proces klasyfikacji
można prowadzićsekwencyjnie w
następującysposób. Usta- lamy dopuszczalne wartości prawdopodobieństw błędnych klasyfikacji
rtii(pamię- tając o nierówności L
m rxki~ 1- etu) oraz obliczamy zgodnie ze wzorem (35) stałe
k=1 k=!=i
Aii dla i,j = 1, 2, ... , m,j =fa i.
Obserwujemy
wartośćx
01pierwszej cechy klasyfikowanego obiektu i badamy„
czy istnieje takie i
0 ,dla którego
spełnione są nierówności(43)
Jeżeli
takie i
0istnieje, to decydujemy,
żebadany obiekt jest elementem populacji ni
0•Jeżeli
takie i
0nie istnieje, podejmujemy
decyzjęo zaobserwowaniu
wartościx
02drugiej cechy klasyfikowanego obiektu.
Następniebadamy, czy teraz istnieje i
0„ dla którego
spełnione byłyby następujące nierówności(44)
Jeżeli
takie i
0istnieje, to decydujemy,
żebadany obiekt jest elementem populacji ni
0•Jeżeli
takie i
0·nie istnieje, podejmujemy
decyzjęo zaobserwowaniu
wartościx
03trzeciej cechy klasyfikowanego obiektu. Proces klasyfikacji kontynuujemy dopóty, dopóki nie podejmiemy decyzji o
przynależnościklasyfikowanego obiektu do jednej z populacji
7't1' 1t2' ...'nm lub do wyq:erpania z góry ustalonej liczby obserwowa- nych cech.
W tym ostatnim przypadku
(wyjątkowo)podejmujemy
decyzjęo
przynależnościbadanego obiektu do populacji ni, gdy wektor zaobserwowanych
wartościp cech tego obiektu
należydo obszaru
S~P>danego wzorem
(45) S~P> = {x: J.W(x) ~ qi/qi dla j = 1, 2, ... , m, j =fa i}, i= 1, 2, ... , m.
To dodatkowe kryterium klasyfikacji
zastrzeżonejedynie dla etapu
końcowegonazywa
się bayesowską metodąklasyfikacji i jest,
międzyinnymi, opisane w pracy [4].
Prawdopodobieństwa błędnych zaklasyfikowań
w tej metodzie
mogą jednakże być większeod z góry
przyjętych. PrawdopodobieństwaPr<P>(ndni)
wyrażają siętu jako
całki
funkcji fjp(x) po obszarach
S~P>danych wzorem (45) dla i, j = 1, 2, ... , m„
j =fa i.
Zobaczmy teraz, jak przedstawia
sięomówiona metoda klasyfikacji sekwencyjnej w przypadku wielowymiarowego
rozkładunormalnego.
Wprowadźmy
oznaczenia (46)
oraz
(47) L~j>(x) = 21nJ.~}>(x), i,j = 1, 2, ... , m, i =faj, k = 1, 2, ... ,p.
Gdy fik(x) są funkcjami gęstości k-wymiarowego rozkładu normalnego N(µ.i, l:i)„
wówczas
(48) L~'>(x) = x'(:Ej
1 -:E;
1)x+2(µ~ :E;
1-µj :E;})x+
+
tJ.i~i P.i-P.i~i fJ.; '"'t"-t '"'t"-1+l n l:Eil , l:Eil
dla i, j = 1, 2,
„. ,m, j =I i, k = 1 , 2,
„. ,p.
Z geometrycznego punktu widzenia, granice decyzyjne, zwane kwadratowymi funkcja- mi dyskryminacyjnymi,
{49) L~j>(x)-Bii=O, i,j= 1,2,„.,j=/=i, k= 1,2~„.,p,
są
hiperpowierzchniami stopnia drugiego,
dzielącymi k-wymiarową przestrzeńobserwowanych wartości wektorów losowych na m + 1 obszarów Tbk>, T~k>, „., T~k>.
Obszary Tik>,
T~k>,... ,
T~k> sąobszarami
podjęciadecyzji o
przynależnościbaqanego obiektu odpowiednio do populacji n
1 ,n
2 , ••• ,nm, natomiast obszar T&k> jest obsza- rem
niemożności podjęciadecyzji na podstawie zaobserwowanych
wartościk cech obiektu klasyfikowanego.
Uwag a 4.
Przedstawioną metodęklasyfikacji sekwencyjnej
możnazmodyfi- kować przez zdefiniowanie w inny sposób obszarów T~k>, dla i = O, I, 2, „., m, k
~p.Niech (50) (51)
T'(k) - { • . [ 1(k)( ) ~
A . . - 1 2 . ']}
.L o - X. ,...., lt.ij X :::;--- , l,] - , , ... ,
m, ] =/
l ,T~<k> = {x: AW(x) ~A, j = 1, 2, ... , m, j =I i}
lub, w postaci
równoważnej,(52) r;<k) = {x: min AW(x) ~ A} dla i= 1, 2,
„.'p, k ~ p.
l:i;;,j:i;;,m
#i
Wprowadzona modyfikacja polega na
zastąpieniugranic A;i, dla i,j = 1, 2, .„, m, j =I i,
wspólną granicąA.
Samą zasadęklasyfikacji pozostawiamy
niezmienioną,tj. dany obiekt klasyfikujemy do populacji ni wówczas, gdy (53) x
0 E T~<k>dla k = O, 1 , 2, „., n- 1 . a dla n, gdy
(54) x
0 E T~<n>,i= 1, 2, „., m, n
~p.Wiążąc granicę
A(n) z
prawdopodobieństwami błędnychklasyfikacji
określonymi w (29), otrzymujemy wówczas jako warunek konieczny
nierówność(55)
n~p.Metody
k/a~yfikacjisekwencyjnej 129
Granicę
A(n)
będziemy aproksymować, biorącdla
każdegon zamiast A(n)
stałąA postaci
(56) A= min
1,,;..i,j""m
#i
m
1-
k=l:L
cxkik:Fi
Dla tak
określonejmetody aktualne
prawdopodobieństwa błędnejklasyfikacji
spełniają następujące związki:
(57)
(58)
m
1-1
i-
k=l.:L
akik::;,i
dla i, j = I, 2, ... , m, j =I= i, n
~p.
Wykazaliśmy prawdziwość następującego
twierdzenia:
TWIERDZENIE
4.
Jeżelidany obiekt klasyfikujemy do populacji ni wówczas, gdy zachodzi (53) i (54) oraz
wartośćgraniczna A dana jest wzorem (56), to aktualne
prawdopodobieństwa błędnej
klasyfikacji, Pr<n>(ndni) oraz Pr<n>(nd LJ ni), dla i, j = 1, 2, ... , m, j =I= i, n
~p,
spełniają nierówności(57) i (58).
#i4. Porównanie metod. W paragrafie 2
omówiliśmy metodęklasyfikacji sekwencyj- nej w przypadku dwóch populacji,
wzorowanąna
teściesekwencyjnym Walda (twierdzenie 1) oraz jej
modyfikację(twierdzenie 2).
Dla metody
sformułowanejw twierdzeniu 1 obszar.bezdecyzyjny ma
postać(59) R<l> = {x: _!}_ ___ 1-cx < AW(x) < l-fl a i,
natomiast dla metody
sformułowanejw twierdzeniu 2 obszar bezdecyzyjny ma
postać
(60)
R~<k>= {x: fJ < ).\ki(x) < cx-1}
dla O < a, fJ < l , k = 1 , 2, ... , p.
Ponieważ,
dla O < ex, fJ < I,
zachodzą nierówności1-{J 1
- - < -
(X (Xoraz -1- fJ > {J,
-(X
więc spełniona
jest relacja zawierania
(61) R~> c R~<k> dla k = I , 2, ... , p.
Relacja (61) oznacza,
żemetoda
sformułowanaw twierdzeniu 1 charakteryzuje
się
mniejszymi obszarami bezdecyzyjnymi, a
więcprowadzi szybciej do celu. W meto- dzie tej
jednakże ulegajązachwianiu aktualne
prawdopodobieństwa błędnejklasy- fikacji. I tak,
jeżeli żądamy,by Pr<n)(n
1/n
2 )= a, a Pr<n)(n
2/n
1 )= {J, to
będziemymieli tylko
gwarancję, żePr<n)(n
1/n
2 ) ~a/(1-{J), Pr<n)(n
2ln
1 ) ~{J/(1- a) oraz
Pr<n)(n
1/n
2)+Pr<n>(n
2/n l
1) ~a+{J dla n
~p.Sens
powyższych nierówności omówiliśmy jużw uwadze I.
Metoda
sformułowanaw twierdzeniu 2 prowadzi do
większychobszarów bez- decyzyjnych, jest bardziej
ostrożnai wymaga obserwowania
większejliczby zmien- nych,
jednakżegwarantuje
spełnienieprzez aktualne
prawdopodobieństwa błędnychklasyfikacji wymaganych żądań, tj. spełnienie nierówności
Pr<n>(n
1/n
2 ) ~ a,Pr<n)(n
2/n
1) ·~{J dla
n ~p.
W paragrafie 3
omówiliśmy metodęklasyfikacji sekwencyjnej w przypadku wielu populacji
nawiązującądo niesekwencyjnej bayesowskiej
regułyklasyfikacji (twier- dzenie 3) oraz jej
modyfikację(twierdzenie 4).
W metodzie
sformułowanejw twierdzeniu 3 kontrolowane
sąwszystkie prawdo-
podobieństwa
Pr<n)(ndni)
błędnegozaklasyfikowania badanego obiektu do populacji n;, gdy w
rzeczywistościobiekt ten jest elementem populacji ni (i,j = 1, 2, „., m, j I= i, n
~p). Dla
każdegoz .tych
prawdopodobieństwz osobna mamy odpowiednie oszacowanie z góry
(nierówność(37)).
Ponadto kontrolowane jest prawdopodobieństwo Pr<n>(nil U
mni) błędnego
j=l N=i
zaklasyfikowania badanego obiektu do populacji nh podczas gdy w
rzeczywistościobiekt ten jest elementem jednej z populacji n
1 , ••• ,nm, z
wyjątkiempopulacji nb dla i = I, 2, . „, m, n
~p
(nierówność(38)).
W omawianej metodzie obszar podejmowania decyzji (na podstawie n cech) o
przynależnościbadanego obiektu do populacji ni jest postaci
(62)
1-
k=l2:
m akiTfn> = Jlx: ;.i~;>(x) ~ __
k_+_i _ _ ,j = I, 2, „., m, j I= i},},
r.l.ij
dla i = I , 2, ... , m, n
~p.
W metodzie
sformułowanejw twierdzeniu 4 obszar podejmowania decyzji na pod- stawie n cech o
przynależnościbadanego obiektu do populacji ni jest postaci
m
i-
k=lI
aki(63) r;<n> =
{X: A~j>(x) ~ min - - - - '
k.,Pi.i = I, 2, „.' m' j I= i '
} l~iJ,;;;m r.l.ijj.,Pi
dla i = 1 , 2, ... , m, n
~p.
Metody klasyfikacji sekwencyjnej 131
Między
obszarami nn> oraz
T~<n>zachodzi
następującarelacja zawierania (64) Tln>
c T~<n>dla i = 1 , 2, ... , m, n
~p.
Relacja (64) oznacza,
żemetoda
sformułowanaw twierdzeniu 4 daje mniejsze obszary bezdecyzyjne od metody
sformułowanejw twierdzeniu 3, a tym samym wymaga obserwowania mniej zmiennych.
Jednakżejej mankamentem jest to,
żewszystkie aktualne
prawdopodobieństwaPr<n>(nil.nj)
błędnejklasyfikacji dla i,j = 1, 2, ... , m, j
=f::.i, n
~p, szacowane
sąz góry przez
wspólną wartość określonąw (57).
Metoda
sformułowanaw twierdzeniu 4 pokrywa
sięz
metodą sformułowanąw·twierdzeniu 3 wówczas, gdy w tej ostatniej przyjmiemy rxii = rx, dla i,j = 1, 2, ...
... ,m,j=/=i.
W szczególnym przypadku dwóch populacji metoda
sformułowaniaw twier- dzeniu 3 pokrywa
sięz
metoclą sformułowanąw twierdzeniu 1, przy czym
międzywartościami
granic w tych dwóch metodach
zachodzą następujące związki(65)
5. Sposób
porządkowaniacech. Przy sekwencyjnym obserwowaniu cech obiektu klasyfikowanego istotne znaczenie ma
kolejnośćcech poddawanych obserwacji.
W celu zapewnienia wysokiej
efektywnościklasyfikacji sekwencyjnej,
należydo kolejnego pomiaru
wybieraćcechy najbardziej
różnicującepopulacje n
1 ,n
2 , ••• ,nm lub, innymi
słowy, zapewniającenajmniejsze obszary bezdecyzyjne. Cechy tak dobie- rane
gwarantują możliwie największe prawdopodobieństwa poprawnościklasyfi- kacji, a zarazem szybkie
zakończenieprocesu klasyfikacji. W celu ustalenia opty- malnej
kolejnościpomiaru rozpatrywanych p cech,
postępujemy następująco.Bierzemy pod
uwagę średnie prawdopodobieństwo poprawnościklasyfikacji
wyrażające się
wzorem (66)
gdzie obszar nk> dany jest wzorem (25) dla i = 1, 2, .. . 'm, k = 1, 2, ... 'p.
Następnie
wyliczamy
wartość wyrażenia(66) dla
każdejcechy z osobna. Wybie- ramy
tę cechę,która zapewnia jego maksimum. Jest to cecha
zapewniającanajmniej- szy obszar bezdecyzyjny. Do wybranej cechy
dołączamykolejno wszystkie
pozostałe, tworząc;p- 1 par cech.
Następnieobliczamy
wartość wyrażenia(66) dla
każdejz tak utworzonych par cech. Wybieramy
tę parę,która daje
maksymalną wartośćtego
wyrażenia. Postępujemyidentycznie tak
długo, ażnie stwierdzimy, który z
układów p-1 cech
spośródp cech daje
maksymalną wartość wyrażenia(66). Pomiaru
wartości
cech dokonujemy w takiej
kolejności,w jakiej cechy
zostały dołączonedo optymalnych
układów.W celu znalezienia
wartości wyrażenia(66)
należy obliczyć wartości całekfunkcji
gęstości prawdopodobieństwa
po skomplikowanych obszarach. W przypadku
rozkładów
normalnych,
całkite
można obliczyć metodąsymulacji
tychże rozkładówna maszynach cyfrowych [5], [6].
Jeżeli
N oznacza
liczbęwygenerowanycq
wartościzgodnie z
rozkłademopisanym przez
funkcjęfik(x), natomiast M oznacza
liczbętych wygenerowanych
wartości,które
wpadajądo obszaru
T~k>,to oszacowaniem wyliczanej
całkijest stosunek M/N dla i = 1, 2, ... , m, k = 1, 2, ... , p.
Dobroćtego oszacowania wzrasta wraz ze wzrostem N, a ponadto
zależyod
jakości użytegogeneratora liczb losowych.
Omówione
porządkowaniecech zapewnia jeszcze
jedną korzyść.Jest
nią możliwość
skorygowania
jużna wczesnym etapie wyboru
zespołup cech
opisującychobiekty klasyfikowane.
Jeśliby się okazało, żenajlepsza dwójka z tych cech ma
małą siłę dyskryminacyjną, oznaczałoby
to,
że zespółp cech jest
źledobrany i
żezachodzi potrzeba
uzupełnieniago jeszcze innymi cechami.
Wyrażenie(66) dla trójek, czwórek itd. cech wzrasta tylko nieznacznie w porównaniu z
wartościątego
wyrażenia
dla pary cech.
Działatu prawo
malejącychzysków, o którym pisze Ole-
kiewicz w [8] i [9]. •
Cl