Metody klasyfikacji sekwencyjnej

(1)

ROCZNIKI POLSKIEGO TOWARZYSTWA MATEMATYCZNEGO Seria III: MATEMATYKA STOSOWANA XII (1978)

MIROSŁAW KRZYŚKO (Poznań)

Metody klasyfikacji sekwencyjnej

(Praca

przyjęta

do druku 12.05.1976)

1.

Wstęp. Załóżmy, że

rozpatrujemy pewien obiekt, który

^należy

do jednej z m populacji generalnych n

1 ,

n

2 , ••• ,

nm, lecz nie wiemy do której. Na podstawie pomiarów

wartości

p cech tego obiektu mamy

zaklasyfikować

go do

właściwej

populacji. W przedstawionym zagadnieniu klasyfikacji wszystkie cechy obiektu

mogą być

obserwowane

jednocześnie.

Ten sposób

postępowania

nazywany jest

procedurą decyzyjną

z

ustaloną liczbą

cech (patrz [1], [4], [7], [10]). W sposobie tym nie bierze

^się

pod

^uwagę

ceny pomiarów cech. Jest

rzeczą jasną, że ·

niedostateczna liczba pomierzonych cech nie pozwala

uzyskać zadowalających

wyników klasyfi- kacji. Z drugiej strony, praktycznie niecelowe jest mierzenie zbyt wielkiej liczby cech.

Jeżeli należy brać

pod

uwagę cenę

dokonywanych pomiarów cech lub,

^jeśli

cechy danego obiektu ze swej natury

pojawiają się

sekwencyjnie, wskazane jest stosowanie sekwencyjnej metody klasyfikacji. Takie problemy

mogą pojawiać się

np. wtedy, gdy

daną cechę należy mierzyć

w czasie procesu produkcyjnego i pomiar wymaga przerwania tego procesu lub wtedy, gdy pomiar: jest

czasochłonny,

wymaga

użycia

skomplikowanego

urządzenia

pomiarowego lub

też

gdy

^{wiąże się}

ze

złożo

nymi i ryzykownymi operacjami (np. w zastosowaniach biomedycznych). Racjonalne

rozwiązania

dylematu

^między

stopniem

błędnych zaklasyfikowań

i

liczbą

obserwo- wanych cech

można uzyskać

przez sekwencyjne obserwowanie cech i

zakończenie

tego sekwencyjnego procesu wówczas, gdy zostanie

osiągnięta

dostateczna lub nie- odzowna

dokładność

klasyfikacji.

Praca niniejsza zawiera propozycje

^rozwiązań

przedstawionego zagadnienia.

Łączy

ona metody klasyfikacji bayesowskiej z ideami Walda sekwencyjnego testo- wania hipotez. W tej postaci zagadnienie klasyfikacji sekwencyjnej nie

^było

do tej pory w literaturze rozpatrywane .

.

Załóżmy, że

funkcja _fik(x1, „., ^xk) = fik(x) jest

znaną funkcją gęstości

prawdo-

podobieństwa

k-wymiarowej zmiennej losowej Xi = [Xii, ... , Xik]', której

^wartości

obserwować możemy

na obiektach (osobnikach) populacji nh gdzie i= 1, 2, „., ^m, k=l,2, ... ,p.

Niech J.~j>(x) będzie ilorazem wiarogodności postaci

(1) ;.~p(x)=jj_k(x~_ dla i,j= 1,2,„.,m,j#-i, k= l,2,„.,p, f;k(x)

.1.~J>(x) = ¹ ^dla ^i, ^j ⁼ ^{1 ,} 2, ... , m, j #- i.

[119]

(2)

2. Klasyfikacja sekwencyjna w przypadku dwóch populacji.

Załóżmy

chwilowo,

że

dany obiekt mamy

zaklasyfikować

do jednej z dwóch populacji ni lub n

2 •

Przyj- mujemy

następujący

sposób

postępowania

wzorowany na

teście

sekwencyjnym Walda ([11], rozdz. 3, [2], [3]):

Dany obiekt klasyfikujemy do populacji ni wówczas, gdy (2) B < J..\1'1.(x

0)

< A dla k = O, 1, 2, ... , n-1, a dla n, gdy

(3) J..W(x

0

)?: A, przy czym

n~

p.

Dany obiekt klasyfikujemy do populacji :rc

2

wówczas, gdy dla k = O, I, 2, „., n- I zachodzi (2), natomiast dla n

(4) J..i'1](x

0) ~

B, przy czym n

^~

p.

Zdefiniujmy

następujące

obszary (dla k = 1,2, .„,p):

(5) ^R~k) = {x: flk(x)?: Af2k(x)},

(6) R~k> = {x: flk(x) ~ Bf2k(x)},

(7) Rbk) = {x: Bf2k(x) < flk(x) < Af2k(x)}.

Niech Pr<n>(:rci ln2)

będzie prawdopodobieństwem błędnego

zaklasyfikowania (na podstawie pierwszych n cech) obserwowanego obiektu do populacji ni, gdy w

rzeczywistości

jest on elementem populacji n

2 • Ponieważ decyzję

o zaklasyfiko- waniu obiektu do ni podajemy

wyłącznie

na podstawie

nierówności

(3), bo

spełnie

nie

nierówności

(2) nie stanowi podstawy do

żadnej

decyzji klasyfikacyjnej,

więc powyższe prawdopodobieństwo wyraża się

wzorem

(8) Pr<n>(n

1

ln2) = Pr(

J..~nł(x)?:

Al:rc

2 )

=

= Pr(f1n(x) ~ Af2n(x)J:rc2) = ~ f2n(x)dx.

R~">

Niech Pr<n>(:rc

2

/ini)

zaklasyfikowania (na podstawie pierwszych n cech) obserwowanego obiektu do populacji :rc

2 ,

gdy w

rzeczywistości

jest on elementem populacji ni. Mamy

(rozumując

jak dla Pr<n>(ni ln2)):

(9) Pr<n>(n2Jn1) = Pr( J..W(x) ~ Blni) =

= Pr(f1n(x) ~ Bf2n(x)Jn1) = ~ f 1n(x)dx.

R~n>

Zachodzą następujące związki:

2 2

(10)

Stąd

(Il)

_L ^~ ^fin(x)dx ⁼ Î ôraz L ^~ ^{f 2n(x)dx} ⁼ Î.

i=O

R1">

i=O

R1">

~ f1n(x)dx ~ 1- ~ fin(x)dx

R~n) R~n)

(3)

Metody klasyfikacji sekwencyjnej 121

oraz

(12) ~ _{/ 2n(x)dx} :s;; 1- ~ f 2n(x)dx.

R~n) R~n)

Scałkujmy funkcję

f 1n(x) po obszarze R\n>. Wobec (5) otrzymamy

(13) ~ /1n(x)dx)?; A ~ /2n(x)dx.

R\"> R\">

Pqdobnie, wobec (6) otrzymamy

(14) ~ _{/ 1n(x)dx} :s;; B ~ / 2n(x)dx.

R~n) R~n)

Chcemy teraz tak

dobrać

A, aby Pr<n>(n1 ln2) =

^IX

oraz tak

dobrać

B, aby·

Pr<n>(n2ln

1)

= {J. Aby to

^zapewnić,

musimy dla danego n

^dobrać

odpowiednio A = A(n,

IX,

{J) i B = B(n,

^IX,

{J) tak, by prawe strony wzorów (8) i (9)

^były

odpo- wiednio równe

IX

i {J. Wobec (13) i (14) otrzymamy wówczas jako warunki konieczne

nierówności

(15)

(16)

1-{J

A:s;;--,

_IX

B )?; _{J_ dla O <

IX

< 1 .

I-IX

Znalezienie A i B

dokładnie

takich,

^żeby

dla danego n

^było

Pr<">(n1ln2) = ex,.

a Pr<">(n2ln1) ⁼ {J, jest skomplikowane.

^Możemy

jednak

aproksymować

A(n,

^IX,

{J) i B(n, ex, {J),

^biorąc

dla

^każdego

n

^za~iast

A(n, ex, {J)

^wielkość

A = (1- {J)/

IX,

a zamiast B(n,

IX,

{J)

wielkość

B = fJ /(1-

^IX). Zauważmy, że

gdy

^IX+

fJ < 1 oraz O <

^IX

< 1, wówczas B < I < A. W dalszym

ciągu będziemy zakładać, że

warunek

ten jest

spełniony.

Prześledźmy

skutki takiego wyboru

^wielkości

A i B.

^Wielkość

A jest nie mniejsza od

dokładnej wartości

A(n,

^IX,

{J), natomiast B jest nie

^większa

od

dokładnej wartości

B(n, ex, {J).

Stąd zastąpienie

prawdziwych

^wartości

A(n,

^IX,

{J) i B(n,

IX,

{J)

wyżej"

dobranymi A i B

prowadzić może

do zmiany

prawdopodobieństw błędnych

klasy- fikacji.

Aktualne

prawdopodobieństwa błędnej

klasyfikacji

spełniają następujące związki:-:

(17)

(4)

(18) Pr<n>(n

2

ln

1)

= ~ f

1

n(x)dx = ~ fin(x)dx ~

R~")

{x:f1n(x).;;

l~a/2n(x)J

Z (17) wynika

także związek

Pr<n>(n

1

in

₂

)(l -/1)

^~

rx[l -Pr<n>(n

₂

!n

1)],

a z (18)

^związek

Stąd

(19)

Powyższe rozważania

zbierzemy w formie

następującego

twierdzenia.

TWIERDZENIE

1.

^Jeżeli

dany obiekt klasyfikujemy do populacji n

1

wówczas, gdy zachodzi (2) i (3), natomiast do populacji n

2

wówczas, gdy zachodzi (2) i ( 4), przy czym

(20) _A=--, 1-/J

a _B=-- _1-a fJ _dla O<a<I,

to aktualne

klasyfikacji zdefiniowane w (8) i (9)

^spełniają

nierówności

(17), (18) i (19), przy czym a i fJ

^są

z góry obranymi

wartościami

prawdo-

podobieństw

zdefiniowanych odpowiednio w (8) i (9).

Uwag a. 1.

Nierówności

(17), (18) i (19)

dają ważne

oszacowanie z góry

prawdopodobieństw

Pr<n>(n

1

in

2 )

i Pr<n>(n

₂

ln

_{1 ).}

W praktyce, a i (3

^są

liczbami

^małymi {najczęściej

równymi 0,01 lub 0,05). Zatem ograniczenia górne a/(1-(3) i (3/(1- a) podane odpowiednio w (17) i (18)

^będą

w zastosowaniach

przeważnie

bliskie war-

tościom

rx i {J. Ponadto z

nierówności

(19) wynika,

że zastąpienie wartości

A(n, a, (3) i B(n, a, {J)

stałymi

A i B

może spowodować zwiększenie się

tylko jednego z prawdo-

podobieństw

Pr<n>(n

1

ln

2 )

lub Pr<n>(n

2

ln

_{1 ),}

bo

zachodzić może

co

najwyżej

jedna z

nierówności

Pr<n>(n

1

ln

2)

> rx lub Pr<n>(n

2

ln

1)

> {J. Tak

więc niezależnie

od tego przy jakim n zostanie

podjęta

decyzja klasyfikacyjna, aktualne

prawdopodobieństwa

Pr<n>(n

1

ln

2)

i Pr<n>(n

2

ln

₁₎będą

w praktyce

przeważnie

nie

większe niż

a i {J, odpo- wiednio, przy czym

^najwyżej

jedno z tych

prawdopodobieństw może być większe

od z góry obranego (i to dla

^małych

a i (3 tylko nieznacznie

^większe).

U w a g a 2.

Zauważmy, że

dla O < rx < I i fJ > O

zachodzą następujące

nie-

równości:

1-(3 1

--- < -,

'Y.

a (3

-1- -a > {J.

Stąd, biorąc

pod

uwagę nierówności

(15) i (16),

możemy aproksymować

A(n, a, {J)

i B(n, rx,{J)

obierając

dla

każdego

n

wielkości

A= rx-

¹

i B = {J.

(5)

Metody klasyfikacji sekwencyjnej 123 Dla tak obranych granic A i B

można pokazać (rozumując

analogicznie jak w (17) i (18)),

^że

aktualne

prawdopodobieństwa błędnych

klasyfikacji

^spełniają

następujące związki:

Pr<n>(n1!n2)

^~et,

Pr<n>(n2ln1)

~

{J,

Pr<">(n1ln2)+Pr<">(n2ln1)

^~

et+{J, dla n

^~p.

(21)

Wykazaliśmy prawdziwość następującego

twierdzenia:

TWIERDZENIE

2.

Jeżeli

dany obiekt klasyfikujemy do populacji n

₁

wtedy, gdy_

zachodzi (2) i (3), natomiast do populacji n

2

wtedy, gdy zachodzi (2) i (4), przy czym (22) A= ct-

1,

B = fJ ^dla ^et ^>O,

to aktualne

klasyfikacji zdefiniowane w (8) i (9)

spełniają nierówności

(21), przy czym

ct

i fJ

^są

z góry obranymi

wartościami prawdopodobieństw

zdefiniowanych odpowiednio w (8) i (9).

3. Klasyfikacja sekwencyjna w przypadku wielu populacji (zmodyfikowana metoda bayesowska). Wrócimy teraz do przypadku m (m

^~

2) populacji generalnych n1, ... ,nm.

Oznaczmy przez Pr(n;) = qi

prawdopodobieństwo

a priori

przynależności

obiektu klasyfikowanego do populacji ni dla i = 1, 2, „„ m.

Przy stosowaniu niesekwencyjnych

reguł

klasyfikacji z

prostą funkcją

straty, optymalna (w sensie minimalizacji ryzyka bayesowskiego)

reguła klasyfikacyj~a

jest

następująca

(patrz [1], [4], [10]): obiekt, na którym zaobserwowano

wartości

p

składowych

wektora x

0 , kla~yfikujemy

do populacji ni wówczas, gdy (23) dla j = 1 , 2, „. , m, j -::/= i.

Widzimy,

że wartości

ilorazów

wiarogodności

porównywane

^są

tu z

wartościami

granicznymi

będącymi

ilorazami

prawdopodobieństw

a priori. Metoda ta pozwala definitywnie zaklasyfikować każdy obiekt, jednakże prawdopodobieństwa błędnych klasyfikacji

mogą być niezadowalające.

Podamy teraz

metodę

klasyfikacji sekwencyjnej

nawiązującą

do

powyższej reguły.

W metodzie tej wykorzystamy, tak jak poprzednio,

^wartości

ilorazów wiaro-

godności. Będą

one

^jednakże

porównywane z inaczej zdefiniowanymi

wartościami

granicznymi.

Proponujemy

następujący

sposób klasyfikacji.

Przestrzeń

obserwowanych war-

tości

wektorów losowych Xi dzielimy na m + 1 nie

przecinających się

obszarów n~>, T~k~, ... , T~> zdefiniowanych następująco dla k = 1, 2, ... , p:

(24) nk> = {x:,...., PW(x) ^~ Aij(k), i,j = 1, 2, „., ^m, ^j ⁱ⁼ il},

(25) T~k> = {x: A~J>(x) ~ A

1

i(k), j = 1, ... , m, j-::/= i}.

Dany obiekt klasyfikujemy do populacji ni wówczas, gdy

(26) dla k = O, 1 , 2, ... , n - 1 ,

(6)

a dla n

(27) x

0 ET~"),

i= I, 2, „., m , n

^{~ p.}

Granice Aij(n)

można związać

z

prawdopodobieństwami błędnych

klasyfikacji.

Niech Pr<">(nilni)

będzie prawdopodobieństwem

poprawnego zaklasyfikowania danego obiektu do populacji ni, gdy w

rzeczywistości

obiekt ten jest elementem populacji nb oraz niech Pr<")(nilni)

zakla- syfikowania badanego obiektu do populacji ni, gdy w

rzeczywistości

obiekt ten jest'elementem populacji ni (i,j = I, 2, „., m, j # i). Mamy

(28) Pr<")(nilni) = Pr(.AtPCx) ~ Aii(n), j = 1, 2, ... , m, j #J ilni) =

= Pr(.fin(x) ~ Aij(n)fjn(x), j = 1, 2, „., m, j # ilni) =

= ~ .fin(x)dx,

T~11>

natomiast

(29) Pr<")(nilni) = Pr(.A~j)(x) ~ Aij(n), j = 1, 2, „., ^m, j # ilni) =

= Pr(.fin(x) ~ Aij(n)fj„(x), j = 1, 2, „ ., ^m, ^j ^# ^ilni) ⁼

= ~ fjn(x)dx (i,j= l,2,„.,m,j#i).

r~">

Niech Pr<">( nil U

m

ni)

zaklasyfikowania

j# j=l

badanego obiektu do populacji ni, podczas gdy w

rzeczywistości

obiekt ten jest ele- mentem jednej z populacji n

1 , ••. ,

nm ~ z wyjątkiem populacji ni, dla i = I, 2, ... , m.

Mamy

(30) Pr<")(ni!U

^m

ni) =

j = l j=f.i

L

m

^Pr( ⁿⁱ⁾ Pr<">(n;ln)

j=l j=f.i --- - - - -m

I ^Pr(ni)

j=l Ni

m m

= (L ^qj rl ^L ^qj Pr<">(niln),

i=l j=l

#i #i

gdzie

prawdopodobieństwa

Pr<">(nilnj) dane

są

wzorem (29), dla i, j = 1, 2, „., m, j

=/=

i,

^n~

p.

Zachodzą następujące związki:

(31)

Stąd

L

m

^~ ^.fin ^(x) ^dx ⁼ ^I ^{dla i} ⁼ 1 , 2, ... , m, n ~ p.

k=O

ri">

m

(32) ~ .fin(x)dx ~ 1- L ^~ .fin(x)dx dla i= I, 2, „., ^m, n~ p.

r<">

_I k= t _{k=f.i k}

r<">

(7)

Metody klasyfikacji sekwencyjnej 125

Scałkujmy funkcję

fin(x) po obszarze

T~n>,

i = 1, 2, ... , m. Wobec (25) otrzymamy (33) ~ fin(x)dx?;; Aij(n) ~ fjn(x)dx (i,j = 1, 2, ... , m, j #i, n ~p).

T~n) T~n)

Korzystając

z (32) i (33) otrzymamy

(34)

m

1- L Pr<n>(.nkf.n;)

k=l k#

(i,j =I, 2, ... ; m, j #i, n

^~p).

Chcemy teraz dla danego n tak

^dobrać

granice Aii(n), aby Pr<n>(.nd.ni) = aii' gdzie aii

^są

z góry

przyjętymi

liczbami.

Znalezienie Aiin)

^dokładnie

takich,

^żeby,

dla danego n, Pr<n>(n;lni) = aii, jest skomplikowane.

^Możemy

jednak

aproksymować

Aii(n)

^biorąc

dla

^każdego

n zamiast

A;j{n)

^stałą

A;i postaci

m

(35) Aii = ( 1- _L aki) / aii (i, j = 1, 2, ... , m, j # i).

k=l k=f:.i

Taki wybór

^stałych

A;i spowoduje

^zmianę

aktualnych

prawdopodobieństw błędnej

klasyfikacji. ·

Obszar nn> przyjmie

następującą postać:

m

(36) T~n) = {x: fjn(x) ~ [a ii/( ^1- .L IY.ki)] fin(x), j = I, 2, „., m, ^j ^# i},

k=l

i=I,2,„.,m.

Aktualne

klasyfikacji

spełniają następujące związki:

~.--aii

_m

- - (i,j = 1, 2, ... , m, j #i).

I -Ł

^IY.ki

k=i k=l

(8)

Ponadto

prawdopodobieństwa określone

wzorem (30)

(38)

dla i = 1, 2, ... , m, n

~

p.

Jeśli

ponadto obierzemy aii = rx dla i, j = 1, 2, ... , m, j =I= i, to

(39) dla n

^~p.

Zachodzi

również następująca nierówność

(40)

niezależnie

od

wartości prawdopodobieństw

a priori qi, dla i, j = 1, 2, ... , m, j =I=

i~

n~

p. Z (37) wynika,

że

(41)

dla i, j = 1 , 2, ... , m, j =I= i, n

~

p.

Stąd

dostajemy

(42) ,L Pr<n>(nilni) ~ (m-1) a ,L Pr<n>(ndni) + ,L ^a-

i,i

i,j i,j

#i #i #i

m

- a~ [.L Pr<n>(nklni)] = m(m- I)a,

I,} k=J

i# k-/=i

dla n

~p.

Powyższe rozważania

zbierzemy w formie

następującego

twierdzenia:

TWIERDZENIE

3.

Jeżeli

dany obiekt klasyfikujemy do populacji ni wówczas, gdy zachodzi (26) i (27) oraz granice Aii dane

są

wzorem (35), to aktualne

prawdopodobień

stwa

błędnej

klasyfikacji zdefiniowane w (29) i (30)

(37) i (38), przy czym aii

^są

z góry obranymi

wartościami prawdopodobieństw

zdefiniowanych w (29), dla i, j = 1, 2, ... , m, j

^=I=

i.

Jeśli

ponadto aii = ^a, dla i, j = 1, 2, ... , m, j =I= i, to aktualne

klasyfikacji zdefiniowane w (29)

i (39)

(39), (30) i ( 42).

U w a g a 3.

Nierówności

(39) i ( 42)

dają ważne

oszacowania od góry aktualnych

klasyfikacji. Tak

więc niezależnie

od tego, dla jakiego n zostanie

^podjęta

klasyfikacja, suma aktualnych

klasyfikacji nie

przewyższa

sumy

klasyfikacji przy-

jętych

przez nas jako dopuszczalne

(nierówność

(42)), natomiast niektóre z po- szczególnych

prawdopodobieństw mogą być

tylko nieznacznie

^większe

od obranych

(nierówność

(39)).

(9)

Metody klasyfikacji sekwencyjnej 127 Proces klasyfikacji

można prowadzić

sekwencyjnie w

następujący

sposób. Usta- lamy dopuszczalne wartości prawdopodobieństw błędnych klasyfikacji

rtii

(pamię- tając o nierówności L

m ^rxki

^~ ^1- ^etu) oraz obliczamy zgodnie ze wzorem (35) stałe

k=1 k=!=i

Aii dla i,j = 1, 2, ... , m,j =fa i.

Obserwujemy

^wartość

x

01

pierwszej cechy klasyfikowanego obiektu i badamy„

czy istnieje takie i

0 ,

dla którego

spełnione są nierówności

(43)

Jeżeli

takie i

0

istnieje, to decydujemy,

^że

badany obiekt jest elementem populacji ni

₀•

Jeżeli

takie i

0

nie istnieje, podejmujemy

^decyzję

o zaobserwowaniu

^wartości

x

02

drugiej cechy klasyfikowanego obiektu.

Następnie

badamy, czy teraz istnieje i

₀

„ dla którego

spełnione byłyby następujące nierówności

(44)

Jeżeli

takie i

₀

istnieje, to decydujemy,

^że

badany obiekt jest elementem populacji ni

₀•

Jeżeli

takie i

₀

·nie istnieje, podejmujemy

^decyzję

o zaobserwowaniu

^wartości

x

₀₃

trzeciej cechy klasyfikowanego obiektu. Proces klasyfikacji kontynuujemy dopóty, dopóki nie podejmiemy decyzji o

przynależności

klasyfikowanego obiektu do jednej z populacji

7't1' 1t2' ...

'nm lub do wyq:erpania z góry ustalonej liczby obserwowa- nych cech.

W tym ostatnim przypadku

(wyjątkowo)

podejmujemy

^decyzję

o

przynależności

badanego obiektu do populacji ^ni, gdy wektor zaobserwowanych

^wartości

p cech tego obiektu

^należy

do obszaru

^S~P>

danego wzorem

(45) ^S~P> = {x: J.W(x) ^~ qi/qi dla j = 1, 2, ... , m, j =fa i}, i= 1, 2, ... , m.

To dodatkowe kryterium klasyfikacji

zastrzeżone

jedynie dla etapu

^końcowego

nazywa

się bayesowską metodą

klasyfikacji i jest,

^między

innymi, opisane w pracy [4].

Prawdopodobieństwa błędnych zaklasyfikowań

w tej metodzie

mogą jednakże być większe

od z góry

przyjętych. Prawdopodobieństwa

Pr<P>(ndni)

wyrażają się

tu jako

całki

funkcji fjp(x) po obszarach

^S~P>

danych wzorem (45) dla i, j = 1, 2, ... , m„

j =fa i.

Zobaczmy teraz, jak przedstawia

^się

omówiona metoda klasyfikacji sekwencyjnej w przypadku wielowymiarowego

^rozkładu

normalnego.

Wprowadźmy

oznaczenia (46)

oraz

(47) L~j>(x) = 21nJ.~}>(x), i,j = 1, 2, ... , m, i =faj, k = 1, 2, ... ,p.

Gdy fik(x) ^są funkcjami ^gęstości k-wymiarowego ^rozkładu normalnego N(µ.i, l:i)„

wówczas

(10)

(48) L~'>(x) = x'(:Ej

^{1 -}

:E;

¹

)x+2(µ~ :E;

¹

-µj :E;})x+

+

tJ.i~i P.i-P.i~i fJ.; '"'t"-t '"'t"-1

+l n l:Eil , l:Eil

dla i, j = ^{1, 2,}

^{„. ,}

m, j =I i, k = 1 , 2,

^{„. ,}

p.

Z geometrycznego punktu widzenia, granice decyzyjne, zwane kwadratowymi funkcja- mi dyskryminacyjnymi,

{49) L~j>(x)-Bii=O, i,j= 1,2,„.,j=/=i, k= ^1,2~„.,p,

są

hiperpowierzchniami stopnia drugiego,

dzielącymi k-wymiarową przestrzeń

obserwowanych wartości wektorów losowych na m + 1 obszarów Tbk>, ^T~k>, „., ^T~k>.

Obszary Tik>,

^T~k>,

... ,

T~k> są

obszarami

podjęcia

decyzji o

przynależności

baqanego obiektu odpowiednio do populacji n

1 ,

n

2 , ••• ,

nm, natomiast obszar T&k> jest obsza- rem

niemożności podjęcia

decyzji na podstawie zaobserwowanych

wartości

k cech obiektu klasyfikowanego.

Uwag a 4.

Przedstawioną metodę

klasyfikacji sekwencyjnej

można

zmodyfi- kować przez zdefiniowanie w inny sposób obszarów ^T~k>, dla i = O, I, 2, „., m, k

~p.

Niech (50) (51)

T'(k) - { • . [ 1(k)( ) ~

A . . - 1 2 . ']}

.L o - X. ,...., lt.ij X :::;--- , l,] - , , ... ,

m, ] =/

^l ,

T~<k> = {x: AW(x) ~A, j = 1, 2, ... , m, j =I i}

lub, w postaci

równoważnej,

(52) r;<k) = {x: min AW(x) ^~ A} dla i= 1, 2,

^„.

'p, k ~ p.

l:i;;,j:i;;,m

#i

Wprowadzona modyfikacja polega na

zastąpieniu

granic A;i, dla i,j = 1, 2, .„, m, j =I i,

wspólną granicą

A.

Samą zasadę

klasyfikacji pozostawiamy

niezmienioną,

tj. dany obiekt klasyfikujemy do populacji ni wówczas, gdy (53) x

₀E T~<k>

dla k = O, 1 , 2, „., n- 1 . a dla n, gdy

(54) x

0 E T~<n>,

i= 1, 2, „., m, n

^~p.

Wiążąc granicę

A(n) z

prawdopodobieństwami błędnych

klasyfikacji

określo

nymi w (29), otrzymujemy wówczas jako warunek konieczny

nierówność

(55)

n~p.

(11)

Metody

k/a~yfikacji

sekwencyjnej 129

Granicę

A(n)

będziemy aproksymować, biorąc

dla

każdego

n zamiast A(n)

stałą

A postaci

(56) A= min

1,,;..i,j""m

#i

m

1-

_k=l

:L

^cxki

k:Fi

Dla tak

określonej

metody aktualne

klasyfikacji

spełniają następujące związki:

(57)

(58)

m

1-1

i-

_k=l

.:L

^aki

k::;,i

dla i, j = I, 2, ... , m, j =I= i, n

~

p.

Wykazaliśmy prawdziwość następującego

twierdzenia:

TWIERDZENIE

4.

Jeżeli

dany obiekt klasyfikujemy do populacji ni wówczas, gdy zachodzi (53) i (54) oraz

wartość

graniczna A dana jest wzorem (56), to aktualne

klasyfikacji, Pr<n>(ndni) oraz Pr<n>(nd LJ ni), dla i, j = 1, 2, ... , m, j =I= i, n

^~

p,

(57) i (58).

#i

4. Porównanie metod. W paragrafie 2

omówiliśmy metodę

klasyfikacji sekwencyj- nej w przypadku dwóch populacji,

^wzorowaną

na

teście

sekwencyjnym Walda (twierdzenie 1) oraz jej

modyfikację

(twierdzenie 2).

Dla metody

sformułowanej

w twierdzeniu 1 obszar.bezdecyzyjny ma

postać

(59) R<l> = {x: _!}_ ___ _1-cx < AW(x) < l-fl _a i,

natomiast dla metody

sformułowanej

w twierdzeniu 2 obszar bezdecyzyjny ma

postać

(60)

R~<k>

= {x: fJ < ).\ki(x) < cx-1}

dla O < a, fJ ^< ^{l , k} = 1 , 2, ... , p.

Ponieważ,

dla O < ex, fJ < I,

zachodzą nierówności

1-{J 1

- - < -

_(X _(X

oraz _-1- fJ _> _{J,

-(X

więc spełniona

jest relacja zawierania

(61) R~> c R~<k> dla k = I , 2, ... , p.

(12)

Relacja (61) oznacza,

^że

metoda

sformułowana

w twierdzeniu 1 charakteryzuje

się

mniejszymi obszarami bezdecyzyjnymi, a

^więc

prowadzi szybciej do celu. W meto- dzie tej

jednakże ulegają

zachwianiu aktualne

klasy- fikacji. I tak,

jeżeli żądamy,

by Pr<n)(n

1

/n

2 )

= a, a Pr<n)(n

2

/n

_{1 )}

= {J, to

^będziemy

mieli tylko

gwarancję, że

Pr<n)(n

1

/n

2 ) ~

a/(1-{J), Pr<n)(n

2

ln

_{1 )}^~

{J/(1- a) oraz

Pr<n)(n

1

/n

2

)+Pr<n>(n

2

/n l

₁₎^~

a+{J dla n

^~p.

Sens

powyższych nierówności omówiliśmy już

w uwadze I.

Metoda

sformułowana

w twierdzeniu 2 prowadzi do

^większych

obszarów bez- decyzyjnych, jest bardziej

^ostrożna

i wymaga obserwowania

^większej

liczby zmien- nych,

^jednakże

gwarantuje

spełnienie

przez aktualne

prawdopodobieństwa błędnych

klasyfikacji wymaganych żądań, tj. spełnienie nierówności

Pr<n>(n

1

/n

2 ) ~ a,

Pr<n)(n

₂

/n

₁₎^·~

{J dla

^{n ~}

p.

W paragrafie 3

omówiliśmy metodę

klasyfikacji sekwencyjnej w przypadku wielu populacji

nawiązującą

do niesekwencyjnej bayesowskiej

^reguły

klasyfikacji (twier- dzenie 3) oraz jej

modyfikację

(twierdzenie 4).

W metodzie

sformułowanej

w twierdzeniu 3 kontrolowane

^są

wszystkie prawdo-

podobieństwa

Pr<n)(ndni)

^błędnego

zaklasyfikowania badanego obiektu do populacji n;, gdy w

rzeczywistości

obiekt ten jest elementem populacji ni (i,j = 1, 2, „., m, j I= i, n

^~

p). Dla

każdego

z .tych

prawdopodobieństw

z osobna mamy odpowiednie oszacowanie z góry

(nierówność

(37)).

Ponadto kontrolowane jest prawdopodobieństwo Pr<n>(nil U

m

ni) ^błędnego

j=l N=i

zaklasyfikowania badanego obiektu do populacji ^nh podczas gdy w

rzeczywistości

obiekt ten jest elementem jednej z populacji n

1 , ••• ,

nm, z

^wyjątkiem

populacji nb dla i = I, 2, . „, m, n

^~

p

(nierówność

(38)).

W omawianej metodzie obszar podejmowania decyzji (na podstawie n cech) o

przynależności

badanego obiektu do populacji ni jest postaci

(62)

1-

_k=l

2:

m ^aki

Tfn> = Jlx: ;.i~;>(x) ~ __

k_+_i _ _ ,

j = I, 2, „., m, j I= i},},

r.l.ij

dla i = I , 2, ... , m, n

^~

p.

W metodzie

sformułowanej

w twierdzeniu 4 obszar podejmowania decyzji na pod- stawie n cech o

przynależności

badanego obiektu do populacji ni jest postaci

m

i-

_k=l

I

^aki

(63) r;<n> =

{

X: A~j>(x) ~ min - - - - '

k.,Pi

.i = I, 2, „.' m' j I= i '

} l~iJ,;;;m r.l.ij

j.,Pi

dla i = 1 , 2, ... , m, n

^~

p.

(13)

Metody klasyfikacji sekwencyjnej 131

Między

obszarami nn> oraz

T~<n>

zachodzi

następująca

relacja zawierania (64) Tln>

c T~<n>

dla i = 1 , 2, ... , m, n

^~

p.

Relacja (64) oznacza,

że

metoda

sformułowana

w twierdzeniu 4 daje mniejsze obszary bezdecyzyjne od metody

sformułowanej

w twierdzeniu 3, a tym samym wymaga obserwowania mniej zmiennych.

Jednakże

jej mankamentem jest to,

^że

wszystkie aktualne

prawdopodobieństwa

Pr<n>(nil.nj)

^błędnej

klasyfikacji dla i,j = 1, 2, ... , m, j

=f::.

i, n

~

p, szacowane

są

z góry przez

wspólną wartość określoną

w (57).

Metoda

sformułowana

w twierdzeniu 4 pokrywa

się

z

metodą sformułowaną

w·twierdzeniu 3 wówczas, gdy w tej ostatniej przyjmiemy rxii = rx, dla i,j = 1, 2, ...

... ,m,j=/=i.

W szczególnym przypadku dwóch populacji metoda

sformułowania

w twier- dzeniu 3 pokrywa

^się

z

metoclą sformułowaną

w twierdzeniu 1, przy czym

^między

wartościami

granic w tych dwóch metodach

zachodzą następujące związki

(65)

5. Sposób

porządkowania

cech. Przy sekwencyjnym obserwowaniu cech obiektu klasyfikowanego istotne znaczenie ma

^kolejność

cech poddawanych obserwacji.

W celu zapewnienia wysokiej

efektywności

klasyfikacji sekwencyjnej,

należy

do kolejnego pomiaru

wybierać

cechy najbardziej

różnicujące

populacje n

1 ,

n

2 , ••• ,

nm lub, innymi

słowy, zapewniające

najmniejsze obszary bezdecyzyjne. Cechy tak dobie- rane

gwarantują możliwie największe prawdopodobieństwa poprawności

klasyfi- kacji, a zarazem szybkie

zakończenie

procesu klasyfikacji. W celu ustalenia opty- malnej

kolejności

pomiaru rozpatrywanych p cech,

postępujemy następująco.

Bierzemy pod

uwagę średnie prawdopodobieństwo poprawności

klasyfikacji

wyrażające się

wzorem (66)

gdzie obszar nk> dany jest wzorem (25) dla i = 1, 2, .. . 'm, k = 1, 2, ... 'p.

Następnie

wyliczamy

wartość wyrażenia

(66) dla

każdej

cechy z osobna. Wybie- ramy

tę cechę,

która zapewnia jego maksimum. Jest to cecha

zapewniająca

najmniej- szy obszar bezdecyzyjny. Do wybranej cechy

^dołączamy

kolejno wszystkie

pozostałe, tworząc;

p- 1 par cech.

Następnie

obliczamy

wartość wyrażenia

(66) dla

każdej

z tak utworzonych par cech. Wybieramy

^{tę parę,}

która daje

maksymalną wartość

tego

wyrażenia. Postępujemy

identycznie tak

^{długo, aż}

nie stwierdzimy, który z

ukła

dów p-1 cech

^spośród

p cech daje

maksymalną wartość wyrażenia

(66). Pomiaru

wartości

cech dokonujemy w takiej

kolejności,

w jakiej cechy

zostały dołączone

do optymalnych

układów.

W celu znalezienia

wartości wyrażenia

(66)

należy obliczyć wartości całek

funkcji

gęstości prawdopodobieństwa

po skomplikowanych obszarach. W przypadku

rozkładów

normalnych,

całki

te

można obliczyć metodą

symulacji

tychże rozkładów

na maszynach cyfrowych [5], [6].

(14)

Jeżeli

N oznacza

^liczbę

wygenerowanycq

wartości

zgodnie z

^rozkładem

opisanym przez

^funkcję

fik(x), natomiast M oznacza

^liczbę

tych wygenerowanych

^wartości,

które

^wpadają

do obszaru

^T~k>,

to oszacowaniem wyliczanej

^całki

jest stosunek M/N dla i = 1, 2, ... , m, k = 1, 2, ... , p.

^Dobroć

tego oszacowania wzrasta wraz ze wzrostem N, a ponadto

^zależy

od

jakości użytego

generatora liczb losowych.

Omówione

porządkowanie

cech zapewnia jeszcze

jedną korzyść.

Jest

nią możli

wość

skorygowania

już

na wczesnym etapie wyboru

^zespołu

p cech

opisujących

obiekty klasyfikowane.

Jeśliby się okazało, że

najlepsza dwójka z tych cech ma

małą siłę dyskryminacyjną, oznaczałoby

to,

^{że zespół}

p cech jest

^źle

dobrany i

^że

zachodzi potrzeba

uzupełnienia

go jeszcze innymi cechami.

^Wyrażenie

(66) dla trójek, czwórek itd. cech wzrasta tylko nieznacznie w porównaniu z

^wartością

tego

wyrażenia

dla pary cech.

^Działa

tu prawo

malejących

zysków, o którym pisze Ole-

kiewicz w [8] i [9]. •

Cl

Prace cytowane

[1] T. W. A n d e r s o n, An introduction to multivariate statistical analysis, New York 1958.

[2] M. Kr z y

^ś

k o, Sekwencyjny model decyzyjny,

^Materiały

II Krajowego Sympozjum Bio- cybernetyki, Biomatematyki i Biotechniki, Warszawa 1972, str. 147-153.

[3] -, Klasyfikacja sekwencyjna,

^Materiały

Trzeciego Colloquium Metodologicznego z Agro- Biometrii, PAN, 1973, str. 354-370.

[4] -, Kwadratowe funkcje dyskryminacyjne, Matematyka Stosowana 2 (1974), str. 151-156.

[5] M. K r z y

^ś

ko, P. St o I ars ki, T. Ca I i

^ń

s ki, Symulacja wielowymiarowego

^rozkładu

normalnego, Algorytmy Biometryczne i Statystyczne 2 (1973), str. 153-160.

[6] -, -, Szybki generator liczb losowych o

rozkładzie

normalnym, ibid. 4 (1975), str. 221-242.

[7] P.

A.

Lach en br uch, Discriminant analysis, New York 1975.

[8] M. O I e k i e w i cz, Klasyczna i sekwencyjna metoda dyskryminacji,

^Materiały

i Prace Antro- pologiczne Nr 61, Miscelanea V,

^Wrocław

1962, str. 5-46.

[9] -, O

korzyściach

sekwencyjnej metody dyskryminacji,

^Przegląd

Antropologiczny 30. 1 (1964), str. 3-22.

[10] C.

R.

Metody klasyfikacji sekwencyjnej

Metody klasyfikacji sekwencyjnej

(Praca

do druku 12.05.1976)

1.

rozpatrujemy pewien obiekt, który

do jednej z m populacji generalnych n

n

nm, lecz nie wiemy do której. Na podstawie pomiarów

p cech tego obiektu mamy

go do

populacji. W przedstawionym zagadnieniu klasyfikacji wszystkie cechy obiektu

obserwowane

Ten sposób

nazywany jest

z

cech (patrz [1], [4], [7], [10]). W sposobie tym nie bierze

pod

ceny pomiarów cech. Jest

niedostateczna liczba pomierzonych cech nie pozwala

wyników klasyfi- kacji. Z drugiej strony, praktycznie niecelowe jest mierzenie zbyt wielkiej liczby cech.

pod

dokonywanych pomiarów cech lub,

cechy danego obiektu ze swej natury

sekwencyjnie, wskazane jest stosowanie sekwencyjnej metody klasyfikacji. Takie problemy

np. wtedy, gdy

w czasie procesu produkcyjnego i pomiar wymaga przerwania tego procesu lub wtedy, gdy pomiar: jest

wymaga

skomplikowanego

pomiarowego lub

gdy

ze

nymi i ryzykownymi operacjami (np. w zastosowaniach biomedycznych). Racjonalne

dylematu

stopniem

i

obserwo- wanych cech

przez sekwencyjne obserwowanie cech i

tego sekwencyjnego procesu wówczas, gdy zostanie

dostateczna lub nie- odzowna

klasyfikacji.

Praca niniejsza zawiera propozycje

przedstawionego zagadnienia.

ona metody klasyfikacji bayesowskiej z ideami Walda sekwencyjnego testo- wania hipotez. W tej postaci zagadnienie klasyfikacji sekwencyjnej nie

do tej pory w literaturze rozpatrywane .

.

funkcja fik(x1, „., xk) = fik(x) jest

prawdo-

k-wymiarowej zmiennej losowej Xi = [Xii, ... , Xik]', której

na obiektach (osobnikach) populacji nh gdzie i= 1, 2, „., m, k=l,2, ... ,p.

Niech J.~j>(x) będzie ilorazem wiarogodności postaci

(1) ;.~p(x)=jj_k(x~_ dla i,j= 1,2,„.,m,j#-i, k= l,2,„.,p, f;k(x)

.1.~J>(x) = 1 dla i, j = 1 , 2, ... , m, j #- i.

[119]

2. Klasyfikacja sekwencyjna w przypadku dwóch populacji.

chwilowo,

dany obiekt mamy

do jednej z dwóch populacji ni lub n

Przyj- mujemy

sposób

wzorowany na

sekwencyjnym Walda ([11], rozdz. 3, [2], [3]):

Dany obiekt klasyfikujemy do populacji ni wówczas, gdy (2) B < J..\1'1.(x

< A dla k = O, 1, 2, ... , n-1, a dla n, gdy

(3) J..W(x

)?: A, przy czym

p.

Dany obiekt klasyfikujemy do populacji :rc

wówczas, gdy dla k = O, I, 2, „., n- I zachodzi (2), natomiast dla n

(4) J..i'1](x

B, przy czym n

p.

Zdefiniujmy

obszary (dla k = 1,2, .„,p):

(5) R~k) = {x: flk(x)?: Af2k(x)},

(6) R~k> = {x: flk(x) ~ Bf2k(x)},

(7) Rbk) = {x: Bf2k(x) < flk(x) < Af2k(x)}.

Niech Pr<n>(:rci ln2)

zaklasyfikowania (na podstawie pierwszych n cech) obserwowanego obiektu do populacji ni, gdy w

jest on elementem populacji n

funkcja _fik(x1, „., ^xk) = fik(x) jest

na obiektach (osobnikach) populacji nh gdzie i= 1, 2, „., ^m, k=l,2, ... ,p.

.1.~J>(x) = ¹ ^dla ^i, ^j ⁼ ^{1 ,} 2, ... , m, j #- i.

(5) ^R~k) = {x: flk(x)?: Af2k(x)},

_L ^~ ^fin(x)dx ⁼ Î ôraz L ^~ ^{f 2n(x)dx} ⁼ Î.

(12) ~ _{/ 2n(x)dx} :s;; 1- ~ f 2n(x)dx.

(14) ~ _{/ 1n(x)dx} :s;; B ~ / 2n(x)dx.

a Pr<">(n2ln1) ⁼ {J, jest skomplikowane.