• Nie Znaleziono Wyników

Metody klasyfikacji sekwencyjnej

N/A
N/A
Protected

Academic year: 2021

Share "Metody klasyfikacji sekwencyjnej "

Copied!
14
0
0

Pełen tekst

(1)

ROCZNIKI POLSKIEGO TOWARZYSTWA MATEMATYCZNEGO Seria III: MATEMATYKA STOSOWANA XII (1978)

MIROSŁAW KRZYŚKO (Poznań)

Metody klasyfikacji sekwencyjnej

(Praca

przyjęta

do druku 12.05.1976)

1.

Wstęp. Załóżmy, że

rozpatrujemy pewien obiekt, który

należy

do jednej z m populacji generalnych n

1 ,

n

2 , ••• ,

nm, lecz nie wiemy do której. Na podstawie pomiarów

wartości

p cech tego obiektu mamy

zaklasyfikować

go do

właściwej

populacji. W przedstawionym zagadnieniu klasyfikacji wszystkie cechy obiektu

mogą być

obserwowane

jednocześnie.

Ten sposób

postępowania

nazywany jest

procedurą decyzyjną

z

ustaloną liczbą

cech (patrz [1], [4], [7], [10]). W sposobie tym nie bierze

się

pod

uwagę

ceny pomiarów cech. Jest

rzeczą jasną, że ·

niedostateczna liczba pomierzonych cech nie pozwala

uzyskać zadowalających

wyników klasyfi- kacji. Z drugiej strony, praktycznie niecelowe jest mierzenie zbyt wielkiej liczby cech.

Jeżeli należy brać

pod

uwagę cenę

dokonywanych pomiarów cech lub,

jeśli

cechy danego obiektu ze swej natury

pojawiają się

sekwencyjnie, wskazane jest stosowanie sekwencyjnej metody klasyfikacji. Takie problemy

mogą pojawiać się

np. wtedy, gdy

daną cechę należy mierzyć

w czasie procesu produkcyjnego i pomiar wymaga przerwania tego procesu lub wtedy, gdy pomiar: jest

czasochłonny,

wymaga

użycia

skomplikowanego

urządzenia

pomiarowego lub

też

gdy

wiąże się

ze

złożo­

nymi i ryzykownymi operacjami (np. w zastosowaniach biomedycznych). Racjonalne

rozwiązania

dylematu

między

stopniem

błędnych zaklasyfikowań

i

liczbą

obserwo- wanych cech

można uzyskać

przez sekwencyjne obserwowanie cech i

zakończenie

tego sekwencyjnego procesu wówczas, gdy zostanie

osiągnięta

dostateczna lub nie- odzowna

dokładność

klasyfikacji.

Praca niniejsza zawiera propozycje

rozwiązań

przedstawionego zagadnienia.

Łączy

ona metody klasyfikacji bayesowskiej z ideami Walda sekwencyjnego testo- wania hipotez. W tej postaci zagadnienie klasyfikacji sekwencyjnej nie

było

do tej pory w literaturze rozpatrywane .

.

Załóżmy, że

funkcja fik(x1, „., xk) = fik(x) jest

znaną funkcją gęstości

prawdo-

podobieństwa

k-wymiarowej zmiennej losowej Xi = [Xii, ... , Xik]', której

wartości

obserwować możemy

na obiektach (osobnikach) populacji nh gdzie i= 1, 2, „., m, k=l,2, ... ,p.

Niech J.~j>(x) będzie ilorazem wiarogodności postaci

(1) ;.~p(x)=jj_k(x~_ dla i,j= 1,2,„.,m,j#-i, k= l,2,„.,p, f;k(x)

.1.~J>(x) = 1 dla i, j = 1 , 2, ... , m, j #- i.

[119]

(2)

2. Klasyfikacja sekwencyjna w przypadku dwóch populacji.

Załóżmy

chwilowo,

że

dany obiekt mamy

zaklasyfikować

do jednej z dwóch populacji ni lub n

2 •

Przyj- mujemy

następujący

sposób

postępowania

wzorowany na

teście

sekwencyjnym Walda ([11], rozdz. 3, [2], [3]):

Dany obiekt klasyfikujemy do populacji ni wówczas, gdy (2) B < J..\1'1.(x

0)

< A dla k = O, 1, 2, ... , n-1, a dla n, gdy

(3) J..W(x

0

)?: A, przy czym

n~

p.

Dany obiekt klasyfikujemy do populacji :rc

2

wówczas, gdy dla k = O, I, 2, „., n- I zachodzi (2), natomiast dla n

(4) J..i'1](x

0) ~

B, przy czym n

~

p.

Zdefiniujmy

następujące

obszary (dla k = 1,2, .„,p):

(5) R~k) = {x: flk(x)?: Af2k(x)},

(6) R~k> = {x: flk(x) ~ Bf2k(x)},

(7) Rbk) = {x: Bf2k(x) < flk(x) < Af2k(x)}.

Niech Pr<n>(:rci ln2)

będzie prawdopodobieństwem błędnego

zaklasyfikowania (na podstawie pierwszych n cech) obserwowanego obiektu do populacji ni, gdy w

rzeczywistości

jest on elementem populacji n

2 • Ponieważ decyzję

o zaklasyfiko- waniu obiektu do ni podajemy

wyłącznie

na podstawie

nierówności

(3), bo

spełnie­

nie

nierówności

(2) nie stanowi podstawy do

żadnej

decyzji klasyfikacyjnej,

więc powyższe prawdopodobieństwo wyraża się

wzorem

(8) Pr<n>(n

1

ln2) = Pr(

J..~nł(x)?:

Al:rc

2 )

=

= Pr(f1n(x) ~ Af2n(x)J:rc2) = ~ f2n(x)dx.

R~">

Niech Pr<n>(:rc

2

/ini)

będzie prawdopodobieństwem błędnego

zaklasyfikowania (na podstawie pierwszych n cech) obserwowanego obiektu do populacji :rc

2 ,

gdy w

rzeczywistości

jest on elementem populacji ni. Mamy

(rozumując

jak dla Pr<n>(ni ln2)):

(9) Pr<n>(n2Jn1) = Pr( J..W(x) ~ Blni) =

= Pr(f1n(x) ~ Bf2n(x)Jn1) = ~ f 1n(x)dx.

R~n>

Zachodzą następujące związki:

2 2

(10)

Stąd

(Il)

_L ~ fin(x)dx = I oraz L ~ f 2n(x)dx = I.

i=O

R1">

i=O

R1">

~ f1n(x)dx ~ 1- ~ fin(x)dx

R~n) R~n)

(3)

Metody klasyfikacji sekwencyjnej 121

oraz

(12) ~ / 2n(x)dx :s;; 1- ~ f 2n(x)dx.

R~n) R~n)

Scałkujmy funkcję

f 1n(x) po obszarze R\n>. Wobec (5) otrzymamy

(13) ~ /1n(x)dx)?; A ~ /2n(x)dx.

R\"> R\">

Pqdobnie, wobec (6) otrzymamy

(14) ~ / 1n(x)dx :s;; B ~ / 2n(x)dx.

R~n) R~n)

Chcemy teraz tak

dobrać

A, aby Pr<n>(n1 ln2) =

IX

oraz tak

dobrać

B, aby·

Pr<n>(n2ln

1)

= {J. Aby to

zapewnić,

musimy dla danego n

dobrać

odpowiednio A = A(n,

IX,

{J) i B = B(n,

IX,

{J) tak, by prawe strony wzorów (8) i (9)

były

odpo- wiednio równe

IX

i {J. Wobec (13) i (14) otrzymamy wówczas jako warunki konieczne

nierówności

(15)

(16)

1-{J

A:s;;--,

IX

B )?; _{J_ dla O <

IX

< 1 .

I-IX

Znalezienie A i B

dokładnie

takich,

żeby

dla danego n

było

Pr<">(n1ln2) = ex,.

a Pr<">(n2ln1) = {J, jest skomplikowane.

Możemy

jednak

aproksymować

A(n,

IX,

{J) i B(n, ex, {J),

biorąc

dla

każdego

n

za~iast

A(n, ex, {J)

wielkość

A = (1- {J)/

IX,

a zamiast B(n,

IX,

{J)

wielkość

B = fJ /(1-

IX). Zauważmy, że

gdy

IX+

fJ < 1 oraz O <

IX

< 1, wówczas B < I < A. W dalszym

ciągu będziemy zakładać, że

warunek

ten jest

spełniony.

Prześledźmy

skutki takiego wyboru

wielkości

A i B.

Wielkość

A jest nie mniejsza od

dokładnej wartości

A(n,

IX,

{J), natomiast B jest nie

większa

od

dokładnej wartości

B(n, ex, {J).

Stąd zastąpienie

prawdziwych

wartości

A(n,

IX,

{J) i B(n,

IX,

{J)

wyżej"

dobranymi A i B

prowadzić może

do zmiany

prawdopodobieństw błędnych

klasy- fikacji.

Aktualne

prawdopodobieństwa błędnej

klasyfikacji

spełniają następujące związki:-:

(17)

(4)

(18) Pr<n>(n

2

ln

1)

= ~ f

1

n(x)dx = ~ fin(x)dx ~

R~")

{x:f1n(x).;;

l~a/2n(x)J

Z (17) wynika

także związek

Pr<n>(n

1

in

2

)(l -/1)

~

rx[l -Pr<n>(n

2

!n

1)],

a z (18)

związek

Stąd

(19)

Powyższe rozważania

zbierzemy w formie

następującego

twierdzenia.

TWIERDZENIE

1.

Jeżeli

dany obiekt klasyfikujemy do populacji n

1

wówczas, gdy zachodzi (2) i (3), natomiast do populacji n

2

wówczas, gdy zachodzi (2) i ( 4), przy czym

(20) A=--, 1-/J

a B=-- 1-a fJ dla O<a<I,

to aktualne

prawdopodobieństwa błędnej

klasyfikacji zdefiniowane w (8) i (9)

spełniają

nierówności

(17), (18) i (19), przy czym a i fJ

z góry obranymi

wartościami

prawdo-

podobieństw

zdefiniowanych odpowiednio w (8) i (9).

Uwag a. 1.

Nierówności

(17), (18) i (19)

dają ważne

oszacowanie z góry

prawdopodobieństw

Pr<n>(n

1

in

2 )

i Pr<n>(n

2

ln

1 ).

W praktyce, a i (3

liczbami

małymi {najczęściej

równymi 0,01 lub 0,05). Zatem ograniczenia górne a/(1-(3) i (3/(1- a) podane odpowiednio w (17) i (18)

będą

w zastosowaniach

przeważnie

bliskie war-

tościom

rx i {J. Ponadto z

nierówności

(19) wynika,

że zastąpienie wartości

A(n, a, (3) i B(n, a, {J)

stałymi

A i B

może spowodować zwiększenie się

tylko jednego z prawdo-

podobieństw

Pr<n>(n

1

ln

2 )

lub Pr<n>(n

2

ln

1 ),

bo

zachodzić może

co

najwyżej

jedna z

nierówności

Pr<n>(n

1

ln

2)

> rx lub Pr<n>(n

2

ln

1)

> {J. Tak

więc niezależnie

od tego przy jakim n zostanie

podjęta

decyzja klasyfikacyjna, aktualne

prawdopodobieństwa

Pr<n>(n

1

ln

2)

i Pr<n>(n

2

ln

1) będą

w praktyce

przeważnie

nie

większe niż

a i {J, odpo- wiednio, przy czym

najwyżej

jedno z tych

prawdopodobieństw może być większe

od z góry obranego (i to dla

małych

a i (3 tylko nieznacznie

większe).

U w a g a 2.

Zauważmy, że

dla O < rx < I i fJ > O

zachodzą następujące

nie-

równości:

1-(3 1

--- < -,

'Y.

a (3

-1- -a > {J.

Stąd, biorąc

pod

uwagę nierówności

(15) i (16),

możemy aproksymować

A(n, a, {J)

i B(n, rx,{J)

obierając

dla

każdego

n

wielkości

A= rx-

1

i B = {J.

(5)

Metody klasyfikacji sekwencyjnej 123 Dla tak obranych granic A i B

można pokazać (rozumując

analogicznie jak w (17) i (18)),

że

aktualne

prawdopodobieństwa błędnych

klasyfikacji

spełniają

następujące związki:

Pr<n>(n1!n2)

~et,

Pr<n>(n2ln1)

~

{J,

Pr<">(n1ln2)+Pr<">(n2ln1)

~

et+{J, dla n

~p.

(21)

Wykazaliśmy prawdziwość następującego

twierdzenia:

TWIERDZENIE

2.

Jeżeli

dany obiekt klasyfikujemy do populacji n

1

wtedy, gdy_

zachodzi (2) i (3), natomiast do populacji n

2

wtedy, gdy zachodzi (2) i (4), przy czym (22) A= ct-

1,

B = fJ dla et >O,

to aktualne

prawdopodobieństwa błędnej

klasyfikacji zdefiniowane w (8) i (9)

spełniają nierówności

(21), przy czym

ct

i fJ

z góry obranymi

wartościami prawdopodobieństw

zdefiniowanych odpowiednio w (8) i (9).

3. Klasyfikacja sekwencyjna w przypadku wielu populacji (zmodyfikowana metoda bayesowska). Wrócimy teraz do przypadku m (m

~

2) populacji generalnych n1, ... ,nm.

Oznaczmy przez Pr(n;) = qi

prawdopodobieństwo

a priori

przynależności

obiektu klasyfikowanego do populacji ni dla i = 1, 2, „„ m.

Przy stosowaniu niesekwencyjnych

reguł

klasyfikacji z

prostą funkcją

straty, optymalna (w sensie minimalizacji ryzyka bayesowskiego)

reguła klasyfikacyj~a

jest

następująca

(patrz [1], [4], [10]): obiekt, na którym zaobserwowano

wartości

p

składowych

wektora x

0 , kla~yfikujemy

do populacji ni wówczas, gdy (23) dla j = 1 , 2, „. , m, j -::/= i.

Widzimy,

że wartości

ilorazów

wiarogodności

porównywane

tu z

wartościami

granicznymi

będącymi

ilorazami

prawdopodobieństw

a priori. Metoda ta pozwala definitywnie zaklasyfikować każdy obiekt, jednakże prawdopodobieństwa błędnych klasyfikacji

mogą być niezadowalające.

Podamy teraz

metodę

klasyfikacji sekwencyjnej

nawiązującą

do

powyższej reguły.

W metodzie tej wykorzystamy, tak jak poprzednio,

wartości

ilorazów wiaro-

godności. Będą

one

jednakże

porównywane z inaczej zdefiniowanymi

wartościami

granicznymi.

Proponujemy

następujący

sposób klasyfikacji.

Przestrzeń

obserwowanych war-

tości

wektorów losowych Xi dzielimy na m + 1 nie

przecinających się

obszarów n~>, T~k~, ... , T~> zdefiniowanych następująco dla k = 1, 2, ... , p:

(24) nk> = {x:,...., PW(x) ~ Aij(k), i,j = 1, 2, „., m, j i= il},

(25) T~k> = {x: A~J>(x) ~ A

1

i(k), j = 1, ... , m, j-::/= i}.

Dany obiekt klasyfikujemy do populacji ni wówczas, gdy

(26) dla k = O, 1 , 2, ... , n - 1 ,

(6)

a dla n

(27) x

0 ET~"),

i= I, 2, „., m , n

~ p.

Granice Aij(n)

można związać

z

prawdopodobieństwami błędnych

klasyfikacji.

Niech Pr<">(nilni)

będzie prawdopodobieństwem

poprawnego zaklasyfikowania danego obiektu do populacji ni, gdy w

rzeczywistości

obiekt ten jest elementem populacji nb oraz niech Pr<")(nilni)

będzie prawdopodobieństwem błędnego

zakla- syfikowania badanego obiektu do populacji ni, gdy w

rzeczywistości

obiekt ten jest'elementem populacji ni (i,j = I, 2, „., m, j # i). Mamy

(28) Pr<")(nilni) = Pr(.AtPCx) ~ Aii(n), j = 1, 2, ... , m, j #J ilni) =

= Pr(.fin(x) ~ Aij(n)fjn(x), j = 1, 2, „., m, j # ilni) =

= ~ .fin(x)dx,

T~11>

natomiast

(29) Pr<")(nilni) = Pr(.A~j)(x) ~ Aij(n), j = 1, 2, „., m, j # ilni) =

= Pr(.fin(x) ~ Aij(n)fj„(x), j = 1, 2, „ ., m, j # ilni) =

= ~ fjn(x)dx (i,j= l,2,„.,m,j#i).

r~">

Niech Pr<">( nil U

m

ni)

będzie prawdopodobieństwem błędnego

zaklasyfikowania

j# j=l

badanego obiektu do populacji ni, podczas gdy w

rzeczywistości

obiekt ten jest ele- mentem jednej z populacji n

1 , ••. ,

nm ~ z wyjątkiem populacji ni, dla i = I, 2, ... , m.

Mamy

(30) Pr<")(ni!U

m

ni) =

j = l j=f.i

L

m

Pr( ni) Pr<">(n;ln)

j=l j=f.i --- - - - -m

I Pr(ni)

j=l Ni

m m

= (L qj rl L qj Pr<">(niln),

i=l j=l

#i #i

gdzie

prawdopodobieństwa

Pr<">(nilnj) dane

wzorem (29), dla i, j = 1, 2, „., m, j

=/=

i,

n~

p.

Zachodzą następujące związki:

(31)

Stąd

L

m

~ .fin (x) dx = I dla i = 1 , 2, ... , m, n ~ p.

k=O

ri">

m

(32) ~ .fin(x)dx ~ 1- L ~ .fin(x)dx dla i= I, 2, „., m, n~ p.

r<">

I k= t k=f.i k

r<">

(7)

Metody klasyfikacji sekwencyjnej 125

Scałkujmy funkcję

fin(x) po obszarze

T~n>,

i = 1, 2, ... , m. Wobec (25) otrzymamy (33) ~ fin(x)dx?;; Aij(n) ~ fjn(x)dx (i,j = 1, 2, ... , m, j #i, n ~p).

T~n) T~n)

Korzystając

z (32) i (33) otrzymamy

(34)

m

1- L Pr<n>(.nkf.n;)

k=l k#

(i,j =I, 2, ... ; m, j #i, n

~p).

Chcemy teraz dla danego n tak

dobrać

granice Aii(n), aby Pr<n>(.nd.ni) = aii' gdzie aii

z góry

przyjętymi

liczbami.

Znalezienie Aiin)

dokładnie

takich,

żeby,

dla danego n, Pr<n>(n;lni) = aii, jest skomplikowane.

Możemy

jednak

aproksymować

Aii(n)

biorąc

dla

każdego

n zamiast

A;j{n)

stałą

A;i postaci

m

(35) Aii = ( 1- _L aki) / aii (i, j = 1, 2, ... , m, j # i).

k=l k=f:.i

Taki wybór

stałych

A;i spowoduje

zmianę

aktualnych

prawdopodobieństw błędnej

klasyfikacji. ·

Obszar nn> przyjmie

następującą postać:

m

(36) T~n) = {x: fjn(x) ~ [a ii/( 1- .L IY.ki)] fin(x), j = I, 2, „., m, j # i},

k=l

i=I,2,„.,m.

Aktualne

prawdopodobieństwa błędnej

klasyfikacji

spełniają następujące związki:

~.--aii

m

- - (i,j = 1, 2, ... , m, j #i).

I -Ł

IY.ki

k=i k=l

(8)

Ponadto

prawdopodobieństwa określone

wzorem (30)

spełniają nierówności

(38)

dla i = 1, 2, ... , m, n

~

p.

Jeśli

ponadto obierzemy aii = rx dla i, j = 1, 2, ... , m, j =I= i, to

(39) dla n

~p.

Zachodzi

również następująca nierówność

(40)

niezależnie

od

wartości prawdopodobieństw

a priori qi, dla i, j = 1, 2, ... , m, j =I=

i~

n~

p. Z (37) wynika,

że

(41)

dla i, j = 1 , 2, ... , m, j =I= i, n

~

p.

Stąd

dostajemy

(42) ,L Pr<n>(nilni) ~ (m-1) a ,L Pr<n>(ndni) + ,L a-

i,i

i,j i,j

#i #i #i

m

- a~ [.L Pr<n>(nklni)] = m(m- I)a,

I,} k=J

i# k-/=i

dla n

~p.

Powyższe rozważania

zbierzemy w formie

następującego

twierdzenia:

TWIERDZENIE

3.

Jeżeli

dany obiekt klasyfikujemy do populacji ni wówczas, gdy zachodzi (26) i (27) oraz granice Aii dane

wzorem (35), to aktualne

prawdopodobień­

stwa

błędnej

klasyfikacji zdefiniowane w (29) i (30)

spełniają nierówności

(37) i (38), przy czym aii

z góry obranymi

wartościami prawdopodobieństw

zdefiniowanych w (29), dla i, j = 1, 2, ... , m, j

=I=

i.

Jeśli

ponadto aii = a, dla i, j = 1, 2, ... , m, j =I= i, to aktualne

prawdopodobieństwa błędnej

klasyfikacji zdefiniowane w (29)

i (39)

spełniają nierówności

(39), (30) i ( 42).

U w a g a 3.

Nierówności

(39) i ( 42)

dają ważne

oszacowania od góry aktualnych

prawdopodobieństw błędnych

klasyfikacji. Tak

więc niezależnie

od tego, dla jakiego n zostanie

podjęta

klasyfikacja, suma aktualnych

prawdopodobieństw błędnych

klasyfikacji nie

przewyższa

sumy

prawdopodobieństw błędnych

klasyfikacji przy-

jętych

przez nas jako dopuszczalne

(nierówność

(42)), natomiast niektóre z po- szczególnych

prawdopodobieństw mogą być

tylko nieznacznie

większe

od obranych

(nierówność

(39)).

(9)

Metody klasyfikacji sekwencyjnej 127 Proces klasyfikacji

można prowadzić

sekwencyjnie w

następujący

sposób. Usta- lamy dopuszczalne wartości prawdopodobieństw błędnych klasyfikacji

rtii

(pamię- tając o nierówności L

m rxki

~ 1- etu) oraz obliczamy zgodnie ze wzorem (35) stałe

k=1 k=!=i

Aii dla i,j = 1, 2, ... , m,j =fa i.

Obserwujemy

wartość

x

01

pierwszej cechy klasyfikowanego obiektu i badamy„

czy istnieje takie i

0 ,

dla którego

spełnione są nierówności

(43)

Jeżeli

takie i

0

istnieje, to decydujemy,

że

badany obiekt jest elementem populacji ni

0

Jeżeli

takie i

0

nie istnieje, podejmujemy

decyzję

o zaobserwowaniu

wartości

x

02

drugiej cechy klasyfikowanego obiektu.

Następnie

badamy, czy teraz istnieje i

0

„ dla którego

spełnione byłyby następujące nierówności

(44)

Jeżeli

takie i

0

istnieje, to decydujemy,

że

badany obiekt jest elementem populacji ni

0

Jeżeli

takie i

0

·nie istnieje, podejmujemy

decyzję

o zaobserwowaniu

wartości

x

03

trzeciej cechy klasyfikowanego obiektu. Proces klasyfikacji kontynuujemy dopóty, dopóki nie podejmiemy decyzji o

przynależności

klasyfikowanego obiektu do jednej z populacji

7't1' 1t2' ...

'nm lub do wyq:erpania z góry ustalonej liczby obserwowa- nych cech.

W tym ostatnim przypadku

(wyjątkowo)

podejmujemy

decyzję

o

przynależności

badanego obiektu do populacji ni, gdy wektor zaobserwowanych

wartości

p cech tego obiektu

należy

do obszaru

S~P>

danego wzorem

(45) S~P> = {x: J.W(x) ~ qi/qi dla j = 1, 2, ... , m, j =fa i}, i= 1, 2, ... , m.

To dodatkowe kryterium klasyfikacji

zastrzeżone

jedynie dla etapu

końcowego

nazywa

się bayesowską metodą

klasyfikacji i jest,

między

innymi, opisane w pracy [4].

Prawdopodobieństwa błędnych zaklasyfikowań

w tej metodzie

mogą jednakże być większe

od z góry

przyjętych. Prawdopodobieństwa

Pr<P>(ndni)

wyrażają się

tu jako

całki

funkcji fjp(x) po obszarach

S~P>

danych wzorem (45) dla i, j = 1, 2, ... , m„

j =fa i.

Zobaczmy teraz, jak przedstawia

się

omówiona metoda klasyfikacji sekwencyjnej w przypadku wielowymiarowego

rozkładu

normalnego.

Wprowadźmy

oznaczenia (46)

oraz

(47) L~j>(x) = 21nJ.~}>(x), i,j = 1, 2, ... , m, i =faj, k = 1, 2, ... ,p.

Gdy fik(x) funkcjami gęstości k-wymiarowego rozkładu normalnego N(µ.i, l:i)„

wówczas

(10)

(48) L~'>(x) = x'(:Ej

1 -

:E;

1

)x+2(µ~ :E;

1

-µj :E;})x+

+

tJ.i~i P.i-P.i~i fJ.; '"'t"-t '"'t"-1

+l n l:Eil , l:Eil

dla i, j = 1, 2,

„. ,

m, j =I i, k = 1 , 2,

„. ,

p.

Z geometrycznego punktu widzenia, granice decyzyjne, zwane kwadratowymi funkcja- mi dyskryminacyjnymi,

{49) L~j>(x)-Bii=O, i,j= 1,2,„.,j=/=i, k= 1,2~„.,p,

hiperpowierzchniami stopnia drugiego,

dzielącymi k-wymiarową przestrzeń

obserwowanych wartości wektorów losowych na m + 1 obszarów Tbk>, T~k>, „., T~k>.

Obszary Tik>,

T~k>,

... ,

T~k> są

obszarami

podjęcia

decyzji o

przynależności

baqanego obiektu odpowiednio do populacji n

1 ,

n

2 , ••• ,

nm, natomiast obszar T&k> jest obsza- rem

niemożności podjęcia

decyzji na podstawie zaobserwowanych

wartości

k cech obiektu klasyfikowanego.

Uwag a 4.

Przedstawioną metodę

klasyfikacji sekwencyjnej

można

zmodyfi- kować przez zdefiniowanie w inny sposób obszarów T~k>, dla i = O, I, 2, „., m, k

~p.

Niech (50) (51)

T'(k) - { • . [ 1(k)( ) ~

A . . - 1 2 . ']}

.L o - X. ,...., lt.ij X :::;--- , l,] - , , ... ,

m, ] =/

l ,

T~<k> = {x: AW(x) ~A, j = 1, 2, ... , m, j =I i}

lub, w postaci

równoważnej,

(52) r;<k) = {x: min AW(x) ~ A} dla i= 1, 2,

„.

'p, k ~ p.

l:i;;,j:i;;,m

#i

Wprowadzona modyfikacja polega na

zastąpieniu

granic A;i, dla i,j = 1, 2, .„, m, j =I i,

wspólną granicą

A.

Samą zasadę

klasyfikacji pozostawiamy

niezmienioną,

tj. dany obiekt klasyfikujemy do populacji ni wówczas, gdy (53) x

0 E T~<k>

dla k = O, 1 , 2, „., n- 1 . a dla n, gdy

(54) x

0 E T~<n>,

i= 1, 2, „., m, n

~p.

Wiążąc granicę

A(n) z

prawdopodobieństwami błędnych

klasyfikacji

określo­

nymi w (29), otrzymujemy wówczas jako warunek konieczny

nierówność

(55)

n~p.

(11)

Metody

k/a~yfikacji

sekwencyjnej 129

Granicę

A(n)

będziemy aproksymować, biorąc

dla

każdego

n zamiast A(n)

stałą

A postaci

(56) A= min

1,,;..i,j""m

#i

m

1-

k=l

:L

cxki

k:Fi

Dla tak

określonej

metody aktualne

prawdopodobieństwa błędnej

klasyfikacji

spełniają następujące związki:

(57)

(58)

m

1-1

i-

k=l

.:L

aki

k::;,i

dla i, j = I, 2, ... , m, j =I= i, n

~

p.

Wykazaliśmy prawdziwość następującego

twierdzenia:

TWIERDZENIE

4.

Jeżeli

dany obiekt klasyfikujemy do populacji ni wówczas, gdy zachodzi (53) i (54) oraz

wartość

graniczna A dana jest wzorem (56), to aktualne

prawdopodobieństwa błędnej

klasyfikacji, Pr<n>(ndni) oraz Pr<n>(nd LJ ni), dla i, j = 1, 2, ... , m, j =I= i, n

~

p,

spełniają nierówności

(57) i (58).

#i

4. Porównanie metod. W paragrafie 2

omówiliśmy metodę

klasyfikacji sekwencyj- nej w przypadku dwóch populacji,

wzorowaną

na

teście

sekwencyjnym Walda (twierdzenie 1) oraz jej

modyfikację

(twierdzenie 2).

Dla metody

sformułowanej

w twierdzeniu 1 obszar.bezdecyzyjny ma

postać

(59) R<l> = {x: _!}_ ___ 1-cx < AW(x) < l-fl a i,

natomiast dla metody

sformułowanej

w twierdzeniu 2 obszar bezdecyzyjny ma

postać

(60)

R~<k>

= {x: fJ < ).\ki(x) < cx-1}

dla O < a, fJ < l , k = 1 , 2, ... , p.

Ponieważ,

dla O < ex, fJ < I,

zachodzą nierówności

1-{J 1

- - < -

(X (X

oraz -1- fJ > {J,

-(X

więc spełniona

jest relacja zawierania

(61) R~> c R~<k> dla k = I , 2, ... , p.

(12)

Relacja (61) oznacza,

że

metoda

sformułowana

w twierdzeniu 1 charakteryzuje

się

mniejszymi obszarami bezdecyzyjnymi, a

więc

prowadzi szybciej do celu. W meto- dzie tej

jednakże ulegają

zachwianiu aktualne

prawdopodobieństwa błędnej

klasy- fikacji. I tak,

jeżeli żądamy,

by Pr<n)(n

1

/n

2 )

= a, a Pr<n)(n

2

/n

1 )

= {J, to

będziemy

mieli tylko

gwarancję, że

Pr<n)(n

1

/n

2 ) ~

a/(1-{J), Pr<n)(n

2

ln

1 ) ~

{J/(1- a) oraz

Pr<n)(n

1

/n

2

)+Pr<n>(n

2

/n l

1) ~

a+{J dla n

~p.

Sens

powyższych nierówności omówiliśmy już

w uwadze I.

Metoda

sformułowana

w twierdzeniu 2 prowadzi do

większych

obszarów bez- decyzyjnych, jest bardziej

ostrożna

i wymaga obserwowania

większej

liczby zmien- nych,

jednakże

gwarantuje

spełnienie

przez aktualne

prawdopodobieństwa błędnych

klasyfikacji wymaganych żądań, tj. spełnienie nierówności

Pr<n>(n

1

/n

2 ) ~ a,

Pr<n)(n

2

/n

1) ·~

{J dla

n ~

p.

W paragrafie 3

omówiliśmy metodę

klasyfikacji sekwencyjnej w przypadku wielu populacji

nawiązującą

do niesekwencyjnej bayesowskiej

reguły

klasyfikacji (twier- dzenie 3) oraz jej

modyfikację

(twierdzenie 4).

W metodzie

sformułowanej

w twierdzeniu 3 kontrolowane

wszystkie prawdo-

podobieństwa

Pr<n)(ndni)

błędnego

zaklasyfikowania badanego obiektu do populacji n;, gdy w

rzeczywistości

obiekt ten jest elementem populacji ni (i,j = 1, 2, „., m, j I= i, n

~

p). Dla

każdego

z .tych

prawdopodobieństw

z osobna mamy odpowiednie oszacowanie z góry

(nierówność

(37)).

Ponadto kontrolowane jest prawdopodobieństwo Pr<n>(nil U

m

ni) błędnego

j=l N=i

zaklasyfikowania badanego obiektu do populacji nh podczas gdy w

rzeczywistości

obiekt ten jest elementem jednej z populacji n

1 , ••• ,

nm, z

wyjątkiem

populacji nb dla i = I, 2, . „, m, n

~

p

(nierówność

(38)).

W omawianej metodzie obszar podejmowania decyzji (na podstawie n cech) o

przynależności

badanego obiektu do populacji ni jest postaci

(62)

1-

k=l

2:

m aki

Tfn> = Jlx: ;.i~;>(x) ~ __

k_+_i _ _ ,

j = I, 2, „., m, j I= i},},

r.l.ij

dla i = I , 2, ... , m, n

~

p.

W metodzie

sformułowanej

w twierdzeniu 4 obszar podejmowania decyzji na pod- stawie n cech o

przynależności

badanego obiektu do populacji ni jest postaci

m

i-

k=l

I

aki

(63) r;<n> =

{

X: A~j>(x) ~ min - - - - '

k.,Pi

.i = I, 2, „.' m' j I= i '

} l~iJ,;;;m r.l.ij

j.,Pi

dla i = 1 , 2, ... , m, n

~

p.

(13)

Metody klasyfikacji sekwencyjnej 131

Między

obszarami nn> oraz

T~<n>

zachodzi

następująca

relacja zawierania (64) Tln>

c T~<n>

dla i = 1 , 2, ... , m, n

~

p.

Relacja (64) oznacza,

że

metoda

sformułowana

w twierdzeniu 4 daje mniejsze obszary bezdecyzyjne od metody

sformułowanej

w twierdzeniu 3, a tym samym wymaga obserwowania mniej zmiennych.

Jednakże

jej mankamentem jest to,

że

wszystkie aktualne

prawdopodobieństwa

Pr<n>(nil.nj)

błędnej

klasyfikacji dla i,j = 1, 2, ... , m, j

=f::.

i, n

~

p, szacowane

z góry przez

wspólną wartość określoną

w (57).

Metoda

sformułowana

w twierdzeniu 4 pokrywa

się

z

metodą sformułowaną

w·twierdzeniu 3 wówczas, gdy w tej ostatniej przyjmiemy rxii = rx, dla i,j = 1, 2, ...

... ,m,j=/=i.

W szczególnym przypadku dwóch populacji metoda

sformułowania

w twier- dzeniu 3 pokrywa

się

z

metoclą sformułowaną

w twierdzeniu 1, przy czym

między

wartościami

granic w tych dwóch metodach

zachodzą następujące związki

(65)

5. Sposób

porządkowania

cech. Przy sekwencyjnym obserwowaniu cech obiektu klasyfikowanego istotne znaczenie ma

kolejność

cech poddawanych obserwacji.

W celu zapewnienia wysokiej

efektywności

klasyfikacji sekwencyjnej,

należy

do kolejnego pomiaru

wybierać

cechy najbardziej

różnicujące

populacje n

1 ,

n

2 , ••• ,

nm lub, innymi

słowy, zapewniające

najmniejsze obszary bezdecyzyjne. Cechy tak dobie- rane

gwarantują możliwie największe prawdopodobieństwa poprawności

klasyfi- kacji, a zarazem szybkie

zakończenie

procesu klasyfikacji. W celu ustalenia opty- malnej

kolejności

pomiaru rozpatrywanych p cech,

postępujemy następująco.

Bierzemy pod

uwagę średnie prawdopodobieństwo poprawności

klasyfikacji

wyrażające się

wzorem (66)

gdzie obszar nk> dany jest wzorem (25) dla i = 1, 2, .. . 'm, k = 1, 2, ... 'p.

Następnie

wyliczamy

wartość wyrażenia

(66) dla

każdej

cechy z osobna. Wybie- ramy

tę cechę,

która zapewnia jego maksimum. Jest to cecha

zapewniająca

najmniej- szy obszar bezdecyzyjny. Do wybranej cechy

dołączamy

kolejno wszystkie

pozostałe, tworząc;

p- 1 par cech.

Następnie

obliczamy

wartość wyrażenia

(66) dla

każdej

z tak utworzonych par cech. Wybieramy

tę parę,

która daje

maksymalną wartość

tego

wyrażenia. Postępujemy

identycznie tak

długo, aż

nie stwierdzimy, który z

ukła­

dów p-1 cech

spośród

p cech daje

maksymalną wartość wyrażenia

(66). Pomiaru

wartości

cech dokonujemy w takiej

kolejności,

w jakiej cechy

zostały dołączone

do optymalnych

układów.

W celu znalezienia

wartości wyrażenia

(66)

należy obliczyć wartości całek

funkcji

gęstości prawdopodobieństwa

po skomplikowanych obszarach. W przypadku

rozkładów

normalnych,

całki

te

można obliczyć metodą

symulacji

tychże rozkładów

na maszynach cyfrowych [5], [6].

(14)

Jeżeli

N oznacza

liczbę

wygenerowanycq

wartości

zgodnie z

rozkładem

opisanym przez

funkcję

fik(x), natomiast M oznacza

liczbę

tych wygenerowanych

wartości,

które

wpadają

do obszaru

T~k>,

to oszacowaniem wyliczanej

całki

jest stosunek M/N dla i = 1, 2, ... , m, k = 1, 2, ... , p.

Dobroć

tego oszacowania wzrasta wraz ze wzrostem N, a ponadto

zależy

od

jakości użytego

generatora liczb losowych.

Omówione

porządkowanie

cech zapewnia jeszcze

jedną korzyść.

Jest

nią możli­

wość

skorygowania

już

na wczesnym etapie wyboru

zespołu

p cech

opisujących

obiekty klasyfikowane.

Jeśliby się okazało, że

najlepsza dwójka z tych cech ma

małą siłę dyskryminacyjną, oznaczałoby

to,

że zespół

p cech jest

źle

dobrany i

że

zachodzi potrzeba

uzupełnienia

go jeszcze innymi cechami.

Wyrażenie

(66) dla trójek, czwórek itd. cech wzrasta tylko nieznacznie w porównaniu z

wartością

tego

wyrażenia

dla pary cech.

Działa

tu prawo

malejących

zysków, o którym pisze Ole-

kiewicz w [8] i [9]. •

Cl

Prace cytowane

[1] T. W. A n d e r s o n, An introduction to multivariate statistical analysis, New York 1958.

[2] M. Kr z y

ś

k o, Sekwencyjny model decyzyjny,

Materiały

II Krajowego Sympozjum Bio- cybernetyki, Biomatematyki i Biotechniki, Warszawa 1972, str. 147-153.

[3] -, Klasyfikacja sekwencyjna,

Materiały

Trzeciego Colloquium Metodologicznego z Agro- Biometrii, PAN, 1973, str. 354-370.

[4] -, Kwadratowe funkcje dyskryminacyjne, Matematyka Stosowana 2 (1974), str. 151-156.

[5] M. K r z y

ś

ko, P. St o I ars ki, T. Ca I i

ń

s ki, Symulacja wielowymiarowego

rozkładu

normalnego, Algorytmy Biometryczne i Statystyczne 2 (1973), str. 153-160.

[6] -, -, Szybki generator liczb losowych o

rozkładzie

normalnym, ibid. 4 (1975), str. 221-242.

[7] P.

A.

Lach en br uch, Discriminant analysis, New York 1975.

[8] M. O I e k i e w i cz, Klasyczna i sekwencyjna metoda dyskryminacji,

Materiały

i Prace Antro- pologiczne Nr 61, Miscelanea V,

Wrocław

1962, str. 5-46.

[9] -, O

korzyściach

sekwencyjnej metody dyskryminacji,

Przegląd

Antropologiczny 30. 1 (1964), str. 3-22.

[10] C.

R.

Ra o, Linear statistical inference and its applications, New York 1965.

[11) A. W a Id, Sequential analysis, New York 1947.

Cytaty

Powiązane dokumenty

Pierwotne fragmenty są więc bogate w neutrony (zawierają zbyt wiele neutronów) i muszą się kilku z nich pozbyć — dwóch w przypadku reakcji (44.1). Te jądra także mają zbyt

W rozdziale IV przedyskutowana jest postać rozwią- zania tego problemu w sformułowaniu ogólnym, zaś rozwiązanie explicite zostało podane dla przypadku, gdy proces

Wielkopolskie Muzeum Pożarnictwa w Rakoniewicach powstało w 1974 roku dzięki stara- niom władz miasta, działaczy PTTK, a także Ochotniczej oraz Zawodowej Straży

Jedynie w Krakowie stworzono w oparciu o część dawnego lotniska obiekt muzealny – Muzeum Lotnictwa Polskiego, w pozostałych miastach o istnieniu lotnisk przypominają

TaEela 5 SrezentXje XSorządkowanie analizowanych metod klasyfikacji z 4 od- legáoĞciami zastosowanych z odSowiednimi indeksami wyEorX liczEy klas wedáXg Ğrednich

standa- ryzacja przedstawiona wzorem (2). GrabiĔskiego nie ma parametru k... Kilka uwag do artykuáu J. „Uwagi do unitaryzacji zmiennych w referencyjnym systemie... 149) „Budowa

Kiedy naszą dziedziną jest zbiór liczb naturalnych, obie wersje są zbieżne, jeśli jednak niektóre przedmioty nie dają się wyszczególnić za pomocą żadnego terminu

13 Aby określić złożoność średnią algorytmu musimy odnieść ją do wszystkich możliwych do wyobrażenia algorytmów.. konkretnego rozkładu pewnej zmiennej