• Nie Znaleziono Wyników

Warszawa^-Optymalne procedury dyskryminacji statystycznej i ich własności asymptotyczne*

N/A
N/A
Protected

Academic year: 2021

Share "Warszawa^-Optymalne procedury dyskryminacji statystycznej i ich własności asymptotyczne*"

Copied!
33
0
0

Pełen tekst

(1)

ROCZNIKI POLSKIEGO TOWARZYSTWA MATEMATYCZNEGO Seria III: MATEMATYKA STOSOWANA XXXI (1989)

Wo j c ie c h Nie m ir o

Warszawa

^-O ptym alne procedury dyskryminacji statystycznej i ich własności asymptotyczne*

(Praca wpłynęła do Redakcji 1987.11.10)

Streszczenie. W pracy rozpatruje się procedury statystyczne, które można traktować jako procedury estymacji rozwiązania problemu minimalizacji Eif/^W— £?= 0 c* 2P)-» min! względem c°, cl, ..., cd), gdzie i//3(t) = jtj/2 + (<x—j)t, w sytuacji, kiedy łączny rozkład prawdopodobień- stwa zmiennych losowych W ,X 0, X x, ..., Xd jest nieznany i może być oszacowany na podstawie próby losowej. Procedury takiego typu pojawiają się w teorii dyskryminacji statystycznej i odsiewania. Przedmiotem pracy jest badanie asymptotycznych własności takich procedur.

Spis treści Spis oznaczeń

1. Sformułowanie problemu i omówienie głównych wyników 2. Dyskryminacja i odsiewanie

2.1. Sformułowanie problemu 2.2. Problem rozdzielania 2.3. Problem klasyfikacji

2.4. Problem odsiewania 3. Podstawowe twierdzenia

4. Prawdopodobieństwo błędnej klasyfikacji w modelu ECD 5. Ryzyko odsiewania w modelu LSC

Bibliografia

Spis oznaczeń

\ e R d+1, \ ‘ eRd — wektory zapisujemy wierszowo i oznaczamy tłustą czcionką, indeksy współ- rzędnych piszemy u góry; jeżeli x = (x°, x 1, ..., xf1) i x' = (x1, ..., x**), to będziemy pisali x = (x°, x').

AT, \ T — transpozycja macierzy A, wektor kolumnowy.

CPBR 11.9

(2)

<x,y>

INIm

tr A diag(a)

/

Fu

Hu

o(£„)* N 0(&n)

K

(Q, P)

E, Var P*%(R)

P"-t

d_>

N(m, V)

<t>, &

EC(m. V. ci) ECD

LSC densr ()

gradient funkcji u: R + 1

hesjan funkcji u: R + 1 -*

•R, wektor

R, macierz

— iloczyn skalarny, równy xyr = Y. xkyk.

— norma wektora, równa yf(x, x ).

— norma macierzy, równa sup||x/4||/||x||.

— ślad macierzy A. X

— macierz diagonalna z przekątną a = (a°, a4).

— macierz jednostkowa.

du

^dx0’ ’ i

Pu \

^<3x*5x' )kii ilość elementów zbioru skończonego N.

nieskończenie mała: tjn = o(e„), jeśli limt]Jen = 0.

t]„ = 0 ( 0 . jeśli IO £J ^ M < co.

.1 dla x eA indykator zbioru A: l^(x)

— funkcja ipa(t) =

(O dla x$A.

i ca dla t ^ O, ((a —l)t d la t < 0 . przestrzeń probabilistyczna, wartość oczekiwana, wariancja, prawdopodobieństwo zewnętrzne, er-ciało zbiorów borelowskich w R . zbieżność z prawdopodobieństwem 1.

zbieżność według prawdopodobieństwa,

słaba zbieżność do rozkładu prawdopodobieństwa, rozkład normalny ze średnią m i macierzą kowariancji V

gęstość i dystrybuanta rozkładu iV(0, 1): 0(t) = (2n)~1/2 exp (-

<P(t) = f . T <f)(s)ds.

rozkład eliptycznie konturowany (definicja 1).

model dyskryminacji z eliptycznie konturowanymi rozkładami warunko- wymi (ECD — Ełliptically Contoured conditional distributions Discrimina- tion, definicja 2).

liniowy model odsiewania (LSC — Linear Screening, definicja 3).

gęstość rozkładu zmiennej losowej T względem miary Lebesgue’a.

-*72),

1. Sformułowanie problemu i omówienie głównych wyników. Załóżmy, że na przestrzeni probabilistycznej (Q, /ł, P) jest określony wektor losowy (W, X°, X 1, Xd) ={W, X) o wartościach w przestrzeni R xRd+l. Zakładać będziemy, że E\W\ < oo i £||X|| < oo.

Niech, dla a e(0,1], \j/a: R ^ R będzie funkcją postaci i at dla t ^ O,

(1) ((oc-1 )t dla f < 0.

Interesować nas będzie zadanie polegające na znalezieniu minimum funk- cji P: /fi+1 ->J? danej wzorem

(2) (c) = E\l/a(W— <c, X»,

(3)

Ll-optymalne procedury dyskryminacji statystycznej 59

w sytuacji, gdy łączny rozkład prawdopodobieństwa wektora (W, X) nie jest znany, ale może być oszacowany na podstawie próby losowej, to znaczy ciągu niezależnych wektorów losowych (Wx, Xt), (Wn, X„) o tym rozkła- dzie. Typowe postępowanie statystyczne polega na zastąpieniu nieznanego rozkładu zbudowanym na podstawie próby rozkładem empirycznym.

W naszym przypadku odpowiada to rozpatrywaniu funkcji Rd + 1 R danej wzorem

(3) '?„(*) = - t iM W f-^ X ,))

«i= 1 i poszukiwaniu jej minimum.

Niech steRd+1 będzie jedynym punktem, w którym funkcja W przyjmuje najmniejszą wartość:

(4) 'P{a) = inf'P(c).

Istnieje, zależny od próby losowej, punkt a„ = a„(co), w którym funkcja Wn przyjmuje najmniejszą wartość:

(5) ^(a„) = inf«P„(c).

Będziemy traktowali a„ jako estymator punktu a. (Kwestie dotyczące możli- wej niejednoznaczności i mierzalności a„ omówimy w rozdziale 3).

Opisane powyżej zadanie minimalizacji pojawia się w teorii dyskryminacji statystycznej przy rozważaniu tzw. perceptronowego kryterium dyskryminacji (por. [2,3,5,8,13,18,20,21]) oraz w zagadnieniu odsiewania. Problemami tymi zajmiemy się szczegółowo w rozdziale 2. Również poszukiwanie funkcji regresji metodą najmniejszych odchyleń bezwzględnych prowadzi do podob- nego zadania minimalizacji. Zastosowania do teorii regresji, wyczerpująco omówione w monografii [1], nie będą przedmiotem naszych rozważań.

Zauważmy, że funkcje postaci (3) są wypukłe i kawałkami liniowe.

Istnieją i są rozwijane wyspecjalizowane algorytmy minimalizacji takich funkcji [19,4,1,3]. Daje to możliwość praktycznego obliczania badanego przez nas estymatora.

Przedmiotem naszej pracy są asymptotyczne własności estymatora a„, przy rozmiarze n próby zmierzającym do nieskończoności. Badamy je w rozdziale 3. Podstawowe wyniki, sformułowane i udowodnione w tym roz- dziale, są następujące:

1) Pokazujemy mocną zgodność rozważanego estymatora: a,,-^1-^ , przy n -*■ oo.

(4)

2) Dowodzimy, że estymator jest asymptotycznie normalny: y/n{sLn —

— a )^N (0 , V), przy n-*oo; macierz kowariancji V rozkładu granicznego wyraża się w terminach łącznego rozkładu wektora (W, X).

3) Dla gładkich i ograniczonych funkcji Q: Rd+i -+R takich, że Q(a) = inf(ż(c), znajdujemy pierwszy wyraz rozwinięcia asymptotycznego

c

EQ(a„), a mianowicie dowodzimy, że EQ(a„) = Q(a) + — tr(HQ(a) V) + o2 n Przykłady wniosków, wynikających z ogólnych twierdzeń rozdziału 3, podane są w dwu ostatnich rozdziałach pracy, gdzie rozważamy asymptoty- czne rozwinięcie prawdopodobieństwa błędnej klasyfikacji w pewnym modelu dyskryminacji i asymptotyczne rozwinięcie ryzyka w pewnym modelu odsie- wania.

2. Dyskryminacja i odsiewanie

2.1. Sformułowanie problemu. Na przestrzeni probabilistycznej {Q, P) określony jest wektor losowy (W, Z 1, ..., Zd) = (W, Z) o wartościach w prze- strzeni R x Rd. W zagadnieniach dyskryminacji i odsiewania chodzi, mówiąc nieprecyzyjnie i najogólniej, o to, aby na podstawie obserwacji wektora losowego Z sformułować pewne wnioski na temat nieobserwowalnej zmien- nej W. Nasze sądy na temat W interpretujemy jako decyzje statystyczne, poprawność zaś tych sądów będziemy oceniali za pomocą pewnych funkcji strat. Zadania, które będziemy rozpatrywali, różnią się między sobą założe- niami o zbiorze możliwych wartości zmiennej W, o zbiorze decyzji i o funkcji strat. Szersza klasa zadań dyskryminacji i odsiewania oraz ich wzajemne powiązania omówione są w [12] i [14]. W naszej pracy terminy: dyskrymi- nacja, klasyfikacja, rozdzielanie i odsiewanie używane będą w następującym znaczeniu.

O dyskryminacji (ograniczymy się tutaj do dyskryminacji dychotomicznej) mówimy wtedy, gdy kPjest zmienną losową o wartościach w zbiorze JO, 1}.

Dla przejrzystości taką zmienną W oznaczymy odmiennym symbolem J.

Wśród zadań dyskryminacji wyróżnimy zadania klasyfikacji i zadania roz- dzielania (taki podział spotyka się w literaturze, np. [9], rzadko jednak jest przeprowadzony konsekwentnie).

W zadaniach klasyfikacji funkcja decyzyjna, zwana w tym przypadku regułą klasyfikacji, jest funkcją <5: Rd -+ {0, 1}. Decyzje oznaczone przez 0 i 1 interpretujemy jako przewidywane wartości J, \ oznacza zaś wstrzymanie się od przewidywania. Poprawność sądu oceniamy za pomocą funkcji strat X: {0,1} x {0,-|, 1} -*R+ takiej, że 2(0,0) = X{\, 1) = 0, 2(1,\) ^ 2(1,0),

^(0>ł) ^ 2(0,1). Zadanie polega na takim wyborze 5, aby zminimalizować średnią stratę, czyli ryzyko, określone wzorem

(5)

L1 -optymalne procedury dyskryminacji statystycznej 61

(1) RAS) = EX(J, S(Z)) = I I = j,S(Z) = l).

j =0.1 ( = o , j , l

W zadaniach rozdzielania funkcję decyzyjną D: Rd -+ R będziemy nazywa- li funkcją rozdzielającą. Przedmiotem naszych rozważań będą liniowe funkcje rozdzielające postaci

(2) Dc(z) = c ° + c * z k, c = (c°, c1, ..., cd)eR d+l.d k= i

Teraz funkcja strat jest funkcją L: {0,1 } x /?->/?+ i zadanie polega na wyznaczeniu takiego c eRd+1, dla którego ryzyko

(3) Rl(D,) = EL(J, D'(Z)) = fLfj(co), D'(Zi<o)))P(dm) O

osiąga wartość najmniejszą.

W zadaniach odsiewania W jest zmienną losową o rozkładzie ciągłym, dana jest liczba 9eR i problem polega na rozstrzygnięciu, czy

Funkcja decyzyjna, zwana teraz regułą odsiewania, jest funkcją ó: ->

->{0,1}. Interpretujemy 1 jako przewidywanie, że 3, 0 zaś jako wstrzy- manie się od przewidywania. Funkcja strat jest funkcją x: {0,1} x {0,1} ->/?+

taką, że 0 = x(l, 1) < x(0,0) = x(l,0) < x(0,1). Przyjmijmy x(0,1) = 1 i oznaczmy x(0,0) = a. Zadanie polega na minimalizacji ryzyka danego wzo- rem

(4) RJÓ) = Ex(\lx^(W lS(Z )) = aP(S(Z) = 0)+P(W< ,9, S(Z) = 1).

W dalszym ciągu przedyskutujemy trzy, sformułowane powyżej, zadania.

Centralne miejsce zajmuje zadanie rozdzielania i omówimy je najpierw.

Następnie pokażemy, jak wyniki, dotyczące zagadnienia rozdzielania można wykorzystać do klasyfikacji i, po drobnej modyfikacji, do odsiewania.

2.2. Problem rozdzielania. Przede wszystkim odnotujmy następującą, wa- żną własność inwariantności funkcji rozdzielających, minimalizujących ryzy- ko postaci (3).

Niech (J,Z) będzie wektorem losowym o wartościach w {0,1} x/?d.

Jeżeli dane jest odwzorowanie S: Rd -*Rd, to możemy rozważać dwa zadania rozdzielania. Dla pary (J, Z) zadanie polega na minimalizacji ryzyka R(f ’Z)(Dc) = EL(J, Dc(Z)), a dla pary (J,S(Z)) - ryzyka R(j,s(zb(£c) = EL(j Dc(s(Z))).

St w ie r d z e n ie 1. Jeżeli S: Rd ->Rdjest wzajemnie jednoznaczną transforma- cją ąfiniczną, to istnieje taka wzajemnie jednoznaczna transformacja liniowa S*: Rd + l ~^Rd + l, że

(6)

(i) Dc(S (z)) = DS(c) (z);

(ii) R(l 'S{z)) (Da) = inf Rl ,S{Z)) (Dc) wtedy i tylko wtedy, gdy R{^ Z)(DsW) = M R ^ 7)(Dc).

Dowód. Niech S(z) = zS + b, gdzie S jest macierzą d xd, beR*. Zapiszmy wektor c sRd+l w postaci (c°, c'), gdzie c° eR, c, eRd. Dla pokazania (i) wystarczy wziąć S*(c) = (c°+ <c',b>,c'ST), (ii) jest natychmiastową konsek- wencją (i). ■

Wybór funkcji strat L {0,1J x R -> R+ zależy od specyfiki zadania i jest najczęściej podyktowany względami praktycznymi. W tej pracy zajmiemy się funkcjami strat postaci

(5) \yo^a(t~v0) dla 7 = 0,

IV ilM vi-O dla j = l,

gdzie il/a: /?->•/?+ jest funkcją określoną wzorem (1.1), y0?7i > 0 oraz vo < vi- Zauważmy, że ryzyko wyraża się teraz wzorem

(6) Rl (DJ = EiJ/a(Y - <c,X»,

gdzie

Ti Vi

— 7o v0

dla J = 1

dla J = 0, X = 7i(l,Z)

~ 7 o ( l , Z )

dla J = 1 dla J = 0.

W ten sposób poszukiwanie funkcji rozdzielającej Dc sprowadza się do zadania minimalizacji sformułowanego w rozdziale 1.

Podamy interpretację funkcji strat (5) w dwóch, najbardziej interesują- cych, przypadkach szczególnych. Dla a —j mamy i//a(t) = \t\/2 i funkcja strat (5) wyraża, mówiąc obrazowo, wymaganie, aby wartości funkcji rozdzielającej Dc( Z) skupiały się wokół Vj dla J — j, j e \ 0,1}. Jeśli a = 1, będziemy mówili o perceptronowej funkcji strat i ryzyku perceptronowym. Ta funkcja strat wyraża, intuicyjnie, wymaganie, aby wartości funkcji rozdzielającej Dc(Z) były mniejsze od v0 dla J = 0 i większe od Vi dla J = 1. Minimalizacja ryzyka perceptronowego jest znana jako jedna z metod konstruowania liniowych funkcji dyskryminacyjnych od wczesnych lat sześćdziesiątych (szczegółowe uwagi historyczne i bibliograficzne można znaleźć w monografii [8]) i od kilku lat rozwijana w serii prac [20,21,5,2,13,3].

Jeśli strata jest określona wzorem (5), to odchylenie Dc (Z) od „pożądanej”

wielkości mierzy się wartością bezwzględną różnicy, pomnożoną przez pe- wien współczynnik, a zatem będziemy nazywali funkcje strat tej postaci funkcjami „typu L1”.

Następujące stwierdzenie dotyczy pewnych własności ryzyka perceptrono- wego.

(7)

L1-optymalne procedury dyskryminacji statystycznej 63 St w ie r d z e n ie 2. Załóżmy, że rozkład wektora losowego Z jest absolutnie ciągły względem miary Lebesgue’a w R? oraz że E\\Z\\ < cc. Niech L będzie funkcją strat (5) z a = 1, RL zaś — odpowiednim ryzykiem (6). Oznaczmy

tcj = P(J = /). Wtedy:

(i) O < inf Rl (DJ ^ (v! - v0)min(7r0y0, nyty,

(ii) jeżeli dla każdego Be^fR*) P{Z gB\ J — 0) = P(Z e B\ J = 1), to infRL(De) =(v1- v 0)min{n0y0,n x yx);

(iii) infRL(DC) = O wtedy i tylko wtedy, gdy istnieją rozłączne zbiory wypu- kłe Bq,#! c= takie, że P( Z eBj\J = j) = \;

(iv) RL(Da) = O wtedy i tylko wtedy, gdy istnieją rozłączne przedziały Iq, 11 c R takie, że P(Da(Z) e l,|J = /) = 1.

Stwierdzenie to powtórzone jest, z minimalnymi i oczywistymi modyfika- cjami za [13], gdzie podany jest łatwy dowód. ■

2.3. Problem klasyfikacji. W tym paragrafie, podobnie jak poprzednio, (J, Z) oznacza wektor losowy o wartościach w przestrzeni {0,1 }x R d.

Ograniczymy się do rozważania reguł klasyfikacji postaci l 0 dla Dc (z) < 0O,

(7) Oo n O II dla 0O ^ Dc (z) < 0X,

(1 dla 01 ^ Dc(z),

gdzie Dc: Rd -►/? jest funkcją liniową daną wzorem (2), a

— oo ^ 0O ^ ^ oo .Takie reguły będziemy nazywali regułami liniowymi. In- teresować nas będzie zadanie minimalizacji ryzyka Ba^cSo,^) w klasie reguł liniowych. Bezpośrednie rozwiązanie tak sformułowanego zadania jest jednak trudne. Zazwyczaj procedura postępowania jest następująca. W pierwszym etapie wyznacza się funkcję rozdzielającą Z)c, która minimalizuje ryzyko Rl(Dc) dla pewnej, wygodnej funkcji strat L: {0,1} x /? —>/?+, nie związanej bezpośrednio z funkcją strat A: {0,1} x {0,^, 1} -►/?+. Następnie wykorzystuje się tę funkcję do zbudowania reguły klasyfikacji (7), dobierając odpowiednio 0O i 0t . Sformułujemy założenia, które gwarantują, że takie postępowanie prowadzi do znalezienia optymalnej, w sensie ryzyka Rx, liniowej reguły klasyfikacji (por. [20,2,13])

Zaczniemy od przytoczenia następującej definicji (por. [22]):

De f in ic j a 1. Niech Z będzie wektorem losowym o wartościach w Rf.

Mówimy, że rozkład prawdopodobieństwa tego wektora jest eliptycznie konturowany, jeśli istnieje wektor m eR4, macierz symetryczna i dodatnio określona V o wymiarach d xd oraz funkcja h takie, że funkcja charaktery- styczna wektora losowego Z ma postać

£exp(i <t, Z » = exp (i <t, m ))/i(tV tr).

(8)

Przy dodatkowym założeniu, że P(Z = m) = 0 i d > 1 wiadomo [22], iż rozkład o funkcji charakterystycznej /z(||t||2) jest wyznaczony jednoznacznie przez swoją jednowymiarową gęstość brzegową g. Oznaczmy, w tym przy- padku, rozkład wektora Z symbolem EC(m,V,g). ■

Defi n ic ja 2. Będziemy mówili, że para (J, Z) spełnia założenia eliptycznie konturowanego modelu dyskryminacji (w skrócie ECD), jeśli istnieją takie wektory m0, ith eff*, macierz symetryczna i dodatnio określona Ko wymia- rach d xd oraz jednowymiarowe gęstości g0 i gx takie, że wektor losowy Z ma przy J ~ j warunkowy rozkład prawdopodobieństwa EC(my, K 9j), 7 = 0,1. .

Pr z y k ł a d 1. Jeżeli rozkłady warunkowe Z przy J = j są rozkładami normalnymi N(mj t Vj) z proporcjonalnymi macierzami kowariancji (Ej

= kV0), to para (J,Z) spełnia założenia ECD. ■

St w ie r d z e n ie 3. Przypuśćmy, że para (J, Z) spełnia założenia ECD. Niech L: {0,1} xR -> R+ i ż: { 0 ,l} x { 0 ,il} ^ R + będą funkcjami strat wystę- pującymi odpowiednio w (3) i (1). Załóżmy że Dajest jedyną liniową funkcją rozdzielającą, minimalizującą ryzyko (3):

RL(Da) = infRL(Dc).

c

Wtedy istnieją takie r0 i xx ( — oc ^ t0 ^ ^ oo), że reguła klasyfikacji

^a.to.Tj minimalizuje ryzyko (1) w klasie reguł liniowych:

inf RA0c,eo,ex)-

c,0O-01

Dowód. Stwierdzenie 1 pozwala ograniczyć się do rozważania par (J,Z) takich, że rozkłady warunkowe Z przy J = j są postaci EC(0,1,g0) i EC(m,l,gx), gdzie m = (m1,0, ..., 0). Wystarczy bowiem zauważyć, że dowol- na para (J, Z) spełniająca ECD może być sprowadzona do tej postaci za pomocą afinicznej transformacji wektora Z. W rozpatrywanym przypadku, ze względu na symetrię, wektor a musi mieć postać a = {a°,a1,0, ..., 0). Przy minimalizacji m°żna się ograniczyć do wektorów c eRd + 1 postaci (a°,c'), gdzie c' eRd, ||c'|| = la1!. Z założenia 0 = 2(1,1) < A(l,i) ^ 2(1,0) wy- nika, że dla takich wektorów c mamy ^ ( ó c>6,0>ei) ^ Rx(Sa<0o<0l). ■

Stwierdzenie 3 nie mówi nic o sposobie wybierania t0 i xx. Zajmiemy się teraz sytuacją, w której ten wybór jest oczywisty. Będziemy teraz rozpatry- wali reguły klasyfikacji S: Rd -* \0, lj, to znaczy reguły bez zawieszania decyzji. Dla reguł liniowych (7) użyjemy oznaczenia Sc H wtedy, gdy 60 = 9X

= 6.

St w ie r d z e n ie 4. Niech para (J, Z) spełnia założenia ECD, przy tym go — 9i — 9> 9 jest gęstością jednomodalną (g{t) maleje dla t ^ 0). Niech

(9)

1} -optymalne procedury dyskryminacji statystycznej 65

P(J = 0) = P(J = 1) = j. O funkcji strat L założymy dodatkowo, że L(0,t) = L(l, — t). Niech ż(0,1) = x (l,0) = 1. Jeżeli Da.R*-+R jest jedyną funkcją rozdzielającą, która minimalizuje ryzyko (3), to znaczy taką, że

RL(Da) = inf Rl(Dc),

c

to reguła klasyfikacji <5a 0 minimalizuje ryzyko (1) w klasie reguł liniowych (7) bez zawieszania decyzji, to znaczy

^ a,o )= in f* A (< U -c,e

TJwaga. Zauważmy, że dla żtO,1) = 211.0) = 1 ryzyko (1) ma postać RX(S) = P(Ó(Z) ^ J), a więc wyraża prawdopodobieństwo błędnej klasyfi- kacji.

Dowód. Podobnie, jak w dowodzie poprzedniego stwierdzenia rozpatru- jemy parę (J, Z) o warunkowych rozkładach wektora Z równych EC(m0,/,g) i E C(ml , l,g) gdzie, teraz, m0 = ( —m1,0, ..., 0), =(m 1,0, ..., 0). Na mocy symetrii a ma postać a = (0,a\0, ..., 0). Tak, jak w dowodzie stwierdzenia 3, wystarczy rozpatrywać reguły postaci ńa>0. Wreszcie, z jednomodalności g wynika, że Rx(K e)> R x(K o)- ■

Na zakończenie tego paragrafu podamy stwierdzenie dotyczące związku pomiędzy ryzykiem perceptronowym a prawdopodobieństwem błędnej klasy- fikacji w bardziej ogólnej sytuacji, kiedy nie muszą być spełnione założenia ECD.

St w ie r d z e n ie 5. Rozważmy funkcję strat L: {0,1} x R ->R+ daną wzorem (5) z a = 1, y0 = yx = y. Niech 2(0,1) = Ż(1,0) = 1, itj = P(J =j) = \, j = 0,1.

Załóżmy, że dla dowolnego wektora beRj, b # 0, rozkłady warunkowe zmien- nej losowej (Z, b) przy J = j mają gęstości gj(t) względem miary Lebesgue’a, które są symetryczne i jednomodalne, to znaczy gj(t — mj) = gji — t — mj) dla pewnych mj i gj(t) maleje dla t > m7-. Jeżeli

Rl (DJ = in fJRL(Dc) ^ iy(v! —v0)min(7ró,7ii),

C

to

R x (K o ) < -z~ r~2y(vi-v0)---\Rl (d *) dla 6 = i ( v o + v j .

Dowód znajduje się w pracy [13]. ■

Pr z y k ł a d 2. Niech Z będzie jednowymiarową zmienną losową. Załóżmy, że rozkłady warunkowe Z przy J = j są jednostajne na dwóch odcinkach I0,Ii c R o tej samej długości /, mających część wspólną o długości k, rej = P(J =j) = j. Stosując te same oznaczenia co w stwierdzeniu 5, mamy

5 — Matematyka Stosowana t. 31

(10)

Rx(Sa,o) = k/(2l), i RL(Da) = y(vi - v 0)y. Nierówność występująca w teziek stwierdzenia 5 zmienia się zatem w równość. Zauważmy, że w rozpatrywa- nym przykładzie reguła óa>0 ma najmniejsze prawdopodobieństwo błędu pośród wszystkich reguł klasyfikacji bez zawieszania decyzji. ■

2.4. Problem odsiewania. Rozważamy teraz parę {W,Z), gdzie zmienna losowa W ma rozkład ciągły, i poszukujemy reguły odsiewania <5: R? -► [0,1}

minimalizującej ryzyko RX(S) (wzór (4)). Załóżmy, że rozpatrujemy reguły liniowe postaci

(

8

)

1 dla Dc (z) ^ 6,

0 dla De (z) < 6,

gdzie 6eR , ceR* i De jest funkcją określoną wzorem (2). Tak jak w przypadku klasyfikacji, wygodnie jest, zamiast bezpośrednio minimalizować Rx(dCt0), najpierw znaleźć odpowiednią funkcję De : Rd -+R i dopiero potem poszukiwać 9. Do wyznaczenia funkcji Dc można posłużyć się pomocniczą funkcją strat K: R x R -+R+ i rozwiązać zadanie minimalizacji ryzyka

(9) RK(Df = EK(W,De( Z)).

Rozważmy funkcję strat postaci

(10) K(w,t) = ij/x{w -t),

gdzie ij/tt jest funkcją określoną wzorem (1.1), ot występuje zaś w określeniu ryzyka Rx w (4). Ryzyko RK przybiera teraz postać funkcji rozpatrywanej w rozdziale 1.

Zajmiemy się teraz liniowym modelem odsiewania.

Def in ic ja 3. Powiemy, że para (W,Z) spełnia założenia liniowego modelu odsiewania (w skrócie LSC), jeśli istnieje taki wektor a' eR‘ł i zmienna losowa U o rozkładzie ciągłym, niezależna od Z, że W= <a',Z>+ U. ■

St w ie r d z e n ie 6. Niech para {W, Z) spełnia założenia LSC i ponadto E\\Z\\ < oo, E\W\ < oo. Załóżmy, że funkcja K jest dana wzorem (10). Jeżeli P(U <a°) = ot i a = (a°,a'), to

Rk (Du) = inf Rk (Dc)

C

i dla dowolnego 9eR reguła óa>0 minimalizuje ryzyko (4) w klasie wszystkich reguł odsiewania,

RASa,&) = infR* (<5).

ó

Dowód. Rozważmy najpierw ryzyko RK(D) = E\{ja{W—D{Z)) dla dowol-

(11)

1 }-optymalne procedury dyskryminacji statystycznej 67

nych funkcji borelowskich D: R1 ->R. Zauważmy, że — Eil/a(W—v|Z = z) =dv

= P{W<v\Z = z) —ot. Aby się o tym przekonać, wystarczy zamienić kolej- ność różniczkowania i całkowania, korzystając z twierdzenia Lebesgue’a o zbieżności majoryzowanej. Wyrażenie Eij/^W—v|Z — z) jest zatem, przy usta- lonym z eRd, wypukłą funkcją v, która przyjmuje najmniejszą wartość dla takich v, że P(W< v\Z = z) = a. Stąd wynika, że ryzyko Rk{D) jest naj- mniejsze dla funkcji D spełniających warunek P{W <D(z)|Z = z) = a dla każdego z. Jednocześnie, dla takich funkcji D, reguła odsiewania <5 (z) = l[d)00) (D(z)) minimalizuje Rx. Istotnie, <5(z) = 1 implikuje wtedy P (W < S\Z = z) ^

^ a, z kolei S (z) = 0 implikuje nierówność w przeciwną stronę.

Równość P(W < Da(z)|Z = z) = P(U <a°) = a wynika natychmiast z za- łożeń LSC. ■

3. Podstawowe twierdzenia. Sformułujemy teraz i udowodnimy twierdze- nia, zapowiedziane w rozdziale 1. Przypomnijmy, że mamy do czynienia z ciągiem niezależnych i mających jednakowe rozkłady prawdopodobieństwa wektorów losowych (W^,X,): (Q, P) -*(R x Rd+1,3&{R xRd+l)), gdzie i

= 1,..., n, ... Niech (W,X) = (Wi,Xj). Zakładamy, że E\W\ < oo i £||X|| <

<oo. Przypomnijmy oznaczenia (wzory (1.1)-(1.3)):

(1) W (c) = Eif/a(W— <c, X»,

(2) <P„(c) = i f ; ^ .(^ -< c ,X (»,

gdzie ^«(t) = i|t|+ ( a —i)t. Zakładamy istnienie punktu a eRd+l takiego, że

(3) W (a) = inf *P(c).

c

Dla każdego ustalonego cue Q funkcja W„ jest nieujemna, wypukła i kawałka- mi liniowa, a więc istnieje co najmniej jeden punkt a„ = an(co)eRd+1 taki, że

(4) *PM(aJ = in f^n(c).

c ,

Można przy tym wybrać a „(co) w taki sposób, aby odwzorowanie a„: (Q, 3F) ->(Rd+1,Ś0(Rd+1)) było mierzalne. Najprościej to uzasadnić zauważając, że można wybrać a„ spośród takich punktów c, które spełniają pewien układ d + 1 równań postaci Wt = <c,X>, ie{l, ...,n} — a takich układów jest skończenie wiele. Będziemy zatem traktowali a„ jako wektor losowy. Fakt, że (4) nie określa tego wektora jednoznacznie, nie wpływa na tezy naszych twierdzeń.

Powyższe założenia i oznaczenia obowiązują w całym rozdziale 3 i nie będą powtarzane w sformułowaniach twierdzeń.

Tw ie r d z e n ie 1 (Mocna zgodność). Jeżeli !P(c) > !F(a) dla każdego c ^ a,

(12)

Dowód tego twierdzenia poprzedzimy następującym lematem.

Lem a t 1. Niech Y,Y1? Y„, ... będą niezależnymi wektorami losowymi w

Ra + 2 o tym samym rozkładzie, £||Y|| < oo. Niech funkcja u: Rd + 1 xRd + 2 -+R spełnia warunki |u(c,y)-u(c',y)| ^ ||c-cj| ||y||, 0 ^ u(c,y) ^ (l + ||c||)||y||. Wte- dy dla dowolnego zbioru zwartego K a Rd + l mamy

supcsK i f u ( c ,Y - Eu (c,Y)

«i= 1

p.n. 0. ‘

(Mierzalność kresu górnego jest zapewniona dzięki ciągłości u (c, y) względem c.) Dowód lem atu 1. Oznaczmy U(c) = Eu(c, Y), U„{c) = - Y u{c, Yf).n Mocne prawo wielkich liczb Kołmogorowa zapewnia dla każdego ustalonego c zbieżność U n(c) -> U {c) p.n. Rozważmy, dla danego t > 0, i-sieć zbioru K, czyli skończony zbiór N c K o tej własności, że dla każdego ceK istnieje c'eN takie, że ||c — cj| <t. Ponieważ zbiór N jest skończony, więc sup|t/„(c')-t/(c')| -*0 p.n. Z drugiej strony, mamy

c'eJV

\Un(c)-U(c)\ ś i Un (c) - U n (c')| + 1 Un (c') - U (c')| + 1U (c) - U (c)|, gdzie ć e N i ||c — d | < T. Zauważmy, że zachodzi nierówność

|[/„(c)~ l/„(c')| =? n |«(c,Y,)-a(c', Yf)| < ||c - c '||i£ IMU,n podobnie

\U (c)-U (c')| ^ E\u(c, Y ) - u (c', Y)| < ||c-c1|£||Y||.

Stąd wynika, że

su p|l/„(c)-l/(c)K s u p It/.M -U M K (EIIYII+i^llYillV

c eK c’eN \ n /

Stosując prawo wielkich liczb Kołmogorowa do ciągu zmiennych losowych

||Y£|| i biorąc pod uwagę dowolność t > 0, dostajemy tezę lematu. ■ Dowód tw ierd zen ia 1. Funkcja W jest ciągła. W istocie, l'P(c)

— ^ (d l ^ ||c — d | E(\W\ + ||X||). Dla dowolnego £ > 0 istnieje zatem i > 0 takie, że W(c) > W{a) + 2x dla ||c —a||= e. Korzystając z lematu 1, w którym przyjmujemy - w(c,y) = ipa{w— <c,x», y = (w, x), wnioskujemy, że sup | (c) — W (c)| -> 0 p.n. Zatem następujące nierówności zachodzą z

l |c - a || =Se

prawdopodobieństwem 1, dla dostatecznie dużych n:

•F„(c) > (c) — t > ¥*(a) + i dla ||c —a|| = e, W„(a) < Y(a) + z.

1) 2)

(13)

Ll-optymalne procedury dyskryminacji statystycznej 69

Funkcja wypukła, która osiąga w środku kuli mniejszą wartość niż w dowolnym punkcie na jej brzegu, musi przyjmować minimum wewnątrz kuli.

Jednoczesne zachodzenie 1) i 2) pociąga więc za sobą ||a„ — a|| < s. ■ v Następujących dwóch twierdzeń będziemy dowodzili jednocześnie.

Tw ie r d z e n ie 2 (Asymptotyczna normalność). Załóżmy, że ¥ (c) > ^(a) dla każdego c ^ a. Niech E\W\r < oo i Elixir < oo dla każdego r > 0. Załóżmy, że dla punktów c eRd + l leżących w pewnym otoczeniu punktu a rozkłady zmien- nych losowych (c, X> — W są absolutnie ciągłe względem miary Lebesgue'a, istnieją takie wersje gęstości / (c, t) = dens<CtX>- w(t) i warunkowej wartości oczekiwanej C(c, t) = F(Xr X| <c, X )— W= t), że funkcje f i C są ciągłe w punkcie (a, 0),/(a , 0) > 0 i macierz C(a, 0) jest dodatnio określona. Wtedy

gdzie

£ = a2£XTX V ><a,x>}+ ( l- a ) 2£XTX V « a> (, D = /(a, 0)C(a, 0).

Uwaga. Jeśli funkcje/i C są ciągłe w pewnym otoczeniu punktu (a, 0), to można łatwo pokazać, że ¥ jest funkcją dwukrotnie różniczkowalną i jej druga pochodna wyraża się wzorem H*F(c) = /( c, 0)C(c, 0). W szczególności mamy wtedy D = H?f(a).

Tw ie r d z e n ie 3 (Rozwinięcie asymptotyczne). Jeżeli są spełnione założenia twierdzenia 2, ponadto Q: Rd + 1 -* R jest taką funkcją ograniczoną, dwukrotnie różniczkowalną w sposób ciągły w pewnym otoczeniu punktu a, że VQ (a) = 0 i WQ (a) jest macierzą nieujemnie określoną, to

EQ(K) = e (a )+ itr(H S (a )D -> £ D -') + o ^ j .

Zanim przejdziemy do dowodu powyższych twierdzeń, sformułujemy >

kilka lematów. Zaczniemy od lematu dotyczącego oszacowania szybkości zbieżności w słabym prawie wielkich liczb dla szczególnej postaci układów trójkątnych.

Le ma t 2. Rozpatrzmy trójkątną tablicę zmiennych losowych X ni,

i = 1, ..., n, n = 1,2, ..., postaci X ni = ZtA^. Załóżmy, że:

(a) dla każdego n pary (Zl5 Ani), ..., (Z„, Ann) stanowią układ niezależnych wektorów losowych w R2,

(b) Z,- mają jednakowy rozkład, R = £|Zi|r < oo dla pewnego r > 2,

(c) istnieją stałe p e [0 ,1) i a> 0 takie, że P(dm- = 0) ^ 1 — a/np i P (0 ^ Ani < anp) = 1.

(14)

Jeżeli v < -—- ———, to istnieje taka stała C = C(r, s, v, p, R, a) że

^ n -v \< C/ns.

- t X m-E X , ni= 1

Uwaga. W szczególności, przy p = 0, powyższy lemat daje nierówność P(\n~l ^ Z i- E Z ^ > n~v) < C n s dla v

Można pokazać, że to oszacowanie pozostaje prawdziwe dla v < 1 s + 1 Dowód wymaga jedynie nieznacznej modyfikacji. Takie wzmocnienie nie będzie nam potrzebne, a wspominamy o nim po to, aby wskazać na bliski związek z wynikiem zawartym w [23] (por. także [16], rozdz. IX, § 4).

D ow ód lem atu 2. Dla ustalonego n obierzmy M„ > 0 i wprowadźmy obcięte zmienne losowe Źm= Zt niech Xm- = Ź ni oraz Yni —

= Xm — EXm. Mamy, na mocy założeń o zmiennych nierówność

\EX„i\ ^ E\XJ ^ a2 Mn. Stąd z kolei wynika, że dla dowolnego m, E\Yni\m <

^ 2m" 1(£|Xmr + |£Xm|m) < 2m~1 l(a2 M ^ + ia rfM ^a n -^ < {AMn)mnmp~p, gdzie A = 2amax(a, 1). Niech K n = AMn. Mamy zatem E\Ynj\m ^ K™nmp~p.

Ponieważ EYni — 0, więc

ł) £ exp (ty j = 1 + £ — EYS H 1 + £

m= m=2m-

Przyjmując K„ = n(s+1)/r i t = „-<i+p>/2-<*+!)/»; mamy tKn = „ -u+p>/2 { wtedy możemy prawą stronę 1) oszacować przez wyrażenie

1 co i i * i

1_|__ y _ n ~m(l +p )l 2 „ m p - p + l y n - ( w - 2 ) ( l - p ) / 2 ^

«m= 2ml n m=2ml

1 00 1 1

<1 + - I —7 < 1 + - < e1/n.m= 2ml n

Stąd £exp(n"(1+l')/2- (s+1)/rym-K « 1/". Niech Sn = Y,iYm- Ponieważ zmienne Ynl, •••> Ynn są niezależne, zatem

2) Eexp(n~<p+1)/2~<S+1)/,SB) < f i eUn = e-

i = 1

Nierówność P(S > e) ^ e~teEe?s pozwala nam teraz wnioskować, że P(Ś„ ^ n1-w) < eexp( —n(1~p)/2_(s+1)/r_w). Dla P(Ś„ < — n1-w) zachodzi takie samo oszacowanie, więc

3) > n ~ w ) < 2eexp( —n(1-p)/2_(s+1)/r-w).

(15)

L1-optymalne procedury dyskryminacji statystycznej 71

Pozostaje teraz oszacować różnicę pomiędzy sumami obciętych i nieob- ciętych zmiennych losowych, tj. pomiędzy Śn a Sn = X^ — nEX^. Mamy mianowicie \Ś„-S„\ X J + nlEX^ —E X J. Stąd widać, że

4) P(\SJn\ > n-" + \EXM-E X J ) ś P(\ŚJn\ > n~w) + P(3ie{1...# X J . Załóżmy teraz, że v <w <^-—+- —2 r Mamy \EX^ — EXM\< £d m-lZ^-Zi|

^ arfE\Zi\l{jZ^ >Mn] ^ aifE\Zi\r/M r„~l, a M„ = A~'n(s+l)lr. Możemy, oczy- wiście, założyć, że 5 > 0. Biorąc pod uwagę nierówność

1 — p s + 1 1 — p

(r-l){s+ l)/r-p = — --- + ~ ~ - + s >w,

2 r 2

widzimy, że

5) \E X rt-E X J ^a A r~ 1Rn~w.

Z kolei P(3ieę,...,„]\Zi\ > M„)< nP(|Z,| > < nE\Z$/Mrni stąd wynika, że

6) P(3i6{1

Prawą stronę nierówności 3) możemy oszacować przez Bn~s dla pewnej stałej B, ponieważ funkcja wykładnicza maleje do zera szybciej niż funkcja potęgowa. Nierówności 5) i 6) pozwalają przepisać 4) w postaci P(|n-1S„| ^

^ (1 +aAr~1R)n~w) < (B + ArR)n~s, co wobec v <w implikuje tezę lematu. ■ Następny lemat opiera się na nierówności udowodnionej w [6] (por.

również [7] lub [16], r. III. § 5).

Le ma t 3. Niech będzie dana tablica trójkątna wektorów losowych X^, i = 1 ,..., n, n = 1,2, ..., w Fd + 1 taka, że:

(a) każdy wiersz Xni, ...,X„„ składa się z wektorów niezależnych o tym samym (zależnym od n) rozkładzie,

(b) R = sup£||X J|r < oo dla pewnego r >2, (c) istnieje taka stała, a > 0, że ||£XJ| < a/^fn. *n

Jeśli S„ = Xm-, to istnieje taka stała A > 0, że dla v = r 2 (r-l)

£||SJ|2l {, |s i i ^ > < ^ .n

Dowód lem atu 3. Zauważmy najpierw, że wystarczy udowodnić lemat w przypadku jednowymiarowym, d = 0. Oznaczając bowiem S„ =

= (Sj, S*, ..., Sj), powołamy się na nierówność

(16)

Przyjmijmy zatem, że X ni są zmiennymi losowymi. Niech Yni = X M — pn, gdzie fi„ = EXni. Mamy E\Yni\r < 2r-1(£|Zm-|,, + |^Jr) ^ 2rR dla dostatecznie dużych n, ponieważ ->0.

Niech Z„ = £,• Y^ . Dla pewnej stałej C = C(r) zachodzi następująca nie- równość: E\Zn\r < Crfl2~xYJ. E\Yni\r = 2rCRnrl2 [16]. Stąd wnioskujemy, że

W = E\Zn + npn\r ^ T -'iE lZ J + n 'M ^

< 2r~ \2 rCRnr/2 + an-r/2nr) ^ Anr/2 i

ES2n W * " } ^ n - * - 2>E\Sa\r ^ Anrl2~v(r~2) ^ Anv,

2 2 (r — 1) 2 (r — 1)

Sformułujemy teraz dwa lematy, dotyczące jednostajnej zbieżności według prawdopodobieństwa.

Le ma t 4. Niech Y, Y1? ..., Y„, ... będą niezależnymi wektorami losowymi w Rd + 2 o tym samym rozkładzie, £||Y||r < op dla .pewnego r > 4. Niech u: Rd + 1 x /f, + 2 -+R będzie funkcją spełniającą warunki |w(ę, y) —m(c', y)| ^

^ ||c — c'|| ||y||, 0 < w(c, y) < (1+ ||c||)|Jy||. Dla dowolnego zbioru zwartego K c: Rd + 1 istnieją takie ciągi i rjn liczb dodatnich zbieżne do zera, że

Pi sup

\ c e K

Uwaga. Teza tego lematu zachodzi, jeśli £||Y||r < oo dla pewnego r > 2.

Można to udowodnić, używając takiej wersji lematu 2, o której wspomnieliś- my w poprzedniej uwadze.

Dowód lem atu 4. Niech U(c) = Eu(c, Y), U„(c) = - Yw(c, Yf). Dlan ustalonego c lemat 2 (w którym przyjmujemy p = 0, Ani, = 1 i Zf = u(c, Y)) daje oszacowanie P(\U„(c) — U(c)| ^ n~v) < A/ns dla 1 <s <r/2 — 1 i 0 <i; <

1 s — 1

< - ---. Powtarzamy teraz, niemal dosłownie, rozważania z dowodu2 r lematu 1. Różnica polega tylko na tym, że rozważamy ciąg Nn zbiorów skończonych, stanowiących r„-sieci zbioru K, gdzie t„ = rc_7(2£||Y[|). Widzi- my, że

sup|l/„(c)-l/(c)| s: sup |l/„(c')-t/(c')| + (£||Y||+

c eK c 's W n ^

P (sup |L/„(cr) — L7(cr)| ^ n~v) ^ # NnA/ns,aj - t u(c, Y,)-£u(c, Y) ^ L )<nJn.

(17)

L1-optymalne procedury dyskryminacji statystycznej 73

z kolei

p ( “ L llYill > 2 £ llY ll) < C j r f ,

znowu na mocy lematu 2. Wystarczy więc dobrać tak wolno zbieżny do zera ciąg t„, innymi słowy tak małe v > 0, aby można było konstruować sieci o liczności # Nn = o(ns“ 1). ■

Następujący lemat odgrywa kluczową rolę w dowodzie twierdzeń 2 i 3.

Le ma t 5. Niech (Z, Y), (Zlt Yj), (Zn, Y„), ... będą niezależnymi wekto- rami losowymi w Rm xRd + 2 o tym samym rozkładzie, £||Z||r < co i £||Y||W < oo

2 r

dla pewnych r i w takich, że — < — (1 — p) — 2w [2

u: Rd+l xRd + 2 -*R spełnia warunek |w(c, y) — u(c',y)| ^ ||c — c'|| ||y||, a funkcje ón:R -* R niech będą ciągłe i takie, że Sn(t) ^ 0, ón(t) ^ rf, S„(t) = 0

j(d+\) — p, p< 1. Niech i

dla |f| ^ \/nP i [ ón(t)dt = 1. Załóżmy, że funkcja J(c, t) = E(Z\u(c, Y) =ÓO - OO

= t)dens„(c>Y)(f) jest określona w pewnym otoczeniu punktu (a, 0) i ciągła w tym punkcie.

Wtedy dla dowolnego ciągu liczb dodatnich ę„ ->0, istnieją takie ciągi liczb dodatnich ->0 i rjn ->0, że

|c —allsup - I Z(«„(«(£, Y ,))-

3

(a,

0

)

«i= 1 >Zn)< In

Dowód lem atu 5. Możemy ograniczyć się do przypadku, kiedy Z —Z jest nieujemną zmienną losową. W ogólnej sytuacji, kiedy Z — (Z1, ...,Z m), wystarczy rozpatrzyć zmienne max (Z*, 0) i max( — Zk, 0).

Niech q > p. Określmy funkcje <5„ i Sn następująco:

1) <$„(0= SUP |jc — t| < 1/m« &(*)= inf Sn (x).|x-t|<l/n«

Mamy oczywiście 1 — 2np~q ^ < 1 ^ j<5„ ^ 1 + 2np~9 < 3.

Dla ustalonego c eRd+1 zastosujemy lemat 2 do tablic zmiennych loso- wych ZiŚnfaic, Y,)) i Zjó„(u(c, Y,)). (Aby uniknąć niepotrzebnych powtórzeń, będziemy dalej pisali ćila zaznaczenia, że takie same wzory są prawdziwe zarówno dla Sn, jak i i5„.) Otrzymujemy nierówność

2)

r 1 —p s + 1

dla s < —(1 p) 1, 0 < v < — ---

2 2 r

ze względu na c.

pewnej stałej C > 0, jednostajnie

(18)

Dla ||c — a|| <C„ zachodzi nierówność l|3(c> 04,W *-3(a> 0)1 <

« jl3(c, o —3C«, 0)|£(t)*+ 3(a, 0)|J& (t)A -l| < y„

gdzie ciąg y„, dany wzorem

Jn = 3 sup sup 13 (c, t) - 3 (a, 0)1 + 2 3 (a, 0) np~q,

l|c-a|| < ę „ |t|<2/nP

zmierza do zera na_mocy ciągłości funkcji 3- Niech = rj„ + sn. Określimy zdarzenia losowe A„(c) i Ąn(c) następująco:

3) dni C) =

co

e

Q:

^ X Z i (co) ó„ (u (c, Yf (co))) - 3 (a, 0) Mamy zatem dla każdego c, takiego że ||c — a|| < £„, nierówności 4) P(/f„(c))<^, P{ŚA c ))< ^ .n n

Dla ustalonego n wybierzmy Mn > 0. Niech ||c—c'||< t„, gdzie

t„ = M ~l n~q. Dla takich coeQ, że ||Yf(co)|| ^ M„, mamy 5) £>„(u(e', Y,(OJ))) (c, Y,(co))) < (u(c', Y,(co))).

Zbudujmy teraz i„-sieć Nn kuli K n = lc: ||c —af| ^ £„}.

co«£ U A„(c')vA„(ć), to ce(V"

6) sup

c’eN„ -£Z,(co)&,(u(c\ Y,(co)))-3(a, 0)

Jeżeli

Jeżeli ponadto ||Yf (co)|| ^ M„, to z nierówności 5) i 6) wynika, że

7) sup

ceK - £ Zt (co) Sn (u (c, Y, (co))) - 3 (a, 0)

Oczywiście P( U (3„(c')u3„(c'))) ^ — #iV„. Można wybrać sieć Nn

c ’ eNn

tak, aby #iV„ ^ (d+ l){d + l)/2(Mnnq)d + 1. Z drugiej strony, mamy m 6{i,...,„}||Yfi| > M„) ^ n£||Y|r/Af:. Stąd wynika, że nierówność 7) nie zachodzi z prawdopodobieństwem co najwyżej 2C(d+ l)d + 1(M„ nq)d+l/ns +

+ n£||Y||'7M”. To wyrażenie zmierza do zera szybciej niż -, jeśli przyjmiemy 2 s — 1 n

Mn = ny, gdzie — < y < - —- — q. Na mocy założeń możliwy jest taki wybór w d + 1 q > p i s < - ( l - p ) - l oraz y, że ta nierówność będzie spełniona. ■r

(19)

L1-optymalne procedury dyskryminacji statystycznej 75

W dowodzie twierdzeń 2 i 3 posłużymy się metodą przybliżania funkcja- mi gładkimi, podobną do użytej w [1] w dowodzie twierdzenia 2.2.

Dowód tw ierdzeń 2 i 3. Zaczniemy od skonstruowania funkcji gład- kich, odpowiednio przybliżających funkcje !P„. W tym celu będziemy apro- ksymowali funkcję if/x (wzór (1.1)) funkcjami ę n zdefiniowanymi następująco.

Niech ó:R-+R będzie funkcją ciągłą taką, że 0 ^< 5 (f)^l, <5(t) = <5( — t),

<5(0 = 0 dla |r| > 1 i §ó(t)dt = 1. Określmy jf(0 = j ó{x)dx, ę{t) =t

t

= J x(*)dx, ęx(t) = {cc-l)t + ę{t), X«(0 = ę*(t) = a - 1 +x{t). Zauważmy,

- 00

że ęx jest funkcją wypukłą, ę x(t) = $a(t) dla |t| > 1, 0 < ęx{t)-i)/a(t) < 1.

Weźmy teraz dowolne pe{j, 1) i przyjmijmy (p„{t) = n~pę x{rft), x„(f) =

= <Pn(t) = Xa(rft), Sn(t) = Xn(t) = rfd(rft). Mamy ę n(t) -*«M0 przyjmując oznaczenie xx{t) = a — 1 + 1(_ao,o](05 Xn(0 ~+xa{t) = ^ ( 0 dla t ^ 0. Zauważ- my, że 0 < <5„(0 ^ rf, §ó„{t)dt = 1 i Sn(t) = 0 dla \t\ ^ n~p. Oznaczmy ponad- to h„(t) = n2p(ę„{t)-il/x(t))/M, gdzie M = f ę*{t)dt i kn(t) = xx{t)- x„(t).

Łatwo się przekonać, że 0 < hn(t) ^ rf, \kn{t)\ < 1, §hn(t)dt = l i hn(t) = - 1

= kn(0 = 0 dla \t\^ n ~ p.

W naszym dowodzie parokrotnie będziemy mieli do czynienia z odwzoro- waniami Q -> Rd+i, które nie muszą być mierzalnymi odwzorowaniami (fl,^ ) -*(Rd+l, ŚS(Rd+1)) lub też ich mierzalność jest trudna do pokazania.

Aby posługiwać się takimi obiektami tak jak wektorami losowymi, będziemy zmuszeni używać, zamiast prawdopodobieństwa P, zewnętrznego prawdopo- dobieństwa P*, określonego wzorem P*(A) = inf P(B) i mającego sens dla

A <=Be.^

dowolnych zbiorów A c Q.

Możemy teraz przejść do zasadniczej części dowodu. Określmy funkcje Y„

wzorem 1 2

1) Y„(C) = “ X <PnW— <C, X(» .

ni= 1

Dla ustalonego co eQ funkcja Y„: Rd+l -+R jest nieujemna, wypukła i, jak łatwo spostrzec, przyjmuje minimum w przynajmniej jednym punkcie cn = cn{(o)eRd+1:

2) Y„(c„) = infY„(c).

Nie musimy, zgodnie z poczynioną powyżej uwagą, zatrzymywać się nad c

kwestią mierzalności c„ jako funkcji co.

Dalsze rozumowanie rozbijemy, dla wygody, na kilka kroków.

Krok 1. Pokażemy, że istnieją ciągi liczb dodatnich £„ ->0 i rjn~* 0, takie, że P(l|a„ — a|| > Q < rjjn i P*(||cn-a || > U < rjjn.

(20)

Rozumowanie jest podobne do dowodu twierdzenia 1. Zastosujemy lemat 4, w którym przyjmiemy y = (w, x), u(c, y) = \j/a(w— <c, x». Niech będzie ciągiem występującym w tezie lematu. Znajdźmy takie aby ||c — a|| = C„

implikowało *F(c) > *F(a) + 3£„. Mamy

dla pewnego ( ^ £„. Jeżeli nie zachodzi zdarzenie występujące pod znakiem prawdopodobieństwa w 3), to dla ||c — a|| = £„ mamy *F„(c) > *F(c)

— £„ > W(a) + 2£„, a ponieważ *F„(a) < W(%) + £„, wnioskujemy podobnie jak w dowodzie twierdzenia 1, że ||a„ — a|| <£„. Ponadto Y„(c) ^ Wn(c) > *F(a) + + 2£„ oraz Y„(a) < *Pn(a) + n~p < P(a) + £„ + n“p < W(a) + 2£„, bo można bez straty ogólności założyć, że > n~p. Stąd wynika, że również ||c„ — a|| <£„.

Reasumując, pokazaliśmy, że ||a„(co) — a|| < £„ i ||c„(co)-a|| < £„ dla cy należą- cych do pewnego zbioru, nazwijmy go Q\An, którego dopełnienie A„ ma prawdopodobieństwo mniejsze, niż rjjn.

Krok 2. Jeżeli an:Q -*R d + 1 są takie, że P*(||a„-a|| ^ £„) < rjjn dla rjn > 0, Cn “►O, rjn -►(), to istnieją ciągi en > 0, “>0, e„-*0 takie, że

Norma w powyższym stwierdzeniu oznacza normę operatorów liniowych.

Możemy jednak traktować macierze (d + l)x (d + l) jako wektory w prze- strzeni R(d + 1) , gdyż norma euklidesowa w tej przestrzeni jest równoważna z normą wyjściową. Pozwala nam to skorzystać z lematu 5. Ponieważ

dla pewnych ciągów v„ ->0. Istnieją zdarzenia An a Q takie, że P(A„) <

<r\Jn i co<£An implikuje 11 cv, (co) — a|| < £„. Jeśli zdarzenie pod znakiem prawdopodobieństwa w 5) nie zachodzi i co£An, to ||HY„(a„) — D\\ <

Wystarczy przyjąć e„ = t]n + vn.

Dla ustalonego weQ skorzystamy ze wzoru Taylora drugiego rzędu, biorąc pod uwagę, że FY„(c„) = 0. Mamy Y„ (a„) - Y„ (c„) = \ (a„

— c„)HY„(ą,)(a„-c„)T dla pewnego ct„ = a„(co) leżącego na odcinku łączącym punkty a„ i c„. Fakty pokazane w kroku 1 pociągają za sobą P(An) <rj„/n

3)

P *(\\m A %)-D \\> Q < tJ n .

Krok 3. Istnieją ciągi t„, y„ > 0, r

< yjn. ->0, y„ ->0 takie, że P* (||c„-a„|| ^ x j j n )

(21)

L1-optymalne procedury dyskryminacji statystycznej 77

dla pewnego zdarzenia Ane.F takiego, że to$An implikuje ||cv,(co) — a|j <(„.

Na podstawie tego, co udowodniliśmy w kroku 2 widać, że istnieją zdarzenia B„e3F takie, że P(Bn) < ejn i co<£B„ implikuje ||HY„(o„(a))) — D\\ ^ ę„, a więc, dla dostatecznie dużych n, Y„(a„(co)) — Y„(c„(co)) > iC||a„(co) — c„(co)||2, gdzie K = i||D " 1H"1. Dla dowolnie wybranego t„ oznaczmy C„ = {oj eQ:

l|a„-c„|| > r j xfn}. Dla w $BnuC n mamy

Y „(a„)-Y „(c„)>^-^,n

skąd, wobec nierówności *F„(a„) ^ ^„(c„) ^ Y„(c„), wynika

6) Y„(a„)— *?„{&„) > ——n

Pokażemy teraz istnienie takiej stałej A i zdarzeń En, że

7) Y „ (a „ )-^ „ (a „ )^ 4n p

dla oo$En, a P(En) <6Jn, 9n ->0. Istotnie, wystarczy zauważyć, że Y„(c)-

— *P(c) = Mn~2p- Y KiWi— <c, X,», zmienne losowe n <c, X,» speł- niają założenia lematu 5. Korzystając z tego lematu, dostajemy P(n_2p(Y„(a„) —

--P(a„))-l| > Q < r,J n . Wystarczy teraz wybrać t„ tak, aby K 2x2/n > A/n2p, wtedy 6) i 7) wykluczają się wzajemnie, czyli C„ c En\jBn.

Krok 4. Oznaczmy G„ = VY„ (a). Pokażemy, że nEG* G„ -> E oraz że Zauważmy, że£)•

8) G„ = —- Y, X,X„(WJ— <a, X,».

n i= 1

Ponieważ różniczkowanie pod znakiem całki, uzasadnione twierdzeniem Lebesgue’a o zbieżności mąjoryzowanej, daje równość VW(c) = -E X x a(W - <c, X», zatem, przyjmując Tt = xa(W- — <a, Xż», dostajemy ET,Xt = P7|P(a) = 0. Niech V„ = k„(W,-(a, X,», g„ = - - ' Z 7'.*,, r„ =n

= - Y V niXi. Mamy G„ = g„ + r„. Ponieważ E T2XjXi — Ey więc n

Eglg„ = -E . Przedstawimy teraz EGlG„ w postaci - E + £g^r„ + n n + Erl g„ + Er* r„ i pokażemy, że wszystkie wyrazy, z wyjątkiem pierwszego, są

(22)

o(n 1), czyli E G lG„ = - E + o(n *). Ponieważ funkcje C(c, t) i/( c, f) są ciągłen w punkcie (a, 0), więc możemy oszacować

£||7;k- x,t x,||= || J C(a,t)x.(t)k,(t)f(»,t)dt\\

- 00

1 IrP

J 11C(a, ()||/(a, t)dt = 0(n~r),

— 1/nP

||£Fm.Xi||^ £ ( l + ||X||2)|Fm.| =i2\

= J[1 + £(||X||2|łF - <a, X> = f)]M 0/(a, t)dt = 0{n~%

analogicznie

W E V lX lM = ||fC(a, t)k2n{t)f{a, r)^|| = 0 (n ^).

Biorąc pod uwagę równość £TjX, =0, wnioskujemy natychmiast, że

\\EgTn rn + ErTn g„|| = 2n~21|£ E T fo Xf Xf|| = O J = o (n '1) oraz, podobnie,

Zbieżność yfngn ^*N(0, E) wynika natychmiast z centralnego twierdze- nia granicznego dla sum niezależnych wektorów losowych o tym samym rozkładzie. Ponieważ ||£rjr„|| = o(n~1) implikuje yfn r„ ^ 0 , więc także y /n G '^N fO , E).

Krok 5. Mamy £||G„||21{||GJ >Sn} < vjn i P(||G„|| > Bn) < v jn dla pewnych ciągów S„, vn > 0, ->0, v„ ->0.

Niech S„ = nG„ = —7^X;. W poprzednim kroku pokazaliśmy, że

||£(Fra.-7DX(|| = ||£K„.Xi|| = 0 (n -'’) = o(Vn). Ponieważ E\\(V«- ® X ,|r=5

< £||X||r, zatem spełnione są założenia lematu 3 i otrzymujemy

£||S„||21{||Sj z„V} < Anv dla pewnego v < 1. Stąd wynika pierwsza z dowodzo- nych nierówności dla = v„ = nv~1.

Druga nierówność wynika natychmiast z lematu 2 oraz z faktu, że

£||G„|| -►O.

Krok 6. W tym kroku zakończymy dowód twierdzenia 2.

(23)

Ll-optymalne procedury dyskryminacji statystycznej 79

Mamy FY„(c„) = O, ponieważ c„ jest punktem, w którym funkcja Y„

osiąga minimum. Wzór Lagrange’a daje więc G„ = FY„(a) = PY„(a) — - FY„(c„) = (a -c n)HY„(b„) dla pewnego b„ = b„(oj), leżącego na odcinku łączącym a i c„. Oznaczmy Dn = HY„(b„). Mamy, na mocy rezultatu uzyska- nego w kroku 2, P*(\\Dn-D \\ > £) -»0 dla każdego £ > 0, a zatem, ponieważ ciąg s/nG„ jest słabo zbieżny do rozkładu prawdopodobieństwa, również P*(x/«||Gn||||D “ 1- D ~ 1|| > e) ->0 dla każdego e > 0. Mamy c„-a =

= - G nD ; \ więc

9) y/n(a„ — a) = y/n(*„-cn) + ^ /n G ^ D '1 - D ;1)-y/nG „D ~l .

W kroku 3 pokazaliśmy, że P*(v/n||a„ —c„|| > t) -*0 dla każdego t > 0. Stąd wynika, że P(Vn||a„-c„ + G„(D_1-D„_1)|| > e + t) -* 0. Możemy napisać tu P zamiast P*, gdyż wiadomo, że lewa strona i ostatni składnik z prawej strony 9) są wektorami losowymi. Oczywiście y/nG„D~1 ->iV(0, D~1ED~l), więc otrzymujemy stąd tezę twierdzenia 2.

Krok 7. Dokończenie dowodu twierdzenia 3.

Niech = iG „ D "1H e(a)D ~1G[. Mamy EHn = itrH Q fa)!)-1 x xED-1n-1 +o(n~1). Pokażemy, że E\Q(an) — Q{a) — H„\=o(n~l). Niech d„ = a —G„D_1. Mamy

10) |Q (a„) - Q (a) - Hn\ ^ \Q (aj - Q (c„)| + \Q (cJ - Q (dj| + \Q(dn) - Q (a) - Hn\.

Oszacujemy najpierw dwa pierwsze składniki w 10). Ze wzoru Lagrange’a wynika istnienie takich punktów c„ i b„, leżących odpowiednio pomiędzy a„

i c„ oraz pomiędzy c„ i d„, że

m*n)-Q(cn) \ ^ i K - c M m a i \Q(cn)-Q(dn)\ś \\cn- d n\ \ w m u \ . Ponieważ istnieje druga pochodna HQ(a) i VQ(a) = 0, można znaleźć takie stałe L, C > 0, że ||c -a || <£ implikuje ||F()(c)|| ^ L||c —a||. Z tego, co udo- wodniliśmy w kroku 1, wynika istnienie takich zbiorów A „ e że P(An) =

= o(n_1) i dla co$An zachodzą nierówności ||an(cu)-a||, < £ i |lc„(>) — a|| < £.

Z kolei rezultat udowodniony w kroku 5 daje ||d„(w) — a|| <£ jeśli co$Fn,

P ( P j = o (w_1). Zatem, jeśli nie zachodzi zdarzenie AnuF n, to ie(aj-Q (c„)i+ ie(cj-e(d „)i<

< 2L(||a„ - cj| + ||c„ - dj|) (||a„ - c„|| + ||c„ - d„|| + ||d„ - a||).

Niech, zgodnie z wynikami kroków 2 i 3, Bn i C„ będą takimi zdarzeniami, że

||D„“ 1(a))-D “ 1|| <£„ dla co^B„, ||a„(co)-c„(co)|| < xj>jn dla (o$Cn, przy czym £„ - 0 , t„ ->0, P{B „uCJ = o(n 1). Mamy teraz dla co £ A„vB„uCnuF„

IG(a„)-G(<M 2 L ( t ^ + ^ ||G J ) ( ||D - , ||||G J + a iG J + T jv/")-

(24)

Ponieważ £||G„|| < (£||G„||2)1/2 = 0(1/V fi), z kroku 4, więc

£|e(*J-G (<U I = o(l/n) + o (l/v^)0 (l/v^) = o(l/n), ' bo funkcja Q jest ograniczona.

Dla oszacowania ostatniego składnika w 10) wykorzystamy wynik, udo- wodniony w kroku 5. Niech S„ -*0 i v„ -+0 będą takie, że £||G„||21{||G h >Sn}

< vjn i P{ IIGJI > Sn) < vjn. Obierzmy, korzystając z ciągłości HQ, taki ciąg v„ —>0, aby ||HQ(c) — HQ(a)|| <v„ zachodziło dla ||c — a|| ^ ||D-1||#„. Zastosu- jemy wzór Taylora:

IQ (<U - Q (a)- Hn\ = i | tr HQ (a) D 1G„T G„ D~1 - tr Hg(e„) D~1GTn G„ D~1|

dla pewnego punktu e„ leżącego pomiędzy a i d„. To wyrażenie oszacujemy na zbiorze {co eQ: ||G„|| < £„} przez C||Hg(a)-HQ(OII l|G„||2 ^ Cv„||G„||2, natomiast poza tym zbiorem przez 1 + \Hn\ < 1 + C\\HQ(a)|| ||G„||2, dla pewnej stałej C. Stąd

E\Q(dn)-Q (a )-H n\ ś Cv„£|jG„||2 + (l + C||He(a)||)5„/n = o(l/n), co kończy dowód. ■

4. Prawdopodobieństwo błędnej klasyfikacji w modelu ECD. Zastosujemy twierdzenie 3 z poprzedniego rozdziału do zagadnienia klasyfikacji. Powróć- my do sytuacji, rozpatrywanej w stwierdzeniu 4 z rozdziału 2. Rozpatrujemy zatem wektor losowy (J, Z) o wartościach w zbiorze {0,1} xK*. Warunkowe rozkłady prawdopodobieństwa wektora Z przy J = j są postaci EC (m,-, V, g) (definicja 1), nj = P(J = y) = Oznaczmy

(1) A2 =(m 1- m 0)K~1(m1-m 0)r,

(2) G(t) = \g(s)ds.00

t

Będziemy rozważali liniowe reguły klasyfikacji bez zawieszania decyzji.

Możemy, bez straty ogólności, założyć, że we wzorze (2.7) 90 = 8y = 0 i napisać każdą taką regułę w postaci

(3) <$*<>(*) 0 dla Dc (z) < 0, 1 dla Dc(z) ^ 0, gdzie, przypomnijmy, Dc (z) = c° + Y?i ckxk.

Funkcja strat 2: {0,1} x{0,1} -+R+ jest określona równościami 2(0,0) =

= 2(1,1) = 0, 2(0,1) = 2(1,0) = 1. Ryzyko Rx jest, jak już zauważyliśmy w rozdziale 2, równe prawdopodobieństwu błędnej klasyfikacji. Oznaczmy

(4) Q(c) = RA»'.o) = P{J*S'.om)-

Niech L: ',0, l}xR->R+ będzie perceptronową funkcją strat, określoną

(25)

L1 -optymalne procedury dyskryminacji statystycznej 81

wzorem (2.5) z et = i, y0 = y{ . Przyjmijmy dla uproszczenia (co w istocie nie zmniejsza ogólności rozważań), że y0= yx = 1, v0 = — 1, vt = 1. Mamy teraz

l 1 +1 dla t > — 1 i j = 0, (5) L{j, t) = < 1 — t dla t < 1 i j = 1,

(0 w pozostałych przypadkach.

Niech £||Z|| < oo. Oznaczmy W(c) = RL(D,). Określimy wektory losowe X' w Rd i X w Rd+1 następująco:

(6) X' = (2J-1)Z , X = (2J—1)(1, Z).

Ryzyko perceptronowe wyraża się teraz wzorem (por. (2.6)):

(7) (c) = £ (max(l — <c, X>, 0)).

Jest to szczególny przypadek funkcji postaci (1.2). Niech a eRd + i będzie jedynym punktem spełniającym warunek

(8) W (a) = inf ¥* (c).

c

Na mocy stwierdzenia 4 mamy

(9) (2(a) = inf<2(c).

C

Załóżmy teraz, że na przestrzeni probabilistycznej {Q, ŚF, P) określone są niezależne wektory losowe (J, Z), (Jl5 Z t), ..., (J„, Z„), ... o takim samym rozkładzie. Przypuśćmy, że wektory (Jh Z,) są, w odróżnieniu od (J, Z), całkowicie obserwowalne. Na ich podstawie można konstruować regułę klasyfikacji w sposób następujący. Utwóżmy funkcję

(10) f'n(c) = - X max(l — <c, X*>, 0),ni=1

gdzie X, = {2Ji — 1) (1, Z,), znajdźmy punkt a„, w którym ona przyjmuje minimum:

(U) *P«(aJ = inf *P„(c).

C

Reguła ńan>0 jest próbkowym odpowiednikiem reguły <5a>0. Pamiętając, że a„ = ZJ, ..., (Jn, Z„)), łatwo zauważyć, że

(12) P ( J # 5 an,o(Z)) = £Q(an).

Wielkość ta będzie przedmiotem naszych rozważań w tym rozdziale. Intere- sować nas będzie pytanie, o ile posługiwanie się regułą klasyfikacji obliczoną na podstawie próby zwiększa prawdopodobieństwo błędnej klasyfikacji w stosunku do wielkości optymalnej (9), możliwej do osiągnięcia przy pełnej znajomości rozkładu prawdopodobieństwa. Istnieje bogata literatura doty-

6 — Matematyka Stosowana t. 31

Cytaty

Powiązane dokumenty

M5 – Ma prostopadłe przekątne, ale nierównej długości, boki równe N12 – Odcinek łączący środek okręgu z punktem na jego obwodzie O5 – Figury mieszczące się na

Zadania w systemie ochrony zdrowia trzeba rozpisać na tyle precyzyjnie, by każda jednostka władzy publicznej mogła zostać w należyty i obiektywny sposób rozliczona z ich realizacji,

Pracownik anodowni powinien być w stanie zidentyfikować gotowe produkty do kontroli, które sprawdzono i uznano za zadowalające lub części, które zostały zapakowane i / lub są

Jeśli zatem uznamy środki semantyczne, do jakich odwołuje się logika LBD, za autonomiczne, to okazuje się, że zobowiązania do istnienia zbiorów, wyraża ­ ne w logice

Następnie w każdym z tych przypadków proszę wypisać tę sumę wyraz po wyrazie i za pomocą nawiasów pokazać co i w jakiej kolejności jest sumowane7. Wskazówka: zmienić

Sprawdź, czy średnia z próby jest estymatorem asymptotycznie efektywnym parametru

Sposób wyliczania reguł minimalnych przedstawiono dla tablicy decyzyjnej A=(U,A ∪ {d}) umieszczonej poniżej, gdzie U={x1,...x8}, C={a,b,c}- atrybuty warunkowe, d

Problem związany z zaburzeniem konwersyjnym Konwersja jest nie tylko problemem harmonii nozologicznej, ale zagraża całemu konstruktowi fizjologicznych zaburzeń pod