www.wuj.pl Wydawnictwo Uniwersytetu Jagiellońskiego
MAREK SKOMOROWSKI
Wybrane zagadnienia
rozpoznawania obrazów
ek Sk omor o w ski W ybr ane z agadnienia r o zpo zna w ania obr az ó w
Mareek Skommmorowowski i klarroowoo niie eprzedsdsddd ttawwwwiwa rozwaaażżane probobleleeemy.
Cały wwwykykykykłałałaładdd d jestss baraaadzo oo staraaaanaaa nie prrzeeeemmymm ślany,, wyczerppujjąącą y, dokłaada nynyn orararaz prprprzyz stttępęę nyy nawwwwweet dla zzupupełełełennine nieprzrzrzzygotowananeeege o czytelllniniikakaka, , , cococo jesesestt tzaleleletą rrrzaz dkkko spotyky ananąąąą. W Polscccce liczne ggroono eksperrrtótót w ww zazazajmmujujuje siiięę ęrozpzpoznnaawaniiemem oooobbbrbazów, aale większs ośośść z nich mmma ateteendennnncję ddod ppprzrzedsststsawiannia a upuppprawianeejeje przez siebie dyscypppliiinyn nauaa koowewwej w ww sppppososóbóbbb w wycycinnkoowywyyy, przez ppryzmat tylkkko jednej ggggrurr py mettodoo (nann pprzrzykłałał dd wyw łął czc niniiie probaaaba ilistycznychhh albo wyłyłyłącąącznieie ssynyny taktktktycznznnnych)h)h)hh, natomimiasast t Marek SSSkS omorowskkki traktuje rozo waaaaażażanąną proooblemmmmatatykykkkkę ę baarddzozo sszezzz roko. W niniejszejjj publikacjjijj ooomóówwiw ł wwszystss kie waważnżnżnż ieiejsszee p pododeeejeścia skkłkładające się na współółłłczczzesesnąnnąn w wieiedzę ę ę o rooozzpozzzznnawaw nin u u obobbbrazów, zzz wyjątkiemm dość poppullarnyychcc mmmetoddd mmininnnimimalalnonnon oddległg ośo ciciiiowych.
Z
Z rerereececenznznzjiji pprroroff. ddrarar h hababa . .innż.ż RRysyszazaaarda Tadeeeeusu iewiczzaa
MSkomorowski-Wybrane-zagadnienia-rozpoznawania-obrazów-WYBRANA.indd 1
MSkomorowski-Wybrane-zagadnienia-rozpoznawania-obrazów-WYBRANA.indd 1 2013-09-18 13:24:362013-09-18 13:24:36
Wydawnictwo Uniwersytetu Jagiellońskiego
Wybrane zagadnienia rozpoznawania obrazów
MSkomorowski-Wybrane-zagadnienia-rozpoznawania-obrazów_tytulowa.indd 1 2013-09-18 13:10:26
Wydawnictwo Uniwersytetu Jagiellońskiego
Wybrane zagadnienia rozpoznawania obrazów
MSkomorowski-Wybrane-zagadnienia-rozpoznawania-obrazów_tytulowa.indd 3 2013-09-18 13:10:26
RECENZENT
prof. dr hab. inż. Ryszard Tadeusiewicz
PROJEKT OKŁADKI Pracownia Register
© Copyright by Marek Skomorowski & Wydawnictwo Uniwersytetu Jagiellońskiego Wydanie 1, Kraków 2013
All rights reserved
Niniejszy utwór ani żaden jego fragment nie może być reprodukowany, przetwarzany
i rozpowszechniany w jakikolwiek sposób za pomocą urządzeń elektronicznych, mechanicznych, kopiujących, nagrywających i innych oraz nie może być przechowywany w żadnym systemie informatycznym bez uprzedniej pisemnej zgody Wydawcy.
ISBN 978-83-233-3641-9
www.wuj.pl
Wydawnictwo Uniwersytetu Jagiellońskiego Redakcja: ul. Michałowskiego 9/2, 31-126 Kraków tel. 12-631-18-81, 12-631-18-82, fax 12-631-18-83 Dystrybucja: tel. 12-631-01-97, tel./fax 12-631-01-98 tel. kom. 0506-006-674, e-mail: sprzedaz@wuj.pl
Konto: PEKAO SA, nr 80 1240 4722 1111 0000 4856 3325
Spis tre´sci
1 Uwagi wst˛epne 7
2 Uczenie rozpoznawania obrazów 15
2.1 Metoda uczenia bayesowskiego . . . 18 2.2 Szacowanie g˛esto´sci prawdopodobie´nstwa
a posteriorinieznanych parametrów . . . 21
3 Optymalna reguła decyzyjna 59
4 Model parsingu grafów losowych 71
4.1 Reprezentacja obrazów zniekształconych . . . 72 4.2 Parsing losowych j˛ezyków grafowych . . . 84
5 Algorytmy parsingu grafów losowych 99
6 Implementacja algorytmów parsingu 125
6.1 Testy efektywno´sci obliczeniowej . . . 128
7 Model relaksacyjnego etykietowania scen 131
8 Model systemu automatycznej inspekcji 143
8.1 Reprezentacja brył za pomoc ˛a grafów . . . 143 8.2 Reprezentacja brył za pomoc ˛a grafów
losowych . . . 144 8.3 Statystyczne gramatyki grafowe . . . 149 8.4 Schemat systemu automatycznej inspekcji
obiektów . . . 152
9 Podsumowanie 155
5
Bibliografia 159
Dodatek D1 167
Dodatek D2 171
Rozdział 1
Uwagi wst˛epne
Historycznie, techniki rozpoznawania obrazów (ang. pattern recognition) mo˙zna podzieli´c na dwa główne podej´scia: statystyczne (ang. statistical pattern recognition) i syntaktyczne (ang. syntactic pattern recognition).
Technika sieci neuronowych dostarczyła trzeciego podej´scia (ang. neural pattern recognition). Nale˙zy w tym miejscu podkre´sli´c, ˙ze poj˛ecie obrazu w dziedzinie rozpoznawania obrazów jest traktowane ogólnie i szeroko.
Mo˙ze ono oznacza´c na przykład zjawisko, obiekt, proces, sygnał, wzo- rzec, tekst pisany lub drukowany, rysunek odr˛eczny lub techniczny, kod kreskowy, elektrokardiogram, zdj˛ecie medyczne lub satelitarne. Istniej ˛a równie˙z inne polskie tłumaczenia angielskiego terminu pattern recognition, znane jako rozpoznawanie obiektów lub rozpoznwanie wzorców.
Tematyka rozpoznawania obrazów ma bogat ˛a literatur˛e. Spo´sród po- zycji literaturowych w j˛ezyku angielskim nale˙zy, zdaniem autora, wymie- ni´c monografie: [Fuk72, Che73, DudHar73, TouGon74, YouCal74, Pav77, GonTho78, Fu82, DevKit82, Mic86, Pao89, Fuk90, Kha90, Sch92, Bis95, Bis96, Sch96, OmiDay97, Vap98, BunSan2000, DHS2000, TadOgi2004, Dun2007, TheKou2008, WebCop2011], a spo´sród pozycji literaturowych w j˛ezyku polskim monografie: [Kul72, Woj87, TadFla91, Kur97, Szcz2004, Kor ´Cwi2005, St ˛a2005, Kas2009, MalSmi2010, Fla2011, St ˛a2011].
W podej´sciu statystycznym, obrazy s ˛a reprezentowane przez wektory cech (ang. features vectors), odpowiadaj ˛ace punktom w N -wymiarowej przestrzeni cech. Natura tych cech jest zdeterminowana rodzajem rozpo- znawanego obrazu. Przestrze´n cech jest podzielona na klasy (obszary, ka- tegorie) odpowiadaj ˛ace ró˙znym obrazom. Proces rozpoznawania obrazów w podej´sciu statystycznym sprowadza si˛e do klasyfikacji (przypisania) nie- znanego obrazu x do jednej z klas, do których mo˙ze on nale˙ze´c. Przy- kładem obrazu mo˙ze by´c informacja o pogodzie zapisana w nast˛epuj ˛acy
sposób:
pogoda ≡ [(temperatura w◦C: 20), (ci´snienie w hPa: 1022), (wiatr w km/h: 4), (deszcz w mm: 0),
(wilgotno´s´c w %: 53)]
lub opuszczaj ˛ac nazwy (cechy) i zachowuj ˛ac ich kolejno´s´c, jako wektor pogoda ≡ (20, 1022, 4, 0, 53)
w 5-wymiarowej przestrzeni cech, która mo˙ze by´c podzielona na przykład na nast˛epuj ˛ace typy (klasy) pogody: ładna, pi˛ekna i brzydka.
W statystycznych metodach rozpoznawania obrazów przyjmuje si˛e na- st˛epuj ˛acy model podstawowy: obraz x jest zmienn ˛a losow ˛a; prawdopo- dobie´nstwo wyst ˛apienia poszczególnych klas ki , i = 1 . . . m, jest równe p(ki); g˛esto´s´c prawdopodobie´nstwa pojawienia si˛e obrazu x, przy za- ło˙zeniu, ˙ze nale˙zy on do klasy ki jest równa f (x|ki). W przypadku pełnej informacji probabilistycznej, to znaczy przy zało˙zeniu, ˙ze rozkłady p(ki) i f (x|ki) s ˛a całkowicie znane, problem klasyfikacji obrazów mo˙zna sformułowa´c jako problem decyzji statystycznych, definiuj ˛ac funkcj˛e decy- zyjn ˛a d(x), gdzie d(x) = di oznacza zaklasyfikowanie obrazu x do klasy ki . Podj˛ecie decyzji d(x) = dj , j = 1 . . . m, to znaczy zaklasy- fikowanie obrazu x do klasy kj , w przypadku gdy obraz ten nale˙zy do klasy ki, powoduje strat˛e L(ki, dj).
W sytuacjach praktycznych dane o problemie s ˛a zazwyczaj niekom- pletne. W takich przypadkach powstaje konieczno´s´c uczenia rozpoznawa- nia. Poniewa˙z stopie´n nieznajomo´sci rozkładów mo˙ze by´c ró˙zny, dlatego stosuje si˛e ró˙zne algorytmy uczenia. Je˙zeli wiadomo jakiej postaci s ˛a roz- kłady, ale nie zna si˛e pewnych ich parametrów, to uczenie polega na ich szacowaniu, co prowadzi do parametrycznych metod uczenia. Na podsta- wie ci ˛agu ucz ˛acego mo˙zna estymowa´c nieznane parametry i z otrzymanych oszacowa´n korzysta´c w optymalnych regułach decyzyjnych. Dalej posu- ni˛ety brak danych o rozkładach, to całkowita ich nieznajomo´s´c, co prowa- dzi do nieparametrycznych metod uczenia.
Podej´scie statystyczne jest stosowane do problemów, w których obraz mo˙zna reprezentowa´c jako wektor cech. Do problemów, w których naj- wa˙zniejsza jest struktura obrazu jest stosowane podej´scie syntaktyczne.
W podej´sciu syntaktycznym, zło˙zny obraz jest traktowany jako hierarchicz- na struktura składaj ˛aca si˛e z prostszych obrazów, które mo˙zna rozkłada´c na jeszcze prostsze obrazy tak długo, a˙z otrzymamy tak zwane składowe pierwotne (ang. primitive elements, pattern primitives). Nast˛epnie s ˛a iden- tyfikowane (rozpoznawane) składowe pierwotne obrazu i relacje zacho- dz ˛ace mi˛edzy nimi. Relacje zachodz ˛ace mi˛edzy składowymi pierwotnymi
obrazu definiuj ˛a jego struktur˛e. Struktura wykorzystywana do reprezentacji obrazu mo˙ze mie´c posta´c ci ˛agu (ła´ncucha), drzewa lub grafu. W zwi ˛azku z tym, metody syntaktycznego rozpoznawania obrazów mo˙zna podzieli´c na ci ˛agowe, drzewowe i grafowe.
Do reprezentacji obrazów w podej´sciu syntaktycznym s ˛a stosowane gra- matyki formalne (ci ˛agowe, drzewowe, grafowe). Zbiór wszystkich repre- zentacji generowanych przez gramatyk˛e formaln ˛a G jest traktowany jako pewien j˛ezyk L(G). Proces rozpoznawania obrazów w podej´sciu syntak- tycznym sprowadza si˛e do analizy syntaktycznej, zwanej równie˙z parsingiem (ang. syntax analysis, parsing), której celem jest ustalenie, czy rozpoznawany obraz jest syntaktycznie poprawny dla danej gramatyki.
W przypadku metod ci ˛agowych obraz jest reprezentowany przez ci ˛ag składowych pierwotnych. W tym przypadku jedyn ˛a relacj ˛a zachodz ˛ac ˛a mi˛edzy składowymi pierwotnymi jest konkatenacja. Przykładami j˛ezyków ci ˛agowych s ˛a: j˛ezyk opisu obrazów PDL (ang. picture description lan- guage) ([Sha69, Sha70]) i j˛ezyk opisu cech kształtu SFDL (ang. shape feature description language) ([Jak85]). J˛ezyki ci ˛agowe s ˛a stosowane do opisu i rozpoznawania pojedynczych obiektów obrazu. Do opisu i rozpo- znawania obrazów składaj ˛acych si˛e z wielu obiektów s ˛a stosowane j˛ezyki drzewowe i grafowe.
Na rysunku 1.1 jest pokazany ogólny schemat systemu syntaktycznego rozpoznawania (klasyfikacji) obrazów, składaj ˛acy si˛e z nast˛epuj ˛acych blo- ków funkcjonalnych: przetwarzanie wst˛epne, segmentacja, rozpoznawanie składowych pierwotnych i relacji zachodz ˛acych mi˛edzy nimi, analiza syn- taktyczna.
Przetwarzanie wst˛epne (ang. preprocessing) obejmuje kodowanie, apro- ksymacj˛e, filtracj˛e i wzmacnianie. W celu przedstawienia obrazu jako hie- rarchicznej struktury nale˙zy dokona´c jego segmentacji, identyfikacji (roz- poznania) składowych pierwotnych i relacji zachodz ˛acych mi˛edzy nimi.
Techniki stosowane w przetwarzaniu wst˛epnym i segmentacji s ˛a przed- miotem bada´n dziedziny zwanej przetwarzaniem obrazów (ang. image processing). Przegl ˛ad technik przetwarzania obrazów mo˙zna znale´z´c na przykład w [Pav82, GonWin87, TadKor97, Rus99]. Decyzja o tym, czy re- prezentacja obrazu jest syntaktycznie poprawna, to znaczy, czy nale˙zy do klasy obrazów opisywanych przez dan ˛a gramatyk˛e (ci ˛agow ˛a, drzewow ˛a, grafow ˛a) jest podejmowana na podstawie analizy syntaktycznej.
Na rysunku 1.2 jest pokazany przykład ([Fla93]) przetwarzania wst˛ep- nego (za pomoc ˛a systemu CESARO ([MikTad90]) skonstruowanego w Ka- tedrze Automatyki AGH) obrazów palety robota przemysłowego i repre- zentacje grafowe takich obrazów.
Obraz wej´sciowy
?
?
?
Przetwarzanie wst˛epne
Segmentacja
Rozpoznawanie składowych pierwotnych i relacji zachodz ˛acych mi˛edzy nimi
-
Reprezentacja obrazu
Analiza syntaktyczna (ang. parsing) Gramatyka
(ci ˛agowa, drzewowa, grafowa)
-
?
Klasyfikacja
Rysunek 1.1. Schemat systemu syntaktycznego rozpoznawania (klasyfikacji) obrazów.
Rysunek 1.2. Przykład przetwarzania wst˛epnego obrazów palety robota przemysłowego i reprezentacje grafowe takich obrazów ([Fla93]).
Podej´scie syntaktyczne obejmuje równie˙z metody bazuj ˛ace na technice dopasowywania wzorców (ang. template matching) ([TsaFu83, SanFu83, Sch92]). W tym przypadku struktura rozpoznawanego obrazu jest porów- nywana ze strukturami obrazów wzorcowych. Rozpoznawany obraz nale˙zy do klasy reprezentowanej przez najlepiej dopasowany obraz wzorcowy.
Wrozdziale 2 niniejszej monografii problem statystycznego rozpozna- wania obrazów został przedstawiony jako problem decyzji statystycznych w warunkach niepełnej informacji probabilistycznej, to znaczy przy zało˙ze- niu znajomo´sci prawdopodobie´sntwa p(ki), i = 1, . . . , m, wyst ˛apienia po- szczególnych klas ki i znajomo´sci, z dokładno´sci ˛a do parametrów, rozkła- dów w klasach f (x|Θi, ki), gdzie Θi oznacza nieznany parametr. W roz- dziale tym pokazano, ˙ze dla prób losowych z wybranych rozkładów obser- wacji obrazów g(xn|Θ) istnieje taka g˛esto´s´c prawdopodobie´nstwa a priori f (Θ) nieznanego parametru Θ, dla której rozkład g˛esto´sci prawdopodo- bie´nstwa a posteriori f (Θ|x1, . . . , xn) nale˙zy, po ka˙zdej iteracji oblicze´n, do rodziny funkcji o tym samym rozkładzie co g˛esto´s´c prawdopodobie´n- stwa a priori f (Θ). Inaczej mówi ˛ac, po ka˙zdej iteracji oblicze´n rozkład g˛esto´sci prawdopodobie´nstwa a posteriori f (Θ|x1, . . . , xn) zostaje za- chowany, zmieniaj ˛a si˛e natomiast jego parametry. W takim przypadku ob- liczenia sprowadzaj ˛a si˛e (upraszczaj ˛a si˛e) do obliczania, w ka˙zdej iteracji, parametrów danego rozkładu. Pokazano równie˙z asymptotyczne własno-
´sci szacowania g˛esto´sci prawdopodobie´nstwa a posteriori f (Θ|x1, . . . , xn) nieznanego parametru Θ dla prób losowych z wybranych rozkładów ob- serwacji obrazów.
W rozdziale 3 została przedstawiona optymalna reguła decyzyjna dla prób losowych z wybranych rozkładów obserwacji obrazów.
W rozdziale 4 zostało wprowadzone poj˛ecie grafu losowego umo˙zli- wiaj ˛acego reprezentacj˛e obrazów zniekształconych. W celu uwzgl˛ednie- nia wszystkich mo˙zliwych zniekształce´n jest potrzebny pewien probabili- styczny opis rozpoznawanego obrazu. Losowe grafy IE (ang. random in- dexed edge-unambiguous) zostały zaproponowane w niniejszej monografii jako taki opis.
W rozdziale 5 zostały zaproponowane efektywne, o zło˙zono´sci obli- czeniowej O(n2) (n – liczba wierzchołków w losowym grafie IE) algo- rytmy analizy syntaktycznej do rozpoznawania obrazów zniekształconych dla pewnej klasy gramatyk grafowych.
W rozdziale 6 został przedstawiony system rozpoznawania obrazów zniekształconych zaimplementowany na podstawie zaproponowanego w ni- niejszej monografii modelu. Rozdział ten zawiera tak˙ze opis niektórych mo˙zliwo´sci zaimplementowanego systemu rozpoznawania obrazów znie- kształconych, jak równie˙z wyniki bada´n eksperymentalnych maj ˛acych na
celu wykazanie efektywno´sci zaproponowanego modelu.
W rozdziale 7 został zaproponowany model uogólnionego etykietowa- nia relaksacyjnego scen (ang. relaxation labelling), w którym zastosowano analiz˛e syntaktyczn ˛a losowych grafów IE dla pewnej klasy gramatyk gra- fowch.
W rozdziale 8 został zaproponowany model analizy obiektów w syste- mach automatycznej inspekcji wykorzystuj ˛acy analiz˛e syntaktyczn ˛a loso- wych grafów IE dla pewnej klasy statystycznych gramatyk grafowych.
Rozdział 9 jest jest podsumowaniem.
Dodatki D1 i D2 zawieraj ˛a informacje, do których odwołuje si˛e tekst niniejszej monografii.
Rozdział 2
Uczenie rozpoznawania obrazów
W statystycznych metodach rozpoznawania obrazów przyjmuje si˛e nast˛e- puj ˛acy model podstawowy: obraz x jest zmienn ˛a losow ˛a; prawdopodo- bie´nstwo wyst ˛apienia poszczególnych klas ki , i = 1 . . . m, jest równe p(ki); g˛esto´s´c prawdopodobie´nstwa pojawienia si˛e obrazu x, przy zało-
˙zeniu, ˙ze nale˙zy on do klasy ki jest równa f (x|ki).
W przypadku pełnej informacji probabilistycznej, to znaczy przy zało-
˙zeniu, ˙ze rozkłady p(ki) i f (x|ki) s ˛a całkowicie znane, problem rozpo- znawania (klasyfikacji) obrazów mo˙zna sformułowa´c jako problem decyzji statystycznych, definiuj ˛ac funkcj˛e decyzyjn ˛a d(x), gdzie
d(x) = di
oznacza zaklasyfikowanie obrazu x do klasy ki . Podj˛ecie decyzji d(x) = dj , j = 1 . . . m, to znaczy zaklasyfikowanie obrazu x do klasy kj , w przypadku gdy obraz ten nale˙zy do klasy ki , powoduje strat˛e L(ki, dj). Dla zero-jedynkowej funkcja strat, to znaczy
L(ki, dj) =
( 0 dla i = j 1 dla i 6= j
optymalna reguła decyzyjna, minimalizuj ˛aca warto´s´c oczekiwan ˛a funkcji strat (ryzyko ´srednie), dokonuje klasyfikacji
d∗(x) = dj
to znaczy klasyfikuje obraz x do klasy kj wtedy i tyko wtedy, je˙zeli prawdopodobie´nstwo
p(kj|x) > p(ki|x) (2.1)
dla i, j = 1, 2, . . . , m, i 6= j
W sytuacjach praktycznych dane o problemie s ˛a zazwyczaj niekom- pletne. Niniejszy rozdział dotyczy rozpoznawania obrazów w warunkach niepełnej informacji probabilistycznej, to znaczy przy zało˙zeniu znajomo-
´sci prawdopodobie´nstwa wyst ˛apienia poszczególnych klas p(ki) i znajo- mo´sci, z dokładno´sci ˛a do parametrów, rozkładów w klasach f (x|Θi, ki), gdzie Θi oznacza nieznany parametr. W dalszym ci ˛agu przyjmijmy nast˛e- puj ˛acy model rozpoznawania obrazów w przypadku niepełenej informacji probabilistycznej:
1. Zbiorem klas jest zbiór K = {k1, k2, . . . , km}.
2. Obraz x pojawia si˛e w sposób losowy. Ka˙zdy z pojawiaj ˛acych si˛e obrazów nale˙zy do jednej z m klas: k1, k2, . . . , km .
3. Prawdopodobie´nstwa a priori wyst ˛apienia poszczególnych klas p(ki), i = 1, 2, . . . , m, s ˛a znane.
4. Dla ka˙zdej klasy ki , i = 1, 2, . . . , m, jest znana, z dokładno´sci ˛a do parametru Θi , i = 1, 2, . . . , m, funkcja g˛esto´sci prawdopodo- bie´nstwa g(x|Θi, ki), i = 1, 2, . . . , m, gdzie Θi oznacza nieznany parametr (w przypadku ogólnym Θi jest wektorem.). Zakłada si˛e przy tym istnienie g˛esto´sci prawdopodobie´nstwa a priori f (Θi) pa- rametru Θi , odzwierciedlaj ˛acej pocz ˛atkow ˛a wiedz˛e o Θi .
5. Dla ka˙zdej klasy ki , i = 1, 2, . . . , m, jest dany ci ˛ag ucz ˛acy χi
zawieraj ˛acy obrazy nale˙z ˛ace do klasy ki .
6. Podj˛ecie decyzji (klasyfikacji) d(x, χ) = dj , j = 1, 2, . . . , m , to znaczy zaklasyfikowanie obrazu x do klasy kj , j = 1, 2, . . . , m, w przypadku gdy obraz ten nale˙zy do klasy ki , i = 1, 2, . . . , m, powoduje strat˛e L(ki, dj), i, j = 1, 2, . . . , m. W dalszym ci ˛agu za- kładamy zero-jedynkow ˛a funkcj˛e strat.
Aby dla przyj˛etego modelu obliczy´c, wyst˛epuj ˛ace w (2.1) prawdopodo- bie´nstwo p(kj|x), nale˙zy wykorzysta´c informacje zawarte w ci ˛agu ucz ˛a- cym χi. Na podstawie twierdzenia Bayesa
p(kj|x, χj) = p(kj, x, χj)
p(x, χj) = p(x|kj, χj)p(kj, χj) p(X|χj)p(χj) =
= p(x|kj, χj)p(kj|χj)p(χj)
p(x|χj)p(χj) = p(x|kj, χj)p(kj|χj)
p(x|χj) (2.2)
W dalszym ci ˛agu, w celu uproszczenia zapisu pominiemy wska´znik klasy.
Dla ci ˛agłych zmiennych losowych wyra˙zenie (2.2) przyjmuje posta´c
p(k|x, χ) = f (x|k, χ)p(k|χ)
f (x|χ) (2.3)
gdzie f (x|k, χ) i f (x|χ) oznaczaj ˛a funkcje g˛esto´sci prawdopodobie´nstwa.
Poniewa˙z
f (x|χ) = f (x) i p(k|χ) = p(k) dlatego wyra˙zenie (2.3) przyjmuje posta´c
p(k|x, χ) = f (x|k, χ)p(k)
f (x) (2.4)
Wyra˙zenie (2.4) osi ˛aga warto´s´c maksymaln ˛a wtedy, kiedy
f (x|k, χ)p(k) (2.5)
przyjmuje warto´s´c maksymaln ˛a. Poniewa˙z p(k) w wyra˙zeniu (2.5) jest znane, dlatego naszym głównym zadaniem jest obliczenie g˛esto´sci prawdo- podobie´nstwa f (x|k, χ). G˛esto´s´c prawdopodobie´nstwa f (x|k, χ) mo˙zna przedstawi´c w postaci
f (x|k, χ) =
Z
f (x, Θ|k, χ)dΘ =
Z f (x, Θ, k, χ) f (k, χ) dΘ =
=
Z f (x|Θ, k, χ)f (Θ, k, χ) f (k, χ) dΘ =
Z
f (x|Θ, k, χ)f (Θ|k, χ)dΘ (2.6) Poniewa˙z
f (x|Θ, k, χ) = f (x|Θ, k) dlatego wyra˙zenie (2.6) przyjmuje posta´c
f (x|k, χ) =
Z
f (x|Θ, k)f (Θ|k, χ)dΘ (2.7) Przywracaj ˛ac wska´znik klasy, na podstawie (2.5) i (2.7), otrzymujemy opty- maln ˛a reguł˛e decyzyjn ˛a, która dokonuje klasyfikacji
d∗(x) = dj
to znaczy klasyfikuje obraz x do klasy kj wtedy i tyko wtedy, je˙zeli p(kj)
Z
f (x|Θj, kj)f (Θj|kj, χj)dΘj >
> p(ki)
Z
f (x|Θi, ki)f (Θi|ki, χi)dΘi, i, j = 1, 2, . . . , m, i 6= j (2.8) Poniewa˙z p(kj) i p(ki) w regule decyzyjnej (2.8) s ˛a znane, dlatego na- szym głównym zadaniem jest obliczenie
I =
Z
f (x|Θj, kj)f (Θj|kj, χj)dΘj (2.9) Ci ˛ag ucz ˛acy χj , j = 1, 2, . . . , m, zawiera n obrazów nale˙z ˛acych do klasy kj
χj = {x1, x2, . . . , xn} (2.10) Na podstawie (2.10) i pomijaj ˛ac w celu uproszczenia zapisu wska´znik klasy, wyra˙zenie (2.9) mo˙zna przedstawi´c w postaci
I =
Z
f (x|Θ)f (Θ|x1, . . . , xn)dΘ (2.11)
2.1 Metoda uczenia bayesowskiego
W warunkach niepełnej informacji probabilistycznej powstaje konieczno´s´c uczenia rozpoznawania. Je˙zeli wiadomo jakiej postaci s ˛a rozkłady praw- dopodobie´nstwa, ale nie zna si˛e pewnych ich parametrów, to uczenie po- lega na ich szacowaniu. Na podstawie ci ˛agu ucz ˛acego mo˙zna estymowa´c nieznane parametry i z otrzymanych oszacowa´n korzysta´c w optymalnych regułach decyzyjnych. Je˙zeli jest znana posta´c funkcyjna g˛esto´sci prawdo- podobie´nstwa f (x|Θ), ale nie jest znany jej parametr Θ, to parametr ten mo˙ze by´c szacowany za pomoc ˛a iteracyjnego wzoru Bayesa ([YouCal74])
f (Θ|x1, . . . , xn) = g(xn|Θ)f (Θ|x1, . . . , xn−1)
Z
g(xn|Θ)f (Θ|x1, . . . , xn−1)dΘ
(2.12)
gdzie x1, . . . , xn oznacza ci ˛ag niezale˙znych zmiennych losowych o jed- nakowym rozkładzie, reprezentuj ˛acy obrazy nale˙z ˛ace do tej samej klasy,
a f (Θ|x1, . . . , xn) oznacza g˛esto´s´c prawdopodobie´nstwa a posteriori pa- rametru Θ po obserwacji n obrazów. Zakłada si˛e przy tym istnienie g˛esto-
´sci prawdopodobie´nstwa a priori f (Θ) parametru Θ, odzwierciedlaj ˛acej pocz ˛atkow ˛a wiedz˛e o Θ. Wzór (2.12) przedstawia iteracyjn ˛a własno´s´c ob- licze´n g˛esto´sci prawdopodobie´nstwa a posteriori nieznanego parametru Θ pokazan ˛a na rysunku 2.1. Istot ˛a uczenia bayesowskiego jest wydobywanie informacji z obserwacji x1, . . . , xn o nieznanym parametrze Θ.
Wyst˛epuj ˛aca w wyra˙zeniu (2.11) g˛esto´s´c prawdopodobie´nstwa a poste- riori f (Θ|x1, . . . , xn) mo˙ze by´c obliczona za pomoc ˛a iteracyjnego wzoru Bayesa (2.12).
x1 - Wzór (2.12) f (Θ|x-1)
6
a) f (Θ)
xn - Wzór (2.12)
?
Opó´znienie f (Θ|x1, . . . , xn)
f (Θ|x1, . . . , xn−1)
6
b)
Rysunek 2.1. Iteracyjna własno´s´c oblicze´n g˛esto´sci prawdopodobie´nstwa a posteriorinieznanego parametru Θ za pomoc ˛a wzoru (2.12):
a) - dla pierwszej obserwacji, b) - po pierwszej obserwacji (n = 2, 3, . . . ).
Przykład 2.1. Załó˙zmy, ˙ze x1, . . . , xn jest prób ˛a losow ˛a z rozkładu wykładniczego o nieznanej warto´sci parametru Θ. Załó˙zmy równie˙z, ˙ze rzeczywisty rozkład a priori nieznanego parametru Θ jest rozkładem beta z parametrami α0 i β0. Korzystaj ˛ac ze wzoru (2.12) obliczmy g˛esto´s´c prawdopodobie´nstwa a posteriori parametru Θ po obserwacji x1 , to znaczy f (Θ|x1). Z zało˙zenia
g(x1|Θ) = Θe−Θx1 , f (Θ|α0, β0) = 1
B(α0, β0)Θ(α0−1)(1 − Θ)(β0−1)
Na podstawie (2.12) f (Θ|x1) = g(x1|Θ)f (Θ)
Z
g(x1|Θ)f (Θ)dΘ
=
=
Θe−Θx1 1
B(α0, β0)Θ(α0−1)(1 − Θ)(β0−1)
Z
Θe−Θx1 1
B(α0, β0)Θ(α0−1)(1 − Θ)(β0−1)dΘ
=
= Θα0(1 − Θ)(β0−1)e−Θx1
Z
Θα0(1 − Θ)(β0−1)e−Θx1dΘ
(2.13)
Załó˙zmy teraz, ˙ze rezygnujemy z informacji o rzeczywistym rozkładzie a priori f (Θ) parametru Θ i załó˙zmy, ˙ze jako f (Θ) przyjmujemy roz- kład gamma z parametrami α0 i β0 . Podobnie jak poprzednio obliczmy g˛esto´s´c prawdopodobie´nstwa a posteriori parametru Θ po obserwacji x1, to znaczy f (Θ|x1). Z zało˙zenia
g(x1|Θ) = Θe−Θx1 , f (Θ|α0, β0) = β0α0
Γ(α0)Θ(α0−1)e−β0Θ Na podstawie (2.12) f (Θ|x1) = g(x1|Θ)f (Θ)
Z
g(x1|Θ)f (Θ)dΘ
=
=
Θe−Θx1 β0α0
Γ(α0)Θ(α0−1)e−β0Θ
Z
Θe−Θx1 β0α0
Γ(α0)Θ(α0−1)e−β0ΘdΘ
= Θ(α0+1)−1e−(β0+x1)Θ
Z
Θ(α0+1)−1e−(β0+x1)ΘdΘ
=
= Θ(α1−1)e−β1Θ Γ(α1)
β1α1
Z β1α1
Γ(α1)Θ(α1−1)e−β1ΘdΘ
(2.14)
Poniewa˙z
Z β1α1
Γ(α1)Θ(α1−1)e−β1ΘdΘ = 1, dlatego wyra˙zenie (2.14) przyj- muje posta´c
f (Θ|x1) = β1α1
Γ(α1)Θ(α1−1)e−β1Θ= f (Θ|α1, β1) (2.15)
gdzie
α1 = α0+ 1 , β1 = β0+ x1 (2.16) G˛esto´s´c prawdopodobie´nstwa a posteriori f (Θ|x1) ((2.15)) jest rozkła- dem gamma z parametrami α1 i β1. W omawianym przykładzie rezy- gnacja z informacji o rzeczywistym rozkładzie a priori f (Θ) i przyj˛ecie rozkładu gamma jako rozkładu a priori f (Θ) upraszcza obliczenia g˛esto-
´sci prawdopodobie´nstwa a posteriori f (Θ|x1) z oblicze´n według (2.13) do obliczania parametrów rozkładu gamma według (2.16). Mo˙zna zatem zastanowi´c si˛e nad zrezygnowaniem z informacji o rzeczywistym rozkła- dzie a priori f (Θ) i przyj˛eciem takiego rozkładu a priori f (Θ), który upro´sci szacowanie g˛esto´sci prawdopodobie´nstwa a posteriori parametru Θ. Równocze´snie nale˙zy zastanowi´c si˛e nad konsekwencjami takiego po- st˛epowania. Problem ten b˛edzie przedmiotem rozwa˙za´n w nast˛epnym pod- rozdziale.
2.2 Szacowanie g˛esto´sci prawdopodobie ´nstwa a posteriori nieznanych parametrów
W podrozdziale tym zostan ˛a udowodnione twierdzenia dotycz ˛ace szaco- wania g˛esto´sci prawdopodobie´nstwa a posteriori nieznanych parametrów za pomoc ˛a iteracyjnego wzoru Bayesa ((2.12)), dla prób losowych z wy- branych rozkładów obserwacji obrazów.
Twierdzenie 1. Załó˙zmy, ˙ze x1, . . . , xn jest prób ˛a losow ˛a z rozkładu wykładniczego o nieznanej warto´sci parametru Θ. Załó˙zmy dalej, ˙ze rze- czywista warto´s´c parametru Θ jest równa Θ∗. Załó˙zmy równie˙z, ˙ze roz- kład a priori f (Θ) parametru Θ jest rozkładem gamma z parametrami α0 i β0. Wtedy
1. Rozkład a posteriori f (Θ|x1, . . . , xn) parametru Θ jest rozkładem gamma z parametrami
αn= αn−1+ 1 = α0+ n, βn= βn−1+ xn= β0+
n
X
i=1
xi 2. lim
n→∞E(Θ|x1, . . . , xn) = Θ∗, lim
n→∞V ar(Θ|x1, . . . , xn) = 0
Udowodnimy teraz pierwsz ˛a cz˛e´s´c twierdzenia. Dowód zostanie prze- prowadzony przez indukcj˛e. Z zało˙zenia
g(x1|Θ) = Θe−Θx1 , f (Θ|α0, β0) = β0α0
Γ(α0)Θ(α0−1)e−β0Θ Na podstawie (2.12) f (Θ|x1) = g(x1|Θ)f (Θ)
Z
g(x1|Θ)f (Θ)dΘ
=
=
Θe−Θx1 β0α0
Γ(α0)Θ(α0−1)e−β0Θ
Z
Θe−Θx1 βα00
Γ(α0)Θ(α0−1)e−β0ΘdΘ
= Θ(α0+1)−1e−(β0+x1)Θ
Z
Θ(α0+1)−1e−(β0+x1)ΘdΘ
=
= Θ(α1−1)e−β1Θ Γ(α1)
β1α1
Z β1α1
Γ(α1)Θ(α1−1)e−β1ΘdΘ
(2.17)
Poniewa˙z
Z β1α1
Γ(α1)Θ(α1−1)e−β1ΘdΘ = 1, dlatego wyra˙zenie (2.17) przyj- muje posta´c
f (Θ|x1) = β1α1
Γ(α1)Θ(α1−1)e−β1Θ =f (Θ|α1, β1) gdzie
α1 = α0+ 1, β1 = β0+ x1
Podobnie jak poprzednio, z zało˙zenia
g(xn|Θ) = Θe−Θxn , f (Θ|x1, . . . , xn−1) = βn−1αn−1
Γ(αn−1)Θ(αn−1−1)e−βn−1Θ Na podstawie (2.12) f (Θ|x1, . . . , xn) = g(xn|Θ)f (Θ|x1, . . . , xn−1)
Z
g(xn|Θ)f (Θ|x1, . . . , xn−1)dΘ
=
=
Θe−Θxn βn−1αn−1
Γ(αn−1)Θ(αn−1−1)e−βn−1Θ
Z
Θe−Θxn βn−1αn−1
Γ(αn−1)Θ(αn−1−1)e−βn−1ΘdΘ
=
= Θ(αn−1+1)−1e−(βn−1+xn)Θ
Z
Θ(αn−1+1)−1e−(βn−1+xn)ΘdΘ
=
= Θ(αn−1)e−βnΘ Γ(αn)
βnαn
Z βnαn
Γ(αn)Θ(αn−1)e−βnΘdΘ
(2.18)
Poniewa˙z
Z βnαn
Γ(αn)Θ(αn−1)e−βnΘdΘ = 1, dlatego wyra˙zenie (2.18) przyj- muje posta´c
f (Θ|x1, . . . , xn) = βnαn
Γ(αn)Θ(αn−1)e−βnΘ = f (Θ|αn, βn) (2.19) gdzie
αn = αn−1+ 1 = α0+ n , βn = βn−1+ xn= β0+
n
X
i=1
xi (2.20)
co ko´nczy pierwsz ˛a cz˛e´s´c dowodu.
Udowodnimy teraz drug ˛a cz˛e´s´c twierdzenia. W pierwszej cz˛e´sci do- wodu pokazano, ˙ze rozkład a posteriori f (Θ|x1, . . . , xn) parametru Θ jest rozkładem gamma ((2.19)) z parametrami (2.20). Poniewa˙z warto´s´c oczekiwana dla rozkładu gamma
E(x) = α
β (2.21)
dlatego na podstawie (2.19), (2.20) i (2.21) otrzymujemy E(Θ|x1, . . . , xn) = αn
βn = α0+ n β0+
n
X
i=1
xi
n→∞lim E(Θ|x1, . . . , xn) = lim
n→∞
α0+ n β0+
n
X
i=1
xi
=
= lim
n→∞
α0 n + 1 β0
n + 1 n
n
X
i=1
xi
= 1
n→∞lim 1 n
n
X
i=1
xi
(2.22)
Warto´s´c oczekiwana dla rozkładu wykładniczego E(x) = 1
Θ (2.23)
Na podstawie (2.23) i mocnego prawa wielkich liczb otrzymujemy E(x) = 1
Θ∗ = lim
n→∞
1 n
n
X
i=1
xi (2.24)
Na podstawie (2.22) i (2.24) otrzymujemy
n→∞lim E(Θ|x1, . . . , xn) = 1
n→∞lim 1 n
n
X
i=1
xi
= 1 1 Θ∗
= Θ∗
Poniewa˙z wariancja dla rozkładu gamma V ar(x) = α
β2 (2.25)
dlatego na podstawie (2.19), (2.20) i (2.25) otrzymujemy V ar(Θ|x1, . . . , xn) = αn
βn2 = α0+ n (β0+
n
X
i=1
xi)2
(2.26)
Podstawiaj ˛ac x = lim
n→∞
1 n
n
X
i=1
xi do (2.26) otrzymujemy
n→∞lim V ar(Θ|x1, . . . , xn) = lim
n→∞
α0 + n (β0+ nx)2 =
= lim
n→∞
α0+ n
β02+ 2β0nx + n2x2 = lim
n→∞
α0 n2 + 1
n β02
n2 + 2β0x n + x2
= 0
co ko´nczy drug ˛a cz˛e´s´c dowodu.
Twierdzenie 2. Załó˙zmy, ˙ze x1, . . . , xn jest prób ˛a losow ˛a z rozkładu Poissona o nieznanej warto´sci parametru Θ. Załó˙zmy dalej, ˙ze rzeczywista warto´s´c parametru Θ jest równa Θ∗. Załó˙zmy równie˙z, ˙ze rozkład a priori f (Θ) parametru Θ jest rozkładem gamma z parametrami α0 i β0. Wtedy 1. Rozkład a posteriori f (Θ|x1, . . . , xn) parametru Θ jest rozkładem
gamma z parametrami αn= αn−1+ xn = α0+
n
X
i=1
xi, βn = βn−1+ 1 = β0+ n 2. lim
n→∞E(Θ|x1, . . . , xn) = Θ∗, lim
n→∞V ar(Θ|x1, . . . , xn) = 0
Udowodnimy teraz pierwsz ˛a cz˛e´s´c twierdzenia. Dowód zostanie prze- prowadzony przez indukcj˛e. Z zało˙zenia
g(x1|Θ) = e−ΘΘx1
x1! , f (Θ|α0, β0) = β0α0
Γ(α0)Θ(α0−1)e−β0Θ
Na podstawie (2.12) f (Θ|x1) = g(x1|Θ)f (Θ)
Z
g(x1|Θ)f (Θ)dΘ
=
=
e−ΘΘx1 x1!
β0α0
Γ(α0)Θ(α0−1)e−β0Θ
Z e−ΘΘx1 x1!
β0α0
Γ(α0)Θ(α0−1)e−β0ΘdΘ
= Θ(α0+x1)−1e−(β0+1)Θ
Z
Θ(α0+x1)−1e−(β0+1)ΘdΘ
=
= Θ(α1−1)e−β1Θ Γ(α1)
β1α1
Z β1α1
Γ(α1)Θ(α1−1)e−β1ΘdΘ
(2.27)
Poniewa˙z
Z β1α1
Γ(α1)Θ(α1−1)e−β1ΘdΘ = 1, dlatego wyra˙zenie (2.27) przyj- muje posta´c
f (Θ|x1) = β1α1
Γ(α1)Θ(α1−1)e−β1Θ =f (Θ|α1, β1)
gdzie
α1 = α0+ x1, β1 = β0+ 1 Podobnie jak poprzednio, z zało˙zenia
g(xn|Θ) = e−ΘΘxn
xn! , f (Θ|x1, . . . , xn−1) = βn−1αn−1
Γ(αn−1)Θ(αn−1−1)e−βn−1Θ Na podstawie (2.12) f (Θ|x1, . . . , xn) = g(xn|Θ)f (Θ|x1, . . . , xn−1)
Z
g(xn|Θ)f (Θ|x1, . . . , xn−1)dΘ
=
=
e−ΘΘxn xn!
βn−1αn−1
Γ(αn−1)Θ(αn−1−1)e−βn−1Θ
Z e−ΘΘxn xn!
βn−1αn−1
Γ(αn−1)Θ(αn−1−1)e−βn−1ΘdΘ
=
= Θ(αn−1+xn)−1e−(βn−1+1)Θ
Z
Θ(αn−1+xn)−1e−(βn−1+1)ΘdΘ
=
= Θ(αn−1)e−βnΘ Γ(αn)
βnαn
Z βnαn
Γ(αn)Θ(αn−1)e−βnΘdΘ
(2.28)
Poniewa˙z
Z βnαn
Γ(αn)Θ(αn−1)e−βnΘdΘ = 1, dlatego wyra˙zenie (2.28) przyj- muje posta´c
f (Θ|x1, . . . , xn) = βnαn
Γ(αn)Θ(αn−1)e−βnΘ = f (Θ|αn, βn) (2.29) gdzie
αn = αn−1+ xn= α0+
n
X
i=1
xi , βn = βn−1+ 1 = β0+ n (2.30) co ko´nczy pierwsz ˛a cz˛e´s´c dowodu.
Udowodnimy teraz drug ˛a cz˛e´s´c twierdzenia. W pierwszej cz˛e´sci do- wodu pokazano, ˙ze rozkład a posteriori f (Θ|x1, . . . , xn) parametru Θ jest rozkładem gamma ((2.29)) z parametrami (2.30). Poniewa˙z warto´s´c oczekiwana dla rozkładu gamma
E(x) = α
β (2.31)
dlatego na podstawie (2.29), (2.30) i (2.31) otrzymujemy
E(Θ|x1, . . . , xn) = αn βn =
α0+
n
X
i=1
xi β0+ n
n→∞lim E(Θ|x1, . . . , xn) = lim
n→∞
α0+
n
X
i=1
xi β0+ n =
= lim
n→∞
α0 n + 1
n
n
X
i=1
xi β0
n + 1
= lim
n→∞
1 n
n
X
i=1
xi (2.32)
Na podstawie warto´sci oczekiwanej zmiennej losowej o rozkładzie Pois- sona i mocnego prawa wielkich liczb otrzymujemy
E(x|Θ∗) = Θ∗ = lim
n→∞
1 n
n
X
i=1
xi (2.33)
Na podstawie (2.32) i (2.33) otrzymujemy
n→∞lim E(Θ|x1, . . . , xn) = Θ∗ Poniewa˙z wariancja dla rozkładu gamma
V ar(x) = α
β2 (2.34)
dlatego na podstawie (2.29), (2.30) i (2.34) otrzymujemy
V ar(Θ|x1, . . . , xn) = αn βn2 =
α0+
n
X
i=1
xi
(β0+ n)2 (2.35)
Podstawiaj ˛ac x = lim
n→∞
1 n
n
X
i=1
xi do (2.35) otrzymujemy
n→∞lim V ar(Θ|x1, . . . , xn) = lim
n→∞
α0+ nx
(β0+ n)2 = lim
n→∞
α0+ nx β02 + 2β0n + n2 =
= lim
n→∞
α0 n2 + x
n β02
n2 +2β0 n + 1
= lim
n→∞
x n = 0
co ko´nczy drug ˛a cz˛e´s´c dowodu.
Twierdzenie 3. Załó˙zmy, ˙ze x1, . . . , xn jest prób ˛a losow ˛a z rozkładu Rayleigha o nieznanej warto´sci parametru Θ. Załó˙zmy dalej, ˙ze rzeczy- wista warto´s´c parametru Θ jest równa Θ∗. Załó˙zmy równie˙z, ˙ze rozkład a priori f (Θ) parametru Θ jest rozkładem gamma z parametrami α0 i β0. Wtedy
1. Rozkład a posteriori f (Θ|x1, . . . , xn) parametru Θ jest rozkładem gamma z parametrami
αn= αn−1+ 1 = α0+ n , βn= βn−1+1
2x2n= β0+1 2
n
X
i=1
x2i 2. lim
n→∞E(Θ|x1, . . . , xn) = Θ∗, lim
n→∞V ar(Θ|x1, . . . , xn) = 0
Udowodnimy teraz pierwsz ˛a cz˛e´s´c twierdzenia. Dowód zostanie prze- prowadzony przez indukcj˛e. Z zało˙zenia
g(x1|Θ) = Θx1e−12Θx21 , f (Θ|α0, β0) = β0α0
Γ(α0)Θ(α0−1)e−β0Θ Na podstawie (2.12) f (Θ|x1) = g(x1|Θ)f (Θ)
Z
g(x1|Θ)f (Θ)dΘ
=
=
Θx1e−12Θx21 β0α0
Γ(α0)Θ(α0−1)e−β0Θ
Z
Θx1e−12Θx21 β0α0
Γ(α0)Θ(α0−1)e−β0ΘdΘ
= Θ(α0+1)−1e−(β0+12x21)Θ
Z
Θ(α0+1)−1e−(β0+12x21)ΘdΘ
=