• Nie Znaleziono Wyników

Metoda lokalizacji twarzy na obrazach cyfrowych z wykorzystaniem jej owalnego kształtu i procedury zmiennego promieniowania

N/A
N/A
Protected

Academic year: 2022

Share "Metoda lokalizacji twarzy na obrazach cyfrowych z wykorzystaniem jej owalnego kształtu i procedury zmiennego promieniowania"

Copied!
125
0
0

Pełen tekst

(1)

POLITECHNIKA SZCZECIŃSKA WYDZIAŁ INFORMATYKI

Rozprawa doktorska Paweł Masicz

Metoda lokalizacji twarzy na obrazach cyfrowych

z wykorzystaniem jej owalnego kształtu i procedury zmiennego promienia

Promotor rozprawy:

Dr hab. inż. Georgy Kukharev, prof. PS

SZCZECIN 2007

(2)

Spis treści

Przedmowa ... 2

Wykaz ważniejszych skrótów i oznaczeń ... 5

1. Wprowadzenie... 6

1.1. Wprowadzenie do problemu detekcji twarzy...6

1.2. Analiza algorytmów detekcji ...13

1.3. Bazy danych zdjęć ...26

1.4. Podsumowanie i wnioski ...30

1.5. Cel i teza pracy...32

2. Opracowanie metody do rozwiązania zadania lokalizacji obszarów zawierających twarz.. 33

2.1. Wprowadzenie do projektowania detektora twarzy ...33

2.2. Omówienie użytych algorytmów obróbki obrazów i metod normalizacyjnych ...35

2.3. Omówienie bazowej metody lokalizacji obiektów owalnych...43

2.4. Omówienie zmodyfikowanego algorytmu lokalizacji obiektów owalnych ...49

2.4.1. Obróbka wstępna ... 50

2.4.2. Macierze gradientów... 55

2.4.3. MT (Macierz Trafień) ... 58

2.4.4. Zmienny promień poszukiwań... 62

2.4.5. ZMT (Zbiorcza Macierz Trafień) ... 69

2.4.6. Wyznaczanie pięciu obszarów zawierających twarz ... 71

2.4.7. Wyznaczanie wielu twarzy ... 71

2.4.8. Wersja dla obrazów w skali szarości ... 73

2.5. Podsumowanie i wnioski ...74

3. Eksperymentalne badania opracowanej metody... 75

3.1. Podstawowe założenia ...75

3.2. Procedura testowa ...77

3.3. Badania na bazie FERET i autorskiej ...79

3.4. Porównanie z wynikami konkurencyjnych systemów. ...98

3.5. Podsumowanie i wnioski ...101

4. Opis programu badawczego Face Localizator... 103

4.1. Założenia wstępne i wymagania sprzętowe ...103

4.2. Omówienie możliwości...104

4.3. Podsumowanie i wnioski ...112

Zakończenie... 113

Bibliografia... 116

(3)

2

Przedmowa

Rozprawa poświęcona jest problematyce detekcji twarzy na obrazach cyfrowych dla zadań rozpoznawania ludzi w systemach biometrycznych.

Detektory twarzy niezwykle rzadko występują jako niezależne systemy. Przeważnie są jednym z kroków większych systemów osadzonych w szerokiej dziedzinie zadań związanych z rozpoznawaniem ludzi i niewątpliwie należą do ich kluczowych elementów, ponieważ wynik ich działania znacząco wpływa na ogólną efektywność. Systemy używające twarzy jako cechy poddawanej rozpoznawaniu są jednymi z najbezpieczniejszych i najwygodniejszych sposobów identyfikacji tożsamości, ponieważ wydają się być najbardziej intuicyjnym i naturalnym rozwiązaniem. Niezwykle istotnym czynnikiem przemawiającym za tym rozwiązaniem jest fakt, że pobranie próbki twarzy dokonywane jest w sposób bezinwazyjny, a co ważniejsze może odbywać się przy braku interakcji z identyfikowaną osobą. Inne, często wykorzystywane cechy biometryczne (np. tęczówka oka, odciski palców), nie oferują takiej elastyczności. Kolejną, niewątpliwą cechą przemawiającą za użyciem twarzy do celów rozpoznawania, jest duża ilość baz danych je zawierających.

Mimo poświęcenia ogromnej ilości czasu i energii przez wielu naukowców na całym świecie aktualnie nie ma detektora twarzy, który byłby w stanie bezbłędnie lokalizować osoby w każdych warunkach. W dalszym ciągu trwają prace nad opracowaniem jeszcze efektywniejszych i co ważne – coraz szybszych detektorów, potrafiących sprawnie pracować nawet na biurkowych komputerach. Czas działania jest istotnym czynnikiem, który bezpośrednio wpływa na klasyfikacje do jakich zadań dany detektor może być użyty. Te najszybsze są najbardziej pożądane do zadań rozpoznawania ludzi w czasie rzeczywistym, np.

bezinwazyjnej kontroli ruchu na lotniskach. Dodatkowo detektor powinien dobrze radzić sobie w niekorzystnych warunkach, do których należą: zmienne, kierunkowe oświetlenie, częściowe przesłonięcie, obrót czy elementy zakłócające. Powinien również poprawnie działać z obrazami czarnobiałymi jak i kolorowymi (wtedy informacja o kolorze powinna być wykorzystana dla poprawienia efektywności, a nie pomijana).

W najnowszych rozwiązaniach cały proces detekcji jest podzielony na dwa główne etapy: generowanie kandydatów i ich weryfikację przez algorytm „twarz/nie twarz”. W literaturze poświęcono wiele miejsca na opracowanie coraz lepszych rozwiązań obejmujących drugi blok, a ten pierwszy pozostawiano przeważne w bardzo uproszczonym kształcie.

Wynikało to z prostego przesłania, że algorytmy je realizujące nie mogą być zbyt skomplikowane, a przez to kosztowne czasowo, ponieważ moc obliczeniowa musiała być

(4)

3

skierowana do drugiego etapu detekcji. Nie zauważono przy tym, że zawężenie ilości próbek zlokalizowanych jako obszar potencjalnie zawierający twarz, równie skutecznie potrafi zwiększyć efektywność całego systemu, zarówno w dziedzinie czasu jak i skuteczności.

Wobec przedstawionych powyżej powodów celem pracy jest „Opracowanie metody i realizacja algorytmów do zadań lokalizacji obszarów zawierających twarz na obrazach cyfrowych”, a tezą, że: „Jednoczesne uwzględnienie informacji o owalnym kształcie twarzy i procedury zmiennego promienia może być podstawą do budowy skutecznej metody lokalizacji twarzy na obrazach cyfrowych, a dodatkowo użycie informacji o kolorze skóry zwiększy jej skuteczność”.

Przedmiotem badań są metody służące do zadań detekcji twarzy. Metodyka badań opiera się na analitycznym przeglądzie istniejących podejść i rozwiązań, a w efekcie zaproponowaniu metody, dającej w rezultacie lepszy wynik niż algorytmy bazowe, od których modyfikacje wyprowadzono.

Na całość pracy składają się z cztery rozdziały, zakończenie i bibliografia.

W rozdziale 1 przedstawiono przegląd światowych osiągnięć oraz usystematyzowano wiedzę w zakresie problemu detekcji twarzy na obrazach. Opierając się na tej podstawie zdefiniowano cel i tezę pracy.

W rozdziale 2 dokonano analizy wybranych algorytmów, przedstawiono ich słabe punkty, po czym zaproponowano zmiany umożliwiających ich wyeliminowanie, wliczając uzasadnienie ich użycia. Te czynności dały przesłankę do uzyskania lepszych wyników. W rozdziale dokonano również przeglądu i krótkiego omówienia metod obróbki wstępnej.

Rozdział 3 został poświęcony opisaniu procesu badawczego. Na jego potrzeby przeprowadzono eksperymentalne badania, mające na celu uzyskanie odpowiedzi, czy zaproponowane zmiany przekładają się na polepszenie wyniku. Dodatkowo wyznaczono optymalne parametry pracy algorytmów, dla których metoda zwraca najlepsze rezultaty.

Ostateczne przeprowadzono analizę uzyskanych wyników.

W rozdziale 4 przedstawiono implementację przedstawionych algorytmów w programie „FaceLocalizator”, zrealizowanego w języku wysokiego poziomu C++, wspartego przyjaznym, graficznym środowiskiem.

Głównym rezultatem jest opracowanie metody do zadań lokalizacji twarzy na obrazach cyfrowych z wykorzystaniem jej kształtu, koloru i procedury zmiennego promienia.

Przy tym można wyróżnić następujące etapy pracy nad jego uzyskaniem:

- przegląd literatury naukowej poświęconej problemowi detekcji i lokalizacji twarzy,

(5)

Przedmowa 4

- sformułowanie idei wykorzystania kształtu twarzy, procedury zmiennego promienia i macierzy gradientów do zadań lokalizacji twarzy, działających zarówno z obrazami kolorowymi jak i w skali szarości;

- eksperymentalne udowodnienie, że opracowana metoda uzyskuje lepsze wyniki od metod bazowych,

- stworzenie programu w języku wysokiego poziomu (C++) realizujący opracowany algorytm.

Autor chciałby wyrazić swoje serdeczne podziękowanie dla profesora Georgy Kukharev’a za podzielenie się swoją ogromna wiedzą i doświadczeniem, jak również za zaangażowanie i poświęcony czas.

(6)

5

Wykaz ważniejszych skrótów i oznaczeń

DCT - dyskretna transformata kosinusowa (ang. Discrete Cosine Transform);

ERR - współczynnik równowagi (ang. Equal Error Rate);

FaReS - system rozpoznawania twarzy (ang. Face Recognition System);

FAR - współczynnik fałszywej akceptacji (ang. False Accept Rate);

FRR - współczynnik fałszywego odrzucenia (ang. False Reject Rate);

FFT - szybka transformata Fouriera (ang. Fast Fourier Transform);

ICA - analiza niezależnych komponentów (ang. Independent Component Analysis);

MT - macierz trafień

KLT - transformacja Karhunena-Loeve’a (ang. Karhunen-Loeve Transform);

LDA - liniowa analiza dyskryminacyjna (ang. Linear Discriminant Analysis);

MLP - wielowarstwowy perceptron (ang. Multi Layer Perceptron);

PCA - analiza komponentów głównych (ang. Principal Component Analysis);

ZMT - zbiorcza macierz trafień

M - wysokość obrazu w pikselach;

N - szerokość obrazu w pikselach;

(7)

Rozdział 1. Wprowadzenie 6

1. Wprowadzenie

1.1. Wprowadzenie do problemu detekcji twarzy

Wraz z niesamowicie szybkim rozwojem branży informatycznej, rośnie zainteresowanie nowymi technikami interakcji człowieka z maszynami (HCI – Human Computer Interaction). Oczywistym jest fakt, że komunikacja między ludźmi polegająca przede wszystkim na rozmowie i obserwacji rozmówcy nie została dotąd zaadoptowana do interakcji między człowiekiem i maszyną. Tu nadal dominuje klawiatura, uzupełniana przez myszkę. Również ekrany dotykowe nie posiadają tych cech, których używa się w kontaktach między ludzkich. Niesamowity wzrost zainteresowania poszukiwaniami rozwiązań problemów z dziedziny przetwarzania obrazów twarzy bazuje na przesłaniu, że informacje o intencjach, stanie i tożsamości użytkownika mogą być wyodrębnione z obrazu, a komputer może reagować stosownie do sytuacji, np. poprzez obserwowanie jej wyrazu.

Kolejnym powodem dla którego rozwijane są systemy bazujące na przetwarzaniu cech biometrycznych twarzy są kwestie bezpieczeństwa. Na przestrzeni ostatnich lat znacząco wzrosło zagrożenie terroryzmem, a także przestępczością gospodarczą związaną z nieupoważnionym dostępem do poufnych zasobów. Niezbędnym stało się opracowanie nowych systemów dostępu i kontroli, mogących zastąpić dotychczasowe rozwiązania bazujące na kartach magnetycznych i PIN’ach.

Zauważono, że niewątpliwie najlepszą metodą identyfikacji jest użycie danych płynących z wykorzystania cech biometrycznych. Biometryka [Woo97, Kyx01] określa metody pomiarów fizycznych cech lub charakterystycznego zachowania człowieka oraz metody ich porównywania z odpowiadającymi im danymi zapisanymi w bazie danych, przeznaczona do rozpoznania lub potwierdzenia jego tożsamości. Niewątpliwą zaletą biometryki jest wykorzystanie zasady bazującej na idei „czymś, czym jesteś” a nie na „czymś, co pamiętasz, czy masz przy sobie”. Ponieważ niezwykle trudno jest podrobić lub ukraść czyjeś indywidualne dane biometryczne, systemy dostępu lub identyfikacji je wykorzystujące należą do najbezpieczniejszych i najwygodniejszych narzędzi autoryzacji.

Najczęściej wykorzystywane cechy biometryczne wykorzystywane do identyfikacji to [Rih00]: twarz, odcisk palca, tęczówka i siatkówka oka, głos, geometria dłoni i palca, podpis, sposób pisania, kod DNA, kształt ucha, zapach, a nawet sposób chodzenia. Część z nich jest słabo poznana lub niemożliwa do realizacji z powodów technicznych – trudność pobierania próbek (np. DNA, zapach), niski współczynnik różnorodności (np. sposób chodzenia, kształt

(8)

Rozdział 1. Wprowadzenie 7

ucha, zapach). Dlatego na co dzień, w praktycznych zastosowaniach, najczęściej korzysta się z obrazu twarzy, odcisku palca i tęczówki oka.

Jeśli jako główne czynniki decydujące o jakości wziąć nieinwazyjność, brak konieczności interakcji i możliwość wykorzystania istniejących systemów, niewątpliwie najbardziej atrakcyjnymi są metody bazujące na przetwarzaniu danych płynących z obrazu twarzy. Istniejące bazy danych zdjęć twarzy (np. policyjne), mnogość systemów monitoringu (np. na lotniskach) [BTT03] jak również coraz szybsze komputery pozwalają na szybkie i niekosztowne zbudowanie efektywnych systemów identyfikacji.

Od dłuższego czasu twarz ludzka była obiektem badań wielu naukowców, chcących opracować skuteczne algorytmy pozwalające dokonywać rozpoznawania tożsamości, jak również stanu emocjonalnego, jednak dopiero w ostatnim dziesięcioleciu XX wieku zostały one zintensyfikowane. Stało się tak ponieważ powstające wtedy komputery i ich dynamiczny rozwój pozwoliły wcielić w życie część, wcześniej czysto teoretycznych pomysłów [Kir90, Wys67].

O tym jak poważnie traktuje się przetwarzanie obrazu twarzy w celach poprawy bezpieczeństwa niech świadczy dyrektywa Komisji Europejskiej, która uznała twarz ludzką za główny identyfikator biometryczny, a swoim członkom nakazała ujednolicenie formatu wiz i paszportów poprzez umieszczenie w nich cyfrowych zdjęć do 2005 roku co zostało później odroczone o kolejne 3 lata. Podobne dyrektywy wydano w stosunku do wiz i pozwoleń na pobyt dla osób spoza UE [UE03].

Jednak, aby było możliwe jakiekolwiek przetwarzanie obrazu twarzy zachodzi potrzeba zlokalizowania jej położenia na obrazie. Dla komputera każdy obraz to tablica zawierająca piksele o różnych wartościach i to co dla człowieka jest oczywiste, dla maszyny – niekoniecznie. Lokalizacja twarzy na obrazie okazała się problemem na tyle skomplikowanym, że dotychczas nie udało się stworzyć systemu dającego gwarancje poprawnej lokalizacji, co jest powodem ciągłego poszukiwania i ulepszania istniejących rozwiązań. Niewątpliwie ważnym pytaniem przy budowie detektora twarzy jest ustalenie wymagań jakie ma spełniać na wyjściu. Nie zawsze konieczne jest poszukiwanie wszystkich twarzy (np. w systemach kontroli dostępu), albo ważny jest czas przetwarzania (np. w systemach ciągłej obserwacji na lotniskach). Istotne jest również to, że detektory twarzy sporadycznie są używane jako samodzielne systemy, gdzie wynik ich działania jest jednocześnie wyjściem, lecz stanowią zaledwie pierwszy, choć bardzo istotny etap. Dlatego często kosztem jakości ulepsza się wynik w dziedzinie czasu.

(9)

Rozdział 1. Wprowadzenie 8

Definicja lokalizacji twarzy: Zadaniem lokalizacji twarzy na dostarczonym obrazie nazywamy ustalenie jakie jest położenie i wielkość każdej twarzy przy założeniu, że posiada się wiedzę na temat ilości ich występowania [Yan02].

Definicja detekcji twarzy: Zadaniem detekcji twarzy na dostarczonym obrazie jest ustalenie czy występują na nim twarze, a jeśli tak to zwrócenie położenia i wielkości każdej z nich [Yan02].

Istnieje szereg czynników mogących w istotny sposób wpływać na charakterystykę wizerunku twarzy. Poza tym one same, ich wzorce, nie są jednakowe. Umysł ludzki potrafi doskonale klasyfikować te drobne różnice, nie mając problemu z prawidłową klasyfikacją lecz dla maszyny nie jest to zadanie łatwe. Powstaje więc skomplikowany problem lokalizacji wzorca, czyli twarzy, który na dodatek nie jest jednakowy. Równie niekorzystnym zjawiskiem jest stosunkowo częste występowanie tych niekorzystnych dla spójności wizerunku twarzy czynników, jak również ich kumulowanie się. Na rysunku 1.1 przedstawiono przykłady obrazów zawierające zakłócenia mogące sprawić trudność przy lokalizacji. Należą do nich [Phi99, Gro01, Kuk03a]:

- kierunek obrotu twarzy – obrazy twarzy zmieniają się w zależności od relacji położenia twarz-kamera (frontalny, 45 stopni, profil, „do góry nogami”), a niektóre cechy twarzy, takie jak nos lub oczy, mogą być częściowo lub całkowicie zasłonięte;

- obecność przeszkód – cechy twarzy takie jak broda lub wąsy, jak również przedmioty, np.

okulary, mogą być obecne lub nie; ich ewentualne występowanie drastycznie zmienia charakterystykę twarzy, np. kształt, kolor i wymiar;

- wyraz twarzy – wygląd twarzy jest ściśle związany z jej wyrazem; twarz ludzka posiada największe skupisko mięśni na ludzkim ciele, mogące zniekształcać ją w znaczny sposób;

do różnych wyrazów wliczamy między innymi uśmiech, smutek, mimikę;

- przesłonięcie – twarz może być częściowo lub całkowicie przesłonięta przez inny obiekt;

w tej grupie pojawia się również wyjątkowo trudny przypadek, gdy na obrazach zawierających grupę ludzi, część twarzy może być przesłonięta przez jedną lub wiele innych twarzy;

- jakość i charakterystyka obrazu – podczas tworzenia obrazu czynniki takie jak światło (spektrum, charakterystyka, intensywność) i charakterystyka techniczna kamery (przesłona, rozdzielczość matrycy cyfrowej, jakość zastosowanej optyki, balans bieli itp.) znacząco wpływa na wygląd twarzy;

- przynależność rasowa – niewątpliwie duża różnorodność odcieni skóry dla różnych ras ludzi jest dodatkową przeszkodą w lokalizacji szczególnie, gdy wziąć pod uwagę, że

(10)

Rozdział 1. Wprowadzenie 9

wiele systemów bazuje na segmentacji kolorów „twarzo-podobnych” uzależniając dalsze obliczenia od ich wystąpienia;

a) b) c)

d) e) f)

Rys. 1.1. Przykłady obrazów mogących sprawić problem przy procesie detekcji:

a) obrót twarzy; b) obecność przeszkód – np. broda i okulary; c) wyraz twarzy;

d) przesłonięcie; e) jakość obrazu – światło kierunkowe; f) przynależność rasowa

Istnieje bardzo wiele zagadnień z dziedziny przetwarzania obrazów zawierających twarz, które są ściśle związane z detekcją twarzy. Niemal wszystkie z nich do pełni automatycznego działania potrzebują skutecznych algorytmów zwracających położenie i wielkość twarzy. Poprawna detekcja jest warunkiem niemal niezbędnym i koniecznym ponieważ w dużym stopniu determinuje jakość wyników obliczanych w następujących po niej algorytmów. Poniżej (rys. 1.2) przedstawiono uproszczony schemat idei typowych, automatycznych systemów rozpoznawania ludzi na podstawie wizerunku twarzy.

Rys. 1.2. Schemat blokowy automatycznych systemów rozpoznawania ludzi na podstawie wizerunku twarzy

(11)

Rozdział 1. Wprowadzenie 10

Możemy wyróżnić kilka problemów, do rozwiązania których niezbędne jest skorzystanie z metod lokalizacji twarzy [Kuk03a]:

- lokalizacja położenia twarzy – najprostszy przypadek, gdzie wynikiem systemu jest wynik lokalizatora;

- detekcja cech twarzy – celem takich systemów jest określenie istnienia i położenia cech takich jak oczy, nos, brwi, usta, uszy, itd. [Mas02a, Kas05];

- weryfikacja twarzy – twarz z obrazu wejściowego jest porównywana z jedną twarzą z bazy (problem porównania nazywany „jeden do jednego” – ang. „one to one”); często spotykana przy systemach kontroli dostępu;

- rozpoznawanie twarzy – obraz wejściowy jest porównywany z obrazami z bazy danych, po czym zwracany jest wynik określający tożsamość osoby badanej (problem porównania nazywany „jeden do wielu” – ang. „one to many”);

- tracking twarzy – celem trackingu jest obliczanie w czasie rzeczywistym położenia twarzy, jak również jej orientacji;

- rozpoznawanie ekspresji twarzy – rozwiązuje problem ustalenia stanu emocjonalnego występującego na twarzy, np. smutku, śmiechu, strachu, itp.

Podczas analizy wszelkich podejść do lokalizacji i detekcji twarzy, niezwykle istotnymi parametrami są te, dzięki którym można szybko ocenić efektywność danej metody.

Zaliczamy do nich [Hje01, Yan02]:

- współczynnik detekcji (ang. detection rate) – jest to stosunek ilości twarzy zlokalizowanych przez algorytm detekcji do ilości twarzy rzeczywiście znajdujących się na obrazach;

- błędne odrzucenia (ang. false negatives) – określa, jak dużo obszarów obrazu opisujących twarz nie zostało zakwalifikowanych jako twarze;

- błędne przyjęcia (ang. false positives) – określa, jak dużo regionów obrazu zostało błędnie zakwalifikowanych jako twarz mimo, że jej nie opisuje.

Dokonując oceny systemów detekcji powinno się analizować te parametry, przy założeniu, że oceniamy wszystkie razem, a nie oddzielnie. Jest to istotne, ponieważ przeważnie występuje sytuacja, że gdy polepszamy jeden, efektywność innych maleje.

Szacuje się, że istnieje około 150 różnych podejść do rozwiązania problemu detekcji twarzy [Yan02a]. Bardzo wiele z nich ma zapożyczenia z szerokiej grupy metod stosowanych do rozpoznawania tekstur czy kształtów – niekoniecznie twarzy. Często występuje również stwierdzenie, że problem detekcji twarzy można rozpatrywać jako dwuklasowe

(12)

Rozdział 1. Wprowadzenie 11

rozpoznawanie obrazu – klasy twarzy i „nie twarzy”. Oczywiście nie jest to łatwe, ponieważ istnieje wielkie zróżnicowanie wewnątrz klasowe.

Oprócz współczynników detekcji opisanych powyżej o jakości danego algorytmu detekcji decyduje również:

- szybkość działania – niezwykle istotny czynnik ponieważ zdecydowana większość zastosowań detektorów jest jedynie wstępnym procesem (np. w systemach kontroli dostępu – ang. access control); zaleca się pracę w czasie rzeczywistym (ponad 25 klatek na sekundę);

- wielkość twarzy możliwej do rozpoznania – określa wielkość twarzy (wyrażaną przeważnie w procentach w stosunku do wysokości obrazu wejściowego) którą system potrafi wykryć – zarówno maksymalną jak i minimalną;

- przestrzeń kolorów – przeważnie systemy budowane z dedykacją dla kolorowego obrazu są całkowicie nieprzydatne dla obrazów w odcieniach szarości, co znacząco obniża ich wartość komercyjną, gdyż kamery przemysłowe w znakomitej większości pracują właśnie w odcieniach szarości; należy wspomnieć, że dla odmiany systemy pracujące z obrazami w skali szarości doskonale radzą sobie również z kolorowym źródłem – po prostu implementowany jest dodatkowy, wstępny krok „normalizacyjny” zamieniający kolor na skalę szarości.

Niezależnie od użytej metody detekcji, każda korzysta z tej samej drogi umożliwiającej osiągnięcie sukcesu. Pierwszym krokiem jest zawsze dostarczenie obrazu w formie tablicy pikseli o określonej wielkości, gdzie wartość każdego z nich może być określona przy pomocy odcieni szarości (wartości 0-255) lub przy pomocy którejś z kolorowych przestrzeni barw – najczęściej przy pomocy przestrzeni RGB (trzy składowe – R:

0-255, G: 0-255, B: 0-255). Ten obraz jest następnie normalizowany przy pomocy narzędzi pre-processingu takich jak filtry, skalowanie, obracanie, redukcja cech itp. Następnie tak obrobiony materiał jest przekazywany kolejnemu blokowi funkcyjnemu – głównemu algorytmowi detekcji. Jego odpowiedni dobór w dużej mierze decyduje o efektywności całego systemu. Jednak źle przygotowane wcześniejsze kroki mogą spowodować uzyskanie znacznie gorszego rezultatu, niż był możliwy. Oczywiście ostatecznym wyjściem każdego systemu detekcji jest położenie i wielkość każdej z wykrytych twarzy zapisana przeważnie jako położenie jednego z narożników prostokąta opisującego obszar zawierający twarz i wielkości jego jednego z boków (drugi jest obliczany na zasadzie proporcjonalności). Każdy z bloków może być bardzo rozbudowany, jednak niezaprzeczalnie największe zróżnicowanie

(13)

Rozdział 1. Wprowadzenie 12

występuje w bloku „Detekcja”, który zawiera w sobie cały – nierzadko bardzo skomplikowany – mechanizm detekcji. Rysunek 1.3 ukazuje ideę budowy detektorów.

Rys. 1.3. Schemat blokowy systemów detekcji twarzy

W najnowszych podejściach można zauważyć podział bloku detekcji na predetekcje, nazywaną wyodrębnianiem kandydatów i algorytm decyzyjny twarz/„nie twarz”. Jest to spowodowane obserwacją, że lepsze rezultaty w dziedzinie czasu otrzymuje się, gdy detektor najpierw jedynie pobieżnie zlokalizuje obszary potencjalnie zawierające twarz. Pozwala to zaoszczędzić sporo mocy obliczeniowej komputerów i skierować ją do drugiego kroku, w którym następuje decyzja czy wyodrębnione obszary są twarzą, czy też nie.

Niewątpliwie etap wyodrębniania tych potencjalnych obszarów zawierających twarz jest mniej istotny od drugiego – decyzji twarz/„nie twarz”, jednak ma swój ogromny wpływ na szybkość działania i ostateczną skuteczność detekcji. Dodatkowo jeśli pozwala zawęzić ilość próbek poddawanych dalszej analizie do kilku sztuk (gdzie ilości kombinacji w typowym obrazie 320x240 jest kilkaset tysięcy), a do tego wykazuje duże prawdopodobieństwo (np. ponad 90%), że zawiera się w nich poszukiwany wycinek zawierający poszukiwaną twarz, to warto jest poświęcić czas na opracowanie szybkich i efektywnych algorytmów go realizujących. W literaturze traktującej o detekcji twarzy proces lokalizowania tych obszarów jest obecny, jednak znacznie większą uwagę poświęca się głównemu blokowi decyzyjnemu, czyli twarz/„nie twarz”. Zachodzi więc duża szansa na opracowanie algorytmów zwiększających skuteczność detektorów, a dodatkową korzyścią jest możliwość ich użycia w wielu istniejących już systemach dodatkowo zwiększając ich efektywność.

Należy zwrócić uwagę, że starsze systemy cechowały się znacznie mniejszym skomplikowaniem od obecnych, jednak główna idea pozostaje od lat te sama. Większość zmian to modyfikacje tzw. tuningi, albo użycie mieszanki różnych podejść. Mimo to, uzyskuje się coraz większe współczynniki detekcji, co rokuje nadzieje, że problem detekcji

(14)

Rozdział 1. Wprowadzenie 13

twarzy będzie kiedyś ostatecznie rozwiązany. Pomaga przy tym nieustanny wzrost mocy obliczeniowej komputerów, nawet tych będących na wyposażeniu przeciętnego użytkownika.

1.2. Analiza algorytmów detekcji

W celu odpowiedniego zrozumienia mechanizmów kierujących większością podejść do problemu detekcji, a przez to i zasadność użycia skuteczniejszych lokalizatorów obszarów potencjalnie zawierających twarze, najlepiej przyjrzeć się kilku rozwiązaniom będących realnymi, działającymi systemami. Należy przy tym dodać, że mnogość rozwiązań problemu detekcji twarzy na obrazach jest ogromna. Bardzo często metody użyte nie są nowatorskie, a jedynie zaadoptowane od innych zadań, szczególnie z dziedziny rozpoznawania i klasyfikacji obiektów. Niewątpliwie, aby dokładnie i efektywnie przyjrzeć się światowym osiągnięciom z dziedziny detekcji twarzy należy dokonać pogrupowania metod. Nie jest to zadanie proste, ponieważ większość z nich nie jest przypisana do jednego typu algorytmów. Niejednokrotnie okazuje się, że najlepsze wyniki mają te, które wykorzystują najlepsze cechy z wielu podejść.

Kilka lat temu pojawiła się propozycja podziału zawierająca cztery grupy, a która obowiązuje do dziś [Yan02]. Rysunek 1.4 ilustruje ten podział.

Rys. 1.4. Podział detektorów zaproponowany przez Yang’a [Yan02].

Grupy te można scharakteryzować w następujący sposób [Yan02]:

- bazujące na wiedzy – te metody wykorzystują zasady jakie ludzka wiedza posiada na temat tego, co zawiera typowa ludzka twarz; najczęściej wykorzystywane do lokalizacji.

- używające niezmienników – metody z tej grupy starają się znaleźć takie cechy twarzy, które są niezależne od pozy, kąta obrotu czy warunków oświetleniowych i użyć ich do lokalizacji twarzy; najczęściej wykorzystywane do lokalizacji.

- bazujące na poszukiwaniu wzorcem – kilka wzorców całej twarzy bądź jej komponentów są użyte do poszukiwań na obrazie; wyniki korelacji pomiędzy tymi wzorcami, a obrazem wejściowych służą do decyzji czy dany obraz zawiera twarz; wykorzystywane zarówno do lokalizacji jak i detekcji.

Detekcja twarzy

Podejścia bazujące na wiedzy

Podejścia bazujące na obrazie Podejścia

używające niezmienników

Podejścia bazujące na poszukiwaniu

wzorcem

(15)

Rozdział 1. Wprowadzenie 14

- bazujące na obrazie – w odróżnieniu od metod bazujących na poszukiwaniu wzorcem w tej grupie model detektora jest nauczany zestawem obrazów zawierających w sobie reprezentatywną zmienność ludzkiej twarzy w zmiennych warunkach; te nauczone modele są następnie wykorzystywane do detekcji.

Większość z tych grup ma swoje podgrupy, które są konsekwencją użycia odmiennych metod jednak spełniających warunek przynależności do grupy głównej [Yan02]:

- metody bazujące wiedzy [Kot97, Mia99].

- metody korzystające z niezmienników:

- komponenty twarzy [Ami98, Bur95, Gra95, Han98, Leu95, Yow96, Yow97, Yow98], - tekstura twarzy [Aug93, Dai96],

- kolor skóry [Alb00, Cha98, Jon02, Kuk04b, Mat02, San02, Ter98], - multi-cechy twarzy [Gar99, Gra00, Hot98, Sab98, Yan98].

- metody porównywania ze wzorcem:

- przedefiniowane wzorce twarzy [Cra92, Sca98], - zdeformowane wzorce [Lan95].

- bazująca na obrazie:

- eigenface [Tur91],

- bazujące na rozkładzie [Yan00, Dut98, Edw98, Yan00],

- sieci neuronowe [Ana03, Ben99, Ber98, Row95, Row98a, Row98b], - Support Vector Machine (SVM) [Hei00, Hei01, Kim02, Osu97, Sun98], - Naive Bayes Classifier [Sch98, Sch00],

- Ukryte Modele Markov’a (ang. Hidden Markov Model – HMM) [Das02, Nef98], - Podejście informacyjno-teoretyczne [Col97, Col99, Ela02, Lew96, Hua96].

Aby dokładniej przybliżyć każdą z grup poniżej przedstawione są rozszerzone charakterystyki i przykłady gotowych systemów dla każdej z grup.

Podejścia bazujące na wiedzy

W rozwiązaniach bazujących na wiedzy wykorzystuje się bazę wiedzy człowieka o ludzkiej twarzy. Algorytmy z tej grupy wyszukują obszary, które spełniają warunki pozwalające traktować je wstępnie jako twarz (to etap generatora kandydatów), a następnie badają ich właściwości i porównują z zależnościami, które według ludzkiej wiedzy muszą wystąpić na twarzy (decyzja twarz/„nie twarz”). Dla przykładu, na twarzy najczęściej znajdują się dwoje oczu, a jeśli określimy ich położenie to nietrudno wskazać położenie ust i nosa. Dlatego cechą występującą w niemalże każdym systemie bazującym na wiedzy jest

(16)

Rozdział 1. Wprowadzenie 15

rozpoczynanie procesu detekcji od poszukiwania cech twarzy. Następnie obszary, w których je znaleziono (nie jest wtedy jeszcze do końca pewne czy te cechy są poprawnie określone) są badane według określonych wcześniej reguł i zostają zweryfikowane, bądź odrzucane.

Niezaprzeczalną trudnością powstającą przy budowie systemów tego typu jest problem odpowiedniego zakodowania ludzkiej wiedzy do postaci zrozumiałej dla komputera.

Jeśli reguły są zbyt szczegółowe, to dostarczona do systemu twarz będąca częścią obrazu może nie przejść wszystkich testów i zostać odrzucona. Z drugiej strony zbyt ogólne reguły mogą spowodować zbyt wiele błędnych przyjęć. Poza tym, niezmiernie trudnym problemem jest zaadoptowanie tej grupy metod (bazujących na wiedzy) do detekcji twarzy we wszystkich możliwych pozach, ponieważ opisanie regułami wszystkich przypadków to zadanie ogromne.

Należy jednak zauważyć, że dla twarzy w widoku frontalnym jakość detekcji jest wysoka.

Przykładem obrazującym tę grupę jest podejście bazujące na użyciu teorii rozmytej w celu detekcji twarzy na obrazach kolorowych [Wu99].

Na samym początku algorytm startuje od konwersji kolorów pikseli z przestrzeni RGB do przestrzeni UCS (perceptually Uniform Color System) [Wys67] (patrz rys. 1.5). Przebiega to poprzez między-konwersję RGB do CIE XYZ, a następnie do UCS. W tej przestrzeni utworzono modele kolorów twarzy SCDM (Skin Color Distribution Model) i włosów HCDM (Hair Color Distribution Model) poprzez ręczne zaznaczenie kolorów i wyznaczenie dystrybucji. Model włosów jest wyznaczany nieco inaczej, ponieważ użyto mieszanki luminancji z chrominancją. Stało się tak, gdyż piksele opisujące włosy są ciemne, a przez to informacja chrominancji jest niestabilna i musi być wsparta przez luminancję.

Rys. 1.5. Schemat blokowy algorytmu detekcji bazującego na sieciach rozmytych [Wu99a].

W kolejnym kroku algorytm dokonuje detekcji obszarów twarzy i włosów.

Przetestowano przy tym równolegle przestrzeń kolorów HSV, ale wyniki jednoznacznie wskazują na przewagę UCS. Do celów detekcji stworzono modele głowa-kształt w pięciu pozycjach: frontalnej, lewy i prawy pół-profil, lewy i prawy profil (wyznaczono

Konwersja RGB do UCS

Detekcja obszarów twarzy i włosów

Obliczanie RS i RH

Szacowanie AE(R,M)

Tworzenie MMD Obraz

wejściowy

Wykryte twarze Poszukiwanie w MMD wartości

spełniających progi Model głowa-

kształt

(17)

Rozdział 1. Wprowadzenie 16

współczynniki MF i MH). Ponieważ informacja uzyskana z detektora kolorów twarzy i włosów i modelów głowa-kształt nie dają się porównywać przy pomocy dobrze znanych metod template matching zaproponowano metodę nazwaną fuzzy pattern matching. Dla każdego kwadratowego okna pobranego z obrazu wejściowego wyznaczone są zestawy rozmyte RS i RH odpowiadające proporcjom pikseli „twarzo/włoso-podobnych” do ogólnej liczby pikseli (rys. 1.5). Następnie szacowane jest podobieństwo AE(RS,H,MF,H) pomiędzy uzyskanymi zestawami rozmytymi z badanego obrazu, a tymi wyznaczonymi z modelów.

Operacja ta jest przeprowadzana dla wszystkich możliwych okienek w danym rozmiarze. Następnie rozmiar okienka jest zwiększany i operacja się powtarza. Gdy zostaną wyczerpane możliwe wielkości okienka, tworzona jest zbiorcza tablica MMD (map of matching degree) (patrz rys. 1.5) zawierająca maksymalne wartości AE dla każdego piksela i dodatkowo przechowująca rozmiar okna dla tej maksymalnej wartości.

Eksperymenty przeprowadzono przy użyciu strumienia wideo pobranego ze zwykłej internetowej kamery, z parametrami ustawionymi na auto. Dla każdej rasy (azjaci, biali,…) stworzono modele SCDM i HCDM w sposób manualny. Niestety nie jest rozwiązano problemu automatycznego ich doboru. Według autorów wyniki są obiecujące, wynoszące nawet 100% dla odpowiednio dużych twarzy, a 90% dla małych. Ilość błędnych przyjęć rośnie wraz ze zmniejszającą się wielkością twarzy. Prędkość wynosiła ok. 2,5 fps na procesorze 266MHz. Metoda ma jednak swoje ograniczenia i wady, np. generuje złe wyniki przy bardzo pokolorowanych obrazach, jest nieodporna na przesłonięcia, bliskość dwóch lub więcej twarzy. Ale przede wszystkim nie potrafi rozpoznawać „łysych” i ludzi z odzieniem głowy i co ważne – konieczna jest informacja o pełnym kolorze. Dlatego nawet autorzy nazywają zlokalizowane twarze jako wykrycie kandydatów, a nie detekcję.

Podejścia używające niezmienników

Algorytmy używające niezmienników, w odróżnieniu od metod bazujących na wiedzy, poszukują tych cech twarzy, które są niezmienne i występujące na wszystkich twarzach. Wykorzystują one spostrzeżenie, że człowiek potrafi bezbłędnie rozpoznać daną twarz niezależnie od jej wyrazu, obrotu, czy warunków oświetleniowych. Dlatego muszą istnieć takie niezmienne cechy, które to umożliwiają. Do tych cech należą: brwi, oczy, nos, usta, linia włosów. Do ich wyodrębnienia używane są najczęściej algorytmy detekcji krawędzi. Po ich zlokalizowaniu sprawdzane są zależności biometryczne występujące pomiędzy nimi. Tutaj z pomocą przychodzą wieloletnie badania kryminalistyczne.

Problemami pojawiającymi się podczas używania metod dokonujących detekcji

(18)

Rozdział 1. Wprowadzenie 17

niezmiennych cech, jest ich duża wrażliwość na zaistniałe zakłócenia, tj. zmiana oświetlenia, szum, przesłonięcie, niska jakość materiału wejściowego. Przykładowo silne światło kierunkowe padające z boku na twarz powoduje zatarcie krawędzi, które algorytm próbuje znaleźć, co z kolei uniemożliwia ich sprawne zlokalizowanie i w efekcie błędny wynik.

Dobrym przykładem obrazującym tę grupę jest system posługujący się segmentacją kolorów i poszukiwaniu niezmienników [Hsu02]. Zastosowane algorytmy są zorganizowane w sposób widoczny na rysunku 1.6.

Rys. 1.6. Schemat blokowy algorytmu detekcji opartego na sieciach segmentacji kolorów i poszukiwaniu niezmienników [Hsu02a].

W uproszczeniu wszystkie użyte procedury bazują na analizie pikseli i ich przekształceniach w taki sposób, żeby uzyskać szukane elementy. Dostarczony obraz jest kompensowany pod względem światła, a następnie przeprowadzana jest segmentacja kolorów

„skóro-podobnych”. Do tego celu użyto przestrzeni kolorów YCrCb [Jon02a]. Dowiedziono, że kolor skóry jest nieliniowo zależny od luminancji.

Używając odpowiednich, nieliniowych przekształceń i zakresów w poszczególnych składowych przestrzeni YCrCb tworzeni są kandydaci do bycia twarzą. Aby ich zweryfikować pod kątem „twarzowości” lokalizowane są oczy i usta. Do tego celu użyto specjalnych przekształceń widocznych na rysunkach 1.7 i 1.8.

Rys. 1.7. Zilustrowanie metody tworzenia maski umożliwiającej efektowne lokalizowanie ust [Hsu02a].

DIFF AND

Kompensacja oświetlenia Transformacja przestrzeni kolorów

Detekcja koloru skóry Segmentacja Grupowanie regionów

Detekcja ust i oczu Detekcja krawędzi twarzy Weryfikacja/ważenie trójkąta oczy-usta Obraz

wejściowy

Wykryte twarze

Detekcja cech twarzy Lokalizacja twarzy

(19)

Rozdział 1. Wprowadzenie 18

Rys. 1.8. Zilustrowanie metody tworzenia maski umożliwiającej efektowne lokalizowanie oczu [Hsu02a].

Następnie przy pomocy wariacji luminancji, geometrii trójkąta oczy-usta i predykcji, poszukiwana jest granica twarzy. Na sam koniec użyto transformacji Hough’a w celu ostatecznego obrysowania elipsą wykrytej twarzy. Metoda bazuje na wielu parametrach i progach przez co można domniemać, że jest niejako skazana na niską skuteczność. Wyniki pokazały jednak, że nie jest to zgodne z prawdą. Detekcja na poziomie 89-91% jest przyzwoitą wartością, jednak czas przetwarzania obrazu o wymiarach 640x480 pikseli wynoszący średnio 25 sek. jest zdecydowanie za długi (procesor 1,7GHz). Poza tym nie określono co uważa się za prawidłowo zlokalizowaną twarz. Warto zaznaczyć, że powodem tak długiego czasu jest – w największym stopniu – detekcja cech twarzy. Również to, że system pracuje na obrazach kolorowych eliminuje możliwość przetestowania go na typowych bazach danych do tego celu stworzonych (FERET, CMU, itd.). Dlatego wszystkie testy przeprowadzone zostały na własnych, autorskich zestawach.

Podejścia bazujące na poszukiwaniu wzorców

W metodach przeszukiwania wzorcem, standardowy wzorzec (najczęściej frontalny) jest ręcznie predefiniowany lub sparametryzowany przez funkcje. Podając obraz do przetworzenia, oblicza się niezależną korelację pomiędzy tymi wzorcami, a konturem twarzy, oczami, nosem i ustami. Decyzja o tym czy twarz występuje na obrazie czy nie, zależy od wartości korelacji. Metody te mają wielką zaletę przejawiającą się w prostocie implementacji.

Mimo to dowiedziono, że nie za dobrze radzą sobie z detekcją twarzy w różnych skalach, pozach czy kształtach. W celu zwiększenia niezawodności i odporności na te zmienne warunki stosuje się „podwzorce” (w różnych rozdzielczościach i wielkościach) jak również zdeformowane wzorce. Niestety te udoskonalenia zwiększają zapotrzebowanie tych metod na

AND

(20)

Rozdział 1. Wprowadzenie 19

moc obliczeniową, a ponieważ szybkość działania jest jedną z nielicznych cech pozytywnie wyróżniającą tę metodę na tle innych, nie mają one wielkiego zastosowania. Nie ulega wątpliwości, że idea porównywania ze wzorcem jest znacznie częściej wykorzystywana do detekcji cech twarzy niż do samej detekcji.

W jednym z systemów zastosowano poszukiwanie wzorcem w pierwszym kroku algorytmów [Mar98]. Zaproponowano użycie trzech wzorców w trzech rozdzielczościach, każdy o połowę mniejszy od poprzedniego. Te trzy wzorce I1, I2, I3 są porównywane za pomocą korelacji z trzema odpowiadającymi im pod kątem rozdzielczości wzorcami T1, T2, T3. Zauważono, że w słabych warunkach oświetleniowych, a na pewno przy świetle kierunkowym korelacje są mało skuteczne. Jednocześnie zwrócono uwagę, że wynik porównywania znacznie się poprawia, gdy zastosuje się podwójną korelacje, dla każdej pionowej połówki twarzy oddzielnie i wybraniu maksimum do porównywania ze wzorcem.

W ten sposób znacznie poprawia się jakość wyników. Ten pierwszy korelacyjny krok jest przeprowadzany w celu wyodrębnienia 10 obszarów najlepiej spełniających warunki do bycia twarzą. Następnie wyznaczone obszary są przekazywane do kolejnego kroku wyodrębniającego geometryczne cechy – oczy i usta. Zastosowane metody bazują na prostych odcięciach co ilustruje rysunek 1.9.

Rys. 1.9. Zobrazowanie kroków normalizacyjnych i sposobu działania algorytmu detekcji cech geometrycznych twarzy [Mar98]

Kolejnym krokiem algorytmu jest klasyfikacja. Do zbudowania modelu twarzy i „nie twarzy” zaproponowano użycie kompilacji algorytmów PCA i LDA. Do ostatecznej decyzji czy dany obszar jest twarzą posłużył rozkład statystyczny. Określono również wielkość minimalną i maksymalną poszukiwanej twarzy, a przedział ten jest bardzo wąski od 30×50 pikseli do 50×80 pikseli. Wyniki eksperymentów dokonanych na autorskiej bazie oscylujące wokół 90% nie są bardzo wysokie jednak wykazują swą przewagę nad większością algorytmów bazujących na segmentacji kolorów i poszukiwania kształtów szczególnie, gdy twarz jest obrócona i kierunkowo oświetlona.

(21)

Rozdział 1. Wprowadzenie 20

Przykład opisany powyżej potwierdza, że pomieszanie trzech metod: poszukiwania wzorcem (3 wzorce i badanie połówek twarzy), używających niezmienników (cechy geometryczne) jak i bazujących na obrazie (PCA) jest często używane w celu osiągnięcia jak najlepszych rezultatów w każdym z etapów detekcji, jak również dla ograniczenia czasu wykonywania algorytmów.

Podejścia bazujące na obrazie

W odróżnieniu od metod bazujących na poszukiwaniu wzorcem, gdzie wzorce są predefiniowane przez ekspertów (statyczne), w grupie metod bazujących na obrazie, wzorce generowane są na podstawie dostarczonych zbiorów obrazów uczących [Sta02]. Uogólniając, można powiedzieć, że opierają się na analizie statystycznej i algorytmach uczących (ang.

machine learning) w celu znalezienia zależności pozwalających określić czy badany obszar obrazu to twarz czy nie. Dynamicznie (podczas procesu uczenia) uzyskane wzorce (przeważnie zakodowane w funkcjach rozkładu bądź dyskryminacyjnych) są używane do detekcji. Bardzo ważną sprawą jest odpowiednia redukcja przestrzeni cech wpływająca na ilość obliczeń, a także powodująca zwiększenie skuteczności detekcji. Wiele metod bazujących na wyglądzie można rozumieć jako strukturę prawdopodobieństwa. Obraz lub wektor cech otrzymanych z obrazu jest uważany za losową zmienną x, a ta zmienna losowa jest scharakteryzowana jako twarz lub „nie twarz” poprzez funkcję gęstości klasowo- warunkową p(x|face) i p(x|nonface). Do rozstrzygnięcia czy dany obszar jest twarzą czy nie najczęściej stosuje się klasyfikator Bayesian’a lub maksymalne prawdopodobieństwo.

Dużą trudnością przy konstruowaniu systemów korzystających z dziedziny metod bazujących na wyglądzie, jest budowa odpowiednich zestawów uczących. Muszą one zawierać przykłady twarzy i „nie twarzy”, przy założeniu, że zakres będzie możliwie jak najbardziej reprezentatywny. O ile zestaw uczący twarzy jest stosunkowo łatwo stworzyć, ponieważ mimo swoich subtelnych różnic twarze są stosunkowo do siebie podobne, to realizacja klasy „nie twarzy” jest znacznie trudniejsza. Dzieje się tak dlatego, że ilość kombinacji możliwych „wyglądów” tła (które nie jest twarzą), jest bliska kombinacji iluminacji wszystkich pikseli wchodzących w skład zestawu wejściowego systemu.

Jedną z metod bazujących na obrazie jest ta korzystająca z sieci neuronowych [Fer01].

Jego idea została przedstawiona na rysunku 1.10. Na każdym dostarczonym obrazie algorytm przeprowadza wycinanie okienek, które następnie są analizowane. Krokiem normalizacyjnym jest skalowanie do wymiarów 15x20 i rozciągnięcie histogramu. Założono, że najmniejszy wycinek może mieć wielkość 15x20, a największy 150x200. Dla obrazu 150x200 daje to ok.

(22)

Rozdział 1. Wprowadzenie 21

500,000 obrazów do analizy. Jest to duża liczba, więc zastosowano algorytmy redukujące ich ilość.

Rys. 1.10. Schemat blokowy algorytmu detekcji opartego na sieciach neuronowych i wnioskowaniu [Fer01a].

Pierwszy to filtr ruchu (patrz rys. 1.10) bazujący na prostych odcięciach, ale skutecznie eliminujący ponad 90 procent hipotez. Kolejny filtr redukuje ilość pozostałych hipotez o 60 procent, a dokonuje tego segmentując kolory skóro-podobne. Na sam koniec zaaplikowany jest prosty wielowarstwowy perceptron, posiadający 300 wejść, 20 neuronów w warstwie ukrytej, co daje razem 6041 wag. Do nauczenia tej sieci użyto 8000 wizerunków twarzy i 50000 „nie twarzy”. Sieć ma niezłe wyniki w dziedzinie pozytywnej detekcji – 99%, ale negatywnych przyjęć ma też sporo – 1%, dlatego nie może być użyta jako kończący etap.

Oczywiście wszystkie obrazy poddawane analizie przez tą sieć są przeskalowane do wielkości 15x20. Po tych obliczeniach pozostaje ok. 600 obrazów przekazywanych do kolejnego, głównego algorytmu.

W celu ostatecznego zdecydowania o istnieniu twarzy lub nie zdecydowano się wykorzystać Constrained Generative Model (CGM). Polega on na obliczaniu prawdopodobieństwa czy dany obraz jest twarzą lub nie przy użyciu projekcji P, a następnie odległości euklidesowej do wzorcowych twarzy. Im więcej wzorców tym lepsza jakość, lecz także zwiększa się ilość operacji. W celu jej zmniejszenia użyto sieci neuronowej aproksymującej projekcję zestawu P(x). Ma ona tyle samo wejść i wyjść (15x20), i dwie warstwy ukryte zawierające kolejno 35 i 50 neuronów. Podstawą do przyjęcia tezy, że dany wycinek przedstawia twarz jest spełnienie jeśli obliczona minimalna odległość do którejś z

Filtr ruchu

Filtr koloru

Filtr MLP

CGM 1 front 1

CGM 1 front 2

CGM 1 side 1

CGM 1 side 2

Brama MLP END

TAK Decyzja T/NT NIE

TAK Decyzja T/NT NIE

TAK Decyzja T/NT NIE

TAK NIE Decyzja T/NT

END

TWARZ

(23)

Rozdział 1. Wprowadzenie 22

twarzy wzorcowych jest poniżej pewnego progu. Aby zwiększyć skuteczność detekcji obróconych twarzy posłużono się kilkoma CGM’ami, dla każdej z pozycji (patrz rys. 1.10).

Dodatkowo posłużono się wielowarstwowym perceptronem w celu dodatkowego wnioskowania czy poprawność wyników zwróconych przez CGM’y jest akceptowalna.

Wszystkie te bloki funkcyjne prezentuje rysunek 1.4. Metoda została przetestowana na dwóch bazach danych. Pierwsza, Sussex Face Database (10 twarzy po 10 zdjęć), zawierająca twarze od lewego do prawego profilu – w celu sprawdzenia przydatności do detekcji twarzy obróconych. Zanotowano dobry wynik dla twarzy widocznych z profilu (100%), ale systematycznie malejący z rosnącym kątem obrotu (do 37%). I druga, standardowa, CMU Test Set A, zawierająca 42 obrazy z wieloma twarzami. Tutaj wyniki wahały się pomiędzy 77-85% w zależności od użytych kombinacji.

Jednym z nowszych algorytmów służącym detekcji wielu frontalnych twarzy na obrazach jest ten korzystający z BDF’a (ang. Bayesian Discriminating Features) [Liu03].

Nowatorstwo tej metody polega na integracji analizy cech z obrazu wejściowego, statystycznego modelowania klas twarzy/„nie twarzy”, i ostatecznej decyzji przy użyciu klasyfikatora Bayesian’a (patrz rys. 1.11). Analiza cech pozwalająca wyznaczyć wektor cech potrafiący udźwignąć ciężar detekcji, jest reprezentowana przez kombinację obrazu wejściowego, jednowymiarowej reprezentacji falkowej Harr’a i projekcji amplitudy.

Udowodniono, że reprezentacja Harr’a jest efektywna do celów detekcji, a projekcja amplitudy doskonale chwyta wertykalną symetrię twarzy i horyzontalną jej charakterystykę.

Statystyczne modelowanie klasy twarzy i „nie twarzy” wyznacza prawdopodobieństwo funkcji gęstości dwóch wymienionych klas. Niezaprzeczalną trudnością przy przygotowywaniu zestawów uczących jest to, że o ile klasę twarzy jest stosunkowo łatwo przygotować, o tyle klasa „nie twarzy” jest praktycznie niemożliwa do zaadoptowania.

Posłużono się więc filozofią znaną z zastosowań SVM. Polega ona na tworzeniu klasy „nie twarzy” leżącej bardzo blisko klasy twarzy. Aby zamodelować obie klasy posłużono się rozkładem normalnym w którym kluczową rolę pełni przekształcenie PCA (ang. Principal Component Analysis), a dokładniej 10 pierwszych komponentów. Te rozkłady normalne są wyznaczane z 1200 próbek twarzy i 4500 próbek „nie twarzy” wybranych ręcznie, ponieważ muszących być bardzo zbliżonych do wyglądu twarzy. Na samym końcu użyty zostaje klasyfikator Bayesian’a, który daje możliwość decyzji czy dostarczony do systemu obraz jest twarzą czy nie. Oczywistym jest fakt, że obraz dostarczony do systemu jest analizowany okienko po okienku. Najpierw jest skalowany do rozdzielczości 16x16, następnie wyznaczana jest jednowymiarowa reprezentacja falkowa Harr’a i projekcja amplitudy. Z obrazu

(24)

Rozdział 1. Wprowadzenie 23

wejściowego i tych policzonych, dodatkowych wektorów tworzony jest nowy wektor cech, przy pomocy którego, jak również modeli statystycznych, obliczana jest jego przynależność do klasy twarzy lub „nie twarzy”. Cały algorytm przedstawia rysunek 1.11.

Rys. 1.11. Schemat blokowy algorytmu detekcji bazującego na BDF [Liu03a].

System został przetestowany przy użyciu bazy twarzy FERET i CMU. Uzyskane rezultaty są bardzo zadowalające – 97,4% detekcji przy tylko jednej błędnej (dla CMU - 80 obrazów zawierających 227 twarzy). Jednocześnie dla bazy FERET uzyskano średni wynik wynoszący 98,7% przy żadnej błędnej. Jednak tak dobry rezultat jest spowodowany nauczaniem modelu przy pomocy próbek pochodzących właśnie z bazy FERET. Dokonano również próby detekcji obróconych twarzy przy pomocy prostego rotowania obrazu wejściowego. Wynik jest zadowalający jednak odbija się na czasie detekcji, który nie jest krótki już dla standardowego, nie obróconego obrazka wynosi średnio ok. 1 sekundy na komputerze 900MHz Sun Blade 5000.

Przegląd najlepszych systemów detekcji na rynku

Podczas prac nad rozwojem opisywanego w rozprawie systemu na świecie również trwały badania nad ulepszaniem algorytmów. Zmiany te są znaczące i zbliżają się do rozwiązania problemu lokalizacji i detekcji na obrazach cyfrowych. Do zaprezentowania wyników konkurencji najlepiej posłużyć się najlepszymi systemami dostępnymi na rynku. Uważna analiza rozwoju tej dziedziny biometryki pozwala wysnuć wniosek, że na rynku dominują dwa typy podejścia do badań. Pierwsze, typowo naukowe, sponsorowane i prowadzone pod opieką uczelni wyższych ma na celu dokładne zbadanie problemu, przez co następuje rozwój.

W proces włączeni są studenci pomagający rozwijać algorytmy pod okiem doświadczonych profesorów i doktorów. W taki sposób powstaje np. RealTime FaceDetect w Fraunhofer Institut Integrierte Schaltungen [RTFD], który jest jednym z najbardziej zaawansowanych

Zestaw twarzy

Model klasy twarzy i „nie twarzy”

Klasyfikator Bayesiana Preprocessing

Obraz wejściowy

Wykryte twarze Zestaw „nie twarzy”

Preprocessing, Preprocessing,

(25)

Rozdział 1. Wprowadzenie 24

naukowych systemów. Drugie, czysto komercyjne, nastawione na sprzedaż i rynkowy sukces, realizowane jest przez duże zespoły programistów i naukowców, wspomaganych przez ogromne budżety, mające dostęp do najnowszych zdobyczy nauki, ściśle współpracujące z wielkimi korporacjami. Wynikiem ich jest nie tyle sam algorytm, co sposób jego wykorzystania. Taki model reprezentuje bardzo popularny ostatnio system Face Tracker firmy FotoNation [FT]. Poniżej przedstawione są oba wyżej wymienione systemy.

RealTime FaceDetect opracowany przez Fraunhofer Institut Integrierte Schaltungen.

Ten system opracowany na niemieckiej uczelni jest jednym z najskuteczniejszych jakie dostępne są do przetestowania na komputerach klasy PC [Kub06, Fro04]. Prace rozwojowe ciągle trwają, a na stronie instytutu [RTFD] pojawiają się nowe aktualizacje w formie pliku do ściągnięcia. Interfejs programu, przedstawiony na rys. 1.12, w którym zaszyte są algorytmy detekcji twarzy, jest intuicyjny.

Rys. 1.12. Interfejs użytkownika programu RealTime FaceDetect wraz z przykładami jego błędnego, jak i poprawnego działania

Face Tracker opracowany przez firmę FotoNation

W odróżnieniu od poprzedniego systemu, Face Tracker [FT] jest budowany i opracowywany w konkretnym komercyjnym celu. Firma FotoNation słusznie założyła i konsekwentnie realizowała plan użycia detektora twarzy do wspomagania funkcji cyfrowych aparatów fotograficznych i aparatów telefonii komórkowych. Ich system jest tak dobrze osadzony marketingowo, że niemal każdy nowy aparat cyfrowy musi posiadać wspomaganie Auto Focusa przez moduł firmy FaceNation. Oficjalnie do użycia przyznają się Pentax, Samsung i

(26)

Rozdział 1. Wprowadzenie 25

Nokia, choć inni producenci z wielkim prawdopodobieństwem również używają tego systemu. Nowatorskość rozwiązania polega na wykorzystaniu detekcji twarzy do wspomagania AF. Przesłanką skłaniającą przyjęcia takiego założenia jest fakt, że wg badań 90% amatorskich zdjęć zawiera twarz ludzką. Użytkownik jest w stanie zaakceptować na zdjęciu rozmyte tło, ale twarzy już nie. System jest w stanie na bieżąco śledzić do dziewięciu twarzy. Informacją zwrotną dla użytkownika aparatu są ramki wyświetlone wokół wykrytych twarzy co ukazuje rys. 1.13. System wykrywa twarze zarówno w pozycjach en face, jak i z profilu.

Rys. 1.13. Wizualizacja działania Face Tracker w aparacie cyfrowym [FT]

Następnie, tuż przed wykonaniem zdjęcia FaceTracker pozwala oprogramowaniu aparatu na dobór parametrów zapewniający prawidłowe oddanie fotografowanych twarzy. W tym celu odpowiednio dobierana jest ostrość i ekspozycja w czym może, ale nie musi pomagać lampa błyskowa. Oprogramowanie FotoTracker wykrywa również obrócenie obrazu o 90° - niezależnie od tego czy aparat jest wyposażony w sensor ruchu. Zastosowanie systemu FaceTracker w oprogramowaniu aparatu cyfrowego wprowadza do menu tryb FacePriority - priorytet twarzy FP. (Jest to nazwa FotoNation i poszczególni producenci mogą nazywać ten tryb własnymi określeniami.) Składa się on z trzech podstawowych składowych: FP Auto Focus - umożliwia automatyczne ustawiania ostrości na obiekty poza centrum kadru; FP Auto Exposure - umożliwia tryb priorytetu ekspozycji dla pola, w którym znajduje się twarz; FP Color Balance - umożliwia automatyczny dobór balansu bieli zoptymalizowanego do oddania tonów skóry. Na targach PMA 2006 i 2007 (Photo Marketing Association Conference) zaprezentowano działanie systemu, które zostało bardzo pozytywnie przyjęte przez rynek.

(27)

Rozdział 1. Wprowadzenie 26

Rys. 1.14. Demonstracja pracy Face Tracker podczas PMA 2007 [FT2]

Niestety nie ma możliwości zapoznania się z algorytmami zastosowanymi w Face Tracker, ponieważ jest to tajemnica firmowa. Niemniej z informacji, które są na rynku część algorytmów pochodzi z FaceIT, znanego systemu rozpoznawania twarzy.

1.3. Bazy danych zdjęć

Pomimo wielkiego wysiłku naukowców pracujących na całym świecie nad problemem detekcji twarzy na obrazach, niewiele zrobiono w celu stworzenia odpowiednich baz danych do testowania i porównywania konkurencyjnych rozwiązań. Nie należy mylić baz zdjęć twarzy służących do testowania systemów rozpoznających twarze z tymi do badania skuteczności detekcji. Problem detekcji wymaga odmiennych danych do przetwarzania, ponieważ ukazanie i ewentualne wyeliminowanie niedoskonałości algorytmów związanych z tą grupą nie pokrywa się z tymi niezbędnymi do rozpoznawania twarzy. Należy tu zwrócić uwagę, że niewiele baz danych posiada skomplikowane tło, a wielkość twarzy, jej położenie jest przeważnie podobne w całym zestawie. Często autorzy wykorzystują więc własne autorskie zestawy jednak ciężko wtedy o porównanie z innymi, istniejącymi algorytmami.

Spośród najczęściej spotykanych baz danych można wymienić: ORL (Olivetti) [ORL], BioID [BioID], FERET [FER], FERET COLOR [FER], PIE [CMU].

Bazy danych najczęściej zawierają zbiór plików graficznych zgromadzonych w jednym katalogu lub też podzielone są na podkatalogi. Wtedy każdy z nich reprezentuje oddzielną klasę twarzy. Obiektem takich baz danych jest plik graficzny zawierający obraz

(28)

Rozdział 1. Wprowadzenie 27

wraz ze znajdującą się na nim twarzą. Często dołączony jest również plik tekstowy z informacja o położeniu twarzy (np. w bazie BioID określone są położenie 20 punktów antropometrycznych na twarzy) umożliwiający szybką weryfikacje pracy detektora.

Pierwsza z opisywanych baz danych to wynik pracy naukowców Olivetti Research Laboratory w Cambridge w Wielkiej Brytanii o nazwie Olivetti DB [ORL]. Powstała w latach 1992 – 1994, zawiera 400 zdjęć. Jest to zbiór obrazów 40 osób (po 10 zdjęć na każdego) wykonanych w rozdzielczości 92×112 pikseli i w 256 odcieniach szarości. Baza zorganizowana jest w następujący sposób: każdej osobie odpowiada osobny podkatalog, którego nazwa ma format Sn, gdzie n jest numerem osoby (1-40). Kolejnymi cechami obrazów jest ciemne tło, które jest za twarzą, jak również to, że każda postać patrzy na wprost z małymi odchyleniami we wszystkich kierunkach. Należy tutaj nadmienić, że baza ta jest dowodem na to, że nie wszystkie bazy twarzy są dobre do testowania detektorów twarzy. W tym konkretnym przypadku problemem jest jednolite, ciemne tło, i zbliżona procentowo do wielości obrazka wielkość wszystkich twarzy. W tabeli 1.1 pokazanych jest 5 przykładowych zdjęć jednej z klas.

Do zadań detekcji znacznie lepiej nadaje się baza FERET [Phi98, Phi00]. Obecnie jest to jedna z najbardziej miarodajnych baz wykorzystywanych do testowania komercyjnych systemów rozpoznawania osób (Face Recognition Vendor Test – FRVT) jak i tych czysto naukowych. Jej niezaprzeczalną zaletą jest ogromna ilość zdjęć, która jest stale rozbudowywana: w 1999 roku liczyła 14126 zdjęć 1199 osób [Phi99], a w roku 2003 test korzystał już z 121589 zdjęć, 37437 osób [Phi03]. Taką ilość danych nie może w tym momencie zaoferować żadna inna baza twarzy. Od 2003 roku zespół opracowujący bazę FERET zdecydował o przejściu na zdjęcia kolorowe i teraz rozwijana jest jedynie ta odmiana.

Zdjęcia zawierają twarz w ujęciu portretowym, bądź szerokim portrecie. Są to zarówno kobiety jak i mężczyźni (każdej rasy), a kąt obrotu twarzy wacha się od -90 do 90 stopni.

Postaci wyrażają różne stany emocjonalne, są nierównomiernie oświetlane, a często zawierają elementy zakłócające typu okulary czy zarost (patrz tab. 1.1). Tło za twarzami jest mało skomplikowane i przeważnie rozmyte krótką ogniskową aparatu. Parametry techniczne obrazów są następujące: rozdzielczość 256×384 piksele w przestrzeni RGB (kiedyś w odcieniach szarości). Każdy plik zawiera unikatową nazwę, która informuje również o kilku istotnych parametrach związanych z danym obrazem.

Format nazwy pliku jest następujący: nnnnnxxfffq_yymmdd.tif, gdzie [Kuz04]:

- nnnnn – pięciocyfrowy unikalny numer identyfikacyjny,

- xx – dwuznakowy kodem oznaczający sposób zobrazowania twarzy na zdjęciu,

(29)

Rozdział 1. Wprowadzenie 28

- fa – zdjęcia frontalne twarzy, - pl – profil lewy,

- hr – prawa połówka twarzy;

- fff – trzy znaczniki (flagi) używane do określenia:

- czy zdjęcie może być publikowane,

- czy histogram zdjęcia był dopasowywany,

- czy zdjęcie było wykonane na filmie o czułości 200 czy 400 ASA;

- q – modyfikator, który nie zawsze występuje, informujący o tym, czy:

- a – osoba nosiła okulary,

- e – ubranie było cyfrowo retuszowane - f – jasność obrazu była zredukowana;

- yymmdd – data wykonania zdjęcia.

Baza FERET jest produktem komercyjnym. Do testowania produktów przeznaczonych do sprzedaży (detektorów lub/i systemów rozpoznawania) konieczne jest wniesienie opłat, jednak do celów naukowych udostępniono wersję uboższą, umożliwiającą sprawne przeprowadzenie badań nad efektywnością, a jedyną koniecznością jest zamieszczenie odpowiedniej adnotacji w bibliografii.

Kolejną bazą przygotowaną z obrazów w odcieniach szarości jest baza BioID opracowana przez firmę HumanScan [HS]. Posiada niewątpliwa zaletę w postaci plików dodanych do każdego obrazu, zawierających informacje o położeniu 20 punktów antropometrycznych występujących na danej twarzy (m.in. oczu, ust, nosa, brody). W bazie BioID znajduje się 1521 zdjęć 23 osób o rozdzielczości 384×286 pikseli w 256 odcieniach szarości. Są to obrazy wykonane w typowym biurze, zwykłą kamerą internetową o niewyszukanej jakości, co w założeniu miało oddać jak najbardziej docelowe warunki pracy danego detektora czy systemu rozpoznawania osób. Twarz przeważnie zajmuje centralna część obrazu, a jej wielkość nie wacha się w szczególnie dużym zakresie i wynosi średnio ok.

50-70% wysokości obrazu (czyli 140-196 pikseli) (patrz tab. 1.1). Format nazewnictwa plików BioID to: BioID_xxxx.pgm, gdzie xxxx określa unikalny numer zdjęcia. Cała baza jest dostępna pod adresem [BioID].

Niewątpliwą zaletą ostatniej z prezentowanych baz danych twarzy jest posiadanie w swych zasobach obrazów w 24-bitowej głębi kolorów. Zbiór ten o nazwie CMU Pose Illumination Expression zawiera 41368 obrazów twarzy 68 osób [Sim02]. Kolejną zaletą bazy CMU jest to, że zdjęcia były wykonywane w specjalnym pomieszczeniu o nazwie CMU 3D Room (13 zsynchronizowanych aparatów fotograficznych wysokiej jakości i 21 lamp

(30)

Rozdział 1. Wprowadzenie 29

błyskowych). Użyte kamery i lampy zostały umieszczone z przodu fotografowanego obiektu na hemisferze [Kan98]. Parametry techniczne obrazów przedstawiają się następująco:

rozdzielczość 640x480 pikseli oraz 24-bitową głębię kolorów. Cała baza jest dostępna pod adresem [CMU].

Olivetti

FERET

FERET COLOR

BioID

CMU PIE

Tabela 1.1. Przykładowe zdjęcia znajdujące się w standardowych bazach obrazów twarzy (Źródło: [Kuz04])

Podsumowując, niezaprzeczalną zaletą gotowych baz twarzy jest ich ogólnodostępność i przez to możliwość zapoznania się z wynikami osiągnięć innych zespołów naukowych i komercyjnych. Nie występuje wtedy niebezpieczeństwo, że do testów użyta zostanie autorska baza danych, a prezentowane rewelacyjne wyniki będą rezultatem

(31)

Rozdział 1. Wprowadzenie 30

odpowiednio spreparowanych danych wejściowych. Wadami gotowych baz jest ich

„liniowość” (ta sama rozdzielczość, twarze centralnie położone, ich wielkość nie różniąca się w dużym zakresie) i przygotowanie zdecydowanie do zadań rozpoznawania, a nie detekcji.

Niestety, żadna z powyższych pięciu baz nie jest miarodajnym narzędziem do testowania detektorów, a jedynie wstępnym krokiem.

1.4. Podsumowanie i wnioski Podsumowanie

Niewątpliwie problem detekcji twarzy na obrazach jest zagadnieniem poważnym i nierozwiązanym. Bardzo duże zainteresowanie jego rozwiązaniem przez naukowców jak i firmy komercyjne jest dostatecznym dowodem, że istnieje potrzeba udoskonalania wyników działania detektorów w dziedzinie jakości i szybkości. Szczególnie ostatnia wymieniona cecha jest istotna (przy zachowaniu jakości na wysokim poziomie), ponieważ detektory rzadko występują jako niezależne systemy, a są jedynie pierwszym etapem innych takich jak visitor identification czy access control. Należy przy tym pamiętać, że detektory odgrywają zasadniczą rolę w wyżej wymienionych systemach, gdyż bez nich nie uda się stworzyć skutecznych i w pełni automatycznych systemów bazujących na biometrii twarzy.

Niezaprzeczalnie ważną częścią dzisiejszych detektorów jest część odpowiedzialna za lokalizowanie obszarów potencjalnie zawierających twarz, następnie weryfikowanych przez kolejny blok decyzyjny twarz/„nie twarz”. Dobrze opracowany, istotnie wpływa na wynik szczególnie w dziedzinie czasu, drastycznie ograniczając ilość analizowanych dalej próbek.

W skrajnym przypadku taki generator może posłużyć jako samodzielny lokalizator twarzy.

Na podstawie przeprowadzonej analizy prac naukowych należy stwierdzić, że różnorodność podejść do zagadnienia detekcji twarzy na obrazach jest bardzo duża. W większości przypadków razem z nowym systemem detekcji opracowywany jest dedykowany lokalizator obszarów potencjalnie zawierających twarz, zwanym w uproszczeniu generatorem kandydatów. Założenie to jest słuszne jedynie w sytuacji, gdy rzeczywiście wynik jego działania znacząco odbiega od konkurencji, oczywiście w kierunku doskonałości. W trakcie analizy istniejących rozwiązań takiej tendencji nie zauważono. Nasuwa się wręcz stwierdzenie, że naukowcy rzadko, porównują tę część swoich prac, a przez to rezultaty osiągane ostatecznie przez cały system potrafią być słabe, mimo bardzo dobrego algorytmu twarz/„nie twarz”.

Dodatkowym problemem, który utrudnia porównywanie generatorów kandydatów, jak i samych detektorów jest brak bardzo dobrych, efektywnych, dedykowanych i

(32)

Rozdział 1. Wprowadzenie 31

ogólnodostępnych baz danych pozwalających na rzetelne ich porównanie. Należy spodziewać się, że bazy takie w niedalekiej przyszłości zostaną opracowane i zyskają przychylność naukowców.

Mimo, że na przestrzeni ostatnich dwóch dekad postęp w dziedzinie detekcji twarzy na obrazach jest ogromny, nie ma wątpliwości, że zostało jeszcze dużo do zrobienia, aby ostateczny system był kompletny, czyli odporny na [Kuk03a, Yan02]:

- warunki oświetleniowe,

- orientację, pozę i częściowe przesłonięcia, - ekspresję twarzy,

- obecność okularów, zarostu i zróżnicowania w fryzurze.

Równie istotnym czynnikiem wpływającym na ocenę detektora, a tym bardziej generatora kandydatów jest szybkość jego działania, co w prostej linii przekłada się na jego przydatność do wykorzystania w systemach automatycznego rozpoznawania twarzy lub innych systemach bezpieczeństwa.

Istnieją cztery grupy podejść do detekcji [Yan02]: bazujące na wiedzy, używające niezmienników, porównywania ze wzorcem i bazujących na wyglądzie. Warto zaznaczyć, że w ostatnich latach najczęściej wykorzystywane są metody z ostatniej z wymienionych grup jednak nie występujące samodzielnie, lecz wspierane przez metody z trzech pierwszych. To w nich przeważnie stosuje się podział na dwa etapy: lokalizacji obszarów potencjalnie zawierających twarz i decyzje twarz/„nie twarz”. Celem takich działań jest redukcja czasu potrzebnego na wykonanie detekcji, jak również na nie analizowanie obszarów, gdzie wystąpienie twarzy jest minimalnie prawdopodobne.

Wnioski

Podsumowując, można stwierdzić, że problem detekcji twarzy na obrazach nie został w pełni rozwiązany mimo niewątpliwego postępu poczynionego na przestrzeni ostatnich dwudziestu lat. Szczególnie domena czasu jest ciągle bardzo zaniedbana. Systemy pracujące z prędkością większą niż 2-5 obrazów na sekundę (ang. fps – frame per second) należą do rzadkości, a ich wyniki w dziedzinie efektywności nie są zadowalające. W znacznej części przypadków sytuacja ta spowodowana jest analizą zbyt dużej ilości danych, gdzie nie ma szans na znalezienie twarzy. Rozwiązaniem jest opracowanie skutecznego i szybkiego lokalizatora obszarów potencjalnie zawierających twarz, dostarczającego minimalna ilość próbek do analizy, przy założeniu wysokiego prawdopodobieństwa, że znajdzie się wśród

Cytaty

Powiązane dokumenty