• Nie Znaleziono Wyników

2. Opracowanie metody do rozwiązania zadania lokalizacji obszarów zawierających twarz

2.4. Omówienie zmodyfikowanego algorytmu lokalizacji obiektów owalnych

2.4.1. Obróbka wstępna

Pierwszym krokiem algorytmu, a zarazem pierwszym usprawnieniem działania metody jest nieproporcjonalne przeskalowanie (opisane w rozdziale 2.2) obrazu wejściowego do rozmiarów 45×80 pikseli (rozmiar ten jest obowiązujący dla obrazów wejściowych o proporcjach 4:3). Łatwo zauważyć, że powyższy rozmiar nie spełnia proporcji 4:3. Jest to celowy zabieg mający na celu zbliżenie kształtu twarzy do okręgu, ponieważ standardowo jest ona owalem (elipsą). Powód jest oczywisty – obliczenia konieczne do przeprowadzenia dla kształtów okrągłych w porównaniu z owalnymi (eliptycznymi) są dużo prostsze i znacznie

Rozdział 2. Opracowanie metody do rozwiązania zadania lokalizacji obszarów zawierających twarz 51

mniej kosztowne czasowo dla jednostki obliczeniowej (okrąg to szczególny przypadek elipsy). Badania przeprowadzone na obrazach twarzy wykazały, że szerokość twarzy wynosi w przybliżeniu 75% wysokości [Kuk03]. Dlatego rozmiar docelowego obrazu przeznaczonego do dalszej analizy jest, tak jak napisano na początku rozdziału, równy 45×80 pikseli. Należy dodać, że skalowanie do tych wartości jest przeprowadzane obligatoryjnie dla wszystkich obrazów wejściowych, niezależnie od posiadanej rozdzielczości. Dowiedziono, że zmniejszenie wymiarów obrazu jest korzystne w dwóch aspektach: czasowym i jakościowym.

O ile pierwszy jest oczywisty ponieważ mniej pikseli, to mniej obliczeń, tak drugi jest już wynikiem wnikliwych badań i obserwacji wyników, które wykazały, że zmniejszenie rozdzielczości jest dodatkowym, skutecznym krokiem normalizującym i eliminującym szum z obrazu. Poniższe rysunki prezentują efekt działania nieproporcjonalnego skalowania.

Rys. 2.16. Przedstawienie koncepcji nieproporcjonalnego skalowania

Rys. 2.17. Zobrazowanie „okrągłości” twarzy po przeskalowaniu do rozdzielczości 80×45 pikseli

Kolejnym krokiem algorytmu jest zbadanie w jakiej przestrzeni barw są dane wejściowe. Jeśli wykryty zostanie tryb RGB to algorytm dokonuje konwersji tej przestrzeni do komponentu I2 z przestrzeni I1I2I3 [Kuk03], a opisanej w rozdz. 2.2. Wybór komponentu I2 poprzedzony został badaniami, które wykazały, że doskonale nadaje się do poszukiwania twarzy, gdyż twarz jest na nim widoczna, a pozostałe obszary obrazu nie będące w odcieniu zbliżonym do twarzy są ukryte. Jest to niewątpliwa zaleta, która udowodniła swoją wartość podczas testów.

Rozdział 2. Opracowanie metody do rozwiązania zadania lokalizacji obszarów zawierających twarz 52

Jednak obraz w komponencie I2 bez wstępnej obróbki nie jest wartościowym materiałem do analizy. Dlatego zastosowano operacje rozciągnięcia histogramu, która mimo swej prostoty działania powoduje polepszenie jakości materiału pod względem widoczności twarzy, a przez to znacząco poprawia efektywność całego systemu. Badania dowiodły, że opłaca się obciąć znaczną część histogramu, w sposób stały – pełny zakres od 0 do 255 zawężony jest do przedziału od 0 do 70 i rozciągnięty ponownie do 256 wartości.

Operacja rozciągnięcia histogramu opisana została w rozdziale 2.2. To drastyczne obcięcie znaczącej części histogramu wynika ze spostrzeżenia, że wartości odpowiedzialne za kolor skóry znajdują się w zakresie 70-200, więc obcięcie wartości powyżej 70 i rozciągnięcie na cały zakres, spowoduje przypisanie pikselom twarzy wartości bliskie 255, co oznacza kolor biały. Powoduje to natomiast powstanie dużego kontrastu na granicy twarz/tło. Ta cecha jest bardzo pożądana dla działania algorytmu lokalizacji obiektów owalnych z wykorzystaniem macierzy gradientów. Dodatkowo użycie komponentu I2 z krokiem normalizacyjnym powoduje, że znaczna część pikseli obrazu przyjmuje wartości bliskie 0 lub 255 co oznacza, że gradienty będą bardzo małe, a więc poniżej progu, który jest założony.

Dlatego te punkty są pomijane przez główny algorytm (jest to krok optymalizacyjny i jednocześnie eliminujący wpływ szumu cyfrowego) co dodatkowo zwiększa szybkość jak i efektywność całego systemu.

Poniższy rysunek obrazuje przekształcenie obrazu z przestrzeni RGB do komponentu I2 zarówno przed i po kroku normalizacyjnym.

Rys. 2.18. Zobrazowanie konwersji do I2 z krokiem normalizacyjnym

Tabela 2.1 jest próbą zobrazowania zasadności użycia komponentu I2 do obliczania macierzy gradientów w zastępstwie zwykłego obrazu w skali szarości.

Rozdział 2. Opracowanie metody do rozwiązania zadania lokalizacji obszarów zawierających twarz 53

W każdym wierszu widocznych jest pięć różnych obrazów:

- oryginalny w RGB,

- konwersja do skali szarości,

- zobrazowanie macierzy gradientów dla obrazu w skali szarości,

- konwersję do komponentu I2 z normalizacją (obcięcie i rozciągnięcie histogramu), - zobrazowanie macierzy gradientów dla obrazu w komponencie I2 z przestrzeni I1I2I3.

Obraz w przestrzeni barw RGB

Obraz w odcieniach szarości i komponencie I2

Ilustracje macierzy gradientów

Tabela 2.1. Przykładowe konwersje obrazów z przestrzeni kolorów RGB do komponentu I2 z przestrzeni I1I2I3 wraz z odpowiadającymi im ilustracjami macierzy gradientów

Rozdział 2. Opracowanie metody do rozwiązania zadania lokalizacji obszarów zawierających twarz 54

Obraz w przestrzeni

barw RGB Obraz w odcieniach szarości

i komponencie I2 Ilustracje macierzy gradientów

Tabela 2.1 cd.

Rozdział 2. Opracowanie metody do rozwiązania zadania lokalizacji obszarów zawierających twarz 55

Tabela 2.1 ukazuje niewątpliwą zaletę użycia komponentu I2. Większość obrazów poddana tej konwersji daje w wyniku znacznie korzystniejsze dane do wykorzystania w lokalizatorze obszarów zawierających twarz używającym macierze gradientów. Są one dobrze wyizolowane z tła, zaznaczony jest zdecydowany kontrast na granicy twarz-tło i – co warte uwagi – także na granicy twarz-włosy (jedynie włosy koloru rudego nie gwarantują tego zjawiska). Dodatkowo ilość obszarów, gdzie występują dodatnie, wysokie wartości jest niewielka, co skraca czas wykonywania algorytmu. Oczywiście może się zdarzyć przypadek, gdy tło będzie w kolorze zbliżonym do koloru twarzy – to najbardziej pesymistyczny wariant, ale nawet wtedy powstaje kontrast na granicy twarz-tło, co daje możliwość poprawnej pracy systemu.

Warte uwagi jest to, że obrazy użyte w tabeli 2.1 pochodzą z różnych źródeł: TV, aparatów cyfrowych (różnych producentów), i kamer internetowych (bardzo słabej jakości).

Ten zabieg jest wprowadzony celowo, ponieważ pokazuje jak bardzo zróżnicowane mogą być dane wejściowe i jak ten czynnik wpływa na jakość obrazu, która jest nierozerwalnie związana z efektywnością całego systemu. Niewątpliwie najgorsze dane generują proste kamery internetowe posiadające najniższej jakości matryce CCD, jak również słabe, ciemne obiektywy. Nie należy jednak pomijać ich przy testowaniu algorytmów lokalizacji, jak również detekcji, gdyż to one są głównym źródłem danych wejściowych, ze względu na powszechność ich zastosowania w systemach czasu rzeczywistego, gdzie np. nadzór jest prowadzony w sposób ciągły – tam źródłem jest właśnie kamera cyfrowa. Różnorodność zdjęć pomaga również zobrazować jak warunki oświetleniowe wpływają na macierze gradientów, a właśnie odporność na te, jak i inne zakłócenia świadczy o jakości generatora kandydatów.