• Nie Znaleziono Wyników

1. Wprowadzenie

1.3. Bazy danych zdjęć

Pomimo wielkiego wysiłku naukowców pracujących na całym świecie nad problemem detekcji twarzy na obrazach, niewiele zrobiono w celu stworzenia odpowiednich baz danych do testowania i porównywania konkurencyjnych rozwiązań. Nie należy mylić baz zdjęć twarzy służących do testowania systemów rozpoznających twarze z tymi do badania skuteczności detekcji. Problem detekcji wymaga odmiennych danych do przetwarzania, ponieważ ukazanie i ewentualne wyeliminowanie niedoskonałości algorytmów związanych z tą grupą nie pokrywa się z tymi niezbędnymi do rozpoznawania twarzy. Należy tu zwrócić uwagę, że niewiele baz danych posiada skomplikowane tło, a wielkość twarzy, jej położenie jest przeważnie podobne w całym zestawie. Często autorzy wykorzystują więc własne autorskie zestawy jednak ciężko wtedy o porównanie z innymi, istniejącymi algorytmami.

Spośród najczęściej spotykanych baz danych można wymienić: ORL (Olivetti) [ORL], BioID [BioID], FERET [FER], FERET COLOR [FER], PIE [CMU].

Bazy danych najczęściej zawierają zbiór plików graficznych zgromadzonych w jednym katalogu lub też podzielone są na podkatalogi. Wtedy każdy z nich reprezentuje oddzielną klasę twarzy. Obiektem takich baz danych jest plik graficzny zawierający obraz

Rozdział 1. Wprowadzenie 27

wraz ze znajdującą się na nim twarzą. Często dołączony jest również plik tekstowy z informacja o położeniu twarzy (np. w bazie BioID określone są położenie 20 punktów antropometrycznych na twarzy) umożliwiający szybką weryfikacje pracy detektora.

Pierwsza z opisywanych baz danych to wynik pracy naukowców Olivetti Research Laboratory w Cambridge w Wielkiej Brytanii o nazwie Olivetti DB [ORL]. Powstała w latach 1992 – 1994, zawiera 400 zdjęć. Jest to zbiór obrazów 40 osób (po 10 zdjęć na każdego) wykonanych w rozdzielczości 92×112 pikseli i w 256 odcieniach szarości. Baza zorganizowana jest w następujący sposób: każdej osobie odpowiada osobny podkatalog, którego nazwa ma format Sn, gdzie n jest numerem osoby (1-40). Kolejnymi cechami obrazów jest ciemne tło, które jest za twarzą, jak również to, że każda postać patrzy na wprost z małymi odchyleniami we wszystkich kierunkach. Należy tutaj nadmienić, że baza ta jest dowodem na to, że nie wszystkie bazy twarzy są dobre do testowania detektorów twarzy. W tym konkretnym przypadku problemem jest jednolite, ciemne tło, i zbliżona procentowo do wielości obrazka wielkość wszystkich twarzy. W tabeli 1.1 pokazanych jest 5 przykładowych zdjęć jednej z klas.

Do zadań detekcji znacznie lepiej nadaje się baza FERET [Phi98, Phi00]. Obecnie jest to jedna z najbardziej miarodajnych baz wykorzystywanych do testowania komercyjnych systemów rozpoznawania osób (Face Recognition Vendor Test – FRVT) jak i tych czysto naukowych. Jej niezaprzeczalną zaletą jest ogromna ilość zdjęć, która jest stale rozbudowywana: w 1999 roku liczyła 14126 zdjęć 1199 osób [Phi99], a w roku 2003 test korzystał już z 121589 zdjęć, 37437 osób [Phi03]. Taką ilość danych nie może w tym momencie zaoferować żadna inna baza twarzy. Od 2003 roku zespół opracowujący bazę FERET zdecydował o przejściu na zdjęcia kolorowe i teraz rozwijana jest jedynie ta odmiana.

Zdjęcia zawierają twarz w ujęciu portretowym, bądź szerokim portrecie. Są to zarówno kobiety jak i mężczyźni (każdej rasy), a kąt obrotu twarzy wacha się od -90 do 90 stopni.

Postaci wyrażają różne stany emocjonalne, są nierównomiernie oświetlane, a często zawierają elementy zakłócające typu okulary czy zarost (patrz tab. 1.1). Tło za twarzami jest mało skomplikowane i przeważnie rozmyte krótką ogniskową aparatu. Parametry techniczne obrazów są następujące: rozdzielczość 256×384 piksele w przestrzeni RGB (kiedyś w odcieniach szarości). Każdy plik zawiera unikatową nazwę, która informuje również o kilku istotnych parametrach związanych z danym obrazem.

Format nazwy pliku jest następujący: nnnnnxxfffq_yymmdd.tif, gdzie [Kuz04]:

- nnnnn – pięciocyfrowy unikalny numer identyfikacyjny,

- xx – dwuznakowy kodem oznaczający sposób zobrazowania twarzy na zdjęciu,

Rozdział 1. Wprowadzenie 28

- fa – zdjęcia frontalne twarzy, - pl – profil lewy,

- hr – prawa połówka twarzy;

- fff – trzy znaczniki (flagi) używane do określenia:

- czy zdjęcie może być publikowane,

- czy histogram zdjęcia był dopasowywany,

- czy zdjęcie było wykonane na filmie o czułości 200 czy 400 ASA;

- q – modyfikator, który nie zawsze występuje, informujący o tym, czy:

- a – osoba nosiła okulary,

- e – ubranie było cyfrowo retuszowane - f – jasność obrazu była zredukowana;

- yymmdd – data wykonania zdjęcia.

Baza FERET jest produktem komercyjnym. Do testowania produktów przeznaczonych do sprzedaży (detektorów lub/i systemów rozpoznawania) konieczne jest wniesienie opłat, jednak do celów naukowych udostępniono wersję uboższą, umożliwiającą sprawne przeprowadzenie badań nad efektywnością, a jedyną koniecznością jest zamieszczenie odpowiedniej adnotacji w bibliografii.

Kolejną bazą przygotowaną z obrazów w odcieniach szarości jest baza BioID opracowana przez firmę HumanScan [HS]. Posiada niewątpliwa zaletę w postaci plików dodanych do każdego obrazu, zawierających informacje o położeniu 20 punktów antropometrycznych występujących na danej twarzy (m.in. oczu, ust, nosa, brody). W bazie BioID znajduje się 1521 zdjęć 23 osób o rozdzielczości 384×286 pikseli w 256 odcieniach szarości. Są to obrazy wykonane w typowym biurze, zwykłą kamerą internetową o niewyszukanej jakości, co w założeniu miało oddać jak najbardziej docelowe warunki pracy danego detektora czy systemu rozpoznawania osób. Twarz przeważnie zajmuje centralna część obrazu, a jej wielkość nie wacha się w szczególnie dużym zakresie i wynosi średnio ok.

50-70% wysokości obrazu (czyli 140-196 pikseli) (patrz tab. 1.1). Format nazewnictwa plików BioID to: BioID_xxxx.pgm, gdzie xxxx określa unikalny numer zdjęcia. Cała baza jest dostępna pod adresem [BioID].

Niewątpliwą zaletą ostatniej z prezentowanych baz danych twarzy jest posiadanie w swych zasobach obrazów w 24-bitowej głębi kolorów. Zbiór ten o nazwie CMU Pose Illumination Expression zawiera 41368 obrazów twarzy 68 osób [Sim02]. Kolejną zaletą bazy CMU jest to, że zdjęcia były wykonywane w specjalnym pomieszczeniu o nazwie CMU 3D Room (13 zsynchronizowanych aparatów fotograficznych wysokiej jakości i 21 lamp

Rozdział 1. Wprowadzenie 29

błyskowych). Użyte kamery i lampy zostały umieszczone z przodu fotografowanego obiektu na hemisferze [Kan98]. Parametry techniczne obrazów przedstawiają się następująco:

rozdzielczość 640x480 pikseli oraz 24-bitową głębię kolorów. Cała baza jest dostępna pod adresem [CMU].

Olivetti

FERET

FERET COLOR

BioID

CMU PIE

Tabela 1.1. Przykładowe zdjęcia znajdujące się w standardowych bazach obrazów twarzy (Źródło: [Kuz04])

Podsumowując, niezaprzeczalną zaletą gotowych baz twarzy jest ich ogólnodostępność i przez to możliwość zapoznania się z wynikami osiągnięć innych zespołów naukowych i komercyjnych. Nie występuje wtedy niebezpieczeństwo, że do testów użyta zostanie autorska baza danych, a prezentowane rewelacyjne wyniki będą rezultatem

Rozdział 1. Wprowadzenie 30

odpowiednio spreparowanych danych wejściowych. Wadami gotowych baz jest ich

„liniowość” (ta sama rozdzielczość, twarze centralnie położone, ich wielkość nie różniąca się w dużym zakresie) i przygotowanie zdecydowanie do zadań rozpoznawania, a nie detekcji.

Niestety, żadna z powyższych pięciu baz nie jest miarodajnym narzędziem do testowania detektorów, a jedynie wstępnym krokiem.

1.4. Podsumowanie i wnioski