Detekcja obiektu w różnych skalach i lokalizacjach

5.2 Detekcja noży z użyciem deskryptorów obrazu Histograms of Oriented Gradients . 50

5.2.4 Detekcja obiektu w różnych skalach i lokalizacjach

a zbiór negatywny rozszerzony zostaje o obrazy fałszywie pozytywnie sklasyfikowane w pierwszej iteracji. W przypadku noży, poprawa współczynnika fałszywych pozytywnych detekcji w zależności od doboru zdjęć w początkowym zbiorze negatywnym albo nie nastąpiła wcale, albo wyniosła 0,4 punktu procentowego. Prawdopodobną przyczyną takiego stanu rzeczy była stosunkowa wysoka wartość współczynnika pozytywnych wykryć już po pierwszej iteracji.

Tak powstały klasyfikator SVM został przetestowany na zbiorze składającym się ze 100 zdjęć pozytywnych i 1000 negatywnych. Poprawnie zostało sklasyfikowanych 95 zdjęć zawierających noże, tj. współczynnik poprawnych pozytywnych wykryć wyniósł 95%, a współczynnik fałszywych negatywnych wykryć wyniósł 3,6%. Charakterystyka klasyfikatora została podsumowana w tab. 2.

5.2.4 Detekcja obiektu w różnych skalach i lokalizacjach

Opisany w poprzednim rozdziale schemat detekcji obiektu z wykorzystaniem klasyfikatora Support Vector Machine oraz cech obrazu Histograms of Oriented Gradients odnosił się wyłącznie do analizy zdjęć o rozmiarze 64x128 pikseli z nożem w pozycji pionowej umiejscowionym na środku zdjęcia. Zdjęcia tego typu znajdowały się bowiem w zbiorze uczącym. Prosta ekstrakcja cech HOG ze zdjęć o ustalonym rozmiarze pozwala na bezpośrednią ich klasyfikację. Uzyskanie takiej funkcjonalności, tj. skonstruowanie efektywnego detektora dla obrazów o ustalonym rozmiarze stanowi podstawę dla opracowania detektora działającego w różnych skalach, lokalizacjach i orientacjach.

Autor w [23] proponuje nowy sposób wykrywania obiektów w różnych skalach i lokalizacjach w analizowanym obrazie, przy założeniu, że znajdują się one w tej samej orientacji przestrzennej, co obiekty w zbiorze uczącym. Podstawą działania tego sposobu detekcji jest przesuwanie okna detektora po analizowanym obrazie, tak aby klasyfikacji poddać wszystkie możliwe lokalizacje. Przesuwanie okna detektora po obrazie wejściowym jest powszechnie stosowaną praktyką w detekcji obiektów [1] [38]. Wykrywanie obiektów różnych rozmiarów czyli w różnych skalach, jest możliwe poprzez skanowanie obrazu wejściowego po uprzednim zmniejszeniu jego rozmiaru. Jest to również powszechnie stosowane podejście.

W niniejszym rozdziale opisane zostaną szczegóły dotyczące detekcji w różnych skalach i rozmiarach, natomiast w rozdziale 6 zostanie opisane zagadnieniu detekcji obiektów w różnych orientacjach, tj. występującego pod różnym kątem, co stanowi oryginalny wkład niniejszej pracy. Autor w [23] proponuje nowe podejście do wykrywania obiektów,

Tab. 2 Charakterystyka klasyfikatora SVM wytrenowanego na cechach obrazu HOG

Liczba obrazów pozytywnych z zbiorze uczącym Liczba obrazów poprawnie sklasyfikowanych Współczynnik detekcji Liczba obrazów negatywnych w zbiorze uczącym Liczba obrazów niepoprawnie sklasyfikowanych Współczynnik fałszywych pozytywnych detekcji 100 95 95% 1000 36 3,6%

występujących w obrazach w różnych lokalizacjach i w różnych rozmiarach. O ile skalowanie obrazu i przesuwanie okna detektora jest metodą znaną i jak wspomniano wyżej szeroko stosowaną, to jak wyciągać odpowiednie z wnioski z takich detekcji do chwili publikacji [39]która poprzedzała pracę [23] nie było do końca jasne. Opisane podejście zostało przetestowane pod kątem detekcji noży. Wyniki systemu detekcji noży bazującym na tym podejściu zostały zamieszczone w rozdziale 6.4. Wcześniej przedstawione zostaną podstawy teoretyczne zastosowanej metodologii.

Skanowanie obrazu w różnych lokalizacjach i skalach w przypadku idealnego detektora, tj. takiego który cechuje się stuprocentowym współczynnikiem skuteczności detekcji oraz zerowym odsetkiem fałszywych pozytywnych wykryć, pociąga ze sobą konieczność łączenia różnych wyników detekcji. Wynika to z następującego sposobu postępowania. Załóżmy, że tak jak w przypadku opisanego wyżej klasyfikatora SVM dla cech HOG, obrazy w zbiorze uczącym mają rozmiar 64x128 pikseli. Klasyfikator jako wejście przyjmuje wektor cech o długości 3780, czyli odpowiadającej obrazowi o rozmiarze 64x128. Analizowane obrazy są z reguły dużo większe, np. za rozmiar standardowy służący do porównań czasu działania algorytmów wizyjnych przyjmuje się rozdzielczość VGA tj. 640x480 pikseli, która jest zbliżona do rozdzielczości obrazów z kamer analogowych stosowanych w monitoringu wizyjnym. Przy założeniu, że obiekt detekcji jest w tej samej orientacji co obiekty w zbiorze uczącym, jest od nich niemniejszy oraz znajduje się w dowolnej lokalizacji w obrazie wejściowym, detekcja odbywa się dwuetapowo:

1. Tworzona jest piramida obrazów.

2. Okno detektora o rozmiarze 64x128 pikseli jest przesuwane po każdym obrazie powstałym w kroku 1.

Piramida obrazów to powstały dla zastosowań rozpoznawania obrazu sposób reprezentacji obrazu w wielu skalach, w których obraz poddawany jest wielokrotnemu wygładzaniu i decymacji. Obraz wejściowy jest wygładzany a następnie pomniejszany. Powstały w ten sposób mniejszy obraz, znowu jest wygładzany i pomniejszany itd. Gdyby nałożyć powstałe obrazy jeden na drugi powstałaby piramida, stąd nazwa tej techniki. Ważne, że jej rezultatem są obrazy mniejsze w stosunku do obrazu wejściowego. Po każdym z tych obrazów przesuwane jest okno detektora. Okno to przesuwane jest w taki sposób aby znalazło się w każdej możliwej lokalizacji. Pomniejszanie obrazu wejściowego gwarantuje, że obiekt o dużym rozmiarze, ostatecznie będzie pomniejszony tak, że zmieści się w oknie detektora. Tak co do zasady działa omawiany system detekcji obiektów w różnych skalach i lokalizacjach, co wydaje się rozwiązaniem oczywistym. Natomiast interpretacja wyników tak przeprowadzonej detekcji nie jest już tak oczywista. Faktem jest, że okna detekcji nachodzące na siebie, dadzą pozytywne wyniki. To samo może zdarzyć się dla tej samej lokalizacji

w skalach niewiele różniących się od siebie. Interpretowanie detekcji pochodzących z różnych okien i różnych skali jest zagadnieniem dosyć skomplikowanym. Deskryptor obrazu Histograms of Oriented Gradients jak każdy deskryptor nie jest idealny i dlatego klasyfikator SVM działający na cechach HOG mimo, iż osiąga dobre wyniki (dla noży cechuje się skutecznością detekcji i odsetkiem fałszywych pozytywnych wykryć na poziomie

95% i 3,6%) to jednak za klasyfikator idealny nie może być z oczywistych względów uznany. Dlatego dalsze rozważania opierają się na założeniach, że detektor działający w oparciu o klasyfikator SVM i cechy obrazu HOG jest detektorem wiarygodnym i dlatego:

1. Jeśli okno detektora obejmuje obiekt, a obiekt nie jest umiejscowiony centralnie, to odpowiedz klasyfikatora będzie pozytywna, jednak nie maksymalna.

2. Jeśli nastąpi fałszywe pozytywne wykrycie w pewnej lokalizacji, to będzie ono możliwie jednostkowe, tzn. okna detektora w zbliżonych lokalizacjach i skalach nie będą dawały równie mocnych detekcji.

Schemat postępowania proponowanego w pracy [10] przedstawiony został na rys. 18. Po skanowaniu obrazu w różnych skalach wynikiem jest wiele okien nachodzących na siebie, jak na rys. 18a. Nachodzące okna odpowiadają pierwszemu z powyższych założeń. Na tym samym zdjęciu da się też zaobserwować jedno samotne okno, które powstało przypadkowo, gdzie w jednej konkretnej lokalizacji miejsce miała pozytywna detekcja, która jednak nie powtórzyła się dla sąsiednich okien. Odpowiada to założeniu drugiemu. Ostatecznym celem jest zwrócenie pojedynczej lokalizacji wykrytego obiektu jak na rys. 18c. W tym celu, wynik każdej klasyfikacji, jak to zostało opisane w 3.1.2, zbliżony do jednej z dwóch wartości {-1,1} zostaje poddany działaniu funkcji progowej. Każdej detekcji przypisywany jest punkt o trzech współrzędnych { zawierający współrzędne okna detekcji i skalę w jakiej ta detekcja nastąpiła. Można sobie wyobrazić, że okna nachodzące na siebie reprezentowane w podany sposób tworzą w przestrzeni trójwymiarowej pewne skupiska. Celem następnego kroku jest uzyskanie informacji o lokalizacji obiektu, tak jak zostało to zaprezentowane na rys. 18c, a więc bez okien nachodzących na siebie. Efekt taki uzyskuje się poprzez odnalezienie wartości modalnych wśród utworzonych punktów, a więc tych najczęściej

powtarzających się. Autorzy w [10] stosują w tym celu algorytm oparty o pewne założenia: 1. Im więcej nachodzących na siebie okien w konkretnej lokalizacji tym większe

prawdopodobieństwo detekcji.

2. Okna nachodzące na siebie ale występujące w skrajnie różnych skalach nie świadczą o zwiększonym prawdopodobieństwie detekcji.

Założenie te są w spełnione w przypadku potraktowania punktów { w trójwymiarowej przestrzeni jako wartości pewnej zmiennej losowej i próby oszacowania jej gęstości prawdopodobieństwa metodą estymacji jądrowej, w celu wyznaczenia wartości modalnych tej funkcji za pomocą adaptacyjnego algorytmu mean-shift.

Estymacja jądrowa gęstości prawdopodobieństwa

Estymacja jądrowa gęstości prawdopodobieństwa (KDE, ang. Kernel Density Estimation) to technika pozwalająca na wyznaczenie gęstości prawdopodobieństwa zmiennej losowej na podstawie próby bez znajomości a priori rozkładu tej zmiennej. Estymator ten, dla punktów zdefiniowany jest jako:

̂( ) ^{∑ (} ) (5.19)

,gdzie ( ) jest tzw. jądrem, funkcją symetryczną, której całka po całej dziedzinie wynosi 1. jest parametrem wygładzania (ang. bandwidth). Właściwy dobór tego parametru jest warunkiem koniecznym do poprawnego oszacowania funkcji gęstości prawdopodobieństwa ( ). Dysponując dobrą estymacją ̂( ) można znaleźć wartości modalne zmiennej losowej , które będą odpowiadały położeniu obiektu detekcji w obrazie wejściowym.

Adaptacyjny algorytm mean-shift

Celem działania algorytmu mean-shift [40] [41] jest znalezienie wartości modalnych w przestrzeni cech (ang. feature space). Celem uściślenia nazewnictwa warto wyjaśnić, że w rozpoznawaniu obrazu taką przestrzenią nazywa się n-wymiarową przestrzeń, której elementami są wektory cech. Mean-shift traktuje każdy taki punkt jako wartość pewnej zmiennej losowej. Jeśli punkty znajdują się w klastrze (skupisku), odpowiadają wartości modalnej (lokalnemu maksimum) funkcji gęstości prawdopodobieństwa owej zmiennej losowej. Dla każdego punktu zdefiniowane jest jego lokalne sąsiedztwo i w tym lokalnym sąsiedztwie obliczana jest wartość średnia. To z jaką wagą brane są poszczególne wartości do obliczania średniej, zależy od jądra estymatora gęstości prawdopodobieństwa (5.19). Adaptacyjny algorytm mean-shift w odróżnieniu od wersji nieadaptacyjnej, przypisuje każdemu punktowi inny parametr wygładzania (bandwidth) (5.19).

Łatwo zauważyć, że algorytm mean-shift spełnia dwa wymienione wyżej założenia. Im więcej nachodzących na siebie okien tym więcej punktów znajduje się w klastrze i tym większe prawdopodobieństwo wystąpienia w tym miejscu obiektu, co spełnia założenie 1. Natomiast jeśli okna są w skrajnie różnych skalach, to w przestrzeni trójwymiarowej, w której

jednym z wymiarów jest właśnie skala, punkty odpowiadające takim oknom będą od siebie odległe i nie będą przyczyniały się do lokalnego maksimum funkcji gęstości prawdopodobieństwa. Założenie 2 jest więc również spełnione.

Dobór parametru wygładzania jest złożonym problemem i zależy od właściwości danych, których wartości modalne staramy się wyznaczyć. Jeśli dane mają homogeniczne właściwości statystyczne (średnia, wariancja itp.), wystarczy jeden globalny parametr wygładzania . Jeśli jednak właściwości statystyczne nie są stałe w przestrzeni cech należy obliczyć lokalny parametr wygładzania. Niewłaściwy dobór tego parametru może doprowadzić do rozwiązania gorszego, niż gdyby stosowano parametr globalny. W [39] przedstawiono metodę doboru lokalnego parametru wygładzania .

Niech oznacza punkt o współrzędnych określających położenie okna detektora oraz skalę pod jaką dokonana została detekcja, będzie wynikiem klasyfikacji (wartość otrzymana z klasyfikatora SVM), która poddana działaniu funkcji progowej przyjmuje wartość ( ) . Punkty przyjmują wartości zmiennej losowej , a ponadto z każdym punktem skojarzona jest macierz stanowiąca parametr wygładzania. Niech jądro estymacji będzie funkcją Gaussa, wtedy funkcja estymująca rozkład gęstości prawdopodobieństwa zmiennej losowej ma następującą postać:

̂( ) ( ) ∑ ( )| | ( ⁽⁾) (5.20) gdzie: ( ) ( ) ( )

Łatwo zauważyć, że ( ) jest odległością Mahalanobisa od do . Niech będzie ważoną średnią harmoniczną macierzy wygładzania wyliczoną dla wag w punkcie :

( ) ∑ ̅̅̅( ) z wagami: ̅̅̅( ) | | ⁽^{) (} ( )) ∑ | | ⁽^{) (} ( ))

spełniającymi warunek: ∑̅̅̅( ) . Estymatorem gradientu funkcji gęstości prawdopodobieństwa zmiennej losowej X jest gradient jej estymatora:

57 ̂ ( ) ̂( ) ( ) ∑ ( ) ( )| | ( ⁽⁾) (5.21)

Mnożąc (5.21) lewostronnie przez ( ) i podstawiając (5.20) otrzymujemy:

( ) ̂ ( ) ̂( ) ( ) gdzie:

( ) ( ) ∑ ̅̅̅( )

(5.22)

jest wektorem mean-shift o zmiennym, lokalnym parametrze wygładzania. Poszukiwanie wartości modalnych oblicza się poprzez iteracyjne obliczanie wektora (5.22) dla wszystkich punktów , który będzie zbiegał do lokalnych maksimów. Maksima te będą wartościami modalnymi, odpowiadającymi pojedynczym oknom detekcji tak jak na rys. 18b.

Kluczową kwestią pozostaje ustalenie macierzy . Autor w [39] dowodzi, że macierz kowariancji zapewnia optymalny dobór parametru wygładzania. W [23] dla deskryptorów HOG proponuje się :

[( ) ( ) ]

Skalowanie oraz przez czynnik ma równoważyć wpływ skali na pewność detekcji. Im większa zmiana skali, tym mniejsza pewność detekcji.

Funkcja progowa

Wynik klasyfikacji otrzymany na wyjściu z klasyfikatora SVM poddawany jest działaniu funkcji progowej. Wynika to z faktu, iż działanie algorytmu mean-shift byłoby zaburzone na etapie tworzenia estymacji funkcji gęstości prawdopodobieństwa zmiennej losowej X (5.20), w sytuacji gdyby odpowiadające punktom wagi były ujemne. W pracy [23] autor proponuje trzy funkcje progowe:

1. ( ) { 2. ( ) ( ( )) 3. ( ) _{( )}

W implementacji zastosowanej do konstrukcja detektora noży wykorzystana została funkcja progowa 1 ze stałą . Działanie tej funkcji sprowadza się do przypisania zera wszystkim wagom ujemnym, tj. świadczącym o negatywnym wyniku detekcji. Natomiast wszystkie

5.2.5 Współczynnik fałszywych pozytywnych wykryć w detekcji w różnych skalach i

W dokumencie Index of /rozprawy2/10605 (Stron 52-58)