Modelowanie tła - D ETEKCJA OBIEKTÓW RUCHOMYCH

4. OPRACOWANIE ALGORYTMU WYKRYWANIA I ŚLEDZENIA OBRAZU RUCHOMYCH

4.1 D ETEKCJA OBIEKTÓW RUCHOMYCH

4.1.1 Modelowanie tła

Każdy piksel obrazu jest modelowany niezależnie, za pomocą ważonej sumy K rozkładów gaussowskich [49][50][55], tzw. model mieszanin gaussowskich (ang. GMM - Gaussian Mixtures Model). Prawdopodobieństwo, że dany piksel ma wartość w czasie t jest dane wzorem:

gdzie C oznacza liczbę składowych opisujących kolor piksela; dla wykorzystanej przestrzeni barw RGB C wynosi 3.

Liczba rozkładów K przyjmuje zwykle niewielką wartość z zakresu od 3 do 5 i zależy ona od dostępnej mocy obliczeniowej. Dla uproszczenia obliczeń i w celu zmniejszenia zapotrzebowania na pamięć przyjęto, że składowe RGB koloru piksela są niezależne. Jednak w przeciwieństwie do rozwiązania przedstawionego w [217] nie założono, że wariancje składowych koloru muszą być identyczne. W związku z tym macierz kowariancji i jest macierzą diagonalną o postaci:

[

oznaczają wariancje składowych koloru RGB i-tego rozkładu.

Zakłada się, że każdy z rozkładów reprezentuje inny kolor piksela obrazu. Im częściej dany piksel przyjmuje określony kolor, tym większą wartość ma waga rozkładu związanego z tym kolorem.

Parametry w, i  rozkładów każdego piksela są uaktualniane na bieżąco wraz z każdą kolejną ramką obrazu. Standardową metodą modyfikacji parametrów jest w takich przypadkach algorytm maksymalizacji wartości oczekiwanej EM (ang. Expectation

Maximization) [67]. Jednak jego implementacja byłaby bardzo nieefektywna i w praktyce niemożliwa, ponieważ wymaga on dostępu do wszystkich danych z przeszłości. Dlatego do uaktualniania parametrów rozkładów dla każdego piksela obrazu wykorzystano aproksymację wartości EM algorytm on-line K-means approximation [36].

W pierwszej kolejności, wszystkie rozkłady opisujące dany piksel obrazu są sortowane według malejącej wartości współczynnika r danego wyrażeniem:

√ (4.4)

gdzie w jest wagą rozkładu, a oznacza wyznacznik macierzy kowariancji. Kolor piksela reprezentujący tło sceny zwykle częściej pojawia się w danych wejściowych, a zatem reprezentujący go rozkład charakteryzuje się niskimi wariancjami. W związku z tym, rozkład o największej wartości współczynnika r najwierniej reprezentuje kolor tła sceny.

Wraz z pojawieniem się nowej ramki wejściowej obrazu sprawdzane jest, który rozkład najbardziej pasuje do bieżącej wartości piksela. Rozkłady są sprawdzane w kolejności malejącej wartości współczynnika r. Bieżący kolor piksela pasuje do rozkładu, jeśli każda jego składowa RGB leży w granicach ± odchyleń standardowych od odpowiedniej wartości średniej. Zwykle przyjmuje się  = 2,5. Jeśli żaden rozkład nie pasuje do bieżącego koloru, rozkład o najmniejszej wartości współczynnika r jest zastępowany nowym rozkładem o małej wadze, dużych wariancjach składowych RGB i wartościach średnich równych bieżącemu kolorowi piksela.

Wagi rozkładów są uaktualniane wg równania:

(4.5)

gdzie Mt wynosi 1 dla pierwszego rozkładu pasującego do bieżącego piksela, a 0 – dla pozostałych rozkładów. Po modyfikacji, wagi rozkładów są normalizowane. Można zauważyć, że waga pierwszego pasującego rozkładu jest zwiększana, natomiast wagi pozostałych rozkładów są zmniejszane. Współczynnik  determinuje szybkość adaptacji modelu tła. Im jest on większy, tym szybciej model może się dostosowywać do zmian w tle analizowanej sceny (np. spowodowanych stopniową zmianą warunków oświetleniowych). Jednak istnieje przy tym ryzyko, że pewne obiekty pierwszoplanowe, które pozostają nieruchome przez dłuższy okres (np. pojazdy oczekujące na skrzyżowaniu) staną się zbyt szybko częścią tła.

W przypadku, gdy został znaleziony rozkład pasujący do bieżącej wartości piksela, jego wartości średnie i wariancje są modyfikowane zgodnie z zależnościami:

(4.6)

(4.7)

Dla uproszczenia obliczeń, zamiast współczynnika bazującego na bieżącej wartości funkcji gęstości prawdopodobieństwa opisanego w literaturze [217], we wzorach (4.6) i (4.7) użyto współczynnik szybkości adaptacji  tożsamy ze współczynnikiem ze wzoru (4.5). Ponadto ograniczono od dołu wartości, jakie mogą przyjmować wariancje składowych koloru RGB; nie mogą być one mniejsze, niż . Pozwala to uniknąć niestabilności w obszarach sceny, które pozostają statyczne przez dłuższy czas.

Tylko D pierwszych rozkładów i-tego piksela w czasie t, posortowanych wg malejącej wartości współczynnika r jest wykorzystywanych do stworzenia modelu tła dla tego piksela. D jest zdefiniowane wg wzoru:

(∑

) (4.8)

Próg T wyznacza, jaka część rozkładów modelujących kolor piksela zostanie uznana za bieżący model tła. Jeśli T jest małe to model tła ma przeważnie rozkład jednomodowy.

Jeśli T jest większe, rozkład modelu tła może być wielomodowy co oznacza, że dany piksel tła może być opisany większą liczbą kolorów. Pozwala to prawidłowo modelować pewne dynamiczne zjawiska, jak np. flagi kołyszące się na wietrze, które z założenia stanowią część tła sceny.

Jeśli bieżący piksel nie pasuje do żadnego z pierwszych D rozkładów tworzących model tła, to jest on uznawany za część obiektu ruchomego. Na rys. 4.3a-c pokazano przykładowy wynik odejmowania tła.

Przedstawiony powyżej algorytm charakteryzuje się zadowalającą skutecznością działania w większości praktycznych przypadków. Jednakże jest on wrażliwy na nagłe zmiany warunków oświetleniowych. Sytuacja taka prowadzi do czasowego „oślepienia”

algorytmu (praktycznie wszystkie piksele ramki są wówczas wykrywane jako należące do ruchomych obiektów). Stan ten trwa do czasu uaktualnienia modelu tła do nowego wyglądu sceny i może trwać od kilku do kilkudziesięciu sekund, w zależności od wartości

współczynnika szybkości adaptacji  i liczby ramek obrazu na sekundę w źródłowym strumieniu wizyjnym. Nagłe zmiany oświetlenia występują szczególnie w przypadku monitorowania terenów zewnętrznych i są powodowane głównie przez chmury czasowo przesłaniające słońce. Dlatego algorytm detekcji obiektów ruchomych został uzupełniony o dodatkowy poziom analizy mający na celu wykrywanie takich sytuacji i odpowiednie na nie reagowanie.

Błędy wykrywania obiektów ruchomych w obecności raptownych zmian oświetlenia wynikają z faktu, że proces adaptacji modelu tła przebiega zbyt wolno, aby mógł na bieżąco kompensować zachodzące zmiany. Jednym ze sposobów poradzenia sobie z tym problemem może być zastosowanie dynamicznie zwiększanej wartości współczynnika szybkości adaptacji  [224]. Jednak takie podejście może również prowadzić do niedokładności, gdyż parametr  wpływa na tempo adaptacji wszystkich parametrów (w,

i ) pojedynczego rozkładu każdego piksela, co w przypadku długotrwałych zmian oświetlenia może doprowadzić do zakłócenia hierarchii najważniejszych rozkładów (wg wartości współczynnika r) ze względu na rosnące wartości wariancji. Problem ten można częściowo zniwelować poprzez zastosowanie odmiennych współczynników do adaptacji wartości średnich i wariancji rozkładów [29]. Inna modyfikacja algorytmu GMM zakłada uwzględnienie sąsiedztwa poszczególnych pikseli przy adaptacji parametrów ich rozkładów, co prowadzi do przyspieszenia procesu konwergencji [250]. Z kolei Kaewtrakulpong i Bowden [128] zaproponowali użycie różnych równań aktualizacji modelu tła dla innych etapów detekcji ruchomych obiektów, co pozwala na szybszą i dokładniejszą adaptację modelu tła do zmiennych warunków.

Proponowana modyfikacja algorytmu GMM ma zastosowanie do scen z częstymi zmianami warunków oświetleniowych i bazuje na obserwacji, że zmiany oświetlenia mają charakter płynny, biorąc pod uwagę różnice międzyramkowe. W takich przypadkach algorytm uaktualniania tła powinien się charakteryzować wysokim tempem adaptacji i, w związku z tym, mniejszą czułością związaną z wykrywaniem obiektów ruchomych.

Osiągnięto to poprzez wprowadzenie dodatkowego etapu przetwarzania, w którym wybrane regiony modelu tła są modyfikowane. W celu wytypowania tych regionów, estymowane jest tempo zmiany wartości każdego piksela Vt, w porównaniu z ramką poprzedzającą, zgodnie z równaniem:

∑

(4.9)

gdzie C oznacza liczbę składowych koloru opisujących każdy piksel, i oznaczają wartość składowej koloru c dla piksela odpowiednio w ramce bieżącej i poprzedniej, a oznacza współczynnik nauki tempa zmian. Następnie wartości tempa zmian V_t dla każdego piksela są porównywane z założoną wartością progową T_V w celu wykrycia tych regionów obrazu, które charakteryzują się niewielką zmiennością. W rezultacie, dla wszystkich pikseli spełniających ten warunek i jednocześnie zakwalifikowanych jako część tła sceny, przeprowadza się dodatkową aktualizację ich modelu tła, polegającą na modyfikowaniu średniej wartości rozkładu charakteryzującego się największą wartością współczynnika r zgodnie ze wzorem:

( ) (4.10) gdzie i oznaczają wektory wartości średnich rozkładu o największej wartości współczynnika r w bieżącej i poprzedniej ramce obrazu, xt oznacza bieżącą wartość piksela, a współczynnik definiuje tempo dostosowywania wartości średniej najbardziej pasującego rozkładu do bieżącej wartości piksela. Ta operacja nie modyfikuje pozostałych parametrów żadnego z rozkładów, wobec czego wartości współczynników r dla wszystkich rozkładów piksela pozostają niezmienne.

Przedstawione rozwiązanie pozwala na adaptację modelu tła do naturalnych zmian oświetlenia. Istnieje jednak ryzyko, że obiekt rzeczywisty, którego barwa jest na tyle zbliżona do modelu tła, że spełnia warunek niewielkiej zmienności wartości pikseli z ramki na ramkę, spowoduje rozstrojenie modelu. Skutkować to może wieloma błędami pierwszego rodzaju po ustąpieniu obiektu. W związku z tym, w toku eksperymentów prowadzonych przez autora rozprawy, wprowadzono dodatkowy, niezależny od pozostałych rozkład gaussowski, którego zadaniem jest dalsze zmniejszenie wrażliwości zmodyfikowanego algorytmu GMM. Rozkład ten jest uaktualniany zgodnie z równaniami (4.6) i (4.7), tylko w przypadku, gdy bieżący piksel został dopasowany do pierwszego rozkładu (charakteryzującego się największą wartością współczynnika r). W przypadku, gdy bieżący piksel nie zostaje dopasowany do żadnej z regularnych dystrybucji, sprawdzane jest, czy pasuje on do dystrybucji dodatkowej i tylko w przypadku negatywnej weryfikacji piksel jest klasyfikowany jako część obiektu ruchomego. W przeciwnym

przypadku, piksel traktowany jest jako należący do tła sceny, a pierwszy rozkład (o największej wartości współczynnika r) jest uaktualniany przy założeniu, że wartością obserwowaną piksela jest wartość średnia rozkładu dodatkowego.

Przykład działania oryginalnej wersji algorytmu GMM i wersji zmodyfikowanej pod kątem adaptacji do zmiennych warunków oświetleniowych zilustrowano na rys. 4.1.

Ponadto na płycie DVD dołączonej do rozprawy umieszczono dwa filmy „gmm-mod-1.avi” i „gmm-mod-2.avi” porównujące działanie obu wersji algorytmu.

Rys. 4.1 Wybrane ramki z nagrania przetworzonego algorytmem GMM (lewa kolumna) oraz algorytmem z wprowadzoną przez autora rozprawy modyfikacją umożliwiającą reagowanie na nagłe zmiany oświetlenia (prawa kolumna); ramki pochodzą (odpowiednio od góry do dołu) z 6., 9., 15. oraz 27. sekundy nagrania testowego. Czerwony kolor oznacza regiony z wykrytym cieniem, a zielony – obszary wykryte jako zawierające piksele należące do ruchomych obiektów

W normalnych, stabilnych warunkach oświetleniowych, rozkład dodatkowy oraz najlepiej dopasowany rozkład spośród podstawowych zwykle są do siebie zbliżone, obejmując taki sam zakres wartości piksela. Jednak w przypadku zmian obie te dystrybucje się różnicują, co prowadzi do zmniejszenia wypadkowej czułości algorytmu.

W dokumencie Metody algorytmicznej analizy obrazu wizyjnego do zastosowań w monitorowaniu ruchu drogowego : rozprawa doktorska (Stron 68-74)