• Nie Znaleziono Wyników

3. WIZYJNA ANALIZA RUCHU DROGOWEGO

3.1 W YKRYWANIE OBIEKTÓW W STRUMIENIU WIZYJNYM

3.1.5 Odejmowanie tła

Jest to najbardziej popularna kategoria metod służących do detekcji obiektów zainteresowania w poszczególnych ramkach obrazu. W swej najbardziej podstawowej formie polega na porównaniu ze sobą kilku sąsiednich ramek obrazu w celu określenia różniących się obszarów i znalezienia w ten sposób obiektów ruchomych. Jako parametry

obrazu mogą w tym wypadku być używane bezpośrednio wartości pikseli lub przekształcenia wykorzystujące pochodne pierwszego i drugiego rzędu w celu znalezienia konturów obiektów [140].

W ogólności odejmowanie tła polega na tworzeniu modelu tła analizowanej sceny i znajdowaniu różnic pomiędzy modelem, a każdą kolejną ramką obrazu. W wyniku uzyskuje się maskę binarną, w której zaznaczone są piksele różniące się od tła, czyli te należące do ruchomych obiektów.

Najprostszym sposobem uzyskania tła sceny jest uśrednienie w czasie kolejnych ramek obrazu. Niestety, metoda ta wymaga okresu treningu, w trakcie którego w analizowanej scenie obecnych jest niewiele ruchomych obiektów. Ponadto możliwości dynamicznej adaptacji wyznaczonego tła są bardzo ograniczone. Z tego powodu metoda ta nie nadaje się do praktycznych zastosowań w warunkach zmiennego oświetlenia.

Prace związane z określaniem różnic pomiędzy sąsiednimi ramkami obrazu prowadzone są już od późnych lat 70 ubiegłego wieku [119]. Jednak zyskały one na popularności od czasu pojawienia się rozwiązania zaproponowanego przez Wrena [254], w którym każdy piksel modelowany jest za pomocą pojedynczego, trójwymiarowego rozkładu gaussowskiego. Parametry tego modelu (wartość średnie i kowariancje) wyznaczane są na podstawie obserwacji wartości pikseli w określonym przedziale czasu.

Następnie, dla każdego piksela określane jest prawdopodobieństwo zgodności koloru piksela z rozkładem i te piksele, które odbiegają od rozkładu, są oznaczane jako pierwszoplanowe. Jednak modelowanie tła sceny za pomocą pojedynczego rozkładu normalnego nie nadaje się do praktycznego zastosowania w warunkach zewnętrznych ze względu na fakt, że wiele różnych barw może występować w tym samym miejscu ze względu na powtarzalny ruch w tle, odbicia itd. [86]. W związku z tym istotnym udoskonaleniem modelowania tła jest użycie wielomodowych modeli statystycznych do opisu koloru piksela. Przykładem takiego rozwiązania jest wykorzystanie sumy ważonych rozkładów gaussowskich do modelowania koloru pikseli tła [217]. W rozwiązaniu tym bieżący kolor piksela jest porównywany z każdym rozkładem, dopóki pasujący rozkład nie zostanie znaleziony. W przypadku powodzenia, wartości średnie i wariancje pasującego rozkładu są uaktualnianie, w przeciwnym wypadku do modelu wprowadzany jest nowy rozkład o wartości średniej równej reprezentacji koloru piksela. Piksel uznawany jest za część tła sceny, jeśli pasuje do jednej z dystrybucji uznawanych w danym momencie za reprezentujące tło sceny. Proces ten zilustrowano na rys. 3.4.

Innym podejściem do zagadnienia detekcji obiektów jest uwzględnienie w tym procesie również informacji przestrzennej, zamiast bazowania jedynie na kolorze każdego piksela. Przykładem takiego rozwiązania jest użycie nieparametrycznej estymacji gęstości jądra do modelowania tła sceny dla każdego piksela [77]. Podczas odejmowania tła piksel porównywany jest nie tylko z odpowiadającym mu ze względu na położenie pikselem modelu lecz również z pikselami sąsiednimi. W związku z tym metoda ta jest odporna na niewielkie drgania kamery lub na mały ruch w tle sceny. Z kolei w pracy [242]

zaproponowano podejście trójwarstwowe, w którym obok danych na poziomie poszczególnych pikseli analizowane są również informacje na poziomie całej ramki obrazu jak i w odniesieniu do jej podobszarów. Na poziomie piksela zastosowano filtrację Wienera w celu uzyskania probabilistycznej predykcji wartości oczekiwanej koloru tła, na poziomie podobszarów regiony pierwszoplanowe charakteryzujące się jednorodnym kolorem są wypełniane, natomiast informacja o nagłej zmianie wartości pikseli na poziomie całej ramki jest używana do unieważnienia dotychczasowego modelu tła i do przeprowadzenia jego ponownej inicjalizacji.

a) b) c) d)

Rys. 3.4 Przykład działania algorytmu odejmowania tła z wykorzystaniem sumy ważonych rozkładów gaussowskich a) oryginalna ramka obrazu, b) wartości średnie rozkładu o największej wadze, c) wartości średnie następnego w kolejności rozkładu, nie zaliczanego w tym momencie do modelu tła, d) wykryte piksele należące do obiektu ruchomego

Do reprezentowania tła sceny możliwe jest również zastosowanie algorytmu Codebook, w którym każdy piksel obraz modelowany jest za pomocą słów kodowych (ang. Codewords) [141]. Pojedyncze słowo jest wektorem opisującym zakres dopuszczalnych wartości koloru i jasności piksela, wraz z informacjami pomocniczymi, takimi jak czas dodania słowa kodowego do modelu, czas jego ostatniej aktualizacji i najdłuższy okres, przez jaki dane słowo pozostawało niedopasowane do analizowanego obrazu. Algorytm wymaga fazy treningu w celu przypisania odpowiednich słów kodowych do poszczególnych pikseli. Dzięki odpowiednim modyfikacjom algorytmu, możliwe jest

zarówno uzyskanie przybliżonych wyników odejmowania tła już w czasie trwania treningu, jak i adaptacja modelu do zmian w scenie [231].

Odmiennym rozwiązaniem zagadnienia odejmowania tła jest reprezentowanie różnorodności jasności pikseli obrazu jako dyskretnych stanów, odpowiadających zdarzeniom występującym w analizowanej scenie (np. stanami takimi są obiekty pierwszoplanowe, tło oraz cień obiektu). Do klasyfikacji niewielkich obszarów obrazu jako należących do każdego z tych trzech stanów można użyć ukrytych modeli Markowa (ang.

Hidden Markov Models, HMM) [196]. Modele te są również przydatne do detekcji zdarzeń włączenia i wyłączenia świateł w pomieszczeniu na potrzeby odejmowania tła [219].

Zamiast modelowania zmienności każdego piksela obrazu indywidualnie, możliwe jest podejście holistyczne wykorzystujące rozkład według wartości własnych macierzy zawierającej k ramek obrazu, gdzie każdy wiersz zawiera wszystkie wartości pikseli jednej ramki obrazu. W ten sposób tło reprezentowane jest przez i < k wektorów własnych, które całkowicie obejmują różnorodność wartości pikseli tła, co sprawia, że metoda ta jest mniej wrażliwa na zmiany oświetlenia. Obiekty pierwszoplanowe są wykrywane poprzez rzutowanie bieżącej ramki na wyznaczoną przestrzeń własną w oparciu o odnajdywanie różnić między obrazem zrekonstruowanym, a oryginalnym [182]. Ograniczeniem tej metody jest fakt, że wymaga ona statycznego tła sceny. Wynikający stąd problem można rozwiązać za pomocą modelowania obszarów obrazu jako procesu ARMA (ang.

Autoregresive Moving Avarage), który pozwala poznać i estymować wzorce ruchu w analizowanej sceny [175][263]. W ten sposób możliwe jest modelowanie zmiennego w czasie tła sceny (np. fale na wodzie, przemieszczające się chmury itd.).

Obecnie większość stosowanych praktycznie metod detekcji obiektów bazuje na algorytmach odejmowania tła ze względu na to, że pozwalają modelować zmienne warunki oświetleniowe i okresowe zmiany w tle sceny, a przez to skutecznie wykrywać obiekty w rozmaitych warunkach. W praktyce, często się zdarza, że wyniki odejmowania tła są niekompletne, tzn. obiekt jest podzielony na kilka mniejszych lub w obiekcie pojawiają się obszary niepewne, ze względu na fakt, że nie ma gwarancji, iż cechy wyglądu obiektu będą się różnić od tła. Największym jednak ograniczeniem tych metod jest fakt, że wymagają one kamery stacjonarnej, gdyż ruch kamery zwykle zaburza model tła. Zostały podjęte pewne próby wykorzystania algorytmów odejmowania tła do detekcji obiektów z kamer mobilnych, poprzez ciągłą regenerację modelu w krótkich, kilkuramkowych oknach czasowych [131] lub poprzez kompensację ruchu z wykorzystaniem mozaiki tła

[116][198], jednak wszystkie te rozwiązania zakładają płaską scenę oraz niewielkie zmiany położenia kamery z ramki na ramkę.