• Nie Znaleziono Wyników

3. WIZYJNA ANALIZA RUCHU DROGOWEGO

3.2 Ś LEDZENIE OBIEKTÓW RUCHOMYCH

3.2.2 Śledzenie jądra

Algorytmy z grupy metod bazujących na śledzeniu jądra (ang. Kernel Tracking) stanowią realizację procesu reprezentacji i lokalizacji obiektów. Polegają one w ogólności na estymacji ruchu obiektu (w sposób parametryczny jako wartości przekształceń lub nieparametryczny jako pole wektorowe), z ramki na ramkę, poprzez analizę wyglądu obiektów, które reprezentowane są przez proste kształty geometryczne (prostokąt, elipsa, itd.). Poszczególne rozwiązania różnią się sposobem reprezentacji wyglądu obiektów, liczbą jednocześnie śledzonych obiektów oraz sposobem estymacji ruchu obiektów. Ze względu na sposób opisu wyglądu obiektów metody wykorzystują:

– wzorce obiektów i gęstości prawdopodobieństwa określonych parametrów wyglądu obiektu,

– wiele widoków obiektu.

3.2.2.1 Śledzenie w oparciu o wzorce i cechy wyglądu obiektów

Wzorzec śledzonego obiektu definiowany jest z wykorzystaniem prostych kształtów geometrycznych lub całej sylwetki obiektu [81]. Zaletą stosowania wzorca jest fakt, że łączy on informację o wyglądzie obiektu z relacjami przestrzennymi. Z kolei wygląd obiektu najczęściej jest reprezentowany przez estymaty gęstości prawdopodobieństwa określonych cech wyglądu (koloru, tekstury itp.) w obszarach obrazu zdefiniowanych kształtem obiektu. Gęstości prawdopodobieństwa mogą być wyrażone w sposób parametryczny (np. jako rozkład normalny [264] lub poprzez sumę ważonych rozkładów gaussowskich [187]) albo nieparametryczny, jako okna Parzena [77] lub histogramy [40].

Algorytmy śledzenia obiektów należące do tej grupy można podzielić ze względu na przystosowanie do śledzenia pojedynczych obiektów lub ich większej ilości.

Śledzenie pojedynczych obiektów

Najbardziej powszechną metodą należącą do tej kategorii jest dopasowanie wzorca (ang. Template Matching), które jest metodą siłowego poszukiwania w bieżącej ramce obszaru podobnego do wzorca zdefiniowanego w ramce poprzedniej. Pozycja obiektu w bieżącej ramce znajdowana jest w oparciu o miary podobieństwa wzorców, np. korelację lub błąd kwadratowy. Jako parametry obrazu używane są zwykle kolor, jasność pikseli lub gradient obrazu [11]. Zaletą tej ostatniej miary jest jej niewrażliwość na zmiany oświetlenia. Ze względu na podejście siłowe, metody dopasowania wzorca są złożone

obliczeniowo. Sposobem zwiększenia wydajności algorytmu jest wprowadzenie ograniczeń dotyczących ruchu obiektu (np. poszukiwanie obiektu w pobliżu jego położenia w ramce poprzedniej) oraz zastosowanie bardziej efektywnych algorytmów dopasowywania [210].

Zamiast stosowania wzorców możliwe jest użycie innych reprezentacji wyglądu obiektów, w szczególności histogramów koloru lub modeli mieszanych, wyznaczanych wewnątrz obszarów o prostych kształtach. Dla przykładu, w rozwiązaniu przedstawionym w pracy [81] modele obiektów są tworzone poprzez wyznaczenie średniej wartości koloru w prostokątnym obszarze. W celu zredukowania złożoności obliczeniowej, obiekt poszukiwany jest w ośmiu sąsiednich lokalizacjach, w porównaniu z ramką poprzednią i ta lokacja, której średnia barwa jest najbardziej zbliżona do koloru modelu jest uznawana za bieżące położenie obiektu.

Innym sposobem realizacji śledzenia obiektów jest użycie ważonego histogramu obliczonego w okrągłych obszarach jako reprezentacji wyglądu obiektu i zastosowanie algorytmu Mean-Shift (podrozdział 3.1.2) do znalezienia położenia obiektu w bieżącej ramce [40]. Wartości pikseli służące do wyznaczenia histogramu są ważone w funkcji odległości ich położenia od środka okręgu; im punkt położony bliżej krawędzi, tym waga mniejsza. Algorytm śledzenia w sposób iteratywny modyfikuje wektor przesunięcia mean-shift w celu zwiększania podobieństwa wyglądu poprzez porównanie histogramów (z wykorzystaniem miary Bhattacharya) obiektu i okna poszukiwania zlokalizowanego wokół hipotetycznej pozycji obiektu. Proces kończy się po uzyskaniu zbieżności, co zwykle wymaga kilku powtórzeń. Rozszerzeniem tego podejścia jest użycie w miejsce zwyczajnego histogramu rozkładu łącznego wykorzystującego zarówno wartości pikseli jak i ich lokalizację w przestrzeni [38]. Przykładowe wyniki śledzenia obiektów algorytmem Mean-Shift pokazano na rys. 3.6. Niewątpliwą zaletą zastosowania tej metody w miejsce dopasowywania wzorca jest wyeliminowanie poszukiwania „na ślepo” i uzyskanie wyniku zwykle po kilku iteracjach. Wadą jest konieczność inicjalizacji algorytmu poprzez wskazanie śledzonego obiektu w pierwszej ramce obrazu (elipsa reprezentująca obiekt musi zawierać przynamniej fragment śledzonego obiektu).

Praca [122] zawiera opis algorytmu śledzenia obiektów modelowanych przez kombinację trzech rozkładów reprezentujących: część stabilną, obejmującą najbardziej wiarygodny wygląd obiektu na potrzeby estymacji ruchu, część zmienną, identyfikującą szybko zmieniające się piksele oraz część szumową, która zajmuje się elementami wyglądu obiektu wyraźnie odstającymi od reszty na skutek szumu. W celu wyznaczenia

parametrów rozkładów zastosowano algorytm maksymalizacji wartości oczekiwanej EM (ang. Expectation Maximization) [67]. Obiekty są reprezentowane przez elipsy, a jako parametry obrazu wykorzystano fazę odpowiedzi filtrów kierunkowych (ang. Steerable Filters) [83]. Ruch obiektu jest wyznaczany za pomocą transformacji deformującej obiekt z ramki poprzedniej do ramki bieżącej; parametrami tej deformacji są przesunięcie , obrót oraz skala s:

[

] [ ] [ ] [ ] (3.18)

Do wyznaczenia parametrów przekształcenia wykorzystywana jest ważona kombinacja rozkładów reprezentujących części: stabilną i zmienną obiektu. Wykorzystanie obu części daje możliwość przyznania wyższej wagi cechom stabilnym obrazu, co pozwala skutecznie śledzić obiekty częściowo zmienne (np. twarz mówiącej osoby, gdzie część zmienna reprezentuje ruchy ust, a część stała nieruchomy nos i czoło).

a) b) c)

d) e) f)

Rys. 3.6 Ilustracja działania śledzenia ciemnego pojazdu algorytmem Mean-Shift: a) estymowana pozycja obiektu w ramce poprzedniej, b),c), d), e), f) wyniki lokalizacji obiektu w bieżącej ramce po przeprowadzeniu iteracji numer 1, 2, 3, 4 i 6

Zastosowanie znajduje także wyznaczanie przesunięcia obiektu opisanego prostym kształtem za pomocą metod obliczania przepływu optycznego (podrozdział 3.1.4), rozszerzonych na zagadnienie wyznaczania wektorów przesunięcia dla obszarów prostokątnych. Poprzez analizę przesunięcia regionów obrazu zaczepionych w punktach charakterystycznych znalezionych za pomocą detektora KLT (podrozdział 3.1.1)

wyznaczane są odpowiadające im punkty charakterystyczne w następnej ramce obrazu [216]. Jakość dopasowanego regionu obrazu badana jest z poprzez wyznaczenie parametrów przekształcenia afinicznego pomiędzy regionem źródłowym a dopasowanym, rzutowanie regionu źródłowego z wykorzystaniem tego przekształcenia i obliczenie błędu kwadratowego w porównaniu z regionem źródłowym. W przypadku niskiej wartości różnicy, śledzenie może być kontynuowane.

Śledzenie wielu obiektów

Przedstawione w poprzednim podrozdziale metody śledzenia są przystosowane do modelowania wyglądu tylko jednego, określonego obiektu, w związku z czym nie biorą pod uwagę możliwych interakcji tego obiektu z elementami tła i innymi obiektami. W związku z tym w pracy [239] przestawiono podejście, w którym modelowany jest kompletny obraz jako zbiór warstw, na który składa się jedna warstwa dotycząca tła sceny i po jednej warstwie na każdy ruchomy obiekt. Na każdą warstwę składa się model kształtu w postaci elipsy, model ruchu jako wartości przesunięcia i obrotu oraz model wyglądu zdefiniowany jako pojedynczy rozkład normalny wartości luminancji. W pierwszej kolejności kompensowany jest ruch tła sceny, a następnie wyznaczane jest prawdopodobieństwo przynależności każdego piksela do określonej warstwy (obiektu) biorąc pod uwagę dotychczasowe parametry ruchu i kształtu obiektu, a także wygląd obiektu. Parametry modelu (kształt, ruch, wygląd) są uaktualniane iteracyjnie algorytmem maksymalizacji wartości oczekiwanej EM (ang. Expectation Maximization) [67] w celu maksymalizacji obserwacji określonej warstwy w bieżącej ramce obrazu.

Innym sposobem łącznego modelowania tła i obiektów pierwszoplanowych jest zastosowanie modelu łącznego, w którym zarówno wygląd tła, jak i wszystkich obiektów, modelowane są za pomocą sumy ważonych rozkładów gaussowskich (podrozdział 3.1.5) [118]. Zakłada się przy tym znajomość płaszczyzny, po której poruszają się obiekty, w związku z czym możliwe jest określenie ich pozycji 3D oraz modelowanie ich kształtu za pomocą walca. Śledzenie obiektów odbywa się za pomocą filtrów cząsteczkowych (rozdział 3.2.1.2), których wektor stanu uwzględnia lokalizację 3D, kształt i wektor prędkości wszystkich ruchomych obiektów w scenie. Poprzez zastosowanie zmodyfikowanych procedur predykcji i korekcji filtrów cząsteczkowych możliwa jest dynamiczna zmiana rozmiaru wektora stanu w celu uwzględniania obiektów pojawiających się jak i znikających. Wadą tej metody jest konieczność określenia z góry maksymalnej liczby obiektów możliwych do śledzenia, użycie tego samego modelu

wyglądu do śledzenia wszystkich obiektów i konieczność wcześniejszego treningu algorytmu w celu rozpoznawania obiektów pierwszoplanowych.

3.2.2.2 Śledzenie w oparciu o wiele widoków obiektu

Przedstawione dotychczas algorytmy opierają się na tworzonym dynamicznie, pojedynczym modelu wyglądu obiektu. Jest od dopasowany do wyglądu aktualnie poruszającego się obiektu, ale w przypadku zmiany jego pozy lub położenia w warunkach nierównomiernego oświetlenia, wygląd obiektu może ulec drastycznym zmianom, co zwykle skutkuje błędami śledzenia obiektów. Rozwiązaniem tego problemu może być przygotowanie wielu reprezentacyjnych obrazów obiektów i wcześniejsze nauczenie algorytmu wyglądu śledzonych obiektów np. przy użyciu analizy składowych głównych PCA (ang. Principal Component Analysis) [14] lub analizy składowych niezależnych ICA (ang. Independent Component Analysis) [179].

Przykładową realizacją tego pomysłu jest zastosowanie analizy PCA do utworzenia nowej podprzestrzeni reprezentującej wygląd obiektu. W trakcie śledzenia wyznaczane są iteracyjnie parametry przekształcenia afinicznego, które minimalizuje różnicę między bieżącym obrazem obiektu, a obrazem zrekonstruowanym przy użyciu wektorów własnych [14].

Rozszerzeniem zastosowania analizy PCA do śledzenia obiektów jest wykorzystanie aktywnych modeli obiektów. Modele takie powstają przez równoczesne modelowanie kształtu obiektu oraz cech jego wyglądu [76]. W ogólności, kształt obiektu zdefiniowany jest przez zbiór punktów, które zlokalizowane są w charakterystycznych miejscach obiektu rozmieszczonych na jego krawędziach lub w jego wnętrzu. W oparciu o punkty kształtu, wyznaczana jest reprezentacja wyglądu obiektu. Przykładowymi realizacjami tego podejścia są algorytmy Active Shape Model (ASM) [62] oraz jego bezpośredni następca, Active Appearance Model (AAM) [41][218]. Oba algorytmy wykorzystują taką samą definicję kształtu obiektu, jednak różnią się sposobem reprezentacji wyglądu obiektu. W metodzie ASM dla każdego punktu kształtu jest to wygląd obiektu w sąsiedztwie tego punktu, zwykle w postaci wektora zawierającego kolor, teksturę lub gradient obrazu. Z kolei AAM uwzględnia wszystkie piksele obiektu znajdujące się wewnątrz jego konturu.

Analiza PCA w aktywnych modelach służy do wyznaczenia modelu obiektu w postaci typowych zmian kształtu i wyglądu obiektu. Oznacza to konieczność przygotowania treningowych obrazów obiektów, w których pozycja punktów kształtu została oznaczona ręcznie. Proces dopasowywania modelu do nowego obrazu jest iteracyjny i wymaga

rozwiązania problemu optymalizacyjnego, którego zdaniem jest minimalizacji różnicy pomiędzy wyglądem obiektu obliczonym na podstawie jego modelu, a wyglądem obiektu wyznaczonym bezpośrednio z bieżącej ramki obrazu dla różnych położeń obiektu w obrazie i deformacji kształtu obiektu [41][218]. Proces ten jest wrażliwy na warunki początkowe, co oznacza że estymacja położenia obiektu w pierwszej ramce analizowanego strumienia powinna być możliwie jak najbardziej zbliżona do rzeczywistego położenia obiektu.

Innym rozwiązaniem jest użycie dowolnego klasyfikatora uczącego się, np.

przedstawionego w rozdziale 3.1.3, do nauczenia wyglądu obiektu. Jako wzorce pozytywne służą w tym przypadku obrazy obiektów, a jako wzorce negatywne – obrazy tła sceny, co do których istnieje największa szansa pomylenia ich z obiektami pierwszoplanowymi. W trakcie śledzenia następuje skanowanie ramki obrazu oknem ruchomym w celu znalezienia tego obszaru, który charakteryzuje się najwyższym wynikiem klasyfikacji. Przykład takiego podejścia, wykorzystującego klasyfikator SVM, przedstawiono w artykule [3]. Zaletą tej metody jest fakt, że poza wyglądem obiektu, wytrenowany klasyfikator zawiera w sposób jawny również wiedzę o tle sceny.