Odsłonięcia - Synteza widoków wirtualnych w rzadkich systemach wielokamerowych: założenia i wym

4. Synteza widoków wirtualnych w rzadkich systemach wielokamerowych: założenia i wymagania

4.1. Odsłonięcia

Pierwszym z analizowanych problemów charakterystycznych dla rzadkich systemów wielokamerowych są odsłonięcia, a więc te obszary widoku wirtualnego, które w widokach rzeczywistych były przysłonięte przez obiekty znajdujące się bliżej kamer.

Dla dowolnej pary widoków rzeczywistych możliwe jest wyznaczenie obszaru wspólnego, zawierającego wszystkie punkty sceny widoczne jednocześnie w obu widokach. Ideę estymacji obszaru wspólnego pokazano na rysunku 4.1.

Wyznaczanie obszaru wspólnego dla dwóch sąsiednich widoków rzeczywistych;

kolorem czarnym oznaczono obszar „nie-wspólny” – te fragmenty widoku, które nie były widoczne w widoku sąsiednim (dla czytelności rysunku nie uwzględniono wyznaczania obszaru wspólnego dla białego tła;

w rzeczywistym przypadku powierzchnia obszaru wspólnego jest wyznaczana również dla tła)

W górnym wierszu przedstawiono dwa sąsiednie widoki rzeczywiste, oraz ( + 1).

W wierszu dolnym pokazano obszar wspólny dla obu przedstawionych widoków – jest to cały obszar obrazu poza fragmentami zaznaczonymi na czarno, które to fragmenty stanowią te części widoku, które nie są widoczne w widoku sąsiednim. Jak pokazano, obszary te są różne dla obu widoków, a więc i wielkość obszaru wspólnego dla widoków ( + 1) oraz może być różna w zależności od tego, w którym z dwóch widoków jest ona liczona.

Rzadki system wielokamerowy cechuje się dużymi odległościami między kamerami lub dużym kątem pomiędzy osiami optycznymi poszczególnych kamer. Obie wymienione cechy mają ten sam skutek – stosunkowo niewielka wspólna część sceny jest rejestrowana przez dowolne dwie sąsiednie kamery systemu. Oczywiście, wielkość obszaru rejestrowanego przez sąsiednie kamery może sięgać nawet, według badań przeprowadzonych przez autora na zbiorze zróżnicowanych sekwencji testowych (tabela 4.1), 90% całego obrazu. Dla porównania jednak, w sekwencjach zarejestrowanych z użyciem prostych systemów z liniowym ustawieniem kamer [Domański’09B, Goorts’14B] ten udział może sięgać ponad 95% (tabela 4.1).

Tabela 4.1. Wspólny obszar sceny rejestrowany przez dwie sąsiednie kamery systemu

(wartość uśredniona dla wszystkich par sąsiednich kamer; wartości wyznaczone przez autora rozprawy)

Sekwencja Obszar wspólny [%]

Rzadki system wielokamerowy; kamery ustawione na łuku

BBB Butterfly 67,03

Kamery ustawione liniowo Soccer Linear 95,38

Poznan_Carpark 94,60

Poznan_Street 96,12

W celu wyznaczenia obszaru wspólnego dla zbioru sekwencji testowych, dla każdej pary sąsiednich widoków rzeczywistych przerzutowano (zgodnie z (1.3)) wszystkie punkty jednego widoku do widoku drugiego, a następnie zliczono wszystkie te punkty drugiego widoku, do których nie został przerzutowany żaden punkt z widoku pierwszego. Następnie tę samą operację wykonywano w drugą stronę, rzutując punkty drugiego widoku do widoku pierwszego. Wartości zamieszczone w tabeli 4.1

wyznaczono poprzez uśrednienie wielkości wspólnego obszaru dla wszystkich par sąsiadujących widoków rzeczywistych.

Zbiór sekwencji testowych w tabeli 4.1 podzielono na dwa podzbiory. W pierwszym z nich znajdują się sekwencje zarejestrowane przy użyciu rzadkich systemów wielokamerowych z kamerami rozmieszczonymi na łuku. Średnia wielkość wspólnego obszaru sceny rejestrowanego przez dowolne sąsiednie kamery systemu dla tych sekwencji wyniosła 77% i jest zdecydowanie mniejsza, niż w przypadku sekwencji zarejestrowanych systemami z liniowym rozmieszczeniem kamer, dla których średnia wielkość obszaru wspólnego wyniosła ponad 95%.

W przypadku próby syntezy widoku wirtualnego na podstawie wyłącznie jednego widoku rzeczywistego, cały pozostały („nie-wspólny”) obszar obrazu (a więc średnio 23% dla sekwencji zarejestrowanych systemami z kamerami rozmieszczonymi na łuku) musiałby zostać uzupełniony (interpolowany bądź ekstrapolowany) na podstawie informacji z najbliższych przerzutowanych punktów.

W typowym podejściu, synteza widoków wirtualnych przeprowadzana jest jednak przy użyciu dwóch sąsiednich widoków rzeczywistych. W takim przypadku uzupełnione muszą zostać jedynie obszary niewidoczne w żadnym z sąsiednich widoków, co zostało zobrazowane na rysunku 4.2.

Wyznaczanie obszarów widocznych w co najmniej jednym sąsiednim widoku rzeczywistym;

kolorem czarnym oznaczono obszar „nie-wspólny” – te fragmenty widoku, które nie były widoczne w żadnym sąsiednim widoku (dla czytelności rysunku nie uwzględniono wyznaczania obszaru wspólnego dla białego tła;

w rzeczywistym przypadku powierzchnia obszaru wspólnego jest wyznaczana również dla tła)

W tabeli 4.2 pokazano jaka część widoku i jest widoczna również w widoku ( – 1) lub ( + 1) dla używanych sekwencji testowych. Dla każdej sekwencji w tabeli podano wielkość uśrednioną dla wszystkich widoków rzeczywistych mających 2 sąsiednie widoki rzeczywiste (a więc pominięto skrajnie lewy i skrajnie prawy widok rzeczywisty).

Tabela 4.2. Wielkość obszaru widocznego w co najmniej jednym sąsiednim widoku rzeczywistym (wartość uśredniona dla wszystkich widoków rzeczywistych posiadających widoki sąsiednie;

wartości wyznaczone przez autora rozprawy)

Sekwencja Obszar widoczny

w widokach sąsiednich [%]

Rzadki system wielokamerowy; kamery ustawione na łuku

BBB Butterfly 87,34

Kamery ustawione liniowo Soccer Linear 98,46

Poznan_Carpark 98,39

Poznan_Street 98,93

Jak pokazano w tabeli 4.2, obszar widoczny w którymkolwiek z sąsiednich widoków rzeczywistych jest znacząco większy dla sekwencji zarejestrowanych przy użyciu gęstych systemów wielokamerowych z liniowym rozmieszczeniem kamer. Dla trzech sekwencji testowych zarejestrowanych przy pomocy takiego systemu, powierzchnia odsłonięć, a więc obszarów niewidocznych w żadnym z widoków rzeczywistych wynosi średnio około 1,4% powierzchni całego obrazu. W przypadku sekwencji rzadkich, średnia ta wynosi 9% powierzchni obrazu, a więc sześciokrotnie więcej.

Powierzchnia odsłonięć waha się w zależności od charakterystyki sceny i samego rozmieszczenia kamer. Dla przykładu powierzchnia odsłonięć dla sekwencji BBB Flowers (w której jest wiele wzajemnie przysłaniających się obiektów) jest większa, niż dla sekwencji Ballet (gdzie w scenie oprócz tła są tylko dwie osoby). Zależność powierzchni odsłonięć od rozmieszczenia kamer obrazuje natomiast para sekwencji Poznan_Blocks i Poznan_Blocks2. Pomimo bardzo podobnej charakterystyki (dwie osoby układające klocki na stole), w sekwencji Poznan_Blocks2 powierzchnia odsłonięć jest znacząco mniejsza, co spowodowane jest ustawieniem kamer w parach. Powodem takiego stanu rzeczy jest fakt, iż kamery tworzące dowolną stereoparę rejestrują scenę z podobnego punktu widzenia, co przekłada się na duży wspólny obszar w obu widokach.

Niemniej jednak, zaprezentowane wyniki wyraźnie sugerują, iż rozwiązanie problemu dużej powierzchni odsłonięć w sekwencjach zarejestrowanych przy użyciu rzadkich systemów wielokamerowych umożliwi uzyskanie lepszej jakości widoków wirtualnych. Rozwiązaniem tego problemu jest wykorzystanie informacji z większej liczby widoków rzeczywistych niż tylko dwa sąsiednie. Zaprezentowane podejście pozornie wydaje się doskonałym rozwiązaniem, jednakże należy zwrócić uwagę na dwa pozostałe problemy występujące w rzadkich systemach wielokamerowych, opisane w punktach 4.2.1 i 4.2.2.

4.2. Z

ALETY SYNTEZY Z NAJBLIŻSZYCH WIDOKÓW RZECZYWISTYCH

W dokumencie KATEDRA TELEKOMUNIKACJI MULTIMEDIALNEJ I MIKROELEKTRONIKI WYDZIAŁ ELEKTRONIKI I TELEKOMUNIKACJI POLITECHNIKA POZNAŃSKA (Stron 55-59)