Index of /rozprawy2/11170

Pełen tekst

(1)Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie Faculty of Computer Science, Electronics and Telecommunications. Ph.D. Dissertation ´ Andrzej Matiolanski. Analysis of Effective Methods for Identifying Selected Objects in Digital Images Analiza efektywnych metod rozpoznawania wybranych obiektów w obrazach cyfrowych. Supervisor: Professor Andrzej Dziech, Ph.D. Eng..

(2) Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie Faculty of Computer Science, Electronics and Telecommunications Department of Telecommunications al. Mickiewicza 30, 30-059 Kraków, Poland tel. +48 12 6345582 fax +48 12 6342372 http://www.agh.edu.pl http://www.iet.agh.edu.pl http://www.kt.agh.edu.pl. c Andrzej Matiolański, 2016. Wszelkie prawa zastrzeżone c Rafał Stankiewicz Szablon LATEX .

(3) Podziękowania. Na wstępie chciałbym wyrazić wdzięczność wobec mojego przełożonego, Profesora Andrzeja Dziecha, za możliwość realizowania pracy w jego zespole badawczym. W szczególności chciałbym podziękować za cenne uwagi i ciągłe wsparcie, które pozwoliło mi na napisanie niniejszej rozprawy. Po drugie, miałem szczęście pracować w przyjaznej atmosferze, wśród moich koleżanek i kolegów z Akademii Górniczo-Hutniczej. Dzięki nim nawet w chwilach zwątpienia byłem świadkiem merytorycznego wsparcia z ich strony. Ponadto chciałbym także wyrazić podziękowanie naukowcom z poza mojej uczelni z którymi miałem okazję pracować podczas realizacji licznych projektów badawczych. Napisanie pracy doktorskiej nie byłoby możliwe bez wsparcia ze strony rodziny. Serdecznie dziękuję ukochanej żonie Anecie za wyrozumiałość i zapewnienie idealnej równowagi pomiędzy skupieniem na pracy, a chwilami odpoczynku. Nie mogę zapomnieć o Rodzicach i Dziadkach, którzy od najmłodszych lat wspierali mnie, zaszczepili ciekawość świata i wpoili wagę ciągłego kształcenia w dalszym w życiu. Na koniec chciałbym podziękować anonimowym recenzentom za ich czas i konstruktywne uwagi dotyczące moich artykułów, które tu prezentuję w formie rozprawy doktorskiej..

(4) Spis treści 1. Autoreferat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.1. Wstęp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.2. Uzasadnienie ważności i celowości podejmowanej tematyki . . . . 3 1.3. Algorytmy analizy obrazu i przykładowe scenariusze użycia . . . 4 1.4. Automatyczna detekcja obiektów . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.4.1. Detekcja twarzy człowieka . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.4.2. Detekcja noża . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 1.4.3. Rozpoznawanie marki i modelu pojazdu . . . . . . . . . . . . . . . . 10 1.4.4. Zapis metadanych w obrazie . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 1.4.5. Aspekty innowacyjności w prezentowanych rozwiązaniach 14 1.5. Podsumowanie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.6. Lista moich publikacji . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 1.7. Bibliografia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2. Zbiór publikacji . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 2.1. CCTV object detection with fuzzy classification and image enhancement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 2.2. Automated detection of firearms and knives in the CCTV image 39 2.3. The efficient real- and non-real-time make and model recognition of cars . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 2.4. Real data performance evaluation of CAISS watermarking scheme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 2.5. Automated optimization of object detection classifier using genetic algorithm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 2.6. Face occurrence verification using haar cascades - comparison of two approaches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 2.7. Oświadczenia współautorów publikacji . . . . . . . . . . . . . . . . . . . . . . . . 103.

(5) 1. Autoreferat 1.1. Wstęp Niniejsza rozprawa doktorska dotyczy problemu przetwarzania i analizy obrazu na potrzeby systemów monitoringu wizyjnego. Celem nadrzędnym rozprawy jest opracowanie efektywnych metod rozpoznawania obiektów w aspekcie ich zastosowania w systemach inteligentnego monitoringu zagrożeń. Obecnie zauważalny jest intensywny wzrost zainteresowania technologiami mogącymi usprawnić i podnieść skuteczność systemów wizyjnych. Potwierdzają to liczne publikacje naukowe, a także szereg komercyjnych produktów oferujących nowoczesne rozwiązania dla systemów monitoringu wizyjnego. Zaproponowane metody pozwolą na szczegółową analizę treści w systemach wizyjnej detekcji i analizy zagrożeń. Rozprawa zawiera opis możliwych modyfikacji algorytmów i ich parametryzacji w celu polepszenia jakości i szybkości działania w kontekście konkretnych, zaproponowanych zastosowań. Jako osiągnięcie naukowe stanowiące podstawę starania o uzyskanie stopnia doktora, zgodnie z art. 13. ust. 2 ustawy o stopniach naukowych i tytule naukowym oraz stopniach i tytule w zakresie sztuki z dnia 14 marca 2003 r. z późniejszymi zmianami, przedstawiam spójny tematycznie zbiór artykułów naukowych pod zbiorczym tytułem „Analiza efektywnych metod rozpoznawania wybranych obiektów w obrazach cyfrowych” (ang. Analysis of Effective Methods for Identifying Selected Objects in Digital Images). Na ten zbiór artykułów składają się:1 [A1] Andrzej Matiolański, Aleksandra Maksimova, and Andrzej Dziech. CCTV object detection with fuzzy classification and image enhancement. Multimedia Tools and Applications, pages 1–16, 2015, Impact Factor czasopisma: 1,346, liczba punktów MNiSW: 30 pkt. [A2] Michał Grega, Andrzej Matiolanski, Piotr Guzik, and Mikołaj Leszczuk. Automated detection of firearms and knives in the CCTV image. Sensors, 74(12):4437–4451, 2015, Impact Factor czasopisma: 2,474, liczba punktów MNiSW: 30 pkt. [A3] Remigiusz Baran, Andrzej Glowacz, and Andrzej Matiolanski. The efficient real- and non-real-time make and model recognition of cars. Multimedia Tools and Applications, 74(12):4269–4288, 2015, Impact Factor czasopisma: 1,346, liczba punktów MNiSW: 30 pkt. [A4] Piotr Guzik, Andrzej Matiolanski, and Andrzej Dziech. Real data performance evaluation of CAISS watermarking scheme. Multimedia Tools and Applications, 1. IF odnosi się do wskaźnika Impact Factor, MNiSW odnosi się do punktacji czasopism według Ministerstwa Nauki i Szkolnictwa Wyższego..

(6) 3. 74(12):4437–4451, 2015, Impact Factor czasopisma: 1,346, liczba punktów MNiSW: 30 pkt. [A5] Andrzej Matiolański and Piotr Guzik. Automated optimization of object detection classifier using genetic algorithm. In Andrzej Dziech and Andrzej Czyżewski, editors, Multimedia Communications, Services and Security, volume 149 of Communications in Computer and Information Science, pages 158–164. Springer Berlin Heidelberg, 2011, liczba punktów MNiSW: 10 pkt (publikacja indeksowana w Web of Science). [A6] Piotr Boryło, Andrzej Matiolański, and TomaszM. Orzechowski. Face occurrence verification using haar cascades - comparison of two approaches. In Andrzej Dziech and Andrzej Czyżewski, editors, Multimedia Communications, Services and Security, volume 149 of Communications in Computer and Information Science, pages 301– 309. Springer Berlin Heidelberg, 2011, liczba punktów MNiSW: 10 pkt (publikacja indeksowana w Web of Science). Wymienione publikacje posiadają sumaryczny Impact Factor wynoszący 6,512 . Sumaryczna ilość punktów według listy czasopism punktowanych MNiSW wynosi 140. Wszystkie artykuły zostały w całości napisane i opublikowane w języku angielskim. w autoreferacie poza artykułami wchodzącymi w skład zbioru [A1-A6], cytuję inne prace mojego autorstwa [B1-B6].. 1.2. Uzasadnienie ważności i celowości podejmowanych badań Zapewnienie bezpieczeństwa oraz odpowiedniego poziomu prewencji związanych z zagrożeniami dla obywateli stają się w ostatnim okresie coraz ważniejszym i aktualniejszym problemem. Od kilku lat w powszechnym użyciu są kamery monitoringu, które pozwalają na stałą obserwację wielu miejsc. Używane są one na ulicach, w budynkach publicznych i komercyjnych, środkach transportu. Liczba kamer w obszarach miejskich stale rośnie, budowane są coraz bardziej rozległe struktury systemów monitoringu. Przykładami może być Londyn (UK), który posiada ponad 4 miliony kamer[7] czy Warszawa, gdzie miejskie centrum monitoringu dysponuje ponad 13 tysiącami kamer[8](stan na 22.01.2016). Tak duża ilość urządzeń generuje ogromną ilość danych wizyjnych spływający w sposób ciągły do centrów danych[B3]. Obserwuje się istotny postęp w rozwoju systemów monitoringu wizyjnego. Początkowo człowiek (operator) prowadził dozór obszaru przy pomocy obrazu z kamer. Systemy monitoringu umożliwiały zapisywanie obrazu z kamer, ponowne odtwarzanie oraz sterowanie kamerami typu PTZ (ang. Pan Tilt Zoom camera). Wraz ze wzrostem liczby kamer architektura systemów monitoringu stawała się bardziej złożona, aby sprostać wymaganiom obsługi dużej ilości źródeł danych. Sytuacja ta spowodowała rosnące zapotrzebowanie na rozwiązania usprawniające pracę operatora. w komercyjnym zastosowaniu znaleźć można klasyczne, z punktu widzenia algorytmów przetwarzania obrazu, rozwiązania takie jak detekcja ruchu na podstawie analizy tła lub określanie typy obiektu bazując na jego wielkości wyrażonej w pikselach. Wszystkie tego typu rozwiązania są cenne, ponieważ wspomagają prace operatora systemu monitoringu. Należy jednak zwrócić uwagę na fakt, że analiza obrazu w tych przypadkach jest relatywnie prosta i wymaga stałej uwagi człowieka. Obecne możliwości techniczne pozwalają na wykorzystanie dużo bardziej zaawansowanych algorytmów przetwarzania obrazu i jego analizy. Co za tym idzie są one skuteczniejsze.

(7) 4. i pozwalają na wprowadzenie nowych funkcjonalności. Zbiór tych funkcjonalności można rozpatrywać jako wprowadzenie nowego typu systemów monitoringu wizyjnego, tak zwanego inteligentnego monitoringu zagrożeń. Inteligentny monitoring zagrożeń pozwala na: • uniknięcie stałej obserwacji obiektów oraz zdarzeń i przesyłanie informacji tylko w przypadku zaistnienia zagrożenia, • maksymalne wsparcie operatora systemu przy obserwacji wizyjnej, • znaczącą automatyzację procesu monitorowania przestrzeni, system informuje na bieżąco operatora, • przeniesienie obciążenia z człowieka na komputer, unikanie błędów natury ludzkiej powodowanych przez zmęczenie i brak koncentracji, • przetwarzanie przez algorytmy wielu strumieni wizyjnych w tym samym czasie, • stały dozór przez człowieka, algorytm sam nie reaguje na zdarzenie, ale informuje operatora o wyniku analizy obrazu. Wymienione cechy monitoringu inteligentnego, patrząc z perspektywy systemu monitoringu jako całości, pozwalają na poprawę jego skuteczności, obniżenie kosztów działania oraz stanowią naturalną ewolucję dotychczasowych rozwiązań. Nie bez znaczenia jest także społeczna użyteczność prowadzonych badań, gdzie efektywne systemy monitoringu wizyjnego służą do poprawy bezpieczeństwa obywateli i co jest szczególnie istotne do ochrony prywatności poprzez unikniecie ciągłej obserwacji. Inteligentny monitoring zagrożeń jest obecnie aktywnym tematem badań naukowych. Świadczą o tym liczne publikacje w renomowanych czasopismach oraz referaty wygłaszane na czołowych konferencjach tego obszaru nauki. Prace badawcze są również prowadzone w licznych projektach naukowych (m. in. realizowanych przeze mnie projektach INDECT, INSIGMA[B4]). Biorąc pod uwagę obszar rozwiązań komercyjnych zauważa się tendencję do wprowadzania pojedynczych funkcjonalności inteligentnych rozwiązań do oferowanych produktów. Ewolucja ta sprawia, że zapotrzebowanie na tego rodzaju funkcjonalności będzie widoczne na rynku jeszcze przez długi czas.. 1.3. Algorytmy analizy obrazu i przykładowe scenariusze użycia W pracy doktorskiej poruszam zagadnienia związane z algorytmami analizy obrazu, które mogą znaleźć zastosowanie w systemach inteligentnego monitoringu zagrożeń. Wśród nich znajdują się zarówno moje autorskie rozwiązania jak i już istniejące, które zostały przeze mnie udoskonalone. Podczas prac badawczych starałem się mieć na uwadze, że opracowywane algorytmy będą działać w rzeczywistych systemach monitoringu. Istotnymi czynnikami, jakie wpływały na efektywność rozwiązania były szybkość działania oraz wysoka skuteczność, a także możliwość dostosowania do zmiennych warunków. Każdy z zaprezentowanych algorytmów można parametryzować czyli dostosować do szczególnych warunków w jakich ma pracować. Zdolność ta jest istotna z uwagi na mnogość rozwiązań sprzętowych oraz warunków w których pracują systemy monitoringu. Dzięki parametryzacji istnieje możliwość optymalnego wykorzystania metod rozpoznawania obrazu we współpracy z różnymi.

(8) 5. modelami kamer, możliwość adaptacji do zmieniających się warunków atmosferycznych czy realizowanie dedykowanych scenariuszy użycia. Zgodnie z założeniami inżynierii kluczowe jest zachowanie równowagi pomiędzy szybkością działania, jakością rozwiązania i kosztem wdrożenia (ang. engineering triangle[11]). Parametryzacja pozwala na wzmocnienie pożądanych cech rozwiązania np. poprawę szybkości działania kosztem jakości rozpoznawania obiektów. Różne scenariusze użycia prezentowanych algorytmów mogą wymagać odmiennego dostosowania. W pracy rozważam kilka przykładowych scenariuszy użycia opracowanych algorytmów. Służą one do przedstawienia działania i możliwości metod przetwarzania obrazu. Nie wyczerpują one wszystkich możliwości omawianych rozwiązań, które mogą zostać dostosowane także do innych celów. W pracy rozważone zostały następujące przypadki użycia prezentowanych algorytmów przetwarzania i analizy obrazu: • detekcja wybranych obiektów: – twarzy człowieka, – niebezpiecznego narzędzia (na przykładzie noża), – pojazdu (na przykładzie samochodu osobowego), • rozpoznawanie marki i modelu pojazdu, • zapisanie metadanych w obrazie za pomocą techniki cyfrowego znaku wodnego w celu efektywnego zabezpieczenia przechowywanych danych. Zaproponowane scenariusze zostały wykorzystane w spójnym tematycznie zbiorze opublikowanych artykułów naukowych, które są zasadniczą treścią rozprawy. w kolejnych podrozdziałach autoreferatu streszczone zostały poszczególne wyniki pracy. Założeniem pracy jest jak najpełniejsze przedstawienie tematyki przetwarzania obrazu z kamery monitoringu wizyjnego, a zwłaszcza opracowanie algorytmów detekcji i identyfikacji obiektów.. 1.4. Automatyczna detekcja obiektów W pracy szczegółowo przedstawiłem algorytmy detekcji wybranych obiektów na przykładzie detekcji twarzy człowieka, niebezpiecznego narzędzia - noża oraz pojazdu samochodowego. Chociaż detekcja twarzy człowieka jest dobrze znana w literaturze, to moim osiągnięciem jest modyfikacja prezentowanych algorytmów w aspekcie ich optymalizacji ze względu na czas przetwarzania i jakość detekcji. Opisane w pracy algorytmy detekcji noża pozwalają na przedstawienie dwóch metod klasyfikacji obiektów na podstawie wybranych cech obrazu. Opracowany algorytm wykrywania przodu pojazdu stanowi natomiast część składową zaproponowanego w pracy złożonego algorytmu rozpoznawania modelu i marki pojazdu.. 1.4.1. Detekcja twarzy człowieka Detekcja twarzy jest jednym z istotnych zagadnień w maszynowym przetwarzaniu obrazu. Wykorzystywana jest w specjalistycznych systemach bezpieczeństwa. Problem detekcji twarzy jest związany z zagadnieniem ochrony prywatności i może być wstępem do analizy wizerunku twarzy: identyfikacji osoby, śledzenia, rozpoznawania mimiki (np. uśmiechu). Warto zaznaczyć, że twarz człowieka pomimo takiej samej struktury (oczy, usta, nos, itd.).

(9) 6. różni się u każdego człowieka. Niezwykle istotnym aspektem jest efektywność detekcji, która nie może być wrażliwa na warunki oświetlenia, wielkość obiektu, kalibrację kamery, etc. W literaturze można znaleźć wiele algorytmów służących do detekcji twarzy. w działaniu mogą bazować na metodach weryfikacji kształtu twarzy[12], analizie tekstury[13], analizie elementów twarzy[14, 15], analizie koloru skóry[16], analizie przy użyciu sieci neuronowych[17, 18]. Do dalszej analizy wybrałem algorytm opisany przez Viola i Jones[19], który korzysta ze zbioru słabych klasyfikatorów opartych o falki Haar’a połączonych za pomocą algorytmu Adaboost[20]. w ten sposób wytrenowany zostaje jeden klasyfikator, który może zostać użyty w celu detekcji obiektu. Rozwiązanie posiada szereg parametrów które pozwalają na dostosowanie jego działania do konkretnych zastosowań. Przegląd i zastosowanie poszczególnych parametrów zostało szczegółowo opisane przeze mnie w artykule [B1]. Autorzy algorytmu publikują wyniki działania algorytmu, w zależności od ilości fałszywych detekcji (ang. false positive), na poziomie 76.1% do 94.1%[22]. Algorytm oparty na falkach Haar’a (ang. Haar wavelets) pozwala na dokonanie optymalizacji za pomocą modyfikacji wartości parametrów detekcji obiektów. w celu optymalizacji wybrałem trzy parametry, które w największym stopniu wpływają na jakość detekcji[B1]: współczynnik zmiany wielkości okna detekcji (ang. haar scale), minimalna ilość wykrytych sąsiadów (ang. minimum number of neighbors), minimalna wielkość obiektu (ang. minimum object size). Optymalizacja klasyfikatorów polegała na równoległej pracy dwóch uprzednio wytrenowanych klasyfikatorów z jednoczesnym poszukiwaniem sub-optymalnych wartości parametrów przy użyciu algorytmu genetycznego. Algorytm genetyczny (szczegółowo opisany w [A5]) zakłada usprawnienie detekcji w trzech płaszczyznach: zwiększenia wartości współczynnika poprawnych wykryć (ang. true-positive) oraz zmniejszenia współczynnika niepoprawnych wykryć (ang. false positive) i skrócenia czasu przetwarzania. Funkcja dopasowania (ang. fitness function) ma postać: F =. ADP − BDF P 1 + CT. (1). gdzie: DP to ilość pozytywnych wykryć, DF P to ilość niepoprawnych wykryć, T to czas przetwarzania, A, B, C są to wagi dla każdego z parametrów. Dobór wartości wag dla parametrów zależy od konkretnego zastosowania i pozwala na uzyskanie najlepszych możliwych rezultatów stanowiących optimum w sensie Pareto. Każdy z klasyfikatorów może zwrócić nieznacznie różniące się współrzędne obiektu, co wynika z różnic w zbiorze obrazów treningowych podczas tworzenia klasyfikatora. Podczas testowania algorytmu przyjąłem, że jeżeli środek ciężkości mniejszego obszaru ze wskazanych przez klasyfikatory znajduje się wewnątrz obszaru większego to oba klasyfikatory wskazują na ten sam obiekt (jak pokazano na rys. 1). w ten sposób dokonywana jest weryfikacja poprawności wykrycia obiektu. Zoptymalizowany algorytm został przetestowany na zbiorze zdjęć zbliżonych do bazy CMU/VASC[23] z zastrzeżeniem, że na każdym z nich znajduje się co najmniej 10 twarzy. Zdjęcia na których obiekt jest trudny do wykrycia i te z większą ilością obiektów lepiej pokazują możliwości optymalizacyjne proponowanego algorytmu (rys 2). Dla współczynnika niepoprawnych wykryć na poziomie 4.8% udało się znaleźć 99.15% obiektów[A5]. Dla porównania, oryginalne rozwiązanie uzyskało ≈ 90% wykryć przy podobnym poziomie fałszywych wskazań. W przypadku detekcji trudnych do wykrycia obiektów istotna jest możliwość weryfikacji poprawności algorytmu. w przypadku rozważanego typu obiektu jakim jest twarz, warto zauważyć, że zbudowana jest ona ona z części składowych takich jak usta, noc, oczy..

(10) 7. Rysunek 1: a) - klasyfikatory wykryły ten sam obiekt, b) - klasyfikatory wykryły różne obiekty. Rysunek 2: Przykład działania detekcji twarzy po optymalizacji. Wszystkie twarze na zdjęciu zostały wykryte. Dodatkowo kolor skóry człowieka jest na tyle charakterystyczny, że może zostać wykryty z zastosowaniem odpowiednich filtrów[A6][12]. Jednoczesne poprawne wykrycie części twarzy i koloru skóry na tym samym obszarze z dużym prawdopodobieństwem potwierdza, że znaleziony obiekt to twarz. w artykule [A6] zaproponowałem dwie metody weryfikacji wystąpienia twarzy na zdjęciu przy użyciu klasyfikatorów Haar’a. Oba zaprezentowane w artykule algorytmy zakładają znalezienie na obrazie obszarów, które mogą być twarzą na podstawie koloru skóry oraz wykrycie części twarzy za pomocą osobnego klasyfikatora. Algorytmy różnią się kolejnością wykonywanych operacji: • pierwszy algorytm zakłada równoległe poszukiwanie obszarów na podstawie koloru skóry oraz wykrywanie części składowych twarzy, • drugi algorytm zakłada najpierw wyszukanie wszystkich obszarów na podstawie koloru skóry, a następnie wykrycie części twarzy tylko w miejscach uprzednio wykrytych za pomocą filtru koloru skóry. Porównanie obu metod wykazało znacząca przewagę drugiego algorytmu, zarówno pod względem trafności wskazań jak i czasu przetwarzania. Wynik eksperymentu jest zbieżny z oczekiwaniami i wcześniejszymi badaniami[B1]. Klasyfikatory, które wykrywają części twarzy mają znacząco niższą skuteczność[A6] od tych wykrywających całą twarz[A5]. Ponadto wykazują tendencję do zgłaszania znacznej ilości fałszywych wykryć. Części ciała takie jak nos, usta, oczy nie są obiektami tak bardzo charakterystycznymi jak cała twarz.

(11) 8. zbudowana z połączenia tych elementów, dużo łatwiej pomylić je z innymi obiektami lub niejednorodnym tłem. Ograniczając przeszukiwany obszar przez detekcję koloru skóry ograniczamy możliwość popełnienia błędu przez te klasyfikatory, co skutkuje zwiększeniem trafności przy jednoczesnym spadku ilości fałszywych wykryć. Klasyfikator Haar’a działa zgodnie z algorytmem sliding window przechodząc po całym obszarze wyszukiwania. w przypadku ograniczenia obszaru, na którym ma być wykonana detekcja (i tych samych parametrach klasyfikatora) czas zawsze będzie krótszy proporcjonalnie do ograniczenia obszaru przeszukiwania (względem całości obrazu).. 1.4.2. Detekcja noża Ważnym zagadnieniem związanym z przetwarzaniem obrazu w systemach bezpieczeństwa jest problematyka rozpoznawania niebezpiecznych narzędzi. Przedmioty takie jak nóż, maczeta, siekiera, pistolet lub różnego rodzaju broń palna trzymane na widoku w miejscu publicznym to sygnał o potencjalnym zagrożeniu. Koncepcje wspomagania pracy operatora monitoringu dzięki automatycznemu wykrywaniu niebezpiecznych narzędzi są już obecne w literaturze[24, 25]. Podobne rozwiązania zostały zaproponowane w ramach projektów badawczych MEDUSA[26] i FISVER[27], gdzie próbowano rozwiązać problem detekcji niebezpiecznych zachowań osób bazując na nagraniach z kamer monitoringu. W mojej pracy zająłem się problemem wykrywania noży na obrazach cyfrowych. Użycie broni białej w przeciwieństwie do palnej jest trudne do wykrycia za pomocą zdarzeń akustycznych. w związku z tym detekcja na podstawie obrazu zdaje się być uzasadnionym podejściem. w moich pracach skupiłem się na wykryciu noża, który jest trzymany w dłoni człowieka. Dzięki temu możliwe stało się założenie, że nóż znajduje się w pobliżu sylwetki człowieka[A2] co w konsekwencji spowoduje przyspieszenie obliczeń i poprawę dokładności (zgodnie z badaniami opisanymi w [A6]).. Rysunek 3: Przykładowe obrazy pochodzące z bazy danych zdjęć noży. W ramach prac stworzyłem bazę danych zawierającą ponad 12 tysięcy zdjęć[B5] (rys. 3), które posłużyły do trenowania klasyfikatorów. Nóż na nagraniach z kamer monitoringu jest zazwyczaj małych rozmiarów, dlatego zdjęcia testowe zostały przeskalowane do rozdzielczości 100 na 100 pikseli. Baza jest dostępna online pod adresem [29]..

(12) 9. Początkowe prace polegały na zaadoptowaniu klasyfikatora Haar’a opisanego w poprzednim rozdziale do wykrywania noża. Jak pokazały rezultaty badań[B2] podejście to okazało się błędne. Klasyfikator nie był w stanie poradzić sobie ze zbyt mało charakterystycznymi obiektami takimi jak nóż. w konsekwencji ilość fałszywych wykryć przewyższyła ilość poprawnych. W kolejnych badaniach zdecydowałem się na zastosowanie deskryptorów wizyjnych pochodzących ze standardu MPEG-7: Edge Histogram[31] i Homogeneous Texture[32]. Pierwszy z nich przechowuje informację na temat układu krawędzi, drugi dane na temat rozkładu tekstury na obrazie. Na podstawie przeprowadzonych eksperymentów założyłem, że te dwa deskryptory dobrze charakteryzują specyficzny charakter noża, w przeciwieństwie do innych badanych (m. in. SIFT, SURF, FAST). Zapisanie obrazu jako wektora cech pozwala na użycie metod numerycznych, które dokonają klasyfikacji danych wejściowych na te, które przedstawiają nóż i na te, które go nie przedstawiają. w tym celu użyłem metodę klasteryzacji zbiorów rozmytych (ang. Fuzzy C-means, FCM)[33, 34] oraz maszyny wektorów nośnych (ang. Support Vector Machine, SVM)[35]. Początkowo przetestowałem klasteryzację za pomocą zbiorów rozmytych. Zastosowanie tej metody wydawało się intuicyjnie poprawne z uwagi na bezwładność rozwiązania w stosunku do próbek. To znaczy możliwość automatycznej ekstrakcji jedynie części cech obrazu, które mają znaczenie w procesie klasyfikacji. Wektory cech uzyskiwane były z obrazów bez dokonywania segmentacji obrazu. w związku z tym materiał wejściowy posiadał pewną redundancję, która zaburzała zawartą w obrazie informację. Dodatkowo to zaburzenie mogło w taki sam sposób występować w przypadku próbek pozytywnych i negatywnych. Przeprowadzone eksperymenty, opisane szczegółowo w artykule [A1], wskazały na brak możliwości użycia deskryptora Homogenous Texture. Algorytm FCM nie był w stanie poprawnie dopasować klastrów do danych, dlatego dalsze rozważania oparłem jedynie na implementacji deskryptora Edge Histogram. w celu przetestowania algorytmu wytrenowałem kilka klasyfikatorów dzieląc zbiór testowy na część treningową i testową. Dodatkowo z części treningowej zostały wybrane próbki dobrej jakości (jak opisano w [A1]). Najlepsze wyniki zostały uzyskane przy trenowaniu próbkami pozytywnymi dobrej jakości i próbkami negatywnymi dowolnej jakości uzyskując wyniki prezentowane w tabelach 1 i 2. Tablica 1: Detekcja noża - klasyfikacja za pomocą FCM dla deskryptora Edge Histogram. Positive. Negative. True. 78,68%. 83,03%. False. 10,97%. 21,31%. Tablica 2: Detekcja noża - klasyfikacja za pomocą FCM dla deskryptora Edge Histogram. Sensitivity. 78,68%. Specificity. 89,03%. Drugim badanym sposobem klasyfikacji wektorów cech było użycie metody maszyny wektorów nośnych. Metoda ta polega na numerycznym dopasowaniu hiperpłaszczyzny do zbioru uczącego w taki sposób, aby rozdzielała ona typy próbek. Każda cecha traktowana jest jako osobny wymiar dla szukanego klasyfikatora, który separuje próbki (w opisywanym.

(13) 10. przypadku) na pozytywne i negatywne. Za pomocą SVM udało się stworzyć klasyfikatory dla obu deskryptorów oraz znaleźć sub-optymalne parametry co szczegółowo opisałem w [A2]. Wyniki dla Edge Histogram zostały przedstawione w tabelach 3 i 4, natomiast dla Homogeneous Texture w tabelach 5 i 6. Tablica 3: Detekcja noża - klasyfikacja za pomocą SVM dla deskryptora Edge Histogram. Positive. Negative. True. 81,18%. 94,93%. False. 5,07%. 18,82%. Tablica 4: Detekcja noża - klasyfikacja za pomocą SVM dla deskryptora Edge Histogram. Sensitivity. 81,18%. Specificity. 94,93%. Tablica 5: Detekcja noża - klasyfikacja za pomocą SVM dla deskryptora Homogeneous Texture. Positive. Negative. True. 52,95%. 93,00%. False. 7,00%. 47,05%. Tablica 6: Detekcja noża - klasyfikacja za pomocą SVM dla deskryptora Homogeneous Texture. Sensitivity. 52,95%. Specificity. 93,00%. Przeprowadzone badania wykazały wyższość metody opartej na SVM względem tej bazującej na klasteryzacji za pomocą algorytmu FCM. Skuteczność rozwiązania opartego o algorytm maszyny wektorów nośnych jest wyższa (zazwyczaj o kilka procent) w każdym badanym aspekcie. Dodatkowo SVM pozwolił na użycie obu deskryptorów, co nie było możliwe w przypadku klasteryzacji. Nie bez znaczenia jest również fakt, że z praktycznego punktu widzenia SVM jest znacznie łatwiejszy w użyciu ze względu na dostępność implementacji w wielu językach programowania.. 1.4.3. Rozpoznawanie marki i modelu pojazdu Istotnym obszarem działania z punktu widzenia automatyzacji monitoringu wizyjnego są drogi. Poruszające pojazdy znajdują się w obszarze zainteresowania operatora monitoringu z uwagi na możliwość wystąpienia zdarzeń niebezpiecznych w obrębie jezdni. w związku z tym każdy pojazd powinien być identyfikowalny za pomocą widocznej tablicy rejestracyjnej,.

(14) 11. Zbiór referencyjny (RD). Obraz testowy (QI). Obliczanie deskryptorów dla RD. Obliczanie deskryptorów dla QI. Zestaw deskryptorów dla RD. Obliczanie odległości między RD-QI. Wybór deskryptorów i metryk dla RD. Użycie metryk i wag. Najlepiej dopasowana klasa z RD. FAZA TRENOWANIA. FAZA TESTOWANIA. Rysunek 4: Diagram przedstawiający działanie algorytmu rozpoznawania marki i modelu pojazdu.. metody rozpoznawania tablic rejestracyjnych są znane i działają z wysoką skutecznością (np. [36, 37]). Zdarzają się jednak sytuacje w których tablica jest niewidoczna lub numer rejestracyjny nie jest znany (np. z relacji świadka). Zdarza się, że znany jest kolor lub model i markę pojazdu, korzystając z tych informacji można starać się wyszukiwać pojazd korzystając z nagrań monitoringu. w mojej pracy przyjrzałem się problemowi rozpoznawania modelu i marki pojazdu na podstawie przodu samochodu. Z naukowego punktu widzenia problem rozpoznawania obiektów wizyjnych jakimi są samochody jest znany. Można wytypować kilka typów rozwiązań bazujących na klasyfikacji cech obrazu. w celu dokonania klasyfikacji używane są między innymi takie metody jak: analiza dyskryminacyjna[38], interpolacja wielowymiarowa[39], metody oparte o twierdzeniu Bayesa[40], maszyny wektorów nośnych[41, 42], sieci neuronowe[43, 44], zbiory rozmyte[45] i algorytmy genetyczne[46]. Z uwagi na specyfikę działania monitoringu wizyjnego, gdzie pojazdy mogą się szybko poruszać i być relatywnie małe zdecydowałem dokonywać rozpoznawania na podstawie wizerunku przodu samochodu. Dzięki takiemu podejściu z kamery monitoringu można łatwo uzyskać wystarczającej jakości obraz i poddać go analizie. Zaprojektowany przeze mnie algorytm[A3] bazuje na kilku krokach, zgodnie z diagramem 4. Na początku działania dla całego zbioru referencyjnego, którym jest baza 2499 zdjęć pogrupowanym w 17 kategorii (rys. 5), obliczane są wektory cech. Dla każdego zdjęcia obliczane są wartości deskryptorów Edge Histogram, SIFT[47] i SURF[48]. Zestaw wektorów cech dla każdego obrazu tworzy bazę referencyjną z którą porównywane są deskryptory obliczone dla obrazu testowego. Dla zbioru referencyjnego obliczone deskryptory służą do wyboru najlepszych metryk i wag. W fazie testowej na ich podstawie bazując na wyliczonej odległości określana zostaje klasa, której obiekty są najbardziej podobne do obrazu testowego..

(15) 12. Rysunek 5: Przykładowa zawartość zbioru referencyjnego.. Obrazy testowe i referencyjne dla których obliczane są wartości wektorów cech zostały wycięte z oryginalnych klatek za pomocą wytrenowanego w tym celu klasyfikatora Haar’a. Klasyfikator miał za zadanie wykryć przód pojazdu, tak jak pokazano na rysunku 6. Zastosowanie automatycznego klasyfikatora pozwoliło na automatyzację procesu pozyskiwania próbek i może być częścią kompleksowego rozwiązania.. Rysunek 6: Przykład detekcji przodu pojazdu. W celu znalezienia jak najlepszego dopasowania obrazu testowego jednocześnie porównywane są wektory cech wszystkich trzech deskryptorów. Wyniki zbierane są w formie rankingu i łączone w celu określenia jednej, najlepiej dopasowanej klasy zdjęć ze zbioru referencyjnego. w zależności od przyjętych wag dla poszczególnych deskryptorów oraz używanej metryki uzyskałem różne wyniki, przedstawione w tabeli 7. Globalnie najlepszy wynik został uzyskany dla metryki bazującej na sumie odwrotności odległości pomiędzy obrazem testowym, a referencyjnymi..

(16) 13. Tablica 7: Wyniki klasyfikacji obrazów w przypadku łączenia wyników dla wszystkich deskryptorów z wagami. Wagi Edge Histogram SIFT 1 0,6 0,7 0,6. 1 0,7 0,8 0,6. SURF. M1. Metryki M2. 1 0,5 0,5 0,8. 0,913 0,946 0,937 0,918. 0,939 0,951 0,972 0,945. M3 0,840 0,832 0,822 0,881. 1.4.4. Zapisanie metadanych w obrazie Systemy inteligentnego monitoringu produkują dużą ilość informacji o przetwarzanym obrazie. Dane, w postaci metadanych, są wynikiem pracy działania całego systemu. Metadane przechowują informacje, które są użyteczne dla użytkowników systemu. Część z nich jest także niezbędna do poprawnej analizy offline zarejestrowanego materiału. Metadane mogą przechowywać dowolny rodzaj danych, od informacji o samym obrazie, przez wyniki analizy, po zabezpieczenie obrazu w sposób cyfrowy[49]. Zazwyczaj metadane zapisywane są w sposób hierarchiczny, ułatwiający proces wyszukiwania. Istnieje kilkanaście standardów zapisu metadanych w zależności od rodzaju opisywanych zasobów. w przypadku systemów monitoringu nie istnieje ujednolicony standard opisu metadanych. Często stosuje się rozwiązania z branży wideo (m.in. MPEG-7[50], Dublin Core[51]). Należy także wspomnieć o tworzonym od 2008 roku standardzie ONVIF[52] do komunikacji pomiędzy kamerami IP, który ma duże szanse na szerokie wykorzystanie. Z naukowego punktu widzenia ciekawym podejściem jest wykorzystanie techniki cyfrowych znaków wodnych w celu zapisu metadanych bezpośrednio w obrazie. Takie podejście gwarantuje brak separacji metadanych z opisywanymi zasobami oraz może stanowić dodatkowe zabezpieczenie potwierdzające autentyczność materiału. Wykorzystanie tej techniki powoduje wzrost skomplikowania algorytmów i potrzebę zabezpieczenia dodatkowych zasobów obliczeniowych na zapis i odczyt metadanych. Mimo to w przypadku systemów bezpieczeństwa często zalety biorą górę nad wadami, a ich negatywny wpływ jest minimalizowany przez stosowanie jedynie dla wybranych klatek nagrań. Przed umieszczeniem metadanych w obrazie w postaci cyfrowego znaku wodnego niezbędne jest dokonanie binaryzacji danych tekstowych. Jednym ze sposobów binaryzacji jest opisana w standardzie metoda Binary-in-Mpeg[50]. Pozwala ona na uzyskanie wysokiego stopnia kompresji danych przy ograniczeniu się do metadanych zawartych w standardzie MPEG-7. Ponadto wciąż pozwala na dowolne rozszerzenie standardu o nowe typy danych, co jednak skutkuje zmniejszenie współczynnika kompresji[B6]. Zapisany w obrazie znak wodny powinien być możliwie odporny na podstawowe modyfikacje obrazu (kompresję JPEG, zmianę rozmiaru). w ramach pracy badawczej przetestowałem empirycznie możliwość zapisu danych w obrazie w ilości odpowiadającej przykładowej informacji zapisanej jako metadane. Dla uproszczenia przyjąłem wielkość obrazu 512 na 512 pikseli oraz 800 bitową wiadomość. Obrazy pochodziły z ogólnodostępnej bazy BOWS2[54]. Do przetestowania wybrałem algorytm correlation-aware improved spread spectrum(CAISS)[55]. Ulepsza on tradycyjne podejście systemów z rozproszonym widmem przez wprowadzenie dodatkowych modyfikacji zapisanego sygnału. CAISS jest połączeniem algorytmów Correlation-aware spread spectrum(CASS)[55] i Improved Spread Spectrum (ISS)[56]. CASS.

(17) 14. zakłada dwa poziomy amplitudy dla wprowadzanego sygnału w zależności od korelacji pomiędzy sygnałem nośnym i informacyjnym. w przypadku gdy współczynnik korelacji jest zgodny z zapisywanym bitem b ∈ {−1, +1} stosowana jest mniejsza siła sygnału. ISS wprowadza dodatkowy parametr λ, który moduluje siłą sygnału. Parametr λ jest obliczany na bazie długości zapisywanej wiadomości i przeciwdziała interferencji pomiędzy sygnałem nośnym, a informacyjnym. Przeprowadzony przeze mnie eksperyment polegał na sprawdzeniu działania algorytmu CAISS przy użyciu współczynników dyskretnej transformaty kosinusowej (DCT) jako sygnały nośnego dla znaku wodnego. Sprawdziłem także podatność znaku wodnego na podstawowe modyfikacje obrazu. Przy zachowaniu zadowalającej jakości obrazu sygnał informacyjny był zapisywany na tyle mocno, aby przetrwać w obrazie i być możliwym do odczytania przy małej (poniżej 0.01) ilości błędów[A4]. Eksperyment dowiódł, że jest możliwe zastosowanie tego algorytmu w celu zapisu metadanych w obrazie, na przykład w systemie monitoringu wizyjnego.. 1.4.5. Aspekty innowacyjności w prezentowanych rozwiązaniach Przedstawione w doktoracie autorskie rozwiązania zawierają aspekty innowacyjności. Każdy z algorytmów posiada wartość dodaną, która poprawia jego efektywność. w ramach prac poprawie uległy różne parametry rozwiązań takie jak: skuteczność rozwiązania, czas przetwarzania, łatwość implementacji. w tabeli 8 zebrałem najważniejsze elementy innowacji proponowanych metod skonfrontowanych z dotychczasowym stanem wiedzy. Tablica 8: Zestawienie aktualnego stanu wiedzy z aspektami innowacjami proponowanymi w pracy doktorskiej. Dotychczasowy stan wiedzy. Proponowane rozwiązanie. Wiele opisywanych w literaturze algoryt- W pracy zaproponowano optymalizację almów detekcji twarzy stosuje klasyfikatory gorytmu stosując algorytm genetyczny poHaar’a[19, 20]. wodujący wzrost skuteczności oraz możliwość parametryzacji[A5]. Do analizy obrazu i detekcji obiektu stosuje się z reguły jeden klasyfikator[12, 20, 25].. Opracowano metody zastosowania wielu równolegle działających klasyfikatorów oraz łączenia ich wyników[A5]. Wprowadzono przetwarzanie dwuetapowe w celu polepszenia skuteczności detekcji i skrócenia czasu przetwarzania[A6].. Obiekty o specyficznych kształtach (np. nóż) Opracowano algorytm identyfikacji wykosą identyfikowane na podstawie ekstrakcji kra- rzystujący deskryptory wizyjne niezależne wędzi i analizy kształtu[25, 57]. od kształtu do opisu obiektów[A1, A2]. Zastosowano deskryptory pochodzące ze standardu MPEG-7 oraz przetestowano szereg alternatywnych rozwiązań..

(18) 15. W celu detekcji obiektu typu nóż zastosowano metody statystyczne[25].. Zaproponowano wykorzystanie klasteryzacji na zbiorach rozmytych[A1] i metod uczenia maszynowego[A2] w celu detekcji obiektów. Zaproponowane metody dają lepsze wyniki niż opisane w literaturze.. Przy analizie obiektu służącej do jego detekcji Opracowano efektywny sposób rozpoznastosuje się na ogół jeden klasyfikator dedyko- wania obiektów (na przykładzie marki i mowany do konkretnego typu obiektu. delu pojazdu) uwzględniający wiele klasyfikatorów oraz możliwość parametryzacji w celu dostosowania do dowolnego scenariusza użycia[A3]. W literaturze weryfikacja skuteczności opisywanych algorytmów przeprowadzona jest zazwyczaj na niewielkich zbiorach danych (obrazów).. Przetestowano algorytmy na dużych zbiorach obrazów, liczących ponad 1000 zdjęć (w przypadku noży ponad 10000) pozyskanych w warunkach rzeczywistych. Zastosowano mechanizm walidacji krzyżowej celu potwierdzenia wiarygodności otrzymanych wyników.. Dostęp do metadanych w systemach monitoringu wizyjnego odbywa się za pomocą przesyłu danych tekstowych w separacji z danymi wizyjnymi.. Zaproponowano możliwość zapisu metadanych bezpośrednio w obrazie. Dzięki temu brak jest separacji pomiędzy danymi wizyjnymi, a tekstowymi oraz zwiększa się bezpieczeństwo przechowywanych danych[A4].. 1.5. Podsumowanie Autoreferat zawiera przegląd opracowanych przeze mnie algorytmów, które mogą znaleźć zastosowanie w systemach inteligentnego monitoringu wizyjnego. Rozwiązania te łączą się ze sobą i mogą zostać wykorzystywane jako następujące po sobie etapy analizy w systemach inteligentnego monitoringu zagrożeń. w pracy zasugerowałem możliwy przepływ danych podczas przetwarzania obrazu pochodzącego z nagrań monitoringu w postaci części systemu modułowego. Najważniejszym wynikiem rozprawy jest zaproponowanie rozwiązań identyfikacji obiektów przy użyciu różnych typów klasyfikatorów. w każdym rozważanym scenariuszu użycia dokonałem testowej walidacji rozwiązania. Dodatkowo przedstawiłem sposób zapisu metadanych, który może być użyty w systemach monitoringu bazujący na technice cyfrowego znaku wodnego. Algorytmy zostały szczegółowo opisane w kilku publikacjach naukowych. W każdym z rozwiązań szczególny nacisk położyłem na aspekt praktyczny, starając się, aby możliwe było jego zastosowanie w systemach działających w rzeczywistości. Starałem się, aby pomimo naukowego charakteru, rozprawa była wartościowa dla osób chcących wdrożyć opisywane metody. Każdy z algorytmów został przetestowany w ramach kilku odrębnych scenariuszy użycia. Należy zaznaczyć, że przykładowe zastosowania algorytmów opisane w pracy nie wyczerpują możliwości użycia ich w innych aplikacjach. Stanowią natomiast potwierdzenie efektywno-.

(19) 16. ści przedstawionych rozwiązań. Otrzymane wyniki dają podstawę do kontynuacji badań, rozwinięcia istniejących oraz stworzenia nowych metod analizy i przetwarzania obrazu aplikowalnych w kontekście monitoringu wizyjnego. Warto zaznaczyć, że część opisywanych rozwiązań zostało stworzonych w ramach krajowych i międzynarodowych projektów badawczo-rozwojowych. Mają one duży potencjał na wdrożenie w tworzonych systemach monitoringu wizyjnego i bezpieczeństwa. Zaprezentowane algorytmy stały się częścią prototypowego systemu INPROT, który został uhonorowany złotym medalem na 113. Międzynarodowych Targach Wynalazczości „Concours Lépine”, 30.04 - 11.05 2014 r. w Paryżu oraz srebrnym medalem za innowacje na 2015 Kaohsiung International Invention and Design EXPO, 4.12 - 6.12 2015 r., Kaohsiung, Taiwan..

(20) 17. 1.6. Lista moich publikacji [A1] Andrzej Matiolański, Aleksandra Maksimova, and Andrzej Dziech. CCTV object detection with fuzzy classification and image enhancement. Multimedia Tools and Applications, pages 1–16, 2015 [A2] Michał Grega, Andrzej Matiolanski, Piotr Guzik, and Mikołaj Leszczuk. Automated detection of firearms and knives in the CCTV image. Sensors, 74(12):4437–4451, 2015 [A3] Remigiusz Baran, Andrzej Glowacz, and Andrzej Matiolanski. The efficient real- and non-real-time make and model recognition of cars. Multimedia Tools and Applications, 74(12):4269–4288, 2015 [A4] Piotr Guzik, Andrzej Matiolanski, and Andrzej Dziech. Real data performance evaluation of CAISS watermarking scheme. Multimedia Tools and Applications, 74(12):4437–4451, 2015 [A5] Andrzej Matiolański and Piotr Guzik. Automated optimization of object detection classifier using genetic algorithm. In Andrzej Dziech and Andrzej Czyżewski, editors, Multimedia Communications, Services and Security, volume 149 of Communications in Computer and Information Science, pages 158–164. Springer Berlin Heidelberg, 2011 [A6] Piotr Boryło, Andrzej Matiolański, and TomaszM. Orzechowski. Face occurrence verification using haar cascades - comparison of two approaches. In Andrzej Dziech and Andrzej Czyżewski, editors, Multimedia Communications, Services and Security, volume 149 of Communications in Computer and Information Science, pages 301–309. Springer Berlin Heidelberg, 2011 [B1] Piotr Guzik, Andrzej Matiolański, Tomasz M. Orzechowski, and Andrzej Dziech. Evaluation of parameters for haar-like features based face detection algorithm. In Andrzej Dziech, editor, Pattern Recognition and Information Processing, pages 96–98, 2011 [B2] Marek Żywicki, Andrzej Matiolański, Tomasz M. Orzechowski, and Andrzej Dziech. Evaluation of parameters for haar-like features based face detection algorithm. In Andrzej Dziech, editor, Pattern Recognition and Information Processing, pages 96–98, 2011 [B3] T.M. Orzechowski, A. Dziech, and A. Matiolanski. Framework for integration of police repositories. In Control and Communications (SIBCON), 2011 International Siberian Conference on, pages 47–50, Sept 2011 [B4] Andrzej Dziech, Jaroslaw Bialas, Andrzej Glowacz, Pawel Korus, Mikolaj Leszczuk, Andrzej Matiolanski, and Remigiusz Baran. Overview of recent advances in cctv processing chain in the indect and insigma projects. In Proceedings of the 2013 International Conference on Availability, Reliability and Security, ARES ’13, pages 836–843, Washington, DC, USA, 2013. IEEE Computer Society [B5] Aleksandra Maksimova, Andrzej Matiolański, and Jakob Wassermann. Fuzzy classification method for knife detection problem. In Andrzej Dziech and Andrzej Czyżewski,.

(21) editors, Multimedia Communications, Services and Security, volume 429 of Communications in Computer and Information Science, pages 159–169. Springer International Publishing, 2014 [B6] Andrzej Matiolański. Preparation of meta-data for the storage in the form of digital watermarks. In Andrzej Dziech, editor, Multimedia Communications, Services and Security, pages 167–170, 2010. 1.7. Bibliografia (wszystkie cytowane) [1] Andrzej Matiolański, Aleksandra Maksimova, and Andrzej Dziech. CCTV object detection with fuzzy classification and image enhancement. Multimedia Tools and Applications, pages 1–16, 2015. [2] Michał Grega, Andrzej Matiolanski, Piotr Guzik, and Mikołaj Leszczuk. Automated detection of firearms and knives in the CCTV image. Sensors, 74(12):4437–4451, 2015. [3] Remigiusz Baran, Andrzej Glowacz, and Andrzej Matiolanski. The efficient real- and non-real-time make and model recognition of cars. Multimedia Tools and Applications, 74(12):4269–4288, 2015. [4] Piotr Guzik, Andrzej Matiolanski, and Andrzej Dziech. Real data performance evaluation of CAISS watermarking scheme. Multimedia Tools and Applications, 74(12):4437– 4451, 2015. [5] Andrzej Matiolański and Piotr Guzik. Automated optimization of object detection classifier using genetic algorithm. In Andrzej Dziech and Andrzej Czyżewski, editors, Multimedia Communications, Services and Security, volume 149 of Communications in Computer and Information Science, pages 158–164. Springer Berlin Heidelberg, 2011. [6] Piotr Boryło, Andrzej Matiolański, and TomaszM. Orzechowski. Face occurrence verification using haar cascades - comparison of two approaches. In Andrzej Dziech and Andrzej Czyżewski, editors, Multimedia Communications, Services and Security, volume 149 of Communications in Computer and Information Science, pages 301–309. Springer Berlin Heidelberg, 2011. [7] Cavallaro Andrea. Privacy in video surveillance. IEEE Signal Processing Magazine, 24(2):166–168, 2007. [8] Monitoring miejski w warszawie. http://bezpieczna.um.warszawa.pl/ bezpieczenstwo-publiczne/monitoring-miejski. Accessed: 2016-01-30..

(22) 1.7. BIBLIOGRAFIA (WSZYSTKIE CYTOWANE). 19. [9] T.M. Orzechowski, A. Dziech, and A. Matiolanski. Framework for integration of police repositories. In Control and Communications (SIBCON), 2011 International Siberian Conference on, pages 47–50, Sept 2011. [10] Andrzej Dziech, Jaroslaw Bialas, Andrzej Glowacz, Pawel Korus, Mikolaj Leszczuk, Andrzej Matiolanski, and Remigiusz Baran. Overview of recent advances in cctv processing chain in the indect and insigma projects. In Proceedings of the 2013 International Conference on Availability, Reliability and Security, ARES ’13, pages 836–843, Washington, DC, USA, 2013. IEEE Computer Society. [11] Pamela McGhee and Peter McAliney. Painless Project Management: A Step-by-Step Guide for Planning, Executing and Managing Projects. John Wiley & Sons, Inc., New York, NY, USA, 2007. [12] A. Hadid, M. Pietikainen, and B. Martinkauppi. Color-based face detection using skin locus model and hierarchical filtering. In Pattern Recognition, 2002. Proceedings. 16th International Conference on, volume 4, pages 196–200 vol.4, 2002. [13] C. Garcia and G. Tziritas. Face detection using quantized skin color regions merging and wavelet packet analysis. IEEE Transactions on Multimedia, 1(3):264–277, Sep 1999. [14] Karin Sobottka and Ioannis Pitas. Segmentation and tracking of faces in color images. In In Proc. of the Second Intl. Conf. on Automatic Face and Gesture Recognition, pages 236–241, 1996. [15] Karin Sobottka and Ioannis Pitas. Extraction of facial regions and features using color and shape information. In in Proceedings of the International Conference Of Pattern Recognition (ICPR ’96, pages 421–425, 1996. [16] Y. J. Chen and Y. C. Lin. Simple face-detection algorithm based on minimum facial features. In Industrial Electronics Society, 2007. IECON 2007. 33rd Annual Conference of the IEEE, pages 455–460, Nov 2007. [17] C. C. Tsai, W. C. Cheng, J. S. Taur, and C. W. Tao. Face detection using eigenface and neural network. In Systems, Man and Cybernetics, 2006. SMC ’06. IEEE International Conference on, volume 5, pages 4343–4347, Oct 2006. [18] Z. Bojkovic and A. Samcovic. Face detection approach in neural network based method for video surveillance. In Neural Network Applications in Electrical Engineering, 2006. NEUREL 2006. 8th Seminar on, pages 44–47, Sept 2006. [19] Paul Viola and Michael J. Jones. Robust real-time face detection. Int. J. Comput. Vision, 57(2):137–154, May 2004. [20] P. Viola and M. Jones. Rapid object detection using a boosted cascade of simple features. In Computer Vision and Pattern Recognition, 2001. CVPR 2001. Proceedings of the 2001 IEEE Computer Society Conference on, volume 1, pages I–511–I–518 vol.1, 2001..

(23) 1.7. BIBLIOGRAFIA (WSZYSTKIE CYTOWANE). 20. [21] Piotr Guzik, Andrzej Matiolański, Tomasz M. Orzechowski, and Andrzej Dziech. Evaluation of parameters for haar-like features based face detection algorithm. In Andrzej Dziech, editor, Pattern Recognition and Information Processing, pages 96–98, 2011. [22] Paul Viola and Michael J. Jones. Robust real-time face detection. International Journal of Computer Vision, 57(2):137–154. [23] Cmu/vasc face database. http://vasc.ri.cmu.edu/idb/html/face/frontal_ images/. Accessed: 2016-01-30. [24] Hannah M. Dee and Sergio A. Velastin. How close are we to solving the problem of automated visual surveillance? Machine Vision and Applications, 19(5):329–343, 2007. [25] Andrzej Glowacz, Marcin Kmieć, and Andrzej Dziech. Visual detection of knives in security applications using active appearance models. Multimedia Tools Appl., 74(12):4253–4267, June 2015. [26] I. Darker, A. Gale, L. Ward, and A. Blechko. Can cctv reliably detect gun crime? In Security Technology, 2007 41st Annual IEEE International Carnahan Conference on, pages 264–271, Oct 2007. [27] Hugo Barros and Augusto Neto. Fisver: A framework for smart public safety in videosurveilled vehicles. In 3rd Internation Workshop on ADVANCEs in ICT Infrastructures and Services, Miami. [28] Aleksandra Maksimova, Andrzej Matiolański, and Jakob Wassermann. Fuzzy classification method for knife detection problem. In Andrzej Dziech and Andrzej Czyżewski, editors, Multimedia Communications, Services and Security, volume 429 of Communications in Computer and Information Science, pages 159–169. Springer International Publishing, 2014. [29] Knife image database. http://kt.agh.edu.pl/~matiolanski/ KnivesImagesDatabase/. Accessed: 2016-01-30. [30] Marek Żywicki, Andrzej Matiolański, Tomasz M. Orzechowski, and Andrzej Dziech. Evaluation of parameters for haar-like features based face detection algorithm. In Andrzej Dziech, editor, Pattern Recognition and Information Processing, pages 96–98, 2011. [31] Dong Kwon Park, Yoon Seok Jeon, and Chee Sun Won. Efficient use of local edge histogram descriptor. In Proceedings of the 2000 ACM Workshops on Multimedia, MULTIMEDIA ’00, pages 51–54, New York, NY, USA, 2000. ACM. [32] Yong Man Ro, Munchurl Kim, Ho Kyung Kang, and B. S. Manjunath. Mpeg-7 homogeneous texture descriptor. ETRI Journal, 23:41–51. [33] J. C. Dunn. A Fuzzy Relative of the ISODATA Process and Its Use in Detecting Compact Well-Separated Clusters. Journal of Cybernetics, 3(3):32–57, January 1973. [34] James C. Bezdek. Pattern Recognition with Fuzzy Objective Function Algorithms. Kluwer Academic Publishers, Norwell, MA, USA, 1981..

(24) 1.7. BIBLIOGRAFIA (WSZYSTKIE CYTOWANE). 21. [35] Corinna Cortes and Vladimir Vapnik. Support-vector networks. Machine Learning, 20(3):273–297, 1995. [36] Yujie Liu and He Huang. Car plate character recognition using a convolutional neural network with shared hidden layers. In Chinese Automation Congress (CAC), 2015, pages 638–643, Nov 2015. [37] P. Liu, G. Li, and D. Tu. Low-quality license plate character recognition based on cnn. In 2015 8th International Symposium on Computational Intelligence and Design (ISCID), volume 2, pages 53–58, Dec 2015. [38] McLachlan G. J. Discriminant Analysis and Statistical Pattern Recognition. John Wiley & Sons, 1992. [39] M. Gasca and T. Sauer. On the history of multivariate polynomial interpolation. Journal of Computational and Applied Mathematics, 122(1-2):23–35, 2000. [40] G. Ritter and M. T. Gallegos. A bayesian approach to object identification in pattern recognition. In Pattern Recognition, 2000. Proceedings. 15th International Conference on, volume 2, pages 418–421 vol.2, 2000. [41] Nishat Ahmad, Youngeun An, and Jongan Park. An intrinsic semantic framework for recognizing image objects. Multimedia Tools and Applications, 57:423–438, 2012. [42] M. Farhan, G. Kassem, M. Abdullah, and S. Akbar. Support vector machine classifier for pattern recognition. In Informatics and Computational Intelligence (ICI), 2011 First International Conference on, pages 272–277, Dec 2011. [43] F. Khan and A. Cervantes. Real time object recognition for teaching neural networks. In Frontiers in Education Conference, 1999. FIE ’99. 29th Annual, volume 1, pages 11B3/1–11B3/7 vol.1, Nov 1999. [44] M. M. Khedkar and S. A. Ladhake. Neural network based iris pattern recognition system using discrete walsh hadamard transform features. In Advances in Computing, Communications and Informatics (ICACCI), 2013 International Conference on, pages 388–393, Aug 2013. [45] S. Yufeng and J. Fengxiang. Fuzzy object recognition based on fuzzy relative entropy. In Education Technology and Computer Science, 2009. ETCS ’09. First International Workshop on, volume 3, pages 899–903, March 2009. [46] G. Lee, R. Mallipeddi, G. J. Jang, and M. Lee. A genetic algorithm-based moving object detection for real-time traffic surveillance. IEEE Signal Processing Letters, 22(10):1619–1622, Oct 2015. [47] David G. Lowe. Object recognition from local scale-invariant features. In Proceedings of the International Conference on Computer Vision-Volume 2 - Volume 2, ICCV ’99, pages 1150–, Washington, DC, USA, 1999. IEEE Computer Society. [48] Herbert Bay, Andreas Ess, Tinne Tuytelaars, and Luc Van Gool. Speeded-up robust features (surf). Comput. Vis. Image Underst., 110(3):346–359, June 2008..

(25) 1.7. BIBLIOGRAFIA (WSZYSTKIE CYTOWANE). 22. [49] Z. Liu, S. Lian, Yuan Dong, and Haila Wang. Desynchronized image fingerprint for large scale distribution. In 2008 15th IEEE International Conference on Image Processing, pages 409–412, Oct 2008. [50] Shih-Fu Chang, T. Sikora, and A. Purl. Overview of the mpeg-7 standard. IEEE Transactions on Circuits and Systems for Video Technology, 11(6):688–695, Jun 2001. [51] Dublin core reference. http://dublincore.org/documents/dces/. Accessed: 201601-30. [52] Onvif standard. http://www.onvif.org/. Accessed: 2016-01-30. [53] Andrzej Matiolański. Preparation of meta-data for the storage in the form of digital watermarks. In Andrzej Dziech, editor, Multimedia Communications, Services and Security, pages 167–170, 2010. [54] Bows2 image database. http://bows2.ec-lille.fr/. Accessed: 2016-01-30. [55] A. Valizadeh and Z. J. Wang. Correlation-and-bit-aware spread spectrum embedding for data hiding. Trans. Info. For. Sec., 6(2):267–282, June 2011. [56] H.S. Malvar and D.A.F. Florencio. Improved spread spectrum: A new modulation technique for robust watermarking. Trans. Sig. Proc., 51(4):898–905, April 2003. [57] Marcin Kmiec and Andrzej Glowacz. An approach to robust visual knife detection. MG&V, 20(2):215–227, February 2011..

(26) 2. Zbiór publikacji W tym rozdziale prezentuję spójny tematycznie zbiór artykułów, który stanowi zasadniczą część rozprawy doktorskiej. Rozdział zawiera przedruki artykułów, przedstawione w oryginalnej formie opublikowanej w czasopismach naukowych. Większość czasopism z których pochodzą publikacje znajduje się na liście filadelfijskiej (Journal Citation Reports, JCR). W tabeli 9 przedstawiam zestawienie mojego procentowego udziału w publikowanych artykułach na podstawie oświadczeń współautorów. Oświadczenia współautorów zostały dołączone na końcu rozdziału, w takiej samej kolejności w jakiej prezentowane są artykuły ze zbioru. Tablica 9: Procentowy udział w poszczególnych publikacjach naukowych należących do zbioru. Artykuł (dane bibliograficzne). Udział procentowy. Andrzej Matiolański, Aleksandra Maksimova, and Andrzej Dziech. CCTV object detection with fuzzy classification and image enhancement. Multimedia Tools and Applications, pages 1–16, 2015, Impact Factor czasopisma: 1,346, liczba punktów MNiSW: 30 pkt.. 80%. Michał Grega, Andrzej Matiolanski, Piotr Guzik, and Mikołaj Leszczuk. Automated detection of firearms and knives in the CCTV image. Sensors, 74(12):4437–4451, 2015, Impact Factor czasopisma: 2,474, liczba punktów MNiSW: 30 pkt.. 35%. Remigiusz Baran, Andrzej Glowacz, and Andrzej Matiolanski. The efficient real- and non-real-time make and model recognition of cars. Multimedia Tools and Applications, 74(12):4269–4288, 2015, Impact Factor czasopisma: 1,346, liczba punktów MNiSW: 30 pkt.. 30%. Piotr Guzik, Andrzej Matiolanski, and Andrzej Dziech. Real data performance evaluation of CAISS watermarking scheme. Multimedia Tools and Applications, 74(12):4437–4451, 2015, Impact Factor czasopisma: 1,346, liczba punktów MNiSW: 30 pkt.. 30%.

(27) 24. 1.7. BIBLIOGRAFIA (WSZYSTKIE CYTOWANE). Andrzej Matiolański and Piotr Guzik. Automated optimization of object detection classifier using genetic algorithm. In Andrzej Dziech and Andrzej Czyżewski, editors, Multimedia Communications, Services and Security, volume 149 of Communications in Computer and Information Science, pages 158–164. Springer Berlin Heidelberg, 2011, liczba punktów MNiSW: 10 pkt (publikacja indeksowana w Web of Science).. 80%. Piotr Boryło, Andrzej Matiolański, and TomaszM. Orzechowski. Face occurrence verification using haar cascades - comparison of two approaches. In Andrzej Dziech and Andrzej Czyżewski, editors, Multimedia Communications, Services and Security, volume 149 of Communications in Computer and Information Science, pages 301–309. Springer Berlin Heidelberg, 2011, liczba punktów MNiSW: 10 pkt (publikacja indeksowana w Web of Science).. 70%.

(28)