Rozpoznawanie wzorców
Dr inż. Michał Bereta
p. 144 / 10, Instytut Informatyki
mbereta@pk.edu.pl
beretam@torus.uck.pk.edu.pl
www.michalbereta.pl
Metoda PCA
Analiza składników głównych PCA (ang. Principal Component Analysis) jest metodą statystyczną, określającą przekształcenie liniowe
przekształcajace opis stacjonarnego procesu stochastycznego opisanego za pomocą wektora
w wektor
za pośrednictwem macierzy
w ten sposób, że przestrzeo wyjściowa o zredukowanym wymiarze zachowuje najważniejsze informacje o procesie.
Metoda PCA
•Wzajemnie skorelowane składniki zostają zamienione w
składniki nieskorelowane uszeregowane według ich ważności.
•Jest to zatem forma kompresji stratnej i jest znana w teorii
komunikacji jako przekształcenie Karhunena-Loevego.
Metoda PCA
Jeśli x jest wektorem losowym o zerowej wartości średniej to przez
rozumiemy wartośd średnią (oczekiwaną) macierzy autokorelacji po wszystkich wektorach x .
Wi oznacza ortogonalne wektory własne stowarzyszone z wartościami własnymi macierzy tzn.
Metoda PCA
Jeśli uszeregujemy wartości własne w kolejności malejącej i ograniczymy się jedynie do K największych, możemy stworzyd macierz W stworzoną z K wektorów stowarzyszonych z danymi wartościami własnymi.
Zachowamy w ten sposób najważniejszą częśd informacji. Przekształcenie PCA jest wtedy określone przez macierz W jako
Metoda PCA
Wartośd funkcji błędu
osiąga minimum, gdy wiersze W są złożone z pierwszych K wektorów własnych macierzy
Otrzymujemy wówczas następujące zależności:
Macierz korelacji wektorów y jest równa
Oznacza to, że wszystkie składniki wektora y są nieskorelowane, z wariancjami równymi wartościom własnym
Metoda PCA
Przekształcenie PCA określa zbiór wektorów ortogonalnych, które mają największy wkład w wariancję wektorów wejściowych.
Celem tego przekształcenia jest określenie kierunków Wi , zwanych głównymi wektorami własnymi, w taki sposób, by maksymalizowad wyrażenie
Metoda PCA
PCA i rozpoznawanie twarzy za pomocą wartości własnych
1. Opisana metoda może byd użyta w celu uchwycenia wariancji w zbiorze obrazów twarzy.
2. Każdy obraz może byd traktowany jako wektor (punkt) w przestrzeni o bardzo dużym wymiarze równym liczbie pikseli w danym obrazie.
3. Mając zbiór danych uczących (przykładowych obrazów twarzy) można stworzyd średnią macierz autokorelacji tych wektorów i wyliczyd jej wektory własne, jak zostało to opisane wcześniej.
4. Otrzymane w ten sposób wektory własne mają oczywiście ten sam wymiar, co dane wejściowe tj. wektory utworzone bezpośrednio z obrazów na podstawie wartości ich pikseli.
Metoda PCA
1. Każdy taki wektor własny przyczynia się do opisu wariancji w zbiorze przykładowych obrazów.
2. Każdy obraz ze zbioru uczącego przyczynia się w różnym stopniu do wartości każdego wektora własnego, a różny ich udział w tworzeniu różnych wektorów własnych może byd wykorzystany w celu ich opisu, odpowiedniego do zadania rozpoznania.
Metoda PCA
1. Wektory własne wyliczone w ten sposób tworzą nowy układ współrzędnych w przestrzeni początkowej, w której każdy wektor własny opisuje jedną oś tego nowego układu.
2. Zatem każda twarz określona początkowo jako wielowymiarowy wektor wartości pikseli może zostad zrzutowana na te osie i wyrażona jako liniowa kombinacja tych wektorów własnych.
3. Wektory własne tworzą zbiór obrazów bazowych i zwane są one eigenfaces (od angielskich słów eigenvalues i eigenvectors).
4. Każda twarz może byd również zrzutowana jedynie na najlepsze obrazy bazowe, czyli takie kierunki, które wyznaczone są przez wektory własne o największych wartościach własnych stowarzyszonych z nimi.
Metoda PCA
1. W przestrzeni wejściowej zostaje zatem wyznaczona podprzestrzeo, na którą rzutowane są wektory opisujce twarze.
2. Otrzymujemy redukcję wymiarowości, której stopieo zależy od liczby wybranych obrazów bazowych, na które odbywa się rzutowanie.
3. Każdy element nowopowstałego wektora cech określa współczynnik liniowej kombinacji odnoszący się do danego obrazu bazowego.
Metoda PCA
1. Kirby i Sirovich (Kirby, Sirovich, 1987, 1990) jako pierwsi wykorzystali tę technikę w celu efektywnego reprezentowania obrazów twarzy.
2. Używając metody PCA liczyli oni najlepszy układ współrzędnych użyty przez nich do kompresji obrazów, w którym każdy kierunek był wyznaczony przez obraz bazowy, zwany przez nich eigenpicture.
3. Twierdzili oni, że każdy obraz może byd przechowywany jako zbiór małej ilości wag liniowej kombinacji dokonywanej za pomoc pewnego zbioru bazowych obrazów. 4. Wagi takie znajdowane były przez rzutowanie każdego obrazu na każdy obraz
Metoda PCA
1. Turk i Pentland (Turk, M., and Pentland, A., 1991) jako pierwsi zastosowali tę metodę do rozpoznawania twarzy.
2. Zauważyli oni, że jeśli wartości wag opisane powyżej charakteryzują daną twarz w stopniu wystarczającym do jej rekonstrukcji za pomocą obrazów bazowych, to byd może wagi te opisują globalne cechy twarzy, które mogą byd wykorzystane w celu znalezienia cech różniących poszczególne twarze między sobą.
3. Sposób ten okazał się niezwykle skuteczny. Pozostawiając jedynie niewielką liczbę najważniejszych wektorów własnych średniej macierzy autokorelacji wektorów wejściowych, dostaje się przez rzutowanie na te kierunki wektor wag, który jest właśnie poszukiwanym wektorem cech, użytym do rozpoznania. Ma on dużo mniejszy wymiar a jednocześnie zawiera wystarczającą ilośd informacji.
Metoda PCA
Liczenie obrazów bazowych
• Załóżmy, że każdy obraz I( x, y) jest dwuwymiarową tablicą o elementach równych wartościom jasności pikseli.
• Może on byd również opisany jako wektor o wymiarze N2 . Tak wiec obraz o
wymiarach np. 50x50 jest wektorem o wymiarze 2500.
• Zadaniem metody PCA jest znalezienie nowego układu współrzędnych, który najlepiej opisuje rozkład obrazów twarzy w tej wielowymiarowej przestrzeni. • Każda twarz zostaje opisana w nowym układzie współrzędnych poprzez jej
Metoda PCA
Załóżmy, że dysponujemy zbiorem M obrazów twarzy opisanych jako N2 - wymiarowe
wektory
które wykorzystane zostaną do wyliczenia wektorów własnych. Pierwszym krokiem jest obliczenie średniej twarzy
Każda twarz zostaje opisana przez nowy wektor powstały przez odjęcie średniej twarzy
Metoda PCA
Korzystając z tego zbioru wektorów, celem jest znalezienie M ortonormalnych wektorów un , które najlepiej opisują rozkład danych wejściowych. Wektor k-ty uk jest tak dobrany, aby wyrażenie
Metoda PCA
Wektory uk oraz skalary
Metoda PCA
1. W przypadku jednak, gdy wymiar obrazu twarzy równa się np. 50x50, N2 = 2500,
wymiar macierzy symetrycznej C jest równy 2500x2500.
2. Z praktycznego punktu widzenia liczenie wartości i wektorów własnych tak dużej macierzy jest bardzo nieatrakcyjne.
3. Jeśli jednak danych wejściowych jest dużo mniej niż wymiar wejściowej przestrzeni (M<<N), istnieje tylko M-1 znaczących wektorów własnych. Pozostałe
Metoda PCA
Korzystny zatem jest następujący zabieg.
Znajdźmy wektory własne vi macierzy ATA , czyli
Metoda PCA
Stad wynika, że
są szukanymi wektorami macierzy
Konstruujemy zatem macierz
o wymiarach MxM, gdzie
i znajdujemy najpierw M wektorów własnych vi macierzy L .
Metoda PCA
1. Za pomocą tej analizy obliczenia są znacznie zredukowane.
2. Liczenie wektorów własnych macierzy o wymiarach N2 x N2 ( NxN – wymiar obrazu
wejściowego) np. 2500x2500 jest zastąpione liczeniem wektorów własnych macierzy o wymiarach MxM ( M – liczba dostępnych obrazów) np. 30x30.
3. Wyliczone wartości własne pozwalają na uszeregowanie otrzymanych wektorów własnych zgodnie z ich ważnością.
Metoda PCA
1. Użytecznośd tego algorytmu wynika z postaci macierzy L. 2. Po pierwsze, ma ona o wiele niższy wymiar niż macierz C
3. Po drugie jest ona symetryczna i rzeczywista, wiec wektory i wartości własne są również rzeczywiste.
4. W praktyce liczenie wektorów i wartości własnych odbywa się za pomocą
algorytmu QR, gdzie rzeczywista, symetryczna macierz A jest dekomponowana na iloczyn macierzy ortogonalnej Q oraz macierzy górnej trójkątnej R .
5. Algorytm QR jest rzędu O(N3) dla każdej iteracji. Jednak ten sam algorytm jest
rzędu jedynie O (N) dla każdej iteracji dla macierzy trójdiagonalnej. Zatem znaczne przyspieszenie obliczeo może byd osiągnięte przez przekształcenie macierzy L do postaci trójdiagonalnej za pomocą np. algorytmu Housholder’a.
Metoda PCA
Wynikiem obliczeo są obrazy bazowe tzw. eigenfaces, którymi są wektory własne macierzy C .
Przykładowe twarze uczestniczące w tworzeniu obrazów bazowych.
Metoda PCA
• Otrzymano wektory bazowe
znormalizowane, które w celu ich zaprezentowania przeskalowano na zakres [0,255] (zakres wartości pikseli). • Otrzymane eigenfaces szeregowane są zgodnie z malejącymi wartościami stowarzyszonych wartości własnych.
Metoda PCA
Metoda PCA
1. Z powyższych rachunków otrzymano zbiór obrazów (wektorów) bazowych, które wyznaczaj podprzestrzeo przestrzeni początkowej.
2. Wymiarowośd problemu została znacznie ograniczona - w powyższym przykładzie obrazy miały wymiar 100x100, wiec wymiar przestrzeni wejściowej był równy
10000, natomiast uzyskano 25 wektorów bazowych, zatem podprzestrzeo, w której odbędzie się porównanie i rozpoznanie ma wymiar 24 ( M-1 wektorów
znaczących), lub mniejszy, jako że nie ma konieczności rzutowania obrazów podlegających rozpoznaniu na wszystkie obrazy bazowe.
3. Często wystarczające jest wykorzystanie jedynie części z nich, np. takich z
największymi stowarzyszonymi wartościami własnymi, jako takimi, które niosą najwięcej informacji o wariancji w zbiorze obrazów.
Metoda PCA
1. Często bowiem wektory własne z mniejszymi wartościami własnymi niosą
informacje nieistotne, wręcz nieprzydatne, związane z szumem występującym w obrazach.
2. Niekiedy jednak nie jest to prawdą, gdyż, jeśli wśród obrazów istnieją duże różnice w jasności i oświetleniu, największe wektory własne mogą opisywad właśnie te cechy obrazów, które nie są istotne, a wręcz są niepożądane podczas rozpoznania.
Metoda PCA
Każdy obraz, także nie uczestniczący w tworzeniu obrazów bazowych, jest rzutowany na powstałą podprzestrzeo poprzez prostą operację
gdzie M’ jest liczbawybranych obrazów bazowych. Otrzymujemy wektor cech opisujący daną twarz
Wektor ten zawiera wagi linowej kombinacji dla danego obrazu, jeśli ma on zostad zrekonstruowany na podstawie obrazów bazowych.
Metoda PCA
Rekonstrukcja obrazu na podstawie wektora cech i obrazów bazowych odbywa się następująco:
Metoda PCA
Metoda PCA
Rekonstrukcja ta obarczona jest błędem, który może byd w przybliżeniu określony jako
Błąd ten rośnie, jeśli obrazy biorące udział w tworzeniu bazy różnią się znacząco miedzy sobą.
Metoda PCA
Obraz oryginalny i zrekonstruowany za pomocą 25, 12, 5 oraz 3 obrazów bazowych. Obraz brał udział w tworzeniu bazy.
Metoda PCA
Obraz oryginalny i zrekonstruowany za pomocą 25, 12, 5 oraz 3 obrazów bazowych. Obraz nie brał udziału w tworzeniu bazy.
Metoda PCA
1. Po obliczeniu obrazów bazowych, każdy obraz w bazie jest opisany za pomocą wektora cech. Wartości te są zapisywane w bazie w celu późniejszego ich
wykorzystania.
2. Każdy nowy obraz pokazany systemowi jest opisywany za pomoc wektora cech poprzez dokonanie jego projekcji na te same obrazy bazowe.
3. Powstały wektor cech użyty jest do porównania danej twarzy z innymi. Dokonuje się tego za pomoc różnego rodzaju metryk (Euklidesa, iloczyn skalarny wektorów) lub stosując bardziej wymyślne metody klasyfikacji.
Metoda PCA
Ekstrakcja składników głównych za pomocą sieci Hebba
• W celu dokonania analizy składników głównych PCA, można wykorzystad odpowiednio skonstruowaną i uczoną sied neuronów Hebba.
• W modelu Hebba wykorzystuje się obserwację neurobiologiczną, która zwraca uwagę na to, że waga połączenia między dwoma neuronami wzrasta przy
jednoczesnym pobudzeniu obu neuronów, w przeciwnym wypadku maleje. • Zmiana wag w takiej metodzie uczenia wygląda następująco:
gdzie F(.) jest funkcją sygnału wejściowego (presynaptycznego) xj , oraz sygnału wyjściowego (postsynaptycznego) yi .
Metoda PCA
• Do wyznaczenia pierwszego składnika głównego y1 i odpowiadającego mu wektora W1 za pomocą sieci Hebba, Oja zaproponował sied złożonąz jednego neuronu
liniowego, z którego otrzymuje się
Adaptacja wag odbywa się po każdorazowym podaniu wzorca na wejście
neuronu i przebiega według znormalizowanej reguły Hebba, zwanej regułą Oji:
Metoda PCA
W powyższym wzorze pierwszy składnik odpowiada regule Hebba, drugi natomiast zapewnia samonormalizację, tak aby
Estymacja wielu składników głównych wymaga wielu neuronów w warstwie wyjściowej.
Dobre rezultaty można otrzymad stosując regułę Sangera.
Przy K neuronach liniowych w warstwie wyjściowej każdy z nich generuje sygnał
Metoda PCA
Adaptacja wag następuje według wzoru
Aby użyd powyższą metodę do uzyskania wektorów cech dla danych
obrazów twarzy, należy na wejście sieci podawad znormalizowane wektory uzyskane identycznie jak w poprzednim rozdziale.
Ustalając liczbę neuronów określamy liczbę składników głównych, które zostaną wyodrębnione kolejno przez wszystkie neurony.
Metoda PCA
Odpowiednikiem wektorów własnych ui z poprzedniej
metody są wagi danego neuronu Wi . Wektor cech powstaje z odpowiedzi yi neuronów sieci na wzorzec przekazany na jej wejcie. Otrzymujemy zatem wektor cech w postaci
Jeżeli przez W oznaczymy macierz to
dla każdego obrazu.
Metoda PCA
• Wagi każdego neuronu uczonego tą metodą podobnie jak w poprzedniej metodzie tworzą pewien obraz bazowy przypominający
„duchową” twarz.
Każdy obraz został utworzony z wag jednego neuronu przeskalowanych na zakres [0,255].
Metoda PCA
Obraz oryginalny i zrekonstruowany za pomocą 25, 12, 5 oraz 3 obrazów bazowych otrzymanych z sieci Hebba.
Metoda PCA
Obraz oryginalny i zrekonstruowany za pomocą kolejno 25, 12, 5 oraz 3 obrazów bazowych otrzymanych z sieci Hebba.
Metoda PCA
Pytanie?
Jak obliczyd wariancję wychwyconą przez kilka pierwszych składowych głównych, jeśli są one liczone za pomocą sieci neuronowej?
Metoda ICA
Wady PCA
• Metoda rozpoznawania twarzy za pomocą składników głównych PCA słusznie cieszy się powodzeniem wśród badaczy i twórców praktycznych systemów identyfikacji.
• Nie jest ona jednak metodą doskonałą, niepozbawioną pewnych wad, mimo swojej skuteczności.
• Według wielu badaczy, ICA (ang. Independent Component Analysis), przy odpowiednich założeniach, jest skuteczniejsza niż PCA.
• W praktyce wyodrębnianie statystycznie niezależnych składowych odbywa się poprzez odpowiednio skonstruowane i uczone sieci neuronowe.
Metoda ICA
Podsumowanie ogólnego podejścia
• Każdy obraz może byd przedstawiony jako liniowa kombinacja pewnych
obrazów bazowych, które wyznaczają nowy układ współrzędnych w przestrzeni obrazów twarzy.
• Każdy obraz może byd zatem traktowany jako punkt w tej przestrzeni i opisany współrzędnymi przy wykorzystaniu rożnych układów współrzędnych (obrazów bazowych będących osiami w tej przestrzeni).
• Celem metody PCA jest dobranie takiego zbioru obrazów bazowych, aby w tym nowym układzie współrzędnych współczynniki PCA opisujące obrazy były
nieskorelowane, to znaczy, aby żaden z nich nie mógł byd przedstawiony jako liniowa kombinacja pozostałych.
• Oznacza to, że zależności statystyczne pomiędzy pikselami w obrazach zawarte w łącznym rozkładzie prawdopodobieostwa są rozdzielone poprzez
Metoda ICA
Wady metody PCA
• PCA jest w stanie usunąd jedynie zalżności statystyczne drugiego rzędu, co może byd intuicyjnie widoczne, jako że przy wyliczaniu PCA liczy się wektory własne macierzy autokorelacji, która jest w stanie opisad jedynie zależności drugiego rzędu.
• Z tego względu zależności statystyczne wyższego rzędu nadal pozostaną w opisie PCA.
Metoda ICA
• W zadaniach typu rozpoznawanie twarzy lub analiza obrazów dużo ważnej
informacji może byd zawartej w zależnościach statystycznych wyższego rzędu pomiędzy wartościami pikseli.
• Dlatego warto sprawdzid, czy metody, które byłyby uogólnieniami PCA i byłyby w stanie odseparowad te zależności na sygnały (w tym wypadku obrazy bazowe) statystycznie niezależne, nie byłyby skuteczniejsze.
Metoda ICA
PCA:
• Daje nieskorelowane współczynniki PCA
• Minimalizuje średniokwadratowy błąd rekonstrukcji danych wejściowych
• Jest to w pełni satysfakcjonujące jeśli dane wejściowe mają rozkład Gaussa. Wtedy bowiem cała informacja o rozkładzie jest zawarta w zależnościach statystycznych drugiego rzędu (macierz kowariancji).
Metoda ICA
Zaletey ICA w porównaniu do PCA
• Dostarcza lepszego probabilistycznego modelu zjawiska
• Wyznacza niekoniecznie ortogonalny układ współrzędnych, który pozwala na lepszą rekonstrukcję danych w przypadku wystąpienia dużych szumów
• Jest wrażliwa na zależności statystyczne wyższego rzędu występujące w danych wejściowych, nie tylko na zależności zawarte w macierzy kowariancji
Metoda ICA
Dwa pierwsze obrazy (po lewej) przedstawiają oryginalne twarze. Środkowe
obrazy przedstawiają te same obrazy z zaszumioną fazą. Obrazy po prawej stronie przestawiają zrekonstruowane obrazy, z tym ze każdy z nich był zrekonstruowany w oparciu o wartości amplitudy własnego widma i fazy
widma drugiego obrazu.
Przekłamania, jakie pojawiają się w wyniku takiej operacji widad gołym okiem – zrekonstruowana twarz bardziej podobna jest do twarzy, od której pochodziła składowa fazy widma. Eksperyment ten ukazuje jak ważna jest ta częśd informacji zawarta w fazie widma.
Metoda ICA
• Związek miedzy tym eksperymentem a metodami PCA i ICA jest następujący: zależności statystyczne drugiego rzędu wychwytują informację zawartą jedynie w amplitudzie widma danego obrazu (czy tez ogólniej sygnału).
• Informacja niesiona przez fazę widma jest zawarte w zależnościach wyższego rzędu. W pokazanych powyżej obrazach zmiana wyglądu dla ludzkiego oka jest kolosalna, jednak zależności drugiego rzędu nie zostały zmienione.
Metoda ICA
Definicja ICA
• Metoda ICA (w swej podstawowej formie) jest definiowana jako przekształcenie liniowe
• Kryteria doboru macierzy tego przekształcenia (tzn. wektorów bazowych) są inne niż dla PCA, mianowicie parametrem, który jest maksymalizowany jest tutaj
– wzajemna statystyczna niezależnośd wektorów bazowych,
– lub też statystyczna niezależnośd współczynników ICA (odpowiedników parametrów linowej kombinacji z metody PCA).
Metoda ICA
W metodzie ICA zakłada się, że obserwowane są wektory
których każda składowa jest liniową kombinacją pewnych niezależnych statystycznie komponentów
Zakładamy, że każdy niezależny komponent sk oraz każda liniowa kombinacja xj jest zmienną losową (w innym podejściu może byd traktowana jako sygnał czasowy).
Zakładamy, że wektory s oraz x mają zerową średnią wartośd. W przypadku, gdy nie jest to spełnione, zawsze można to osiągnąd poprzez odjeście od każdego wektora x wektora średniego. Powyższy model można zapisad w postaci
Metoda ICA
• ICA opisuje proces mieszania składników niezależnych sk poprzez pewien
proces, tutaj założony jako proces liniowej kombinacji dokonywany za pomocą macierzy A .
• Przykładem takiego procesu jest nagrywanie za pomocą dwóch (lub więcej) mikrofonów dwóch osób mówiących jednocześnie. Dysponujemy dwoma nagraniami (składowe wektora x ), które powstały w wyniku zmieszania dwóch sygnałów mowy, które przebiegały w sposób niezależny (składowe wektora s ).
Metoda ICA
Procedura ICA
W modelu ICA obserwujemy jedynie wektory x, nieznane są natomiast wektory s oraz macierz mieszająca A .
• Celem jest oszacowanie zarówno A jak i s. Punktem wyjścia analizy ICA umożliwiającym takie oszacowanie jest założenie statystycznej niezależności składowych sk wektora s .
• Zakłada się również, że składowe niezależne nie maja rozkładu prawdopodobieostwa Gaussa.
Metoda ICA
Po oszacowaniu macierzy A można policzyd jej macierz odwrotną i otrzymad równanie
którym szacuje się nieznane składniki niezależne.
Z faktu iż zarówno macierz A jak i wektor s są nieznane, wynika, że nie można oszacowad wariancji oraz kolejności składników niezależnych.
Metoda ICA
Statystyczna niezależnośd
Intuicyjnie rzecz ujmując, dwie zmienne losowe s1 i s2 są statystycznie
niezależne, jeżeli wiedza o wartościach jednej z nich nie daje żadnej informacji o wartościach drugiej.
Metoda ICA
Statystyczna niezależnośd
• Formalnie niezależnośd statystyczną definiuje się przez funkcję gęstości prawdopodobieostwa.
• Jeśli przez p1(s1) i p2(s2) oznaczymy funkcje gęstości prawdopodobieostwa odpowiednio zmiennej s1 i s2, a przez p(s1, s2) łącznych rozkład
prawdopodobieostwa s1 i s2, to s1 i s2 są statystycznie niezależne wtedy i tylko jeśli zachodzi związek
p(s1, s2) = p1(s1) * p2(s2) przy czym
Metoda ICA
Z definicji wynika, że
gdzie hi(.) są funkcjami skalarnymi
Zmienne s1 i s2 są nieskorelowane, jeśli
Widad więc, że niezależnośd zawiera w sobie nieskorelowanie zmiennych, natomiast zmienne nieskorelowane niekoniecznie muszą byd niezależne. Powyższe definicje rozciągnąd można na większą liczbę zmiennych si.
Metoda ICA
Przykład:
• Statystyczna niezależnośd dwóch zmiennych oraz proces ich mieszania poprzez macierz A.
Zmienne s1 oraz s2 mają rozkład jednostajny dany równaniem
Metoda ICA
Z poniższych rysunków widad, że zmienne s1 i s2 są niezależne – wartośd jednej z nich nic nie mówi o wartości drugiej.
Natomiast widad, iż x1 i x2 nie są niezależne, gdyż jeśli jedna z nich zmierza do minimum lub maksimum, jednocześnie determinuje wartośd drugiej.
Metoda ICA
• Widad, iż kolumny macierzy A wskazują kierunki brzegów równoległoboku (ich środki).
• Natomiast jeśli przyjmiemy rozkład prawdopodobieostwa Gaussa dla s1 i s2 oraz mieszającą macierz A ortogonalną, to również x1 i x2 mają rozkład Gaussa
Metoda ICA
• Z rysunku takiego rozkładu widad (poniżej), że jest on całkowicie symetryczny i nie daje żadnej informacji o kierunkach kolumn macierzy A . Nie można
zatem wyznaczyd macierzy A dla zmiennych gaussowskich.
Metoda ICA
Nie-gausowskośd a statystyczna niezależnośd
• Z powyższych wywodów wynika, że założenie, iż zmienne losowe podlegające analizie ICA nie mogą mied rozkładu Gaussa jest fundamentalne.
• Z twierdzenia znanego w statystyce jako Centralne Twierdzenie Graniczne, wynika, że pod pewnymi warunkami, łączny rozkład prawdopodobieostwa sumy niezależnych statystycznie zmiennych losowych dąży do rozkładu Gaussa. • Z tego wynika, że suma zmiennych losowych niezależnych zazwyczaj ma
rozkład bliższy rozkładowi Gaussa niż rozkład którejkolwiek z oryginalnych zmiennych losowych.
Metoda ICA
Załóżmy, że macierz W jest macierzą odwrotnąmacierzy mieszającej A , oraz że chcemy oszacowad jeden z niezależnych składników oznaczony jako
Szukamy zatem takiego wektora w, aby yj był estymacją jednego ze składników niezależnych sj .
Okazuje się, że można do tego użyd Centralnego Twierdzenia Granicznego. Jeśli przez z oznaczymy otrzymamy następującą zależnośd
Metoda ICA
Wektor y jest zatem liniową kombinacją nieznanych niezależnych elementów si.
Jako, że są one niezależne, z Centralnego Twierdzenia Granicznego
wynika, że jakakolwiek ich suma (także ważona z wagami zi ) będzie miała rozkład bardziej gaussowski niż jakikolwiek ze składników tej sumy.
Zatem wynik operacji
ma rozkład bardziej gausowski niż jakikolwiek składnik si , z kolei najbardziej się on
będzie różnił od rozkładu Gaussa, jeśli będzie się równał jednemu ze składników si, co z kolei będzie spełnione, jeśli tylko jeden element wektora z będzie
Metoda ICA
• Jeśli tak się stanie, zmiana w kierunku gausowskości wT x będzie osiągad
minimum.
• W prosty zatem sposób można odwrócid rozumowanie i powiedzied, że jeśli dobierzemy taki wektor w , który maksymalizuje nie-gausowskośd wT x , to taki
wektor w będzie odpowiadał wektorowi z z tylko jednym elementem niezerowym, zatem wynik mnożenia
Metoda ICA
Powyższe rozumowanie jest w dużej części heurystyczne, jednak stanowi
punkt wyjścia dla metod jak najbardziej nadających się do praktycznej estymacji składników niezależnych.
Należy:
• zainicjowad wektor w
• zmieniad go iteracyjnie w kierunku, w którym gausowskośd wT x jest
minimalizowana. Pytanie:
Metoda ICA
Istnieje wiele metod określania stopnia, w jakim rozkład danej zmiennej losowej jest podobny do rozkładu Gaussa.
Zakładamy, że zmienna losowa y ma średnią wartośd równą zero i wariancję równą jeden.
Metoda ICA
Kurtoza
Klasyczną metodą pomiaru gausowskości rozkładu jest moment statystyczny czwartego rzędu zwany kurtozą.
Definicja:
Kurtoza dla zmiennych losowych gausowskich jest równa zero, dla pozostałych w przeważającej większości przypadków jest różna od zera.
Kurtoza może byd mniejsza lub większa od zera, zatem w celu określenia stopnia gausowskości rozkładu należy użyd jej absolutnej wartości.
Metoda ICA
Kurtoza
Posiada ona dwie ważne z punktu widzenia analitycznego i praktycznego właściwości
gdzie alfa to skalar
W praktyce estymacje kurtozy mogą byd bardzo czułe na niewielkie błędy
pomiarowe i sprawiad, że estymacje te obarczone są zbyt dużym błędem, by mogły byd praktycznie użyteczne.
Metoda ICA
Entropia
Entropia zmiennej losowej może byd rozumiana jako ilośd informacji, jaką można otrzymad poprzez obserwacje danej zmiennej losowej.
Im bardziej losowa jest ta zmienna (nieuporządkowana i nieprzewidywalna), tym większa jest jej entropia.
Definicja entropii dla zmiennej losowej ciągłej Y jest następująca :
a dla zmiennej losowej dyskretnej y
Metoda ICA
• Fundamentalnym twierdzeniem teorii informacji jest stwierdzenie, że zmienna losowa o rozkładzie Gaussa ma największą entropię spośród
wszystkich zmiennych losowych o zadanej wariancji.
• Z tego wynika, że entropia może byd miarą gausowskości danego rozkładu. Aby otrzymad miarę gausowskości równą zero dla rozkładu Gaussa oraz zawsze większ od zera dla pozostałych zmiennych losowych definiuje się pojęcie
negentropii J
gdzie ygauss jest zmienną losową o rozkładzie Gaussa oraz tej samej wariancji co zmienna y
Metoda ICA
Wada negentropii
Negentropia jako miara gausowskości ma ważną wadę, a mianowicie
wymaga estymacji funkcji rozkładu prawdopodobieostwa zmiennej losowej, co w praktyce może przysparzad problemy. Dlatego też, zamiast stosowad ją w praktyce bezpośrednio, używa się innych estymatorów.
Metoda ICA
Inne rozwiązanie to estymacja negentropii za pomocą równania
gdzie v jest zmienną losową o rozkładzie Gaussa o zerowej średniej wartości i jednostkowej wariancji, a G to odpowiednio dobrana funkcja niekwadratowa. Dowiedziono, że następujące funkcje G dobrze sprawdzają się w
Metoda ICA
Przygotowanie danych wejściowych
• Podstawowym zabiegiem dokonywanym na danych wejściowych jest
uczynienie z nich danych o zerowej średniej wartości. Jeśli danymi wejściowymi są wektory x , można tego dokonad poprzez odjęcie od każdego z nich średniego wektora rozumianego jako m=E{x}
• Następną operacją jest zabieg określany angielskim terminem wybielania (ang. whitening). Polega to na przekształceniu danych poprzez liniową transformację w nowe dane, które sąnieskorelowane oraz o zerowej wariancji tzn.
Metoda ICA
Jest to zawsze możliwe. Popularną metodą jest wykonanie dekompozycji do postaci
gdzie B jest macierz ortogonalną złożoną z wektorów własnych macierzy
a D jest macierz diagonalną z odpowiadającymi wektorom wartościami własnymi
Następnie dokonuje się przekształcenia
Metoda ICA
Algorytm FastICA
• Estymacja składników ICA w metodzie FastICA polega na wyodrębnieniu tych składników poprzez siec neuronową uczoną bez nauczyciela (bez nadzoru).
• Podobnie jak w metodzie estymacji składników PCA siecią Hebba, tak i teraz każdy neuron ma za zadanie wyodrębnid jeden składnik ICA.
• W tym przypadku jednak kolejnośd wyodrębnianych składników ICA nie ma większego znaczenia i zależy ona od początkowych losowych wartości wag każdego neuronu.
• Sied ma za zadanie estymowad macierz W dokonując przekształcenia y =Wx , gdzie y jest poszukiwanym wektorem składników ICA.
Metoda ICA
Algorytm FastICA
• Neurony mają zdolnośd adaptacji swoich wag w zależności od przykładowych danych uczących oraz od składników ICA wyodrębnionych wcześniej przez inne neurony, co ma na celu zapobiec zbieżności różnych neuronów do tego
samego składnika ICA.
• Algorytm opiera się na maksymalizowaniu nie gausowskości wyników mnożenia wTx dla każdego neuronu, gdzie w jest wektorem wag danego neuronu.
• Wariancja wTx musi byd równa jedności, co dla danych poddanych wstępnej
Metoda ICA
Algorytm FastICA
Poprzez funkcje g oznaczamy pochodne funkcji G wprowadzonych wcześniej dla estymacji gausowskości rozkładu zmiennych losowych. Dla przykładowych funkcji podanych wcześniej wynoszą one odpowiednio
Metoda ICA
Algorytm dla jednego neuronu przebiega następująco: 1. Zainicjuj losowo wagi w neuronu
2. Przeprowad adaptację wag neuronu zgodnie z równaniem
3. Normalizuj wektor wag
4. Jeśli aktualne rozwiązanie nie jest zbieżne, wród do punktu 2
Rozwiązanie jest zbieżne, jeśli nowe i stare wartości wag różnią się od
siebie mniej niż pewna wartośd graniczna, np. ich iloczyn skalarny jest bliski jedności.
Metoda ICA
Powyższym sposobem można otrzymad estymację jednego składnika ICA. Dla estymacji każdego kolejnego, należy wprowadzid dodatkowy krok
w algorytmie zapobiegający zbieganiu się rozwiązao kolejnych neuronów do już znalezionych rozwiązao. Aby to osiągnąd, wyjścia wszystkich neuronów
Metoda ICA
Jednym ze sposobów na dokonanie tego jest schemat Grama-Schmidta.
W podejściu tym estymujemy kolejne składniki ICA jeden po drugim. Jeśli wektory wag
zostały już obliczone, podczas liczenia wektora wag pw + 1 po każdej iteracji dokonujemy dodatkowych dwóch kroków
Metoda ICA
• W ten sposób można otrzymad estymację dowolnej liczby wzajemnie niezależnych składników ICA.
• Powyższy algorytm ma tę zaletę nad algorytmami gradientowymi, iż nie występuje w nim współczynnik uczenia, zatem nie ma potrzeby doboru odpowiedniej długości kroku podczas adaptacji wag.
• Jego zbieżnośd również jest szybsza niż algorytmów gradientowych. • Nie potrzebne jest również określenie estymacji funkcji rozkładu
prawdopodobieostwa danych wejściowych.
• Algorytm można optymalizowad poprzez odpowiedni dobór funkcji g , jednak te przedstawione powyżej sąwystarczające w większości wypadków.
Metoda ICA
Algorytm InfoMax
• Jest to inny algorytm do liczenia składników ICA, również oparty na architekturze sieci neuronowej.
• Oparty jest na zasadzie minimalizowanie informacji wzajemnej (ang. Mutual information)
Metoda ICA
Dwie architektury ICA dla obrazów
• Celem jest znalezienie odpowiednich bazowych obrazów, za pomocą których można reprezentowad dowolny obraz poddawany analizie.
• Każdy obraz może byd zorganizowany jako długi wektor o długości równej liczbie jego pikseli.
Metoda ICA
• W pierwszym sposobie każdy wiersz macierzy X utworzony jest z wektora reprezentującego jeden obraz.
• W tym podejściu obrazy są zmiennymi losowymi a wartości pikseli sąpomiarami (tworząkolejne kolumny macierzy X ).
• W tym przypadku możemy mówid o niezależności obrazów, co będzie miało miejsce wtedy, gdy nie będzie można powiedzied nic o wartości, jak
przyjmuje dany piksel w obrazie na podstawie wartości odpowiedniego piksela w drugim obrazie.
Metoda ICA
• W sposobie drugim każda kolumna macierzy X stanowi wektor reprezentujący jeden obraz.
• W tym podejściu piksele są zmiennymi losowymi a obrazy kolejnymi pomiarami.
• W tym przypadku mówi się o niezależności pikseli, co będzie miało miejsce wtedy, gdy nie można stwierdzid nic o wartości piksela i-tego na podstawie wartości piksela j-tego w tym samym obrazie.
Metoda ICA
Problemy
• Niezależnie od wyboru architektury, pojawia się problem, jeżeli dostępnych obrazów jest zbyt wiele, gdyż zadanie staje się wymagające obliczeniowo i bardzo szybko może stad się niepraktyczne z powodu dużych wymogów obliczeniowych.
• Dlatego tez zamiast stosowad powyższe architektury bezpośrednio na obrazach, wykorzystuje się metodę PCA jako pierwszy krok dla ICA. • Przyspiesza to również działanie algorytmu.
Metoda ICA
Uwaga
• W architekturze pierwszej celem było otrzymanie niezależnych statystycznie obrazów bazowych, jednak gdy zostanie to osiągnięte, otrzymane współczynniki opisujące liniową kombinację obrazów bazowych ICA niekoniecznie są
Metoda ICA
Powyższe obrazy należy interpretowad następująco:
• Architektura pierwsza ICA stara się wyodrębnid grupy pikseli, które mają podobne właściwości we wszystkich obrazach. Otrzymujemy, zatem obrazy
bazowe niezależne od siebie (na tyle na ile było to możliwe dla algorytmu). Widad, że obrazy te przedstawiają bardziej lokalne cechy, na podstawie których
następnie rekonstruowana jest dana twarz.
• W architekturze drugiej natomiast ICA stara się wykryd te obrazy, które mają podobne cechy analizując kolejno poszczególne piksele obrazów. Dlatego
obrazy bazowe przypominają bardziej twarze niż obrazy z architektury pierwszej. ICA architektury drugiej stara się uśrednid obrazy należące do tej samej
osoby. Obrazy bazowe nie są niezależne, niezależne są natomiast współczynniki ICA otrzymane poprzez rzutowanie obrazów na bazę.