• Nie Znaleziono Wyników

Metoda ICA

W dokumencie Systemy uczace sie w4 pca (Stron 49-100)

Wady PCA

• Metoda rozpoznawania twarzy za pomocą składników głównych PCA słusznie cieszy się powodzeniem wśród badaczy i twórców praktycznych systemów identyfikacji.

• Nie jest ona jednak metodą doskonałą, niepozbawioną pewnych wad, mimo swojej skuteczności.

Według wielu badaczy, ICA (ang. Independent Component Analysis), przy odpowiednich założeniach, jest skuteczniejsza niż PCA.

• W praktyce wyodrębnianie statystycznie niezależnych składowych odbywa się poprzez odpowiednio skonstruowane i uczone sieci neuronowe.

Metoda ICA

Podsumowanie ogólnego podejścia

• Każdy obraz może byd przedstawiony jako liniowa kombinacja pewnych

obrazów bazowych, które wyznaczają nowy układ współrzędnych w przestrzeni obrazów twarzy.

• Każdy obraz może byd zatem traktowany jako punkt w tej przestrzeni i opisany współrzędnymi przy wykorzystaniu rożnych układów współrzędnych (obrazów bazowych będących osiami w tej przestrzeni).

• Celem metody PCA jest dobranie takiego zbioru obrazów bazowych, aby w tym nowym układzie współrzędnych współczynniki PCA opisujące obrazy były

nieskorelowane, to znaczy, aby żaden z nich nie mógł byd przedstawiony jako liniowa kombinacja pozostałych.

• Oznacza to, że zależności statystyczne pomiędzy pikselami w obrazach zawarte w łącznym rozkładzie prawdopodobieostwa są rozdzielone poprzez

Metoda ICA

Wady metody PCA

• PCA jest w stanie usunąd jedynie zalżności statystyczne drugiego rzędu, co może byd intuicyjnie widoczne, jako że przy wyliczaniu PCA liczy się wektory własne macierzy autokorelacji, która jest w stanie opisad jedynie zależności drugiego rzędu.

• Z tego względu zależności statystyczne wyższego rzędu nadal pozostaną w opisie PCA.

Metoda ICA

• W zadaniach typu rozpoznawanie twarzy lub analiza obrazów dużo ważnej

informacji może byd zawartej w zależnościach statystycznych wyższego rzędu pomiędzy wartościami pikseli.

• Dlatego warto sprawdzid, czy metody, które byłyby uogólnieniami PCA i byłyby w stanie odseparowad te zależności na sygnały (w tym wypadku obrazy bazowe) statystycznie niezależne, nie byłyby skuteczniejsze.

Metoda ICA

PCA:

• Daje nieskorelowane współczynniki PCA

• Minimalizuje średniokwadratowy błąd rekonstrukcji danych wejściowych

• Jest to w pełni satysfakcjonujące jeśli dane wejściowe mają rozkład Gaussa. Wtedy bowiem cała informacja o rozkładzie jest zawarta w zależnościach statystycznych drugiego rzędu (macierz kowariancji).

Metoda ICA

Zaletey ICA w porównaniu do PCA

• Dostarcza lepszego probabilistycznego modelu zjawiska

• Wyznacza niekoniecznie ortogonalny układ współrzędnych, który pozwala na lepszą rekonstrukcję danych w przypadku wystąpienia dużych szumów

• Jest wrażliwa na zależności statystyczne wyższego rzędu występujące w danych wejściowych, nie tylko na zależności zawarte w macierzy kowariancji

Metoda ICA

Dwa pierwsze obrazy (po lewej) przedstawiają oryginalne twarze. Środkowe

obrazy przedstawiają te same obrazy z zaszumioną fazą. Obrazy po prawej stronie przestawiają zrekonstruowane obrazy, z tym ze każdy z nich był zrekonstruowany w oparciu o wartości amplitudy własnego widma i fazy

widma drugiego obrazu.

Przekłamania, jakie pojawiają się w wyniku takiej operacji widad gołym okiem – zrekonstruowana twarz bardziej podobna jest do twarzy, od której pochodziła składowa fazy widma. Eksperyment ten ukazuje jak ważna jest ta częśd informacji zawarta w fazie widma.

Metoda ICA

• Związek miedzy tym eksperymentem a metodami PCA i ICA jest następujący: zależności statystyczne drugiego rzędu wychwytują informację zawartą jedynie w amplitudzie widma danego obrazu (czy tez ogólniej sygnału).

• Informacja niesiona przez fazę widma jest zawarte w zależnościach wyższego rzędu. W pokazanych powyżej obrazach zmiana wyglądu dla ludzkiego oka jest kolosalna, jednak zależności drugiego rzędu nie zostały zmienione.

Metoda ICA

Definicja ICA

• Metoda ICA (w swej podstawowej formie) jest definiowana jako przekształcenie liniowe

• Kryteria doboru macierzy tego przekształcenia (tzn. wektorów bazowych) są inne niż dla PCA, mianowicie parametrem, który jest maksymalizowany jest tutaj

– wzajemna statystyczna niezależnośd wektorów bazowych,

– lub też statystyczna niezależnośd współczynników ICA (odpowiedników parametrów linowej kombinacji z metody PCA).

Metoda ICA

W metodzie ICA zakłada się, że obserwowane są wektory

których każda składowa jest liniową kombinacją pewnych niezależnych statystycznie komponentów

Zakładamy, że każdy niezależny komponent sk oraz każda liniowa kombinacja xj jest zmienną losową (w innym podejściu może byd traktowana jako sygnał czasowy).

Zakładamy, że wektory s oraz x mają zerową średnią wartośd. W przypadku, gdy nie jest to spełnione, zawsze można to osiągnąd poprzez odjeście od każdego wektora x wektora średniego. Powyższy model można zapisad w postaci

Metoda ICA

• ICA opisuje proces mieszania składników niezależnych sk poprzez pewien

proces, tutaj założony jako proces liniowej kombinacji dokonywany za pomocą macierzy A .

• Przykładem takiego procesu jest nagrywanie za pomocą dwóch (lub więcej) mikrofonów dwóch osób mówiących jednocześnie. Dysponujemy dwoma nagraniami (składowe wektora x ), które powstały w wyniku zmieszania dwóch sygnałów mowy, które przebiegały w sposób niezależny (składowe wektora s ).

Metoda ICA

Procedura ICA

W modelu ICA obserwujemy jedynie wektory x, nieznane są natomiast wektory s oraz macierz mieszająca A .

• Celem jest oszacowanie zarówno A jak i s. Punktem wyjścia analizy ICA umożliwiającym takie oszacowanie jest założenie statystycznej niezależności składowych sk wektora s .

• Zakłada się również, że składowe niezależne nie maja rozkładu prawdopodobieostwa Gaussa.

Metoda ICA

Po oszacowaniu macierzy A można policzyd jej macierz odwrotną i otrzymad równanie

którym szacuje się nieznane składniki niezależne.

Z faktu iż zarówno macierz A jak i wektor s są nieznane, wynika, że nie można oszacowad wariancji oraz kolejności składników niezależnych.

Metoda ICA

Statystyczna niezależnośd

Intuicyjnie rzecz ujmując, dwie zmienne losowe s1 i s2 są statystycznie

niezależne, jeżeli wiedza o wartościach jednej z nich nie daje żadnej informacji o wartościach drugiej.

Metoda ICA

Statystyczna niezależnośd

• Formalnie niezależnośd statystyczną definiuje się przez funkcję gęstości prawdopodobieostwa.

• Jeśli przez p1(s1) i p2(s2) oznaczymy funkcje gęstości prawdopodobieostwa odpowiednio zmiennej s1 i s2, a przez p(s1, s2) łącznych rozkład

prawdopodobieostwa s1 i s2, to s1 i s2 są statystycznie niezależne wtedy i tylko jeśli zachodzi związek

p(s1, s2) = p1(s1) * p2(s2) przy czym

Metoda ICA

Z definicji wynika, że

gdzie hi(.) są funkcjami skalarnymi

Zmienne s1 i s2 są nieskorelowane, jeśli

Widad więc, że niezależnośd zawiera w sobie nieskorelowanie zmiennych, natomiast zmienne nieskorelowane niekoniecznie muszą byd niezależne. Powyższe definicje rozciągnąd można na większą liczbę zmiennych si.

Metoda ICA

Przykład:

• Statystyczna niezależnośd dwóch zmiennych oraz proces ich mieszania poprzez macierz A.

Zmienne s1 oraz s2 mają rozkład jednostajny dany równaniem

Metoda ICA

Z poniższych rysunków widad, że zmienne s1 i s2 są niezależne – wartośd jednej z nich nic nie mówi o wartości drugiej.

Natomiast widad, iż x1 i x2 nie są niezależne, gdyż jeśli jedna z nich zmierza do minimum lub maksimum, jednocześnie determinuje wartośd drugiej.

Metoda ICA

• Widad, iż kolumny macierzy A wskazują kierunki brzegów równoległoboku (ich środki).

Natomiast jeśli przyjmiemy rozkład prawdopodobieostwa Gaussa dla s1 i s2 oraz mieszającą macierz A ortogonalną, to również x1 i x2 mają rozkład Gaussa

Metoda ICA

• Z rysunku takiego rozkładu widad (poniżej), że jest on całkowicie symetryczny i nie daje żadnej informacji o kierunkach kolumn macierzy A . Nie można

zatem wyznaczyd macierzy A dla zmiennych gaussowskich.

Metoda ICA

Nie-gausowskośd a statystyczna niezależnośd

• Z powyższych wywodów wynika, że założenie, iż zmienne losowe podlegające analizie ICA nie mogą mied rozkładu Gaussa jest fundamentalne.

• Z twierdzenia znanego w statystyce jako Centralne Twierdzenie Graniczne, wynika, że pod pewnymi warunkami, łączny rozkład prawdopodobieostwa sumy niezależnych statystycznie zmiennych losowych dąży do rozkładu Gaussa. • Z tego wynika, że suma zmiennych losowych niezależnych zazwyczaj ma

rozkład bliższy rozkładowi Gaussa niż rozkład którejkolwiek z oryginalnych zmiennych losowych.

Metoda ICA

Załóżmy, że macierz W jest macierzą odwrotnąmacierzy mieszającej A , oraz że chcemy oszacowad jeden z niezależnych składników oznaczony jako

Szukamy zatem takiego wektora w, aby yj był estymacją jednego ze składników niezależnych sj .

Okazuje się, że można do tego użyd Centralnego Twierdzenia Granicznego. Jeśli przez z oznaczymy otrzymamy następującą zależnośd

Metoda ICA

Wektor y jest zatem liniową kombinacją nieznanych niezależnych elementów si.

Jako, że są one niezależne, z Centralnego Twierdzenia Granicznego

wynika, że jakakolwiek ich suma (także ważona z wagami zi ) będzie miała rozkład bardziej gaussowski niż jakikolwiek ze składników tej sumy.

Zatem wynik operacji

ma rozkład bardziej gausowski niż jakikolwiek składnik si , z kolei najbardziej się on

będzie różnił od rozkładu Gaussa, jeśli będzie się równał jednemu ze składników si, co z kolei będzie spełnione, jeśli tylko jeden element wektora z będzie

Metoda ICA

• Jeśli tak się stanie, zmiana w kierunku gausowskości wT x będzie osiągad minimum.

W prosty zatem sposób można odwrócid rozumowanie i powiedzied, że jeśli dobierzemy taki wektor w , który maksymalizuje nie-gausowskośd wT x , to taki wektor w będzie odpowiadał wektorowi z z tylko jednym elementem

niezerowym, zatem wynik mnożenia

Metoda ICA

Powyższe rozumowanie jest w dużej części heurystyczne, jednak stanowi

punkt wyjścia dla metod jak najbardziej nadających się do praktycznej estymacji składników niezależnych.

Należy:

• zainicjowad wektor w

• zmieniad go iteracyjnie w kierunku, w którym gausowskośd wT x jest minimalizowana.

Pytanie:

Metoda ICA

Istnieje wiele metod określania stopnia, w jakim rozkład danej zmiennej losowej jest podobny do rozkładu Gaussa.

Zakładamy, że zmienna losowa y ma średnią wartośd równą zero i wariancję równą jeden.

Metoda ICA

Kurtoza

Klasyczną metodą pomiaru gausowskości rozkładu jest moment statystyczny czwartego rzędu zwany kurtozą.

Definicja:

Kurtoza dla zmiennych losowych gausowskich jest równa zero, dla pozostałych w przeważającej większości przypadków jest różna od zera.

Kurtoza może byd mniejsza lub większa od zera, zatem w celu określenia stopnia gausowskości rozkładu należy użyd jej absolutnej wartości.

Metoda ICA

Kurtoza

Posiada ona dwie ważne z punktu widzenia analitycznego i praktycznego właściwości

gdzie alfa to skalar

W praktyce estymacje kurtozy mogą byd bardzo czułe na niewielkie błędy

pomiarowe i sprawiad, że estymacje te obarczone są zbyt dużym błędem, by mogły byd praktycznie użyteczne.

Metoda ICA

Entropia

Entropia zmiennej losowej może byd rozumiana jako ilośd informacji, jaką można otrzymad poprzez obserwacje danej zmiennej losowej.

Im bardziej losowa jest ta zmienna (nieuporządkowana i nieprzewidywalna), tym większa jest jej entropia.

Definicja entropii dla zmiennej losowej ciągłej Y jest następująca :

a dla zmiennej losowej dyskretnej y

Metoda ICA

• Fundamentalnym twierdzeniem teorii informacji jest stwierdzenie, że zmienna losowa o rozkładzie Gaussa ma największą entropię spośród

wszystkich zmiennych losowych o zadanej wariancji.

• Z tego wynika, że entropia może byd miarą gausowskości danego rozkładu. Aby otrzymad miarę gausowskości równą zero dla rozkładu Gaussa oraz zawsze większ od zera dla pozostałych zmiennych losowych definiuje się pojęcie

negentropii J

gdzie ygauss jest zmienną losową o rozkładzie Gaussa oraz tej samej wariancji co zmienna y

Metoda ICA

Wada negentropii

Negentropia jako miara gausowskości ma ważną wadę, a mianowicie

wymaga estymacji funkcji rozkładu prawdopodobieostwa zmiennej losowej, co w praktyce może przysparzad problemy. Dlatego też, zamiast stosowad ją w praktyce bezpośrednio, używa się innych estymatorów.

Metoda ICA

Inne rozwiązanie to estymacja negentropii za pomocą równania

gdzie v jest zmienną losową o rozkładzie Gaussa o zerowej średniej wartości i jednostkowej wariancji, a G to odpowiednio dobrana funkcja niekwadratowa. Dowiedziono, że następujące funkcje G dobrze sprawdzają się w

Metoda ICA

Przygotowanie danych wejściowych

• Podstawowym zabiegiem dokonywanym na danych wejściowych jest

uczynienie z nich danych o zerowej średniej wartości. Jeśli danymi wejściowymi są wektory x , można tego dokonad poprzez odjęcie od każdego z nich średniego wektora rozumianego jako m=E{x}

• Następną operacją jest zabieg określany angielskim terminem wybielania (ang. whitening). Polega to na przekształceniu danych poprzez liniową transformację w nowe dane, które sąnieskorelowane oraz o zerowej wariancji tzn.

Metoda ICA

Jest to zawsze możliwe. Popularną metodą jest wykonanie dekompozycji do postaci

gdzie B jest macierz ortogonalną złożoną z wektorów własnych macierzy

a D jest macierz diagonalną z odpowiadającymi wektorom wartościami własnymi

Następnie dokonuje się przekształcenia

Metoda ICA

Algorytm FastICA

• Estymacja składników ICA w metodzie FastICA polega na wyodrębnieniu tych składników poprzez siec neuronową uczoną bez nauczyciela (bez nadzoru).

• Podobnie jak w metodzie estymacji składników PCA siecią Hebba, tak i teraz każdy neuron ma za zadanie wyodrębnid jeden składnik ICA.

W tym przypadku jednak kolejnośd wyodrębnianych składników ICA nie ma większego znaczenia i zależy ona od początkowych losowych wartości wag każdego neuronu.

• Sied ma za zadanie estymowad macierz W dokonując przekształcenia y =Wx , gdzie y jest poszukiwanym wektorem składników ICA.

Metoda ICA

Algorytm FastICA

• Neurony mają zdolnośd adaptacji swoich wag w zależności od przykładowych danych uczących oraz od składników ICA wyodrębnionych wcześniej przez inne neurony, co ma na celu zapobiec zbieżności różnych neuronów do tego

samego składnika ICA.

• Algorytm opiera się na maksymalizowaniu nie gausowskości wyników mnożenia wTx dla każdego neuronu, gdzie w jest wektorem wag danego neuronu. • Wariancja wTx musi byd równa jedności, co dla danych poddanych wstępnej

Metoda ICA

Algorytm FastICA

Poprzez funkcje g oznaczamy pochodne funkcji G wprowadzonych wcześniej dla estymacji gausowskości rozkładu zmiennych losowych. Dla przykładowych funkcji podanych wcześniej wynoszą one odpowiednio

Metoda ICA

Algorytm dla jednego neuronu przebiega następująco: 1. Zainicjuj losowo wagi w neuronu

2. Przeprowad adaptację wag neuronu zgodnie z równaniem

3. Normalizuj wektor wag

4. Jeśli aktualne rozwiązanie nie jest zbieżne, wród do punktu 2

Rozwiązanie jest zbieżne, jeśli nowe i stare wartości wag różnią się od

siebie mniej niż pewna wartośd graniczna, np. ich iloczyn skalarny jest bliski jedności.

Metoda ICA

Powyższym sposobem można otrzymad estymację jednego składnika ICA. Dla estymacji każdego kolejnego, należy wprowadzid dodatkowy krok

w algorytmie zapobiegający zbieganiu się rozwiązao kolejnych neuronów do już znalezionych rozwiązao. Aby to osiągnąd, wyjścia wszystkich neuronów

Metoda ICA

Jednym ze sposobów na dokonanie tego jest schemat Grama-Schmidta.

W podejściu tym estymujemy kolejne składniki ICA jeden po drugim. Jeśli wektory wag

zostały już obliczone, podczas liczenia wektora wag pw + 1 po każdej iteracji dokonujemy dodatkowych dwóch kroków

Metoda ICA

• W ten sposób można otrzymad estymację dowolnej liczby wzajemnie niezależnych składników ICA.

Powyższy algorytm ma tę zaletę nad algorytmami gradientowymi, iż nie występuje w nim współczynnik uczenia, zatem nie ma potrzeby doboru odpowiedniej długości kroku podczas adaptacji wag.

• Jego zbieżnośd również jest szybsza niż algorytmów gradientowych. • Nie potrzebne jest również określenie estymacji funkcji rozkładu

prawdopodobieostwa danych wejściowych.

• Algorytm można optymalizowad poprzez odpowiedni dobór funkcji g , jednak te przedstawione powyżej sąwystarczające w większości wypadków.

Metoda ICA

Algorytm InfoMax

• Jest to inny algorytm do liczenia składników ICA, również oparty na architekturze sieci neuronowej.

• Oparty jest na zasadzie minimalizowanie informacji wzajemnej (ang. Mutual information)

Metoda ICA

Dwie architektury ICA dla obrazów

• Celem jest znalezienie odpowiednich bazowych obrazów, za pomocą których można reprezentowad dowolny obraz poddawany analizie.

• Każdy obraz może byd zorganizowany jako długi wektor o długości równej liczbie jego pikseli.

Metoda ICA

• W pierwszym sposobie każdy wiersz macierzy X utworzony jest z wektora reprezentującego jeden obraz.

W tym podejściu obrazy są zmiennymi losowymi a wartości pikseli sąpomiarami (tworząkolejne kolumny macierzy X ).

• W tym przypadku możemy mówid o niezależności obrazów, co będzie miało miejsce wtedy, gdy nie będzie można powiedzied nic o wartości, jak

przyjmuje dany piksel w obrazie na podstawie wartości odpowiedniego piksela w drugim obrazie.

Metoda ICA

• W sposobie drugim każda kolumna macierzy X stanowi wektor reprezentujący jeden obraz.

W tym podejściu piksele są zmiennymi losowymi a obrazy kolejnymi pomiarami.

• W tym przypadku mówi się o niezależności pikseli, co będzie miało miejsce wtedy, gdy nie można stwierdzid nic o wartości piksela i-tego na podstawie wartości piksela j-tego w tym samym obrazie.

Metoda ICA

Problemy

• Niezależnie od wyboru architektury, pojawia się problem, jeżeli dostępnych obrazów jest zbyt wiele, gdyż zadanie staje się wymagające obliczeniowo i bardzo szybko może stad się niepraktyczne z powodu dużych wymogów obliczeniowych.

• Dlatego tez zamiast stosowad powyższe architektury bezpośrednio na obrazach, wykorzystuje się metodę PCA jako pierwszy krok dla ICA. • Przyspiesza to również działanie algorytmu.

Metoda ICA

Uwaga

• W architekturze pierwszej celem było otrzymanie niezależnych statystycznie obrazów bazowych, jednak gdy zostanie to osiągnięte, otrzymane współczynniki opisujące liniową kombinację obrazów bazowych ICA niekoniecznie są

Metoda ICA

Powyższe obrazy należy interpretowad następująco:

• Architektura pierwsza ICA stara się wyodrębnid grupy pikseli, które mają podobne właściwości we wszystkich obrazach. Otrzymujemy, zatem obrazy

bazowe niezależne od siebie (na tyle na ile było to możliwe dla algorytmu). Widad, że obrazy te przedstawiają bardziej lokalne cechy, na podstawie których

następnie rekonstruowana jest dana twarz.

W architekturze drugiej natomiast ICA stara się wykryd te obrazy, które mają podobne cechy analizując kolejno poszczególne piksele obrazów. Dlatego

obrazy bazowe przypominają bardziej twarze niż obrazy z architektury pierwszej. ICA architektury drugiej stara się uśrednid obrazy należące do tej samej

osoby. Obrazy bazowe nie są niezależne, niezależne są natomiast współczynniki ICA otrzymane poprzez rzutowanie obrazów na bazę.

W dokumencie Systemy uczace sie w4 pca (Stron 49-100)

Powiązane dokumenty