Systemy uczace sie w4 pca

(1)

Rozpoznawanie wzorców

Dr inż. Michał Bereta

p. 144 / 10, Instytut Informatyki

mbereta@pk.edu.pl

beretam@torus.uck.pk.edu.pl

www.michalbereta.pl

(2)

Metoda PCA

Analiza składników głównych PCA (ang. Principal Component Analysis) jest metodą statystyczną, określającą przekształcenie liniowe

przekształcajace opis stacjonarnego procesu stochastycznego opisanego za pomocą wektora

w wektor

za pośrednictwem macierzy

w ten sposób, że przestrzeo wyjściowa o zredukowanym wymiarze zachowuje najważniejsze informacje o procesie.

(3)

Metoda PCA

•Wzajemnie skorelowane składniki zostają zamienione w

składniki nieskorelowane uszeregowane według ich ważności.

•Jest to zatem forma kompresji stratnej i jest znana w teorii

komunikacji jako przekształcenie Karhunena-Loevego.

(4)

Metoda PCA

Jeśli x jest wektorem losowym o zerowej wartości średniej to przez

rozumiemy wartośd średnią (oczekiwaną) macierzy autokorelacji po wszystkich wektorach x .

W_i oznacza ortogonalne wektory własne stowarzyszone z wartościami własnymi macierzy tzn.

(5)

Metoda PCA

Jeśli uszeregujemy wartości własne w kolejności malejącej i ograniczymy się jedynie do K największych, możemy stworzyd macierz W stworzoną z K wektorów stowarzyszonych z danymi wartościami własnymi.

Zachowamy w ten sposób najważniejszą częśd informacji. Przekształcenie PCA jest wtedy określone przez macierz W jako

(6)

Metoda PCA

Wartośd funkcji błędu

osiąga minimum, gdy wiersze W są złożone z pierwszych K wektorów własnych macierzy

Otrzymujemy wówczas następujące zależności:

Macierz korelacji wektorów y jest równa

Oznacza to, że wszystkie składniki wektora y są nieskorelowane, z wariancjami równymi wartościom własnym

(7)

Metoda PCA

Przekształcenie PCA określa zbiór wektorów ortogonalnych, które mają największy wkład w wariancję wektorów wejściowych.

Celem tego przekształcenia jest określenie kierunków W_i , zwanych głównymi wektorami własnymi, w taki sposób, by maksymalizowad wyrażenie

(8)

Metoda PCA

PCA i rozpoznawanie twarzy za pomocą wartości własnych

1. Opisana metoda może byd użyta w celu uchwycenia wariancji w zbiorze obrazów twarzy.

2. Każdy obraz może byd traktowany jako wektor (punkt) w przestrzeni o bardzo dużym wymiarze równym liczbie pikseli w danym obrazie.

3. Mając zbiór danych uczących (przykładowych obrazów twarzy) można stworzyd średnią macierz autokorelacji tych wektorów i wyliczyd jej wektory własne, jak zostało to opisane wcześniej.

4. Otrzymane w ten sposób wektory własne mają oczywiście ten sam wymiar, co dane wejściowe tj. wektory utworzone bezpośrednio z obrazów na podstawie wartości ich pikseli.

(9)

Metoda PCA

1. Każdy taki wektor własny przyczynia się do opisu wariancji w zbiorze przykładowych obrazów.

2. Każdy obraz ze zbioru uczącego przyczynia się w różnym stopniu do wartości każdego wektora własnego, a różny ich udział w tworzeniu różnych wektorów własnych może byd wykorzystany w celu ich opisu, odpowiedniego do zadania rozpoznania.

(10)

Metoda PCA

1. Wektory własne wyliczone w ten sposób tworzą nowy układ współrzędnych w przestrzeni początkowej, w której każdy wektor własny opisuje jedną oś tego nowego układu.

2. Zatem każda twarz określona początkowo jako wielowymiarowy wektor wartości pikseli może zostad zrzutowana na te osie i wyrażona jako liniowa kombinacja tych wektorów własnych.

3. Wektory własne tworzą zbiór obrazów bazowych i zwane są one eigenfaces (od angielskich słów eigenvalues i eigenvectors).

4. Każda twarz może byd również zrzutowana jedynie na najlepsze obrazy bazowe, czyli takie kierunki, które wyznaczone są przez wektory własne o największych wartościach własnych stowarzyszonych z nimi.

(11)

Metoda PCA

1. W przestrzeni wejściowej zostaje zatem wyznaczona podprzestrzeo, na którą rzutowane są wektory opisujce twarze.

2. Otrzymujemy redukcję wymiarowości, której stopieo zależy od liczby wybranych obrazów bazowych, na które odbywa się rzutowanie.

3. Każdy element nowopowstałego wektora cech określa współczynnik liniowej kombinacji odnoszący się do danego obrazu bazowego.

(12)

Metoda PCA

1. Kirby i Sirovich (Kirby, Sirovich, 1987, 1990) jako pierwsi wykorzystali tę technikę w celu efektywnego reprezentowania obrazów twarzy.

2. Używając metody PCA liczyli oni najlepszy układ współrzędnych użyty przez nich do kompresji obrazów, w którym każdy kierunek był wyznaczony przez obraz bazowy, zwany przez nich eigenpicture.

3. Twierdzili oni, że każdy obraz może byd przechowywany jako zbiór małej ilości wag liniowej kombinacji dokonywanej za pomoc pewnego zbioru bazowych obrazów. 4. Wagi takie znajdowane były przez rzutowanie każdego obrazu na każdy obraz

(13)

Metoda PCA

1. Turk i Pentland (Turk, M., and Pentland, A., 1991) jako pierwsi zastosowali tę metodę do rozpoznawania twarzy.

2. Zauważyli oni, że jeśli wartości wag opisane powyżej charakteryzują daną twarz w stopniu wystarczającym do jej rekonstrukcji za pomocą obrazów bazowych, to byd może wagi te opisują globalne cechy twarzy, które mogą byd wykorzystane w celu znalezienia cech różniących poszczególne twarze między sobą.

3. Sposób ten okazał się niezwykle skuteczny. Pozostawiając jedynie niewielką liczbę najważniejszych wektorów własnych średniej macierzy autokorelacji wektorów wejściowych, dostaje się przez rzutowanie na te kierunki wektor wag, który jest właśnie poszukiwanym wektorem cech, użytym do rozpoznania. Ma on dużo mniejszy wymiar a jednocześnie zawiera wystarczającą ilośd informacji.

(14)

Metoda PCA

Liczenie obrazów bazowych

• Załóżmy, że każdy obraz I( x, y) jest dwuwymiarową tablicą o elementach równych wartościom jasności pikseli.

• Może on byd również opisany jako wektor o wymiarze N2_{. Tak wiec obraz o}

wymiarach np. 50x50 jest wektorem o wymiarze 2500.

• Zadaniem metody PCA jest znalezienie nowego układu współrzędnych, który najlepiej opisuje rozkład obrazów twarzy w tej wielowymiarowej przestrzeni. • Każda twarz zostaje opisana w nowym układzie współrzędnych poprzez jej

(15)

(16)

(17)

(18)

Metoda PCA

Załóżmy, że dysponujemy zbiorem M obrazów twarzy opisanych jako N2_{- wymiarowe}

wektory

które wykorzystane zostaną do wyliczenia wektorów własnych. Pierwszym krokiem jest obliczenie średniej twarzy

Każda twarz zostaje opisana przez nowy wektor powstały przez odjęcie średniej twarzy

(19)

Metoda PCA

Korzystając z tego zbioru wektorów, celem jest znalezienie M ortonormalnych wektorów u_n , które najlepiej opisują rozkład danych wejściowych. Wektor k-ty u_k jest tak dobrany, aby wyrażenie

(20)

Metoda PCA

Wektory u_k oraz skalary

(21)

Metoda PCA

1. W przypadku jednak, gdy wymiar obrazu twarzy równa się np. 50x50, N2_{= 2500,}

wymiar macierzy symetrycznej C jest równy 2500x2500.

2. Z praktycznego punktu widzenia liczenie wartości i wektorów własnych tak dużej macierzy jest bardzo nieatrakcyjne.

3. Jeśli jednak danych wejściowych jest dużo mniej niż wymiar wejściowej przestrzeni (M<<N), istnieje tylko M-1 znaczących wektorów własnych. Pozostałe

(22)

Metoda PCA

Korzystny zatem jest następujący zabieg.

Znajdźmy wektory własne v_i macierzy AT_{A , czyli}

(23)

Metoda PCA

Stad wynika, że

są szukanymi wektorami macierzy

Konstruujemy zatem macierz

o wymiarach MxM, gdzie

i znajdujemy najpierw M wektorów własnych v_i macierzy L .

(24)

Metoda PCA

1. Za pomocą tej analizy obliczenia są znacznie zredukowane.

2. Liczenie wektorów własnych macierzy o wymiarach N2_{x N}2_{( NxN – wymiar obrazu}

wejściowego) np. 2500x2500 jest zastąpione liczeniem wektorów własnych macierzy o wymiarach MxM ( M – liczba dostępnych obrazów) np. 30x30.

3. Wyliczone wartości własne pozwalają na uszeregowanie otrzymanych wektorów własnych zgodnie z ich ważnością.

(25)

Metoda PCA

1. Użytecznośd tego algorytmu wynika z postaci macierzy L. 2. Po pierwsze, ma ona o wiele niższy wymiar niż macierz C

3. Po drugie jest ona symetryczna i rzeczywista, wiec wektory i wartości własne są również rzeczywiste.

4. W praktyce liczenie wektorów i wartości własnych odbywa się za pomocą

algorytmu QR, gdzie rzeczywista, symetryczna macierz A jest dekomponowana na iloczyn macierzy ortogonalnej Q oraz macierzy górnej trójkątnej R .

5. Algorytm QR jest rzędu O(N3_{) dla każdej iteracji. Jednak ten sam algorytm jest}

rzędu jedynie O (N) dla każdej iteracji dla macierzy trójdiagonalnej. Zatem znaczne przyspieszenie obliczeo może byd osiągnięte przez przekształcenie macierzy L do postaci trójdiagonalnej za pomocą np. algorytmu Housholder’a.

(26)

Metoda PCA

Wynikiem obliczeo są obrazy bazowe tzw. eigenfaces, którymi są wektory własne macierzy C .

Przykładowe twarze uczestniczące w tworzeniu obrazów bazowych.

(27)

Metoda PCA

• Otrzymano wektory bazowe

znormalizowane, które w celu ich zaprezentowania przeskalowano na zakres [0,255] (zakres wartości pikseli). • Otrzymane eigenfaces szeregowane są zgodnie z malejącymi wartościami stowarzyszonych wartości własnych.

(28)

Metoda PCA

(29)

Metoda PCA

1. Z powyższych rachunków otrzymano zbiór obrazów (wektorów) bazowych, które wyznaczaj podprzestrzeo przestrzeni początkowej.

2. Wymiarowośd problemu została znacznie ograniczona - w powyższym przykładzie obrazy miały wymiar 100x100, wiec wymiar przestrzeni wejściowej był równy

10000, natomiast uzyskano 25 wektorów bazowych, zatem podprzestrzeo, w której odbędzie się porównanie i rozpoznanie ma wymiar 24 ( M-1 wektorów

znaczących), lub mniejszy, jako że nie ma konieczności rzutowania obrazów podlegających rozpoznaniu na wszystkie obrazy bazowe.

3. Często wystarczające jest wykorzystanie jedynie części z nich, np. takich z

największymi stowarzyszonymi wartościami własnymi, jako takimi, które niosą najwięcej informacji o wariancji w zbiorze obrazów.

(30)

Metoda PCA

1. Często bowiem wektory własne z mniejszymi wartościami własnymi niosą

informacje nieistotne, wręcz nieprzydatne, związane z szumem występującym w obrazach.

2. Niekiedy jednak nie jest to prawdą, gdyż, jeśli wśród obrazów istnieją duże różnice w jasności i oświetleniu, największe wektory własne mogą opisywad właśnie te cechy obrazów, które nie są istotne, a wręcz są niepożądane podczas rozpoznania.

(31)

Metoda PCA

Każdy obraz, także nie uczestniczący w tworzeniu obrazów bazowych, jest rzutowany na powstałą podprzestrzeo poprzez prostą operację

gdzie M’ jest liczbawybranych obrazów bazowych. Otrzymujemy wektor cech opisujący daną twarz

Wektor ten zawiera wagi linowej kombinacji dla danego obrazu, jeśli ma on zostad zrekonstruowany na podstawie obrazów bazowych.

(32)

Metoda PCA

Rekonstrukcja obrazu na podstawie wektora cech i obrazów bazowych odbywa się następująco:

(33)

Metoda PCA

(34)

Metoda PCA

Rekonstrukcja ta obarczona jest błędem, który może byd w przybliżeniu określony jako

Błąd ten rośnie, jeśli obrazy biorące udział w tworzeniu bazy różnią się znacząco miedzy sobą.

(35)

Metoda PCA

Obraz oryginalny i zrekonstruowany za pomocą 25, 12, 5 oraz 3 obrazów bazowych. Obraz brał udział w tworzeniu bazy.

(36)

Metoda PCA

Obraz oryginalny i zrekonstruowany za pomocą 25, 12, 5 oraz 3 obrazów bazowych. Obraz nie brał udziału w tworzeniu bazy.

(37)

Metoda PCA

1. Po obliczeniu obrazów bazowych, każdy obraz w bazie jest opisany za pomocą wektora cech. Wartości te są zapisywane w bazie w celu późniejszego ich

wykorzystania.

2. Każdy nowy obraz pokazany systemowi jest opisywany za pomoc wektora cech poprzez dokonanie jego projekcji na te same obrazy bazowe.

3. Powstały wektor cech użyty jest do porównania danej twarzy z innymi. Dokonuje się tego za pomoc różnego rodzaju metryk (Euklidesa, iloczyn skalarny wektorów) lub stosując bardziej wymyślne metody klasyfikacji.

(38)

(39)

(40)

Metoda PCA

Ekstrakcja składników głównych za pomocą sieci Hebba

• W celu dokonania analizy składników głównych PCA, można wykorzystad odpowiednio skonstruowaną i uczoną sied neuronów Hebba.

• W modelu Hebba wykorzystuje się obserwację neurobiologiczną, która zwraca uwagę na to, że waga połączenia między dwoma neuronami wzrasta przy

jednoczesnym pobudzeniu obu neuronów, w przeciwnym wypadku maleje. • Zmiana wag w takiej metodzie uczenia wygląda następująco:

gdzie F(.) jest funkcją sygnału wejściowego (presynaptycznego) x_j , oraz sygnału wyjściowego (postsynaptycznego) y_i .

(41)

Metoda PCA

• Do wyznaczenia pierwszego składnika głównego y₁ i odpowiadającego mu wektora W₁ za pomocą sieci Hebba, Oja zaproponował sied złożonąz jednego neuronu

liniowego, z którego otrzymuje się

Adaptacja wag odbywa się po każdorazowym podaniu wzorca na wejście

neuronu i przebiega według znormalizowanej reguły Hebba, zwanej regułą Oji:

(42)

Metoda PCA

W powyższym wzorze pierwszy składnik odpowiada regule Hebba, drugi natomiast zapewnia samonormalizację, tak aby

Estymacja wielu składników głównych wymaga wielu neuronów w warstwie wyjściowej.

Dobre rezultaty można otrzymad stosując regułę Sangera.

Przy K neuronach liniowych w warstwie wyjściowej każdy z nich generuje sygnał

(43)

Metoda PCA

Adaptacja wag następuje według wzoru

Aby użyd powyższą metodę do uzyskania wektorów cech dla danych

obrazów twarzy, należy na wejście sieci podawad znormalizowane wektory uzyskane identycznie jak w poprzednim rozdziale.

Ustalając liczbę neuronów określamy liczbę składników głównych, które zostaną wyodrębnione kolejno przez wszystkie neurony.

(44)

Metoda PCA

Odpowiednikiem wektorów własnych u_i z poprzedniej

metody są wagi danego neuronu W_i . Wektor cech powstaje z odpowiedzi y_i neuronów sieci na wzorzec przekazany na jej wejcie. Otrzymujemy zatem wektor cech w postaci

Jeżeli przez W oznaczymy macierz to

dla każdego obrazu.

(45)

Metoda PCA

• Wagi każdego neuronu uczonego tą metodą podobnie jak w poprzedniej metodzie tworzą pewien obraz bazowy przypominający

„duchową” twarz.

Każdy obraz został utworzony z wag jednego neuronu przeskalowanych na zakres [0,255].

(46)

Metoda PCA

Obraz oryginalny i zrekonstruowany za pomocą 25, 12, 5 oraz 3 obrazów bazowych otrzymanych z sieci Hebba.

(47)

Metoda PCA

Obraz oryginalny i zrekonstruowany za pomocą kolejno 25, 12, 5 oraz 3 obrazów bazowych otrzymanych z sieci Hebba.

(48)

Metoda PCA

Pytanie?

Jak obliczyd wariancję wychwyconą przez kilka pierwszych składowych głównych, jeśli są one liczone za pomocą sieci neuronowej?

(49)

Metoda ICA

Wady PCA

• Metoda rozpoznawania twarzy za pomocą składników głównych PCA słusznie cieszy się powodzeniem wśród badaczy i twórców praktycznych systemów identyfikacji.

• Nie jest ona jednak metodą doskonałą, niepozbawioną pewnych wad, mimo swojej skuteczności.

• Według wielu badaczy, ICA (ang. Independent Component Analysis), przy odpowiednich założeniach, jest skuteczniejsza niż PCA.

• W praktyce wyodrębnianie statystycznie niezależnych składowych odbywa się poprzez odpowiednio skonstruowane i uczone sieci neuronowe.

(50)

Metoda ICA

Podsumowanie ogólnego podejścia

• Każdy obraz może byd przedstawiony jako liniowa kombinacja pewnych

obrazów bazowych, które wyznaczają nowy układ współrzędnych w przestrzeni obrazów twarzy.

• Każdy obraz może byd zatem traktowany jako punkt w tej przestrzeni i opisany współrzędnymi przy wykorzystaniu rożnych układów współrzędnych (obrazów bazowych będących osiami w tej przestrzeni).

• Celem metody PCA jest dobranie takiego zbioru obrazów bazowych, aby w tym nowym układzie współrzędnych współczynniki PCA opisujące obrazy były

nieskorelowane, to znaczy, aby żaden z nich nie mógł byd przedstawiony jako liniowa kombinacja pozostałych.

• Oznacza to, że zależności statystyczne pomiędzy pikselami w obrazach zawarte w łącznym rozkładzie prawdopodobieostwa są rozdzielone poprzez

(51)

Metoda ICA

Wady metody PCA

• PCA jest w stanie usunąd jedynie zalżności statystyczne drugiego rzędu, co może byd intuicyjnie widoczne, jako że przy wyliczaniu PCA liczy się wektory własne macierzy autokorelacji, która jest w stanie opisad jedynie zależności drugiego rzędu.

• Z tego względu zależności statystyczne wyższego rzędu nadal pozostaną w opisie PCA.

(52)

Metoda ICA

• W zadaniach typu rozpoznawanie twarzy lub analiza obrazów dużo ważnej

informacji może byd zawartej w zależnościach statystycznych wyższego rzędu pomiędzy wartościami pikseli.

• Dlatego warto sprawdzid, czy metody, które byłyby uogólnieniami PCA i byłyby w stanie odseparowad te zależności na sygnały (w tym wypadku obrazy bazowe) statystycznie niezależne, nie byłyby skuteczniejsze.

(53)

Metoda ICA

PCA:

• Daje nieskorelowane współczynniki PCA

• Minimalizuje średniokwadratowy błąd rekonstrukcji danych wejściowych

• Jest to w pełni satysfakcjonujące jeśli dane wejściowe mają rozkład Gaussa. Wtedy bowiem cała informacja o rozkładzie jest zawarta w zależnościach statystycznych drugiego rzędu (macierz kowariancji).

(54)

Metoda ICA

Zaletey ICA w porównaniu do PCA

• Dostarcza lepszego probabilistycznego modelu zjawiska

• Wyznacza niekoniecznie ortogonalny układ współrzędnych, który pozwala na lepszą rekonstrukcję danych w przypadku wystąpienia dużych szumów

• Jest wrażliwa na zależności statystyczne wyższego rzędu występujące w danych wejściowych, nie tylko na zależności zawarte w macierzy kowariancji

(55)

Metoda ICA

Dwa pierwsze obrazy (po lewej) przedstawiają oryginalne twarze. Środkowe

obrazy przedstawiają te same obrazy z zaszumioną fazą. Obrazy po prawej stronie przestawiają zrekonstruowane obrazy, z tym ze każdy z nich był zrekonstruowany w oparciu o wartości amplitudy własnego widma i fazy

widma drugiego obrazu.

Przekłamania, jakie pojawiają się w wyniku takiej operacji widad gołym okiem – zrekonstruowana twarz bardziej podobna jest do twarzy, od której pochodziła składowa fazy widma. Eksperyment ten ukazuje jak ważna jest ta częśd informacji zawarta w fazie widma.

(56)

Metoda ICA

• Związek miedzy tym eksperymentem a metodami PCA i ICA jest następujący: zależności statystyczne drugiego rzędu wychwytują informację zawartą jedynie w amplitudzie widma danego obrazu (czy tez ogólniej sygnału).

• Informacja niesiona przez fazę widma jest zawarte w zależnościach wyższego rzędu. W pokazanych powyżej obrazach zmiana wyglądu dla ludzkiego oka jest kolosalna, jednak zależności drugiego rzędu nie zostały zmienione.

(57)

Metoda ICA

Definicja ICA

• Metoda ICA (w swej podstawowej formie) jest definiowana jako przekształcenie liniowe

• Kryteria doboru macierzy tego przekształcenia (tzn. wektorów bazowych) są inne niż dla PCA, mianowicie parametrem, który jest maksymalizowany jest tutaj

– wzajemna statystyczna niezależnośd wektorów bazowych,

– lub też statystyczna niezależnośd współczynników ICA (odpowiedników parametrów linowej kombinacji z metody PCA).

(58)

Metoda ICA

W metodzie ICA zakłada się, że obserwowane są wektory

których każda składowa jest liniową kombinacją pewnych niezależnych statystycznie komponentów

Zakładamy, że każdy niezależny komponent s_k oraz każda liniowa kombinacja x_j jest zmienną losową (w innym podejściu może byd traktowana jako sygnał czasowy).

Zakładamy, że wektory s oraz x mają zerową średnią wartośd. W przypadku, gdy nie jest to spełnione, zawsze można to osiągnąd poprzez odjeście od każdego wektora x wektora średniego. Powyższy model można zapisad w postaci

(59)

Metoda ICA

• ICA opisuje proces mieszania składników niezależnych s_k poprzez pewien

proces, tutaj założony jako proces liniowej kombinacji dokonywany za pomocą macierzy A .

• Przykładem takiego procesu jest nagrywanie za pomocą dwóch (lub więcej) mikrofonów dwóch osób mówiących jednocześnie. Dysponujemy dwoma nagraniami (składowe wektora x ), które powstały w wyniku zmieszania dwóch sygnałów mowy, które przebiegały w sposób niezależny (składowe wektora s ).

(60)

Metoda ICA

Procedura ICA

W modelu ICA obserwujemy jedynie wektory x, nieznane są natomiast wektory s oraz macierz mieszająca A .

• Celem jest oszacowanie zarówno A jak i s. Punktem wyjścia analizy ICA umożliwiającym takie oszacowanie jest założenie statystycznej niezależności składowych s_k wektora s .

• Zakłada się również, że składowe niezależne nie maja rozkładu prawdopodobieostwa Gaussa.

(61)

Metoda ICA

Po oszacowaniu macierzy A można policzyd jej macierz odwrotną i otrzymad równanie

którym szacuje się nieznane składniki niezależne.

Z faktu iż zarówno macierz A jak i wektor s są nieznane, wynika, że nie można oszacowad wariancji oraz kolejności składników niezależnych.

(62)

Metoda ICA

Statystyczna niezależnośd

Intuicyjnie rzecz ujmując, dwie zmienne losowe s₁ i s₂ są statystycznie

niezależne, jeżeli wiedza o wartościach jednej z nich nie daje żadnej informacji o wartościach drugiej.

(63)

Metoda ICA

Statystyczna niezależnośd

• Formalnie niezależnośd statystyczną definiuje się przez funkcję gęstości prawdopodobieostwa.

• Jeśli przez p₁(s₁) i p₂(s₂) oznaczymy funkcje gęstości prawdopodobieostwa odpowiednio zmiennej s₁ i s₂, a przez p(s₁, s₂) łącznych rozkład

prawdopodobieostwa s₁ i s₂, to s₁ i s₂ są statystycznie niezależne wtedy i tylko jeśli zachodzi związek

p(s₁, s₂) = p₁(s₁) * p₂(s₂) przy czym

(64)

Metoda ICA

Z definicji wynika, że

gdzie h_i(.) są funkcjami skalarnymi

Zmienne s₁ i s₂ są nieskorelowane, jeśli

Widad więc, że niezależnośd zawiera w sobie nieskorelowanie zmiennych, natomiast zmienne nieskorelowane niekoniecznie muszą byd niezależne. Powyższe definicje rozciągnąd można na większą liczbę zmiennych s_i.

(65)

Metoda ICA

Przykład:

• Statystyczna niezależnośd dwóch zmiennych oraz proces ich mieszania poprzez macierz A.

Zmienne s₁ oraz s₂ mają rozkład jednostajny dany równaniem

(66)

Metoda ICA

Z poniższych rysunków widad, że zmienne s₁ i s₂ są niezależne – wartośd jednej z nich nic nie mówi o wartości drugiej.

Natomiast widad, iż x₁ i x₂ nie są niezależne, gdyż jeśli jedna z nich zmierza do minimum lub maksimum, jednocześnie determinuje wartośd drugiej.

(67)

Metoda ICA

• Widad, iż kolumny macierzy A wskazują kierunki brzegów równoległoboku (ich środki).

• Natomiast jeśli przyjmiemy rozkład prawdopodobieostwa Gaussa dla s₁ i s₂ oraz mieszającą macierz A ortogonalną, to również x₁ i x₂ mają rozkład Gaussa

(68)

Metoda ICA

• Z rysunku takiego rozkładu widad (poniżej), że jest on całkowicie symetryczny i nie daje żadnej informacji o kierunkach kolumn macierzy A . Nie można

zatem wyznaczyd macierzy A dla zmiennych gaussowskich.

(69)

Metoda ICA

Nie-gausowskośd a statystyczna niezależnośd

• Z powyższych wywodów wynika, że założenie, iż zmienne losowe podlegające analizie ICA nie mogą mied rozkładu Gaussa jest fundamentalne.

• Z twierdzenia znanego w statystyce jako Centralne Twierdzenie Graniczne, wynika, że pod pewnymi warunkami, łączny rozkład prawdopodobieostwa sumy niezależnych statystycznie zmiennych losowych dąży do rozkładu Gaussa. • Z tego wynika, że suma zmiennych losowych niezależnych zazwyczaj ma

rozkład bliższy rozkładowi Gaussa niż rozkład którejkolwiek z oryginalnych zmiennych losowych.

(70)

Metoda ICA

Załóżmy, że macierz W jest macierzą odwrotnąmacierzy mieszającej A , oraz że chcemy oszacowad jeden z niezależnych składników oznaczony jako

Szukamy zatem takiego wektora w, aby y_j był estymacją jednego ze składników niezależnych s_j .

Okazuje się, że można do tego użyd Centralnego Twierdzenia Granicznego. Jeśli przez z oznaczymy otrzymamy następującą zależnośd

(71)

Metoda ICA

Wektor y jest zatem liniową kombinacją nieznanych niezależnych elementów s_i.

Jako, że są one niezależne, z Centralnego Twierdzenia Granicznego

wynika, że jakakolwiek ich suma (także ważona z wagami z_i ) będzie miała rozkład bardziej gaussowski niż jakikolwiek ze składników tej sumy.

Zatem wynik operacji

ma rozkład bardziej gausowski niż jakikolwiek składnik s_i , z kolei najbardziej się on

będzie różnił od rozkładu Gaussa, jeśli będzie się równał jednemu ze składników s_i, co z kolei będzie spełnione, jeśli tylko jeden element wektora z będzie

(72)

Metoda ICA

• Jeśli tak się stanie, zmiana w kierunku gausowskości wT_{x będzie osiągad}

minimum.

• W prosty zatem sposób można odwrócid rozumowanie i powiedzied, że jeśli dobierzemy taki wektor w , który maksymalizuje nie-gausowskośd wT_{x , to taki}

wektor w będzie odpowiadał wektorowi z z tylko jednym elementem niezerowym, zatem wynik mnożenia

(73)

Metoda ICA

Powyższe rozumowanie jest w dużej części heurystyczne, jednak stanowi

punkt wyjścia dla metod jak najbardziej nadających się do praktycznej estymacji składników niezależnych.

Należy:

• zainicjowad wektor w

• zmieniad go iteracyjnie w kierunku, w którym gausowskośd wT_{x jest}

minimalizowana. Pytanie:

(74)

Metoda ICA

Istnieje wiele metod określania stopnia, w jakim rozkład danej zmiennej losowej jest podobny do rozkładu Gaussa.

Zakładamy, że zmienna losowa y ma średnią wartośd równą zero i wariancję równą jeden.

(75)

Metoda ICA

Kurtoza

Klasyczną metodą pomiaru gausowskości rozkładu jest moment statystyczny czwartego rzędu zwany kurtozą.

Definicja:

Kurtoza dla zmiennych losowych gausowskich jest równa zero, dla pozostałych w przeważającej większości przypadków jest różna od zera.

Kurtoza może byd mniejsza lub większa od zera, zatem w celu określenia stopnia gausowskości rozkładu należy użyd jej absolutnej wartości.

(76)

Metoda ICA

Kurtoza

Posiada ona dwie ważne z punktu widzenia analitycznego i praktycznego właściwości

gdzie alfa to skalar

W praktyce estymacje kurtozy mogą byd bardzo czułe na niewielkie błędy

pomiarowe i sprawiad, że estymacje te obarczone są zbyt dużym błędem, by mogły byd praktycznie użyteczne.

(77)

Metoda ICA

Entropia

Entropia zmiennej losowej może byd rozumiana jako ilośd informacji, jaką można otrzymad poprzez obserwacje danej zmiennej losowej.

Im bardziej losowa jest ta zmienna (nieuporządkowana i nieprzewidywalna), tym większa jest jej entropia.

Definicja entropii dla zmiennej losowej ciągłej Y jest następująca :

a dla zmiennej losowej dyskretnej y

(78)

Metoda ICA

• Fundamentalnym twierdzeniem teorii informacji jest stwierdzenie, że zmienna losowa o rozkładzie Gaussa ma największą entropię spośród

wszystkich zmiennych losowych o zadanej wariancji.

• Z tego wynika, że entropia może byd miarą gausowskości danego rozkładu. Aby otrzymad miarę gausowskości równą zero dla rozkładu Gaussa oraz zawsze większ od zera dla pozostałych zmiennych losowych definiuje się pojęcie

negentropii J

gdzie y_gauss jest zmienną losową o rozkładzie Gaussa oraz tej samej wariancji co zmienna y

(79)

Metoda ICA

Wada negentropii

Negentropia jako miara gausowskości ma ważną wadę, a mianowicie

wymaga estymacji funkcji rozkładu prawdopodobieostwa zmiennej losowej, co w praktyce może przysparzad problemy. Dlatego też, zamiast stosowad ją w praktyce bezpośrednio, używa się innych estymatorów.

(80)

Metoda ICA

Inne rozwiązanie to estymacja negentropii za pomocą równania

gdzie v jest zmienną losową o rozkładzie Gaussa o zerowej średniej wartości i jednostkowej wariancji, a G to odpowiednio dobrana funkcja niekwadratowa. Dowiedziono, że następujące funkcje G dobrze sprawdzają się w

(81)

Metoda ICA

Przygotowanie danych wejściowych

• Podstawowym zabiegiem dokonywanym na danych wejściowych jest

uczynienie z nich danych o zerowej średniej wartości. Jeśli danymi wejściowymi są wektory x , można tego dokonad poprzez odjęcie od każdego z nich średniego wektora rozumianego jako m=E{x}

• Następną operacją jest zabieg określany angielskim terminem wybielania (ang. whitening). Polega to na przekształceniu danych poprzez liniową transformację w nowe dane, które sąnieskorelowane oraz o zerowej wariancji tzn.

(82)

Metoda ICA

Jest to zawsze możliwe. Popularną metodą jest wykonanie dekompozycji do postaci

gdzie B jest macierz ortogonalną złożoną z wektorów własnych macierzy

a D jest macierz diagonalną z odpowiadającymi wektorom wartościami własnymi

Następnie dokonuje się przekształcenia

(83)

Metoda ICA

Algorytm FastICA

• Estymacja składników ICA w metodzie FastICA polega na wyodrębnieniu tych składników poprzez siec neuronową uczoną bez nauczyciela (bez nadzoru).

• Podobnie jak w metodzie estymacji składników PCA siecią Hebba, tak i teraz każdy neuron ma za zadanie wyodrębnid jeden składnik ICA.

• W tym przypadku jednak kolejnośd wyodrębnianych składników ICA nie ma większego znaczenia i zależy ona od początkowych losowych wartości wag każdego neuronu.

• Sied ma za zadanie estymowad macierz W dokonując przekształcenia y =Wx , gdzie y jest poszukiwanym wektorem składników ICA.

(84)

Metoda ICA

Algorytm FastICA

• Neurony mają zdolnośd adaptacji swoich wag w zależności od przykładowych danych uczących oraz od składników ICA wyodrębnionych wcześniej przez inne neurony, co ma na celu zapobiec zbieżności różnych neuronów do tego

samego składnika ICA.

• Algorytm opiera się na maksymalizowaniu nie gausowskości wyników mnożenia wT_{x dla każdego neuronu, gdzie w jest wektorem wag danego neuronu.}

• Wariancja wT_{x musi byd równa jedności, co dla danych poddanych wstępnej}

(85)

Metoda ICA

Algorytm FastICA

Poprzez funkcje g oznaczamy pochodne funkcji G wprowadzonych wcześniej dla estymacji gausowskości rozkładu zmiennych losowych. Dla przykładowych funkcji podanych wcześniej wynoszą one odpowiednio

(86)

Metoda ICA

Algorytm dla jednego neuronu przebiega następująco: 1. Zainicjuj losowo wagi w neuronu

2. Przeprowad adaptację wag neuronu zgodnie z równaniem

3. Normalizuj wektor wag

4. Jeśli aktualne rozwiązanie nie jest zbieżne, wród do punktu 2

Rozwiązanie jest zbieżne, jeśli nowe i stare wartości wag różnią się od

siebie mniej niż pewna wartośd graniczna, np. ich iloczyn skalarny jest bliski jedności.

(87)

Metoda ICA

Powyższym sposobem można otrzymad estymację jednego składnika ICA. Dla estymacji każdego kolejnego, należy wprowadzid dodatkowy krok

w algorytmie zapobiegający zbieganiu się rozwiązao kolejnych neuronów do już znalezionych rozwiązao. Aby to osiągnąd, wyjścia wszystkich neuronów

(88)

Metoda ICA

Jednym ze sposobów na dokonanie tego jest schemat Grama-Schmidta.

W podejściu tym estymujemy kolejne składniki ICA jeden po drugim. Jeśli wektory wag

zostały już obliczone, podczas liczenia wektora wag p_{w + 1} po każdej iteracji dokonujemy dodatkowych dwóch kroków

(89)

Metoda ICA

• W ten sposób można otrzymad estymację dowolnej liczby wzajemnie niezależnych składników ICA.

• Powyższy algorytm ma tę zaletę nad algorytmami gradientowymi, iż nie występuje w nim współczynnik uczenia, zatem nie ma potrzeby doboru odpowiedniej długości kroku podczas adaptacji wag.

• Jego zbieżnośd również jest szybsza niż algorytmów gradientowych. • Nie potrzebne jest również określenie estymacji funkcji rozkładu

prawdopodobieostwa danych wejściowych.

• Algorytm można optymalizowad poprzez odpowiedni dobór funkcji g , jednak te przedstawione powyżej sąwystarczające w większości wypadków.

(90)

Metoda ICA

Algorytm InfoMax

• Jest to inny algorytm do liczenia składników ICA, również oparty na architekturze sieci neuronowej.

• Oparty jest na zasadzie minimalizowanie informacji wzajemnej (ang. Mutual information)

(91)

Metoda ICA

Dwie architektury ICA dla obrazów

• Celem jest znalezienie odpowiednich bazowych obrazów, za pomocą których można reprezentowad dowolny obraz poddawany analizie.

• Każdy obraz może byd zorganizowany jako długi wektor o długości równej liczbie jego pikseli.

(92)

Metoda ICA

• W pierwszym sposobie każdy wiersz macierzy X utworzony jest z wektora reprezentującego jeden obraz.

• W tym podejściu obrazy są zmiennymi losowymi a wartości pikseli sąpomiarami (tworząkolejne kolumny macierzy X ).

• W tym przypadku możemy mówid o niezależności obrazów, co będzie miało miejsce wtedy, gdy nie będzie można powiedzied nic o wartości, jak

przyjmuje dany piksel w obrazie na podstawie wartości odpowiedniego piksela w drugim obrazie.

(93)

(94)

Metoda ICA

• W sposobie drugim każda kolumna macierzy X stanowi wektor reprezentujący jeden obraz.

• W tym podejściu piksele są zmiennymi losowymi a obrazy kolejnymi pomiarami.

• W tym przypadku mówi się o niezależności pikseli, co będzie miało miejsce wtedy, gdy nie można stwierdzid nic o wartości piksela i-tego na podstawie wartości piksela j-tego w tym samym obrazie.

(95)

(96)

Metoda ICA

Problemy

• Niezależnie od wyboru architektury, pojawia się problem, jeżeli dostępnych obrazów jest zbyt wiele, gdyż zadanie staje się wymagające obliczeniowo i bardzo szybko może stad się niepraktyczne z powodu dużych wymogów obliczeniowych.

• Dlatego tez zamiast stosowad powyższe architektury bezpośrednio na obrazach, wykorzystuje się metodę PCA jako pierwszy krok dla ICA. • Przyspiesza to również działanie algorytmu.

(97)

Metoda ICA

Uwaga

• W architekturze pierwszej celem było otrzymanie niezależnych statystycznie obrazów bazowych, jednak gdy zostanie to osiągnięte, otrzymane współczynniki opisujące liniową kombinację obrazów bazowych ICA niekoniecznie są

(98)

(99)

Metoda ICA

Powyższe obrazy należy interpretowad następująco:

• Architektura pierwsza ICA stara się wyodrębnid grupy pikseli, które mają podobne właściwości we wszystkich obrazach. Otrzymujemy, zatem obrazy

bazowe niezależne od siebie (na tyle na ile było to możliwe dla algorytmu). Widad, że obrazy te przedstawiają bardziej lokalne cechy, na podstawie których

następnie rekonstruowana jest dana twarz.

• W architekturze drugiej natomiast ICA stara się wykryd te obrazy, które mają podobne cechy analizując kolejno poszczególne piksele obrazów. Dlatego

obrazy bazowe przypominają bardziej twarze niż obrazy z architektury pierwszej. ICA architektury drugiej stara się uśrednid obrazy należące do tej samej

osoby. Obrazy bazowe nie są niezależne, niezależne są natomiast współczynniki ICA otrzymane poprzez rzutowanie obrazów na bazę.

(100)