• Nie Znaleziono Wyników

10. Redukcja wymiaru - metoda PCA

N/A
N/A
Protected

Academic year: 2021

Share "10. Redukcja wymiaru - metoda PCA"

Copied!
14
0
0

Pełen tekst

(1)

Algorytmy rozpoznawania obrazów

10. Redukcja wymiaru - metoda PCA

dr in˙z. Urszula Libal Politechnika Wrocławska

(2)

1. PCA

Analiza składowych głównych:

— w skrócie nazywana PCA (od ang. Principle Component Analysis)

— znana tak˙ze transformacj ˛a Karhunena-Loeve’go (KLT).

— Polega na wybraniu k ortogonalnych n-wymiarowych wektorów, które najlepiej repre- zentuj ˛a dane, k ≤ n.

— Oryginalne dane s ˛a rzutowane na przestrze´n rozpi˛et ˛a przez k wybranych wektorów (składowe główne), co prowadzi do redukcji wymiaru wektorów cech (z n do k).

(3)

2. PCA w kilku krokach

1. Unormowanie cech

2. Obliczenie składowych głównych

3. Sortowanie składowych głównych od najmocniejszych do najsłabszych 4. Wybranie k znacz ˛acych składowych głównych i usuni˛ecie pozostałych

(4)

2.1. Unormowanie

— Dane wej´sciowe (wektory cech) s ˛a unormowane, aby ka˙zda cecha wpadała do tego samego przedziału.

— Krok ten pomaga w zapewnieniu, ˙ze cechy szerzej rozło˙zone nie zdominuj ˛a cech mocniej skoncentrowanych.

(5)

2.2. Obliczenie składowych głównych

— Nast˛epnie wylicza si˛e k ortonormalnych wektorów, które tworz ˛a baz˛e

dla unormowanych danych wej´sciowych. Wektory te s ˛a to wektory jednostkowe, wskazuj ˛ace w kierunku prostopadłym do pozostałych wektorów z utworzonej bazy.

Procedura PCA polega na wyliczeniu warto´sci własnych λ1S, λ2S, . . . , λnSmacierzy

rozproszenia danych, np. macierzy kowariancji S. Dane s ˛a reprezentowane przez zestaw N wektorów cech x = (x1, x2, . . . , xn)T o n wymiarach, tj.

n

x(1), x(2), . . . , x(N)o .

(6)

Macierz rozproszenia S wyliczamy ze wzoru

S=

N i=1



x(i)− x 

x(i)− xT

, (1)

gdzie x(i)to wektory cech, i = 1, 2, . . . , N, a x to ich empiryczna ´srednia.

Nast˛epnie wyznacza si˛e wektory własne oraz warto´sci własne macierzy S, np. przy pomocy dekompozycji macierzy do postaci (tzw. rozkład spektralny macierzy S, [2])

S= AΛAT, (2)

gdzie A to macierz wektorów własnych, a Λ to macierz diagonalna, na przek ˛atnej której znajduj ˛a si˛e warto´sci własne macierzy S: λdS, d = 1, 2, . . . , n.

(7)

2.3. Sortowanie składowych głównych

— Uporz ˛adkowujemy warto´sci własne macierzy kowariancji S w kolejno´sci malej ˛acej

λ1S> λ2S> . . . > λnS> 0. (3)

— Redukcja cech opiera si˛e na wyznaczeniu podzbioru cech w nowej przestrzeni, roz- pi˛etej przez ortonormalne składowe główne. Nowy zestaw cech po transformacji jest wyznaczony według zasady maksymalizuj ˛acej zmienno´s´c danych wraz z jednoczesn ˛a minimalizacj ˛a ubytku informacji spowodowanej ich redukcj ˛a.

(8)

2.4. Selekcja k składowych głównych

Analiza skumulowanej wariancji k składowych głównych (k6 n) opiera si˛e na procentowej mierze var wyja´sniania zmienno´sci danych przez pierwszych k składowych głównych, która jest zdefiniowana nast˛epuj ˛aco

var= kd=1λdS

nd=1λdS

!

× 100%. (4)

Technika PCA zakłada, ˙ze je˙zeli warto´sci danej cechy wd(d = 1, 2, . . . , n) charakteryzuj ˛a si˛e du˙z ˛a wariancj ˛a, a odpowiadaj ˛aca jej warto´s´c własna λdSprzyjmuje du˙z ˛a warto´s´c, to cecha ta posiada du˙z ˛a warto´s´c informacyjn ˛a, np. dobrze dyskryminuje obiekty z ró˙znych klas.

(9)

Redukcja wymiaru polega na wybraniu tylko tych składowych głównych (k składowych z n), dla których zmienno´s´c danych var (4) jest nie mniejsza od zało˙zonego procentu wyja´snianej zmienno´sci danych (np. 90%).

(10)

W ostatnim kroku dokonujemy transformacji (rzutowania) wektorów cech x(i), i= 1, 2, . . . , N, do nowego układu współrz˛ednych rozpi˛etego przez wektory własne macierzy S. Przekształcenie to jest zwane rozwini˛eciem lub transformacj ˛a

Karhunena-Loevego (patrz np. [5]).

Wektory cech x(i)zostaj ˛a przemno˙zone przez macierz An×kzawieraj ˛ac ˛a tylko k kolumn macierzy wektorów własnych A, odpowiadaj ˛acych k najwi˛ekszym warto´sciom własnym,

x0= ATn×kx. (5)

(11)

W wyniku obrotu układu współrz˛ednych n-wymiarowe wektory cech x(i)zostaj ˛a w ten sposób przekształcone w wektory cech x0= (x01, x02, . . . , x0k)T o jedynie k składowych.

Transformacja Karhunena-Loevego posiada t˛e własno´s´c, ˙ze dowolna para współrz˛ednych nowego układu (tj. cech x0n

1 i x0n

2, n1, n2∈ {1, 2, . . . , n}) jest wzajemnie nieskorelowana (patrz np. [5]). Dlatego transformacja Karhunena-Loevego mo˙ze zosta´c u˙zyta w celu usuni˛ecia korelacji cech. Z kolei wektory cech poddane selekcji przy u˙zyciu metody PCA mog ˛a nast˛epnie zosta´c u˙zyte przy klasyfikacji obiektów.

(12)

3. Kernel PCA

Rysunek 2. Przykład j ˛adrowego PCA z gaussowskim j ˛adrem κ(x, x0) = exp(−||x − x0||2/0.1).

Zródło: [6]´

(13)

4. Eigenfaces

(14)

Literatura

[1] J. Han, M. Kamber, J. Pei, Data Mining: Concepts and Techniques, 3rd ed., Elsevier, (2012)

[2] J. Koronacki, J. ´Cwik, Statystyczne systemy ucz ˛ace si˛e, WNT, Warszawa (2005) [3] M. Turk and A. Pentland, Face recognition using eigenfaces, Proc. IEEE Conference on Computer Vision and Pattern Recognition, pp. 586–591, (1991)

[4] A.R. Webb, K.D. Copsey, Statistical Pattern Recognition, 3rd ed., Wiley (2011) [5] W. Sobczak, W. Malina, Metody selekcji i redukcji informacji, WNT, Warszawa (1985) [6] C.M. Bishop, Pattern Recognition and Machine Learning, Springer Series: Information Science and Statistics (2006)

Cytaty

Powiązane dokumenty

Wykonuje siê oznaczenia parametrów prze- strzeni porowej, badania przepuszczalnoœci wzglêdnych (Such & Leœniak, 2004) i testy zwil¿alnoœci Amotta (Donaldson & Tiabb,

:UDPDFKNUDMyZNWyUHE\ã\F]ãRQNDPL8QLLXURSHMVNLHMSU]HGMHMUR] V]HU]HQLHPZUZRNUHVLH²WHU\WRULDOQH]UyŧQLFRZDQLHSU\ZDW

Po określeniu zakresu badań następuje etap identyfikacji 3, na który składa się identyfikacja potrzeb informacyjnych 3.1, polegająca na zgromadzeniu danych dotyczących

• metoda składowych atomowych ma znacznie krótsze czasy wyszukiwania odpowiedzi na pytania elementarne niż na ogólne z wyjątkiem modyfikacji odcinkowej i dekompozycji atrybutowej.

 Nastepnie odsącza się zawiesinę drożdży na lejku Büchnera poprzez 3 mm złoże celitu (jeżeli w przesączu są wyraźnie widoczne pozostałości drożdży operację

Jeżeli faza wodna zawiera 2-nitroanilinę to należy powtórzyć ekstrakcję jeszcze jedną porcją octanu etylu (50 cm 3 ). 7) Ekstrakty organiczne połącz i wysusz

zmienną o niewielkim znaczeniu dla opisu zmienności kosztów handlo­ wych. Uzyskane rezultaty, jakkolwiek bardzo cenne z punktu widzenia wymogów estymacji, nie dają jednak odpowiedzi

Wydaje się jasne, że ogólny kierunek myślenia Komisji jest taki, że struktury zarządzania na większości uniwersytetów w Europie są przestarzałe, nie przystają