A Zagadnienie własne

(1)

Redukcja wymiarowości

Marcin Orchel

1 Wstęp

Interpretacja oparta na danych. Jak znaleźć transformację liniową punktów taką aby punkty po transformacji były jak najbardziej „rozrzucone”.

1.1 Analiza głównych składowych

Mamy dane zmienne losowe X₁, . . . , Xm. Mamy tak przetransformować liniowo te zmien- ne do zmiennych Y₁, . . . , Y_m, aby Y₁ miała największą wariancję spośród zmiennych Y , później Y₂ aby miała największą wariancję spośród pozostałych zmiennych, itd., oraz aby wszystkie zmienne losowe były ze sobą nieskorelowane.

Analiza problemu dla dwóch zmiennych losowych X₁ i X₂. Na początku zajmiemy się znalezieniem Y₁, a później Y₂ takich, że

Y₁ = e₁₁X₁+ e₁₂X₂ (1)

Y2 = e₂₁X1+ e₂₂X2 (2)

Nowe zmienne Y₁, Y₂ nazywamy głównymi składowymi.

var (Y1) = var (e₁₁X1+ e₁₂X2) = e²₁₁var (X1) + e²₁₂var (X2) + 2e₁₁e12cov (X1, X2) (3) Celem jest maksymalizacja (3), gdzie zmienną jest ~e₁. Jest to problem z zakresu progra- mowania kwadratowego. Możemy (3) zapisać równoważnie macierzowo jako

var (Y1) = ~e1TΣ ~e1 (4) gdzie Σ to macierz kowariancji.

Aby miał on jednoznaczne rozwiązanie wprowadzamy dodatkowy warunek

k ~e₁k² = 1 . (5)

Chcemy zastosować metodę Lagrange’a do rozwiązania. Włączamy ten warunek do (3) za pomocą mnożników Lagrange’a. Następnie rozwiązujemy równanie

D ~e₁^TΣ ~e₁+ Dλ1 − k ~e₁k²= 0 , (6)

(2)

gdzie D oznacza pochodną. Pochodna po λ sprowadza się do warunku (5). Dla pochodnej po ~e₁, dla normy euklidesowej otrzymujemy równanie:

2Σ ~e₁− 2λ ~e₁ = 0 (7)

Po podzieleniu przez 2

Σ ~e1− λ ~e1= 0 (8)

Jest to równanie na wektory i wartości własne. Wektory własne wybieramy tak aby speł- nione było (5). Po rozwiązaniu tego równania wybieramy rozwiązanie maksymalizujące wariancję. A zatem podstawiając (8) do (4) otrzymujemy

var (Y₁) = ~e₁^Tλ ~e₁ = λ k ~e₁k²= λ (9) Ostatnie przejście było po podstawieniu (5). Z tego wynika, że trzeba wziąść maksymalne λ i jemu odpowiadający wektor własny.

W drugim kroku musimy maksymalizować wariancję Y₂, czyli

var (Y₂) = var (e₂₁X₁+ e₂₂X₂) = e²₂₁var (X₁) + e²₂₂var (X₂) + 2e₂₁e₂₂cov (X₁, X₂) (10) Zapisujemy powyższe w postaci macierzowej

var (Y₂) = ~e₂^TΣ ~e₂ (11) Aby miał on jednoznaczne rozwiązanie wprowadzamy dodatkowy warunek

k ~e2k² = 1 . (12)

Ponadto chcielibyśmy aby zmienna Y₂ nie była skorelowana ze zmienną Y₁, czyli ich kowariancja musi być 0

cov (Y2, Y1) = 0 (13)

cov (Y₂, Y₁) = cov (e₂₁X₁+ e₂₂X₂, e₁₁X₁+ e₁₂X₂) = (14) e₁₁e₂₁var (X₁) + e₁₂e₂₁cov (X₁, X₂) + e₁₁e₂₂cov (X₁, X₂) + e₁₂e₂₂var (X₂) = 0 (15) Można to zapisać w postaci macierzowej

~

e2TΣ ~e1 = 0 (16)

A następnie podstawiając (8) do powyższego (jest to warunek, który spełnia wektor ~e₁)

~

e2T · λ ~e1= 0 (17)

~

e1· ~e2 = 0 (18)

Czyli mamy dwa dodatkowe warunki do problemu optymalizacyjnego. Włączając pierw- szy z nich do problemu optymalizacyjnego za pomocą mnożników Lagrange’a otrzymujemy:

D ~e₂^TΣ ~e₂+ λ₂D1 − k ~e₂k²= 0 . (19)

(3)

Dla normy euklidesowej otrzymujemy

Σ ~e2− λ ~e2 = 0 . (20)

Znaleziony wektor ma być ortogonalny do poprzednio znalezionego, a zatem ponieważ wektory własne są ortogonalne do siebie dla różnych wartości λ wybieramy maksymalną wartość λ różną od pierwszej wybranej.

Interpretacja geometryczna. Wektor własny wskazuje kierunek największej zmien- ności, to znaczy punkty zrzutowane na prostą równoległą do tego wektora będą miały największą zmienność wartości po zrzutowaniu. Możemy to zauważyć w ten sposób, że wartości Y₁ są marginesem funkcyjnym prostej e₁₁X1+ e₁₂X2= 0, a więc wartości mar- ginesu będą wartościami na dowolnej prostej prostopadłej do e₁₁X1+ e₁₂X2= 0 tak aby wartość 0 była w miejscu gdzie margines funkcyjny jest równy 0. Dla większej niż 2 liczby wymiarów również będziemy mieli prostą równoległą do wektora kierunku płaszczyzny.

Przykład. Dla dwóch zmiennych losowych X₁ i X₂ mamy znaleźć zmienną Y₁ = e₁₁X₁+ e₁₂X₂ oraz Y₂= e₂₁X₁+ e₂₂X₂.

Np. powiedzmy, że mamy rozkład dyskretny: X₁ przyjmuje wartości z prawdopodo- bieństwami: (1, 0.3) , (2, 0.5) , (4, 0.2), natomiast X₂: (1, 0.2) , (2, 0.3) , (4, 0.5). Na począt- ku tworzymy macierz kowariancji:

E (X1) = 0.3 + 1 + 0.8 = 2.1 (21)

E (X₂) = 0.2 + 0.6 + 2 = 2.8 (22)

Wariancje wynoszą odpowiednio:

var (X₁) = 1.1²∗ 0.3 + 0.1²∗ 0.5 + 1.9²∗ 0.2 = 1.09 (23) var (X₂) = 1.8²∗ 0.2 + 0.8²∗ 0.3 + 1.2²∗ 0.5 = 1.56 (24) Mamy dystrybucję wspólną:

(1, 1, 0.06) , (1, 2, 0.09) , (1, 4, 0.15) , (2, 1, 0.1) , (2, 2, 0.15) , (2, 4, 0.25) (25) (4, 1, 0.04) , (4, 2, 0.06) , (4, 4, 0.1) (26) E (X₁X₂) = 0.06 + 0.18 + 0.6 + 0.2 + 4.2 + 0.016 + 0.48 = 5.736 (27) A więc

cov (X1, X2) = E (X₁X2) − E (X₁) E (X₂) = E (X₁X2) − 5.88 = 5.736 − 5.88 = −0.144 (28) Mając macierz kowariancji wyznaczamy wartości i wektory własne:

λ1 = 1.6006 (29)

λ2 = 1.0494 (30)

~

e₁= (−0.27143, 0.96246) (31)

(4)

~

e2 = (−0.96246, −0.27143) (32)

Widzimy, że wektory własne są ortogonalne do siebie. Długości wektorów własnych są równe 1. Jeśli nie byłyby równe 1, to możemy podzielić współrzędne przez długość wektora. Otrzymujemy

Y1= −0.27X₁+ 0.96X₂ (33)

Y2= −0.96X₁− 0.27X₂ (34)

Mamy również

var (Y₁) = λ₁ = 1.6006 (35)

var (Y₂) = λ₂ = 1.0494 (36)

Widzimy, że wariancja var (Y₁) ≥ var (X₁) i var (Y₁) ≥ var (X₂). Widzimy, że

var (Y1) + var (Y₂) = λ₁+ λ₂ = var (X₁) + var (X₂) . (37) Możemy naszkicować wykres na którym znajdą się wektory ~e1 i ~e2, a także proste równoległe do tych wektorów

− 0.96 (X₁− 2.1) − 0.27 (X₂− 2.8) = 0 (38)

− 0.27 (X₁− 2.1) + 0.96 (X₂− 2.8) = 0 (39) Widzimy, że do budowy pierwszej prostej został wzięty wektor prostopadły do pierwszego wektora własnego, tak aby była równoległa do wektora własnego. Proste zostały prze- sunięte w ten sposób aby dla wartości oczekiwanej dystrybucji wspólnej wariancja była zero. Dodatkowe liczby w nawiasach wpływają tylko na wartość wyrazu wolnego b. A więc nie zmieniliśmy kierunku. Proste te wraz z kierunkiem, mogą być traktowane jako nowy układ współrzędnych. Proste na wolframalpha.com, http://www.wolframalpha.com/

input/?i=-0.27%28x-2.1%29%2B0.96%28y-2.8%29%3D0%2C+-0.96%28x-2.1%29-0.27%

28y-2.8%29%3D0.

Przykład z punktami. Mamy dane punkty (−1, −1), (0, 0), (1, 1). Punkty wybraliśmy tak, aby estymowane wartości oczekiwane były 0 dla każdego kierunku. Jeśli by nie były należy odjąć średnią po każdej kolumnie od każdego elementu danej kolumny. Estymowa- na macierz kowariancji https://www.wolframalpha.com/input/?i=transpose(%7B%

7B-1,-1%7D,%7B0,0%7D,%7B1,1%7D%7D)*(%7B%7B-1,-1%7D,%7B0,0%7D,%7B1,1%7D%7D)

%2F2. Estymowane wektory własne i wartości własnehttp://www.wolframalpha.com/

input/?i=eigenvectors+%7B%7B1,1%7D,%7B1,1%7D%7D.

Nowe współrzędne dla danego punktu wyznaczamy za pomocą iloczynu skalarnego punktu i wektorów własnych. Możemy również zapisać to równanie dla wszystkich roz- patrywanych punktów macierzowo jako iloczyn macierzy punktów i macierzy wektorów własnych zapisanych kolumnowo.

(5)

1.1.1 Redukcja wymiarowości Obliczamy wskaźnik

λ1+ . . . + λ_k

λ1+ . . . + λ_m . (40)

Usuwamy wszystkie składowe główne, dla których wskaźnik (40) jest mniejszy od przy- kładowo 0.8.

Innym sposobem jest pominięcie składowych, które są mniejsze od średniej λ = 1

m

X

i=1

λi . (41)

1.1.2 Zbiór treningowy

Nie mając danych o dystrybucji prawdopodobieństwa, możemy wyliczyć macierz ko- wariancji z danej próbki, zbioru wektorów treningowych ~x_i, gdzie i = 1..N . Macierz kowariancji Σ o rozmiarze m × m z próbki obliczamy ze wzoru

c_jk = 1 N − 1

N

X

i=1

(x_ij− x_j) (x_ik− x_k) (42) Po redukcji wymiaru dane będą przedstawione w nowym układzie współrzędnych, o mniejszej liczbie wymiarów. Zastanówmy się jak można przedstawić nowe dane po re- dukcji w oryginalnym układzie współrzędnych. Chcemy przedstawić punkt (l₁, l₂). Mo- dyfikujemy (33), (34) tak abyśmy otrzymali punkt zerowy dla punktu średniego

0 = −0.27 (X₁− 2.1) + 0.96 (X₂− 2.8) (43) 0 = −0.96 (X₁− 2.1) − 0.27 (X₂− 2.8) . (44) Nie zmieniamy tym sposobem wariancji zmiennych Y₁ i Y₂. Przykładowo pierwsza nowa współrzędna obliczana jest według wzoru (43), a druga jest pominięta po redukcji Y₂ (po zrzutowaniu na oś jest równa 0). Więc należy wyznaczyć punkty po zrzutowaniu na pierwszą składową. W nowym układzie współrzędnych rzutowany punkt będzie miał drugą współrządną 0, a pierwsza współrzędna będzie taka sama, a więc wyznaczamy tą pierwszą współrzędną

l⁰₁= −0.27 (l₁− 2.1) + 0.96 (l₂− 2.8) (45) A zatem szukamy punktu pierwotnego dla którego otrzymujemy po przekształceniu punkt (l⁰₁, 0), musimy rozwiązać układ równań

l⁰₁ = −0.27 (X₁− 2.1) + 0.96 (X₂− 2.8) (46) 0 = −0.96 (X₁− 2.1) − 0.27 (X₂− 2.8) . (47) ze względu na zmienne X₁ i X₂. Będą to współrzędne punktu rzutowanego.

(6)

Alternatywny sposób. Możemy wyznaczyć prostą równoległą do wektora własnego i przechodzącą przez punkt średni za pomocą wzoru parametrycznego.

[x₁, x₂] − [2.1, 2.8] = [−0.27, 0.96]t (48) a zatem

x1− 2.1 = −0.27t (49)

x₂− 2.8 = 0.96t (50)

inaczej

x1 = −0.27t + 2.1 (51)

x₂= 0.96t + 2.8 (52)

Prosta przechodząca przez punkt, który chcemy rzutować (l₁, l₂) to taka, że

− 0.27(X₁− l₁) + 0.96(X₂− l₂) = 0 (53)

− 0.27X₁+ 0.96X₂+ 0.27l₁− 0.96l₂ = 0 (54) Prosta ta będzie się przecinała z prostą równoległą do wektora własnego, czyli po podstawieniu wzorów parametrycznych

− 0.27 (−0.27t + 2.1) + 0.96 (0.96t + 2.8) + 0.27l₁− 0.96l₂ = 0 (55) Rozwiązanie z wolframalpha ze względu na t http://www.wolframalpha.com/input/

?i=-0.27%5Cleft(-0.27t+%2B+2.1%5Cright)+%2B+0.96%5Cleft(0.96t+%2B+2.8%5Cright) +%2B+0.27l_1+-+0.96l_2+%3D+0

t = −0.271493l₁+ 0.965309l₂− 2.13273 (56) Podstawiamy teraz t do wzorów parametrycznych

x₁= −0.27 (−0.271493l₁+ 0.965309l₂− 2.13273) + 2.1 (57) x2 = 0.96 (−0.271493l₁+ 0.965309l₂− 2.13273) + 2.8 (58) Są to współrzędne zrzutowanego punktu (l₁, l₂).

1.2 Macierz ortogonalna

Macierz ortogonalna to macierz kwadratowa A spełniająca równość

A^T · A = A · A^T = I , (59)

gdzie I to macierz jednostkowa. Własności macierzy ortogonalnej

•

A^T = A⁻¹ (60)

(7)

•

det A ∈ {1, −1} (61)

• Iloczyn macierzy ortogonalnych jest macierzą ortogonalną.

• Macierz transponowana i macierz odwrotna do macierzy ortogonalnej są ortogonalne.

• Macierz jednostkowa jest macierzą ortogonalną.

1.3 Rozkład według wartości osobliwych

Po angielsku singular value decomposition (SVD). Mamy daną macierz M m×n wartości rzeczywistych. Każdą macierz M można przedstawić w postaci rozkładu

M = U ΣV^T (62)

gdzie U to macierz ortogonalna m × m, Σ to macierz m × n diagonalna z nieujemnymi elementami na przekątnej, a macierz V to macierz ortogonalna n×n. Może istnieć więcej niż jeden możliwy rozkład macierzy M .

Nieujemna wartość σ jest wartością osobliwą M , wtw istnieją wektory długości 1, u i v takie, że

M v = σv (63)

oraz

M^Tu = σu . (64)

Wektor u jest nazywany lewym osobliwym wektorem, a wektor v prawym osobliwym wek- torem. Dla każdej dekompozycji SVD, elementy diagonalne macierzy M są wartościami osobliwymi M , m kolumn macierzy U to odpowiednie lewe osobliwe wektory M , a n kolumn macierzy V to prawe osobliwe wektory M .

1.4 Rozkład własny

Niech będzie dana macierz kwadratowa A n × n z n liniowo niezależnymi wektorami własnymi q_i. Wtedy A może być rozłożona na

A = QΛQ⁻¹ (65)

gdzie Q to macierz n × n której i-ta kolumna to wektor własny q_i A, a Λ to macierz diagonalna, której elementy diagonalne są odpowiednimi wartościami własnymi. Tylko diagonalizowane macierze mogą być w ten sposób rozłożone. Jeśli macierz A jest macierzą symetryczną, to wtedy macierz Q jest macierzą ortogonalną (zachodzi wtedy A^T = A⁻¹).

Związek rozkładu według wartości osobliwych z rozkładem własnym:

M^TM = V Σ^TU^TU ΣV^T = V Σ^TΣV^T (66)

(8)

M M^T = U ΣV^TV Σ^TU^T = UΣΣ^TU^T (67) Prawe strony równań są rozkładem własnym lewych stron. A zatem kolumny V są wekto- rami własnymi M^TM , a kolumny U są wektorami własnymi M M^T. Niezerowe elementy Σ są pierwiastkami niezerowych wartości własnych M^TM lub M M^T.

Macierz kowariancji możemy zapisać w postaci macierzowej dla wartości oczekiwa- nych zero

Σ = 1

N − 1X^TX (68)

a zatem możemy zastosować wzór (66), a więc możemy użyć dekompozycji SVD do obliczenia głównych składowych. Nie musimy wtedy wyliczać macierzy kowariancji, co powoduje, że algorytm może być dokładniejszy. Czyli wyliczamy dekompozycję SVD dla macierzy X i otrzymujemy wektor V wektorów własnych macierzy X^TX.

1.5 Zastosowanie do obrazów z twarzami

Znajdujemy przykładowo 25 zdjęć z twarzami. Każde zdjęcie jest wektorem o rozmia- rze p × p, gdzie p to liczba pixeli. A więc mamy zbiór 25 wektorów, każdy o rozmiarze p². Znajdujemy wektory własne macierzy kowariancji. Macierz kowariancji jest rozmiaru p²× p². Następnie możemy wypisać wartości składowych głównych dla wybranych zdjęć.

Możemy też spróbować zwizualizować wektory własne, każdy z nich będzie rozmiaru p². Składowych głównych będziemy mieli maksymalnie p². Dokonujemy kompresji obrazu za pomocą zerowania określonej liczby składowych głównych (wartości Y_i) z najmniejszymi wartościami własnymi, a następnie po powrocie do oryginalnego układu współrzędnych wyświetlamy skompresowaną twarz. Do przechowania twarzy wystarczy przechowywać wartości wszystkich wektorów własnych (wspólnie dla wszystkich twarzy) oraz niezero- wane wartości Y_i.

Można również zwizualizować wartości Y₁ i Y₂ w dwuwymiarowym układzie i spraw- dzić czy można dokonać klasyfikacji/klasteryzacji twarzy należących do tych samych osób.

Przykładowo mamy obrazy z 120 pikselami każdy. Mamy 1000 takich obrazów. Po- nieważ każdy wektor własny odpowiada za powstanie jednej współrzędnej więc będziemy mieć 120 wektorów własnych. Poszczególne nowe współrzędne powstają przez wylicze- nie iloczynu skalarnego odpowiedniego wektora własnego z obrazem, więc każdy wektor własny będzie miał 120 współrzędnych. Wektory własne wyliczane są dla macierzy kowariancji dla danych. Jeśli każdy wektor własny ma 120 współrzędnych, czyli tyle ile wyjściowe obrazy to możemy spróbować zwizualizować wektory własne jako obrazy.

2 Zadania

2.1 Zadania na 3.0

• dla wygenerowanych danych dwuwymiarowych z rozkładu normalnego wyświetlić na wykresie dane treningowe oraz proste o kierunkach wektorów własnych z pca

(9)

przechodzące przez estymowany środek rozkładu dla estymowanej wartości średniej i macierzy kowariancji

• wybrać dodatkowo macierz kowariancji tak, aby wszystkie punkty przechodziły przez prostą

• wyświetlić wybrane zdjęcia twarzy po skompresowaniu metodą pca

• wyświetlić dla wybranej grupy zdjęć twarzy znalezione eigenfaces po redukcji wy- miarów

• wyświetlić początkowe wartości Y_i dla wybranych twarzy Wskazówki

• Dane z kagglehttps://www.kaggle.com/c/facial-keypoints-detection/data,lokalnie home.agh.edu.pl/~morchel/files/mro/training.zip oraz home.agh.edu.pl/

~morchel/files/mro/test.zip

• Przykładowe zdjęcia mogą być ściągnięte zhttp://www.cl.cam.ac.uk/research/

dtg/attarchive/facedatabase.html, a przykładowe skrypty wykorzystujące te zdjęcia zhttp://www.mathworks.com/matlabcentral/fileexchange/16760-face- recognition/content/face_recognition.m.

• Alternatywne zbiory twarzy:http://vision.ucsd.edu/content/yale-face-database, http://vision.ucsd.edu/~leekc/ExtYaleDatabase/ExtYaleB.html. Skrypty Ma- tlabowe wykorzystujące ten drugi zbiór znajdują się na stroniehttps://en.wikipedia.

org/wiki/Eigenface.

Wskazówki do R

• covhttps://stat.ethz.ch/R-manual/R-devel/library/stats/html/cor.html

• https://www.kaggle.com/c/facial-keypoints-detection/details/getting- started-with-r

• https://stat.ethz.ch/R-manual/R-devel/library/base/html/eigen.html, uwa- ga: metoda eigen działa wolno dla podanego wyżej zbioru zdjęć, należy zmniejszyć rozdzielczość zdjęć przed jej uruchomieniem i zmniejszyć ich liczbę

• nie używamy na zajęciach http://stat.ethz.ch/R-manual/R-devel/library/

stats/html/prcomp.html, parametr center

• nie używamy na zajęciach http://stat.ethz.ch/R-manual/R-devel/library/

stats/html/princomp.html

• https://stat.ethz.ch/R-manual/R-patched/library/graphics/html/arrows.

html

(10)

Wskazówki do Matlaba

• covhttp://www.mathworks.com/help/matlab/ref/cov.html- obliczanie macierzy kowariancji z danych

• mvnrndhttp://www.mathworks.com/help/stats/mvnrnd.html- generacja losowych danych zgodnie z rozkładem wielowymiarowym normalnym, http://www.

mathworks.com/help/stats/mvnrnd.html

• eig http://www.mathworks.com/help/matlab/ref/eig.html - zwraca wektory i wartości własne

• http://www.mathworks.com/help/stats/pca.html,http://www.mathworks.com/

help/stats/pcacov.html,http://www.mathworks.com/help/stats/pcares.html (nie używamy w zadaniach)

2.2 Zadania na 4.0

• powtórzyć poprzednie zadanie dla danych trójwymiarowych

• dla przypadku dwuwymiarowego i trójwymiarowego wyświetlić na poprzednich wykresach składowe główne pca obliczone z oryginalnych wartości średnich i macierzy kowariancji

• dla przypadku dwuwymiarowego wyświetl wykres jednowymiarowy z danymi treningowymi po usunięciu jednej składowej głównej

• dla przypadku trójwymiarowego wyświetl wykres jednowymiarowy po usunięciu dwóch składowych głównych, oraz wykres dwuwymiarowy po usunięciu jednej skła- dowej głównej

2.3 Zadania na 5.0

• wyświetl na poprzednich wykresach dla przypadku dwuwymiarowego i trójwymia- rowego zrzutowane punkty po redukcji wymiaru takiej jak w zadaniu poprzednim (dla dwóch wymiarów redukcja o jeden wymiar, dla trzech wymiarów redukcja o jeden i dwa wymiary)

• użyć rozkładu SVD do znalezienia głównych składowych dla przypadków z danymi treningowymi z poprzedniego zadania

• wykonać procedurę generacji składowych głównych oraz redukcji wymiaru dla wybranych danych wielowymiarowych: np. ze strony statlib, przykładowo plik ho- uses.zip.

• wykonać wykres słupkowy z procentową ilością wyjaśnionej wariancji dla kompo- nentów głównych

(11)

• narysować wykres wyjaśniający ile każda cecha wnosi do każdego komponentu głównego (patrz dokumentacja Matlaba do princomp)

A Zagadnienie własne

Niezerowy wektor ~x rozmiaru n jest wektorem własnym macierzy kwadratowej A n × n wtw

A~x = λ~x (69)

lub

(A − λI) ~x = 0 (70)

gdzie λ jest nazywane wartością własną. Wartości i wektory własne mogą być wyzna- czone ze wzoru:

p (λ) := det (A − λI) = 0 (71)

gdzie p (λ) jest nazywane wielomianem charakterystycznym. Jego pierwiastki są warto- ściami własnymi. Macierz A jeśli jest symetryczna ma dokładnie n rzeczywistych wartości własnych λ_i przy założeniu, że liczy się je wraz z krotnościami. Dla macierzy symetrycz- nej A wektory własne x_i i x_j odpowiadające różnym wartościom własnym λ_i 6= λ_j są ortogonalne, czyli ~x_i^Tx~_j = 0. Możemy również zauważyć, że jak znajdziemy wektor wła- sny, to możemy pomnożyć go przez dowolną stałą niezerową i dalej będzie to wektor własny odpowiadający tej samej wartości własnej.

B Podstawy rachunku prawdopodobieństwa

Wariancja

V ar (x) = E (X − µ)² (72)

D²(X + Y ) = D²(X) + D²(Y ) + 2Cov (X, Y ) (73) Estymacja wariancji

1 n − 1

n

X

i=1

(x_i− ¯x)² (74)

Kowariancja

cov (X, Y ) = E ((X − EX) (Y − EY )) (75) Równoważny wzór

cov (X, Y ) = E (XY ) − EX · EY (76) Macierz kowariancji dla wektora losowego (X₁, X2, . . . , Xn)

Σ =







σ²₁₁ σ12 . . . σ₂₁ σ₂₂² . . . . . . . . . . . .





. (77)

(12)

gdzie σ²_i = D²Xi- wariancja zmiennej X_i, σ_ij = cov(X_i, Xj). A zatem elementy macierzy kowariancji są równe

Σ_ij = cov (X_i, Xj) = E ((X_i− E (X_i)) (X_j− E (X_j))) . (78)

C Elementy rachunku macierzowego

Pochodna formy kwadratowej α = x^TAx dla macierzy A n × n i A nie zależy od x to

∂α

∂x = x^T A + A^T (79)

Dla przypadku szczególnego gdy A jest macierzą symetryczną zachodzi

∂α

∂x = 2x^TA (80)