Wykład 10 – Redukcja wymiarowości

(1)

Klątwa wymiarowości Analiza składowych głównych Podsumowanie

Podstawy uczenia maszynowego

Jarosław Miszczak

05/05/2021

(2)

(3)

1 Klątwa wymiarowości

Motywacja

Metody redukcji wymiarowości

2 Analiza składowych głównych

Maksymalizacja wariancji Wykorzystanie PCA

Rozkład według wartości osobliwych

3 Podsumowanie

Zastosowanie redukcji wymiarowości Rozszerzenia PCA

Materiały dodatkowe

(4)

Klątwa wymiarowości

Analiza składowych głównych Podsumowanie

Motywacja

(5)

Motywacja

Klątwa wymiarowości

Motywacja

Celem uczenia maszynowego jest odtworzenie rzeczywistości, a przynajmniej interesującego nas skrawka rzeczywistości.

Z jednej strony, nawet opis prostego zachowania jakim jest wybór produktów w sklepie internetowym czy określenie ceny domu może zależeć od wielu zmiennych.

Z drugiej strony, pewne cechy, które znajdują się w zbiorze danych mogą nie mieć dużego wpływu na nasz model.

(6)

Motywacja

Klątwa wymiarowości

Motywacja

Celem uczenia maszynowego jest odtworzenie rzeczywistości, a przynajmniej interesującego nas skrawka rzeczywistości. Z jednej strony, nawet opis prostego zachowania jakim jest wybór produktów w sklepie internetowym czy określenie ceny domu może zależeć od wielu zmiennych.

(7)

Motywacja

Klątwa wymiarowości

Motywacja

Celem uczenia maszynowego jest odtworzenie rzeczywistości, a przynajmniej interesującego nas skrawka rzeczywistości. Z jednej strony, nawet opis prostego zachowania jakim jest wybór produktów w sklepie internetowym czy określenie ceny domu może zależeć od wielu zmiennych.

(8)

Motywacja

Klątwa wymiarowości

Motywacja

Klątwa wymiarowości polega na wykładniczym wzroście ilości danych potrzebnych do zbudowania modelu wraz ze wzrostem wymiaru przestrzeni cech.

Pojęcie klątwy wymiarowości wprowadził w 1961 Richard E. Bellman w trakcie prac na programowaniem dynamicznym.

(9)

Motywacja

Klątwa wymiarowości

Motywacja

Klątwa wymiarowości polega na wykładniczym wzroście ilości danych potrzebnych do zbudowania modelu wraz ze wzrostem wymiaru przestrzeni cech.

Pojęcie klątwy wymiarowości wprowadził w 1961 Richard E. Bellman w trakcie prac na programowaniem dynamicznym.

(10)

Motywacja

Klątwa wymiarowości

Motywacja

W przypadku wysokowymiarowych przestrzeni punktu znajdują się daleko od siebie.

Jeżeli weźmiemy pod uwagę wystarczająco dużo cech, to każdy człowiek ma cechę którą wyróżnia się wśród od innych.

Odległość między dwoma losowymi punktami w kostce [0, 1]

wynosi 1₃.

(11)

Motywacja

Klątwa wymiarowości

Motywacja

wynosi 1₃.

Dla [0, 1]2 _{jest to już ponad 0}_{.5, a dla [0, 1]}3 _{– około 0}_.66.

(12)

Motywacja

Klątwa wymiarowości

Motywacja

wynosi 1₃.

(13)

Motywacja

Klątwa wymiarowości

Motywacja

wynosi 1₃.

Dla [0, 1]2 _{jest to już ponad 0}_{.5, a dla [0, 1]}3 _{– około 0}_.66.

(14)

Motywacja

Klątwa wymiarowości

Motywacja

Jak wygląda taka odległość?

1 1000 2000 3000 4000 5000 6000 n 0 5 10 15 20 25 30 35 odległość odległość =pn/6

(15)

Motywacja

Klątwa wymiarowości

Motywacja

Jak wygląda taka odległość?

1 1000 2000 3000 4000 5000 6000 n 0 5 10 15 20 25 30 35 odległość odległość =pn/6 8 / 45

(16)

Motywacja

Klątwa wymiarowości

Motywacja

Co to znaczy?

Ze względu na rozproszenie punktów, że wielowymiarowe zbiory danych mogą być bardzo rzadkie.

Zatem większość przykładów będzie znajdować się daleko od siebie.

Oznacza to również, że element dla którego chcemy wykonać predykcję będzie prawdopodobnie daleko od jakiejkolwiek przykłądu ze zbioru treningowego.

A zatem predykcja będzie znacznie mniej wiarygodne niż w niższych wymiarach, ponieważ będą oparta na znacznie większych ekstrapolacjach.

Czyli im większy wymiar wektora cech, tym trudniej o uogólnienie a łatwiej o przetrenowanie.

(17)

Motywacja

Klątwa wymiarowości

Motywacja

Co to znaczy?

(18)

Motywacja

Klątwa wymiarowości

Motywacja

Co to znaczy?

(19)

Motywacja

Klątwa wymiarowości

Motywacja

Co to znaczy?

(20)

Motywacja

Klątwa wymiarowości

Motywacja

Co to znaczy?

A zatem predykcja będzie znacznie mniej wiarygodne niż w niższych wymiarach, ponieważ będą oparta na znacznie

(21)

Motywacja

Klątwa wymiarowości

Motywacja

Co to znaczy?

(22)

Motywacja

Klątwa wymiarowości

Motywacja

Zobaczmy jak to działa dla kNN.

Załóżmy, że stosujemy kNN dla danych z n wymiarowej przestrzeni.

Dane są rozłożone równomiernie i chcemy zbadać ułamek f z tych danych.

Kostka zawierająca f -tą część danych ma bok o długości

₁

n

.

Jeżeli chcemy wykorzystać 10% danych, to przejrzeliśmy tylko

1 10

10

(23)

Motywacja

Klątwa wymiarowości

Motywacja

₁

n

.

1 10 10 = _100000000001 objętości kostki. 10 / 45

(24)

Motywacja

Klątwa wymiarowości

Motywacja

₁

n

.

1 10

10

(25)

Motywacja

Klątwa wymiarowości

Motywacja

₁

n

.

1 10 10 = _100000000001 objętości kostki. 10 / 45

(26)

Motywacja

Klątwa wymiarowości

Motywacja

₁

n

.

(27)

Motywacja

Klątwa wymiarowości

Motywacja

0 25 50 75 100

procent badanych przypadków 0 25 50 75 100 pro cen t przestrzeni wymiar=1 11 / 45

(28)

Motywacja

Klątwa wymiarowości

Motywacja 0 25 50 75 100 pro cen t przestrzeni wymiar=2

(29)

Motywacja

Klątwa wymiarowości

Motywacja

0 25 50 75 100

(30)

Motywacja

Klątwa wymiarowości

(31)

Motywacja

Klątwa wymiarowości

Motywacja

0 25 50 75 100

(32)

Motywacja

Klątwa wymiarowości

(33)

Motywacja

Klątwa wymiarowości

Motywacja

0 25 50 75 100

(34)

Motywacja

Klątwa wymiarowości

(35)

Motywacja

Klątwa wymiarowości

Motywacja

0 25 50 75 100

(36)

Motywacja

Klątwa wymiarowości

Motywacja

Z powodu klątwy wymiarowości nie jest możliwe wykorzystanie odpowiedniej liczby przykładów, która pozwala równomiernie próbkować całą przestrzeń cech.

(37)

Motywacja

Klątwa wymiarowości

Redukcja wymiarowości

Redukcja wymiarowości lub redukcja wymiarów to transformacja danych z przestrzeni wielowymiarowej w przestrzeń o niższym wymiarze, tak aby reprezentacja niskowymiarowa zachowała znaczące właściwości oryginalnych danych.

(38)

Motywacja

Klątwa wymiarowości

Metody redukcji wymiarowości dzieli się na metody liniowe i

metody nieliniowe.

Alternatywnie możne jest podzielić na selekcję cech oraz

projekcję cech.

Redukcja wymiarowości może być używana do redukcji szumów, wizualizacji danych, analizy skupień lub jako etap pośredni ułatwiający inne analizy.

(39)

Motywacja

Klątwa wymiarowości

(40)

Motywacja

Klątwa wymiarowości

(41)

Motywacja

Klątwa wymiarowości

Metody redukcji wymiarowości (liniowe)

Analiza składowych głównych – znajdowanie hiperpłaszczyzny leżącej najbliżej obserwacji.

Linear Discriminat Analysis.

Rozkład według wartości osobliwych (SVD).

(42)

Motywacja

Klątwa wymiarowości

Metody redukcji wymiarowości (nieliniowe)

Isomap Autoenkodery

(43)

Analiza składowych głównych

Podsumowanie

Analiza składowych głównych

(44)

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Analiza składowych głównych

Analiza składowych głównych (ang. Principle Component Analysis) jest najczęściej stosowaną metodą redukcji wymiarowości.

Podstawowa zasada działania PCA to: znajdź te

(45)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

Analiza składowych głównych (ang. Principle Component Analysis) jest najczęściej stosowaną metodą redukcji wymiarowości.

Podstawowa zasada działania PCA to: znajdź te

podprzestrzenie które nie wnoszą dużo do danych i odrzuć je.

(46)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

Zacznijmy od tego, że mamy do dyspozycji zbiór postaci x1, x2, . . . , xm,

złożony z wektorów cech xi (i pozbawiony etykiet). Obserwacje

wchodzące w skład zbioru uczącego możemy ułożyć w macierz X = [x1 x2 . . . xm].

Najczęściej wymiar naszych obserwacji n jest dużo większy od m

.

Każda z kolumn tej macierzy odpowiada obserwacji n cech. Każdy z wierszy tej macierzy odpowiada m realizacjom cechy (zmiennej losowej x(i )).

(47)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

Najczęściej wymiar naszych obserwacji n jest dużo większy od m.

Każda z kolumn tej macierzy odpowiada obserwacji n cech. Każdy z wierszy tej macierzy odpowiada m realizacjom cechy (zmiennej losowej x(i )).

(48)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

Najczęściej wymiar naszych obserwacji n jest dużo większy od m. Każda z kolumn tej macierzy odpowiada obserwacji n cech.

Każdy z wierszy tej macierzy odpowiada m realizacjom cechy (zmiennej losowej x(i )).

(49)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

Najczęściej wymiar naszych obserwacji n jest dużo większy od m. Każda z kolumn tej macierzy odpowiada obserwacji n cech. Każdy z wierszy tej macierzy odpowiada m realizacjom cechy (zmiennej losowej x(i )).

(50)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

Które cechy najlepiej opisują obserwowany proces?

Te, które najbardziej różnicują nasze obserwacje, czyli te, dla których wariancja jest największa.

Składowe główne

PCA znajduje kierunki w przestrzeni cech dla których wariancja jest największa. Te kierunki to składowe główne.

(51)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

Które cechy najlepiej opisują obserwowany proces? Te, które najbardziej różnicują nasze obserwacje,

czyli te, dla których wariancja jest największa.

Składowe główne

(52)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

Które cechy najlepiej opisują obserwowany proces? Te, które najbardziej różnicują nasze obserwacje, czyli te, dla których wariancja jest największa.

Składowe główne

(53)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

Które cechy najlepiej opisują obserwowany proces? Te, które najbardziej różnicują nasze obserwacje, czyli te, dla których wariancja jest największa.

Składowe główne

(54)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

Metoda PCA operuje na macierzy kowariancji dla obserwacji.

Elementy tej macierzy są postaci

cov (x(i ), x(j )) = E [(x(i )− E [x(i )])(x(j )− E [x(j )])],

gdzie x(i ) to i ta cecha w wektorze danych. Alternatywnie cov (x(i ), x(j )_{) =} 1 2n2 m X k=1 X l =1 (x_k(i )− x_l(i ))(x_k(j )− x_l(j )).

Wektory własne macierzy kowariancji odpowiadające

największym wartościom własnym odpowiadają kierunkom o największej zmienności.

(55)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

Metoda PCA operuje na macierzy kowariancji dla obserwacji. Elementy tej macierzy są postaci

gdzie x(i ) to i ta cecha w wektorze danych.

Alternatywnie cov (x(i ), x(j )_{) =} 1 2n2 m X k=1 X l =1 (x_k(i )− x_l(i ))(x_k(j )− x_l(j )).

(56)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

(57)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

(58)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

Normalizacja

Wartości składowych zależą od wartości liczbowych cech i przed procedurą PCA konieczne jest wykonanie normalizacji zmiennych.

W przypadku zmiennych o dużym rozrzucie zakresu wartości brak normalizacji spowoduje wzmocnienie znaczenia składowych o dużych wartościach (np. przychód liczony w tysiącach) nad składowymi o małych wartościach (np. wiek liczony w dziesiątkach).

(59)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

Normalizacja

Wartości składowych zależą od wartości liczbowych cech i przed procedurą PCA konieczne jest wykonanie normalizacji zmiennych. W przypadku zmiennych o dużym rozrzucie zakresu wartości brak normalizacji spowoduje wzmocnienie znaczenia składowych o dużych wartościach (np. przychód liczony w tysiącach) nad składowymi o małych wartościach (np. wiek liczony w dziesiątkach).

(60)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

Metoda PCA została opracowana w 1901 roku przez Karla Pearsona, twórcę statystyki

matematycznej.

K. Pearson, On Lines and Planes of Closest Fit to Systems of Points in Space, Philosophical Magazine, 2 (11): 559–572.

(61)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

Jak maksymalizacja wariancji ma się do usuwania wymiarów?

Rozkład na wartości własne macierzy kowariancji jest wykonywany na macierzy z wartościami momentów centralnych.

Przekształcenie danych poprzez obrócenie do układu

współrzędnych wyznaczonego przez wektory własne macierzy kowariancji jest związane z rozkładem według wartości osobliwych (ang. Singular Value Decomposition (SVD)). Po odrzuceniu najmniejszych wartości osobliwych możliwe jest powrócenie do pierwotnego układu współrzędnych.

Odrzucenie pewnych wartości osobliwych powoduje, że znikają współrzędne w odpowiadających im podprzestrzeniach.

(62)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

Jak maksymalizacja wariancji ma się do usuwania wymiarów? Rozkład na wartości własne macierzy kowariancji jest wykonywany na macierzy z wartościami momentów centralnych.

(63)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

współrzędnych wyznaczonego przez wektory własne macierzy kowariancji jest związane z rozkładem według wartości osobliwych (ang. Singular Value Decomposition (SVD)).

Po odrzuceniu najmniejszych wartości osobliwych możliwe jest powrócenie do pierwotnego układu współrzędnych.

(64)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

(65)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

(66)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

Wykorzystanie PCA

Przykład ze zbiorem MNIST

Zobaczmy jak wygląda działanie PCA na zbiorze MNIST pca-mnist-ex.py

(67)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

Wykorzystanie PCA

Zbiór MNIST

Zbiór zawiera 70k obrazów ręcznie napisanych cyfr. Każdy z obrazów ma rozmiar 28 × 28 w skali szarości. Obrazy są reprezentowane jako wektory pikseli, co daje 784-wymiarową przestrzeń cech.

Więcej: https://en.wikipedia.org/wiki/MNIST database

(68)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

Wykorzystanie PCA

Zbiór MNIST

Zbiór zawiera 70k obrazów ręcznie napisanych cyfr.

Każdy z obrazów ma rozmiar 28 × 28 w skali szarości. Obrazy są reprezentowane jako wektory pikseli, co daje 784-wymiarową przestrzeń cech.

(69)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

Wykorzystanie PCA

Zbiór MNIST

Zbiór zawiera 70k obrazów ręcznie napisanych cyfr. Każdy z obrazów ma rozmiar 28 × 28 w skali szarości.

Obrazy są reprezentowane jako wektory pikseli, co daje 784-wymiarową przestrzeń cech.

(70)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

Wykorzystanie PCA

Zbiór MNIST

(71)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

Wykorzystanie PCA

Zbiór MNIST

(72)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

(73)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

Wykorzystanie PCA

PCA pozwala nam na znalezienie najważniejszych komponentów dla danych – tych składowych, które najbardziej rozróżniają dane.

Zobaczmy jak wyglądają przykładowe jedynki

(74)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

Wykorzystanie PCA

PCA pozwala nam na znalezienie najważniejszych komponentów dla danych – tych składowych, które najbardziej rozróżniają dane. Zobaczmy jak wyglądają przykładowe jedynki

(75)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

Wykorzystanie PCA

Możemy zobaczyć jak wyglądają najwyższe składowe dla jedynek – eigenjedynki.

Komponenty od 0 do 16.

(76)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

Wykorzystanie PCA

(77)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

Wykorzystanie PCA

(78)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

Wykorzystanie PCA

(79)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

Wykorzystanie PCA

(80)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

Wykorzystanie PCA

(81)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

Wykorzystanie PCA

(82)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

Wykorzystanie PCA

(83)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

Wykorzystanie PCA

(84)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

Wykorzystanie PCA

(85)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

Wykorzystanie PCA

(86)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

Wykorzystanie PCA

(87)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

Wykorzystanie PCA

(88)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

Wykorzystanie PCA

(89)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

Wykorzystanie PCA

(90)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

Wykorzystanie PCA

Zastosowanie PCA do kompresji

Naturalnym zastosowaniem PCA jest kompresja danych. Poprzez usunięcie zbędnych składowych możemy zmniejszyć ilość informacji potrzebych do przechowywania danych Tym razem przykład z cyfrą 5!

(91)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

Wykorzystanie PCA

Naturalnym zastosowaniem PCA jest kompresja danych.

Poprzez usunięcie zbędnych składowych możemy zmniejszyć ilość informacji potrzebych do przechowywania danych Tym razem przykład z cyfrą 5!

(92)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

Wykorzystanie PCA

Naturalnym zastosowaniem PCA jest kompresja danych. Poprzez usunięcie zbędnych składowych możemy zmniejszyć ilość informacji potrzebych do przechowywania danych

(93)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

Wykorzystanie PCA

Naturalnym zastosowaniem PCA jest kompresja danych. Poprzez usunięcie zbędnych składowych możemy zmniejszyć ilość informacji potrzebych do przechowywania danych Tym razem przykład z cyfrą 5!

(94)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

Wykorzystanie PCA

Z

(95)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

Wykorzystanie PCA

Zachowanie warjancji: 0.999

(96)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

(97)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

Wykorzystanie PCA

(98)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

(99)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

Wykorzystanie PCA

(100)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

(101)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

Wykorzystanie PCA

(102)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

(103)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

Wykorzystanie PCA

(104)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

(105)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

Wykorzystanie PCA

(106)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

(107)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

Wykorzystanie PCA

Warjancja vs zachowane komponenty

Zachowana wariancja zależ od ilości kompnentów.

(108)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

(109)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

Wykorzystanie PCA

Zachowane komponenty: 2.

Liczba na górze oznacz część wariancji w komponentach.

(110)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

(111)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

Wykorzystanie PCA

(112)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

(113)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

Wykorzystanie PCA

(114)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

(115)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

Wykorzystanie PCA

(116)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

(117)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

Wykorzystanie PCA

(118)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

(119)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

Wykorzystanie PCA

(120)

Podsumowanie

Wykorzystanie PCA

Analiza składowych głównych

(121)

Podsumowanie

Analiza składowych głównych

Singular Value Decomposition (SVD)

Dowolna macierz A ∈ Rm×n o elementach rzeczywistych, może

być przedstawiona w postaci

A = UΣVT,

gdzie Σ ∈ Rm×n jest diagonalna, U ∈ Rm×m i V ∈ Rn×n są

macierzami ortonormalnymi.

Niezerowe elementy macierzy Σ to wartości osobliwe macierzy A.

(122)

Podsumowanie

Analiza składowych głównych

Singular Value Decomposition (SVD)

Dowolna macierz A ∈ Cm×n o elementach zespolonych, może być

przedstawiona w postaci

A = UΣV†,

gdzie Σ ∈ Cm×n jest diagonalna, U ∈ Cm×m i V ∈ Cn×n są

(123)

Podsumowanie

Analiza składowych głównych

Przypomnienie

Na naszym wykładzie rozkład według wartości osobliwych pojawił się już przy rozwiązywaniu równania normalnego przy

wykorzystaniu pseudoinwersji macierzy.

Ale znajduje on również inne zastosowania.

The practical and theoretical importance of the SVD is hard to overestimate.

Gene H. Golub, Charles F. Van Loan, Matrix

Computations, 4th ed. (2017).

(124)

Podsumowanie

Analiza składowych głównych

Przypomnienie

wykorzystaniu pseudoinwersji macierzy. Ale znajduje on również inne zastosowania.

(125)

Podsumowanie

Analiza składowych głównych

Przypomnienie

wykorzystaniu pseudoinwersji macierzy. Ale znajduje on również inne zastosowania.

Computations, 4th ed. (2017).

(126)

Podsumowanie

Analiza składowych głównych

Rozkład według wartości osobliwych jest uogólnieniem rozkładu na wartości własne.

SVD może być wyliczone dla dowolnej macierzy, niekoniecznie kwadratowej.

Macierze U i V to macierze wektorów własnych odpowiednio dla macierzy XXT _{oraz X}T_{X .}

Wyliczenie wartości własnych dla macierzy kowarjancji jest równoważne wyliczeniu SVD dla wycentrowanej macierzy danych.

(127)

Podsumowanie

Analiza składowych głównych

(128)

Podsumowanie

Analiza składowych głównych

(129)

Podsumowanie

Analiza składowych głównych

(130)

Podsumowanie

Analiza składowych głównych

Rozkład o wielu nazwach

Rozkład według wartości osobliwych pojawia się w wielu dziedzinach pod różnymi nazwami.

Principle Component Analysis w statystyce i uczeniu maszynowym,

Transformacja Karhunen’a-Lo`eve’ego w przetwarzaniu sygnałów,

Twierdzenie Eckarta-Younga w zagadnieniach aproksymacji, Rozkład Schmidta w informatyce kwantowej.

G. W. Stewart, On the Early History of the Singular Value Decomposition, SIAM Review, 35(4), 551-566 (1993).

(131)

Podsumowanie

Analiza składowych głównych

(132)

Podsumowanie

Analiza składowych głównych

(133)

Podsumowanie

Analiza składowych głównych

Twierdzenie Eckarta-Younga w zagadnieniach aproksymacji,

Rozkład Schmidta w informatyce kwantowej.

(134)

Podsumowanie