Klątwa wymiarowości Analiza składowych głównych Podsumowanie
Podstawy uczenia maszynowego
Wykład 10 – Redukcja wymiarowościJarosław Miszczak
05/05/2021
Klątwa wymiarowości Analiza składowych głównych Podsumowanie
Klątwa wymiarowości Analiza składowych głównych Podsumowanie
1 Klątwa wymiarowości
Motywacja
Metody redukcji wymiarowości
2 Analiza składowych głównych
Maksymalizacja wariancji Wykorzystanie PCA
Rozkład według wartości osobliwych
3 Podsumowanie
Zastosowanie redukcji wymiarowości Rozszerzenia PCA
Materiały dodatkowe
Klątwa wymiarowości
Analiza składowych głównych Podsumowanie
Motywacja
Metody redukcji wymiarowości
Klątwa wymiarowości
Analiza składowych głównych Podsumowanie
Motywacja
Metody redukcji wymiarowości
Klątwa wymiarowości
Motywacja
Celem uczenia maszynowego jest odtworzenie rzeczywistości, a przynajmniej interesującego nas skrawka rzeczywistości.
Z jednej strony, nawet opis prostego zachowania jakim jest wybór produktów w sklepie internetowym czy określenie ceny domu może zależeć od wielu zmiennych.
Z drugiej strony, pewne cechy, które znajdują się w zbiorze danych mogą nie mieć dużego wpływu na nasz model.
Klątwa wymiarowości
Analiza składowych głównych Podsumowanie
Motywacja
Metody redukcji wymiarowości
Klątwa wymiarowości
Motywacja
Celem uczenia maszynowego jest odtworzenie rzeczywistości, a przynajmniej interesującego nas skrawka rzeczywistości. Z jednej strony, nawet opis prostego zachowania jakim jest wybór produktów w sklepie internetowym czy określenie ceny domu może zależeć od wielu zmiennych.
Z drugiej strony, pewne cechy, które znajdują się w zbiorze danych mogą nie mieć dużego wpływu na nasz model.
Klątwa wymiarowości
Analiza składowych głównych Podsumowanie
Motywacja
Metody redukcji wymiarowości
Klątwa wymiarowości
Motywacja
Celem uczenia maszynowego jest odtworzenie rzeczywistości, a przynajmniej interesującego nas skrawka rzeczywistości. Z jednej strony, nawet opis prostego zachowania jakim jest wybór produktów w sklepie internetowym czy określenie ceny domu może zależeć od wielu zmiennych.
Z drugiej strony, pewne cechy, które znajdują się w zbiorze danych mogą nie mieć dużego wpływu na nasz model.
Klątwa wymiarowości
Analiza składowych głównych Podsumowanie
Motywacja
Metody redukcji wymiarowości
Klątwa wymiarowości
Motywacja
Klątwa wymiarowości
Klątwa wymiarowości polega na wykładniczym wzroście ilości danych potrzebnych do zbudowania modelu wraz ze wzrostem wymiaru przestrzeni cech.
Pojęcie klątwy wymiarowości wprowadził w 1961 Richard E. Bellman w trakcie prac na programowaniem dynamicznym.
Klątwa wymiarowości
Analiza składowych głównych Podsumowanie
Motywacja
Metody redukcji wymiarowości
Klątwa wymiarowości
Motywacja
Klątwa wymiarowości
Klątwa wymiarowości polega na wykładniczym wzroście ilości danych potrzebnych do zbudowania modelu wraz ze wzrostem wymiaru przestrzeni cech.
Pojęcie klątwy wymiarowości wprowadził w 1961 Richard E. Bellman w trakcie prac na programowaniem dynamicznym.
Klątwa wymiarowości
Analiza składowych głównych Podsumowanie
Motywacja
Metody redukcji wymiarowości
Klątwa wymiarowości
Motywacja
W przypadku wysokowymiarowych przestrzeni punktu znajdują się daleko od siebie.
Jeżeli weźmiemy pod uwagę wystarczająco dużo cech, to każdy człowiek ma cechę którą wyróżnia się wśród od innych.
Odległość między dwoma losowymi punktami w kostce [0, 1]
wynosi 13.
Klątwa wymiarowości
Analiza składowych głównych Podsumowanie
Motywacja
Metody redukcji wymiarowości
Klątwa wymiarowości
Motywacja
W przypadku wysokowymiarowych przestrzeni punktu znajdują się daleko od siebie.
Jeżeli weźmiemy pod uwagę wystarczająco dużo cech, to każdy człowiek ma cechę którą wyróżnia się wśród od innych.
Odległość między dwoma losowymi punktami w kostce [0, 1]
wynosi 13.
Dla [0, 1]2 jest to już ponad 0.5, a dla [0, 1]3 – około 0.66.
Klątwa wymiarowości
Analiza składowych głównych Podsumowanie
Motywacja
Metody redukcji wymiarowości
Klątwa wymiarowości
Motywacja
W przypadku wysokowymiarowych przestrzeni punktu znajdują się daleko od siebie.
Jeżeli weźmiemy pod uwagę wystarczająco dużo cech, to każdy człowiek ma cechę którą wyróżnia się wśród od innych.
Odległość między dwoma losowymi punktami w kostce [0, 1]
wynosi 13.
Klątwa wymiarowości
Analiza składowych głównych Podsumowanie
Motywacja
Metody redukcji wymiarowości
Klątwa wymiarowości
Motywacja
W przypadku wysokowymiarowych przestrzeni punktu znajdują się daleko od siebie.
Jeżeli weźmiemy pod uwagę wystarczająco dużo cech, to każdy człowiek ma cechę którą wyróżnia się wśród od innych.
Odległość między dwoma losowymi punktami w kostce [0, 1]
wynosi 13.
Dla [0, 1]2 jest to już ponad 0.5, a dla [0, 1]3 – około 0.66.
Klątwa wymiarowości
Analiza składowych głównych Podsumowanie
Motywacja
Metody redukcji wymiarowości
Klątwa wymiarowości
Motywacja
Jak wygląda taka odległość?
1 1000 2000 3000 4000 5000 6000 n 0 5 10 15 20 25 30 35 odległość odległość =pn/6
Klątwa wymiarowości
Analiza składowych głównych Podsumowanie
Motywacja
Metody redukcji wymiarowości
Klątwa wymiarowości
Motywacja
Jak wygląda taka odległość?
1 1000 2000 3000 4000 5000 6000 n 0 5 10 15 20 25 30 35 odległość odległość =pn/6 8 / 45
Klątwa wymiarowości
Analiza składowych głównych Podsumowanie
Motywacja
Metody redukcji wymiarowości
Klątwa wymiarowości
Motywacja
Co to znaczy?
Ze względu na rozproszenie punktów, że wielowymiarowe zbiory danych mogą być bardzo rzadkie.
Zatem większość przykładów będzie znajdować się daleko od siebie.
Oznacza to również, że element dla którego chcemy wykonać predykcję będzie prawdopodobnie daleko od jakiejkolwiek przykłądu ze zbioru treningowego.
A zatem predykcja będzie znacznie mniej wiarygodne niż w niższych wymiarach, ponieważ będą oparta na znacznie większych ekstrapolacjach.
Czyli im większy wymiar wektora cech, tym trudniej o uogólnienie a łatwiej o przetrenowanie.
Klątwa wymiarowości
Analiza składowych głównych Podsumowanie
Motywacja
Metody redukcji wymiarowości
Klątwa wymiarowości
Motywacja
Co to znaczy?
Ze względu na rozproszenie punktów, że wielowymiarowe zbiory danych mogą być bardzo rzadkie.
Zatem większość przykładów będzie znajdować się daleko od siebie.
Oznacza to również, że element dla którego chcemy wykonać predykcję będzie prawdopodobnie daleko od jakiejkolwiek przykłądu ze zbioru treningowego.
A zatem predykcja będzie znacznie mniej wiarygodne niż w niższych wymiarach, ponieważ będą oparta na znacznie większych ekstrapolacjach.
Czyli im większy wymiar wektora cech, tym trudniej o uogólnienie a łatwiej o przetrenowanie.
Klątwa wymiarowości
Analiza składowych głównych Podsumowanie
Motywacja
Metody redukcji wymiarowości
Klątwa wymiarowości
Motywacja
Co to znaczy?
Ze względu na rozproszenie punktów, że wielowymiarowe zbiory danych mogą być bardzo rzadkie.
Zatem większość przykładów będzie znajdować się daleko od siebie.
Oznacza to również, że element dla którego chcemy wykonać predykcję będzie prawdopodobnie daleko od jakiejkolwiek przykłądu ze zbioru treningowego.
A zatem predykcja będzie znacznie mniej wiarygodne niż w niższych wymiarach, ponieważ będą oparta na znacznie większych ekstrapolacjach.
Czyli im większy wymiar wektora cech, tym trudniej o uogólnienie a łatwiej o przetrenowanie.
Klątwa wymiarowości
Analiza składowych głównych Podsumowanie
Motywacja
Metody redukcji wymiarowości
Klątwa wymiarowości
Motywacja
Co to znaczy?
Ze względu na rozproszenie punktów, że wielowymiarowe zbiory danych mogą być bardzo rzadkie.
Zatem większość przykładów będzie znajdować się daleko od siebie.
Oznacza to również, że element dla którego chcemy wykonać predykcję będzie prawdopodobnie daleko od jakiejkolwiek przykłądu ze zbioru treningowego.
A zatem predykcja będzie znacznie mniej wiarygodne niż w niższych wymiarach, ponieważ będą oparta na znacznie większych ekstrapolacjach.
Czyli im większy wymiar wektora cech, tym trudniej o uogólnienie a łatwiej o przetrenowanie.
Klątwa wymiarowości
Analiza składowych głównych Podsumowanie
Motywacja
Metody redukcji wymiarowości
Klątwa wymiarowości
Motywacja
Co to znaczy?
Ze względu na rozproszenie punktów, że wielowymiarowe zbiory danych mogą być bardzo rzadkie.
Zatem większość przykładów będzie znajdować się daleko od siebie.
Oznacza to również, że element dla którego chcemy wykonać predykcję będzie prawdopodobnie daleko od jakiejkolwiek przykłądu ze zbioru treningowego.
A zatem predykcja będzie znacznie mniej wiarygodne niż w niższych wymiarach, ponieważ będą oparta na znacznie
Czyli im większy wymiar wektora cech, tym trudniej o uogólnienie a łatwiej o przetrenowanie.
Klątwa wymiarowości
Analiza składowych głównych Podsumowanie
Motywacja
Metody redukcji wymiarowości
Klątwa wymiarowości
Motywacja
Co to znaczy?
Ze względu na rozproszenie punktów, że wielowymiarowe zbiory danych mogą być bardzo rzadkie.
Zatem większość przykładów będzie znajdować się daleko od siebie.
Oznacza to również, że element dla którego chcemy wykonać predykcję będzie prawdopodobnie daleko od jakiejkolwiek przykłądu ze zbioru treningowego.
A zatem predykcja będzie znacznie mniej wiarygodne niż w niższych wymiarach, ponieważ będą oparta na znacznie większych ekstrapolacjach.
Czyli im większy wymiar wektora cech, tym trudniej o uogólnienie a łatwiej o przetrenowanie.
Klątwa wymiarowości
Analiza składowych głównych Podsumowanie
Motywacja
Metody redukcji wymiarowości
Klątwa wymiarowości
Motywacja
Zobaczmy jak to działa dla kNN.
Załóżmy, że stosujemy kNN dla danych z n wymiarowej przestrzeni.
Dane są rozłożone równomiernie i chcemy zbadać ułamek f z tych danych.
Kostka zawierająca f -tą część danych ma bok o długości
1
n
n
.
Jeżeli chcemy wykorzystać 10% danych, to przejrzeliśmy tylko
1 10
10
Klątwa wymiarowości
Analiza składowych głównych Podsumowanie
Motywacja
Metody redukcji wymiarowości
Klątwa wymiarowości
Motywacja
Zobaczmy jak to działa dla kNN.
Załóżmy, że stosujemy kNN dla danych z n wymiarowej przestrzeni.
Dane są rozłożone równomiernie i chcemy zbadać ułamek f z tych danych.
Kostka zawierająca f -tą część danych ma bok o długości
1
n
n
.
Jeżeli chcemy wykorzystać 10% danych, to przejrzeliśmy tylko
1 10 10 = 100000000001 objętości kostki. 10 / 45
Klątwa wymiarowości
Analiza składowych głównych Podsumowanie
Motywacja
Metody redukcji wymiarowości
Klątwa wymiarowości
Motywacja
Zobaczmy jak to działa dla kNN.
Załóżmy, że stosujemy kNN dla danych z n wymiarowej przestrzeni.
Dane są rozłożone równomiernie i chcemy zbadać ułamek f z tych danych.
Kostka zawierająca f -tą część danych ma bok o długości
1
n
n
.
Jeżeli chcemy wykorzystać 10% danych, to przejrzeliśmy tylko
1 10
10
Klątwa wymiarowości
Analiza składowych głównych Podsumowanie
Motywacja
Metody redukcji wymiarowości
Klątwa wymiarowości
Motywacja
Zobaczmy jak to działa dla kNN.
Załóżmy, że stosujemy kNN dla danych z n wymiarowej przestrzeni.
Dane są rozłożone równomiernie i chcemy zbadać ułamek f z tych danych.
Kostka zawierająca f -tą część danych ma bok o długości
1
n
n
.
Jeżeli chcemy wykorzystać 10% danych, to przejrzeliśmy tylko
1 10 10 = 100000000001 objętości kostki. 10 / 45
Klątwa wymiarowości
Analiza składowych głównych Podsumowanie
Motywacja
Metody redukcji wymiarowości
Klątwa wymiarowości
Motywacja
Zobaczmy jak to działa dla kNN.
Załóżmy, że stosujemy kNN dla danych z n wymiarowej przestrzeni.
Dane są rozłożone równomiernie i chcemy zbadać ułamek f z tych danych.
Kostka zawierająca f -tą część danych ma bok o długości
1
n
n
.
Jeżeli chcemy wykorzystać 10% danych, to przejrzeliśmy tylko
Klątwa wymiarowości
Analiza składowych głównych Podsumowanie
Motywacja
Metody redukcji wymiarowości
Klątwa wymiarowości
Motywacja
0 25 50 75 100
procent badanych przypadków 0 25 50 75 100 pro cen t przestrzeni wymiar=1 11 / 45
Klątwa wymiarowości
Analiza składowych głównych Podsumowanie
Motywacja
Metody redukcji wymiarowości
Klątwa wymiarowości
Motywacja 0 25 50 75 100 pro cen t przestrzeni wymiar=2Klątwa wymiarowości
Analiza składowych głównych Podsumowanie
Motywacja
Metody redukcji wymiarowości
Klątwa wymiarowości
Motywacja
0 25 50 75 100
procent badanych przypadków 0 25 50 75 100 pro cen t przestrzeni wymiar=3 11 / 45
Klątwa wymiarowości
Analiza składowych głównych Podsumowanie
Motywacja
Metody redukcji wymiarowości
Klątwa wymiarowości
Motywacja 0 25 50 75 100 pro cen t przestrzeni wymiar=5Klątwa wymiarowości
Analiza składowych głównych Podsumowanie
Motywacja
Metody redukcji wymiarowości
Klątwa wymiarowości
Motywacja
0 25 50 75 100
procent badanych przypadków 0 25 50 75 100 pro cen t przestrzeni wymiar=10 11 / 45
Klątwa wymiarowości
Analiza składowych głównych Podsumowanie
Motywacja
Metody redukcji wymiarowości
Klątwa wymiarowości
Motywacja 0 25 50 75 100 pro cen t przestrzeni wymiar=20Klątwa wymiarowości
Analiza składowych głównych Podsumowanie
Motywacja
Metody redukcji wymiarowości
Klątwa wymiarowości
Motywacja
0 25 50 75 100
procent badanych przypadków 0 25 50 75 100 pro cen t przestrzeni wymiar=25 11 / 45
Klątwa wymiarowości
Analiza składowych głównych Podsumowanie
Motywacja
Metody redukcji wymiarowości
Klątwa wymiarowości
Motywacja 0 25 50 75 100 pro cen t przestrzeni wymiar=50Klątwa wymiarowości
Analiza składowych głównych Podsumowanie
Motywacja
Metody redukcji wymiarowości
Klątwa wymiarowości
Motywacja
0 25 50 75 100
procent badanych przypadków 0 25 50 75 100 pro cen t przestrzeni wymiar=100 11 / 45
Klątwa wymiarowości
Analiza składowych głównych Podsumowanie
Motywacja
Metody redukcji wymiarowości
Klątwa wymiarowości
Motywacja
Klątwa wymiarowości
Z powodu klątwy wymiarowości nie jest możliwe wykorzystanie odpowiedniej liczby przykładów, która pozwala równomiernie próbkować całą przestrzeń cech.
Klątwa wymiarowości
Analiza składowych głównych Podsumowanie
Motywacja
Metody redukcji wymiarowości
Klątwa wymiarowości
Metody redukcji wymiarowości
Redukcja wymiarowości
Redukcja wymiarowości lub redukcja wymiarów to transformacja danych z przestrzeni wielowymiarowej w przestrzeń o niższym wymiarze, tak aby reprezentacja niskowymiarowa zachowała znaczące właściwości oryginalnych danych.
Klątwa wymiarowości
Analiza składowych głównych Podsumowanie
Motywacja
Metody redukcji wymiarowości
Klątwa wymiarowości
Metody redukcji wymiarowości
Metody redukcji wymiarowości dzieli się na metody liniowe i
metody nieliniowe.
Alternatywnie możne jest podzielić na selekcję cech oraz
projekcję cech.
Redukcja wymiarowości może być używana do redukcji szumów, wizualizacji danych, analizy skupień lub jako etap pośredni ułatwiający inne analizy.
Klątwa wymiarowości
Analiza składowych głównych Podsumowanie
Motywacja
Metody redukcji wymiarowości
Klątwa wymiarowości
Metody redukcji wymiarowości
Metody redukcji wymiarowości dzieli się na metody liniowe i
metody nieliniowe.
Alternatywnie możne jest podzielić na selekcję cech oraz
projekcję cech.
Redukcja wymiarowości może być używana do redukcji szumów, wizualizacji danych, analizy skupień lub jako etap pośredni ułatwiający inne analizy.
Klątwa wymiarowości
Analiza składowych głównych Podsumowanie
Motywacja
Metody redukcji wymiarowości
Klątwa wymiarowości
Metody redukcji wymiarowości
Metody redukcji wymiarowości dzieli się na metody liniowe i
metody nieliniowe.
Alternatywnie możne jest podzielić na selekcję cech oraz
projekcję cech.
Redukcja wymiarowości może być używana do redukcji szumów, wizualizacji danych, analizy skupień lub jako etap pośredni ułatwiający inne analizy.
Klątwa wymiarowości
Analiza składowych głównych Podsumowanie
Motywacja
Metody redukcji wymiarowości
Klątwa wymiarowości
Metody redukcji wymiarowości (liniowe)
Analiza składowych głównych – znajdowanie hiperpłaszczyzny leżącej najbliżej obserwacji.
Linear Discriminat Analysis.
Rozkład według wartości osobliwych (SVD).
Klątwa wymiarowości
Analiza składowych głównych Podsumowanie
Motywacja
Metody redukcji wymiarowości
Klątwa wymiarowości
Metody redukcji wymiarowości (nieliniowe)
Isomap Autoenkodery
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Maksymalizacja wariancji
Analiza składowych głównych (ang. Principle Component Analysis) jest najczęściej stosowaną metodą redukcji wymiarowości.
Podstawowa zasada działania PCA to: znajdź te
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Maksymalizacja wariancji
Analiza składowych głównych (ang. Principle Component Analysis) jest najczęściej stosowaną metodą redukcji wymiarowości.
Podstawowa zasada działania PCA to: znajdź te
podprzestrzenie które nie wnoszą dużo do danych i odrzuć je.
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Maksymalizacja wariancji
Zacznijmy od tego, że mamy do dyspozycji zbiór postaci x1, x2, . . . , xm,
złożony z wektorów cech xi (i pozbawiony etykiet). Obserwacje
wchodzące w skład zbioru uczącego możemy ułożyć w macierz X = [x1 x2 . . . xm].
Najczęściej wymiar naszych obserwacji n jest dużo większy od m
.
Każda z kolumn tej macierzy odpowiada obserwacji n cech. Każdy z wierszy tej macierzy odpowiada m realizacjom cechy (zmiennej losowej x(i )).
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Maksymalizacja wariancji
Zacznijmy od tego, że mamy do dyspozycji zbiór postaci x1, x2, . . . , xm,
złożony z wektorów cech xi (i pozbawiony etykiet). Obserwacje
wchodzące w skład zbioru uczącego możemy ułożyć w macierz X = [x1 x2 . . . xm].
Najczęściej wymiar naszych obserwacji n jest dużo większy od m.
Każda z kolumn tej macierzy odpowiada obserwacji n cech. Każdy z wierszy tej macierzy odpowiada m realizacjom cechy (zmiennej losowej x(i )).
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Maksymalizacja wariancji
Zacznijmy od tego, że mamy do dyspozycji zbiór postaci x1, x2, . . . , xm,
złożony z wektorów cech xi (i pozbawiony etykiet). Obserwacje
wchodzące w skład zbioru uczącego możemy ułożyć w macierz X = [x1 x2 . . . xm].
Najczęściej wymiar naszych obserwacji n jest dużo większy od m. Każda z kolumn tej macierzy odpowiada obserwacji n cech.
Każdy z wierszy tej macierzy odpowiada m realizacjom cechy (zmiennej losowej x(i )).
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Maksymalizacja wariancji
Zacznijmy od tego, że mamy do dyspozycji zbiór postaci x1, x2, . . . , xm,
złożony z wektorów cech xi (i pozbawiony etykiet). Obserwacje
wchodzące w skład zbioru uczącego możemy ułożyć w macierz X = [x1 x2 . . . xm].
Najczęściej wymiar naszych obserwacji n jest dużo większy od m. Każda z kolumn tej macierzy odpowiada obserwacji n cech. Każdy z wierszy tej macierzy odpowiada m realizacjom cechy (zmiennej losowej x(i )).
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Maksymalizacja wariancji
Maksymalizacja wariancji
Które cechy najlepiej opisują obserwowany proces?
Te, które najbardziej różnicują nasze obserwacje, czyli te, dla których wariancja jest największa.
Składowe główne
PCA znajduje kierunki w przestrzeni cech dla których wariancja jest największa. Te kierunki to składowe główne.
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Maksymalizacja wariancji
Maksymalizacja wariancji
Które cechy najlepiej opisują obserwowany proces? Te, które najbardziej różnicują nasze obserwacje,
czyli te, dla których wariancja jest największa.
Składowe główne
PCA znajduje kierunki w przestrzeni cech dla których wariancja jest największa. Te kierunki to składowe główne.
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Maksymalizacja wariancji
Maksymalizacja wariancji
Które cechy najlepiej opisują obserwowany proces? Te, które najbardziej różnicują nasze obserwacje, czyli te, dla których wariancja jest największa.
Składowe główne
PCA znajduje kierunki w przestrzeni cech dla których wariancja jest największa. Te kierunki to składowe główne.
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Maksymalizacja wariancji
Maksymalizacja wariancji
Które cechy najlepiej opisują obserwowany proces? Te, które najbardziej różnicują nasze obserwacje, czyli te, dla których wariancja jest największa.
Składowe główne
PCA znajduje kierunki w przestrzeni cech dla których wariancja jest największa. Te kierunki to składowe główne.
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Maksymalizacja wariancji
Metoda PCA operuje na macierzy kowariancji dla obserwacji.
Elementy tej macierzy są postaci
cov (x(i ), x(j )) = E [(x(i )− E [x(i )])(x(j )− E [x(j )])],
gdzie x(i ) to i ta cecha w wektorze danych. Alternatywnie cov (x(i ), x(j )) = 1 2n2 m X k=1 X l =1 (xk(i )− xl(i ))(xk(j )− xl(j )).
Wektory własne macierzy kowariancji odpowiadające
największym wartościom własnym odpowiadają kierunkom o największej zmienności.
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Maksymalizacja wariancji
Metoda PCA operuje na macierzy kowariancji dla obserwacji. Elementy tej macierzy są postaci
cov (x(i ), x(j )) = E [(x(i )− E [x(i )])(x(j )− E [x(j )])],
gdzie x(i ) to i ta cecha w wektorze danych.
Alternatywnie cov (x(i ), x(j )) = 1 2n2 m X k=1 X l =1 (xk(i )− xl(i ))(xk(j )− xl(j )).
Wektory własne macierzy kowariancji odpowiadające
największym wartościom własnym odpowiadają kierunkom o największej zmienności.
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Maksymalizacja wariancji
Metoda PCA operuje na macierzy kowariancji dla obserwacji. Elementy tej macierzy są postaci
cov (x(i ), x(j )) = E [(x(i )− E [x(i )])(x(j )− E [x(j )])],
gdzie x(i ) to i ta cecha w wektorze danych. Alternatywnie cov (x(i ), x(j )) = 1 2n2 m X k=1 X l =1 (xk(i )− xl(i ))(xk(j )− xl(j )).
Wektory własne macierzy kowariancji odpowiadające
największym wartościom własnym odpowiadają kierunkom o największej zmienności.
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Maksymalizacja wariancji
Metoda PCA operuje na macierzy kowariancji dla obserwacji. Elementy tej macierzy są postaci
cov (x(i ), x(j )) = E [(x(i )− E [x(i )])(x(j )− E [x(j )])],
gdzie x(i ) to i ta cecha w wektorze danych. Alternatywnie cov (x(i ), x(j )) = 1 2n2 m X k=1 X l =1 (xk(i )− xl(i ))(xk(j )− xl(j )).
Wektory własne macierzy kowariancji odpowiadające
największym wartościom własnym odpowiadają kierunkom o największej zmienności.
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Maksymalizacja wariancji
Normalizacja
Wartości składowych zależą od wartości liczbowych cech i przed procedurą PCA konieczne jest wykonanie normalizacji zmiennych.
W przypadku zmiennych o dużym rozrzucie zakresu wartości brak normalizacji spowoduje wzmocnienie znaczenia składowych o dużych wartościach (np. przychód liczony w tysiącach) nad składowymi o małych wartościach (np. wiek liczony w dziesiątkach).
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Maksymalizacja wariancji
Normalizacja
Wartości składowych zależą od wartości liczbowych cech i przed procedurą PCA konieczne jest wykonanie normalizacji zmiennych. W przypadku zmiennych o dużym rozrzucie zakresu wartości brak normalizacji spowoduje wzmocnienie znaczenia składowych o dużych wartościach (np. przychód liczony w tysiącach) nad składowymi o małych wartościach (np. wiek liczony w dziesiątkach).
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Maksymalizacja wariancji
Metoda PCA została opracowana w 1901 roku przez Karla Pearsona, twórcę statystyki
matematycznej.
K. Pearson, On Lines and Planes of Closest Fit to Systems of Points in Space, Philosophical Magazine, 2 (11): 559–572.
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Maksymalizacja wariancji
Jak maksymalizacja wariancji ma się do usuwania wymiarów?
Rozkład na wartości własne macierzy kowariancji jest wykonywany na macierzy z wartościami momentów centralnych.
Przekształcenie danych poprzez obrócenie do układu
współrzędnych wyznaczonego przez wektory własne macierzy kowariancji jest związane z rozkładem według wartości osobliwych (ang. Singular Value Decomposition (SVD)). Po odrzuceniu najmniejszych wartości osobliwych możliwe jest powrócenie do pierwotnego układu współrzędnych.
Odrzucenie pewnych wartości osobliwych powoduje, że znikają współrzędne w odpowiadających im podprzestrzeniach.
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Maksymalizacja wariancji
Jak maksymalizacja wariancji ma się do usuwania wymiarów? Rozkład na wartości własne macierzy kowariancji jest wykonywany na macierzy z wartościami momentów centralnych.
Przekształcenie danych poprzez obrócenie do układu
współrzędnych wyznaczonego przez wektory własne macierzy kowariancji jest związane z rozkładem według wartości osobliwych (ang. Singular Value Decomposition (SVD)). Po odrzuceniu najmniejszych wartości osobliwych możliwe jest powrócenie do pierwotnego układu współrzędnych.
Odrzucenie pewnych wartości osobliwych powoduje, że znikają współrzędne w odpowiadających im podprzestrzeniach.
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Maksymalizacja wariancji
Jak maksymalizacja wariancji ma się do usuwania wymiarów? Rozkład na wartości własne macierzy kowariancji jest wykonywany na macierzy z wartościami momentów centralnych.
Przekształcenie danych poprzez obrócenie do układu
współrzędnych wyznaczonego przez wektory własne macierzy kowariancji jest związane z rozkładem według wartości osobliwych (ang. Singular Value Decomposition (SVD)).
Po odrzuceniu najmniejszych wartości osobliwych możliwe jest powrócenie do pierwotnego układu współrzędnych.
Odrzucenie pewnych wartości osobliwych powoduje, że znikają współrzędne w odpowiadających im podprzestrzeniach.
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Maksymalizacja wariancji
Jak maksymalizacja wariancji ma się do usuwania wymiarów? Rozkład na wartości własne macierzy kowariancji jest wykonywany na macierzy z wartościami momentów centralnych.
Przekształcenie danych poprzez obrócenie do układu
współrzędnych wyznaczonego przez wektory własne macierzy kowariancji jest związane z rozkładem według wartości osobliwych (ang. Singular Value Decomposition (SVD)). Po odrzuceniu najmniejszych wartości osobliwych możliwe jest powrócenie do pierwotnego układu współrzędnych.
Odrzucenie pewnych wartości osobliwych powoduje, że znikają współrzędne w odpowiadających im podprzestrzeniach.
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Maksymalizacja wariancji
Jak maksymalizacja wariancji ma się do usuwania wymiarów? Rozkład na wartości własne macierzy kowariancji jest wykonywany na macierzy z wartościami momentów centralnych.
Przekształcenie danych poprzez obrócenie do układu
współrzędnych wyznaczonego przez wektory własne macierzy kowariancji jest związane z rozkładem według wartości osobliwych (ang. Singular Value Decomposition (SVD)). Po odrzuceniu najmniejszych wartości osobliwych możliwe jest powrócenie do pierwotnego układu współrzędnych.
Odrzucenie pewnych wartości osobliwych powoduje, że znikają współrzędne w odpowiadających im podprzestrzeniach.
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Wykorzystanie PCA
Przykład ze zbiorem MNIST
Zobaczmy jak wygląda działanie PCA na zbiorze MNIST pca-mnist-ex.py
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Wykorzystanie PCA
Zbiór MNIST
Zbiór zawiera 70k obrazów ręcznie napisanych cyfr. Każdy z obrazów ma rozmiar 28 × 28 w skali szarości. Obrazy są reprezentowane jako wektory pikseli, co daje 784-wymiarową przestrzeń cech.
Więcej: https://en.wikipedia.org/wiki/MNIST database
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Wykorzystanie PCA
Zbiór MNIST
Zbiór zawiera 70k obrazów ręcznie napisanych cyfr.
Każdy z obrazów ma rozmiar 28 × 28 w skali szarości. Obrazy są reprezentowane jako wektory pikseli, co daje 784-wymiarową przestrzeń cech.
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Wykorzystanie PCA
Zbiór MNIST
Zbiór zawiera 70k obrazów ręcznie napisanych cyfr. Każdy z obrazów ma rozmiar 28 × 28 w skali szarości.
Obrazy są reprezentowane jako wektory pikseli, co daje 784-wymiarową przestrzeń cech.
Więcej: https://en.wikipedia.org/wiki/MNIST database
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Wykorzystanie PCA
Zbiór MNIST
Zbiór zawiera 70k obrazów ręcznie napisanych cyfr. Każdy z obrazów ma rozmiar 28 × 28 w skali szarości. Obrazy są reprezentowane jako wektory pikseli, co daje 784-wymiarową przestrzeń cech.
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Wykorzystanie PCA
Zbiór MNIST
Zbiór zawiera 70k obrazów ręcznie napisanych cyfr. Każdy z obrazów ma rozmiar 28 × 28 w skali szarości. Obrazy są reprezentowane jako wektory pikseli, co daje 784-wymiarową przestrzeń cech.
Więcej: https://en.wikipedia.org/wiki/MNIST database
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Wykorzystanie PCA
PCA pozwala nam na znalezienie najważniejszych komponentów dla danych – tych składowych, które najbardziej rozróżniają dane.
Zobaczmy jak wyglądają przykładowe jedynki
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Wykorzystanie PCA
PCA pozwala nam na znalezienie najważniejszych komponentów dla danych – tych składowych, które najbardziej rozróżniają dane. Zobaczmy jak wyglądają przykładowe jedynki
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Wykorzystanie PCA
Możemy zobaczyć jak wyglądają najwyższe składowe dla jedynek – eigenjedynki.
Komponenty od 0 do 16.
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Wykorzystanie PCA
Możemy zobaczyć jak wyglądają najwyższe składowe dla jedynek – eigenjedynki.
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Wykorzystanie PCA
Możemy zobaczyć jak wyglądają najwyższe składowe dla jedynek – eigenjedynki.
Komponenty od 48 do 64.
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Wykorzystanie PCA
Możemy zobaczyć jak wyglądają najwyższe składowe dla jedynek – eigenjedynki.
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Wykorzystanie PCA
Możemy zobaczyć jak wyglądają najwyższe składowe dla jedynek – eigenjedynki.
Komponenty od 128 do 144.
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Wykorzystanie PCA
Możemy zobaczyć jak wyglądają najwyższe składowe dla jedynek – eigenjedynki.
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Wykorzystanie PCA
Możemy zobaczyć jak wyglądają najwyższe składowe dla jedynek – eigenjedynki.
Komponenty od 256 do 272.
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Wykorzystanie PCA
Możemy zobaczyć jak wyglądają najwyższe składowe dla jedynek – eigenjedynki.
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Wykorzystanie PCA
Możemy zobaczyć jak wyglądają najwyższe składowe dla jedynek – eigenjedynki.
Komponenty od 384 do 400.
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Wykorzystanie PCA
Możemy zobaczyć jak wyglądają najwyższe składowe dla jedynek – eigenjedynki.
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Wykorzystanie PCA
Możemy zobaczyć jak wyglądają najwyższe składowe dla jedynek – eigenjedynki.
Komponenty od 576 do 592.
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Wykorzystanie PCA
Możemy zobaczyć jak wyglądają najwyższe składowe dla jedynek – eigenjedynki.
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Wykorzystanie PCA
Możemy zobaczyć jak wyglądają najwyższe składowe dla jedynek – eigenjedynki.
Komponenty od 720 do 736.
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Wykorzystanie PCA
Możemy zobaczyć jak wyglądają najwyższe składowe dla jedynek – eigenjedynki.
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Wykorzystanie PCA
Możemy zobaczyć jak wyglądają najwyższe składowe dla jedynek – eigenjedynki.
Komponenty od 752 do 768.
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Wykorzystanie PCA
Zastosowanie PCA do kompresji
Naturalnym zastosowaniem PCA jest kompresja danych. Poprzez usunięcie zbędnych składowych możemy zmniejszyć ilość informacji potrzebych do przechowywania danych Tym razem przykład z cyfrą 5!
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Wykorzystanie PCA
Zastosowanie PCA do kompresji
Naturalnym zastosowaniem PCA jest kompresja danych.
Poprzez usunięcie zbędnych składowych możemy zmniejszyć ilość informacji potrzebych do przechowywania danych Tym razem przykład z cyfrą 5!
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Wykorzystanie PCA
Zastosowanie PCA do kompresji
Naturalnym zastosowaniem PCA jest kompresja danych. Poprzez usunięcie zbędnych składowych możemy zmniejszyć ilość informacji potrzebych do przechowywania danych
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Wykorzystanie PCA
Zastosowanie PCA do kompresji
Naturalnym zastosowaniem PCA jest kompresja danych. Poprzez usunięcie zbędnych składowych możemy zmniejszyć ilość informacji potrzebych do przechowywania danych Tym razem przykład z cyfrą 5!
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Wykorzystanie PCA
Z
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Wykorzystanie PCA
Zachowanie warjancji: 0.999
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Wykorzystanie PCA
Zachowanie warjancji: 0.950
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Wykorzystanie PCA
Zachowanie warjancji: 0.800
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Wykorzystanie PCA
Zachowanie warjancji: 0.600
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Wykorzystanie PCA
Zachowanie warjancji: 0.400
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Wykorzystanie PCA
Zachowanie warjancji: 0.050
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Wykorzystanie PCA
Warjancja vs zachowane komponenty
Zachowana wariancja zależ od ilości kompnentów.
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Wykorzystanie PCA
Zachowane komponenty: 2.
Liczba na górze oznacz część wariancji w komponentach.
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Wykorzystanie PCA
Zachowane komponenty: 5.
Liczba na górze oznacz część wariancji w komponentach.
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Wykorzystanie PCA
Zachowane komponenty: 10.
Liczba na górze oznacz część wariancji w komponentach.
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Wykorzystanie PCA
Zachowane komponenty: 50.
Liczba na górze oznacz część wariancji w komponentach.
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Wykorzystanie PCA
Zachowane komponenty: 100.
Liczba na górze oznacz część wariancji w komponentach.
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Wykorzystanie PCA
Zachowane komponenty: 500.
Liczba na górze oznacz część wariancji w komponentach.
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji
Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Rozkład według wartości osobliwych
Singular Value Decomposition (SVD)
Dowolna macierz A ∈ Rm×n o elementach rzeczywistych, może
być przedstawiona w postaci
A = UΣVT,
gdzie Σ ∈ Rm×n jest diagonalna, U ∈ Rm×m i V ∈ Rn×n są
macierzami ortonormalnymi.
Niezerowe elementy macierzy Σ to wartości osobliwe macierzy A.
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Rozkład według wartości osobliwych
Singular Value Decomposition (SVD)
Dowolna macierz A ∈ Cm×n o elementach zespolonych, może być
przedstawiona w postaci
A = UΣV†,
gdzie Σ ∈ Cm×n jest diagonalna, U ∈ Cm×m i V ∈ Cn×n są
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Rozkład według wartości osobliwych
Przypomnienie
Na naszym wykładzie rozkład według wartości osobliwych pojawił się już przy rozwiązywaniu równania normalnego przy
wykorzystaniu pseudoinwersji macierzy.
Ale znajduje on również inne zastosowania.
The practical and theoretical importance of the SVD is hard to overestimate.
Gene H. Golub, Charles F. Van Loan, Matrix
Computations, 4th ed. (2017).
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Rozkład według wartości osobliwych
Przypomnienie
Na naszym wykładzie rozkład według wartości osobliwych pojawił się już przy rozwiązywaniu równania normalnego przy
wykorzystaniu pseudoinwersji macierzy. Ale znajduje on również inne zastosowania.
The practical and theoretical importance of the SVD is hard to overestimate.
Gene H. Golub, Charles F. Van Loan, Matrix
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Rozkład według wartości osobliwych
Przypomnienie
Na naszym wykładzie rozkład według wartości osobliwych pojawił się już przy rozwiązywaniu równania normalnego przy
wykorzystaniu pseudoinwersji macierzy. Ale znajduje on również inne zastosowania.
The practical and theoretical importance of the SVD is hard to overestimate.
Gene H. Golub, Charles F. Van Loan, Matrix
Computations, 4th ed. (2017).
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Rozkład według wartości osobliwych
Rozkład według wartości osobliwych jest uogólnieniem rozkładu na wartości własne.
SVD może być wyliczone dla dowolnej macierzy, niekoniecznie kwadratowej.
Macierze U i V to macierze wektorów własnych odpowiednio dla macierzy XXT oraz XTX .
Wyliczenie wartości własnych dla macierzy kowarjancji jest równoważne wyliczeniu SVD dla wycentrowanej macierzy danych.
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Rozkład według wartości osobliwych
Rozkład według wartości osobliwych jest uogólnieniem rozkładu na wartości własne.
SVD może być wyliczone dla dowolnej macierzy, niekoniecznie kwadratowej.
Macierze U i V to macierze wektorów własnych odpowiednio dla macierzy XXT oraz XTX .
Wyliczenie wartości własnych dla macierzy kowarjancji jest równoważne wyliczeniu SVD dla wycentrowanej macierzy danych.
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Rozkład według wartości osobliwych
Rozkład według wartości osobliwych jest uogólnieniem rozkładu na wartości własne.
SVD może być wyliczone dla dowolnej macierzy, niekoniecznie kwadratowej.
Macierze U i V to macierze wektorów własnych odpowiednio dla macierzy XXT oraz XTX .
Wyliczenie wartości własnych dla macierzy kowarjancji jest równoważne wyliczeniu SVD dla wycentrowanej macierzy danych.
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Rozkład według wartości osobliwych
Rozkład według wartości osobliwych jest uogólnieniem rozkładu na wartości własne.
SVD może być wyliczone dla dowolnej macierzy, niekoniecznie kwadratowej.
Macierze U i V to macierze wektorów własnych odpowiednio dla macierzy XXT oraz XTX .
Wyliczenie wartości własnych dla macierzy kowarjancji jest równoważne wyliczeniu SVD dla wycentrowanej macierzy danych.
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Rozkład według wartości osobliwych
Rozkład o wielu nazwach
Rozkład według wartości osobliwych pojawia się w wielu dziedzinach pod różnymi nazwami.
Principle Component Analysis w statystyce i uczeniu maszynowym,
Transformacja Karhunen’a-Lo`eve’ego w przetwarzaniu sygnałów,
Twierdzenie Eckarta-Younga w zagadnieniach aproksymacji, Rozkład Schmidta w informatyce kwantowej.
G. W. Stewart, On the Early History of the Singular Value Decomposition, SIAM Review, 35(4), 551-566 (1993).
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Rozkład według wartości osobliwych
Rozkład o wielu nazwach
Rozkład według wartości osobliwych pojawia się w wielu dziedzinach pod różnymi nazwami.
Principle Component Analysis w statystyce i uczeniu maszynowym,
Transformacja Karhunen’a-Lo`eve’ego w przetwarzaniu sygnałów,
Twierdzenie Eckarta-Younga w zagadnieniach aproksymacji, Rozkład Schmidta w informatyce kwantowej.
G. W. Stewart, On the Early History of the Singular Value Decomposition, SIAM Review, 35(4), 551-566 (1993).
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Rozkład według wartości osobliwych
Rozkład o wielu nazwach
Rozkład według wartości osobliwych pojawia się w wielu dziedzinach pod różnymi nazwami.
Principle Component Analysis w statystyce i uczeniu maszynowym,
Transformacja Karhunen’a-Lo`eve’ego w przetwarzaniu sygnałów,
Twierdzenie Eckarta-Younga w zagadnieniach aproksymacji, Rozkład Schmidta w informatyce kwantowej.
G. W. Stewart, On the Early History of the Singular Value Decomposition, SIAM Review, 35(4), 551-566 (1993).
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Rozkład według wartości osobliwych
Rozkład o wielu nazwach
Rozkład według wartości osobliwych pojawia się w wielu dziedzinach pod różnymi nazwami.
Principle Component Analysis w statystyce i uczeniu maszynowym,
Transformacja Karhunen’a-Lo`eve’ego w przetwarzaniu sygnałów,
Twierdzenie Eckarta-Younga w zagadnieniach aproksymacji,
Rozkład Schmidta w informatyce kwantowej.
G. W. Stewart, On the Early History of the Singular Value Decomposition, SIAM Review, 35(4), 551-566 (1993).
Klątwa wymiarowości
Analiza składowych głównych
Podsumowanie
Maksymalizacja wariancji Wykorzystanie PCA
Rozkład według wartości osobliwych
Analiza składowych głównych
Rozkład według wartości osobliwych
Rozkład o wielu nazwach
Rozkład według wartości osobliwych pojawia się w wielu dziedzinach pod różnymi nazwami.
Principle Component Analysis w statystyce i uczeniu maszynowym,
Transformacja Karhunen’a-Lo`eve’ego w przetwarzaniu sygnałów,
Twierdzenie Eckarta-Younga w zagadnieniach aproksymacji, Rozkład Schmidta w informatyce kwantowej.
G. W. Stewart, On the Early History of the Singular Value Decomposition, SIAM Review, 35(4), 551-566 (1993).