• Nie Znaleziono Wyników

Wykład 10 – Redukcja wymiarowości

N/A
N/A
Protected

Academic year: 2021

Share "Wykład 10 – Redukcja wymiarowości"

Copied!
151
0
0

Pełen tekst

(1)

Klątwa wymiarowości Analiza składowych głównych Podsumowanie

Podstawy uczenia maszynowego

Wykład 10 – Redukcja wymiarowości

Jarosław Miszczak

05/05/2021

(2)

Klątwa wymiarowości Analiza składowych głównych Podsumowanie

(3)

Klątwa wymiarowości Analiza składowych głównych Podsumowanie

1 Klątwa wymiarowości

Motywacja

Metody redukcji wymiarowości

2 Analiza składowych głównych

Maksymalizacja wariancji Wykorzystanie PCA

Rozkład według wartości osobliwych

3 Podsumowanie

Zastosowanie redukcji wymiarowości Rozszerzenia PCA

Materiały dodatkowe

(4)

Klątwa wymiarowości

Analiza składowych głównych Podsumowanie

Motywacja

Metody redukcji wymiarowości

(5)

Klątwa wymiarowości

Analiza składowych głównych Podsumowanie

Motywacja

Metody redukcji wymiarowości

Klątwa wymiarowości

Motywacja

Celem uczenia maszynowego jest odtworzenie rzeczywistości, a przynajmniej interesującego nas skrawka rzeczywistości.

Z jednej strony, nawet opis prostego zachowania jakim jest wybór produktów w sklepie internetowym czy określenie ceny domu może zależeć od wielu zmiennych.

Z drugiej strony, pewne cechy, które znajdują się w zbiorze danych mogą nie mieć dużego wpływu na nasz model.

(6)

Klątwa wymiarowości

Analiza składowych głównych Podsumowanie

Motywacja

Metody redukcji wymiarowości

Klątwa wymiarowości

Motywacja

Celem uczenia maszynowego jest odtworzenie rzeczywistości, a przynajmniej interesującego nas skrawka rzeczywistości. Z jednej strony, nawet opis prostego zachowania jakim jest wybór produktów w sklepie internetowym czy określenie ceny domu może zależeć od wielu zmiennych.

Z drugiej strony, pewne cechy, które znajdują się w zbiorze danych mogą nie mieć dużego wpływu na nasz model.

(7)

Klątwa wymiarowości

Analiza składowych głównych Podsumowanie

Motywacja

Metody redukcji wymiarowości

Klątwa wymiarowości

Motywacja

Celem uczenia maszynowego jest odtworzenie rzeczywistości, a przynajmniej interesującego nas skrawka rzeczywistości. Z jednej strony, nawet opis prostego zachowania jakim jest wybór produktów w sklepie internetowym czy określenie ceny domu może zależeć od wielu zmiennych.

Z drugiej strony, pewne cechy, które znajdują się w zbiorze danych mogą nie mieć dużego wpływu na nasz model.

(8)

Klątwa wymiarowości

Analiza składowych głównych Podsumowanie

Motywacja

Metody redukcji wymiarowości

Klątwa wymiarowości

Motywacja

Klątwa wymiarowości

Klątwa wymiarowości polega na wykładniczym wzroście ilości danych potrzebnych do zbudowania modelu wraz ze wzrostem wymiaru przestrzeni cech.

Pojęcie klątwy wymiarowości wprowadził w 1961 Richard E. Bellman w trakcie prac na programowaniem dynamicznym.

(9)

Klątwa wymiarowości

Analiza składowych głównych Podsumowanie

Motywacja

Metody redukcji wymiarowości

Klątwa wymiarowości

Motywacja

Klątwa wymiarowości

Klątwa wymiarowości polega na wykładniczym wzroście ilości danych potrzebnych do zbudowania modelu wraz ze wzrostem wymiaru przestrzeni cech.

Pojęcie klątwy wymiarowości wprowadził w 1961 Richard E. Bellman w trakcie prac na programowaniem dynamicznym.

(10)

Klątwa wymiarowości

Analiza składowych głównych Podsumowanie

Motywacja

Metody redukcji wymiarowości

Klątwa wymiarowości

Motywacja

W przypadku wysokowymiarowych przestrzeni punktu znajdują się daleko od siebie.

Jeżeli weźmiemy pod uwagę wystarczająco dużo cech, to każdy człowiek ma cechę którą wyróżnia się wśród od innych.

Odległość między dwoma losowymi punktami w kostce [0, 1]

wynosi 13.

(11)

Klątwa wymiarowości

Analiza składowych głównych Podsumowanie

Motywacja

Metody redukcji wymiarowości

Klątwa wymiarowości

Motywacja

W przypadku wysokowymiarowych przestrzeni punktu znajdują się daleko od siebie.

Jeżeli weźmiemy pod uwagę wystarczająco dużo cech, to każdy człowiek ma cechę którą wyróżnia się wśród od innych.

Odległość między dwoma losowymi punktami w kostce [0, 1]

wynosi 13.

Dla [0, 1]2 jest to już ponad 0.5, a dla [0, 1]3 – około 0.66.

(12)

Klątwa wymiarowości

Analiza składowych głównych Podsumowanie

Motywacja

Metody redukcji wymiarowości

Klątwa wymiarowości

Motywacja

W przypadku wysokowymiarowych przestrzeni punktu znajdują się daleko od siebie.

Jeżeli weźmiemy pod uwagę wystarczająco dużo cech, to każdy człowiek ma cechę którą wyróżnia się wśród od innych.

Odległość między dwoma losowymi punktami w kostce [0, 1]

wynosi 13.

(13)

Klątwa wymiarowości

Analiza składowych głównych Podsumowanie

Motywacja

Metody redukcji wymiarowości

Klątwa wymiarowości

Motywacja

W przypadku wysokowymiarowych przestrzeni punktu znajdują się daleko od siebie.

Jeżeli weźmiemy pod uwagę wystarczająco dużo cech, to każdy człowiek ma cechę którą wyróżnia się wśród od innych.

Odległość między dwoma losowymi punktami w kostce [0, 1]

wynosi 13.

Dla [0, 1]2 jest to już ponad 0.5, a dla [0, 1]3 – około 0.66.

(14)

Klątwa wymiarowości

Analiza składowych głównych Podsumowanie

Motywacja

Metody redukcji wymiarowości

Klątwa wymiarowości

Motywacja

Jak wygląda taka odległość?

1 1000 2000 3000 4000 5000 6000 n 0 5 10 15 20 25 30 35 odległość odległość =pn/6

(15)

Klątwa wymiarowości

Analiza składowych głównych Podsumowanie

Motywacja

Metody redukcji wymiarowości

Klątwa wymiarowości

Motywacja

Jak wygląda taka odległość?

1 1000 2000 3000 4000 5000 6000 n 0 5 10 15 20 25 30 35 odległość odległość =pn/6 8 / 45

(16)

Klątwa wymiarowości

Analiza składowych głównych Podsumowanie

Motywacja

Metody redukcji wymiarowości

Klątwa wymiarowości

Motywacja

Co to znaczy?

Ze względu na rozproszenie punktów, że wielowymiarowe zbiory danych mogą być bardzo rzadkie.

Zatem większość przykładów będzie znajdować się daleko od siebie.

Oznacza to również, że element dla którego chcemy wykonać predykcję będzie prawdopodobnie daleko od jakiejkolwiek przykłądu ze zbioru treningowego.

A zatem predykcja będzie znacznie mniej wiarygodne niż w niższych wymiarach, ponieważ będą oparta na znacznie większych ekstrapolacjach.

Czyli im większy wymiar wektora cech, tym trudniej o uogólnienie a łatwiej o przetrenowanie.

(17)

Klątwa wymiarowości

Analiza składowych głównych Podsumowanie

Motywacja

Metody redukcji wymiarowości

Klątwa wymiarowości

Motywacja

Co to znaczy?

Ze względu na rozproszenie punktów, że wielowymiarowe zbiory danych mogą być bardzo rzadkie.

Zatem większość przykładów będzie znajdować się daleko od siebie.

Oznacza to również, że element dla którego chcemy wykonać predykcję będzie prawdopodobnie daleko od jakiejkolwiek przykłądu ze zbioru treningowego.

A zatem predykcja będzie znacznie mniej wiarygodne niż w niższych wymiarach, ponieważ będą oparta na znacznie większych ekstrapolacjach.

Czyli im większy wymiar wektora cech, tym trudniej o uogólnienie a łatwiej o przetrenowanie.

(18)

Klątwa wymiarowości

Analiza składowych głównych Podsumowanie

Motywacja

Metody redukcji wymiarowości

Klątwa wymiarowości

Motywacja

Co to znaczy?

Ze względu na rozproszenie punktów, że wielowymiarowe zbiory danych mogą być bardzo rzadkie.

Zatem większość przykładów będzie znajdować się daleko od siebie.

Oznacza to również, że element dla którego chcemy wykonać predykcję będzie prawdopodobnie daleko od jakiejkolwiek przykłądu ze zbioru treningowego.

A zatem predykcja będzie znacznie mniej wiarygodne niż w niższych wymiarach, ponieważ będą oparta na znacznie większych ekstrapolacjach.

Czyli im większy wymiar wektora cech, tym trudniej o uogólnienie a łatwiej o przetrenowanie.

(19)

Klątwa wymiarowości

Analiza składowych głównych Podsumowanie

Motywacja

Metody redukcji wymiarowości

Klątwa wymiarowości

Motywacja

Co to znaczy?

Ze względu na rozproszenie punktów, że wielowymiarowe zbiory danych mogą być bardzo rzadkie.

Zatem większość przykładów będzie znajdować się daleko od siebie.

Oznacza to również, że element dla którego chcemy wykonać predykcję będzie prawdopodobnie daleko od jakiejkolwiek przykłądu ze zbioru treningowego.

A zatem predykcja będzie znacznie mniej wiarygodne niż w niższych wymiarach, ponieważ będą oparta na znacznie większych ekstrapolacjach.

Czyli im większy wymiar wektora cech, tym trudniej o uogólnienie a łatwiej o przetrenowanie.

(20)

Klątwa wymiarowości

Analiza składowych głównych Podsumowanie

Motywacja

Metody redukcji wymiarowości

Klątwa wymiarowości

Motywacja

Co to znaczy?

Ze względu na rozproszenie punktów, że wielowymiarowe zbiory danych mogą być bardzo rzadkie.

Zatem większość przykładów będzie znajdować się daleko od siebie.

Oznacza to również, że element dla którego chcemy wykonać predykcję będzie prawdopodobnie daleko od jakiejkolwiek przykłądu ze zbioru treningowego.

A zatem predykcja będzie znacznie mniej wiarygodne niż w niższych wymiarach, ponieważ będą oparta na znacznie

Czyli im większy wymiar wektora cech, tym trudniej o uogólnienie a łatwiej o przetrenowanie.

(21)

Klątwa wymiarowości

Analiza składowych głównych Podsumowanie

Motywacja

Metody redukcji wymiarowości

Klątwa wymiarowości

Motywacja

Co to znaczy?

Ze względu na rozproszenie punktów, że wielowymiarowe zbiory danych mogą być bardzo rzadkie.

Zatem większość przykładów będzie znajdować się daleko od siebie.

Oznacza to również, że element dla którego chcemy wykonać predykcję będzie prawdopodobnie daleko od jakiejkolwiek przykłądu ze zbioru treningowego.

A zatem predykcja będzie znacznie mniej wiarygodne niż w niższych wymiarach, ponieważ będą oparta na znacznie większych ekstrapolacjach.

Czyli im większy wymiar wektora cech, tym trudniej o uogólnienie a łatwiej o przetrenowanie.

(22)

Klątwa wymiarowości

Analiza składowych głównych Podsumowanie

Motywacja

Metody redukcji wymiarowości

Klątwa wymiarowości

Motywacja

Zobaczmy jak to działa dla kNN.

Załóżmy, że stosujemy kNN dla danych z n wymiarowej przestrzeni.

Dane są rozłożone równomiernie i chcemy zbadać ułamek f z tych danych.

Kostka zawierająca f -tą część danych ma bok o długości

1

n

n

.

Jeżeli chcemy wykorzystać 10% danych, to przejrzeliśmy tylko



1 10

10

(23)

Klątwa wymiarowości

Analiza składowych głównych Podsumowanie

Motywacja

Metody redukcji wymiarowości

Klątwa wymiarowości

Motywacja

Zobaczmy jak to działa dla kNN.

Załóżmy, że stosujemy kNN dla danych z n wymiarowej przestrzeni.

Dane są rozłożone równomiernie i chcemy zbadać ułamek f z tych danych.

Kostka zawierająca f -tą część danych ma bok o długości

1

n

n

.

Jeżeli chcemy wykorzystać 10% danych, to przejrzeliśmy tylko

 1 10 10 = 100000000001 objętości kostki. 10 / 45

(24)

Klątwa wymiarowości

Analiza składowych głównych Podsumowanie

Motywacja

Metody redukcji wymiarowości

Klątwa wymiarowości

Motywacja

Zobaczmy jak to działa dla kNN.

Załóżmy, że stosujemy kNN dla danych z n wymiarowej przestrzeni.

Dane są rozłożone równomiernie i chcemy zbadać ułamek f z tych danych.

Kostka zawierająca f -tą część danych ma bok o długości

1

n

n

.

Jeżeli chcemy wykorzystać 10% danych, to przejrzeliśmy tylko



1 10

10

(25)

Klątwa wymiarowości

Analiza składowych głównych Podsumowanie

Motywacja

Metody redukcji wymiarowości

Klątwa wymiarowości

Motywacja

Zobaczmy jak to działa dla kNN.

Załóżmy, że stosujemy kNN dla danych z n wymiarowej przestrzeni.

Dane są rozłożone równomiernie i chcemy zbadać ułamek f z tych danych.

Kostka zawierająca f -tą część danych ma bok o długości

1

n

n

.

Jeżeli chcemy wykorzystać 10% danych, to przejrzeliśmy tylko

 1 10 10 = 100000000001 objętości kostki. 10 / 45

(26)

Klątwa wymiarowości

Analiza składowych głównych Podsumowanie

Motywacja

Metody redukcji wymiarowości

Klątwa wymiarowości

Motywacja

Zobaczmy jak to działa dla kNN.

Załóżmy, że stosujemy kNN dla danych z n wymiarowej przestrzeni.

Dane są rozłożone równomiernie i chcemy zbadać ułamek f z tych danych.

Kostka zawierająca f -tą część danych ma bok o długości

1

n

n

.

Jeżeli chcemy wykorzystać 10% danych, to przejrzeliśmy tylko

(27)

Klątwa wymiarowości

Analiza składowych głównych Podsumowanie

Motywacja

Metody redukcji wymiarowości

Klątwa wymiarowości

Motywacja

0 25 50 75 100

procent badanych przypadków 0 25 50 75 100 pro cen t przestrzeni wymiar=1 11 / 45

(28)

Klątwa wymiarowości

Analiza składowych głównych Podsumowanie

Motywacja

Metody redukcji wymiarowości

Klątwa wymiarowości

Motywacja 0 25 50 75 100 pro cen t przestrzeni wymiar=2

(29)

Klątwa wymiarowości

Analiza składowych głównych Podsumowanie

Motywacja

Metody redukcji wymiarowości

Klątwa wymiarowości

Motywacja

0 25 50 75 100

procent badanych przypadków 0 25 50 75 100 pro cen t przestrzeni wymiar=3 11 / 45

(30)

Klątwa wymiarowości

Analiza składowych głównych Podsumowanie

Motywacja

Metody redukcji wymiarowości

Klątwa wymiarowości

Motywacja 0 25 50 75 100 pro cen t przestrzeni wymiar=5

(31)

Klątwa wymiarowości

Analiza składowych głównych Podsumowanie

Motywacja

Metody redukcji wymiarowości

Klątwa wymiarowości

Motywacja

0 25 50 75 100

procent badanych przypadków 0 25 50 75 100 pro cen t przestrzeni wymiar=10 11 / 45

(32)

Klątwa wymiarowości

Analiza składowych głównych Podsumowanie

Motywacja

Metody redukcji wymiarowości

Klątwa wymiarowości

Motywacja 0 25 50 75 100 pro cen t przestrzeni wymiar=20

(33)

Klątwa wymiarowości

Analiza składowych głównych Podsumowanie

Motywacja

Metody redukcji wymiarowości

Klątwa wymiarowości

Motywacja

0 25 50 75 100

procent badanych przypadków 0 25 50 75 100 pro cen t przestrzeni wymiar=25 11 / 45

(34)

Klątwa wymiarowości

Analiza składowych głównych Podsumowanie

Motywacja

Metody redukcji wymiarowości

Klątwa wymiarowości

Motywacja 0 25 50 75 100 pro cen t przestrzeni wymiar=50

(35)

Klątwa wymiarowości

Analiza składowych głównych Podsumowanie

Motywacja

Metody redukcji wymiarowości

Klątwa wymiarowości

Motywacja

0 25 50 75 100

procent badanych przypadków 0 25 50 75 100 pro cen t przestrzeni wymiar=100 11 / 45

(36)

Klątwa wymiarowości

Analiza składowych głównych Podsumowanie

Motywacja

Metody redukcji wymiarowości

Klątwa wymiarowości

Motywacja

Klątwa wymiarowości

Z powodu klątwy wymiarowości nie jest możliwe wykorzystanie odpowiedniej liczby przykładów, która pozwala równomiernie próbkować całą przestrzeń cech.

(37)

Klątwa wymiarowości

Analiza składowych głównych Podsumowanie

Motywacja

Metody redukcji wymiarowości

Klątwa wymiarowości

Metody redukcji wymiarowości

Redukcja wymiarowości

Redukcja wymiarowości lub redukcja wymiarów to transformacja danych z przestrzeni wielowymiarowej w przestrzeń o niższym wymiarze, tak aby reprezentacja niskowymiarowa zachowała znaczące właściwości oryginalnych danych.

(38)

Klątwa wymiarowości

Analiza składowych głównych Podsumowanie

Motywacja

Metody redukcji wymiarowości

Klątwa wymiarowości

Metody redukcji wymiarowości

Metody redukcji wymiarowości dzieli się na metody liniowe i

metody nieliniowe.

Alternatywnie możne jest podzielić na selekcję cech oraz

projekcję cech.

Redukcja wymiarowości może być używana do redukcji szumów, wizualizacji danych, analizy skupień lub jako etap pośredni ułatwiający inne analizy.

(39)

Klątwa wymiarowości

Analiza składowych głównych Podsumowanie

Motywacja

Metody redukcji wymiarowości

Klątwa wymiarowości

Metody redukcji wymiarowości

Metody redukcji wymiarowości dzieli się na metody liniowe i

metody nieliniowe.

Alternatywnie możne jest podzielić na selekcję cech oraz

projekcję cech.

Redukcja wymiarowości może być używana do redukcji szumów, wizualizacji danych, analizy skupień lub jako etap pośredni ułatwiający inne analizy.

(40)

Klątwa wymiarowości

Analiza składowych głównych Podsumowanie

Motywacja

Metody redukcji wymiarowości

Klątwa wymiarowości

Metody redukcji wymiarowości

Metody redukcji wymiarowości dzieli się na metody liniowe i

metody nieliniowe.

Alternatywnie możne jest podzielić na selekcję cech oraz

projekcję cech.

Redukcja wymiarowości może być używana do redukcji szumów, wizualizacji danych, analizy skupień lub jako etap pośredni ułatwiający inne analizy.

(41)

Klątwa wymiarowości

Analiza składowych głównych Podsumowanie

Motywacja

Metody redukcji wymiarowości

Klątwa wymiarowości

Metody redukcji wymiarowości (liniowe)

Analiza składowych głównych – znajdowanie hiperpłaszczyzny leżącej najbliżej obserwacji.

Linear Discriminat Analysis.

Rozkład według wartości osobliwych (SVD).

(42)

Klątwa wymiarowości

Analiza składowych głównych Podsumowanie

Motywacja

Metody redukcji wymiarowości

Klątwa wymiarowości

Metody redukcji wymiarowości (nieliniowe)

Isomap Autoenkodery

(43)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

(44)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Maksymalizacja wariancji

Analiza składowych głównych (ang. Principle Component Analysis) jest najczęściej stosowaną metodą redukcji wymiarowości.

Podstawowa zasada działania PCA to: znajdź te

(45)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Maksymalizacja wariancji

Analiza składowych głównych (ang. Principle Component Analysis) jest najczęściej stosowaną metodą redukcji wymiarowości.

Podstawowa zasada działania PCA to: znajdź te

podprzestrzenie które nie wnoszą dużo do danych i odrzuć je.

(46)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Maksymalizacja wariancji

Zacznijmy od tego, że mamy do dyspozycji zbiór postaci x1, x2, . . . , xm,

złożony z wektorów cech xi (i pozbawiony etykiet). Obserwacje

wchodzące w skład zbioru uczącego możemy ułożyć w macierz X = [x1 x2 . . . xm].

Najczęściej wymiar naszych obserwacji n jest dużo większy od m

.

Każda z kolumn tej macierzy odpowiada obserwacji n cech. Każdy z wierszy tej macierzy odpowiada m realizacjom cechy (zmiennej losowej x(i )).

(47)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Maksymalizacja wariancji

Zacznijmy od tego, że mamy do dyspozycji zbiór postaci x1, x2, . . . , xm,

złożony z wektorów cech xi (i pozbawiony etykiet). Obserwacje

wchodzące w skład zbioru uczącego możemy ułożyć w macierz X = [x1 x2 . . . xm].

Najczęściej wymiar naszych obserwacji n jest dużo większy od m.

Każda z kolumn tej macierzy odpowiada obserwacji n cech. Każdy z wierszy tej macierzy odpowiada m realizacjom cechy (zmiennej losowej x(i )).

(48)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Maksymalizacja wariancji

Zacznijmy od tego, że mamy do dyspozycji zbiór postaci x1, x2, . . . , xm,

złożony z wektorów cech xi (i pozbawiony etykiet). Obserwacje

wchodzące w skład zbioru uczącego możemy ułożyć w macierz X = [x1 x2 . . . xm].

Najczęściej wymiar naszych obserwacji n jest dużo większy od m. Każda z kolumn tej macierzy odpowiada obserwacji n cech.

Każdy z wierszy tej macierzy odpowiada m realizacjom cechy (zmiennej losowej x(i )).

(49)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Maksymalizacja wariancji

Zacznijmy od tego, że mamy do dyspozycji zbiór postaci x1, x2, . . . , xm,

złożony z wektorów cech xi (i pozbawiony etykiet). Obserwacje

wchodzące w skład zbioru uczącego możemy ułożyć w macierz X = [x1 x2 . . . xm].

Najczęściej wymiar naszych obserwacji n jest dużo większy od m. Każda z kolumn tej macierzy odpowiada obserwacji n cech. Każdy z wierszy tej macierzy odpowiada m realizacjom cechy (zmiennej losowej x(i )).

(50)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Maksymalizacja wariancji

Maksymalizacja wariancji

Które cechy najlepiej opisują obserwowany proces?

Te, które najbardziej różnicują nasze obserwacje, czyli te, dla których wariancja jest największa.

Składowe główne

PCA znajduje kierunki w przestrzeni cech dla których wariancja jest największa. Te kierunki to składowe główne.

(51)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Maksymalizacja wariancji

Maksymalizacja wariancji

Które cechy najlepiej opisują obserwowany proces? Te, które najbardziej różnicują nasze obserwacje,

czyli te, dla których wariancja jest największa.

Składowe główne

PCA znajduje kierunki w przestrzeni cech dla których wariancja jest największa. Te kierunki to składowe główne.

(52)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Maksymalizacja wariancji

Maksymalizacja wariancji

Które cechy najlepiej opisują obserwowany proces? Te, które najbardziej różnicują nasze obserwacje, czyli te, dla których wariancja jest największa.

Składowe główne

PCA znajduje kierunki w przestrzeni cech dla których wariancja jest największa. Te kierunki to składowe główne.

(53)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Maksymalizacja wariancji

Maksymalizacja wariancji

Które cechy najlepiej opisują obserwowany proces? Te, które najbardziej różnicują nasze obserwacje, czyli te, dla których wariancja jest największa.

Składowe główne

PCA znajduje kierunki w przestrzeni cech dla których wariancja jest największa. Te kierunki to składowe główne.

(54)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Maksymalizacja wariancji

Metoda PCA operuje na macierzy kowariancji dla obserwacji.

Elementy tej macierzy są postaci

cov (x(i ), x(j )) = E [(x(i )− E [x(i )])(x(j )− E [x(j )])],

gdzie x(i ) to i ta cecha w wektorze danych. Alternatywnie cov (x(i ), x(j )) = 1 2n2 m X k=1 X l =1 (xk(i )− xl(i ))(xk(j )− xl(j )).

Wektory własne macierzy kowariancji odpowiadające

największym wartościom własnym odpowiadają kierunkom o największej zmienności.

(55)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Maksymalizacja wariancji

Metoda PCA operuje na macierzy kowariancji dla obserwacji. Elementy tej macierzy są postaci

cov (x(i ), x(j )) = E [(x(i )− E [x(i )])(x(j )− E [x(j )])],

gdzie x(i ) to i ta cecha w wektorze danych.

Alternatywnie cov (x(i ), x(j )) = 1 2n2 m X k=1 X l =1 (xk(i )− xl(i ))(xk(j )− xl(j )).

Wektory własne macierzy kowariancji odpowiadające

największym wartościom własnym odpowiadają kierunkom o największej zmienności.

(56)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Maksymalizacja wariancji

Metoda PCA operuje na macierzy kowariancji dla obserwacji. Elementy tej macierzy są postaci

cov (x(i ), x(j )) = E [(x(i )− E [x(i )])(x(j )− E [x(j )])],

gdzie x(i ) to i ta cecha w wektorze danych. Alternatywnie cov (x(i ), x(j )) = 1 2n2 m X k=1 X l =1 (xk(i )− xl(i ))(xk(j )− xl(j )).

Wektory własne macierzy kowariancji odpowiadające

największym wartościom własnym odpowiadają kierunkom o największej zmienności.

(57)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Maksymalizacja wariancji

Metoda PCA operuje na macierzy kowariancji dla obserwacji. Elementy tej macierzy są postaci

cov (x(i ), x(j )) = E [(x(i )− E [x(i )])(x(j )− E [x(j )])],

gdzie x(i ) to i ta cecha w wektorze danych. Alternatywnie cov (x(i ), x(j )) = 1 2n2 m X k=1 X l =1 (xk(i )− xl(i ))(xk(j )− xl(j )).

Wektory własne macierzy kowariancji odpowiadające

największym wartościom własnym odpowiadają kierunkom o największej zmienności.

(58)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Maksymalizacja wariancji

Normalizacja

Wartości składowych zależą od wartości liczbowych cech i przed procedurą PCA konieczne jest wykonanie normalizacji zmiennych.

W przypadku zmiennych o dużym rozrzucie zakresu wartości brak normalizacji spowoduje wzmocnienie znaczenia składowych o dużych wartościach (np. przychód liczony w tysiącach) nad składowymi o małych wartościach (np. wiek liczony w dziesiątkach).

(59)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Maksymalizacja wariancji

Normalizacja

Wartości składowych zależą od wartości liczbowych cech i przed procedurą PCA konieczne jest wykonanie normalizacji zmiennych. W przypadku zmiennych o dużym rozrzucie zakresu wartości brak normalizacji spowoduje wzmocnienie znaczenia składowych o dużych wartościach (np. przychód liczony w tysiącach) nad składowymi o małych wartościach (np. wiek liczony w dziesiątkach).

(60)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Maksymalizacja wariancji

Metoda PCA została opracowana w 1901 roku przez Karla Pearsona, twórcę statystyki

matematycznej.

K. Pearson, On Lines and Planes of Closest Fit to Systems of Points in Space, Philosophical Magazine, 2 (11): 559–572.

(61)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Maksymalizacja wariancji

Jak maksymalizacja wariancji ma się do usuwania wymiarów?

Rozkład na wartości własne macierzy kowariancji jest wykonywany na macierzy z wartościami momentów centralnych.

Przekształcenie danych poprzez obrócenie do układu

współrzędnych wyznaczonego przez wektory własne macierzy kowariancji jest związane z rozkładem według wartości osobliwych (ang. Singular Value Decomposition (SVD)). Po odrzuceniu najmniejszych wartości osobliwych możliwe jest powrócenie do pierwotnego układu współrzędnych.

Odrzucenie pewnych wartości osobliwych powoduje, że znikają współrzędne w odpowiadających im podprzestrzeniach.

(62)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Maksymalizacja wariancji

Jak maksymalizacja wariancji ma się do usuwania wymiarów? Rozkład na wartości własne macierzy kowariancji jest wykonywany na macierzy z wartościami momentów centralnych.

Przekształcenie danych poprzez obrócenie do układu

współrzędnych wyznaczonego przez wektory własne macierzy kowariancji jest związane z rozkładem według wartości osobliwych (ang. Singular Value Decomposition (SVD)). Po odrzuceniu najmniejszych wartości osobliwych możliwe jest powrócenie do pierwotnego układu współrzędnych.

Odrzucenie pewnych wartości osobliwych powoduje, że znikają współrzędne w odpowiadających im podprzestrzeniach.

(63)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Maksymalizacja wariancji

Jak maksymalizacja wariancji ma się do usuwania wymiarów? Rozkład na wartości własne macierzy kowariancji jest wykonywany na macierzy z wartościami momentów centralnych.

Przekształcenie danych poprzez obrócenie do układu

współrzędnych wyznaczonego przez wektory własne macierzy kowariancji jest związane z rozkładem według wartości osobliwych (ang. Singular Value Decomposition (SVD)).

Po odrzuceniu najmniejszych wartości osobliwych możliwe jest powrócenie do pierwotnego układu współrzędnych.

Odrzucenie pewnych wartości osobliwych powoduje, że znikają współrzędne w odpowiadających im podprzestrzeniach.

(64)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Maksymalizacja wariancji

Jak maksymalizacja wariancji ma się do usuwania wymiarów? Rozkład na wartości własne macierzy kowariancji jest wykonywany na macierzy z wartościami momentów centralnych.

Przekształcenie danych poprzez obrócenie do układu

współrzędnych wyznaczonego przez wektory własne macierzy kowariancji jest związane z rozkładem według wartości osobliwych (ang. Singular Value Decomposition (SVD)). Po odrzuceniu najmniejszych wartości osobliwych możliwe jest powrócenie do pierwotnego układu współrzędnych.

Odrzucenie pewnych wartości osobliwych powoduje, że znikają współrzędne w odpowiadających im podprzestrzeniach.

(65)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Maksymalizacja wariancji

Jak maksymalizacja wariancji ma się do usuwania wymiarów? Rozkład na wartości własne macierzy kowariancji jest wykonywany na macierzy z wartościami momentów centralnych.

Przekształcenie danych poprzez obrócenie do układu

współrzędnych wyznaczonego przez wektory własne macierzy kowariancji jest związane z rozkładem według wartości osobliwych (ang. Singular Value Decomposition (SVD)). Po odrzuceniu najmniejszych wartości osobliwych możliwe jest powrócenie do pierwotnego układu współrzędnych.

Odrzucenie pewnych wartości osobliwych powoduje, że znikają współrzędne w odpowiadających im podprzestrzeniach.

(66)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Wykorzystanie PCA

Przykład ze zbiorem MNIST

Zobaczmy jak wygląda działanie PCA na zbiorze MNIST pca-mnist-ex.py

(67)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Wykorzystanie PCA

Zbiór MNIST

Zbiór zawiera 70k obrazów ręcznie napisanych cyfr. Każdy z obrazów ma rozmiar 28 × 28 w skali szarości. Obrazy są reprezentowane jako wektory pikseli, co daje 784-wymiarową przestrzeń cech.

Więcej: https://en.wikipedia.org/wiki/MNIST database

(68)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Wykorzystanie PCA

Zbiór MNIST

Zbiór zawiera 70k obrazów ręcznie napisanych cyfr.

Każdy z obrazów ma rozmiar 28 × 28 w skali szarości. Obrazy są reprezentowane jako wektory pikseli, co daje 784-wymiarową przestrzeń cech.

(69)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Wykorzystanie PCA

Zbiór MNIST

Zbiór zawiera 70k obrazów ręcznie napisanych cyfr. Każdy z obrazów ma rozmiar 28 × 28 w skali szarości.

Obrazy są reprezentowane jako wektory pikseli, co daje 784-wymiarową przestrzeń cech.

Więcej: https://en.wikipedia.org/wiki/MNIST database

(70)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Wykorzystanie PCA

Zbiór MNIST

Zbiór zawiera 70k obrazów ręcznie napisanych cyfr. Każdy z obrazów ma rozmiar 28 × 28 w skali szarości. Obrazy są reprezentowane jako wektory pikseli, co daje 784-wymiarową przestrzeń cech.

(71)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Wykorzystanie PCA

Zbiór MNIST

Zbiór zawiera 70k obrazów ręcznie napisanych cyfr. Każdy z obrazów ma rozmiar 28 × 28 w skali szarości. Obrazy są reprezentowane jako wektory pikseli, co daje 784-wymiarową przestrzeń cech.

Więcej: https://en.wikipedia.org/wiki/MNIST database

(72)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

(73)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Wykorzystanie PCA

PCA pozwala nam na znalezienie najważniejszych komponentów dla danych – tych składowych, które najbardziej rozróżniają dane.

Zobaczmy jak wyglądają przykładowe jedynki

(74)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Wykorzystanie PCA

PCA pozwala nam na znalezienie najważniejszych komponentów dla danych – tych składowych, które najbardziej rozróżniają dane. Zobaczmy jak wyglądają przykładowe jedynki

(75)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Wykorzystanie PCA

Możemy zobaczyć jak wyglądają najwyższe składowe dla jedynek – eigenjedynki.

Komponenty od 0 do 16.

(76)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Wykorzystanie PCA

Możemy zobaczyć jak wyglądają najwyższe składowe dla jedynek – eigenjedynki.

(77)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Wykorzystanie PCA

Możemy zobaczyć jak wyglądają najwyższe składowe dla jedynek – eigenjedynki.

Komponenty od 48 do 64.

(78)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Wykorzystanie PCA

Możemy zobaczyć jak wyglądają najwyższe składowe dla jedynek – eigenjedynki.

(79)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Wykorzystanie PCA

Możemy zobaczyć jak wyglądają najwyższe składowe dla jedynek – eigenjedynki.

Komponenty od 128 do 144.

(80)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Wykorzystanie PCA

Możemy zobaczyć jak wyglądają najwyższe składowe dla jedynek – eigenjedynki.

(81)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Wykorzystanie PCA

Możemy zobaczyć jak wyglądają najwyższe składowe dla jedynek – eigenjedynki.

Komponenty od 256 do 272.

(82)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Wykorzystanie PCA

Możemy zobaczyć jak wyglądają najwyższe składowe dla jedynek – eigenjedynki.

(83)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Wykorzystanie PCA

Możemy zobaczyć jak wyglądają najwyższe składowe dla jedynek – eigenjedynki.

Komponenty od 384 do 400.

(84)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Wykorzystanie PCA

Możemy zobaczyć jak wyglądają najwyższe składowe dla jedynek – eigenjedynki.

(85)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Wykorzystanie PCA

Możemy zobaczyć jak wyglądają najwyższe składowe dla jedynek – eigenjedynki.

Komponenty od 576 do 592.

(86)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Wykorzystanie PCA

Możemy zobaczyć jak wyglądają najwyższe składowe dla jedynek – eigenjedynki.

(87)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Wykorzystanie PCA

Możemy zobaczyć jak wyglądają najwyższe składowe dla jedynek – eigenjedynki.

Komponenty od 720 do 736.

(88)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Wykorzystanie PCA

Możemy zobaczyć jak wyglądają najwyższe składowe dla jedynek – eigenjedynki.

(89)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Wykorzystanie PCA

Możemy zobaczyć jak wyglądają najwyższe składowe dla jedynek – eigenjedynki.

Komponenty od 752 do 768.

(90)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Wykorzystanie PCA

Zastosowanie PCA do kompresji

Naturalnym zastosowaniem PCA jest kompresja danych. Poprzez usunięcie zbędnych składowych możemy zmniejszyć ilość informacji potrzebych do przechowywania danych Tym razem przykład z cyfrą 5!

(91)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Wykorzystanie PCA

Zastosowanie PCA do kompresji

Naturalnym zastosowaniem PCA jest kompresja danych.

Poprzez usunięcie zbędnych składowych możemy zmniejszyć ilość informacji potrzebych do przechowywania danych Tym razem przykład z cyfrą 5!

(92)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Wykorzystanie PCA

Zastosowanie PCA do kompresji

Naturalnym zastosowaniem PCA jest kompresja danych. Poprzez usunięcie zbędnych składowych możemy zmniejszyć ilość informacji potrzebych do przechowywania danych

(93)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Wykorzystanie PCA

Zastosowanie PCA do kompresji

Naturalnym zastosowaniem PCA jest kompresja danych. Poprzez usunięcie zbędnych składowych możemy zmniejszyć ilość informacji potrzebych do przechowywania danych Tym razem przykład z cyfrą 5!

(94)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Wykorzystanie PCA

Z

(95)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Wykorzystanie PCA

Zachowanie warjancji: 0.999

(96)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

(97)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Wykorzystanie PCA

Zachowanie warjancji: 0.950

(98)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

(99)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Wykorzystanie PCA

Zachowanie warjancji: 0.800

(100)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

(101)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Wykorzystanie PCA

Zachowanie warjancji: 0.600

(102)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

(103)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Wykorzystanie PCA

Zachowanie warjancji: 0.400

(104)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

(105)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Wykorzystanie PCA

Zachowanie warjancji: 0.050

(106)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

(107)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Wykorzystanie PCA

Warjancja vs zachowane komponenty

Zachowana wariancja zależ od ilości kompnentów.

(108)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

(109)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Wykorzystanie PCA

Zachowane komponenty: 2.

Liczba na górze oznacz część wariancji w komponentach.

(110)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

(111)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Wykorzystanie PCA

Zachowane komponenty: 5.

Liczba na górze oznacz część wariancji w komponentach.

(112)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

(113)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Wykorzystanie PCA

Zachowane komponenty: 10.

Liczba na górze oznacz część wariancji w komponentach.

(114)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

(115)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Wykorzystanie PCA

Zachowane komponenty: 50.

Liczba na górze oznacz część wariancji w komponentach.

(116)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

(117)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Wykorzystanie PCA

Zachowane komponenty: 100.

Liczba na górze oznacz część wariancji w komponentach.

(118)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

(119)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Wykorzystanie PCA

Zachowane komponenty: 500.

Liczba na górze oznacz część wariancji w komponentach.

(120)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji

Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

(121)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Rozkład według wartości osobliwych

Singular Value Decomposition (SVD)

Dowolna macierz A ∈ Rm×n o elementach rzeczywistych, może

być przedstawiona w postaci

A = UΣVT,

gdzie Σ ∈ Rm×n jest diagonalna, U ∈ Rm×m i V ∈ Rn×n

macierzami ortonormalnymi.

Niezerowe elementy macierzy Σ to wartości osobliwe macierzy A.

(122)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Rozkład według wartości osobliwych

Singular Value Decomposition (SVD)

Dowolna macierz A ∈ Cm×n o elementach zespolonych, może być

przedstawiona w postaci

A = UΣV†,

gdzie Σ ∈ Cm×n jest diagonalna, U ∈ Cm×m i V ∈ Cn×n

(123)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Rozkład według wartości osobliwych

Przypomnienie

Na naszym wykładzie rozkład według wartości osobliwych pojawił się już przy rozwiązywaniu równania normalnego przy

wykorzystaniu pseudoinwersji macierzy.

Ale znajduje on również inne zastosowania.

The practical and theoretical importance of the SVD is hard to overestimate.

Gene H. Golub, Charles F. Van Loan, Matrix

Computations, 4th ed. (2017).

(124)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Rozkład według wartości osobliwych

Przypomnienie

Na naszym wykładzie rozkład według wartości osobliwych pojawił się już przy rozwiązywaniu równania normalnego przy

wykorzystaniu pseudoinwersji macierzy. Ale znajduje on również inne zastosowania.

The practical and theoretical importance of the SVD is hard to overestimate.

Gene H. Golub, Charles F. Van Loan, Matrix

(125)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Rozkład według wartości osobliwych

Przypomnienie

Na naszym wykładzie rozkład według wartości osobliwych pojawił się już przy rozwiązywaniu równania normalnego przy

wykorzystaniu pseudoinwersji macierzy. Ale znajduje on również inne zastosowania.

The practical and theoretical importance of the SVD is hard to overestimate.

Gene H. Golub, Charles F. Van Loan, Matrix

Computations, 4th ed. (2017).

(126)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Rozkład według wartości osobliwych

Rozkład według wartości osobliwych jest uogólnieniem rozkładu na wartości własne.

SVD może być wyliczone dla dowolnej macierzy, niekoniecznie kwadratowej.

Macierze U i V to macierze wektorów własnych odpowiednio dla macierzy XXT oraz XTX .

Wyliczenie wartości własnych dla macierzy kowarjancji jest równoważne wyliczeniu SVD dla wycentrowanej macierzy danych.

(127)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Rozkład według wartości osobliwych

Rozkład według wartości osobliwych jest uogólnieniem rozkładu na wartości własne.

SVD może być wyliczone dla dowolnej macierzy, niekoniecznie kwadratowej.

Macierze U i V to macierze wektorów własnych odpowiednio dla macierzy XXT oraz XTX .

Wyliczenie wartości własnych dla macierzy kowarjancji jest równoważne wyliczeniu SVD dla wycentrowanej macierzy danych.

(128)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Rozkład według wartości osobliwych

Rozkład według wartości osobliwych jest uogólnieniem rozkładu na wartości własne.

SVD może być wyliczone dla dowolnej macierzy, niekoniecznie kwadratowej.

Macierze U i V to macierze wektorów własnych odpowiednio dla macierzy XXT oraz XTX .

Wyliczenie wartości własnych dla macierzy kowarjancji jest równoważne wyliczeniu SVD dla wycentrowanej macierzy danych.

(129)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Rozkład według wartości osobliwych

Rozkład według wartości osobliwych jest uogólnieniem rozkładu na wartości własne.

SVD może być wyliczone dla dowolnej macierzy, niekoniecznie kwadratowej.

Macierze U i V to macierze wektorów własnych odpowiednio dla macierzy XXT oraz XTX .

Wyliczenie wartości własnych dla macierzy kowarjancji jest równoważne wyliczeniu SVD dla wycentrowanej macierzy danych.

(130)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Rozkład według wartości osobliwych

Rozkład o wielu nazwach

Rozkład według wartości osobliwych pojawia się w wielu dziedzinach pod różnymi nazwami.

Principle Component Analysis w statystyce i uczeniu maszynowym,

Transformacja Karhunen’a-Lo`eve’ego w przetwarzaniu sygnałów,

Twierdzenie Eckarta-Younga w zagadnieniach aproksymacji, Rozkład Schmidta w informatyce kwantowej.

G. W. Stewart, On the Early History of the Singular Value Decomposition, SIAM Review, 35(4), 551-566 (1993).

(131)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Rozkład według wartości osobliwych

Rozkład o wielu nazwach

Rozkład według wartości osobliwych pojawia się w wielu dziedzinach pod różnymi nazwami.

Principle Component Analysis w statystyce i uczeniu maszynowym,

Transformacja Karhunen’a-Lo`eve’ego w przetwarzaniu sygnałów,

Twierdzenie Eckarta-Younga w zagadnieniach aproksymacji, Rozkład Schmidta w informatyce kwantowej.

G. W. Stewart, On the Early History of the Singular Value Decomposition, SIAM Review, 35(4), 551-566 (1993).

(132)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Rozkład według wartości osobliwych

Rozkład o wielu nazwach

Rozkład według wartości osobliwych pojawia się w wielu dziedzinach pod różnymi nazwami.

Principle Component Analysis w statystyce i uczeniu maszynowym,

Transformacja Karhunen’a-Lo`eve’ego w przetwarzaniu sygnałów,

Twierdzenie Eckarta-Younga w zagadnieniach aproksymacji, Rozkład Schmidta w informatyce kwantowej.

G. W. Stewart, On the Early History of the Singular Value Decomposition, SIAM Review, 35(4), 551-566 (1993).

(133)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Rozkład według wartości osobliwych

Rozkład o wielu nazwach

Rozkład według wartości osobliwych pojawia się w wielu dziedzinach pod różnymi nazwami.

Principle Component Analysis w statystyce i uczeniu maszynowym,

Transformacja Karhunen’a-Lo`eve’ego w przetwarzaniu sygnałów,

Twierdzenie Eckarta-Younga w zagadnieniach aproksymacji,

Rozkład Schmidta w informatyce kwantowej.

G. W. Stewart, On the Early History of the Singular Value Decomposition, SIAM Review, 35(4), 551-566 (1993).

(134)

Klątwa wymiarowości

Analiza składowych głównych

Podsumowanie

Maksymalizacja wariancji Wykorzystanie PCA

Rozkład według wartości osobliwych

Analiza składowych głównych

Rozkład według wartości osobliwych

Rozkład o wielu nazwach

Rozkład według wartości osobliwych pojawia się w wielu dziedzinach pod różnymi nazwami.

Principle Component Analysis w statystyce i uczeniu maszynowym,

Transformacja Karhunen’a-Lo`eve’ego w przetwarzaniu sygnałów,

Twierdzenie Eckarta-Younga w zagadnieniach aproksymacji, Rozkład Schmidta w informatyce kwantowej.

G. W. Stewart, On the Early History of the Singular Value Decomposition, SIAM Review, 35(4), 551-566 (1993).

Cytaty

Powiązane dokumenty

Żeby dowiedzieć się więcej na temat tego, co dzieje się w konkretnej grupie, możesz przeprowadzić ćwiczenie – poproś uczniów, żeby wyobrazili sobie hipotetyczną

narodowego Programu Badawczego, dotyczącego zdrowia psychicz- nego, alkoholizmu i leków, oraz Międzynarodowego Studium Do-.. świadczeń w zakresie kontroli nad

Tematy te zostały zrealizowane podczas spotkań stacjonarnych i pracy na platformie szkoleniowej.. Tematy do realizacji podczas

Okazuje się, że jeśli chcemy opisywać własności układów fizycznych, wykorzystując do tego celu ideę zespołu kanonicznego, znajomość sumy statystycznej jest sprawą

Najistotniejsze jest jednak to, że wszystkie te zdalnie sterowane eksperymenty wykonuje się „naprawdę” – nie są to symulacje czy nagrane wcześniej relacje..

Opisane powyżej utożsamienie upadłych aniołów i ich dzieci z bogami miało przybrać naturalną konsekwencję nie tylko, jak zostało już dostrzeżone, w nada­ waniu tymże bogom

Ze składniowo-semantycznej funkcji łączącej na poziomie stylistycznym tekstu może wynikać także inna rola, taka jak w przykładzie chmury a stokrocie (189), gdzie

i odnosiła się nie tylko do tego, co było, lecz również do tego, co jest. W czasach nam współczesnych fotografia utraciła swoją pierwotną niewinność i