Korelacja zmiennych

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody Analiza składowych głównych

Analiza składowych głównych

Analiza składowych głównych (PCA - principal component analysis) polega ona na znalezieniunowego kierunku, który maksymalizuje wariancj ˛e zrzu-towanych na niego obserwacji. Nast ˛epnie szukamy kolejnego kierunku, rów-nie˙z o jak najwi ˛ekszej wariancji, tyle, ˙zeortogonalnego do poprzedniego etc. Okazuje si ˛e, ˙ze takie cechy odpowiadaj ˛a wektorom własnym zwi ˛azanym z ko-lejnymiwarto ´sciami własnymi (pocz ˛awszy od najwi ˛ekszej).

Twierdzenie o składowych głównych

Niech x b ˛edzie wektorem losowym o wektorze warto´sci oczekiwanych m i macierzy kowariancjiS i nich warto´sci własne tej macierzy, λi, i = 1, . . . , p, spełniaj ˛a warunek:

λ1≥ λ2≥ . . . γp>0. Wektor γ_(i)i-tej składowej głównej wektorax

yi ≡ γT

(i)(x − m)

i = 1, . . . , p, jest równy i-temu wektorowi własnemu macierzyS, odpowiada-j ˛acemu warto´sci własnej λi.

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody Analiza składowych głównych

Analiza składowych głównych

Twierdzenie o składowych głównych

Niech x b ˛edzie wektorem losowym o wektorze warto´sci oczekiwanych m i macierzy kowariancjiS i nich warto´sci własne tej macierzy, λi, i = 1, . . . , p, spełniaj ˛a warunek:

λ1≥ λ2≥ . . . γp>0. Wektor γ_(i)i-tej składowej głównej wektorax

yi ≡ γT

(i)(x − m)

i = 1, . . . , p, jest równy i-temu wektorowi własnemu macierzyS, odpowiada-j ˛acemu warto´sci własnej λi.

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody Analiza składowych głównych

Analiza składowych głównych

Twierdzenie o składowych głównych

Niech x b ˛edzie wektorem losowym o wektorze warto´sci oczekiwanych m i macierzy kowariancjiS i nich warto´sci własne tej macierzy, λi, i = 1, . . . , p, spełniaj ˛a warunek:

λ1≥ λ2≥ . . . γp>0. Wektor γ_(i)i-tej składowej głównej wektorax

yi ≡ γT

(i)(x − m)

i = 1, . . . , p, jest równy i-temu wektorowi własnemu macierzyS, odpowiada-j ˛acemu warto´sci własnej λi.

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody Analiza składowych głównych

Analiza składowych głównych

Twierdzenie o składowych głównych

Niech x b ˛edzie wektorem losowym o wektorze warto´sci oczekiwanych m i macierzy kowariancjiS i nich warto´sci własne tej macierzy, λi, i = 1, . . . , p, spełniaj ˛a warunek:

λ1≥ λ2≥ . . . γp>0.

Wektor γ_(i)i-tej składowej głównej wektorax yi ≡ γT

(i)(x − m)

i = 1, . . . , p, jest równy i-temu wektorowi własnemu macierzyS, odpowiada-j ˛acemu warto´sci własnej λi.

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody Analiza składowych głównych

Analiza składowych głównych

Twierdzenie o składowych głównych

Niech x b ˛edzie wektorem losowym o wektorze warto´sci oczekiwanych m i macierzy kowariancjiS i nich warto´sci własne tej macierzy, λi, i = 1, . . . , p, spełniaj ˛a warunek:

λ1≥ λ2≥ . . . γp>0. Wektor γ_(i)i-tej składowej głównej wektorax

yi ≡ γT

(i)(x − m)

i = 1, . . . , p, jest równy i-temu wektorowi własnemu macierzyS, odpowiada-j ˛acemu warto´sci własnej λi.

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody Analiza składowych głównych

Analiza składowych głównych

Twierdzenie o składowych głównych

Niech x b ˛edzie wektorem losowym o wektorze warto´sci oczekiwanych m i macierzy kowariancjiS i nich warto´sci własne tej macierzy, λi, i = 1, . . . , p, spełniaj ˛a warunek:

λ1≥ λ2≥ . . . γp>0. Wektor γ_(i)i-tej składowej głównej wektorax

yi ≡ γ^T(i)(x − m)

i = 1, . . . , p, jest równy i-temu wektorowi własnemu macierzyS, odpowiada-j ˛acemu warto´sci własnej λi.

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody Analiza składowych głównych

Analiza składowych głównych

Twierdzenie o składowych głównych

Niech x b ˛edzie wektorem losowym o wektorze warto´sci oczekiwanych m i macierzy kowariancjiS i nich warto´sci własne tej macierzy, λi, i = 1, . . . , p, spełniaj ˛a warunek:

λ1≥ λ2≥ . . . γp>0. Wektor γ_(i)i-tej składowej głównej wektorax

yi ≡ γ^T(i)(x − m)

i = 1, . . . , p, jest równy i-temu wektorowi własnemu macierzyS, odpowiada-j ˛acemu warto´sci własnej λi.

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody Analiza składowych głównych

Analiza składowych głównych

Twierdzenie o składowych głównych

Niech x b ˛edzie wektorem losowym o wektorze warto´sci oczekiwanych m i macierzy kowariancjiS i nich warto´sci własne tej macierzy, λi, i = 1, . . . , p, spełniaj ˛a warunek:

λ1≥ λ2≥ . . . γp>0. Wektor γ_(i)i-tej składowej głównej wektorax

yi ≡ γ^T(i)(x − m)

i = 1, . . . , p, jest równy i-temu wektorowi własnemu macierzyS, odpowiada-j ˛acemu warto´sci własnej λi.

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody Analiza składowych głównych

Wszystkie p składowe główne tworz ˛a wektory postaci y = Γ^T(x − m)

czyli jest to przekształcenie wektora losowegox w wektor y, polegaj ˛ace ko-lejno na

1 przesuni ˛eciu wektorax o jego warto´s´c oczekiwan ˛a (scentrowania wektora),

2 liniowym przekształceniu scentrowanego wektora za pomoc ˛a macierzy ortogonalnej Γ^T (geometrycznie jest obrócenie oryginalnego układu współprz ˛ednych o pewien k ˛at)

Osie nowego układu współrzednych , wyznaczone przez wektory ładunków γ(i)s ˛a tak dobrane, aby maksymalizowa´c wariancje rzutów oryginalnych wek-torów losowych na te osie, pod warunkiem, ˙ze kolejne rzuty nie s ˛a skorelo-wane z wcze´sniejszymi.

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody Analiza składowych głównych

Wszystkie p składowe główne tworz ˛a wektory postaci y = Γ^T(x − m)

czyli jest to przekształcenie wektora losowegox w wektor y, polegaj ˛ace ko-lejno na

1 przesuni ˛eciu wektorax o jego warto´s´c oczekiwan ˛a (scentrowania wektora),

2 liniowym przekształceniu scentrowanego wektora za pomoc ˛a macierzy ortogonalnej ΓT (geometrycznie jest obrócenie oryginalnego układu współprz ˛ednych o pewien k ˛at)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody Analiza składowych głównych

Wszystkie p składowe główne tworz ˛a wektory postaci y = Γ^T(x − m)

czyli jest to przekształcenie wektora losowegox w wektor y, polegaj ˛ace ko-lejno na

1 przesuni ˛eciu wektorax o jego warto´s´c oczekiwan ˛a (scentrowania wektora),

2 liniowym przekształceniu scentrowanego wektora za pomoc ˛a macierzy ortogonalnej ΓT (geometrycznie jest obrócenie oryginalnego układu współprz ˛ednych o pewien k ˛at)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody Analiza składowych głównych

Przykład

Prosty, dwuwymiarowy przykład: obserwa-cj ˛a była para punktów zdobytych przez stu-denta w dwóch testach. Wida´c wyra´zn ˛a zale˙zno´s´c pomi ˛edzy jednym a drugim te-stem.

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody Analiza składowych głównych

Przykład

Prosty, dwuwymiarowy przykład: obserwa-cj ˛a była para punktów zdobytych przez stu-denta w dwóch testach. Wida´c wyra´zn ˛a zale˙zno´s´c pomi ˛edzy jednym a drugim te-stem.

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody Analiza składowych głównych

Do czego przydaje si ˛e analiza składowych głównych?

umo˙zliwiaredukcj ˛e wymiaru: w ten sposób jeste´smy w stanie okre´sli´c, które składowe (czylikolumny strukturyzowanych danych) s ˛a nieistotne, kryterium redukcji jest do´s´c proste: suma wszystkich warto´sci własnych macierzy kowariancjiS jest równa wariancji poszczególnych współrz ˛ed-nych wektorax; st ˛ad wielko´s´c

λ1+ . . . + λk λ1+ . . . + λp

100%

k ≤ p wyra˙za procent zmienno ´sci wektora losowego x wyja´sniony przez k pierwszych składowych głównych, gdy przez zmienno´s´c całko-wit ˛a rozumie si ˛e sum ˛e wariancji.

nowe składowe (składowe główne) s ˛a kombinacj ˛a liniow ˛a oryginal-nych kierunków w daoryginal-nych — w ten sposób mo˙zemy okre´sli´c sens (inter-pretacj ˛e) nowego kierunku

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody Analiza składowych głównych

Do czego przydaje si ˛e analiza składowych głównych?

λ1+ . . . + λk λ1+ . . . + λp

100%

k ≤ p wyra˙za procent zmienno ´sci wektora losowego x wyja´sniony przez k pierwszych składowych głównych, gdy przez zmienno´s´c całko-wit ˛a rozumie si ˛e sum ˛e wariancji.

nowe składowe (składowe główne) s ˛a kombinacj ˛a liniow ˛a oryginal-nych kierunków w daoryginal-nych — w ten sposób mo˙zemy okre´sli´c sens (inter-pretacj ˛e) nowego kierunku

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody Analiza składowych głównych

Do czego przydaje si ˛e analiza składowych głównych?

λ1+ . . . + λk λ1+ . . . + λp

100%

k ≤ p wyra˙za procent zmienno ´sci wektora losowego x wyja´sniony przez k pierwszych składowych głównych, gdy przez zmienno´s´c całko-wit ˛a rozumie si ˛e sum ˛e wariancji.

nowe składowe (składowe główne) s ˛a kombinacj ˛a liniow ˛a oryginal-nych kierunków w daoryginal-nych — w ten sposób mo˙zemy okre´sli´c sens (inter-pretacj ˛e) nowego kierunku

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody Skalowanie wielowymiarowe

Skalowanie wielowymiarowe

Niech dij, i, j, = 1, . . . , n b ˛ed ˛a odległo´sciami euklidesowymi mi ˛edzy obserwa-cjamixi ixj w przestrzeni Rp. Zdanie polega na znalezieniu takiej podprze-strzeni Rr o wymiarze r , by odległo´sci euklidesowe ˆdij mi ˛edzy rzutami obser-wacji na t ˛e podprzestrze ´n minimalizowały sum ˛e

V = n X i=1 n X j=1 d_ij²− ˆd_ij²

Okazuje si ˛e, ˙ze przestrze ´n okre´slana przez r pierwszych składowych głów-nych jest rozwi ˛azaniem zadania — czyli podana podprzestrze ´n najlepiej od-twarza oryginaln ˛a konfiguracj ˛e obserwacji.

Odtworzenie konfiguracji punktów w przestrzeni o wymiarze mniejszym od oryginalnego ma wielkie znaczenie, bior ˛ac pod uwag ˛e post ˛ep wizualizacji da-nych dwu- i trójwymiarowych.

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody Skalowanie wielowymiarowe

Skalowanie wielowymiarowe

V = n X i=1 n X j=1 d_ij²− ˆd_ij²

Odtworzenie konfiguracji punktów w przestrzeni o wymiarze mniejszym od oryginalnego ma wielkie znaczenie, bior ˛ac pod uwag ˛e post ˛ep wizualizacji da-nych dwu- i trójwymiarowych.

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody Skalowanie wielowymiarowe

Skalowanie wielowymiarowe

V = n X i=1 n X j=1 d_ij²− ˆd_ij²

Odtworzenie konfiguracji punktów w przestrzeni o wymiarze mniejszym od oryginalnego ma wielkie znaczenie, bior ˛ac pod uwag ˛e post ˛ep wizualizacji da-nych dwu- i trójwymiarowych.

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody Skalowanie wielowymiarowe

Skalowanie wielowymiarowe

V = n X i=1 n X j=1 d_ij²− ˆd_ij²

Odtworzenie konfiguracji punktów w przestrzeni o wymiarze mniejszym od oryginalnego ma wielkie znaczenie, bior ˛ac pod uwag ˛e post ˛ep wizualizacji da-nych dwu- i trójwymiarowych.

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody Skalowanie wielowymiarowe

Podobnie istotne jest uzyskanie przedstawienia danych niekoniecznie ilo´scio-wych w przestrzeni euklidesowej o małym wymiarze. Tak ˛a mo˙zliwo´s´c stwarza zast ˛apienie miary odległo´sci miarami odmienno´sci i skorzystanie z jednego z algorytmówskalowania wielowymiarowego.

Takie skalowanie jest szczególnie istotne, gdymacierz odmienno ´sci jest wyj-´sciowym zbiorem danych, jakim dysponujemy. W niektórych badaniach w ogóle nie mamy do czynienia z wektorem obserwacji, a tylko z odmienno-´sciami mi ˛edzy obiektami.

Przykład - badanie blisko ´sci brzmienia głosek. Blisko´s´c brzmienia głosek (np. s i z w j ˛ez. polskim) mo˙zna zmierzy´c wypowiadaj ˛ac raz jedn ˛a, raz drug ˛a głosk˛e w obecno´sci kolejnych osób i wyliczaj ˛ac ułamek wzi ˛ecia jednej głoski za drug ˛a. Przeprowadziwszy takie badanie dla ró˙znych par głosek, uzyskuje si ˛e macierz podobie ´nstwa

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody Skalowanie wielowymiarowe

Algorytm uzyskiwania tych punktów jest nast ˛epuj ˛acy:

znajd´z warto´sci własne λ1≥ λ2≥ . . . ≥ λn=0 oraz odpowiadaj ˛ace im wektory własnevimacierzy Φ,

Φ = I −¹ n11^T Γ I −¹ n11^T ,

gdzieI jest macierz ˛a jednostkow ˛a, a1 jest wektorem jedynek. tak przeskaluj wektory własne, by spełniony był warunekvT

i vi = λi; współrz ˛edne n punktów wzdłu˙z i-tej osi w przestrzeni euklidesowej R^s dane s ˛a przez kolejne elementy wektoravi, wymiar s przestrzeni jest równy liczbie niezerowych warto´sci własnych λi

Podany algorytm nosi nazw ˛eskalowania klasycznego lub analizy współ-rz ˛ednych głównych.

Dzi ˛eki tej konstrukcji otrzymujemy nast ˛epuj ˛ac ˛a informacj ˛e: najlepsza (w sen-sie wska´znika V ) u-wymiarowa reprezentacja punktów o macierzy odmienno-´sci dij, u < s dana jest przez u pierwszych wektorów własnych macierzy Φ, przy czym V = 2n(λu+1+ . . . + λn).

Podobie ´nstwo pomi ˛edzy skalowaniem wielowymiarowym a analiz ˛a składowych głównych staje si ˛e równowa˙zno´sci ˛a, gdy dane macierzdijjest macierz ˛a odległo´sci euklidesowych.

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody Skalowanie wielowymiarowe

Algorytm uzyskiwania tych punktów jest nast ˛epuj ˛acy:

znajd´z warto´sci własne λ1≥ λ2≥ . . . ≥ λn=0 oraz odpowiadaj ˛ace im wektory własnevimacierzy Φ,

Φ = I −¹ n11^T Γ I −¹ n11^T ,

gdzieI jest macierz ˛a jednostkow ˛a, a1 jest wektorem jedynek. tak przeskaluj wektory własne, by spełniony był warunekvT

Podany algorytm nosi nazw ˛eskalowania klasycznego lub analizy współ-rz ˛ednych głównych.

Podobie ´nstwo pomi ˛edzy skalowaniem wielowymiarowym a analiz ˛a składowych głównych staje si ˛e równowa˙zno´sci ˛a, gdy dane macierzdijjest macierz ˛a odległo´sci euklidesowych.

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody Skalowanie wielowymiarowe

Algorytm uzyskiwania tych punktów jest nast ˛epuj ˛acy:

znajd´z warto´sci własne λ1≥ λ2≥ . . . ≥ λn=0 oraz odpowiadaj ˛ace im wektory własnevimacierzy Φ,

Φ = I −¹ n11^T Γ I −¹ n11^T ,

gdzieI jest macierz ˛a jednostkow ˛a, a1 jest wektorem jedynek. tak przeskaluj wektory własne, by spełniony był warunekvT

Podany algorytm nosi nazw ˛eskalowania klasycznego lub analizy współ-rz ˛ednych głównych.

Podobie ´nstwo pomi ˛edzy skalowaniem wielowymiarowym a analiz ˛a składowych głównych staje si ˛e równowa˙zno´sci ˛a, gdy dane macierzdijjest macierz ˛a odległo´sci euklidesowych.

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody Skalowanie wielowymiarowe

Algorytm uzyskiwania tych punktów jest nast ˛epuj ˛acy:

znajd´z warto´sci własne λ1≥ λ2≥ . . . ≥ λn=0 oraz odpowiadaj ˛ace im wektory własnevimacierzy Φ,

Φ = I −¹ n11^T Γ I −¹ n11^T ,

gdzieI jest macierz ˛a jednostkow ˛a, a1 jest wektorem jedynek.

tak przeskaluj wektory własne, by spełniony był warunekvT i vi = λi; współrz ˛edne n punktów wzdłu˙z i-tej osi w przestrzeni euklidesowej R^s dane s ˛a przez kolejne elementy wektoravi, wymiar s przestrzeni jest równy liczbie niezerowych warto´sci własnych λi

Podany algorytm nosi nazw ˛eskalowania klasycznego lub analizy współ-rz ˛ednych głównych.

Podobie ´nstwo pomi ˛edzy skalowaniem wielowymiarowym a analiz ˛a

W dokumencie WykĹad 5 (Stron 73-114)