Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody Analiza składowych głównych
Analiza składowych głównych
Analiza składowych głównych (PCA - principal component analysis) polega ona na znalezieniunowego kierunku, który maksymalizuje wariancj ˛e zrzu-towanych na niego obserwacji. Nast ˛epnie szukamy kolejnego kierunku, rów-nie˙z o jak najwi ˛ekszej wariancji, tyle, ˙zeortogonalnego do poprzedniego etc. Okazuje si ˛e, ˙ze takie cechy odpowiadaj ˛a wektorom własnym zwi ˛azanym z ko-lejnymiwarto ´sciami własnymi (pocz ˛awszy od najwi ˛ekszej).
Twierdzenie o składowych głównych
Niech x b ˛edzie wektorem losowym o wektorze warto´sci oczekiwanych m i macierzy kowariancjiS i nich warto´sci własne tej macierzy, λi, i = 1, . . . , p, spełniaj ˛a warunek:
λ1≥ λ2≥ . . . γp>0. Wektor γ(i)i-tej składowej głównej wektorax
yi ≡ γT
(i)(x − m)
i = 1, . . . , p, jest równy i-temu wektorowi własnemu macierzyS, odpowiada-j ˛acemu warto´sci własnej λi.
Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody Analiza składowych głównych
Analiza składowych głównych
Analiza składowych głównych (PCA - principal component analysis) polega ona na znalezieniunowego kierunku, który maksymalizuje wariancj ˛e zrzu-towanych na niego obserwacji. Nast ˛epnie szukamy kolejnego kierunku, rów-nie˙z o jak najwi ˛ekszej wariancji, tyle, ˙zeortogonalnego do poprzedniego etc. Okazuje si ˛e, ˙ze takie cechy odpowiadaj ˛a wektorom własnym zwi ˛azanym z ko-lejnymiwarto ´sciami własnymi (pocz ˛awszy od najwi ˛ekszej).
Twierdzenie o składowych głównych
Niech x b ˛edzie wektorem losowym o wektorze warto´sci oczekiwanych m i macierzy kowariancjiS i nich warto´sci własne tej macierzy, λi, i = 1, . . . , p, spełniaj ˛a warunek:
λ1≥ λ2≥ . . . γp>0. Wektor γ(i)i-tej składowej głównej wektorax
yi ≡ γT
(i)(x − m)
i = 1, . . . , p, jest równy i-temu wektorowi własnemu macierzyS, odpowiada-j ˛acemu warto´sci własnej λi.
Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody Analiza składowych głównych
Analiza składowych głównych
Analiza składowych głównych (PCA - principal component analysis) polega ona na znalezieniunowego kierunku, który maksymalizuje wariancj ˛e zrzu-towanych na niego obserwacji. Nast ˛epnie szukamy kolejnego kierunku, rów-nie˙z o jak najwi ˛ekszej wariancji, tyle, ˙zeortogonalnego do poprzedniego etc. Okazuje si ˛e, ˙ze takie cechy odpowiadaj ˛a wektorom własnym zwi ˛azanym z ko-lejnymiwarto ´sciami własnymi (pocz ˛awszy od najwi ˛ekszej).
Twierdzenie o składowych głównych
Niech x b ˛edzie wektorem losowym o wektorze warto´sci oczekiwanych m i macierzy kowariancjiS i nich warto´sci własne tej macierzy, λi, i = 1, . . . , p, spełniaj ˛a warunek:
λ1≥ λ2≥ . . . γp>0. Wektor γ(i)i-tej składowej głównej wektorax
yi ≡ γT
(i)(x − m)
i = 1, . . . , p, jest równy i-temu wektorowi własnemu macierzyS, odpowiada-j ˛acemu warto´sci własnej λi.
Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody Analiza składowych głównych
Analiza składowych głównych
Analiza składowych głównych (PCA - principal component analysis) polega ona na znalezieniunowego kierunku, który maksymalizuje wariancj ˛e zrzu-towanych na niego obserwacji. Nast ˛epnie szukamy kolejnego kierunku, rów-nie˙z o jak najwi ˛ekszej wariancji, tyle, ˙zeortogonalnego do poprzedniego etc. Okazuje si ˛e, ˙ze takie cechy odpowiadaj ˛a wektorom własnym zwi ˛azanym z ko-lejnymiwarto ´sciami własnymi (pocz ˛awszy od najwi ˛ekszej).
Twierdzenie o składowych głównych
Niech x b ˛edzie wektorem losowym o wektorze warto´sci oczekiwanych m i macierzy kowariancjiS i nich warto´sci własne tej macierzy, λi, i = 1, . . . , p, spełniaj ˛a warunek:
λ1≥ λ2≥ . . . γp>0.
Wektor γ(i)i-tej składowej głównej wektorax yi ≡ γT
(i)(x − m)
i = 1, . . . , p, jest równy i-temu wektorowi własnemu macierzyS, odpowiada-j ˛acemu warto´sci własnej λi.
Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody Analiza składowych głównych
Analiza składowych głównych
Analiza składowych głównych (PCA - principal component analysis) polega ona na znalezieniunowego kierunku, który maksymalizuje wariancj ˛e zrzu-towanych na niego obserwacji. Nast ˛epnie szukamy kolejnego kierunku, rów-nie˙z o jak najwi ˛ekszej wariancji, tyle, ˙zeortogonalnego do poprzedniego etc. Okazuje si ˛e, ˙ze takie cechy odpowiadaj ˛a wektorom własnym zwi ˛azanym z ko-lejnymiwarto ´sciami własnymi (pocz ˛awszy od najwi ˛ekszej).
Twierdzenie o składowych głównych
Niech x b ˛edzie wektorem losowym o wektorze warto´sci oczekiwanych m i macierzy kowariancjiS i nich warto´sci własne tej macierzy, λi, i = 1, . . . , p, spełniaj ˛a warunek:
λ1≥ λ2≥ . . . γp>0. Wektor γ(i)i-tej składowej głównej wektorax
yi ≡ γT
(i)(x − m)
i = 1, . . . , p, jest równy i-temu wektorowi własnemu macierzyS, odpowiada-j ˛acemu warto´sci własnej λi.
Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody Analiza składowych głównych
Analiza składowych głównych
Analiza składowych głównych (PCA - principal component analysis) polega ona na znalezieniunowego kierunku, który maksymalizuje wariancj ˛e zrzu-towanych na niego obserwacji. Nast ˛epnie szukamy kolejnego kierunku, rów-nie˙z o jak najwi ˛ekszej wariancji, tyle, ˙zeortogonalnego do poprzedniego etc. Okazuje si ˛e, ˙ze takie cechy odpowiadaj ˛a wektorom własnym zwi ˛azanym z ko-lejnymiwarto ´sciami własnymi (pocz ˛awszy od najwi ˛ekszej).
Twierdzenie o składowych głównych
Niech x b ˛edzie wektorem losowym o wektorze warto´sci oczekiwanych m i macierzy kowariancjiS i nich warto´sci własne tej macierzy, λi, i = 1, . . . , p, spełniaj ˛a warunek:
λ1≥ λ2≥ . . . γp>0. Wektor γ(i)i-tej składowej głównej wektorax
yi ≡ γT(i)(x − m)
i = 1, . . . , p, jest równy i-temu wektorowi własnemu macierzyS, odpowiada-j ˛acemu warto´sci własnej λi.
Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody Analiza składowych głównych
Analiza składowych głównych
Analiza składowych głównych (PCA - principal component analysis) polega ona na znalezieniunowego kierunku, który maksymalizuje wariancj ˛e zrzu-towanych na niego obserwacji. Nast ˛epnie szukamy kolejnego kierunku, rów-nie˙z o jak najwi ˛ekszej wariancji, tyle, ˙zeortogonalnego do poprzedniego etc. Okazuje si ˛e, ˙ze takie cechy odpowiadaj ˛a wektorom własnym zwi ˛azanym z ko-lejnymiwarto ´sciami własnymi (pocz ˛awszy od najwi ˛ekszej).
Twierdzenie o składowych głównych
Niech x b ˛edzie wektorem losowym o wektorze warto´sci oczekiwanych m i macierzy kowariancjiS i nich warto´sci własne tej macierzy, λi, i = 1, . . . , p, spełniaj ˛a warunek:
λ1≥ λ2≥ . . . γp>0. Wektor γ(i)i-tej składowej głównej wektorax
yi ≡ γT(i)(x − m)
i = 1, . . . , p, jest równy i-temu wektorowi własnemu macierzyS, odpowiada-j ˛acemu warto´sci własnej λi.
Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody Analiza składowych głównych
Analiza składowych głównych
Analiza składowych głównych (PCA - principal component analysis) polega ona na znalezieniunowego kierunku, który maksymalizuje wariancj ˛e zrzu-towanych na niego obserwacji. Nast ˛epnie szukamy kolejnego kierunku, rów-nie˙z o jak najwi ˛ekszej wariancji, tyle, ˙zeortogonalnego do poprzedniego etc. Okazuje si ˛e, ˙ze takie cechy odpowiadaj ˛a wektorom własnym zwi ˛azanym z ko-lejnymiwarto ´sciami własnymi (pocz ˛awszy od najwi ˛ekszej).
Twierdzenie o składowych głównych
Niech x b ˛edzie wektorem losowym o wektorze warto´sci oczekiwanych m i macierzy kowariancjiS i nich warto´sci własne tej macierzy, λi, i = 1, . . . , p, spełniaj ˛a warunek:
λ1≥ λ2≥ . . . γp>0. Wektor γ(i)i-tej składowej głównej wektorax
yi ≡ γT(i)(x − m)
i = 1, . . . , p, jest równy i-temu wektorowi własnemu macierzyS, odpowiada-j ˛acemu warto´sci własnej λi.
Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody Analiza składowych głównych
Wszystkie p składowe główne tworz ˛a wektory postaci y = ΓT(x − m)
czyli jest to przekształcenie wektora losowegox w wektor y, polegaj ˛ace ko-lejno na
1 przesuni ˛eciu wektorax o jego warto´s´c oczekiwan ˛a (scentrowania wektora),
2 liniowym przekształceniu scentrowanego wektora za pomoc ˛a macierzy ortogonalnej ΓT (geometrycznie jest obrócenie oryginalnego układu współprz ˛ednych o pewien k ˛at)
Osie nowego układu współrzednych , wyznaczone przez wektory ładunków γ(i)s ˛a tak dobrane, aby maksymalizowa´c wariancje rzutów oryginalnych wek-torów losowych na te osie, pod warunkiem, ˙ze kolejne rzuty nie s ˛a skorelo-wane z wcze´sniejszymi.
Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody Analiza składowych głównych
Wszystkie p składowe główne tworz ˛a wektory postaci y = ΓT(x − m)
czyli jest to przekształcenie wektora losowegox w wektor y, polegaj ˛ace ko-lejno na
1 przesuni ˛eciu wektorax o jego warto´s´c oczekiwan ˛a (scentrowania wektora),
2 liniowym przekształceniu scentrowanego wektora za pomoc ˛a macierzy ortogonalnej ΓT (geometrycznie jest obrócenie oryginalnego układu współprz ˛ednych o pewien k ˛at)
Osie nowego układu współrzednych , wyznaczone przez wektory ładunków γ(i)s ˛a tak dobrane, aby maksymalizowa´c wariancje rzutów oryginalnych wek-torów losowych na te osie, pod warunkiem, ˙ze kolejne rzuty nie s ˛a skorelo-wane z wcze´sniejszymi.
Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody Analiza składowych głównych
Wszystkie p składowe główne tworz ˛a wektory postaci y = ΓT(x − m)
czyli jest to przekształcenie wektora losowegox w wektor y, polegaj ˛ace ko-lejno na
1 przesuni ˛eciu wektorax o jego warto´s´c oczekiwan ˛a (scentrowania wektora),
2 liniowym przekształceniu scentrowanego wektora za pomoc ˛a macierzy ortogonalnej ΓT (geometrycznie jest obrócenie oryginalnego układu współprz ˛ednych o pewien k ˛at)
Osie nowego układu współrzednych , wyznaczone przez wektory ładunków γ(i)s ˛a tak dobrane, aby maksymalizowa´c wariancje rzutów oryginalnych wek-torów losowych na te osie, pod warunkiem, ˙ze kolejne rzuty nie s ˛a skorelo-wane z wcze´sniejszymi.
Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody Analiza składowych głównych
Przykład
Prosty, dwuwymiarowy przykład: obserwa-cj ˛a była para punktów zdobytych przez stu-denta w dwóch testach. Wida´c wyra´zn ˛a zale˙zno´s´c pomi ˛edzy jednym a drugim te-stem.
Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody Analiza składowych głównych
Przykład
Prosty, dwuwymiarowy przykład: obserwa-cj ˛a była para punktów zdobytych przez stu-denta w dwóch testach. Wida´c wyra´zn ˛a zale˙zno´s´c pomi ˛edzy jednym a drugim te-stem.
Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody Analiza składowych głównych
Do czego przydaje si ˛e analiza składowych głównych?
umo˙zliwiaredukcj ˛e wymiaru: w ten sposób jeste´smy w stanie okre´sli´c, które składowe (czylikolumny strukturyzowanych danych) s ˛a nieistotne, kryterium redukcji jest do´s´c proste: suma wszystkich warto´sci własnych macierzy kowariancjiS jest równa wariancji poszczególnych współrz ˛ed-nych wektorax; st ˛ad wielko´s´c
λ1+ . . . + λk λ1+ . . . + λp
100%
k ≤ p wyra˙za procent zmienno ´sci wektora losowego x wyja´sniony przez k pierwszych składowych głównych, gdy przez zmienno´s´c całko-wit ˛a rozumie si ˛e sum ˛e wariancji.
nowe składowe (składowe główne) s ˛a kombinacj ˛a liniow ˛a oryginal-nych kierunków w daoryginal-nych — w ten sposób mo˙zemy okre´sli´c sens (inter-pretacj ˛e) nowego kierunku
Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody Analiza składowych głównych
Do czego przydaje si ˛e analiza składowych głównych?
umo˙zliwiaredukcj ˛e wymiaru: w ten sposób jeste´smy w stanie okre´sli´c, które składowe (czylikolumny strukturyzowanych danych) s ˛a nieistotne, kryterium redukcji jest do´s´c proste: suma wszystkich warto´sci własnych macierzy kowariancjiS jest równa wariancji poszczególnych współrz ˛ed-nych wektorax; st ˛ad wielko´s´c
λ1+ . . . + λk λ1+ . . . + λp
100%
k ≤ p wyra˙za procent zmienno ´sci wektora losowego x wyja´sniony przez k pierwszych składowych głównych, gdy przez zmienno´s´c całko-wit ˛a rozumie si ˛e sum ˛e wariancji.
nowe składowe (składowe główne) s ˛a kombinacj ˛a liniow ˛a oryginal-nych kierunków w daoryginal-nych — w ten sposób mo˙zemy okre´sli´c sens (inter-pretacj ˛e) nowego kierunku
Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody Analiza składowych głównych
Do czego przydaje si ˛e analiza składowych głównych?
umo˙zliwiaredukcj ˛e wymiaru: w ten sposób jeste´smy w stanie okre´sli´c, które składowe (czylikolumny strukturyzowanych danych) s ˛a nieistotne, kryterium redukcji jest do´s´c proste: suma wszystkich warto´sci własnych macierzy kowariancjiS jest równa wariancji poszczególnych współrz ˛ed-nych wektorax; st ˛ad wielko´s´c
λ1+ . . . + λk λ1+ . . . + λp
100%
k ≤ p wyra˙za procent zmienno ´sci wektora losowego x wyja´sniony przez k pierwszych składowych głównych, gdy przez zmienno´s´c całko-wit ˛a rozumie si ˛e sum ˛e wariancji.
nowe składowe (składowe główne) s ˛a kombinacj ˛a liniow ˛a oryginal-nych kierunków w daoryginal-nych — w ten sposób mo˙zemy okre´sli´c sens (inter-pretacj ˛e) nowego kierunku
Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody Skalowanie wielowymiarowe
Skalowanie wielowymiarowe
Niech dij, i, j, = 1, . . . , n b ˛ed ˛a odległo´sciami euklidesowymi mi ˛edzy obserwa-cjamixi ixj w przestrzeni Rp. Zdanie polega na znalezieniu takiej podprze-strzeni Rr o wymiarze r , by odległo´sci euklidesowe ˆdij mi ˛edzy rzutami obser-wacji na t ˛e podprzestrze ´n minimalizowały sum ˛e
V = n X i=1 n X j=1 dij2− ˆdij2
Okazuje si ˛e, ˙ze przestrze ´n okre´slana przez r pierwszych składowych głów-nych jest rozwi ˛azaniem zadania — czyli podana podprzestrze ´n najlepiej od-twarza oryginaln ˛a konfiguracj ˛e obserwacji.
Odtworzenie konfiguracji punktów w przestrzeni o wymiarze mniejszym od oryginalnego ma wielkie znaczenie, bior ˛ac pod uwag ˛e post ˛ep wizualizacji da-nych dwu- i trójwymiarowych.
Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody Skalowanie wielowymiarowe
Skalowanie wielowymiarowe
Niech dij, i, j, = 1, . . . , n b ˛ed ˛a odległo´sciami euklidesowymi mi ˛edzy obserwa-cjamixi ixj w przestrzeni Rp. Zdanie polega na znalezieniu takiej podprze-strzeni Rr o wymiarze r , by odległo´sci euklidesowe ˆdij mi ˛edzy rzutami obser-wacji na t ˛e podprzestrze ´n minimalizowały sum ˛e
V = n X i=1 n X j=1 dij2− ˆdij2
Okazuje si ˛e, ˙ze przestrze ´n okre´slana przez r pierwszych składowych głów-nych jest rozwi ˛azaniem zadania — czyli podana podprzestrze ´n najlepiej od-twarza oryginaln ˛a konfiguracj ˛e obserwacji.
Odtworzenie konfiguracji punktów w przestrzeni o wymiarze mniejszym od oryginalnego ma wielkie znaczenie, bior ˛ac pod uwag ˛e post ˛ep wizualizacji da-nych dwu- i trójwymiarowych.
Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody Skalowanie wielowymiarowe
Skalowanie wielowymiarowe
Niech dij, i, j, = 1, . . . , n b ˛ed ˛a odległo´sciami euklidesowymi mi ˛edzy obserwa-cjamixi ixj w przestrzeni Rp. Zdanie polega na znalezieniu takiej podprze-strzeni Rr o wymiarze r , by odległo´sci euklidesowe ˆdij mi ˛edzy rzutami obser-wacji na t ˛e podprzestrze ´n minimalizowały sum ˛e
V = n X i=1 n X j=1 dij2− ˆdij2
Okazuje si ˛e, ˙ze przestrze ´n okre´slana przez r pierwszych składowych głów-nych jest rozwi ˛azaniem zadania — czyli podana podprzestrze ´n najlepiej od-twarza oryginaln ˛a konfiguracj ˛e obserwacji.
Odtworzenie konfiguracji punktów w przestrzeni o wymiarze mniejszym od oryginalnego ma wielkie znaczenie, bior ˛ac pod uwag ˛e post ˛ep wizualizacji da-nych dwu- i trójwymiarowych.
Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody Skalowanie wielowymiarowe
Skalowanie wielowymiarowe
Niech dij, i, j, = 1, . . . , n b ˛ed ˛a odległo´sciami euklidesowymi mi ˛edzy obserwa-cjamixi ixj w przestrzeni Rp. Zdanie polega na znalezieniu takiej podprze-strzeni Rr o wymiarze r , by odległo´sci euklidesowe ˆdij mi ˛edzy rzutami obser-wacji na t ˛e podprzestrze ´n minimalizowały sum ˛e
V = n X i=1 n X j=1 dij2− ˆdij2
Okazuje si ˛e, ˙ze przestrze ´n okre´slana przez r pierwszych składowych głów-nych jest rozwi ˛azaniem zadania — czyli podana podprzestrze ´n najlepiej od-twarza oryginaln ˛a konfiguracj ˛e obserwacji.
Odtworzenie konfiguracji punktów w przestrzeni o wymiarze mniejszym od oryginalnego ma wielkie znaczenie, bior ˛ac pod uwag ˛e post ˛ep wizualizacji da-nych dwu- i trójwymiarowych.
Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody Skalowanie wielowymiarowe
Podobnie istotne jest uzyskanie przedstawienia danych niekoniecznie ilo´scio-wych w przestrzeni euklidesowej o małym wymiarze. Tak ˛a mo˙zliwo´s´c stwarza zast ˛apienie miary odległo´sci miarami odmienno´sci i skorzystanie z jednego z algorytmówskalowania wielowymiarowego.
Takie skalowanie jest szczególnie istotne, gdymacierz odmienno ´sci jest wyj-´sciowym zbiorem danych, jakim dysponujemy. W niektórych badaniach w ogóle nie mamy do czynienia z wektorem obserwacji, a tylko z odmienno-´sciami mi ˛edzy obiektami.
Przykład - badanie blisko ´sci brzmienia głosek. Blisko´s´c brzmienia głosek (np. s i z w j ˛ez. polskim) mo˙zna zmierzy´c wypowiadaj ˛ac raz jedn ˛a, raz drug ˛a głosk˛e w obecno´sci kolejnych osób i wyliczaj ˛ac ułamek wzi ˛ecia jednej głoski za drug ˛a. Przeprowadziwszy takie badanie dla ró˙znych par głosek, uzyskuje si ˛e macierz podobie ´nstwa
Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody Skalowanie wielowymiarowe
Podobnie istotne jest uzyskanie przedstawienia danych niekoniecznie ilo´scio-wych w przestrzeni euklidesowej o małym wymiarze. Tak ˛a mo˙zliwo´s´c stwarza zast ˛apienie miary odległo´sci miarami odmienno´sci i skorzystanie z jednego z algorytmówskalowania wielowymiarowego.
Takie skalowanie jest szczególnie istotne, gdymacierz odmienno ´sci jest wyj-´sciowym zbiorem danych, jakim dysponujemy. W niektórych badaniach w ogóle nie mamy do czynienia z wektorem obserwacji, a tylko z odmienno-´sciami mi ˛edzy obiektami.
Przykład - badanie blisko ´sci brzmienia głosek. Blisko´s´c brzmienia głosek (np. s i z w j ˛ez. polskim) mo˙zna zmierzy´c wypowiadaj ˛ac raz jedn ˛a, raz drug ˛a głosk˛e w obecno´sci kolejnych osób i wyliczaj ˛ac ułamek wzi ˛ecia jednej głoski za drug ˛a. Przeprowadziwszy takie badanie dla ró˙znych par głosek, uzyskuje si ˛e macierz podobie ´nstwa
Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody Skalowanie wielowymiarowe
Podobnie istotne jest uzyskanie przedstawienia danych niekoniecznie ilo´scio-wych w przestrzeni euklidesowej o małym wymiarze. Tak ˛a mo˙zliwo´s´c stwarza zast ˛apienie miary odległo´sci miarami odmienno´sci i skorzystanie z jednego z algorytmówskalowania wielowymiarowego.
Takie skalowanie jest szczególnie istotne, gdymacierz odmienno ´sci jest wyj-´sciowym zbiorem danych, jakim dysponujemy. W niektórych badaniach w ogóle nie mamy do czynienia z wektorem obserwacji, a tylko z odmienno-´sciami mi ˛edzy obiektami.
Przykład - badanie blisko ´sci brzmienia głosek. Blisko´s´c brzmienia głosek (np. s i z w j ˛ez. polskim) mo˙zna zmierzy´c wypowiadaj ˛ac raz jedn ˛a, raz drug ˛a głosk˛e w obecno´sci kolejnych osób i wyliczaj ˛ac ułamek wzi ˛ecia jednej głoski za drug ˛a. Przeprowadziwszy takie badanie dla ró˙znych par głosek, uzyskuje si ˛e macierz podobie ´nstwa
Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody Skalowanie wielowymiarowe
Algorytm uzyskiwania tych punktów jest nast ˛epuj ˛acy:
znajd´z warto´sci własne λ1≥ λ2≥ . . . ≥ λn=0 oraz odpowiadaj ˛ace im wektory własnevimacierzy Φ,
Φ = I −1 n11T Γ I −1 n11T ,
gdzieI jest macierz ˛a jednostkow ˛a, a1 jest wektorem jedynek. tak przeskaluj wektory własne, by spełniony był warunekvT
i vi = λi; współrz ˛edne n punktów wzdłu˙z i-tej osi w przestrzeni euklidesowej Rs dane s ˛a przez kolejne elementy wektoravi, wymiar s przestrzeni jest równy liczbie niezerowych warto´sci własnych λi
Podany algorytm nosi nazw ˛eskalowania klasycznego lub analizy współ-rz ˛ednych głównych.
Dzi ˛eki tej konstrukcji otrzymujemy nast ˛epuj ˛ac ˛a informacj ˛e: najlepsza (w sen-sie wska´znika V ) u-wymiarowa reprezentacja punktów o macierzy odmienno-´sci dij, u < s dana jest przez u pierwszych wektorów własnych macierzy Φ, przy czym V = 2n(λu+1+ . . . + λn).
Podobie ´nstwo pomi ˛edzy skalowaniem wielowymiarowym a analiz ˛a składowych głównych staje si ˛e równowa˙zno´sci ˛a, gdy dane macierzdijjest macierz ˛a odległo´sci euklidesowych.
Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody Skalowanie wielowymiarowe
Algorytm uzyskiwania tych punktów jest nast ˛epuj ˛acy:
znajd´z warto´sci własne λ1≥ λ2≥ . . . ≥ λn=0 oraz odpowiadaj ˛ace im wektory własnevimacierzy Φ,
Φ = I −1 n11T Γ I −1 n11T ,
gdzieI jest macierz ˛a jednostkow ˛a, a1 jest wektorem jedynek. tak przeskaluj wektory własne, by spełniony był warunekvT
i vi = λi; współrz ˛edne n punktów wzdłu˙z i-tej osi w przestrzeni euklidesowej Rs dane s ˛a przez kolejne elementy wektoravi, wymiar s przestrzeni jest równy liczbie niezerowych warto´sci własnych λi
Podany algorytm nosi nazw ˛eskalowania klasycznego lub analizy współ-rz ˛ednych głównych.
Dzi ˛eki tej konstrukcji otrzymujemy nast ˛epuj ˛ac ˛a informacj ˛e: najlepsza (w sen-sie wska´znika V ) u-wymiarowa reprezentacja punktów o macierzy odmienno-´sci dij, u < s dana jest przez u pierwszych wektorów własnych macierzy Φ, przy czym V = 2n(λu+1+ . . . + λn).
Podobie ´nstwo pomi ˛edzy skalowaniem wielowymiarowym a analiz ˛a składowych głównych staje si ˛e równowa˙zno´sci ˛a, gdy dane macierzdijjest macierz ˛a odległo´sci euklidesowych.
Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody Skalowanie wielowymiarowe
Algorytm uzyskiwania tych punktów jest nast ˛epuj ˛acy:
znajd´z warto´sci własne λ1≥ λ2≥ . . . ≥ λn=0 oraz odpowiadaj ˛ace im wektory własnevimacierzy Φ,
Φ = I −1 n11T Γ I −1 n11T ,
gdzieI jest macierz ˛a jednostkow ˛a, a1 jest wektorem jedynek. tak przeskaluj wektory własne, by spełniony był warunekvT
i vi = λi; współrz ˛edne n punktów wzdłu˙z i-tej osi w przestrzeni euklidesowej Rs dane s ˛a przez kolejne elementy wektoravi, wymiar s przestrzeni jest równy liczbie niezerowych warto´sci własnych λi
Podany algorytm nosi nazw ˛eskalowania klasycznego lub analizy współ-rz ˛ednych głównych.
Dzi ˛eki tej konstrukcji otrzymujemy nast ˛epuj ˛ac ˛a informacj ˛e: najlepsza (w sen-sie wska´znika V ) u-wymiarowa reprezentacja punktów o macierzy odmienno-´sci dij, u < s dana jest przez u pierwszych wektorów własnych macierzy Φ, przy czym V = 2n(λu+1+ . . . + λn).
Podobie ´nstwo pomi ˛edzy skalowaniem wielowymiarowym a analiz ˛a składowych głównych staje si ˛e równowa˙zno´sci ˛a, gdy dane macierzdijjest macierz ˛a odległo´sci euklidesowych.
Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody Skalowanie wielowymiarowe
Algorytm uzyskiwania tych punktów jest nast ˛epuj ˛acy:
znajd´z warto´sci własne λ1≥ λ2≥ . . . ≥ λn=0 oraz odpowiadaj ˛ace im wektory własnevimacierzy Φ,
Φ = I −1 n11T Γ I −1 n11T ,
gdzieI jest macierz ˛a jednostkow ˛a, a1 jest wektorem jedynek.
tak przeskaluj wektory własne, by spełniony był warunekvT i vi = λi; współrz ˛edne n punktów wzdłu˙z i-tej osi w przestrzeni euklidesowej Rs dane s ˛a przez kolejne elementy wektoravi, wymiar s przestrzeni jest równy liczbie niezerowych warto´sci własnych λi
Podany algorytm nosi nazw ˛eskalowania klasycznego lub analizy współ-rz ˛ednych głównych.
Dzi ˛eki tej konstrukcji otrzymujemy nast ˛epuj ˛ac ˛a informacj ˛e: najlepsza (w sen-sie wska´znika V ) u-wymiarowa reprezentacja punktów o macierzy odmienno-´sci dij, u < s dana jest przez u pierwszych wektorów własnych macierzy Φ, przy czym V = 2n(λu+1+ . . . + λn).
Podobie ´nstwo pomi ˛edzy skalowaniem wielowymiarowym a analiz ˛a