EKSPERYMENTÓW SYMULACYJNYCH - Walesiak M. (2016), Uogólniona miara odległości GDM w statystycz

5.1

LOSOWE GENEROWANIE DANYCH O ZNANEJ STRUKTURZE KLAS W PAKIECIE clusterSim¹

Sprawdzenie przydatności wielu metod analizy danych wymaga ich przetesto-wania na losowo wygenerowanych danych o znanej strukturze klas. W literaturze przedmiotu znane są propozycje generowania danych:

a) o znanej strukturze klas, w których położenie i jednorodność skupień zadaje się za pomocą wektorów wartości przeciętnych (środki ciężkości skupień) i macie-rzy kowariancji (rozproszenie obiektów) – zob. np. prace: [Atlas, Overall 1994; Mil-ligan 1985],

b) zawierających skupienia o zadanym stopniu separowalności – zob. prace:

[Qiu, Joe 2006; Steinley, Henson 2005].

W dalszej części zaprezentowana zostanie funkcja cluster.Gen pakietu clusterSim (zob. [Walesiak, Dudek 2015]), służąca do losowego generowania zbiorów danych o znanej strukturze klas. Ma ona następujące zalety:

– pozwala na generowanie danych metrycznych (ilorazowych i przedziałowych), porządkowych oraz symbolicznych przedziałowych dla danej liczby wymiarów (zmiennych), np. pięciu skupień w przestrzeni trójwymiarowej,

– położenie i jednorodność skupień zadaje się za pomocą wektorów wartości przecięt-nych (środki ciężkości skupień) i macierzy kowariancji (rozproszenie obiektów), – istnieje możliwość wygenerowania klas o różnej gęstości i kształcie,

– istnieje możliwość uwzględnienia zmiennych zakłócających strukturę klas (no-isy variables) oraz obserwacji odstających (outliers).

Składnię funkcji cluster.Gen z pakietu clusterSim zaprezentowano w tab. 5.1.

Zdecydowana większość funkcji programu R zwraca złożone obiekty lub listy zawierające wiele informacji wygenerowanych przez wykonywany algorytm. Funk-cja cluster.Gen zwraca następujące informacje:

1 Podrozdział ten opracowano na podstawie artykułu [Walesiak 2009a].

116 5. UOGÓLNIONA MIARA ODLEGŁOŚCI GDM...

clusters numer skupienia dla każdego obiektu; dla modelu pierwszego (model=1), w którym nie ma struktury klas, funkcja clusters zwraca numery obiektów data wygenerowane dane: dla danych metrycznych i porządkowych – macierz (w wierszach obiekty, a w kolumnach zmienne); dla danych symbolicznych przedziałowych trójwymiarowa struktura: pierwszy wymiar oznacza numer obiektu, drugi wymiar – numer zmiennej, a trzeci – dolny i górny kraniec przedziału Tabela 5.1. Charakterystyka składni funkcji cluster.Gen z pakietu clusterSim cluster.Gen(numObjects=50,means=NULL,cov=NULL,fixedCov=TRUE,

model=1,dataType=″m″,numCategories=NULL,numNoisyVar=0, numOutliers=0,rangeOutliers=c(1,10),inputType=″csv2″, inputHeader=TRUE,inputRowNames=TRUE,outputCsv=″″, outputCsv2=″″,outputColNames=TRUE,outputRowNames=TRUE) numObjects liczba obiektów w każdym skupieniu – dodatnia liczba całkowita lub wektor o tym

samym rozmiarze jak nrow(means), np. numObjects=c(50,20)

means macierz wartości oczekiwanych (np. means=matrix(c(0,8,0,8),2,2)).

Jeżeli means=NULL, to macierz należy wczytać z pliku means_<modelNumber>.

csv file

cov macierz kowariancji taka sama dla wszystkich skupień, np.

cov=matrix(c(1,0,0,1),2,2). Jeżeli cov=NULL, to macierz kowariancji należy wczytać z pliku cov_<modelNumber>.csv file

model numery modeli:

model=1 – brak struktury klas

model=2 – wartości przeciętne oraz kowariancje odczytane z argumentów means i cov

model=3,4,...,20 – przykładowe modele z zadanymi wektorami wartości przeciętnych i macierzami kowariancji

model=21,22,... – jeżeli fixedCov=TRUE wektory wartości

przeciętnych means, należy wczytać z pliku means_<modelNumber>.csv a macierz kowariancji z pliku cov_<modelNumber>.csv.

Jeżeli fixedCov=FALSE means, należy wczytać z pliku means_<modelNumber>.csv a macierze kowariancji dla poszczególnych skupień z plików

cov_<modelNumber>_<clusterNumber>.csv

fixedCov fixedCov=TRUE – macierz kowariancji dla wszystkich skupień jest jednakowa fixedCov=FALSE – macierze kowariancji dla skupień są zróżnicowane dataType ″m″ – dane metryczne (ilorazowe, przedziałowe), ″o″ – dane porządkowe, ″s″

– dane symboliczne przedziałowe

numCate-gories liczba kategorii (tylko dla danych porządkowych). Dodatnia liczba całkowita lub wektor o rozmiarze: ncol(means) plus liczba zmiennych zakłócających

numNoisyVar liczba zmiennych zakłócających strukturę klas (gdy model=1 numNoisyVar oznacza liczbę zmiennych)

numOutliers liczba obiektów odstających. Dodatnia liczba całkowita oznacza liczbę obiektów odstających, a wartość z przedziału <0,1> odsetek z całego zbioru obiektów

range-Outliers rozstęp dla obiektów odstających dla każdego wymiaru (zmiennej) z osobna (domyślnie [1, 10])

... pozostałe argumenty dotyczą sposobu wczytywania i zapisywania Źródło: opracowanie własne na podstawie dokumentacji pakietu clusterSim.

5.1. LOSOWE GENEROWANIE DANYCH O ZNANEJ STRUKTURZE KLAS... 117 Dane metryczne (dataType=″m″) generowane są z wielowymiarowego roz-kładu normalnego, w którym położenie i jednorodność skupień zadaje się za pomocą wektorów wartości przeciętnych (środki ciężkości skupień) i macierzy kowariancji (rozproszenie obiektów) – zob. [Grabiński, Wydymus, Zeliaś 1989, s. 141-146]. Tyl-ko dla modelu 1, w którym nie ma w zbiorze danych struktury klas, obserwacje ge-nerowane są z rozkładu jednostajnego dla jednostkowej hiperkostki o liczbie wymia-rów (zmiennych) podanych w numNoisyVar.

Funkcja cluster.Gen zawiera 14 wbudowanych przykładowych modeli (oznaczonych w pakiecie numerami 3-16), z zadanymi wektorami wartości przecięt-nych i macierzami kowariancji, różniących się (zob. tab. 5.2):

– liczbą skupień i liczbą zmiennych (wymiarów) (known number of true clusters and true dimensions),

– gęstością skupień (cluster density), tj. liczebnością obiektów w klasach,

– kształtem skupień (shape of clusters). Tak więc modele 3-5 zawierają skupienia wydłużone, modele 6 i 7 – skupienia wydłużone i słabo separowalne, modele 8-11 skupienia o kształcie normalnym. Modele od 13 do 16 zawierają zróżnico-wane macierze kowariancji dla poszczególnych skupień, co oznacza różne kształty dla poszczególnych skupień. Model 12 jest nietypowy, z jego wykorzy-staniem generuje się bowiem dane zawierające cztery klasy dla jednej zmiennej.

Tabela 5.2. Charakterystyka modeli w funkcji cluster.Gen pakietu clusterSim

Model v cl Środki ciężkości klas Macierz kowariancji ∑ ks

1 2 3 4 5 6

3 2 2 (0; 0), (1; 5) σ_jj = 1 (1 ≤ j ≤ 2), σ₁₂ = –0,9 1 4 2 3 (0; 0), (1,5; 7) (3; 14) σ_jj = 1 (1 ≤ j ≤ 2), σ₁₂ = –0,9 1 5 3 3 (1,5; 6, – 3), (3; 12; –6)

(4,5; 18; –9) σ_jj = 1 (1 ≤ j ≤ 3),

σ₁₂ = σ₁₃ = –0,9, σ₂₃ = 0,9 1 6 2 5 (5; 5), (–3; 3), (3; –3),

(0; 0), (–5; –5) σ_jj = 1, σ_jl = 0,9 (1 ≤ j ≤ 2) 2 7 3 5 (5; 5; 5), (–3; 3; –3), (3; –3;

3), (0; 0, 0), (–5; –5, –5) σ_jj = 1 (1 ≤ j ≤ 3),

σ_jl = 0,9 (1 ≤ j ≠ l ≤ 3) 2 8 2 5 (0, 0), (0, 10), (5, 5),

(10, 0), (10, 10) σ_jj = 1, σ_jl = 0 (1 ≤ j ≤ 2) 3 9 3 5 (0, 0, 0), (10, 10, 10),

(–10, –10, –10), (10, –10, 10), (–10, 10, 10)

σ_jj = 3 (1 ≤ j ≤ 3),

σ_jl = 2 (1 ≤ j ≠ l ≤ 3) 3 10 2 4 (–4; 5), (5; 14), (14; 5),

(5; –4) σ_jj = 1, σ_jl = 0 (1 ≤ j ≤ 2) 3

11 3 4 (–4, 5, –4), (5, 14, 5), (14, 5, 14), (5, –4, 5)

σ_jj = 1 (1 ≤ j ≤ 3),

σ_jl = 0 (1 ≤ j ≠ l ≤ 3) 3 12 1 4 –2, 4, 10, 16 σσ²_j =0,5 (1 ≤ j ≤ 4)

118 5. UOGÓLNIONA MIARA ODLEGŁOŚCI GDM...

v – liczba zmiennych, cl – liczba klas, ks – kształt skupień (1 – skupienia wydłużone, 2 – skupienia wydłużone i słabo separowalne, 3 – skupienia normalne, 4 – skupienia zróżnicowane dla klas).

Źródło: opracowanie własne.

Przy konstrukcji zaprezentowanych modeli wzorowano się na licznych opraco-waniach (zob. np. modele służące do testowania struktury klas zawarte w pracach:

[Dudoit, Fridlyand 2002; Soffritti 2003; Tibshirani, Walther, Hastie 2001; Tibshira-ni, Walther 2005]). Należy podkreślić, że w pakiecie clusterSim można wprowa-dzać własne modele (zob. modele z tab. 5.1 oznaczone numerami 21, 22, ...).

Generowanie obserwacji porządkowych (dataType=″o″) przebiega w spo-sób następujący. Wygenerowane obserwacje dla modeli mają charakter ciągły (dane metryczne). W celu otrzymania danych porządkowych należy przeprowadzić dla każdej zmiennej proces dyskretyzacji. Liczba kategorii (k_j) zmiennej porządkowej X_j określa szerokość przedziału klasowego max{ ) min{ } /_ij _i _ij _j

i x x k

 − 

  . Niezależnie dla

każdej zmiennej kolejne przedziały klasowe otrzymują kategorie 1, …, k_j i aktualna ,

Tabela 5.2, cd.

5.1. LOSOWE GENEROWANIE DANYCH O ZNANEJ STRUKTURZE KLAS... 119 wartość zmiennej x_ij jest zastępowana przez te kategorie. Dla poszczególnych zmien-nych liczba kategorii może być inna (np. k₁ = 7, k₂ = 4, k₃ = 5), zatem składnia argu-mentu jest następująca: numCategories=c(7,4,5). W przypadku wprowa-dzenia np. dwóch zmiennych zakłócających (numNoisyVar=2) dodatkowo dla tych zmiennych w składni argumentu numCategories należy podać liczby kate-gorii (np. numCategories=c(7,4,5,6,4)).

Przykład dyskretyzacji wartości j-tej zmiennej zilustrowano na rys. 5.1.

Rys. 5.1. Przykład dyskretyzacji wartości j-tej zmiennej Źródło: opracowanie własne.

Dane symboliczne przedziałowe otrzymuje się w wyniku dwukrotnego genero-wania obserwacji dla danego modelu. Otrzymuje się dwa zbiory obserwacji A i B, dla których wartość minimalna (maksymalna) z wartości

{

x xij^A^, ij^B

}

jest traktowana jako początek (koniec) przedziału klasowego.

Obserwacje na zmiennych zakłócających są generowane niezależnie z rozkładu jednostajnego. Przedział zmienności zmiennych zakłócających jest podobny do zmien-nych wyznaczających strukturę klas (por. [Milligan 1985; Qiu, Joe 2006, s. 322]).

Obiekty odosobnione (outliers) są generowane tylko dla danych metrycznych oraz symbolicznych przedziałowych, niezależnie dla każdej zmiennej i całego zbioru

1 2 3 4 5 6

5 7

0 10 20 30 40 50 Numer obiektu

Wartości zmiennej Kategorie

120 5. UOGÓLNIONA MIARA ODLEGŁOŚCI GDM...

obserwacji z rozkładu jednostajnego. Następnie wygenerowane wartości są losowo dodawane do wartości maksymalnej j-tej zmiennej lub odejmowane od wartości mi-nimalnej j-tej zmiennej.

5.2

ANALIZA PORÓWNAWCZA METOD KLASYFIKACJI DLA DANYCH O ZNANEJ STRUKTURZE KLAS²

Analizę porównawczą metod klasyfikacji dla danych o znanej strukturze klas przeprowadzono dla trzech typów danych.

W dwóch pierwszych eksperymentach wykorzystano dane metryczne oraz po-rządkowe o znanej strukturze klas obiektów wygenerowane z wykorzystaniem z funkcji cluster.Gen pakietu clusterSim. Charakterystykę czterech modeli wykorzystanych w analizie symulacyjnej prezentuje tab. 5.3.

Tabela 5.3. Charakterystyka modeli w analizie symulacyjnej

Model v nk* cl lo Środki ciężkości klas Macierz kowariancji ∑ ks 1 3 7 3 40 (1,5; 6, – 3), (3; 12; –6)

* tylko dla danych porządkowych;

v – liczba zmiennych, nk – liczba kategorii (jedna liczba oznacza stałą liczbę kategorii); cl – liczba klas; lo – liczba obiektów w klasach (jedna liczba oznacza klasy równoliczne); ks – kształt skupień (1 – skupienia wydłużone, 2 – skupienia wydłużone i słabo separowalne, 3 – skupienia normalne, 4 – skupienia zróżnicowane dla klas).

Źródło: opracowanie własne.

W eksperymencie trzecim zbiory danych (zob. rys. 5.2) utworzono z wykorzy-staniem funkcji pakietu mlbench (mlbench.spirals, mlbench.smiley, mlbench.cassini) oraz zbiorów własnych (worms, w3, skad).

2 Podrozdział ten opracowano na podstawie artykułu [Walesiak, Dudek 2010b].

5.2. ANALIZA PORÓWNAWCZA METOD KLASYFIKACJI... 121

Rys. 5.2. Przykładowe zbiory danych utworzone z wykorzystaniem funkcji pakietu mlbench (spirals, smiley, cassini) oraz zbiorów własnych (worms, w3, skad) Źródło: opracowanie własne z wykorzystaniem programu R.

122 5. UOGÓLNIONA MIARA ODLEGŁOŚCI GDM...

Dla modeli w każdym eksperymencie wygenerowano 20 zbiorów danych, prze-prowadzono procedurę klasyfikacyjną i porównano otrzymane rezultaty klasyfikacji ze znaną strukturą klas za pomocą skorygowanego indeksu Randa (zob. wzór (3.7)).

Dla danych metrycznych (eksperyment 1 i 3) uwzględniono następujące metody klasyfikacji: 1) specc1 – klasyfikacja spektralna z jądrem gaussowskim i σ z pakietu kernlab; 2) specc2 – klasyfikacja spektralna z jądrem gaussowskim i σ z artykułu [Walesiak, Dudek 2009b]; 3) speccGDM1 – klasyfikacja spektralna z odległością GDM1 i σ z artykułu [Walesiak, Dudek 2009b]; 4) kmeans – metoda k-średnich;

5) pam – metoda k-medoidów; 6) complete – metoda kompletnego połączenia;

7) average – metoda średniej klasowej; 8) ward – metoda Warda; 9) centroid – me-toda środka ciężkości; 10) diana – hierarchiczna meme-toda deglomeracyjna.

Dla metod o numerach 5-10 zastosowano odległość GDM1 oraz kwadrat odleg- łości euklidesowej. Dla danych porządkowych (eksperyment 2) uwzględniono w analizie metody klasyfikacji o numerach 5-10 z odległością GDM2 oraz klasy- fikację spektralną z odległością GDM2 i σ z artykułu [Walesiak, Dudek 2009b]

(speccGDM2).

W tab. 5.4 zaprezentowano uporządkowanie analizowanych metod klasyfikacji według średnich wartości skorygowanego indeksu Randa policzonego z 20 symula-cji dla danych metrycznych wygenerowanych w pakiecie clusterSim.

W przypadku zbiorów danych metrycznych bez zmiennych zakłócających meto-dy klasyfikacji spektralnej, z pewnymi wyjątkami, dają gorsze rezultaty od klasycz-nych metod analizy skupień. Uwzględnienie zmienklasycz-nych zakłócających (występują-cych zwykle w rzeczywistych problemach klasyfikacyjnych) pokazuje wyraźną przewagę metod klasyfikacji spektralnej w odkrywaniu rzeczywistej struktury klas.

Proponowana metoda speccGDM1 daje zbliżone (choć nieco gorsze) rezultaty do metody klasyfikacji spektralnej z jądrem gaussowskim.

Uwzględnienie dla klasycznych metod analizy skupień odległości GDM1 oraz kwadratu odległości euklidesowej daje zbliżone rezultaty, jeśli chodzi o stopień od-krywania rzeczywistej struktury klas.

W tab. 5.5 przedstawiono uporządkowanie analizowanych metod klasyfikacji według średnich wartości skorygowanego indeksu Randa policzonego z 20 symula-cji dla danych porządkowych wygenerowanych w pakiecie clusterSim.

W przypadku zbiorów danych porządkowych bez zmiennych zakłócających naj-lepsza jest metoda Warda. Metoda klasyfikacji spektralnej speccGDM2 daje gorsze rezultaty od klasycznych metod analizy skupień. Należy jednak pamiętać, że zbiory tego typu bardzo rzadko występują w rzeczywistych problemach klasyfikacyjnych.

Uwzględnienie zmiennych zakłócających pokazuje wyraźną przewagę metody kla-syfikacji spektralnej speccGDM2.

W tab. 5.6 zaprezentowano uporządkowanie analizowanych metod klasyfikacji według średnich wartości skorygowanego indeksu Randa policzonego z 20 symula-cji dla danych metrycznych z pakietu mlbench i danych własnych.

5.2. ANALIZA PORÓWNAWCZA METOD KLASYFIKACJI... 123

Tabela 5.4. Uporządkowanie analizowanych metod klasyfikacji według średnich wartości skorygowanego indeksu Randa dla danych metrycznych wygenerowanych w pakiecie clusterSim MetodaŚrednia (k7+k8+k9)/3Kształt skupieńLiczba zmiennych zakłócających 1234012 123456789 specc20,68310,9286/70,70680,75170,9247/80,8275/60,73510,4872 specc10,68120,81790,68690,73580,9426/70,7958/90,72320,5241 speccGDM10,66130,9067/80,7117/60,71790,8668/100,8007/80,71630,4673 averagea0,56140,95010,83110,80030,96740,88720,43960,3564 averageb0,56840,95010,83220,80030,97910,89010,46550,3504 pama0,55850,95010,83020,80010,94250,88140,47240,3225 pamb0,55850,95010,83030,80010,94260,88130,47240,3225 warda0,55060,95010,82830,80040,97320,88810,44350,3206 wardb0,55160,95010,83610,80040,97230,88920,44360,3196 centroida0,52670,95010,82040,80050,97130,88530,42670,2677 centroidb0,385100,95010,78240,80050,96840,87540,26990,01210 dianaa0,46380,93050,646100,79860,575100,737100,39180,2608 dianab0,51270,95010,644100,79660,90190,82370,41870,2967 kmeans0,4529/80,784100,76050,633100,9781/20,7899/100,3719/80,1959/8 completea0,415100,85880,74760,80020,86290,81760,277100,15010 completeb0,39990,95010,70770,80020,95250,85250,245100,1019 a – z odległością GDM1; b – z kwadratem odległości euklidesowej. 6/7 – pozycja metody, gdy dla klasycznych metod analizy skupień stosujemy odległość GDM1 / kwadrat odległości euklidesowej. Źródło: obliczenia własne z wykorzystaniem programu R.

124 5. UOGÓLNIONA MIARA ODLEGŁOŚCI GDM...

Tabela 5.5. Uporządkowanie analizowanych metod klasyfikacji według średnich wartości skorygowanego indeksu Randa dla danych porządkowych wygenerowanych w pakiecie clusterSim

Metoda Średnia (k7+k8+

k9)/3

Kształt skupień Liczba zmiennych zakłócających

1 2 3 4 0 1 2

1 2 3 4 5 6 7 8 9

speccGDM2 0,644 1 0,901 7 0,754 7 0,793 7 0,612 6 0,765 7 0,659 1 0,510 1 average 0,599 2 1,000 1 0,974 1 1,000 1 0,947 2 0,980 2 0,477 3 0,339 2 pam 0,591 3 1,000 1 0,969 3 1,000 1 0,933 4 0,975 4 0,480 2 0,318 3 ward 0,591 4 1,000 1 0,967 4 1,000 1 0,963 1 0,982 1 0,473 4 0,317 4 centroid 0,562 5 1,000 1 0,973 2 1,000 1 0,946 3 0,980 2 0,431 5 0,274 5 diana 0,496 6 0,956 5 0,770 6 0,998 6 0,565 7 0,822 6 0,418 6 0,249 6 complete 0,461 7 0,924 6 0,893 5 1,000 1 0,909 5 0,931 5 0,296 7 0,155 7 Źródło: obliczenia własne z wykorzystaniem programu R.

Tabela 5.6. Uporządkowanie analizowanych metod klasyfikacji według średnich wartości skorygowanego indeksu Randa dla danych metrycznych z pakietu mlbench i danych własnych

Metoda Średnia Zbiory danych

spirals worms w3 smiley cassini skad

specc1 0,796 1 0,830 3 0,795 2 0,840 1 0,837 2/3 0,759 6/5 0,715 3 specc2 0,792 2 0,866 2 0,847 1 0,720 2 0,797 3/5 0,754 7/6 0,767 1 speccGDM1 0,715 3 0,957 1 0,537 3 0,406 3 0,870 1/2 0,796 5/3 0,722 2 ward^a 0,397 6 0,042 6 0,411 8 0,003 7 0,646 5 0,935 2 0,348 9 ward^b 0,467 4 0,028 8 0,361 10 0,006 4 0,950 1 0,844 2 0,611 5 pam^a 0,424 4 0,011 10 0,448 6 –0,005 8 0,794 4 0,919 3 0,374 8 pam^b 0,424 5 0,011 10 0,448 7 –0,005 8 0,794 6 0,919 1 0,374 10 average^a 0,411 5 0,026 9 0,393 10 0,003 6 0,605 8 0,981 1 0,455 7 average^b 0,393 6 0,029 7 0,432 8 –0,003 7 0,637 7 0,783 4 0,482 8 centroid^a 0,396 7 0,044 5 0,423 7 0,005 5 0,611 7 0,827 4 0,466 6 centroid^b 0,389 7 0,016 9 0,466 5 –0,002 6 0,825 4 0,556 9 0,473 9 diana^a 0,305 10 0,037 7 0,452 5 –0,006 9 0,486 10 0,522 10 0,341 10 diana^b 0,386 8 0,040 4 0,467 4 –0,009 9 0,627 8 0,539 10 0,651 4 kmeans 0,369 9 0,031 8/6 0,455 4/6 –0,009 10 0,623 6/9 0,595 9/7 0,519 4/6 complete^a 0,370 8 0,045 4 0,400 9 0,010 4 0,568 9 0,720 8 0,475 5 complete^b 0,353 10 0,037 5 0,424 9 0,002 5 0,587 10 0,564 8 0,505 7

a – z odległością GDM1; ^b – z kwadratem odległości euklidesowej.

8/6 – pozycja metody, gdy dla klasycznych metod analizy skupień stosujemy odległość GDM1/

kwadrat odległości euklidesowej.

Źródło: obliczenia własne z wykorzystaniem programu R.

5.3. OCENA WYBRANYCH PROCEDUR ANALIZY SKUPIEŃ... 125 Dla nietypowych zbiorów danych metody klasyfikacji spektralnej zdecydowanie lepiej niż klasyczne metody analizy skupień odkrywają prawidłową strukturę klas.

Proponowana metoda speccGDM1 daje rezultaty podobne jak metoda klasyfikacji spektralnej z jądrem gaussowskim.

5.3

OCENA WYBRANYCH PROCEDUR ANALIZY SKUPIEŃ DLA DANYCH PORZĄDKOWYCH³

Celem tego podrozdziału jest przeprowadzenie oceny przydatności wybranych procedur analizy skupień dla danych porządkowych. Testowanie przydatności wy-branych procedur zostanie przeprowadzone na podstawie porządkowych danych sy-mulacyjnych o znanej strukturze klas obiektów wygenerowanych z wykorzystaniem z funkcji cluster.Gen pakietu clusterSim.

Typowa procedura analizy skupień dla danych porządkowych obejmuje (zob.

np. [Milligan 1996, s. 342-343; Walesiak 2005a]):

1) wybór obiektów i zmiennych, 2) wybór miary odległości, 3) wybór metody klasyfikacji, 4) ustalenie liczby klas, 5) ocenę wyników klasyfikacji, 6) opis i profilowanie klas.

Testowanie przydatności wybranych procedur przeprowadzono na podstawie porządkowych danych symulacyjnych o znanej strukturze klas obiektów. Dane te, składają się z 9 modeli różniących się liczbą zmiennych, liczbą, gęstością i kształtem skupień oraz liczbą zmiennych zakłócających (zob. tab. 5.7).

Następnie dla danych z poszczególnych modeli zastosowano 72 procedury ana-lizy skupień obejmujące:

a) 9 metod klasyfikacji: 7 metod klasyfikacji hierarchicznej: pojedynczego połą-czenia (single), kompletnego połąpołą-czenia (complete), średniej klasowej (average), ważonej średniej klasowej (mcquitty), Warda (ward), środka ciężkości (centroid), medianową (median);

b) miarę odległości GDM dla danych porządkowych (w pakiecie clusterSim jest to odległość GDM2);

c) 8 indeksów jakości klasyfikacji służących ustaleniu liczby klas (Daviesa-Bo-uldina – DB, Calińskiego i Harabasza – G1, Bakera i Huberta – G2, Huberta i Levi-na – G3, gap – Gap, HartigaLevi-na – H, Krzanowskiego i Lai – KL, Silhouette – S). In-deksy Calińskiego i Harabasza, Krzanowskiego i Lai, Daviesa-Bouldina, Hartigana i gap w swojej konstrukcji wykorzystują środek ciężkości klasy o współrzędnych

3 Podrozdział ten opracowano na podstawie prac [Walesiak, Dudek 2009a; 2010a].

126 5. UOGÓLNIONA MIARA ODLEGŁOŚCI GDM...

będących średnimi arytmetycznymi z wartości zmiennych opisujących obiekty da-nej klasy. Dla danych porządkowych nie jest dopuszczalne obliczanie średnich aryt-metycznych. W związku z tym przy obliczaniu tych indeksów zamiast środka cięż-kości klasy zastosowano współrzędne obiektu usytuowanego centralnie w klasie (tj. obiektu, dla którego suma odległości od pozostałych obiektów w klasie jest naj-mniejsza).

Tabela 5.7. Charakterystyka modeli w analizie symulacyjnej

Model v lk cl lo Środki ciężkości klas Macierz kowariancji ∑ ks 1 2 4, 6 3 60, 30, 30 (0; 0), (1,5; 7), (3; 14) σ_jj = 1, σ_jl = –0,9 1

v – liczba zmiennych, lk – liczba kategorii (jedna liczba oznacza stałą liczbę kategorii); cl – liczba klas; lo – liczba obiektów w klasach (jedna liczba oznacza klasy równoliczne); ks – kształt skupień (1 – skupienia wydłużone, 2 – skupienia wydłużone i słabo separowalne, 3 – skupienia normalne, 4 – skupienia zróżnicowane dla klas);

a: Źródło: opracowanie własne z wykorzystaniem pakietu clusterSim.

5.3. OCENA WYBRANYCH PROCEDUR ANALIZY SKUPIEŃ... 127 Dla każdego modelu przeprowadzono 50 symulacji. Nie rozpatrywano wszyst-kich możliwych podziałów zbioru obiektów. W badaniu uwzględniono podziały zbioru obiektów od dwóch do dziesięciu klas.

Ocenę przydatności wybranych procedur analizy skupień dla danych porządko-wych przeprowadzono za pomocą skorygowanego indeksu Randa (zob. wzór (3.7)), porównując znaną strukturę klas z wynikami uzyskanymi za pomocą odpowiednich procedur analizy skupień.

W tab. 5.8 zaprezentowano uporządkowanie 9 analizowanych metod klasyfika-cji według średnich wartości skorygowanego indeksu Randa policzonego z 50 sy-mulacji dla 9 modeli i 8 indeksów oceny jakości klasyfikacji.

Tabela 5.8. Uporządkowanie analizowanych metod klasyfikacji według średnich wartości skorygowanego indeksu Randa

Metoda Liczba zmiennych zakłócających

Średnia

0 2 4

average 0,765 1 0,502 1 0,062 1 0,443 1

mcquitty 0,733 4 0,456 3 0,057 3 0,415 2

centroid 0,746 2 0,440 4 0,055 4 0,413 3

ward 0,707 7 0,473 2 0,059 2 0,413 4

diana 0,738 3 0,430 5 0,053 5 0,407 5

complete 0,724 5 0,415 7 0,051 7 0,397 6

pam 0,694 8 0,416 6 0,052 6 0,387 7

median 0,708 6 0,371 8 0,046 8 0,375 8

single 0,652 9 0,322 9 0,040 9 0,338 9

Źródło: obliczenia własne.

Na podstawie wyników zawartych w tab. 5.8 można sformułować następujące wnioski:

– zdecydowanie najlepszą metodą klasyfikacji danych porządkowych (dla 0, 2 i 4 zmiennych zakłócających) jest metoda średniej klasowej (average), najgorszą zaś metoda pojedynczego połączenia (single),

– metoda Warda (ward) w relacji do innych metod jest dość skuteczna w przypad-ku uwzględnienia zmiennych zakłócających.

W tab. 5.9 zaprezentowano uporządkowanie 8 analizowanych indeksów oceny jakości klasyfikacji według średnich wartości skorygowanego indeksu Randa poli-czonego z 50 symulacji dla 9 modeli i 9 metod klasyfikacji.

Na podstawie wyników zawartych w tab. 5.9 można sformułować następujące wnioski:

– najlepsze indeksy w klasyfikacji danych porządkowych to indeksy Krzanow-skiego i Lai (KL) oraz CalińKrzanow-skiego i Harabasza (G1),

128 5. UOGÓLNIONA MIARA ODLEGŁOŚCI GDM...

– o ile indeksy gap (Gap) i Daviesa-Bouldina (DB) bez zmiennych zakłócających dość dobrze odkrywały strukturę klas, o tyle ze zmiennymi zakłócającymi ich skuteczność wyraźnie spadła.

Tabela 5.9. Uporządkowanie analizowanych indeksów oceny jakości klasyfikacji według średnich wartości skorygowanego indeksu Randa

Indeks Liczba zmiennych zakłócających

Średnia

0 2 4

KL 0,804 1 0,473 1 0,052 1 0,443 1

G1 0,721 3 0,463 2 0,051 2 0,412 2

Gap 0,771 2 0,384 7 0,042 7 0,399 3

S 0,691 6 0,451 4 0,050 3 0,397 4

G3 0,667 8 0,453 3 0,050 3 0,390 5

G2 0,686 7 0,417 5 0,046 6 0,383 6

H 0,695 5 0,398 6 0,044 5 0,379 7

DB 0,713 4 0,361 8 0,040 8 0,371 8

Źródło: obliczenia własne.

W tab. 5.10 przedstawiono uporządkowanie procedur analizy skupień (miara GDM dla danych porządkowych, 9 metod klasyfikacji, 8 indeksów jakości klasyfi-kacji) według średnich wartości skorygowanego indeksu Randa policzonego z 50 symulacji dla 9 modeli.

Na podstawie wyników zawartych w tab. 5.10 można sformułować następujące wnioski:

– najskuteczniejsza, w sensie przeprowadzonego eksperymentu symulacyjnego, jest procedura analizy skupień obejmująca metodę średniej klasowej (average) oraz indeks oceny jakości klasyfikacji Krzanowskiego i Lai (KL). Metoda ta z indeksami odpowiednio gap (Gap), Hartigana (H) oraz Calińskiego i Haraba-sza (G1) zajęła wysokie pozycje, tj. czwartą, piątą i szóstą,

– drugą i trzecią pozycję zajęła metoda Warda (ward) z indeksami odpowiednio Krzanowskiego i Lai (KL) oraz gap (Gap),

– najmniej skuteczna w klasyfikacji danych porządkowych jest metoda pojedyn-czego połączenia (single) z indeksami Hartigana (H), gap (Gap) i Daviesa-Boul-dina (DB).

Na otrzymane rezultaty w pewnym stopniu ma wpływ wybór modeli i sposób generowania danych o znanej strukturze klas. W analizie uwzględniono losowe ge-nerowanie zbiorów danych z wielowymiarowego rozkładu normalnego, w którym położenie i jednorodność skupień zadaje się za pomocą wektorów wartości przecięt-nych (środki ciężkości skupień) i macierzy kowariancji (rozproszenie obiektów).

5.3. OCENA WYBRANYCH PROCEDUR ANALIZY SKUPIEŃ... 129

Tabela 5.10. Uporządkowanie analizowanych procedur analizy skupień według średnich wartości skorygowanego indeksu Randa

Lp. Metoda Indeks

Liczba zmiennych

zakłócających Średnia Lp. Metoda Indeks

Liczba zmiennych zakłócających Średnia

0 2 4 0 2 4

1 average KL 0,854 0,554 0,429 0,612 37 pam S 0,641 0,455 0,335 0,477 2 ward KL 0,843 0,537 0,396 0,592 38 complete Gap 0,762 0,385 0,283 0,477 3 ward Gap 0,854 0,505 0,362 0,574 39 centroid KL 0,830 0,505 0,076 0,470 4 average Gap 0,883 0,496 0,342 0,574 40 mcquitty G2 0,688 0,405 0,312 0,468 5 average H 0,764 0,536 0,417 0,572 41 complete DB 0,718 0,383 0,296 0,465 6 average G1 0,767 0,537 0,383 0,562 42 median G2 0,714 0,461 0,219 0,465 7 mcquitty KL 0,802 0,493 0,371 0,555 43 median KL 0,782 0,421 0,183 0,462 8 pam KL 0,837 0,469 0,340 0,549 44 pam DB 0,692 0,387 0,300 0,460 9 average S 0,715 0,517 0,391 0,541 45 pam H 0,631 0,402 0,344 0,459 10 diana KL 0,805 0,456 0,360 0,540 46 diana G2 0,719 0,373 0,285 0,459 11 mcquitty H 0,739 0,481 0,363 0,528 47 centroid G1 0,757 0,491 0,116 0,454 12 ward G1 0,687 0,518 0,378 0,528 48 pam G3 0,624 0,420 0,315 0,453 13 diana H 0,743 0,447 0,391 0,527 49 pam G1 0,637 0,424 0,296 0,452 14 average DB 0,771 0,457 0,352 0,527 50 median G1 0,725 0,430 0,202 0,452 15 diana G1 0,759 0,447 0,374 0,527 51 median G3 0,676 0,439 0,224 0,447 16 mcquitty G1 0,738 0,487 0,343 0,522 52 centroid G2 0,690 0,532 0,114 0,445 17 average G3 0,684 0,493 0,389 0,522 53 ward G2 0,646 0,386 0,294 0,442 18 diana S 0,735 0,462 0,357 0,518 54 complete G2 0,692 0,366 0,268 0,442 19 complete KL 0,785 0,438 0,325 0,516 55 centroid G3 0,675 0,523 0,121 0,439 20 mcquitty S 0,696 0,492 0,355 0,514 56 pam G2 0,654 0,362 0,270 0,429 21 pam Gap 0,834 0,406 0,297 0,513 57 centroid S 0,710 0,473 0,007 0,397 22 ward S 0,653 0,503 0,375 0,510 58 median S 0,697 0,410 0,082 0,396 23 diana G3 0,715 0,443 0,370 0,509 59 single G2 0,684 0,437 0,052 0,391 24 mcquitty Gap 0,788 0,426 0,311 0,508 60 centroid Gap 0,819 0,351 0,002 0,391 25 ward DB 0,729 0,428 0,343 0,500 61 single G1 0,697 0,394 0,061 0,384 26 diana Gap 0,709 0,419 0,360 0,496 62 single G3 0,631 0,431 0,068 0,376 27 ward H 0,619 0,458 0,409 0,495 63 single KL 0,697 0,382 0,043 0,374 28 mcquitty G3 0,685 0,445 0,344 0,491 64 centroid H 0,754 0,345 0,002 0,367 29 complete G1 0,726 0,440 0,307 0,491 65 median H 0,702 0,288 0,053 0,348 30 mcquitty DB 0,730 0,416 0,320 0,489 66 centroid DB 0,732 0,296 0,005 0,344 31 complete S 0,703 0,451 0,311 0,488 67 median Gap 0,693 0,275 0,064 0,344 32 complete H 0,716 0,424 0,316 0,485 68 single S 0,673 0,301 0,008 0,327 33 average G2 0,685 0,429 0,341 0,485 69 median DB 0,679 0,246 0,054 0,326 34 diana DB 0,718 0,397 0,332 0,483 70 single DB 0,647 0,239 0,009 0,298 35 ward G3 0,628 0,450 0,357 0,478 71 single Gap 0,601 0,190 0,008 0,266 36 complete G3 0,687 0,433 0,312 0,477 72 single H 0,583 0,202 0,006 0,264 Źródło: obliczenia własne.

130 5. UOGÓLNIONA MIARA ODLEGŁOŚCI GDM...

Takie podejście jest typowe w wielu analizach symulacyjnych prezentowanych m.in.

w pracach [Tibshirani, Walther, Hastie 2001; Dudoit, Fridlyand 2002; Soffritti 2003;

Tibshirani, Walther 2005].

Podstawowym problemem związanym z generowaniem danych o znanej struk-turze klas jest to, że istnieje nieskończenie wiele kształtów skupień dla dowolnej liczby wymiarów (zob. [Carmone, Kara, Maxwell 1999, s. 508]). Celowe byłoby uwzględnienie innych rozkładów oraz tzw. funkcji połączenia (copula) do genero-wania zbiorów danych o niestandardowych kształtach skupień. Nie jest to zadanie łatwe, szczególnie w przypadku danych porządkowych.

6

W dokumencie Walesiak M. (2016), Uogólniona miara odległości GDM w statystycznej analizie wielowymiarowej z wykorzystaniem programu R. (Stron 118-134)