• Nie Znaleziono Wyników

l. OCENA WYNIKÓW KLASYFIKACJI Z WYKORZYSTANIEM ANALIZY REPLIKACJI

N/A
N/A
Protected

Academic year: 2021

Share "l. OCENA WYNIKÓW KLASYFIKACJI Z WYKORZYSTANIEM ANALIZY REPLIKACJI"

Copied!
6
0
0

Pełen tekst

(1)

we Wrocławiu

OCENA STABILNOŚCI WYNIKÓW KLASYFIKACJI Z WYKORZYSTANIEM ANALIZY REPLIKACJI

l. Wprowadzenie

W typowym studium klasyfikacyjnym wyodrębnia się siedem etapów (por.

np. [Milligan 1996, s. 342-343], [Walesiak 2005]): wybór obiektów i zmien­

nych charakteryzujących obiekty do klasyfikacji, wybór fonnuły nonnalizacji

wartości zmiennych, wybór miary odległości, wybór metody klasyfikacji, usta­

lenie liczby klas, ocena wyników klasyfikacji, opis (interpretacja) i profilowa­

nie klas.

Ocenę wyników klasyfikacji można przeprowadzić m.in. wykorzystując analizę replikacji. Replikacja dotyczy przeprowadzenia procesu klasyfikacji zbioru,obiektów na podstawie dwóch prób wylosowanych z danego zbioru da­

nych, a następnie poddania ocenie zgodności otrzymanych rezultatów. Poziom

zgodności wyników dwóch podziałów oceniany zazwyczaj z wykorzystaniem skorygowanego indeksu Randa odzwierciedla poziom stabilności przeprowa­

dzonej klasyfikacji zbioru obiektów.

2. Procedura analizy replikacji

Fonnalnie analizę replikacji zaproponowano w pracach [McIntyre, Blash­

field 1980] oraz [Morey, Blashfield, Skinner 1983]. Procedura replikacji skła­

da się z następujących etapów [Breckenridge 2000, s. 262-263], [Milligan 1996, s. 368-369], [Gordon 1999, s. 184]:

1. Podzielić losowo zbiór danych (zbiór n obiektów opisanych m zmienny­

mi) na dwa podzbiory A (podstawowy) i B (replikacyjny) opisane tym samym zbiorem zmiennych.

(2)

2. Zastosować wybraną metodę klasyfikacji (np. metodę k-średnich, k-me­

doidów, hierarchiczne metody aglomeracyjne) do podziału zbioru A na ustalo­

ną liczbę klas u. Wcześniej należy podjąć decyzję dotyczącą wyboru formuły

normalizacji wartości zmiennych, miary odległości oraz liczby skupień. Wy­

znaczyć dla danych metrycznych środki ciężkości (centroids) dla poszczegól­

nych klas lub obiekty reprezentatywne dla klas (usytuowane centralnie zwane

"centrotypes" lub "medoids") dla danych metrycznych lub niemetrycznych.

Obiektem usytuowanym centralnie w klasie (medoid) jest ten, dla którego su­

ma odległości od pozostałych obiektów danej klasy jest najmniejsza.

3. Tę sarną procedurę klasyfikacyjną zastosować do podziału zbioru B na u klas.

4. Obliczyć odległości obiektów ze zbioru B od środków ciężkości klas lub od obiektów usytuowanych centralnie w klasach wyznaczonych na podstawie podzbioru A. Przydzielić obiekty z podzbioru B do klas zawierających najbliż­

szy środek ciężkości (najbliższą medoidę). Prowadzi to do podziału podzbioru B na nie więcej niż u klas. Otrzymujemy podział zbioru B na klasy na podsta­

wie charakterystyk (środki ciężkości lub medoidy) zbioru A.

5. Powtórzyć kroki 1-4 S razy (S -liczba symulacji).

6. Obliczyć, np. za pomocą skorygowanej miary Randa (zob. [Hubert, Ara­

bie 1985]), średnią zgodność wyników dwóch podziałów podzbioru B. Poziom

zgodności wyników dwóch podziałów podzbioru B odzwierciedla poziom sta­

bilności przeprowadzonej klasyfikacji zbioru obiektów.

3. Analiza replikacji w pakiecie clusterSim środowiska R

Procedura służąca ocenie wyników klasyfikacji (analiza replikacji) zawarta jest w pakiecie clusterSim (tabela 1). Pakiet clusterSiml dostępny jest na stronie http://www.R-project.org oraz na stronie http://www.ae.jgora.pllkeii/

clusterSim.

Funkcja replication.Mod pakietu clusterSim umożliwia wykorzysta­

nie w analizie replikacji:

- danych metrycznych i niemetrycznych,

- środków ciężkości klas (dla danych metrycznych) lub obiektów reprezen­

tatywnych dla klas (dla danych metrycznych lub niemetrycznych),

- 11 formuł normalizacji wartości zmiennych dla danych metrycznych, 7 miar odległości dla danych ilorazowych, 5 dla danych przedziałowych

i mieszanych, po l dla danych porządkowych i nominalnych wielostanowych i 10 dla danych binarnych,

- 9 metod klasyfikacji.

l Charakterystykę wybranych elementów pakietu autorstwa M. Walesiaka i A. Dudka zawie­

ra artykuł [Walesiak, Dudek 2006].

(3)

Tabela l Analiza replikacji z wykorzystaniem składni funkcji replication.Mod

pakietu c1usterSim

replication.Mod{x, v=Um ll , u=2, centrotypes="centroids" , normalization=NULL, distance=NULL, method="kmeans" , 8=10, fixedAsample=NULL)

danych

v typ danych: metryczne (" r" ilorazowe, "i" ­ przedziałowe, "m"

mieszane), niemetryczne ("0" ­ porządkowe, "n" - nominalne wielostanowe, "b" binarne)

lU liczba klas

centrotypes , IIcentroids" I "medoids l1

formuły normalizacyjne dla danych metrycznych:

dane ilorazowe: "nO" bez normalizacji, "n6" (x/sd), "n7" - (x/range),

"na" - (x/max), "n9" - (x/mean), "nlO" - (x/sum), "nl1" - x/sqrt(SSQ) dane przedziałowe lub mieszane (ilorazowe i przedziałowe): "nO" - bez normalizacji, "nl" - (x-mean)/sd, "n2" - (x-Me)/MAD, "n3" - (x-mean)/

range, "n4" - (x-min)/range, "nS" - (x-mean)/max[abs(x-mean)]

normalization

distance NULL dla metody k-średnich (" kmeans"), Miary odległości dla danych:

Iilorazowych: "dl" - miejska, "d2" - Euklidesa, "d3" - Czebyszewa , (max), "d4" -kwadrat Euklidesa, "dS" -GDMI, "d6" Canberra,"d7"

- Braya-Curtisa;

przedzialowych i mieszanych: "dl", "d2", "d3", "d4", "dS";

porządkowych: "da" -GDM2;

nominalnych wielostanowych: "d9" - Sokala i Michenera;

binarnych: "bl" =Jaccarda; "b2" =Sokala i Michenera; "b3" =Sokala . i Sneatha (1); "b4" = Rogersa i Tanimoto; "bS" =Czekanowskiego; "b6"

=Gowera i Legendre (I); "b7" == Ochiai; "ba" =Sokala i Sneatha (2);

"b9" =Phi Pearsona; "blO" =Gowera i Legendre (2)

method metoda klasyfikacji: k-średnich (" kmeans" - domyślnie), najbliższego sąsiada (" singl e"), najdalszego sąsiada (" compl ete"), średniej grupowej l ("average"), ważonej średniej grupowej ("mcquittY"),medianowej

l("median"), centroidalnej ("centroid"), Warda ("Ward"), k-medoidów i ("pam")

liczba symulacji 8

numery obiektów dobrane losowo do podzbioru A (NULL) lub numery

iobiektów dobrane arbitralnie do podzbioru A

I

fixedAsample

~

Źródło: opracowanie własne.

(4)

••

4. Przykładowe składnie poleceń z wykorzystaniem funkcji replication.Mod pakietu clusterSim

Za pomocą trójwymiarowej zmiennej losowej o rozkładzie normalnym wy­

generowano po 30 obserwacji dla pięciu skupień słabo separowalnych o wy­

dłużonym kształcie. Przyjęto następujące wektory wartości oczekiwanych dla

skupień (4,5; 4,5; 4,5), (-2, 2, -2), (2, -2,2), (O, O, O), (-4,5; -4,5; -4,5) oraz identyczne macierze kowariancji L (ajj = 1, ajl =0,9) (rys. 1).

-6 -4 -2 O 2 4 6

6 4 2

o

-2 --'4 -6

.

..j.1"fi

,.y

..

••

.o:ł-

:.,. q

. ..J

.

1 -< .. * •.,: .. ..

.

i'

...

..y.'

,

,.,.. .,,'*

!I

,:

I"

.,.

.

V2

.

ti'ł

..

"". .

..

,

I'

.~'

.' .~

.. ....

'P'

..

.,

:r

.

.'!..

4" 'r'=· ...:'.

. Aj \\ .

•. • I.

lit. ' I

:.,. ....

"

... ."..,r

...c ..

'Ii

V3

6 4 2 VI O

-2 -4 -6

,.

..ł"

-r

...

.f1-r .

.".. .: ~~ ~

.. . ...

._

:..r

_,e.

łl.! .

'.

J!> 6

:r:I

~'J 42

..#

.~. -2 O

JW-.-.'­

t

-4

:II -6

I

-6 -4 -2 O 2 4 6 -6 -4 -2 O 2 4 6

Rys. l. 150 obserwacji trzech zmiennych w układach dwuwymiarowych

Źródło: opracowanie własne z wykorzystaniem programu R.

Oceny podziału zbioru 150 obiektów na pięć przeprowadzono wykorzystu­

jąc funkcję replication.Mod z pakietu clustersim.

(5)

Przykład l

> 1ibrary(cluster8im)

> x <- read.csv2("C:/dane.csv", header=TRUE,

strip.white=TRUE, row.names=l)

> x <- as.matrix(x)

> options(OutDeC = ",")

> w <- replication.MOd(x, v="i", u=S, centrotypes="centroids", normalization=NULL, distance="dS", rnethod="pam", 8=10, fixedAsample=NULL)

> print(w$cRand)

W wyniku zastosowania tej procedury otrzymuje się:

[1] 0,950652.

Zatem wartość skorygowanego indeksu Randa świadczy o wysokiej stabil­

ności podziału zbioru 150 obiektów na pięć klas.

Zdecydowana większość funkcji programu R zwraca złożone obiekty lub li­

sty zawierające wiele informacji wygenerowanych przez wykonywany algo­

rytm. Funkcja rep1ication.Mod pakietu clusterSim wywołana polece­

niem names (w) zawiera:

A - trójwymiarową tablicę zawierającą macierze danych dla podzbioru obiektów typu A w poszczególnych symulacjach (pierwszy wymiar oznacza numer symulacji, drugi numer obiektu, a trzeci numer zmiennej),

B - trójwymiarową tablicę zawierającą macierze danych dla podzbioru obiektów typu B w poszczególnych symulacjach (pierwszy wymiar oznacza numer symulacji, drugi numer obiektu, a trzeci numer zmiennej),

cE?ntroid - trójwymiarową tablicę zawierającą środki ciężkości u klas dla podzbioru obiektów typu A w każdej symulacji (pierwszy wymiar oznacza nu­

mer symulacji, drugi numer klasy, a trzeci numer zmiennej),

medoid - trójwymiarową tablicę zawierającą obserwacje na obiektach re­

prezentatywnych dla u klas i podzbioru obiektów typu A w każdej symulacji (pierwszy wymiar oznacza numer symulacji, drugi numer klasy, a trzeci numer zmiennej),

clusteringA - dwuwymiarową tablicę zawierającą zaklasyfikowanie obiektów podzbioru A w poszczególnych symulacjach (pierwszy wymiar ozna­

cza numer symulacji, drugi zaś numer obiektu),

clusteringB - dwuwymiarową tablicę zawierającą zaklasyfikowanie obiektów podzbioru B w poszczególnych symulacjach (pierwszy wymiar ozna­

cza numer symulacji, drugi zaś numer obiektu),

c1usteringBB dwuwymiarową tablicę zawierającą zaklasyfikowanie obiektów podzbioru B w poszczególnych symulacjach zgodnie z krokiem 4 procedury (pierwszy wymiar oznacza numer symulacji, drugi zaś numer obiektu),

(6)

cRand - średnią wartość skorygowanego indeksu Randa obliczoną dla S sy­

mulacji.

Wydanie polecenia np. print (w$centroid) spowoduje wypisanie trój­

wymiarowej tablicy zawierającej środki ciężkości u klas dla podzbioru obiek­

tów typu A. Zapisanie środków ciężkości klas w osobnym pliku na dysku, zgodnie z formatem csv, wymaga dodania do składni polecenia:

> write.table«w$centroid), file="C:/w_centroid.csv", sep=;"i", dec=",", col.narnes=FALSE)

5. Podsumowanie

W artykule na podstawie anglojęzycznej literatury przedmiotu zaprezento­

wano procedurę analizy replikacji służącą ocenie wyników klasyfikacji, scha­

rakteryzowano możliwości funkcji replication.Mod pakietu clusterSim

realizującej analizę replikacji, a także zaprezentowano przykładowe składnie poleceń (procedury) pozwalające potencjalnemu użytkownikowi na realizację

analizy replikacji w zagadnieniu klasyfikacji.

Literatura

Breckenridge J.N. [2000], Validating Cluster Analysis: Consistent Replication and Symmetry,

"Multivariate Behavioral Research", 35 (2).

Gordon A.D. [1999], Classification, Chapman and HaIl/CRC, London.

Hubert L., Arabie P. [1985], Comparing Partitions, "Journal of Classification", vol. 2, nr I.

Mclntyre R.M., Blashfield R.K. [1980], A Nearest-centroid Techniquefor Evaluating the Mini­

mum-variance Clustering Procedure, "Multivariate BehavioraI Research", 15 (2).

Milligan G.W. [1996], Clustering Validation: Results and Implicationsfor AppUed Analyses [w:] Clustering and Classijication, red. P. Arabie, LJ. Hubert, G. de Soete, World Scientific, Singapore.

Morey L.C., Blashfield R.K., Skinner H.A. [1983], A Comparison ofCluster Analysis Techniques within a Squential Validation Framework, "Multivariate Behavioral Research", 18 (July).

Walesiak M. [2005], Rekomendacje w zakresie strategii postępowania w procesie klasyfikacji zbioru obiektów [w:] Przestrzenno-czasowe modelowanie i prognozowanie zjawisk gospo­

darczych, red. A. Zeliaś, Wydawnictwo AE w Krakowie, Kraków.

Walesiak M., Dudek A. [2006], Symulacyjna optymalizacja wyboru procedury klasyfikacyjnej dla danego typu danych - oprogramowanie komputerowe i wyniki badań [w:] Klasyfikacja i analiza danych teoria i zastosowania, red. K. Jajuga, M. Walesiak, Taksonomia 13, Pra­

ce Naukowe AE we Wrocławiu, Wrocław, nr 1126.

Cytaty

Powiązane dokumenty

W razie zaistnienia istotnej zmiany okoliczności powodującej, że wykonanie umowy nie leży w interesie publicznym, czego nie można było przewidzieć w

Tabela 4 prezentuje uporządkowanie procedur analizy skupień (miara GDM dla danych porządkowych, 9 metod klasyfikacji, 8 indeksów jakości klasyfikacji) według średnich

His current research interests are in developing and supporting the development of open source software for analysing spatial data, including spatial econometrics;

His current research interests are in developing and supporting the development of open source software for analysing spatial data, including spatial econometrics;

His current research interests are in developing and supporting the development of open source software for analysing spatial data, including spatial econometrics;

Sprawdź ile danych wygenerował protokół rutingu typu wektor odległości. Sprawdź ile danych zostało straconych

W artykule opisano zastosowanie nowej miary zależności opartej na ukrytych modelach Markowa oraz ścieżkach Viterbiego, do badania stopnia korelacji pomiędzy szeregami

Modelowanie numeryczne w odniesieniu do obiektów hydrotechnicznych umożli- wia odzwierciedlenie złożonych warunków gruntowo-wodnych, co pozytywnie wpływa na jakość