• Nie Znaleziono Wyników

Analiza efektywności wybranych metod aglomeracyjnych w zastosowaniu zmodyfikowanej reguły stop

N/A
N/A
Protected

Academic year: 2021

Share "Analiza efektywności wybranych metod aglomeracyjnych w zastosowaniu zmodyfikowanej reguły stop"

Copied!
11
0
0

Pełen tekst

(1)Sabina Denkowska Katedra StatystykI. Analiza efektywności wybranych metod aglomeracyjnych w zastosowaniu zmodyfikowanej reguły stop 1. WprowadzenIe Hierarchiczne metody aglomeracyjne pozwalają na ustalenie hierarchii drzewkowej elementów zbioru n. Na wstępie procedury przyjmuje się, że każdy obiekt stanowi osobną podgrupę. W macierzy odległości wyszukuje się naj mniejszy element spośród leżących poza główną przekątną. W skazuje on, które podgrupy należy połączyć w kolejnym kroku aglomeracji. Tę najmniejszą odległość nazywamy odległością aglomeracyjną. Odległość taka jest "minimalna" w sensie lokalnym, gdyż zazwyczaj jest ona inna przy każdym kolejnym połączeniu. Po połączeniu dwóch wskazanych podgrup należy skorygować macierz odległości. Ubywa z niej jeden wiersz i jedna kolumnatakie, których numer odpowiada większemu indeksowi z dwóch łączonych podgrup. Można to uczynić na wiele sposobów i dlatego istnieją różne wersje hierarchicznych metod aglomeracyjnych. Wśród różnorakich metod taksonomicznych nie ma takiej metody, której przewaga nad innymi byłaby powszechnie akceptowana. Hierarchiczne metody aglomeracyjne zdobyły w literaturze i w zastosowaniach stosunkowo dużą popularność [Blashfield 1980]. Zasady ich działania są łatwe do zrozumienia i intuicyjnie odpowiadają podstawowemu kryterium taksonomii, które mówi, że powinniśmy łączyć w podgl1lpy obiekty podobne (leżące blisko siebie). Do popularności tych metod przyczyniło się również ich stosunkowo dobre oprogramowanie. Efektywność metod taksonomicznych jest najczęściej rozumiana jako zdolność prawidłowego rozpoznania rzeczywistej struktury obiektów w wielowymiarowej przestrzeni klasyfikacji. Ogólnie biorąc, badania efektywności algorytmów taksonomicznych można prowadzić na przykładach empirycznyc\1lub sztucznie wygenerowanych. Jak się wydaje, to drugie podejście jest korzystniejsze, ponie-.

(2) I. Sabina DenkolVska. waż. w stosunkowo latwy sposób można sprawdzić wrażliwość poszczególnych metod na zmiany wyróżnionego czynnika poprzez ustalenie wszystkich pozostałych czynników określających strukturę obiektów na stalym poziomie. Wszechstronne badania efektywności metod taksonomicznych (nie tylko hierarchicznych) przedstawili T. Grabiński i A. Sokolowski [1980; 1984]. Zgodność wyników z zadaną strukturą danych oceniano za pomocą współczynników zaproponowanych przez A. Sokolowskiego [1976] i A. Smoluka [1976]. Na podstawie wskazań tych współczynników można ocenić relatywną efektywność każdej strategii dzieląc średni błąd klasyfikacji najlepszej metody przez błąd danej metody (tę relatywną efektywność można wyrazić w procentach). Z przeprowadzonych badań wynika, że najefektywniejszą metodą jest metoda Wmda. Dobrą efektywność metody Warda potwierdziły badania przedstawione w pracach C.K. Bayne'a i współpracowników (Monte Carlo ... , 1980], R.K. Blashfiełda [1976], F.K. Kuipera i L. Fishera [1975], K.M. Cunninghama i J.C. Ogilvie [1972], P.O. Degensa i H. Federkieła [1978] oraz J.L. du Biena i W.D. Werde' a [1979].. 2. Klasyczne testy te.ty Monte Carlo. Istotności,. testy empiryczne,. Istnieje ok. 30 reguł przerywania aglomeracji (równoznacznego z cięciem dendrogramu) w ceł u otrzymania tzw. podzialu wynikowego . Tylko niektóre z nich usiłują wprowadzić elementy wnioskowania statystycznego. Możliwe są trzy podejścia: zastosowanie klasycznych testów istotności, testów empirycznych oraz testów Monte Carlo. Schemat stosowania tych podejść przedstawiono w pracy S. Denkowskiej i A. Sokołowskiego [1997] (rys. I). Możliwości zastosowania podejścia klasycznego nie zostaly dotychczas wykorzystane, gdyż nie sposób na drodze analitycznej wyprowadzić rozklad prawdopodobieństwa odległości aglomeracyjnej. W testach empirycznych [Sokolowski 1992] wymagane jest przyjęcie założenia o niezależności cech. W pracy S. Denkowskiej i A. Sokolowskiego [1997] zaprezentowano metodę Monte Carlo, która nie wymaga często niepraktycznego zalożenia dotyczącego niezależności cech. W pracy tej autorzy proponują zastosowanie podejścia symulacyjnego Monte Carlo do testowania jednorodności zbioru danych z wykorzystaniem metody Warda. Metoda Warda została zastosowana w metodzie Monte Carlo ze względu na wysoką ~fektywność.. 3. ModyfikacJa symulacyjneJ reguły stop W trakcie dalszych badań nad wykorzystaniem innych aglomeracyjnych metod taksonomicznych do procesu hierarchizacji, analizie poddano następu­ jące metody: metodę najbliższego sąsiedztwa, metodę najdalszego sąsiedztwa, metodę mediany, metodę środków ciężkości oraz metodę średniej grupowej..

(3) Analiza. efekly1Vl1o,~ci. wybranych metod agI01l1eraC)Ullycll,.,. I. Badania te wykazały konieczność modyfikacji zaproponowanej wstępnie symulacyjnej metody zatrzymywania procesu aglomeracji. Przyczyną trudności w bezpośrednim wykorzystaniu powyższych metod jest przeprowadzana każdorazowo w badaniach taksonomicznych standaryzacja zbioru danych. Okazuje się bowiem, że proces standaryzacji deformuje strukturę zbiorowości, powodując bardzo silne "ściśnięcie" elementów w podgrupach z zachowaniem struktury wielogrupowej. W wyniku tego ciqgi odległości aglomeracyjnych otrzymywane w wyniku zastosowania metod hierarchizujących są ciągami bardzo małych liczb w porównaniu z odpowiadającym im ciqgiem wartości krytycznych uzyskanych z założeniem prawd ziwości hipotezy o jednorodności ("jednogrupowości") reprezentowanej przez wielowymiarowy rozkład normaIny. W efekcie nawet łatwo zauważalny skok wartości w ciągu odległości odpowiadający połączeniu dwóch podgrup jest "niewychwytywalny" przez ciąg wartości krytycznych. Problem ten nie występowal przy stosowaniu metody Warda. Rozwiązania poszukiwano przez znalezienie odpowiedniego sposobu przeskałowania ciągu "surowych" wartości empirycznych . Algorytm z)l1odyfikowanej symulacyjnej regul)' stop. W pierwszym kroku z macierzy danych szacuje się macierz kowariancji. Za pomocą generatora łiczb losowych podlegających wielowymiarowemu rozkładowi normalnemu z wyznaczoną macierzą kowariancji generuje s ię co najmniej 1 tys. prób równolicznych z analizowanym zbiorem. Każdą z tych prób hierarchizuje się za pomocą wybranej metody aglomeracyjnej, zapamiętując ciqg odleglości aglomeracyjnych (np. dla 49 obserwacji odległość pierwsza w tym ciągu odpowiada pierwszemu łączeniu podgrup redukującemu liczbę podgrup do 48, druga natomiast odpowiada drugiemu poł'lczeniu redukującemu liczbę podgrup do 47 itd.; ostatnia odłegłość w ciągu to wynik 48. łączenia, którego efektem jest jedna grupa). Proces hierarchizacji powtarzany jest dla każdej z prób, więc każdemu połączeniu odpowiada ciąg odległości aglomeracyjnych, które decydowały o tym właśnie połączeniu w każdej z prób. Każdemu więc połączeniu redukującemu liczbę podgrup przyporządkowujemy odpowiedni kwantyl z tego ciągu odległości aglomeracyjnych. Dodatkowo każdemu poł'lczeniu przyporządkowujemy medianę odległości aglomeracyjnych. Wyznaczone kwantyle tworzą ci~lg wartości krytycznych właściwy dła badancgo zbioru, przy założeniu prawdziwości hipotezy o jednorodności, reprezentowanej przez wielowymiarowy rozkład normalny o macierzy kowariancji oszacowanej ze zbioru danyc\1. Ciąg median jest natomiast wykorzystywany do przeskalowania "surowych" odległości empirycznych (okazuje się bowiem, że pomiędzy odległo­ ściami empirycznymi a ciilgiem median jest silna dodatnia korelacja liniowa). Szacowany jest model regresji liniowej, w którym zmienną objaśniająq stanowią odległości empiryczne, a zmienną objaśnianą ci'lg median. Na podstawie uzyskanego modelu "przesuwane" są aglomeracyjne wartości empiryczne..

(4) ~. 12 10. "c -;;:. 8. "e. 6. o e;,. 4. ~. 2. '8". " E. '". ~. O. 48 46 44 42 40 38 36 34 32 30 28 26 24 22 20 18 16 14 16 14 12 10. 8. 6. 4. 2. O. liczba podgrup. _. wa!1ości. krytyczne. -o-. surowe wartości empiryczne -...- przeskalowane. wartośc i. empiryczne. ~. "'". :::-. ;:;. Rys_ 1_ Przyklad zastosowania metody najdalszego sąsiedztwa w symulacyjnej metodzie stopu (zbiorowość ośmiowymiarowa , cztery podgrupy, rozsunięcie wartości przeciętnych rozkładów od środka układu współrzędnych o 5) Źródło; opracowanie własne.. ~. i:f '<. '"~.

(5) Analiza. efektywności. wybranych metod aglomeracyjnych .... I. Przerwanie procesu aglomeracji następuje w momencie, gdy przeskalowana wartość, decydująca o ewentualnym kolejnym połączeniu, jest większa od odpowiadającej jej wartości krytycznej. Nie ma natomiast podstaw do odrzucenia hipotezy zerowej o jednorodności, jeżeli do kOlka procesu aglomeracji wszystkie "poprawione" odległości aglomeracyjne są nie większe niż odpowiadające im wartości krytyczne. Na rys. 1 zaprezentowano przykładowe oclległości empiryczne i krytyczne uzyskane podczas zastosowania metody najdalszego sąsiedztwa w symulacyjnej metodzie stopu. W tym skonstruowanym przykładzie analizowana była ośmiowymiarowa zbiorowość składająca się z 49 elementów, które były wygenerowane przez 4 rozkłady normalne o wartościach przeciętnych oddalonych od środka układu współrzędnych wzdłuż osi układu (zgodnie ze zwrotami osi) o 5 i odchyleniu standardowym równym l. Generowane podgrupy miały nastę­ pujące liczebności: 12,12,12,13. Położenie "surowych" wartości empirycznych poniżej ciągu wartości krytycznych (mimo że bardzo wyraźny jest przyrost odległości aglomeracyjnych przy połączeniu redukującym czwartą podgrupę), wskazuje na konieczność ich przeskalowania. Po zastosowaniu zmodyfikowanej metody symulacyjnej stopu, ciąg wartości empirycznych nazywany "przeskalowanym" pozwala na właściwe rozpoznanie struktury zbiorowości - czterech grup.. 4. Eksperymenty symulacylne W celu oceny zachowania się proponowanej procedury w warunkach nietestowanej hipotezy (czyli braku jednorodności badanej zbiorowości) przeprowadzono eksperymenty symulacyjne. W przeprowadzonych eksperymentach przyjęto stałą liczbę obserwacji (49). Jako założenie przyjęto równomierne liczebności podgrup. W poszczególnych eksperymentach szacowano prawdopodobieństwa rozpoznania prawdziwej struktury zbiorowości generalnej przez symulacyjną, zmodyfikowaną metodę stopu, w zależności od zastosowanej aglomeracyjnej metody hierarchicznej. Oceniano tylko trafność ustalenia liczby grup, a nie przyporządkowanie poszczególnych obserwacji. Eksperymenty były prowadzone dla następujących metod hierarchicznych: metody najbliższego sąsiedz­ twa, metody najdalszego sąsiedztwa, metody mediany, metody środków cięż­ kości, metody średniej grupowej oraz metody Warda. Założono, że wymiar zbiorowości zmienia się od 5 do lO, natomiast liczba grup - niezależnych rozkładów normalnych o odchyleniu standardowym równymjeden przyjmuje wartości od3 do 8. Wartości przeciętne tych rozkładów odsuwają się od środka układu współrzędnych w sposób omówiony w każdym z eksperymentów. Poszczególne eksperymenty są tak skonstruowane, by speł­ nione były warunki: prawdziwości.

(6) I. Sabil/a DCI/kowska. - odległości wartości przeciętnych grup od środ ka ukladu wspólrzędnych są takie same dla wszystkich podgrup, - odległości między wartościami przec iętnymi rozkladów są takie same, - nie ma cech nie różnicujących podgrup. We wszystkich eksperymentach przyjęto poziom istotności 0,1. Przeprowadzono trzy serie eksperymentów: l) pierwszy eksperyment: - zbiorowość jest S-wymiarowa i sklada się z S niezależnych rozkładów normalnych, - zbiorowość jest 6-wymiarowa i sklada się z 6 niezależnych rozkładów normain ych, - zbiorowość jest 7-wymiarowa i sklada się z 7 niezależnych rozkładów normalnych, - zbiorowość jest 8-wymiarowa i sklada się z 8 niezależnych rozkładów normalnych . W eksperymencie tym wartości przeciętne rozkladów oddalone są od środka układu współrzędnych wzdluż osi ukladu (zgodnie ze zwrotami osi) o a. Testuje s ię w nim rozsunięcia rozkładów od środka a = 3,5 oraz a = 5, natomiast odległości między wartościami przeciętnymi rozkładów wynoszą a --12; 2) drugi eksperyment: - zbiorowość jest 6-wymiarowa i składa s ię z 3 niezależnych normalnych, których wartości przeciętne mają współrzędne:. rozkładów. (a, O, O, a, O, O), (O, a, O, O, (I, O), (O, O, a, O, O, a),. - zbiorowość jest 8-wymiarowa i sklada się z 4 niezależnych normalnych, których wartości przeciętne mają wspólrzędne:. rozkładów. (a, O, O, O, a, O, O, O) , (O, a, O, O, O, a , O, O) , (O, O, (I, O, O, O,a, O), (O, O, O, a, O, 0 ,0, a),. - zbiorowość jest lO-wymiarowa i sklada się z 5 niezależnych rozkładów normalnych, których wartości przeciętne majl} współrzędne: ((I, O, O, O, O, (I, O, O, O, O),. (O, a, O, O, O, O, (/, O, O, O),. (O, O, (I, O, O, O, O, a, O, O), (O, O, O, (I, O, O, O, O, a, O), (O, O, O, O, CI, O, O, O, O, a). W eksperymencie tym rozpatrywane są następujące wartości CI: a = 2,5; a = Odległości wartości przeciętnych podgrup od środka ukladu. = 3,5; a = 5..

(7) Analiza efektywllo,(-ci wybranych metod aglomeracyjnych .... współrzędnych wynoszą ciętnymi podgrup 2a;. I. afi, natomiast odległości między wartościami prze-. 3) trzeci eksperyment: zbiorowość jest 9-wymiarowa i składa się z 3 niezanormalnych, których wartości przeciętne mają wspólrzędne:. leżnych rozkładów. (a, O, O, a, O, O, a, O, O),. (O, a, O, O, a, O, O, a, O), (O,O,a,O,O,a,O,O,a). W eksperymencie 3 rozpatrywane. są następujące wartości. a: a =2; a =3,5;. a = 5. Odległości wartości przeciętnych podgrup od środka układu współrzęd nych wynoszą natomiast odległości między wartościami przeciętnymi. aE,. rozkładów. a-Y6.. Wyniki eksperymentów są przedstawione w tabelach 1-3. Mimo że symulacje były prowadzone na komputerze PC z procesorem 486DX z zegarem IDO MHz, obliczenia trwały bardzo dlugo. W zwii)zku z tym niekiedy rezygnowano z prowadzenia pełnych badm\ symulacyjnych w sytuacjach, dla których wstępne rozpoznawcze symulacje dawały prawdopodobieJ\stwa właściwego rozpoznania struktury zbiorowości bliskie zeru. Stąd też puste miejsca w tabelach. W powyższych eksperymentach postawiono hipotezę zerową, w której zało­ żono, że próba została wygenerowana przez jednorodną zbiorowość i nie powinna być dzielona. Sprawdzano jak często poszczególne metody odgadują prawdziwą strukturę populacji i jak ta trafność zmienia się wraz z oddaleniem się podgrup od środka układu współrzędnych oraz w miarę wzrostu liczby cech opisujących badaną populację.. We wszystkich przeprowadzonych eksperymentach najlepsze wyniki osią­ gnięto za pomocą metody Warda. Za nią znajduje się metoda najdalszego sąsiedztwa, a nieznacznie gorsza jest metoda średniej grupowej. Najgorsze wyniki uzyskano z wykorzystaniem metody najbliższego sąsiedztwa oraz metody medianowej . Wydaje się, że dla tych metod proponowane przeskalowanie jest niewystarczające. Może funkcję regresji służącą do przeskalowania wartości empirycznych należałoby szacować biorąc pod uwagę nie ciąg median, ale ciąg kwantyli wyższego rzędu. Wstępne symulacje prowadzone dla potwierdzenia tej tezy nie dały dobrych rezultatów, a przeprowadzenie dokład­ niejszych badat\ jest niestety czasochłonne. W pierwszym eksperymencie rozpatrywano dwa przypadki. Pierwszy, gdy odleglości między grupami wynoszą prawie 5 odchylel\ standardowych (dla a = 3,5), oraz drugi, gdy odległości między wartościami przeciętnymi rozkła­ dów wynoszą 7 odchyler\ standardowych (dla a = 5). Rezultaty przedstawiono w tabeli l. Oczywiście, rozpoznanie właściwej struktury populacji przez wszystkie badane metody poprawia się wraz z oddalaniem się podgrup od siebie. Warto zauważyć, że ze wzrostem liczby cech i odpowiednio liczby grup (zwłaszcza.

(8) I. Sabina DenkolVska. jest to widoczne, gdy odległości między grupami bieństwa rozpoznania systematycznie maleją.. wynoszą. 5) prawdopodo-. Tabela I . Wyniki pierwszego eksperymentu Wyszczególnienie. Metoda najbliższego sąsiedztwa Metoda najdalszego sąsicdztwa Metoda mediany Metoda srodków dei-. :> cech, 5 glUp a;::: 3,5. (f. == 5,0. 6 cech, 6 glllp. = 3,5. (I. 0,97. 7 cech, 7 grup. 0,57. 0,25. 8 cech, 8 grup. =5,0 a;::: 3,5 a = 5,0 a = 3,5 a = 5,0 0,14. 0,13 0,57. a. 1,00. 0,02 0,45. 0,96. 0,D2 0,30. 1,00. 0,22. 0,19. 0 ,12. 0,52. 0,21. 0,D2. 0,92. 0,02. 0,71. nej. 0,56. 1,00. 0,47. 1,00. 0,34. 0,99. 0,20. 0,99. Metoda Ward a. 0,95. 1,00. 0,96. 1,00. 0,89. 1,00. 0,85. 1,00. kości. Metoda. średniej ważo-. Źródło : obliczenia własne,. Tabela 2. Wy niki drugiego eksperymentu WyszczcgólnicIlic. 6 cech, 3 grupy. 8 cech, 4 grupy. (/;::: 2,5 a = 3,5 a= 5,0 a= 2,5 a;::: 3,5 a =5,0. 10 cech , 5 grup. n = 2,5 a =3,5 a = 5,0. Metoda najbliższego są-. 0,46. sicdztwa Metoda najdalszego sąsiedztwu Metoda modiany Metoda środków. 0,2 1. ciężko -. Metoda. 0,90. 0,15. 0,97. 0,44. 0,99. 0,90. 0 ,98. 1,00. 0,72. 0,34. 0,63. 0,90. 1,00. 0,08. 0,40. 1,00. 0,02. 0,10. 1,00. 0,16. 0,96. 1,00. 0,09. 0,95. 1,00. 0,97. 1,00. 1,00. 0,94. 1.00. 1,00. śred-. ważon ej. Metoda Warda. 0,25. 0,06. ści. niej. 0,82. 0,73. 0,77. Żród lo: obliczenia własne.. W drugim ekspery mencie pod uwagę były brane n astępujące odległośc i grupami: 5 (a =2,5),7 (a =3,5),10 (a =5). Wyniki symulacji podano w tabeli 2. Wyniki te nie zaskakuj ą, lecz potwierdzają wcześniejsze spostrzeżeni a dotyczące e feklyw ności metod aglomeracyjnych. Ciekawy jest jednak między.

(9) Analiza. efektywności. I. wybranych metod aglollleracyjnych .... fakt nieco gorszych rozpoznaIl w przypadku populacji 6-wymiarowej składa­ z trzech grup. Eksperyment trzeci (tabela 3) był prowadzony dła trzech wartości parametru a: a = 2, odległości podgrup od początku układu współrzędnych wynoszą 3,5, a dła odległości między grupami prawie 5; a = 3,5, odległości od środka układu wynoszą 6,1 , a odległości między grupami 8,6; a = 5, odłegłości od początku układu współrzędnych wynoszą 8,7, a odległości między grupami 12,25.. jącej się. Tabeła. 3. Wyniki trzeciego eksperymentu Wyszczególnienie. Metoda najbliższego sąsiedztwa Metoda najdnlszego sąsiedztwa Metoda mediany Metoda środków ciężkoŚci Metoda średniej ważonej Metoda Warda Zródło:. 9 cech, 3 gl11py a=2,0. a = 3,5 0,36. 0,84. li. = 5,0 0,93. O,4t. 0,9&. 0,65 0,93. 0,99. 1,00. obliczenia własne.. W eksperymencie tym jedynie metoda Warda daje satysfakcjonujące wyniki przy oddaleniu podgrup o 5 odchyleń standardowych. Pozo stale metody zwięk­ szają prawdopodobieństwo właściwego rozpoznania struktury populacji dopiero wówczas, gdy podgrupy są znacznie oddalone od siebie.. 5. PodsumowanIe Cełem badań była analiza efektywności wybranych metod aglomeracyjnych w zastosowaniu zmodyfikowanej reguły stop przy zrównoważonych rozkła­ dach liczebności. Badania potwierdziły dobrą efektywność metody Warda,jak również metod: najdalszego sąsiedztwa i średniej grupowej. Zgodnie z oczekiwaniami najgorsze wyniki osiągnęły: metoda najbliższego sąsiedztwa i metoda medianowa . Badania te nie przyniosły natomiast odpowiedzi na pytanie czy, i ewentuał­ nie jak, zmienia się rozpoznanie prawdziwej struktury zbiorowości w załeżno­ ści od wymiaru popułacji. Odpowiedź na to pytanie wymaga dodatkowych badm\ symulacyjnych. Zauważmy, że na wstępie założono łiczebność populacji 49 i równomierny podzial49 elementów do podgrup. Założenie to spowodowało, że w załeżności od liczby podgrup ich liczebności zmieniały się w poszczegółnych eksperymentach od 6-7 nawet do ł6-17 elementów. Może do dałszych badań należałoby przyjąć stałą liczebność podgrup we wszystkich eks]1erymcntach..

(10) I. Sabilla De/lkowsko. Literatura B1ashfield R.K.lI976], Mixlllre Mode/ Tesls ofClusler Allalysis: Accuracy of FOllr Agglomerative llierarchical Me/hods, "Psychological Bulletin", nr 83. B1ashfield R.K. [1980], The Growth ofCI/lster Analysis: TrYO/l, Warci and Johnson, "Multivariate Behavioural Research", nr 15. Cunningham K,M., Ogilvie J.C. [1972], Evaluatioll oj J-lierarchical Grouping Techniques: A Pre/iwinary SIl/dy, "Computer Journal", nr 15, Degens P.O., Federkiel H. [1978J, A MOllle Carlo SIlId)' 01/" Agg/omeralive Large Samp/e Clustering, Compstat 3, Physica Verlag, Wien. Dellkowska S" Sokołowski A. [1997], Wykorzystanie metod symulacyjnych waglomeracyjnych metodach hierarchicznych, XXXIII Konferencja Naukowa Ekonometryków, Statystyków i Matematyków Akademii Ekonomicznych Polski Południowej, Szklarska Poręba.. 011 Bien J .L., Werde W D. [1979], A Mathematical COl1lpariSOIl of tllC Members oj cm lIifillite Fal1lily oj Agglomerative Clustering Algoritll1lls, "Canadian JOllrnal of Statistics", nr 7. Grabiliski T., Sokalowski A. [1980], Tile EJfeclivelless of Some Sigllalldelllyficatioll Procedures [w:] Signal Processing: Theories and Applicatiolls, M. Kunt, F. de Coulon (eds), North-]-lolland Publ., Eurasip, Amsterdam. Grabiliski T., Sokołowski A. [1984], Z badmi nad efektywnością wybranych procedur tak· sonomicznych, Zeszyty Naukowe AE w Krakowie, Kraków, nr 181. Grabitiski T., WydyJ1luS S., Zeliaś A. [1989]. Metody taksollolIIii IHfmerycZllcj w modelowaniu zjawisk społeczno-gospodarczych, pod red. A. Zeliasia, PWN, Warszawa. Kucharczyk 1. [1982], A/gorylm)' a"a/iz)' skupieli IV języku Algol 60, PWN, Warszawa. Kuiper F.K., Fisher L. [1975], A MonIe Carlo Comparisoll of Six CllIsterillg Procedures, "Biometrics". nr 31. Metody laksollomh.·Z/lc w badaniach spolcczno-ekollomicznych [1988], J. Pociecha, B. Podolec, A. Sokolowski, K. Zając, PWN, Warszawa. Mollte Carlo COII/parisoll of Selected Clusteriug Procedures [1980]. e,K. Bayne, J.J. Beauchamp. C.L. Begovich, V .E. Kane, "Pattem Recognition", nr 12. Nowak E. [1990], Metody taksonomiczne w klasyfikacji obiektów spolecZ1lo~ekollo11licz­ llych, PWE, Warszawa. Smohlk A. (1976], Uwagi () dyskryminacji HI zwartych przestrzeniach metrycznych, "Przegląd Statystyczny", nr 23. Sokołowski A., H/ERA - Hierarchiczne metody taksonomiczne, maszynopis. Sokołowski A. [19761. Metoda porówllywania wyników podziałll zbioru SkOl!czollego, XII Konferencja Naukowa Ekonometryków, Slatystyków i Matematyków Akademii Ekonomicznych Polski Południowej, Karpacz. Sokołowski A. [1992], Empiryczne testy istotllo,fci w taksol/omii, AE w Krakowie, Seria specjalna: Monografie, Kraków. Zieliliski R. [1979], Gelleralory liczb losow)'ch, WNT, Warszawa 1979.. Analysis of the Effectlveness of Selecled Agglomeration Methods in the Application of a Modifled Stopping Rule There are approximately 30 existing rules for establishing cut·off points in agglomcratiolls (cquivalent to clIlting in a dendagram) with the aim or obtaining groups. Only some af these rules try to introcluce elcments aimed at dl'Hwing slalistical cOllclusions..

(11) Analiza efektywllo.\:ci wybranych metod aglom,eracyjnych .... I. Three sllch approaches are possible: the application of classical significance tests, empirical tests, and Monte Carlo tests. The possibilities of lIsing the classical approach have not so far been exploited, for there is no way, from (In analytical point of view, to dcrive the underlying probability distribution. In this study, lhe author proposes a modified simulation methocl for establishing cut-off points in the agglomeration process. One !'eason for the difficulties fll'ising from a dircct application of the above rnethods is the need lo standardise data sets in each casc in taxonometric research. For it turns out that the standardisation process deforms the collective strllcture resulting in very high "pressure" on the elements of sub-groups when Jllulti-group slructures arc maintained. As a rcsult, scquences of agglomeration intcrvals maintained with the use of hierarchisalion mcthods are scquences involving very smali numbers in comparisoll wilh 11 sequcnce af critical values corresponding to them and obtained when assuming the authenticity or the hypothesis regarcling the homogcneity ("single-grollp homogeneity") af a normal, multiclimensional distributiol1. In effect, evcn a lenp in value which is easily obscrvable with (he naked cyc in the course of an interval corresponding to the connection of two sub-groups is "intallgible" via a sequence of critical vnlues. This problem did nol appeal" when the Ward method was llsed. The author seeks solutions by filldillg an appropriate metłlOd to reseale the sequenee of "mw" empirical values..

(12)

Cytaty

Powiązane dokumenty

danego roku opłacić za następny rok składkę tylko za obowiązkowe ubezpieczenie następstw nieszczęśliwych wypad­ ków i odpowiedzialności cywilnej (§ 5 ust.

Celem pracy jest przedstawienie wybranych gatunków zwierząt trujących i jadowitych, należących do bezkręgowców, groźnych dla zdrowia lub życia człowieka.. Opis

Wizualizacja i analiza ilościowa danych obszarowych odbywa się zazwyczaj za pomocą tech- nik eksploracyjnej analizy danych przestrzennych (ESDA − Exploratory Spatial Data

Podsumowując należy dodać, że sukces Podkarpacia w rozwoju branży IT wynika w pewnej mierze także ze sprzyjającej atmosfery i nastawienia władz lokalnych promujących

Głównym celem jest analiza w twórczości Słowackiego dram aturgicznej „poezji dziejów”, śledzenie ewolucji jego dram atopisarstw a historycz­ nego, nie zaś

If the popularity of the Farr 40 during its first 10 years is any guide then the innovative new 'Fast 40' class in the U K has a decent shot at success. Around 150 Farr 40s

W skład redakcji wchodzili: Tadeusz Kolski, W itold Żarski, Stefan K rzywoszew ski, Marian Grzegorczyk, Leon Brzeski i Jan Mosiński.. Szaroty redaktorem

obszary należące do skupienia cechują się najniższymi wartościami OADR_08 i DENS_08 oraz wysokimi wartościami AVCBD_10_00.. Źródło: [Baron i in.,