• Nie Znaleziono Wyników

Wybrane zagadnienia metod analizy skupień

i empirycznej weryfikacji syntetycznego miernika

5.3. Wybrane zagadnienia metod analizy skupień

m j j j j w 1 2   , (5.17) 1 ... 1 2 1 1 2 2 2 2 2 1 2

m j j m j m i j m j w w     . (5.18)

Zamiana wag nie ma znaczenia dla samego wyniku porządkowania, gdyż zachowane zostają wszelkie proporcje między wagami, a kolejność obiektów w rankingu nie ulega zmianie.

Ideę metody oceny poprawności wyniku porządkowania obiektów za pomocą wariancji kierunkowej można wyjaśnić następująco [Kolenda 2006, s. 137–140; Mikulec 2008, s. 35]:

 Poprzez wyznaczenie wektora jednostkowego wag w (5.17), określającego nachylenie j

prostej, metoda sprowadza się do wyboru prostej rzutowania obiektów, dla której suma odległości rzutów ortogonalnych o wszystkich obiektów i o na tę prostą będzie najmniejsza. Przypadek ten i

pozwala wyjaśnić największą część wariancji wspólnej pomiędzy cechami opisującymi porządkowane obiekty.

 Wraz ze wzrostem dopasowania szukanej prostej do obiektów o , suma odległości rzutów i o i

obiektów o od początku układu współrzędnych (suma i

i

 ) będzie dążyła do sumy odległości wszystkich badanych obiektów o od początku układu współrzędnych, która jest odległością i

maksymalną tych obiektów i stanowi jednoznaczną charakterystykę danego zbioru uporządkowanych obiektów.

 Jeśli zatem suma wartości

i

 obliczona na podstawie unormowanych wartości poszczególnych zmiennych z dąży do maksimum, to również uśredniona suma kwadratów ij s2

 

M ,

(5 18)

Zamiana wag nie ma znaczenia dla samego wyniku porządkowania, gdyż za-chowane zostają wszelkie proporcje między wagami, a kolejność obiektów w ran-kingu nie ulega zmianie

Ideę metody oceny poprawności wyniku porządkowania obiektów za pomocą wariancji kierunkowej można wyjaśnić następująco [Kolenda 2006, s 137–140; Mikulec 2008, s 35]:

Poprzez wyznaczenie wektora jednostkowego wag wj (5 17), określa-jącego nachylenie prostej, metoda sprowadza się do wyboru prostej rzutowa-nia obiektów, dla której suma odległości rzutów ortogonalnych oi′ wszystkich obiektów oi na tę prostą będzie najmniejsza Przypadek ten pozwala wyjaśnić

największą część wariancji wspólnej pomiędzy cechami opisującymi porządko-wane obiekty

Wraz ze wzrostem dopasowania szukanej prostej do obiektów oi, suma odległości rzutów oi′ obiektów oi od początku układu współrzędnych (suma μi*) będzie dążyła do sumy odległości wszystkich badanych obiektów oi od początku układu współrzędnych, która jest odległością maksymalną tych obiektów i sta-nowi jednoznaczną charakterystykę danego zbioru uporządkowanych obiektów

Jeśli zatem suma wartości μi* obliczona na podstawie unormowanych war-tości poszczególnych zmiennych zij dąży do maksimum, to również uśredniona suma kwadratów s2(M*), tj wariancja kierunkowa zmiennej syntetycznej zapisa-na wzorem (5 14) przy warunku _μ* = 0 dąży do maksimum i stanowi jednoznaczne kryterium wyboru najlepszego uporządkowania obiektów Powyższe rozważania pozostają zasadne także w przypadku porządkowania liniowego obiektów opisa-nych m wielowymiarowym zestawem cech diagnostyczopisa-nych (m > 2)

Finalnym krokiem analizy jest wyznaczenie korelacji wskaźników diagno-stycznych ze zmienną syntetyczną, interpretacja wyników porządkowania linio-wego obiektów oraz ich prezentacja graficzna

5.3. Wybrane zagadnienia metod analizy skupień

Analiza skupień w intuicyjnym rozumieniu oznacza zarówno czynność gru-powania, jak i metody analizy zbioru obiektów Z reguły ma na celu określenie rozłącznych podzbiorów zbioru obiektów, wewnątrz których są one w jakimś sen-sie bliskie, natomiast różne podzbiory są od sen-siebie, w porównaniu z obiektami we-wnątrz każdego z nich, odległe [Koronacki, Ćwik 2005, s 263] Zagadnienie gru-powania obiektów można rozpatrywać w ujęciu statycznym, tj w jednym punkcie

czasowym (krótkim przedziale czasowym) lub w ujęciu dynamicznym w kilku punktach czasowych, tj porównywać zmiany przynależności obiektów do grup

Ogólny schemat metody analizy skupień w ujęciu statycznym i dynamicz-nym można opisać za pomocą ośmiu następujących po sobie etapów19:

1 Wybór jednostek do analizy skupień – podejście opisowe lub stochastycz-ne (próba losowa pobrana z populacji); selekcja – wybór istotnych wskaźników diagnostycznych, pozwalających na grupowanie obiektów, ważenie wskaźników diagnostycznych przyjętych do analizy Budowa bazy danych

2 Wizualizacja obiektów (lub wskaźników diagnostycznych) oraz macierzy odległości

3 Nadanie wag i normalizacja wskaźników diagnostycznych – wybór procedur ich ważenia i normalizacji lub podjęcie decyzji o braku niniejszego etapu analizy

4 Wybór miary niepodobieństwa, odległości między obiektami lub miary podobieństwa obiektów – miar sąsiedztwa

5 Wybór metod analizy skupień właściwych dla danego zagadnienia, zdefi-niowanie skupienia – poszczególne metody mają zdolność wyszukiwania skupień o właściwej dla danej metody strukturze

6 Wstępne ustalenie liczby poszukiwanych klas

7 Klasyfikacja obiektów – właściwy etap analizy skupień:

ocena wyniku pod względem liczby wyodrębnionych klas,

porównywanie parami wyników uzyskanych różnymi metodami analizy,

testowanie, replikacja (powtórzenie analizy),

ocena jakości wyniku grupowania,

interpretacja, opis wyniku grupowania (skupień) 8 Analiza zgodności wyników grupowania w czasie

Tematyka analizy skupień, ze względu na jej wieloetapowość, jest bardzo ob-szerna, dlatego też w niniejszym rozdziale dokonano krótkiego przeglądu metod w ra-mach powyższego schematu sygnalizując jedynie niektóre zagadnienia i dokonując wyboru metod, które będą stosowane w dalszej części pracy, poświęconej empirycz-nej analizie innowacyjności przedsiębiorstw przemysłu spożywczego w Polsce

Zagadnienie wyboru jednostek do analizy nie stanowi w prowadzonej

ana-lizie – innowacyjności przedsiębiorstw przemysłu spożywczego – problemu, gdyż ma ona charakter opisowy „Wybór” klas analizowanych przedsiębiorstw wynika z Polskiej Klasyfikacji Działalności (PKD 2004), a wybór okresu przyjętego do analizy z dostępności porównywalnych danych statystycznych z tego zakresu

Tak jak w przypadku metod porządkowania liniowego obiektów, tak i w przy-padku metody analizy skupień trudno jest wskazać „najlepsze” metody doboru

wskaźników diagnostycznych (lub zmiennych) Warto jednak zwrócić uwagę,

że obydwie wspomniane metody analizy wielowymiarowej wymagają takiego

19  Opracowanie własne na podstawie: [Milligan, Cooper 1987, s 329–331]; [Gordon 1999, s 6–10]

173

Ocena innowacyjności w branżach przemysłu spożywczego

doboru wskaźników (zmiennych), aby były one między sobą jak najsłabiej sko-relowane, przy czym brak jest w tego typu analizie zmiennej zależnej Na pod-stawie literatury przedmiotu można stwierdzić, iż raczej nie zaleca się stosowania metody głównych składowych (PCA), gdyż może powodować utratę struktury klas lub hierarchicznej struktury drzewa Z definicji wynika, że powinna ona być stosowana do transformacji, a nie redukcji wymiaru przestrzeni (analizy) w prze-strzeń o mniejszym wymiarze Proponowane są natomiast metody bazujące na ocenie zdolności cech do różnicowania zbioru obiektów lub na bezpośrednim doborze zmiennych do analizy w oparciu o ich skorelowanie [Milligan 1996, s 347–348] Jedną z najnowszych metod doboru wskaźników (lub zmiennych) opracowaną typowo na potrzeby analizy skupień jest heurystyczna procedura do-boru zmiennych HINoV (Heuristic Identification of Noisy Variables) powiązana z metodą k-średnich i skorygowanym indeksem Randa [Steinley, Brusco 2008, s 846–850], przy czym można ją zaadoptować na potrzeby innych metod anali-zy skupień, np aglomeracyjnych Podstawową jej wadą jest konieczność, już na wstępie, określenia (przyjęcia) liczby poszukiwanych skupień, co nie zawsze jest zadaniem prostym Przyjmijmy zatem, że na potrzeby analizy skupień innowa-cyjności przedsiębiorstw przemysłowych wykorzystana zostanie ta sama metoda doboru zmiennych, co w przypadku porządkowania liniowego obiektów, a więc zmodyfikowana metoda odwróconej macierzy korelacji (zob rozdz 5 2)

Etap graficznej prezentacji danych ma za zadanie określić (przyjąć) liczbę poszukiwanych skupień, odkryć ich strukturę, a w szczególności pomóc w wybo-rze właściwych algorytmów grupowania biorąc pod uwagę ich własności Metody graficzne mogą być także wykorzystywane we wcześniejszym, wstępnym etapie analizy, tzn doboru i redukcji zmiennych do analizy skupień, np wykres pudeł-kowy (ramka–wąsy)

Kolejny krok w schemacie analizy skupień – wybór procedur ważenia

i normalizacji wskaźników diagnostycznych lub podjęcie decyzji o braku

wa-żenia i normalizacji budzi kontrowersje zarówno w kontekście samego wawa-żenia i normalizacji zmiennych, jak i w kontekście ich zasadności w analizie skupień

W zakresie ważenia wskaźników diagnostycznych obiektywne wydaje się podejście równego traktowania wszystkich wskaźników (zmiennych) przyję-tych do analizy skupień w szczególności, gdy nie są znane nietrywialnie sposoby ważenia zmiennych, lub brak mocnych argumentów za stosowaniem prostych, powszechnie znanych metod Mocnego argumentu przemawiającego za niesto-sowaniem ważenia wskaźników diagnostycznych na potrzeby analizy skupień dostarczyli Gnanadesikan i in (1995), którzy przeanalizowali dziewięć różnych procedur ważenia zmiennych i wykazali, że: po pierwsze, najlepsze, tj dające naj-mniejszy błąd niezgodnych klasyfikacji, są metody oparte na wewnętrznej zmienno-ści wskaźników diagnostycznych (lub zmiennych) w wyodrębnionych skupieniach W praktyce jednak zastosowanie tych procedur ważenia jest niemożliwe, gdyż z reguły nie jest znana struktura skupień, a jej wykrycie jest celem samej analizy

skupień Ponadto, tego rodzaju system ważenia wymagałby skonstruowania skom-plikowanego iteracyjnego schematu analizy [Gnanadesikan i in 1995, s 116–125] Jeśli zaś chodzi o normalizację wskaźników diagnostycznych to już w pra-cy Cormacka z 1971 r [Cormack 1971, s 325] podjęto ten problem i wyjaśniono, że: z reguły nie jest zasadna standaryzacja zmiennych w analizie skupień, celem wyeliminowania różnic w skalach pomiaru cech, gdyż różnice pomiędzy cecha-mi mogą wynikać z ich naturalnych własności; ponadto dowiedziono, że system wag odwrotnie proporcjonalnych do całkowitej zmienności cech – standaryza-cja zmiennych przez ich całkowite odchylenie – jest nieefektywny, a wręcz nie-wskazany, gdyż utrudnia rozróżnianie grup obiektów podobnych Także Milligan [Milligan 1996, s 352–354] wskazuje na błędne przekonanie wielu badaczy, iż: fakt występowania znacznej różnicy zmienności cech w analizie skupień jest pod-stawą do przeprowadzenia standaryzacji zmiennych; cechy o dużej zmienności będą miały nadmierny (przesadny) wpływ na wyniki prowadzonej analizy sku-pień Autor podkreśla, że normalizacja zmiennych jest sprawą indywidualną, a nie rutynowym przekształceniem jak również, że nieuzasadnione jest twierdzenie, że standaryzacja może utrudnić lub ukryć strukturę skupień występujących w da-nych, jeśli taka istnieje

Przechodząc do właściwych zagadnień samej analizy skupień podstawową sprawą jest wybór miary sąsiedztwa, wśród których wyróżnia się miary niepo-dobieństwa – odległości między obiektami i poniepo-dobieństwa – bliskości obiektów Z reguły miary odległości wykorzystuje się w analizie skupień dotyczącej obiek-tów, a miary bliskości w analizie skupień dotyczącej wskaźników diagnostycz-nych (w charakterze metody doboru wskaźników diagnostyczdiagnostycz-nych) I chociaż w literaturze znanych jest wiele miar odległości20 to ze względu na fakt, iż zasto-sowanie określonej miary odległości zależy m in : od skal pomiaru wskaźników diagnostycznych (zmiennych) przyjętych do analizy i ewentualnej ich normaliza-cji oraz od własności miary odległości, interpretanormaliza-cji, wybór miary sąsiedztwa jest stosunkowo prosty W praktyce, ze względu na najlepiej rozpoznane własności i użyteczną interpretację geometryczną, powszechnie wykorzystywaną w analizie skupień miarą odległości d(i, s) jest odległość euklidesowa (metryka) lub

kwa-drat odległości euklidesowej:

182 zmienności będą miały nadmierny (przesadny) wpływ na wyniki prowadzonej analizy skupień. Autor podkreśla, że normalizacja zmiennych jest sprawą indywidualną, a nie rutynowym przekształceniem jak również, że nieuzasadnione jest twierdzenie, że standaryzacja może utrudnić lub ukryć strukturę skupień występujących w danych, jeśli taka istnieje.

Przechodząc do właściwych zagadnień samej analizy skupień podstawową sprawą jest

wybór miary sąsiedztwa, wśród których wyróżnia się miary niepodobieństwa – odległości między

obiektami i podobieństwa – bliskości obiektów. Z reguły miary odległości wykorzystuje się w analizie skupień dotyczącej obiektów, a miary bliskości w analizie skupień dotyczącej wskaźników diagnostycznych (w charakterze metody doboru wskaźników diagnostycznych). I chociaż w literaturze znanych jest wiele miar odległości20 to ze względu na fakt, iż zastosowanie określonej miary odległości zależy m.in.: od skal pomiaru wskaźników diagnostycznych (zmiennych) przyjętych do analizy i ewentualnej ich normalizacji oraz od własności miary odległości, interpretacji, wybór miary sąsiedztwa jest stosunkowo prosty. W praktyce, ze względu na najlepiej rozpoznane własności i użyteczną interpretację geometryczną, powszechnie wykorzystywaną w analizie skupień miarą odległości d , jest odległość euklidesowa (metryka) lub kwadrat

 

i s odległości euklidesowej:

   

  m j ij sj x x s i d 1 2 , , (5.19)

   

  m j ij sj x x s i d 1 2 , , (5.20) gdzie:  n liczba obiektów

i, s 1,...,n

,  m liczba cech

j1,...,m

,  sj ij x x , wartości cechy j x dla obiektów si, .

Kolejny krok to wybór metody analizy skupień właściwej dla danego zagadnienia oraz zdefiniowanie skupienia w przedmiotowej analizie – poszczególne grupy metod mają zdolność wyszukiwania skupień o właściwej dla tych metod strukturze. Wybór ten ma duże znaczenie, gdyż warunkuje stosowanie procedur liczeniowych na innych (dalszych) etapach analizy. Na potrzeby analiz społeczno-ekonomicznych wykorzystuje się metody aglomeracyjne, bądź podziałowe. O ile

20 Minkowskiego (miejska, euklidesowa), Czebyszewa, Canberra, Braya-Curtisa, uogólniona miara odległości GDM, Mahalanobisa [Everitt i in. 2001, s. 40]; [Walesiak 2006, s. 36–41]; [Kolenda 2006, 48, 53–55].

(5 19)

182 zmienności będą miały nadmierny (przesadny) wpływ na wyniki prowadzonej analizy skupień. Autor podkreśla, że normalizacja zmiennych jest sprawą indywidualną, a nie rutynowym przekształceniem jak również, że nieuzasadnione jest twierdzenie, że standaryzacja może utrudnić lub ukryć strukturę skupień występujących w danych, jeśli taka istnieje.

Przechodząc do właściwych zagadnień samej analizy skupień podstawową sprawą jest

wybór miary sąsiedztwa, wśród których wyróżnia się miary niepodobieństwa – odległości między

obiektami i podobieństwa – bliskości obiektów. Z reguły miary odległości wykorzystuje się w analizie skupień dotyczącej obiektów, a miary bliskości w analizie skupień dotyczącej wskaźników diagnostycznych (w charakterze metody doboru wskaźników diagnostycznych). I chociaż w literaturze znanych jest wiele miar odległości20 to ze względu na fakt, iż zastosowanie określonej miary odległości zależy m.in.: od skal pomiaru wskaźników diagnostycznych (zmiennych) przyjętych do analizy i ewentualnej ich normalizacji oraz od własności miary odległości, interpretacji, wybór miary sąsiedztwa jest stosunkowo prosty. W praktyce, ze względu na najlepiej rozpoznane własności i użyteczną interpretację geometryczną, powszechnie wykorzystywaną w analizie skupień miarą odległości d , jest odległość euklidesowa (metryka) lub kwadrat

 

i s odległości euklidesowej:

   

  m j ij sj x x s i d 1 2 , , (5.19)

   

  m j ij sj x x s i d 1 2 , , (5.20) gdzie:  n liczba obiektów

i, s 1,...,n

,  m liczba cech

j1,...,m

,  sj ij x x , wartości cechy j x dla obiektów si, .

Kolejny krok to wybór metody analizy skupień właściwej dla danego zagadnienia oraz zdefiniowanie skupienia w przedmiotowej analizie – poszczególne grupy metod mają zdolność wyszukiwania skupień o właściwej dla tych metod strukturze. Wybór ten ma duże znaczenie, gdyż warunkuje stosowanie procedur liczeniowych na innych (dalszych) etapach analizy. Na potrzeby analiz społeczno-ekonomicznych wykorzystuje się metody aglomeracyjne, bądź podziałowe. O ile

20 Minkowskiego (miejska, euklidesowa), Czebyszewa, Canberra, Braya-Curtisa, uogólniona miara odległości GDM, Mahalanobisa [Everitt i in. 2001, s. 40]; [Walesiak 2006, s. 36–41]; [Kolenda 2006, 48, 53–55].

(5 20)

20  Minkowskiego (miejska, euklidesowa), Czebyszewa, Canberra, Braya-Curtisa, uogólniona miara odległości GDM, Mahalanobisa [Everitt i in 2001, s 40]; [Walesiak 2006, s 36–41]; [Kolenda 2006, 48, 53–55]

175

Ocena innowacyjności w branżach przemysłu spożywczego

gdzie:

n – liczba obiektów (i, s = 1, , n), m – liczba cech ( j = 1, , m),

xij, xsj – wartości cechy xj dla obiektów i, s

Kolejny krok to wybór metody analizy skupień właściwej dla danego za-gadnienia oraz zdefiniowanie skupienia w przedmiotowej analizie – poszczególne grupy metod mają zdolność wyszukiwania skupień o właściwej dla tych metod strukturze Wybór ten ma duże znaczenie, gdyż warunkuje stosowanie procedur obliczeniowych na innych (dalszych) etapach analizy Na potrzeby analiz społecz-no-ekonomicznych wykorzystuje się metody aglomeracyjne bądź podziałowe O ile wybór jednej z tych grup metod można uzasadnić merytoryczne, o tyle wy-bór konkretnego algorytmu metody w ramach danej grupy metod jest trudniejszy Powszechność stosowania tych metod wynika z ich uniwersalności oraz stopnia poznania Metody aglomeracyjne to metody hierarchiczne, działające według jednej centralnej procedury aglomeracyjnej, w których w wyniku wielu pojedyn-czych kroków analizy macierzy odległości między obiektami otrzymuje się za-gnieżdżoną, hierarchiczną strukturę obiektów lub skupień obiektów podobnych Uzyskany w ten sposób wynik jest najczęściej przedstawiany w postaci drzewa zwanego także dendrogramem Do najbardziej popularnych należą algorytmy: pojedynczego wiązania, pełnego wiązania, średniej grupowej, ważonej średniej grupowej, średniego niepodobieństwa, Warda, czy mediany

Metody podziałowe, optymalizując wstępny podział obiektów, dają w

wy-niku analizy różne, niezachodzące na siebie skupienia Często są określane jako procedury niehierarchicznego grupowania obiektów, gdyż na wyjściu dają tylko jeden końcowy wynik podziału zbioru analizowanych obiektów Najbardziej zna-ne algorytmy podziałowe to k-średnich oraz PAM

Ze względu na nieduży zbiór obiektów będących przedmiotem niniejszej analizy oraz trudności, jakie z reguły pojawiają się przy ustaleniu liczby poszu-kiwanych klas (kolejny krok analizy) powodujące konieczność przeanalizowania większej liczby potencjalnych rozwiązań, na potrzeby analizy skupień innowacyj-ności przedsiębiorstw przemysłu spożywczego w Polsce wykorzystane zostaną metody aglomeracyjne Analiza własności metod aglomeracyjnych pod względem ich zdolności do tworzenia spójnych i izolowanych klas oraz fakt uwzględniania, bądź nieuwzględniania liczby obiektów przy wyznaczaniu odległości międzygru-powych, pozwoliły na wybór spośród nich algorytmów charakteryzujących się „pożądanymi własnościami”, tj metody średniej grupowej oraz metody Warda [Gordon 1987, s 123; Gordon 1996, s 74–76]

Schemat analizy dla metod aglomeracyjnych działających według centralnej procedury aglomeracyjnej można przedstawić w następujących krokach [Johnson 1967, s 245; Everitt i in 2001, s 61]:

1 W macierzy odległości między obiektami wyszukuje się pary obiektów (w dalszych krokach skupień) najmniej do siebie niepodobnych, tj o najmniej-szej, niezerowej odległości między nimi – załóżmy, że są to podzbiory Kq i Kr

2 Redukuje się liczbę wszystkich występujących na danym etapie klas o jedną, łącząc zbiory Kq, Kr i nadając im nazwę Kq (Kq Kq Kr) – jednocześnie usuwa się zbiór Kr

3 Wyznacza się nową macierz odległości pomiędzy połączonym zbiorem Kq i wszystkimi innymi obiektami (skupieniami) według wzoru Lance’a i Williama:

d(Kq Kr ,Ks) =

= αqd(Kq ,Ks) + αrd(Kr ,Ks) + βd(Kq ,Kr) + γ|d(Kq ,Ks) – d(Kr ,Ks)| (5 21)

Tabela 5 1 Parametry metod aglomeracyjnych (hierarchicznych) analizy skupień *

Metoda

α

q

α

r

β γ

Pojedynczego wiązania 2 1 2 1 0 2 1 Pełnego wiązania 2 1 2 1 0 12 Średniej grupowej r q q n n n + q r r n n n + 0 0

Ważonej średniej grupowej

2 1 2 1 0 0 Średniego niepodobieństwa (odległości)     + + 2 2 n n nq s     + + 2 2 n n nr s     + + 2 2 n n nq r 0

Wewnątrzklasowej sumy kwadratów

+ + n n nq s + + n n nr s + + n n nq r 0

Powiększonej sumy kwadratów (Warda)

+ + n n nq s + + n n nr s + n ns 0 Środka ciężkości r q q n n n + q r r n n n +

( )

2 r q r q n n n n + 0 Mediany 12 21 41 0 Giętka (1−β) 2 1 (1−β) 2 1 β(β<1) 0

*Łączna liczba obiektów w skupieniach q, r, s: n+ =nq+nr+ns

177

Ocena innowacyjności w branżach przemysłu spożywczego

4 Powtarza się kroki od 1 do 3, dopóki wszystkie obiekty nie zostaną przy-pisane do jednego skupienia

Różnice pomiędzy metodami aglomeracyjnymi wynikają z odmienności spo-sobu definiowania odległości międzygrupowej wyznaczanej w etapie 3) powyż-szej procedury poprzez odpowiednie parametry wzoru (5 21) – zob tab 5 1

Zaletą metod aglomeracyjnych jest to, że nie wymagają określania liczby poszukiwanych skupień obiektów podobnych przed przystąpieniem do analizy Wybór wyniku, tj podziału zbioru obiektów i tym samym liczby skupień jest dokonywany na podstawie wykresu drzewa, poprzez zastosowanie właściwych

metod oceny wyników grupowania – a więc niejako post factum z

wykorzysta-niem uzyskanego wyniku grupowania, co nie komplikuje całego schematu ana-lizy Warto bowiem pamiętać, że liczba możliwych podziałów n analizowanych obiektów na u skupień (klas) jest bardzo duża i wynosi:

185 Warto bowiem pamiętać, że liczba możliwych podziałów n analizowanych obiektów na u skupień (klas) jest bardzo duża i wynosi:

 

u

 

n q q u q q u u u n K

        1 1 ! 1 , , (5.22)

przykładowo dla K

 

5 ,3 25, K

10 ,3

9330, a dla K

50,4

5,31028.

Nietrywialne wyniki podziału analizowanego zbioru danych, połączone z oceną wyników grupowania, uzyskuje się wykorzystując zaawansowane „reguły zatrzymania” zaproponowane przez Mojenę [Mojena 1977, s. 359–363], badane przez Mojenę i Wisharta i zaimplementowane w programie Clustangraphics 8 [Wishart 2006].

Reguła górnego obszaru odrzucenia (Upper Tail Rule) polega na analizie istotności różnic

odległości wiązania kolejnych obiektów na wykresie drzewa poczynając od wyniku podziału obiektów na n, n 1,... skupień i przesuwając się zgodnie z kierunkiem łączenia obiektów na wykresie drzewa. Każdy dendrogram dla n obiektów można traktować jak zbiór wyników analizy

skupień, tj. podziałów K0,K1,...,Kn1 oraz związanych z nimi kolejnych odległości łączenia obiektów na wykresie drzewa h0,h1,...,hn1, przy czym (subskrypt) 01,,...,n1 odnosi się do wyniku podziału obiektów na n, n 1,...,1 skupień. Na podstawie n1 wartości h1,...,hn1 połączeń wszystkich n analizowanych obiektów w skupienia wyznacza się ich wartość średnią h i

 

e

odchylenie standardowe S . Do oceny istotności każdego h e e tego kroku w hierarchicznej

procedurze grupowania oraz związanego z nim poziomu h łączenia kolejnego obiektu w dendrogramie wykorzystuje się statystykę t-Studenta. Poszukuje się pierwszego poziomu wiązania obiektów na wykresie drzewa (krok), w którym nastąpi odrzucenie hipotezy H o nieistotności 0

różnic pomiędzy kolejnymi wiązaniami, na rzecz hipotezy alternatywnej H stwierdzającej ich 1

istotność. Z ciągu klasyfikacji wybiera się podział (krok e1,...,n2), który pierwszy spełnia nierówność:

e

h aSh

h

UTR: 1   (5.23)

przy czym: h

e1

to poziom łączenia obiektów w skupienia w kroku e1 ustalony na podstawie analizowanego zbioru danych; parametr a 2 ,75 3,5 stanowi regułę „błędu” i umożliwia uzyskanie nietrywialnego wyniku podziału obiektów.

W przypadku metod aglomeracyjnych tracą na znaczeniu: porównywanie parami wyników uzyskanych różnymi metodami analizy; testowanie, replikacja analizy, które można zastąpić samą

(5 22) przykładowo dla K(5, 3) = 25, K(10, 3) = 9330, a dla K(50, 4) ≈ 5,3 × 1028 Nietrywialne wyniki podziału analizowanego zbioru danych, połączone z oceną wyników grupowania, uzyskuje się wykorzystując zaawansowane „regu-ły zatrzymania” zaproponowane przez Mojenę [Mojena 1977, s 359–363], bada-ne przez Mojenę i Wisharta i zaimplementowabada-ne w programie Clustangraphics 8 [Wishart 2006]

Reguła górnego obszaru odrzucenia (Upper Tail Rule) polega na analizie istotności różnic odległości wiązania kolejnych obiektów na wykresie drzewa po-czynając od wyniku podziału obiektów na n, n – 1, , 1 skupień i przesuwając się zgodnie z kierunkiem łączenia obiektów na wykresie drzewa Każdy dendrogram dla n obiektów można traktować jak zbiór wyników analizy skupień, tj podziałów

K0, K1, , Kn – 1 oraz związanych z nimi kolejnych odległości łączenia obiektów na wykresie drzewa h0, h1, , hn – 1, przy czym (subskrypt) 0, 1, , n – 1 odnosi się do wyniku podziału obiektów na n, n – 1, , 1 skupień Na podstawie n – 1