ANALIZA PODOBIEŃSTWA CECH Celem ćwiczenia jest dalsza analiza podobieństwa cech (czyli zmiennych), która została rozpoczęta na poprzednich zajęciach. Dotychczas z

30  Download (0)

Pełen tekst

(1)

Ćwiczenie nr 5:

ANALIZA PODOBIEŃSTWA CECH

Celem ćwiczenia jest dalsza analiza podobieństwa cech (czyli zmiennych), która została rozpoczęta na poprzednich zajęciach.

Dotychczas zostały zbadane jedynie korelacje w parach zmiennych. Do tego celu posłużyły: macierz współczynników korelacji liniowej oraz determinacji, a także wykresy korelacyjne. W trakcie niniejszego ćwiczenia, badanie podobieństwa cech stanie się o wiele bardziej atrakcyjne dzięki spojrzeniu na wszystkie zmienne jednocześnie.

Do analizy podobieństwa wszystkich cech jednocześnie zostanie wykorzystane podejście geometryczne. W wielowymiarowej przestrzeni cech, każda zmienna może być przedstawiona w postaci wektora, przy czym wszystkie wektory zmiennych mają wspólny początek. Miarą podobieństwa zmiennych są zatem relacje pomiędzy kierunkami wyznaczanymi przez ich wektory.

I. ODLEGŁOŚCI TANGENSOWE POMIĘDZY ZMIENNYMI.

Liczbową miarą relacji pomiędzy kierunkami wektorów zmiennych I oraz J może być np. wartość bezwzględna tangensa kąta między tymi wektorami. Miara ta nazywana jest tangensową miarą odległości zmiennych i dana jest wzorem:

gdzie r

I,J

jest znanym już Studentowi współczynnikiem korelacji liniowej pomiędzy zmiennymi I oraz J. Obliczenia odległości tangensowych można więc dokonać, wykorzystując przygotowaną na poprzednich zajęciach macierz współczynników korelacji liniowej:

W X Y Z

W rW,W = 1 rX,W rY,W rZ,W

X rW,X rX,X = 1 rY,X rZ,X

Y rW,Y rX,Y rY,Y = 1 rZ,Y

Z rW,Z rX,Z rY,Z rZ,Z = 1

poprzez przekształcenie jej w macierz odległości, zgodnie z podanym powyżej wzorem:

W X Y Z

W dTW,W = 0 dTX,W dTY,W dTZ,W

X dTW,X dTX,X = 0 dTY,X dTZ,X

Y dTW,Y dTX,Y dTY,Y = 0 dTZ,Y

Z dTW,Z dTX,Z dTY,Z dTZ,Z = 0

(2)

Zmienne, których wektory w wielowymiarowej przestrzeni cech są równoległe (r = 1) lub antyrównoległe (r = -1) niosą dokładnie tę samą informację i ich odległość tangensowa jest równa 0. Zmienne, których wektory są ortogonalne (prostopadłe do siebie; r = 0), niosą całkowicie różne informacje i mają odległość tangensową równą nieskończoności. Dla wszystkich pozostałych przypadków; tj. dla zmiennych, których wartość współczynnika korelacji liniowej jest większa od -1 i mniejsza od 0 lub większa od 0 i mniejsza od 1, tangensowa miara odległości przyjmuje wartości od 0 do nieskończoności; przy czym: im większa jest odległość między zmiennymi, tym mniej wspólnej informacji one niosą.

Przygotowana w ten sposób macierz odległości tangensowych posłuży jako podstawa do zastosowania dwóch graficznych metod analizy podobieństwa cech: analizy wiązkowej oraz metody graficznej Czekanowskiego. Zaczniemy od tej pierwszej.

II. ANALIZA WIĄZKOWA CECH.

W zależności od tego, jaki problem został postawiony do rozwiązania, można zastosować jedną z dwóch wersji analizy wiązkowej. Jeżeli intencją Studenta jest pokreślenie podobieństw między cechami, powinien zastosować tzw. metodę najbliższego sąsiada; jeżeli zaś Jego celem jest podkreślenie różnic pomiędzy cechami – powinien zastosować tzw. metodę najdalszego sąsiada. Wybór metody powinien zostać dokonany w sposób świadomy, ponieważ poszczególne wersje analizy wiązkowej dają przeważnie różne wyniki dla tych samych danych.

Metody najbliższego i najdalszego sąsiada różnią się jednym szczegółem, który opiszemy za chwilę.

Uwaga praktyczna: w metodzie analizy wiązkowej najwygodniej pracuje się na jednym z trójkątów macierzy odległości (na przykład: dolnym), nie zaś na pełnej macierzy kwadratowej.

Algorytm przeprowadzenia analizy wiązkowej zaprezentujemy na przykładzie zestawu MIECZE. Do dzieła!

1) W trójkątnej macierzy odległości tangensowych poszukuje się wartości najmniejszej (oczywiście z pominięciem przekątnej, na której wszystkie wartości wynoszą 0) i sprawdza się, pomiędzy którymi zmiennymi ona występuje.

DC* 0,000 DG* 0,294 0,000

DR 0,917 1,466 0,000 M 0,437 0,522 1,082 0,000 SM 0,871 0,936 1,267 0,695 0,000

T 0,487 0,652 1,039 0,522 0,952 0,000 CR* 2,976 2,828 3,503 3,878 9,497 3,487 0,000

DC* DG* DR M SM T CR*

(3)

W omawianym przykładzie (zestaw MIECZE) jest to odległość między zmiennymi DG* oraz DC* (zacienione pole macierzy). W odległości 0,294 tworzą one skupienie, które nazwijmy A.

Należy teraz pozbyć się tych dwóch zmiennych z macierzy odległości oraz umieścić w niej skupienie A.

2) Aby umieścić w macierzy skupienie A, postępuje się według podanego poniżej algorytmu:

i. Zaznacza się odległości każdej z pozostałych zmiennych od dwóch usuwanych zmiennych (dla danej zmiennej te dwie wartości zwykle się różnią). Większą z tych dwóch odległości dla danej zmiennej wyróżnia się np. kursywą, a mniejszą - np. przez podkreślenie.

Odległości zmiennej SM od zmiennych DC* i DG* wynoszą odpowiednio: 0,871 i 0,936. Ponieważ odległość SM-DC* jest mniejsza, niźli odległość SM-DG*, wartość 0,871 podkreślamy, zaś wartość 0,936 wyróżniamy kursywą. Ostatecznie, po zaznaczeniu wszystkich wymaganych odległości, macierz prezentuje się następująco:

DC* 0,000 DG* 0,294 0,000

DR 0,917 1,466 0,000 M 0,437 0,522 1,082 0,000 SM 0,871 0,936 1,267 0,695 0,000

T 0,487 0,652 1,039 0,522 0,952 0,000 CR* 2,976 2,828 3,503 3,878 9,497 3,487 0,000

DC* DG* DR M SM T CR*

ii. Należy teraz skopiować tabelę i zamienić nazwę pierwszej z dwóch zmiennych

11

, które uległy połączeniu, na nazwę skupienia, zaś etykiety drugiej zmiennej usunąć z tabeli. Dotyczy to zarówno wierszy, jak i kolumn.

W omawianym przykładzie, nazwę zmiennej DC* zmieniamy na nazwę skupienia A, zaś nazwę zmiennej DG* usuwamy:

A 0,000 0,294 0,000 DR 0,917 1,466 0,000

M 0,437 0,522 1,082 0,000 SM 0,871 0,936 1,267 0,695 0,000

T 0,487 0,652 1,039 0,522 0,952 0,000 CR* 2,976 2,828 3,503 3,878 9,497 3,487 0,000

A DR M SM T CR*

11

Pod pojęciem "pierwszej z dwóch zmiennych" rozumiemy tę zmienną, której nazwa w kolumnie etykiet

wierszy znajduje się wyżej.

(4)

iii. a) W przypadku korzystania z metody najbliższego sąsiada, należy zamienić miejscami wartości podkreślone i pisane kursywą w taki sposób, aby w wierszu/kolumnie skupienia znalazły się tylko wartości podkreślone.

b) W przypadku korzystania z metody najdalszego sąsiada, należy zamienić miejscami wartości podkreślone i pisane kursywą w taki sposób, aby w wierszu/kolumnie skupienia znalazły się tylko wartości pisane kursywą.

W metodzie najbliższego sąsiada, operacja sprowadza się do zamiany miejscami wartości 2,976 i 2,828 w obrębie wiersza zmiennej CR*. Dzięki temu w kolumnie A znajdą się wyłącznie wartości podkreślone.

A 0,000 0,294 0,000 DR 0,917 1,466 0,000

M 0,437 0,522 1,082 0,000 SM 0,871 0,936 1,267 0,695 0,000

T 0,487 0,652 1,039 0,522 0,952 0,000 CR* 2,828 2,976 3,503 3,878 9,497 3,487 0,000

A DR M SM T CR*

Gdybyśmy korzystali z metody najdalszego sąsiada, naszym zadaniem byłoby wypełnienie kolumny/wiersza A wartościami pisanymi kursywą, czyli należałoby zamienić miejscami wyróżnione wartości w wierszach DR, M, SM oraz T. Efekt końcowy byłby następujący:

A 0,000 0,294 0,000 DR 1,466 0,917 0,000

M 0,522 0,437 1,082 0,000 SM 0,936 0,871 1,267 0,695 0,000

T 0,652 0,487 1,039 0,522 0,952 0,000 CR* 2,976 2,828 3,503 3,878 9,497 3,487 0,000

A DR M SM T CR*

iv. Niezależnie od wybranej wersji analizy wiązkowej, następnym krokiem jest usunięcie z macierzy kolumny oraz wiersza, które pozbawione są etykiet.

Dla metody najbliższego sąsiada otrzymujemy:

A 0,000 DR 0,917 0,000

M 0,437 1,082 0,000 SM 0,871 1,267 0,695 0,000

T 0,487 1,039 0,522 0,952 0,000 CR* 2,828 3,503 3,878 9,497 3,487 0,000

A DR M SM T CR*

zaś dla metody najdalszego sąsiada:

(5)

A 0,000 DR 1,466 0,000

M 0,522 1,082 0,000 SM 0,936 1,267 0,695 0,000

T 0,652 1,039 0,522 0,952 0,000 CR* 2,976 3,503 3,878 9,497 3,487 0,000

A DR M SM T CR*

v. Na końcu należy pozbawić komórki macierzy odległości wszelkich wyróżnień (podkreśleń/kursywy) i odnotować, co się stało:

zmienne DC* i DG* utworzyły skupienie A w odległości 0,294.

3) Kroki 1) i 2) powtarza się, aż w macierzy pozostaną tylko dwie zmienne. Poniżej przedstawiliśmy przykład takiego postępowania dla danych MIECZE i metody najbliższego sąsiada.

A 0,000 DR 0,917 0,000

M 0,437 1,082 0,000 SM 0,871 1,267 0,695 0,000

T 0,487 1,039 0,522 0,952 0,000 CR* 2,828 3,503 3,878 9,497 3,487 0,000

A DR M SM T CR*

B 0,000 DR 0,917 0,000 SM 0,695 1,267 0,000

T 0,487 1,039 0,952 0,000 CR* 2,828 3,503 9,497 3,487 0,000

B DR SM T CR*

Ze skupienia A i zmiennej M powstało skupienie B w odległości 0,437.

B 0,000 DR 0,917 0,000 SM 0,695 1,267 0,000

T 0,487 1,039 0,952 0,000 CR* 2,828 3,503 9,497 3,487 0,000

B DR SM T CR*

C 0,000 DR 0,917 0,000 SM 0,695 1,267 0,000 CR* 2,828 3,503 9,497 0,000

C DR SM CR*

(6)

Ze skupienia B i zmiennej T powstało skupienie C w odległości 0,487.

C 0,000 DR 0,917 0,000 SM 0,695 1,267 0,000 CR* 2,828 3,503 9,497 0,000

C DR SM CR*

D 0,000 DR 0,917 0,000 CR* 2,828 3,503 0,000

D DR CR*

Ze skupienia C i zmiennej SM powstało skupienie D w odległości 0,695.

D 0,000 DR 0,917 0,000 CR* 2,828 3,503 0,000

D DR CR*

E 0,000 CR* 2,828 0,000

E CR*

Ze skupienia D i zmiennej DR powstało skupienie E w odległości 0,917.

Gdy spojrzymy na powyższą macierz, natychmiast możemy podać informację finałową:

Ze skupienia E i zmiennej CR* powstało skupienie F w odległości 2,828; nastąpiło połączenie wszystkich cech w jedno skupienie.

Zbierzmy zatem wszystkie informacje, konieczne do sporządzenia diagramu wiązkowego:

i. zmienne DC* i DG* tworzą skupienie A w odległości 0,294;

ii. skupienie A i zmienna M tworzą skupienie B w odległości 0,437;

iii. skupienie B i zmienna T tworzą skupienie C w odległości 0,487;

iv. skupienie C i zmienna SM tworzą skupienie D w odległości 0,695;

v. skupienie D i zmienna DR tworzą skupienie E w odległości 0,917;

vi. skupienie E i zmienna CR* tworzą skupienie F w odległości

2,828.

(7)

Utworzenie diagramu wiązkowego polega na odłożeniu na osi OX nazw cech (w odpowiedniej kolejności, o czym za chwilę), zaś na osi OY – odległości, przy których powstają poszczególne skupienia; a następnie: na graficznym przedstawieniu łączenia się kolejnych skupień i cech. UWAGA!!! Odległości na osi OY należy odkładać zawsze od 0 – nie zaś od poprzedniego połączenia!

Kolejność nazw cech na osi OX wymaga odpowiedniego zaplanowania – należy ułożyć je tak, aby linie łączące poszczególne cechy i skupienia nie krzyżowały się. Trzeba zatem dokładnie przestudiować, jakie cechy się łączą i w jakiej kolejności. W omawianym powyżej przykładzie szczęśliwie złożyło się, iż za każdym razem świeżo upieczone skupienie za chwilę tworzyło kolejne – zaplanowanie kolejności cech na osi OX było zatem bardzo proste. Zalecamy jednak dodatkowo przyjrzeć się przykładom omówionym w podręczniku – stopień ich skomplikowania bywa dużo większy.

Przykład:

Dla zestawu MIECZE, diagram wiązkowy uzyskany metodą najbliższego sąsiada prezentuje się następująco:

Nie ulega wątpliwości, że nasze zmienne nie tworzą zbioru

jednorodnego. Zmienna CR* wyraźnie odbiega od pozostałych.

(8)

Na tym etapie warto pokusić się o interpretację otrzymanego obrazu. Długość całkowita miecza (DC*) jako zmienna znajduje się najbliżej długości główni (DG*), czyli ostrza. Wynik logiczny i sensowny. Te dwie zmienne dość szybko łączą się z masą miecza (M), a za chwilę – z jego typem (T; jedno-; półtora-; dwuręczny). Nieco dalej znajduje się odległość środka masy miecza (SM) od końca rękojeści (co zrozumiałe), stosunkowo blisko SM, ale daleko od całej reszty – długość rękojeści (DR). Najmniej wspólnego ze wszystkimi zmiennymi ma cena repliki (CR*).

Wynik taki nie powinien dziwić, ponieważ cena prawdopodobnie zależy również od innych parametrów, jak np. rodzaju użytego metalu, sposobu wykonania czy też kunsztu kowala, które trudno ująć w postaci liczbowej.

Excel nie posiada narzędzia dedykowanego do tworzenia diagramu wiązkowego

12

– najlepiej wykonać go w programie przeznaczonym do tworzenia grafiki wektorowej (CorelDRAW, Adobe Illustrator, AutoCAD). Prowadzący zajęcia będą oczywiście honorowali zeskanowany rysunek odręczny - ocenie podlega bowiem nie umiejętność obsługi procesorów grafiki wektorowej, lecz zrozumienie tematu.

III. METODA GRAFICZNA CZEKANOWSKIEGO.

Nieco łatwiejszą w wykonaniu metodą graficznego przedstawienia podobieństwa pomiędzy cechami jest tzw. diagram Czekanowskiego. Wymaga on skorzystania z pełnej (czyli kwadratowej) macierzy odległości.

Zasada metody polega na przypisaniu poszczególnym wartościom odległości pomiędzy zmiennymi symboli graficznych. Dokonuje się tego według własnego uznania – jest to zatem metoda bardzo subiektywna. Po przypisaniu wartościom symboli graficznych, otrzymuje się tzw. nieuporządkowany diagram Czekanowskiego. Jego porządkowanie polega na synchronicznej zamianie wierszy i kolumn (tj. zamieniając wiersz, na przykład, trzeci z piątym, natychmiast zamienia się również miejscami kolumnę trzecią i piątą) tak, aby symbole odpowiadające najmniejszym odległościom znalazły się jak najbliżej przekątnej.

Uporządkowany diagram Czekanowskiego ujawnia podobieństwa między cechami, a także zaprasza do dalszych rozważań.

Dość teorii, przejdźmy do praktyki. W trakcie studiowania algorytmu tworzenia diagramu Czekanowskiego ponownie odwołamy się do macierzy odległości cech zestawu MIECZE.

1) Na początek, należy przyjąć kryteria przypisania symboli graficznych do wartości w macierzy odległości (według własnego uznania).

12

Możliwe jest stworzenie diagramu wiązkowego w Excelu przy pomocy odpowiedniego rodzaju wykresu

(diagram zaprezentowany powyżej został stworzony w taki właśnie sposób) – wymaga to jednak sporej

dozy cierpliwości.

(9)

DC* 0,000 0,294 0,917 0,437 0,871 0,487 2,976 DG* 0,294 0,000 1,466 0,522 0,936 0,652 2,828 DR 0,917 1,466 0,000 1,082 1,267 1,039 3,503 M 0,437 0,522 1,082 0,000 0,695 0,522 3,878 SM 0,871 0,936 1,267 0,695 0,000 0,952 9,497 T 0,487 0,652 1,039 0,522 0,952 0,000 3,487 CR* 2,976 2,828 3,503 3,878 9,497 3,487 0,000

DC* DG* DR M SM T CR*

Dla omawianego przykładu przyjmujemy następujące kryteria:

i. wartości od 0 do 0,5 oznaczamy jako #;

ii. wartości od 0,5 do 1 oznaczamy jako +;

iii. wartości od 1 do 2 oznaczamy jako :;

iv. wartości powyżej 2 nie oznaczamy w ogóle – tj. zostawiamy puste miejsca.

2) Dzięki temu, tworzy się nieuporządkowany diagram Czekanowskiego.

DC* # # + # + # DG* # # : + + + DR + : # : : : M # + : # + + SM + + : + # + T # + : + + #

CR* #

DC* DG* DR M SM T CR*

3) Należy teraz uporządkować diagram Czekanowskiego. Celem jest uzyskanie obrazu, w którym symbole odpowiadające najmniejszym odległościom znajdują się jak najbliżej przekątnej.

Zanim zaczniemy, przyjrzyjmy się diagramowi nieuporządkowanemu. Najwięcej "bliskich znajomych" ma długość całkowita miecza (DC*), dlatego będziemy dążyli do umieszczenia symboli # DC*-T oraz # DC*-M bliżej przekątnej.

Nieco uwagi poświęcimy również symbolom + zmiennej DG*.

i. Zamieńmy miejscami zmienne DC* oraz DR (wiersze oraz

kolumny!).

(10)

DR # : + : : : DG* : # # + + + DC* + # # # + # M : + # # + + SM : + + + # + T : + # + + #

CR* #

DR DG* DC* M SM T CR*

Nastąpiła pewna poprawa. Nadal jednak # DC*-T jest zbyt daleko od przekątnej.

ii. Zamieńmy miejscami zmienne DC* oraz SM.

DR # : : : + : DG* : # + + # + SM : + # + + + M : + + # # + DC* + # + # # # T : + + + # #

CR* #

DR DG* SM M DC* T CR*

# DG*-DC* oddalił się od przekątnej. Porządkujmy dalej.

iii. Zamieńmy miejscami zmienne DG* oraz SM.

DR # : : : + : SM : # + + + + DG* : + # + # + M : + + # # + DC* + + # # # # T : + + + # #

CR* #

DR SM DG* M DC* T CR*

Wyraźny postęp. Zobaczmy jeszcze, czy da się poprawić

lokalizację # DG*-DC*.

(11)

iv. Zamieńmy miejscami zmienne DC* oraz M.

DR # : : + : : SM : # + + + + DG* : + # # + + DC* + + # # # # M : + + # # + T : + + # + #

CR* #

DR SM DG* DC* M T CR*

Uzyskaliśmy zasadniczo ten sam obraz; dalsza zamiana zmiennych nie przynosi jego poprawy.

DR # : : + : : SM : # + + + + DG* : + # # + + DC* + + # # # # M : + + # # + T : + + # + #

CR* #

DR SM DG* DC* M T CR*

Uznajemy powyższy diagram za uporządkowany. Przyjrzyjmy się informacjom, jakie niesie:

1) długość całkowita (DC*) jest związana z największą liczbą parametrów miecza, co absolutnie zgadza się ze zdrowym rozsądkiem;

2) zmienne DG* (długość głowni), DC*, M (masa) oraz T (typ) tworzą duże

skupisko zmiennych

skorelowanych;

3) zmienna SM (odległość środka masy od końca rękojeści) jest nieco słabiej związana ze skupiskiem opisanym w punkcie 2);

4) zmienna DR (długość rękojeści) jest słabo związana z pozostałymi cechami (wykazuje związek jedynie z długością całkowitą repliki);

5) cena repliki (CR*) nie zdradza żadnego podobieństwa do pozostałych

cech.

(12)

Skonfrontujmy te wyniki z diagramem wiązkowym, zaprezentowanym obok diagramu Czekanowskiego.

Wyniki obydwu analiz doprowadziły do podobnych wniosków.

IV. SPRAWOZDANIE.

W sprawozdaniu Student powinien umieścić macierz odległości tangensowych pomiędzy cechami, a także wykonać analizę wiązkową oraz diagram Czekanowskiego dla swoich zmiennych.

Prosimy o umieszczenie w sprawozdaniu wszystkich kroków analizy wiązkowej,

nieuporządkowanego oraz uporządkowanego diagramu Czekanowskiego oraz wniosków

końcowych.

(13)

Ćwiczenie nr 6:

ANALIZA PODOBIEŃSTWA OBIEKTÓW

Celem ćwiczenia jest wykonanie wstępnej analizy podobieństwa obiektów.

W wielowymiarowej przestrzeni cech obiekty reprezentowane są w postaci punktów;

miarą podobieństwa obiektów mogą być zatem odległości pomiędzy tymi punktami w omawianej przestrzeni. Powszechnie przyjętą miarą odległości punktów jest tzw. odległość euklidesowa (patrz: sekcja II).

Wykonanie wstępnej analizy podobieństwa obiektów rozpoczyna się od z tzw.

autoskalowania (standaryzacji) danych. Następnie, używa się metod analogicznych do tych, które zostały wykorzystane na zajęciach poprzednich w celu wykonania analizy podobieństwa cech, czyli: najpierw oblicza się macierz odległości obiektów, później zaś - sporządza jej reprezentację graficzną.

I. AUTOSKALOWANIE DANYCH.

Aby przystąpić do obliczania odległości euklidesowych między obiektami, zmienne należy najpierw poddać transformacji zwanej autoskalowaniem, czyli standaryzacją. Polega ona na takiej transformacji wartości w obrębie każdej zmiennej, aby - po transformacji - wartość średnia każdej ze zmiennych była równa 0, zaś odchylenie standardowe każdej zmiennej było równe 1. Efekt taki można uzyskać stosunkowo łatwo, stosując dla każdej wartości w tabeli danych następującą transformację:

gdzie: z

AX

- standaryzowana wartość cechy X dla obiektu A;

x

AX

- oryginalna

13

wartość cechy X dla obiektu A;

m

X

- wartość średnia zmiennej X;

s

X

- odchylenie standardowe populacji zmiennej X.

Celem autoskalowania danych jest uczynienie poszczególnych zmiennych współmiernymi, albo, inaczej mówiąc: uczynienie współmiernymi wszystkich wymiarów w wielowymiarowej przestrzeni cech. Poszczególne zmienne w postaci "oryginalnej" mają bowiem swoje indywidualne skale i przedziały zmienności, które należałoby "ujednolicić" w celu zapewnienia jednakowego wpływu wszystkich cech na wartości odległości euklidesowych.

Autoskalowanie zapewnia jednocześnie: centrowanie danych, współmierność zmiennych i uniezależnienie się od stosowanych jednostek.

13

Jeżeli zmienna X była wcześniej transformowana - w miejscu x

AX

podstawia się wartości zmiennej po

transformacji.

(14)

Należy zatem stworzyć macierz danych autoskalowanych. Powstanie ona z macierzy danych wejściowych:

W X Y Z A xAW xAX xAY xAZ

B xBW xBX xBY xBZ C xCW xCX xCY xCZ

D xDW xDX xDY xDZ

:

m mW mX mY mZ

s sW sX sY sZ

przy pomocy podanego powyżej wzoru:

W X Y Z

A zAW zAX zAY zAZ

B zBW zBX zBY zBZ

C zCW zCX zCY zCZ

D zDW zDX zDY zDZ

:

m mW = 0 mX = 0 mY = 0 mZ = 0 s sW = 1 sX = 1 sY = 1 sZ = 1

W celu kontroli poprawności wykonania procesu autoskalowania należy obliczyć wartości średnie oraz odchylenia standardowe poszczególnych zmiennych standaryzowanych. W przypadku otrzymania, odpowiednio, 0 oraz 1, uzyskuje się pewność poprawności transformacji

14

.

Powyższa macierz będzie stanowiła punkt wyjścia do wszystkich, kolejnych analiz podobieństwa obiektów. Od tego momentu obliczenia będą wykonywane wyłącznie na danych autoskalowanych

15

.

II. MACIERZ ODLEGŁOŚCI EUKLIDESOWYCH.

W trakcie analizy podobieństwa cech, przeprowadzonej na poprzednich zajęciach, wykorzystana została tzw. tangensowa miara odległości pomiędzy zmiennymi. W przypadku analizy podobieństwa obiektów, definicja odległości pomiędzy nimi jest dużo prostsza. W zdecydowanej większość przypadków, stosuje się euklidesową miarę odległości pomiędzy obiektami:

14

W nielicznych przypadkach, niektóre wersje Excela zwracają wartość średnią dla danych autoskalowanych rzędu np. 10

-16

. Zjawisko takie wynika ze skończonej długości rozwinięć dziesiętnych, które Excel jest w stanie zapamiętać. W takich przypadkach wolno, z czystym sumieniem, zaokrąglać takie wartości do zera.

15

Macierz danych autoskalowanych dla omawianego zestawu MIECZE znajduje się w Dodatku B, na

końcu niniejszej instrukcji.

(15)

gdzie: k - poszczególne zmienne; m - liczba zmiennych.

Euklidesowa miara odległości obiektów I oraz J jest zatem pierwiastkiem z sumy kwadratów różnic wartości wszystkich zmiennych dla obiektów I oraz J. Kluczowym aspektem stosowania tej miary odległości jest korzystanie z macierzy danych autoskalowanych, nie zaś - danych oryginalnych, w celu zapewnienia jednakowego wpływu wszystkich zmiennych na wartość odległości dwóch obiektów.

A teraz - po polsku. Wykorzystując przykładową macierz danych autoskalowanych:

W X Y Z A zAW zAX zAY zAZ

B zBW zBX zBY zBZ

C zCW zCX zCY zCZ

D zDW zDX zDY zDZ

oblicza się wartość odległości euklidesowej obiektów A oraz B, co sprowadza się do działania:

zaś dla obiektów B oraz D:

Wykonanie serii analogicznych obliczeń dla wszystkich możliwych par obiektów, a następnie zestawienie ich w postaci tabeli, prowadzi do utworzenia macierzy odległości euklidesowych:

A B C D

A dAA = 0 dAB dAC dAD

B dBA dBB = 0 dBC dBD

C dCA dCB dCB = 0 dCD

D dDA dDB dDC dDD = 0

Podobnie, jak macierz odległości tangensowych, macierz odległości euklidesowych

również jest symetryczna względem przekątnej złożonej z samych zer, ponieważ odległość

euklidesowa obiektu od niego samego wynosi 0.

(16)

Wykonanie macierzy odległości euklidesowych będzie jedną z najbardziej niewdzięcznych czynności, o wykonanie której Student zostanie poproszony w trakcie zajęć z chemometrii - pod warunkiem, że nie skorzysta z "dolarów", stosowanych do blokowania adresów komórek w programie MS Excel. Ich odpowiednie wykorzystanie radykalnie skraca czas przygotowania tabeli

16

.

Do przeprowadzenia dalszych analiz, które będą - analogicznie do wykonywanej poprzednio analizy podobieństwa cech - oparte na metodach graficznych, niezbędne będzie wykorzystanie kwadratowej macierzy odległości euklidesowych.

III. DENDRYT OBIEKTÓW.

Dendryt obiektów koncepcyjnie przypomina nieco analizę wiązkową, jest jednak prostszy w wykonaniu dla dużych zbiorów, ponieważ nie wymaga iteracyjnego pomniejszania macierzy odległości. Nie trzeba również kłopotać się wyborem wersji metody, ponieważ dendryt korzysta wyłącznie z metody najbliższego sąsiada.

Uzyskana przed chwilą macierz odległości euklidesowych pomiędzy obiektami stanowi komplet danych, niezbędnych do wykonania dendrytu.

Podobnie, jak w przypadku analizy wiązkowej, algorytm wykonania dendrytu zaprezentujemy na przykładzie zestawu MIECZE. Do dzieła!

1) W kwadratowej macierzy odległości euklidesowych pomiędzy obiektami poszukuje się wartości najmniejszych w obrębie każdej kolumny (bądź wiersza) - pomijając, naturalnie, przekątną złożoną z zer

17

. Odnalezione wartości należy wyróżnić. Pełna tabela wartości odległości euklidesowych dla omawianego przykładu znajduje się w dalszej części instrukcji (tabela VI.2.).

2) Następnie, wykonuje się spis par obiektów, pomiędzy którymi wystąpiły najmniejsze odległości. Zdarzające się powtórzenia par należy wyeliminować. Po eliminacji, warto posortować listę alfabetycznie względem jednej z kolumn etykiet obiektów (najlepiej tej, w której występuje więcej powtórzeń nazw obiektów).

16

Po szczegóły zapraszamy do Dodatku B, znajdującego się na końcu instrukcji.

17

W gotowej macierzy odległości euklidesowych można usunąć wartości z komórek przekątnej, a

następnie użyć funkcji =MIN(zakres_komórek_kolumny) dla każdej z kolumn. Excel nie oburzy

się brakiem wartości w jednym polu i poda prawdziwy wynik.

(17)

Przykład:

biekt: Sąsiad: Odległość:

AER SIH 1,653

AND ORK 4 237

AZU HUR 0,899

BAL JOY 0,596

DUR JOY 0,423

EXC ORK 0,512

GLA EXC 0,930

GOL GWY 2,397

GRA DUR 0,907

GUR EXC 1,006

GWY AZU 1,332

HER HUR 0,879

HUR HER 0,879

JOY DUR 0,423

LOD GRA 1,064

ORK EXC 0,512

SIH GLA 1,048

UMB URI 2,619

URI UMB 2,619

ZAD AZU 2,033

Obiekt: Sąsiad: Odległość:

GWY AZU 1,332

ZAD AZU 2,033

GRA DUR 0,907

GLA EXC 0,930

GUR EXC 1,006

SIH GLA 1,048

LOD GRA 1,064

GOL GWY 2,397

AZU HUR 0,899

HER HUR 0,879

BAL JOY 0,596

DUR JOY 0,423

AND ORK 4,237

EXC ORK 0,512

AER SIH 1,653

UMB URI 2,619

Tabela VI.1. Wszystkie obiekty omawianego przykładu, wraz z wartościami odległości euklidesowych do najbliższego sąsiada; po lewej - tabela surowa; po prawej - tabela po eliminacji powtórzeń i uporządkowaniu względem drugiej kolumny.

3) Przyglądając się otrzymanym parom, należy utworzyć tzw. skupienia pierwotne poprzez poszukiwanie w uporządkowanej tabeli VI.1. łańcuchów połączeń między obiektami, w myśl starożytnej a pięknej zasady, iż "przyjaciele naszych przyjaciół są naszymi przyjaciółmi".

Przykład, c.d.:

1) AZU tworzy pary z GWY, HUR i ZAD; badamy zatem te trzy obiekty. GWY tworzy dodatkową parę z GOL, HUR z HER, zaś ZAD nie tworzy już żadnej, innej pary. GOL i HER nie łączą się już dalej z innymi obiektami. Otrzymaliśmy zatem pierwsze skupienie pierwotne: AZU, GOL, GWY, HER, HUR, ZAD.

2) DUR tworzy pary z GRA i JOY; badamy zatem te dwa obiekty.

GRA tworzy parę z LOD, JOY tworzy parę z BAL. LOD ani BAL nie tworzą dodatkowych par. Otrzymaliśmy zatem drugie skupienie pierwotne: BAL, DUR, GRA, JOY, LOD.

3) EXC tworzy pary z GLA, GUR oraz ORK; badamy zatem te trzy

obiekty. GLA tworzy parę z SIH, GUR dodatkowej pary nie

tworzy, ORK tworzy parę z AND. SIH tworzy parę z AER, AND

dodatkowej pary nie tworzy. AER również dodatkowej pary nie

tworzy. Otrzymaliśmy trzecie skupienie pierwotne: AER, AND,

EXC, GLA, GUR, ORK, SIH.

(18)

4) UMB tworzy parę z URI. URI nie tworzy innych par, otrzymaliśmy zatem czwarte skupienie pierwotne: UMB, URI.

Wszystkie obiekty zostały wykorzystane.

Po utworzeniu skupień pierwotnych, w macierzy odległości obiektów należy wyróżnić (np. szarą czcionką) odległości wewnątrz utworzonych skupień. Na przykład:

Ponieważ drugie skupienie pierwotne składa się z obiektów BAL, DUR, GRA, JOY oraz LOD, w macierzy odległości szarą czcionką wyróżniamy odległości: BAL-BAL, BAL-DUR, BAL-GRA, BAL-JOY, BAL- LOD, DUR-BAL, DUR-DUR, DUR-GRA, DUR-JOY, DUR-LOD, GRA-BAL, GRA- DUR, GRA-GRA, GRA-JOY, GRA-LOD, JOY-BAL, JOY-DUR, JOY-GRA, JOY- JOY, JOY-LOD, LOD-BAL, LOD-DUR, LOD-GRA, LOD-JOY, LOD-LOD.

4) Po otrzymaniu skupień pierwotnych, przystępuje się do tworzenia skupień wyższych rzędów. Polega to na iteracyjnym poszukiwaniu w tabeli odległości najmniejszej możliwej odległości między obiektami, które należą do dwóch różnych skupień niższych rzędów. Oznacza to, iż należy poszukiwać najmniejszej liczby w obrębie całej macierzy odległości, z pominięciem odległości wyróżnionych szarą czcionką

18

.

Przykład, c.d.:

Opisane wyżej postępowanie zostało (dla zestawu MIECZE) zilustrowane kolejnymi tabelami. Z przyczyn czysto technicznych (rozmiar strony) każdą tabelę podzieliliśmy na dwie części - część dolna w rzeczywistości powinna znajdować się po prawej stronie części górnej.

18

Aby wyżej opisane poszukiwanie było wydajne, można np. usunąć wymienione wartości z komórek

macierzy, a następnie zastosować funkcję: =MIN(zakres_komórek_całej_tabeli).

(19)

AER 0,000 5,444 2,951 3,053 2,753 2,050 2,120 3,064 2,961 2,296 AND 5,444 0,000 6,116 5,545 5,271 4,339 4,510 6,631 4,858 4,550 AZU 2,951 6,116 0,000 1,054 1,173 2,904 3,000 2,498 1,824 2,342 BAL 3,053 5,545 1,054 0,000 0,737 2,938 2,861 3,272 1,516 2,349 DUR 2,753 5,271 1,173 0,737 0,000 2,365 2,321 3,052 0,907 1,919 EXC 2,050 4,339 2,904 2,938 2,365 0,000 0,930 3,245 1,961 1,006 GLA 2,120 4,510 3,000 2,861 2,321 0,930 0,000 3,866 1,933 1,108 GOL 3,064 6,631 2,498 3,272 3,052 3,245 3,866 0,000 3,316 3,309 GRA 2,961 4,858 1,824 1,516 0,907 1,961 1,933 3,316 0,000 1,576 GUR 2,296 4,550 2,342 2,349 1,919 1,006 1,108 3,309 1,576 0,000 GWY 2,025 5,917 1,332 1,481 1,401 2,687 2,763 2,397 2,080 2,470 HER 3,611 5,963 1,205 1,317 1,674 3,293 3,365 3,167 2,028 2,530 HUR 2,897 5,860 0,899 1,274 1,441 2,840 3,007 2,487 1,867 2,240 JOY 2,968 5,127 1,370 0,596 0,423 2,567 2,478 3,352 0,999 2,049 LOD 3,050 5,512 1,808 1,696 1,365 2,313 2,065 3,578 1,064 1,654 ORK 2,101 4,237 3,243 3,207 2,598 0,512 0,967 3,510 2,189 1,451 SIH 1,653 4,239 3,091 2,792 2,386 1,375 1,048 3,890 2,197 1,536 UMB 6,388 4,798 8,018 7,948 7,394 5,330 5,750 7,332 6,775 6,063 URI 4,201 4,591 6,220 6,211 5,645 3,378 3,640 5,774 5,132 4,169 ZAD 4,462 7,629 2,033 2,658 3,115 4,722 4,855 3,314 3,762 4,053 AER AND AZU BAL DUR EXC GLA GOL GRA GUR

AER 2,025 3,611 2,897 2,968 3,050 2,101 1,653 6,388 4,201 4,462 AND 5,917 5,963 5,860 5,127 5,512 4,237 4,239 4,798 4,591 7,629 AZU 1,332 1,205 0,899 1,370 1,808 3,243 3,091 8,018 6,220 2,033 BAL 1,481 1,317 1,274 0,596 1,696 3,207 2,792 7,948 6,211 2,658 DUR 1,401 1,674 1,441 0,423 1,365 2,598 2,386 7,394 5,645 3,115 EXC 2,687 3,293 2,840 2,567 2,313 0,512 1,375 5,330 3,378 4,722 GLA 2,763 3,365 3,007 2,478 2,065 0,967 1,048 5,750 3,640 4,855 GOL 2,397 3,167 2,487 3,352 3,578 3,510 3,890 7,332 5,774 3,314 GRA 2,080 2,028 1,867 0,999 1,064 2,189 2,197 6,775 5,132 3,762 GUR 2,470 2,530 2,240 2,049 1,654 1,451 1,536 6,063 4,169 4,053 GWY 0,000 2,201 1,502 1,631 2,245 2,888 2,525 7,610 5,723 2,935 HER 2,201 0,000 0,879 1,605 1,881 3,692 3,403 8,164 6,539 2,102 HUR 1,502 0,879 0,000 1,508 1,798 3,224 2,935 7,715 6,027 2,269 JOY 1,631 1,605 1,508 0,000 1,421 2,802 2,457 7,482 5,795 3,174 LOD 2,245 1,881 1,798 1,421 0,000 2,621 2,381 7,200 5,405 3,559 ORK 2,888 3,692 3,224 2,802 2,621 0,000 1,371 5,116 3,116 5,112 SIH 2,525 3,403 2,935 2,457 2,381 1,371 0,000 5,735 3,696 4,897 UMB 7,610 8,164 7,715 7,482 7,200 5,116 5,735 0,000 2,619 9,706 URI 5,723 6,539 6,027 5,795 5,405 3,116 3,696 2,619 0,000 7,949 ZAD 2,935 2,102 2,269 3,174 3,559 5,112 4,897 9,706 7,949 0,000 GWY HER HUR JOY LOD ORK SIH UMB URI ZAD

Tabela VI.2. Macierz odległości obiektów dla przykładu MIECZE, z

wyróżnionymi poprzez zaciemnienie najmniejszymi wartościami w obrębie

każdej kolumny. Z odnalezionych par obiektów tworzymy skupienia

pierwotne.

(20)

AER 0,000 5,444 2,951 3,053 2,753 2,050 2,120 3,064 2,961 2,296 AND 5,444 0,000 6,116 5,545 5,271 4,339 4,510 6,631 4,858 4,550 AZU 2,951 6,116 0,000 1,054 1,173 2,904 3,000 2,498 1,824 2,342 BAL 3,053 5,545 1,054 0,000 0,737 2,938 2,861 3,272 1,516 2,349 DUR 2,753 5,271 1,173 0,737 0,000 2,365 2,321 3,052 0,907 1,919 EXC 2,050 4,339 2,904 2,938 2,365 0,000 0,930 3,245 1,961 1,006 GLA 2,120 4,510 3,000 2,861 2,321 0,930 0,000 3,866 1,933 1,108 GOL 3,064 6,631 2,498 3,272 3,052 3,245 3,866 0,000 3,316 3,309 GRA 2,961 4,858 1,824 1,516 0,907 1,961 1,933 3,316 0,000 1,576 GUR 2,296 4,550 2,342 2,349 1,919 1,006 1,108 3,309 1,576 0,000 GWY 2,025 5,917 1,332 1,481 1,401 2,687 2,763 2,397 2,080 2,470 HER 3,611 5,963 1,205 1,317 1,674 3,293 3,365 3,167 2,028 2,530 HUR 2,897 5,860 0,899 1,274 1,441 2,840 3,007 2,487 1,867 2,240 JOY 2,968 5,127 1,370 0,596 0,423 2,567 2,478 3,352 0,999 2,049 LOD 3,050 5,512 1,808 1,696 1,365 2,313 2,065 3,578 1,064 1,654 ORK 2,101 4,237 3,243 3,207 2,598 0,512 0,967 3,510 2,189 1,451 SIH 1,653 4,239 3,091 2,792 2,386 1,375 1,048 3,890 2,197 1,536 UMB 6,388 4,798 8,018 7,948 7,394 5,330 5,750 7,332 6,775 6,063 URI 4,201 4,591 6,220 6,211 5,645 3,378 3,640 5,774 5,132 4,169 ZAD 4,462 7,629 2,033 2,658 3,115 4,722 4,855 3,314 3,762 4,053 AER AND AZU BAL DUR EXC GLA GOL GRA GUR

AER 2,025 3,611 2,897 2,968 3,050 2,101 1,653 6,388 4,201 4,462 AND 5,917 5,963 5,860 5,127 5,512 4,237 4,239 4,798 4,591 7,629 AZU 1,332 1,205 0,899 1,370 1,808 3,243 3,091 8,018 6,220 2,033 BAL 1,481 1,317 1,274 0,596 1,696 3,207 2,792 7,948 6,211 2,658 DUR 1,401 1,674 1,441 0,423 1,365 2,598 2,386 7,394 5,645 3,115 EXC 2,687 3,293 2,840 2,567 2,313 0,512 1,375 5,330 3,378 4,722 GLA 2,763 3,365 3,007 2,478 2,065 0,967 1,048 5,750 3,640 4,855 GOL 2,397 3,167 2,487 3,352 3,578 3,510 3,890 7,332 5,774 3,314 GRA 2,080 2,028 1,867 0,999 1,064 2,189 2,197 6,775 5,132 3,762 GUR 2,470 2,530 2,240 2,049 1,654 1,451 1,536 6,063 4,169 4,053 GWY 0,000 2,201 1,502 1,631 2,245 2,888 2,525 7,610 5,723 2,935 HER 2,201 0,000 0,879 1,605 1,881 3,692 3,403 8,164 6,539 2,102 HUR 1,502 0,879 0,000 1,508 1,798 3,224 2,935 7,715 6,027 2,269 JOY 1,631 1,605 1,508 0,000 1,421 2,802 2,457 7,482 5,795 3,174 LOD 2,245 1,881 1,798 1,421 0,000 2,621 2,381 7,200 5,405 3,559 ORK 2,888 3,692 3,224 2,802 2,621 0,000 1,371 5,116 3,116 5,112 SIH 2,525 3,403 2,935 2,457 2,381 1,371 0,000 5,735 3,696 4,897 UMB 7,610 8,164 7,715 7,482 7,200 5,116 5,735 0,000 2,619 9,706 URI 5,723 6,539 6,027 5,795 5,405 3,116 3,696 2,619 0,000 7,949 ZAD 2,935 2,102 2,269 3,174 3,559 5,112 4,897 9,706 7,949 0,000 GWY HER HUR JOY LOD ORK SIH UMB URI ZAD

Tabela VI.3. Macierz odległości obiektów na etapie skupień pierwotnych.

Odległości między obiektami należącymi do tego samego skupienia zostały wyróżnione szarą czcionką. Wartości tych nie uwzględniamy w trakcie konstruowania skupień drugiego rzędu.

Najmniejszą odnalezioną wartością jest odległość AZU-BAL, równa 1,054

(wyróżniona ciemnym tłem). Oznacza to, iż pierwsze i drugie skupienia

pierwotne łączą się w jedno skupienie drugiego rzędu, w którego skład

wchodzą obiekty: AZU, BAL, DUR, GOL, GRA, GWY, HER, HUR, JOY, LOD, ZAD.

(21)

AER 0,000 5,444 2,951 3,053 2,753 2,050 2,120 3,064 2,961 2,296 AND 5,444 0,000 6,116 5,545 5,271 4,339 4,510 6,631 4,858 4,550 AZU 2,951 6,116 0,000 1,054 1,173 2,904 3,000 2,498 1,824 2,342 BAL 3,053 5,545 1,054 0,000 0,737 2,938 2,861 3,272 1,516 2,349 DUR 2,753 5,271 1,173 0,737 0,000 2,365 2,321 3,052 0,907 1,919 EXC 2,050 4,339 2,904 2,938 2,365 0,000 0,930 3,245 1,961 1,006 GLA 2,120 4,510 3,000 2,861 2,321 0,930 0,000 3,866 1,933 1,108 GOL 3,064 6,631 2,498 3,272 3,052 3,245 3,866 0,000 3,316 3,309 GRA 2,961 4,858 1,824 1,516 0,907 1,961 1,933 3,316 0,000 1,576 GUR 2,296 4,550 2,342 2,349 1,919 1,006 1,108 3,309 1,576 0,000 GWY 2,025 5,917 1,332 1,481 1,401 2,687 2,763 2,397 2,080 2,470 HER 3,611 5,963 1,205 1,317 1,674 3,293 3,365 3,167 2,028 2,530 HUR 2,897 5,860 0,899 1,274 1,441 2,840 3,007 2,487 1,867 2,240 JOY 2,968 5,127 1,370 0,596 0,423 2,567 2,478 3,352 0,999 2,049 LOD 3,050 5,512 1,808 1,696 1,365 2,313 2,065 3,578 1,064 1,654 ORK 2,101 4,237 3,243 3,207 2,598 0,512 0,967 3,510 2,189 1,451 SIH 1,653 4,239 3,091 2,792 2,386 1,375 1,048 3,890 2,197 1,536 UMB 6,388 4,798 8,018 7,948 7,394 5,330 5,750 7,332 6,775 6,063 URI 4,201 4,591 6,220 6,211 5,645 3,378 3,640 5,774 5,132 4,169 ZAD 4,462 7,629 2,033 2,658 3,115 4,722 4,855 3,314 3,762 4,053 AER AND AZU BAL DUR EXC GLA GOL GRA GUR

AER 2,025 3,611 2,897 2,968 3,050 2,101 1,653 6,388 4,201 4,462 AND 5,917 5,963 5,860 5,127 5,512 4,237 4,239 4,798 4,591 7,629 AZU 1,332 1,205 0,899 1,370 1,808 3,243 3,091 8,018 6,220 2,033 BAL 1,481 1,317 1,274 0,596 1,696 3,207 2,792 7,948 6,211 2,658 DUR 1,401 1,674 1,441 0,423 1,365 2,598 2,386 7,394 5,645 3,115 EXC 2,687 3,293 2,840 2,567 2,313 0,512 1,375 5,330 3,378 4,722 GLA 2,763 3,365 3,007 2,478 2,065 0,967 1,048 5,750 3,640 4,855 GOL 2,397 3,167 2,487 3,352 3,578 3,510 3,890 7,332 5,774 3,314 GRA 2,080 2,028 1,867 0,999 1,064 2,189 2,197 6,775 5,132 3,762 GUR 2,470 2,530 2,240 2,049 1,654 1,451 1,536 6,063 4,169 4,053 GWY 0,000 2,201 1,502 1,631 2,245 2,888 2,525 7,610 5,723 2,935 HER 2,201 0,000 0,879 1,605 1,881 3,692 3,403 8,164 6,539 2,102 HUR 1,502 0,879 0,000 1,508 1,798 3,224 2,935 7,715 6,027 2,269 JOY 1,631 1,605 1,508 0,000 1,421 2,802 2,457 7,482 5,795 3,174 LOD 2,245 1,881 1,798 1,421 0,000 2,621 2,381 7,200 5,405 3,559 ORK 2,888 3,692 3,224 2,802 2,621 0,000 1,371 5,116 3,116 5,112 SIH 2,525 3,403 2,935 2,457 2,381 1,371 0,000 5,735 3,696 4,897 UMB 7,610 8,164 7,715 7,482 7,200 5,116 5,735 0,000 2,619 9,706 URI 5,723 6,539 6,027 5,795 5,405 3,116 3,696 2,619 0,000 7,949 ZAD 2,935 2,102 2,269 3,174 3,559 5,112 4,897 9,706 7,949 0,000 GWY HER HUR JOY LOD ORK SIH UMB URI ZAD

Tabela VI.4. Macierz odległości obiektów na etapie poszukiwania skupień

trzeciego rzędu. Najmniejszą odnalezioną wartością okazuje się

odległość GRA-GUR, równa 1,576 (wyróżniona ciemnym tłem).

(22)

AER 0,000 5,444 2,951 3,053 2,753 2,050 2,120 3,064 2,961 2,296 AND 5,444 0,000 6,116 5,545 5,271 4,339 4,510 6,631 4,858 4,550 AZU 2,951 6,116 0,000 1,054 1,173 2,904 3,000 2,498 1,824 2,342 BAL 3,053 5,545 1,054 0,000 0,737 2,938 2,861 3,272 1,516 2,349 DUR 2,753 5,271 1,173 0,737 0,000 2,365 2,321 3,052 0,907 1,919 EXC 2,050 4,339 2,904 2,938 2,365 0,000 0,930 3,245 1,961 1,006 GLA 2,120 4,510 3,000 2,861 2,321 0,930 0,000 3,866 1,933 1,108 GOL 3,064 6,631 2,498 3,272 3,052 3,245 3,866 0,000 3,316 3,309 GRA 2,961 4,858 1,824 1,516 0,907 1,961 1,933 3,316 0,000 1,576 GUR 2,296 4,550 2,342 2,349 1,919 1,006 1,108 3,309 1,576 0,000 GWY 2,025 5,917 1,332 1,481 1,401 2,687 2,763 2,397 2,080 2,470 HER 3,611 5,963 1,205 1,317 1,674 3,293 3,365 3,167 2,028 2,530 HUR 2,897 5,860 0,899 1,274 1,441 2,840 3,007 2,487 1,867 2,240 JOY 2,968 5,127 1,370 0,596 0,423 2,567 2,478 3,352 0,999 2,049 LOD 3,050 5,512 1,808 1,696 1,365 2,313 2,065 3,578 1,064 1,654 ORK 2,101 4,237 3,243 3,207 2,598 0,512 0,967 3,510 2,189 1,451 SIH 1,653 4,239 3,091 2,792 2,386 1,375 1,048 3,890 2,197 1,536 UMB 6,388 4,798 8,018 7,948 7,394 5,330 5,750 7,332 6,775 6,063 URI 4,201 4,591 6,220 6,211 5,645 3,378 3,640 5,774 5,132 4,169 ZAD 4,462 7,629 2,033 2,658 3,115 4,722 4,855 3,314 3,762 4,053 AER AND AZU BAL DUR EXC GLA GOL GRA GUR

AER 2,025 3,611 2,897 2,968 3,050 2,101 1,653 6,388 4,201 4,462 AND 5,917 5,963 5,860 5,127 5,512 4,237 4,239 4,798 4,591 7,629 AZU 1,332 1,205 0,899 1,370 1,808 3,243 3,091 8,018 6,220 2,033 BAL 1,481 1,317 1,274 0,596 1,696 3,207 2,792 7,948 6,211 2,658 DUR 1,401 1,674 1,441 0,423 1,365 2,598 2,386 7,394 5,645 3,115 EXC 2,687 3,293 2,840 2,567 2,313 0,512 1,375 5,330 3,378 4,722 GLA 2,763 3,365 3,007 2,478 2,065 0,967 1,048 5,750 3,640 4,855 GOL 2,397 3,167 2,487 3,352 3,578 3,510 3,890 7,332 5,774 3,314 GRA 2,080 2,028 1,867 0,999 1,064 2,189 2,197 6,775 5,132 3,762 GUR 2,470 2,530 2,240 2,049 1,654 1,451 1,536 6,063 4,169 4,053 GWY 0,000 2,201 1,502 1,631 2,245 2,888 2,525 7,610 5,723 2,935 HER 2,201 0,000 0,879 1,605 1,881 3,692 3,403 8,164 6,539 2,102 HUR 1,502 0,879 0,000 1,508 1,798 3,224 2,935 7,715 6,027 2,269 JOY 1,631 1,605 1,508 0,000 1,421 2,802 2,457 7,482 5,795 3,174 LOD 2,245 1,881 1,798 1,421 0,000 2,621 2,381 7,200 5,405 3,559 ORK 2,888 3,692 3,224 2,802 2,621 0,000 1,371 5,116 3,116 5,112 SIH 2,525 3,403 2,935 2,457 2,381 1,371 0,000 5,735 3,696 4,897 UMB 7,610 8,164 7,715 7,482 7,200 5,116 5,735 0,000 2,619 9,706 URI 5,723 6,539 6,027 5,795 5,405 3,116 3,696 2,619 0,000 7,949 ZAD 2,935 2,102 2,269 3,174 3,559 5,112 4,897 9,706 7,949 0,000 GWY HER HUR JOY LOD ORK SIH UMB URI ZAD

Tabela VI.5. Macierz odległości obiektów na etapie poszukiwania skupień czwartego rzędu. Najmniejszą odnalezioną wartością jest odległość ORK-URI, równa 3,116 (wyróżniona ciemnym tłem). Oznacza to jednocześnie, że do skupienia czwartego rzędu należą wszystkie obiekty zbioru danych.

Połączenie wszystkich obiektów kończy procedurę tworzenia dendrytu.

(23)

Po otrzymaniu finałowego skupienia wszystkich obiektów, należy zebrać wszystkie wyróżnione w kolejnych tabelach wartości, a następnie zaprezentować graficznie odległości pomiędzy obiektami w postaci dendrytu. Sens tej metody opiera się na następującym założeniu: długości linii łączących poszczególne obiekty muszą być proporcjonalne do wielowymiarowych odległości euklidesowych pomiędzy nimi.

Na koniec jesteśmy zmuszeni do postawienia dodatkowych wymagań: dendryt należy odpowiednio rozplanować - linie łączące poszczególne obiekty nie mogą się krzyżować.

Należy również pamiętać, że dendryt powinien być wynikiem kompromisu pomiędzy przejrzystością a informacją, którą niesie – jego idealna konstrukcja polega bowiem na tym, aby odległości obiektów niepołączonych również, przynajmniej z grubsza, pokrywały się z wartościami odległości euklidesowych pomiędzy nimi.

Przykład, c.d.:

Oto dendryt, stworzony na podstawie zestawu MIECZE:

IV. METODA GRAFICZNA CZEKANOWSKIEGO.

Ideologia oraz sposób wykonania diagramu Czekanowskiego dla obiektów jest identyczna, jak diagramu dla cech, który został wykonany w trakcie poprzedniego ćwiczenia;

jedyna różnica polega na fakcie, iż korzysta się z macierzy odległości euklidesowych, nie zaś – tangensowych.

1) Dysponując kwadratową macierzą odległości euklidesowych pomiędzy obiektami

(tabela VI.2.), ustala się przykładowe przedziały wartości i odpowiadające

im symbole graficzne.

(24)

# dla przedziału: 0,000-1,000;

+ dla przedziału: 1,000-2,000;

: dla przedziału: 2,000-3,000;

dla wartości wyższych niż 3,000.

2) W efekcie powyższych ustaleń powstaje nieuporządkowany diagram Czekanowskiego.

Przykład:

AER # : : : : : : : : : : +

AND #

AZU : # + + : : : + : + + # + + :

BAL + # # : : + : + + + # + : :

DUR : + # # : : # + + + + # + : :

EXC : : : : # # + + : : : : # +

GLA : : : : # # + + : : : # +

GOL : # : :

GRA : + + # + + # + : : + # + : :

GUR : : : + + + + # : : : : + + +

GWY : + + + : : : : : # : + + : : : :

HER + + + : : : # # + + :

HUR : # + + : : + : + # # + + : :

JOY : + # # : : # : + + + # + : :

LOD + + + : : + + : + + + # : :

ORK : : # # : + : : : # +

SIH + : : + + : + : : : : + #

UMB # :

URI : #

ZAD : : : : : #

AER AND AZU BAL DUR EXC GLA GOL GRA GUR GWY HER HUR JOY LOD ORK SIH UMB URI ZAD

Obraz

Updating...

Cytaty

Powiązane tematy :