ANALIZA GŁÓWNYCH SKŁADOWYCH Celem przedostatniego ćwiczenia laboratoryjnego jest wykonanie analizy podobieństwa cech i obiektów metodą o największym ciężarze gatunkowym, jaką jest analiza głównych składowych (ang.

(1)

77

Ćwiczenie nr 10:

ANALIZA GŁÓWNYCH SKŁADOWYCH

Celem przedostatniego ćwiczenia laboratoryjnego jest wykonanie analizy podobieństwa cech i obiektów metodą o największym ciężarze gatunkowym, jaką jest analiza głównych składowych (ang. Principle Component Analysis, PCA). Realizacja tego celu gwarantuje masę zabawy i niezapomnianych wrażeń.

I. PRZYGOTOWANIE DANYCH DO PROGRAMU PCA.EXE.

Należy przygotować dwa pliki danych wejściowych do programu PCA.EXE. Pierwszy plik, o przykładowej nazwie dane.nzw (wymagane jest rozszerzenie *.nzw²⁶), powinien zawierać nazwy wszystkich obiektów, umieszczone w kolumnie. Długość nazwy obiektu nie może przekraczać ośmiu znaków. Drugi plik, o przykładowej nazwie dane.txt (nazwa pierwszego pliku musi pokrywać się z nazwą drugiego - powinny różnić się jedynie rozszerzeniami!) powinien zawierać wartości z tabeli danych autoskalowanych – bez nazw zmiennych oraz obliczonych wartości średnich i odchyleń standardowych. Koniecznie trzeba pamiętać, aby w pliku dane.txt zamienić przecinki na kropki!

II. WYKONANIE OBLICZEŃ.

Po przygotowaniu dwóch plików z danymi wejściowymi, należy umieścić je w tym samym folderze, w którym znajduje się PCA.EXE, a następnie uruchomić program. W wyniku tych działań wywiąże się kolejna, pełna wzajemnego szacunku dyskusja pomiędzy Studentem a programem PCA.EXE.

PCA: ANALIZA CZYNNIKÓW!

STUDENT: <zadowolony, naciska dwa razy Enter>

PCA: Ilosc zmiennych…

STUDENT: <wpisuje liczbę swoich zmiennych, Enter>

PCA: Liczba obiektow…

STUDENT: <wpisuje liczbę swoich obiektów, Enter>

PCA: Zapis wynikow?

STUDENT: <wpisuje> t 

PCA: Nazwa pliku wynikowego:

STUDENT: <tworzy unikalną w skali świata nazwę pliku wynikowego, złożoną z maksymalnie 8 znaków, wpisuje ją i naciska Enter>

26 Częstym problemem, który pojawia się w trakcie zajęć, a który nadzwyczaj skutecznie zniechęca program PCA.EXE do działania, jest przygotowywanie pliku o nazwie dane.nzw.txt, zamiast dane.nzw. Aby przygotować plik z rozszerzeniem *.nzw, należy otworzyć Notatnik, umieścić w oknie wymaganą zawartość, a następnie wybrać opcję Zapisz jako…, zaś typ pliku ustawić na Wszystkie pliki (*.*). Dopiero przy takich ustawieniach podanie nazwy pliku jako dane.nzw zaowocuje utworzeniem pliku o pożądanym rozszerzeniu.

(2)

78 PCA: WCZYTANIE DANYCH.

Nazwa zestawu obiektow…

STUDENT: <podaje nazwę swojego zestawu danych bez rozszerzenia, np.> dane 

PCA: Nazwa zmiennej 1:

STUDENT: <podaje nazwę zmiennej, która w macierzy danych autoskalowanych stanowi pierwszą kolumnę od lewej i naciska Enter>

PCA: <pyta kolejno o nazwy wszystkich zmiennych>

STUDENT: <uprzejmie odpowiada>

PCA: <pokazuje macierz korelacji i pyta:> drukujemy?

STUDENT: <odpowiada:> t 

PCA: <podaje parametry pierwsze składowej i pyta:> Liczymy dalej?

STUDENT: t <Enter>

PCA: <podaje parametry kolejnych składowych, a student na pytanie:> Liczymy dalej? <odpowiada> t <tak długo, aż PCA wyświetli następujący komunikat:>

n-ta²⁷ skladowa

n-ta wartosc wlasna: 0.0000 wyjasnia 0.0% zmiennosci dotychczasowe składowe: 100%

Odchylenie resztowe: 0.00

Liczymy dalej?

STUDENT: <odpowiada> n 

PCA: <wyświetla podejrzaną tabelę i pyta:> Ile składowych uznajesz za istotne?

STUDENT: <obserwuje pierwszy i trzeci wiersz podejrzanej tabeli, tj. wartości wlasne oraz sumaryczny % , a następnie podejmuje decyzję:>

1) <jeżeli tylko jedna lub dwie wartości własne są większe od 1 oraz druga od lewej wartość w wierszu sumaryczny % jest bliska 90, odpowiada:>

2

2) <jeżeli więcej niż dwie wartości własne są większe od 1, i/lub druga od lewej wartość w wierszu sumaryczny % jest na poziomie 60-70 – odpowiada:> 3

3) <w przeciwnym razie odpowiada:> 4

PCA: <wyświetla tabelę ładunków oraz długości składowych i pyta> drukujemy?

STUDENT: t 

PCA: Wykonac Varimax?

PCA: <wyświetla tabelę ładunków oraz długości składowych po rotacji VARIMAX>

27 Jeżeli wszystko zostało wykonane poprawnie, w miejscu n pojawi się wartość o jeden większa, niźli liczba zmiennych. Oznacza to, że liczba składowych, które wyjaśniają więcej, niźli 0,0% zmienności, jest dokładnie taka, jak liczba zmiennych.

(3)

79 STUDENT: <naciska Enter trzy razy>

PCA: Drukowac?

PCA: UZYSKANE CZYNNIKI:

<tabela>

Drukujemy?

PCA: NOWY ZESTAW?

STUDENT: n <Enter>

PCA: <kończy pracę>

STUDENT: <urządza sobie 5 minut przerwy>

PROWADZĄCY: <przygotowuje się psychicznie na grad pytań>

III. WYKRES ZMIENNYCH W PRZESTRZENI VARIWEKTORÓW I MAPA LINIOWA OBIEKTÓW.

Wyniki wykonanych w sekcji II obliczeń zostały umieszczone w pliku wynikowym o rozszerzeniu *.OUT.

Przykład:

Zestaw MIECZE, który zawiera 7 zmiennych i 20 obiektów, poddaliśmy analizie głównych składowych. Po wykonaniu obliczeń i uwzględnieniu dwóch pierwszych składowych jako istotnych, otrzymaliśmy następujące wyniki:

G L O W N E S K L A D O W E Odchylenie ogolne = 0.97

wartosci wlasne: 4.7770 0.8973 0.4589 0.2813

% informacji 71.84 13.49 6.90 4.23 sumaryczny % 71.84 85.33 92.23 96.46 resztowe od.sta. 0.5587 0.4417 0.3594 0.2800 Za istotne uznano 2 skladowe !

Po udzieleniu pozytywnej odpowiedzi na propozycje wykonania rotacji VARIMAX otrzymaliśmy następujące wyniki końcowe:

Ladunki skladowych Dlugosc skladowych (DC*) 0.9431 0.1077 0.9493

(DG*) 0.8947 0.1244 0.9033 (DR) 0.7540 0.1157 0.7629 (M) 0.9361 0.0104 0.9362

(4)

80 (SM) 0.8455 -0.1693 0.8623

(T) 0.9053 0.0658 0.9077 (CR*) 0.2357 0.9359 0.9652 W Y L I C Z O N E C Z Y N N I K I :

czyn 1 czyn 2 AER 0.280 1.193 AND 7.024 -1.922 AZU -4.121 -0.356 BAL -3.552 -1.104 DUR -2.434 -0.742 EXC 1.878 0.545 GLA 1.604 0.224 GOL -2.613 1.517 GRA -1.066 -0.711 GUR 0.447 -0.014 GWY -3.005 0.152 HER -4.276 -1.028 HUR -3.536 -0.360 JOY -2.483 -1.090 LOD -1.884 -0.565 ORK 2.526 0.627 SIH 1.691 0.119 UMB 12.580 1.996 URI 8.649 2.100 ZAD -7.709 -0.581

Na końcu pliku wynikowego programu PCA.EXE znajdują się dwie tabele.

Kolejne wiersze pierwszej z nich odpowiadają kolejnym zmiennym w przestrzeni dwóch lub trzech pierwszych variwektorów. Zmienne te są reprezentowane przez wektory o składowych równych obliczonym ładunkom (po rotacji VARIMAX) i mogą nadawać znaczenia (interpretacje) poszczególnym variwektorom.

Aby wykonać wykres zmiennych w przestrzeni variwektorów, należy nanieść te wektory na układ współrzędnych, którego osie reprezentują dwa lub trzy pierwsze variwektory²⁸.

Przykład, c.d.:

Wykonujemy wykres zmiennych zestawu MIECZE w przestrzeni dwóch pierwszych variwektorów:

28 Istnieje uzasadnione niebezpieczeństwo, że za istotne zostaną uznane trzy pierwsze główne składowe.

Będzie to wiązało się z koniecznością wykonania wykresów trójwymiarowych (XYZ). Instrukcja stworzenia ich w Excelu (a dokładniej: ich iluzji) znajduje się w Dodatku E na końcu niniejszej instrukcji.

(5)

81 Cena repliki (CR*) wyraźnie odbiega od pozostałych cech, samodzielnie nadając znaczenie osi pionowej (vwII). Pozostałe zmienne zgrupowały się wokół osi poziomej (vwI), nadając jej sens "rozmiarów repliki". Jednocześnie, duża odległość zmiennej CR* od pozostałych cech (zauważona przez nas już wcześniej na diagramie wiązkowym i diagramie Czekanowskiego; patrz: ćwiczenie nr 5) wskazuje, że cena repliki nie jest liniowo zależna od jej rozmiaru.

Druga tabela, czyli WYLICZONE CZYNNIKI, zawiera współrzędne kolejnych obiektów w przestrzeni dwóch lub trzech pierwszych variwektorów. Jest zatem rzutem rozmieszczenia obiektów w n-wymiarowej hiperprzestrzeni na dwu- lub trójwymiarową podprzestrzeń tzw. mapy liniowej. Osie mapy liniowej obiektów są tymi samymi variwektorami, co na wykresie rozmieszczenia zmiennych – mają zatem identyczne znaczenia (interpretacje).

Mapa liniowa pozwala uzyskać obraz w dużym stopniu odpowiadający wzajemnym relacjom obiektów w wielowymiarowej hiperprzestrzeni. Trzeba jednak pamiętać, iż jest to zaledwie rzut i nie odtwarza tych relacji w sposób doskonały. Miarą jakości odtworzenia jest sumaryczny % informacji, wyjaśniany przez składowe uznane za istotne.

Po wykonaniu mapy liniowej obiektów należy:

1) określić rodzaj i stopień niejednorodności zbioru obiektów (ocenić, czy zbiór dzieli się na podgrupy, zawiera punkty odosobnione, etc.);

2) korzystając ze znaczenia nadanego variwektorom (osiom mapy) podjąć próbę interpretacji rozmieszczenia podgrup i obiektów odosobnionych. Należy przy tym pamiętać, że wartościom 0 na osiach mapy odpowiadają wartości średnie cech w analizowanym zbiorze obiektów.

(6)

82 Przykład, c.d.:

Wykonujemy mapę liniową obiektów zestawu MIECZE w przestrzeni dwóch pierwszych variwektorów:

Na mapie liniowej dostrzegamy dwa zwarte skupienia obiektów (wewnątrz szarych elips) i kilka mniej lub bardziej rozrzuconych obiektów odosobnionych.

Uzyskana mapa pozwala na scharakteryzowanie poszczególnych podgrup obiektów, zgodnie ze znaczeniem osi: oś pozioma = rozmiar repliki, oś pionowa = cena repliki.

I tak:

1) obiekt AND jest repliką o znacznych rozmiarach, a przy tym zdecydowanie najtańszą;

2) obiekty URI i UMB są replikami największymi i najdroższymi;

3) grupę obiektów {EXC, GLA, GUR, ORK, SIH} charakteryzują rozmiary i ceny lekko powyżej przeciętnych;

4) grupę obiektów {AZU, BAL, DUR, GRA, HER, HUR, JOY, LOD}

charakteryzują rozmiary i ceny lekko poniżej przeciętnych;

(7)

83 5) obiekt ZAD jest najmniejszy, lecz jego cena plasuje się

zaledwie lekko poniżej średniej (drogie materiały? kunszt kowala?);

6) obiekty AER i GOL mają przeciętne rozmiary, lecz są dość drogie;

7) obiekt GWY ma prawie identyczne rozmiary, jak obiekt GOL, lecz jest od niego o wiele tańszy (konkurencja rynkowa!).

Skonfrontujmy powyższe wnioski z wejściową tabelą danych (patrz:

ćwiczenie nr 2). Teraz dopiero jesteśmy w stanie zauważyć niektóre prawidłowości, istniejące w danych od początku, lecz ujawnione dopiero po zastosowaniu analizy głównych składowych. Rzeczywiście: ZAD jest repliką najmniejszą, AND najtańszą, zaś UMB i URI są największe i jednocześnie najdroższe. Jednakże wypowiedzenie się o cechach pozostałych replik na podstawie samej li tylko tabeli danych jest praktycznie niemożliwe.

IV. SPRAWOZDANIE.

W sprawozdaniu należy umieścić wykres zmiennych oraz mapę liniową obiektów w przestrzeni odpowiedniej liczby variwektorów, wraz z komentarzem. Prosimy również o dołączenie pliku wynikowego z programu PCA.EXE.

(8)

84

Dodatek E:

Tworzenie iluzji wykresu trójwymiarowego w Excelu.

Zgodnie ze stanem wiedzy Autorów tego opracowania, Excel nie posiada "przyrodzonej"

zdolności do tworzenia wykresów punktowych w trójwymiarowym układzie współrzędnych.

Ergo, w celu stworzenia takiego wykresu w Excelu, należy posłużyć się odpowiednim trikiem matematycznym. Jeżeli Czytelnik zetknął się w swojej karierze z rysunkiem technicznym, powinien znać ten trik - zamiast zatem tłumaczyć jego ideę, przejdziemy od razu do praktyki.

Przykład:

20 modeli myśliwskich celowników optycznych opisano 7 cechami. Po wykonaniu analizy PCA za istotne uznaliśmy trzy pierwsze główne składowe. Po rotacji VARIMAX uzyskaliśmy następujące ładunki:

Ladunki skladowych 0.8663 0.1944 -0.0288 0.2647 0.8354 0.0780 0.8157 -0.3052 0.1775 0.8830 0.2552 0.0906 0.1394 0.8587 0.1618 -0.4623 0.7732 0.1410 0.0354 0.1633 0.9771

Musimy teraz wykonać wykres 3D, obrazujący rozmieszczenie wektorów siedmiu zmiennych (opisanych przez zaprezentowane powyżej ładunki) w przestrzeni trzech ortogonalnych variwektorów; a w praktyce – w układzie współrzędnych XYZ.

Załóżmy, że oś pozioma układu współrzędnych będzie odpowiadała variwektorowi I (vwI; ładunki w kolumnie lewej), oś pionowa – variwektorowi II (vwII; ładunki w kolumnie środkowej), zaś oś skierowana w stronę Czytelnika – variwektorowi III (vwIII; ładunki w kolumnie prawej).

(9)

85 Iluzję wykresu 3D można zatem uzyskać, przy pomocy Excela, w następujący sposób:

1) Najpierw, należy odpowiednio zmodyfikować wartości ładunków dwóch pierwszych variwektorów za pomocą wartości ładunków trzeciego variwektora (dla wszystkich zmiennych), zgodnie z wzorami:

xJ’ = xJ – 0,5∙zJ

yJ’ = yJ – 0,5∙zJ

gdzie:

x_J – wartość ładunku variwektora I J-tej zmiennej;

yJ – wartość ładunku variwektora II J-tej zmiennej;

zJ – wartość ładunku variwektora III J-tej zmiennej.

Otrzymuje się w ten sposób współrzędne wektorów zmiennych, [x’,y’].

2) Następnie, należy obliczyć współrzędne rzutów prostokątnych końców tych wektorów na płaszczyznę, wyznaczoną przez vwI i vwIII [x",y"]; zgodnie z wzorami:

xJ" = xJ' yJ" = –0,5∙zJ

Punkty te mają za zadanie ułatwić określenie, w której części przestrzeni znajdują się końce wektorów "oryginalnych" zmiennych.

3) Ostatecznie, należy wykonać w Excelu wykres punktowy (X,Y) z wartości x’ i y’

(pierwsza seria danych) oraz x" i y" (druga seria danych); zaś oś skierowaną w stronę Czytelnika dorysować… ręcznie, za pomocą narzędzia Autokształty.

Korzystając z tego samego narzędzia, należy również dorysować wektory

(10)

86 zmiennych (połączyć początek układu współrzędnych z końcem wektora) i linie rzutowania (połączyć koniec wektora z jego rzutem na płaszczyznę).

Przykład, c.d.:

Tabelę zawierającą obliczone współrzędne wektorów (oraz ich rzutów na płaszczyznę), a także wykonaną iluzję wykresu 3D dla powyższych danych zaprezentowaliśmy poniżej.

x y z x' y' x" y"

0,866 0,194 -0,029 0,881 0,209 0,881 0,014 0,265 0,835 0,078 0,226 0,796 0,226 -0,039 0,816 -0,305 0,178 0,727 -0,394 0,727 -0,089 0,883 0,255 0,091 0,838 0,210 0,838 -0,045 0,139 0,859 0,162 0,059 0,778 0,059 -0,081 -0,462 0,773 0,141 -0,533 0,703 -0,533 -0,071 0,035 0,163 0,977 -0,453 -0,325 -0,453 -0,489

(11)

87

Ćwiczenie nr 11:

ANALIZA SKUPIEŃ

Efektem wykonania analizy podobieństwa obiektów jest otrzymanie obrazu rozmieszczenia obiektów w wielowymiarowej przestrzeni cech. Obraz ten może mieć postać diagramu Czekanowskiego, dendrytu lub diagramu wiązkowego. Często jednak, w przypadku niejednorodnego zbioru obiektów, nie jest oczywiste, na ile podzbiorów (i o jakim charakterze) można go sensownie podzielić. Pewnych sugestii w tym zakresie może dostarczyć analiza głównych składowych, a zwłaszcza mapa liniowa obiektów. Przy pomocy mapy liniowej możliwe jest podjęcie próby dokonania podziału zbioru obiektów metodą najstarszą, subiektywną, ale niekiedy zadziwiająco skuteczną, tj. "na oko".

Reguły sztuki domagają się jednak zastosowania możliwie obiektywnej metody podziału zestawu obiektów na podzbiory. Metody takie oferuje dział chemometrii zwany analizą skupień; należą do nich, m.in., naturalny podział diagramu wiązkowego oraz naturalny podział dendrytu. Ponieważ w trakcie ćwiczenia nr 6 został wykonany dendryt obiektów, poniżej opiszemy zastosowanie naturalnego podziału dendrytu.

I. NATURALNY PODZIAŁ DENDRYTU.

W celu zobrazowania poszczególnych kroków tej metody, posłużymy się dendrytem wykonanym dla zestawu MIECZE. Do dzieła!

1) Podział dendrytu rozpoczyna się od umieszczenia go w zasięgu ręki.

Kopiujemy dendryt dla zestawu MIECZE w miejsce łatwo dostępne:

2) Następnie, należy wypisać wiązadła pomiędzy obiektami w dendrycie. W wykonaniu zadania bardzo pomocna jest tabela sporządzona zgodnie z poleceniami

(12)

88 zawartymi w punkcie 2) sekcji III instrukcji do ćwiczenia nr 6, zawierająca spis wiązadeł pomiędzy obiektami w obrębie skupień pierwotnych. Wystarczy zatem skopiować ww. tabelę do używanego obecnie arkusza i uzupełnić ją o brakujące połączenia między skupieniami pierwotnymi.

Interesująca nas tabela została wcześniej opisana jako tabela VI.1. Kopiujemy ją zatem do nowego arkusza i uzupełniamy informacjami o połączeniach AZU-BAL, GRA-GUR oraz ORK-URI, uzyskanymi dzięki tabelom VI.3., VI.4. oraz VI.5.

Obiekt: Sąsiad: Odległość:

GWY AZU 1,332

ZAD AZU 2,033

GRA DUR 0,907

GLA EXC 0,930

GUR EXC 1,006

SIH GLA 1,048

LOD GRA 1,064

GOL GWY 2,397

AZU HUR 0,899

HER HUR 0,879

BAL JOY 0,596

DUR JOY 0,423

AND ORK 4,237

EXC ORK 0,512

AER SIH 1,653

UMB URI 2,619

AZU BAL 1,054

GRA GUR 1,576

ORK URI 3,116

3) Kolejnym krokiem jest posortowanie tabeli względem kolumny Odległość od wartości największej do najmniejszej.

Obiekt: Sąsiad: Odległość:

AND ORK 4,237

ORK URI 3,116

UMB URI 2,619

GOL GWY 2,397

ZAD AZU 2,033

AER SIH 1,653

GRA GUR 1,576

GWY AZU 1,332

LOD GRA 1,064

AZU BAL 1,054

SIH GLA 1,048

GUR EXC 1,006

GLA EXC 0,930

GRA DUR 0,907

AZU HUR 0,899

HER HUR 0,879

BAL JOY 0,596

EXC ORK 0,512

DUR JOY 0,423

(13)

89 4) Następnie, należy dodać do tabeli kolumnę Ilorazy. Umieszcza się w niej wartości ilorazów dwóch sąsiednich odległości (górna/dolna) na poziomie odległości dolnej.

Wypełnienie nowej kolumny "Ilorazy" rozpoczynamy w drugim wierszu od góry, definiując iloraz odległości obiektów AND-ORK i ORK-URI, a następnie formułę tę przeciągamy w dół, do końca tabeli.

Obiekt: Sąsiad: Odległość: Ilorazy:

AND ORK 4,237

ORK URI 3,116 1,360

UMB URI 2,619 1,190

GOL GWY 2,397 1,093

ZAD AZU 2,033 1,179

AER SIH 1,653 1,230

GRA GUR 1,576 1,049

GWY AZU 1,332 1,183

LOD GRA 1,064 1,252

AZU BAL 1,054 1,009

SIH GLA 1,048 1,006

GUR EXC 1,006 1,042

GLA EXC 0,930 1,082

GRA DUR 0,907 1,025

AZU HUR 0,899 1,009

HER HUR 0,879 1,023

BAL JOY 0,596 1,475

EXC ORK 0,512 1,164

DUR JOY 0,423 1,210

W tak przygotowanej tabeli poszukuje się dostatecznie dużych wartości lokalnie największych ilorazów (LNI). Przez pojęcie "lokalnie największego ilorazu"

rozumiemy wartość w kolumnie Ilorazy, która: i) jest większa, niż jej sąsiedzi (górny i dolny); ii) nie jest ostatnia w tabeli (ale może być pierwsza, pomimo braku sąsiada "od góry"). Do dalszej analizy używa się jednak tylko tych LNI, które spełniają kolejne kryteria: i) ich wartość jest większa od pewnej wartości krytycznej, zwykle równej 1,2; ii) nie znajdują się zbyt blisko dolnego końca tabeli. Użycie LNI znajdujących się w dolnych rejonach tabeli doprowadziłoby bowiem do rozpadu dendrytu na niemal wyłącznie pojedyncze obiekty, a przez to do utraty informacji o wewnętrznej strukturze zbioru obiektów.

Podane powyżej kryteria spełniają wartości LNI wyróżnione w poniższej tabeli ciemnym tłem:

Obiekt: Sąsiad: Odległość: Ilorazy:

AND ORK 4,237

ORK URI 3,116 1,360

UMB URI 2,619 1,190

GOL GWY 2,397 1,093

ZAD AZU 2,033 1,179

AER SIH 1,653 1,230

GRA GUR 1,576 1,049

GWY AZU 1,332 1,183

(14)

90

LOD GRA 1,064 1,252

AZU BAL 1,054 1,009

SIH GLA 1,048 1,006

GUR EXC 1,006 1,042

GLA EXC 0,930 1,082

GRA DUR 0,907 1,025

AZU HUR 0,899 1,009

HER HUR 0,879 1,023

BAL JOY 0,596 1,475

EXC ORK 0,512 1,164

DUR JOY 0,423 1,210

Ilorazy 1,475 oraz 1,210 nie spełniają ww. kryteriów z uwagi na swe położenie w tabeli.

5) Kolejnym krokiem jest ustalenie wersji podziału dendrytu. Wyboru dokonuje się pomiędzy dwiema wersjami podziału: jednoznaczną i hierarchiczną. Wersja jednoznaczna zakłada jednoetapowy podział dendrytu, zaś wersja hierarchiczna – stopniowy.

Podział jednoetapowy wymaga odnalezienia największej z wartości LNI, a następnie usunięcia z dendrytu wszystkich połączeń znajdujących się w wierszach powyżej odnalezionego maximum maximorum.

Dla zestawu MIECZE, największa wartość LNI znajduje się w drugim wierszu tabeli i wynosi 1,360. Zastosowanie wersji jednoznacznej sprowadza się zatem do usunięcia połączenia AND- ORK, co prowadzi do wyodrębnienia punktu odbiegającego AND.

W tym przypadku, wersja jednoznaczna nie ujawniła żadnych nowych informacji dotyczących wewnętrznej struktury zbioru danych. Oddzielenie się obiektu AND jako punktu odbiegającego

(15)

91 było doskonale widoczne już w trakcie analizy głównych składowych, zatem do stwierdzenia wyjątkowości ww. obiektu wykonanie analizy skupień nie było konieczne.

Wersja hierarchiczna zakłada stopniowy, hierarchiczny podział dendrytu w celu uzyskania dokładniejszych informacji o wewnętrznej strukturze zbioru danych.

Podział ten przeprowadza się, usuwając stopniowo z dendrytu połączenia znajdujące się w wierszach powyżej kolejnych LNI.

Podział hierarchiczny dendrytu, wykonanego dla zestawu MIECZE, rozpoczynamy od usunięcia połączeń znajdujących się w wierszach powyżej wartości pierwszego LNI (równej 1,360), a zatem od usunięcia połączenia AND-ORK (połączenie to usunęliśmy całkowicie z poniższej wizualizacji dendrytu).

Następnie, usuwamy połączenia znajdujące się w wierszach powyżej wartości drugiego LNI (równej 1,230), czyli połączenia:

ORK-URI, UMB-URI, GOL-GWY oraz AZU-ZAD (połączenia te przedstawiliśmy w postaci szarych linii przerywanych).

Na końcu, usuwamy połączenia znajdujące się w wierszach powyżej wartości trzeciego (i ostatniego) LNI (równej 1,252), czyli połączenia: AER-SIH, GRA-GUR oraz AZU-GWY (połączenia te przedstawiliśmy w postaci linii przerywanych).

W tym konkretnym przypadku, pierwszy etap podziału hierarchicznego doprowadził do takiego samego obrazu, jak podział jednoznaczny. Takie zjawisko nie jest regułą.

Drugi etap podziału wyodrębnił pojedyncze obiekty, stanowiące punkty odbiegające drugiego rzędu, czyli: GOL, UMB, URI oraz ZAD.

(16)

92 Ostatni etap podziału ujawnił istnienie dwóch jednorodnych podzbiorów, złożonych z obiektów: {AZU, BAL, DUR, GRA, LOD, HER, HUR, JOY} oraz {EXC, GLA, GUR, ORK, SIH}. Pojawiły się również punkty odbiegające trzeciego rzędu, czyli AER oraz ZAD.

Naturę uzyskanych podzbiorów można w pełni określić dopiero po konfrontacji uzyskanego obrazu z tabelą danych wejściowych oraz z wynikami analizy głównych składowych. Radość tę pozostawimy sobie jednak na sam koniec – doświadczą jej w pełni jedynie ci, którzy wybrali dla swoich danych problem analizy skupień. Tych, którzy wybrali jeden z dwóch pozostałych problemów, zapraszamy do prześledzenia przykładu, zaprezentowanego w sekcji IV instrukcji do sprawozdania końcowego.

II. SPRAWOZDANIE.

W sprawozdaniu Student powinien umieścić tabelę zaprezentowaną w punkcie 4) sekcji I, a także dokonać podziału dendrytu metodą jednoznaczną lub hierarchiczną (jeżeli wersja jednoznaczna nie ujawni wewnętrznej struktury zbioru, należy zastosować wersję hierarchiczną). Mile widziana będzie próba dokonania wstępnej interpretacji natury otrzymanych podzbiorów.

(17)

93

Zadanie domowe:

SPRAWOZDANIE KOŃCOWE

W instrukcji do ćwiczenia nr 1 sformułowaliśmy propozycje problemów, które są możliwe do rozwiązania w trakcie zajęć laboratoryjnych z chemometrii, a które miały dotyczyć przygotowanych przez Studentów zestawów danych. Propozycje te prezentowały się następująco:

1. Modelowanie zależności wybranej cechy od pozostałych zmiennych (nazywanych wówczas zmiennymi objaśniającymi).

2. Analiza podobieństwa zmiennych i obiektów (poznanie wewnętrznej struktury zbioru danych).

3. Analiza skupień pozwalająca na obiektywny podział niejednorodnego zbioru obiektów na jednorodne podgrupy.

Niniejsza, ostatnia już instrukcja ma na celu pomóc Studentowi w przygotowaniu sprawozdania końcowego, którego treść ma stanowić możliwie jednoznaczne rozwiązanie problemu, wybranego dla Jego zestawu danych.

Jeżeli Student skorzystał z sugestii podanej we wprowadzeniu do niniejszego skryptu, tj. gromadził wszystkie wyniki w jednym pliku (zawierającym obliczenia dla każdego z ćwiczeń w osobnym arkuszu) - sprawozdanie końcowe może przyjąć postać kolejnego arkusza kalkulacyjnego, do którego zostaną przeniesione (skopiowane) wyniki cząstkowe z odpowiednich arkuszy, wraz z ewentualnymi uzupełnieniami. Jeżeli jednak Student odczuwa potrzebę bardziej "literackiej" prezentacji wyników, możliwe jest oczywiście przygotowanie sprawozdania w całości w postaci pliku tekstowego.

Ponieważ sposób przygotowania wszystkich składników sprawozdania końcowego został już podany w poprzednich instrukcjach, poniżej nie będziemy powtarzali ich opisu.

Mimo tego prosimy, aby Student nie odwdzięczał się nam tym samym – w sprawozdaniu końcowym należy umieścić wymagane obliczenia, wykresy, opisy i wnioski w jednym miejscu i w podanym poniżej porządku.

Do przeprowadzenia przykładowej dyskusji końcowej wykorzystamy wyniki uzyskane dla bardzo dobrze znanego już Czytelnikowi zestawu MIECZE.

I. CZĘŚĆ WSPÓLNA.

Niezależnie od natury postawionego problemu, początkowa część sprawozdania powinna zawierać następujące elementy:

 przygotowaną do dalszych analiz tabelę danych wejściowych, zawierającą: źródło danych, datę utworzenia i modyfikacji, imię i nazwisko Studenta, definicję problemu oraz objaśnienia skrótów;

(18)

94

 wszystkie elementy sprawozdania z ćwiczenia nr 3 ("Kontrola pojedynczych zmiennych");

 wszystkie elementy sprawozdania z ćwiczenia nr 4 ("Korelacje pomiędzy zmiennymi");

 wszystkie elementy sprawozdania z ćwiczenia nr 5 ("Analiza podobieństwa cech").

Wszystkie wymienione wyżej elementy, wykonane dla zestawu MIECZE, znajdują się w instrukcjach do odpowiednich ćwiczeń.

II. MODELOWANIE ZALEŻNOŚCI WYBRANEJ CECHY OD POZOSTAŁYCH ZMIENNYCH.

W przypadku, gdy celem Studenta jest skonstruowanie liniowego modelu zależności zmiennej zależnej od pozostałych zmiennych, należy zwrócić szczególną uwagę na postać zależności pomiędzy zmienną zależną i pozostałymi zmiennymi. Warto wykorzystać w tym celu odpowiednie wykresy korelacyjne, wykonane w trakcie ćwiczenia nr 4. Jeżeli okaże się, że występują wyraźne zależności nieliniowe, należy podjąć próbę ich linearyzacji (patrz:

ćwiczenie nr 9). Jeżeli zakończy się ona powodzeniem, radykalnie wzrosną szanse na uzyskanie eleganckiego i istotnego modelu liniowego. W takim przypadku, niestety trzeba będzie powtórzyć analizę transformowanej zmiennej (ćwiczenie nr 3), analizę podobieństwa cech (ćwiczenie nr 5) oraz analizę głównych składowych (ćwiczenie nr 10) dla nowego, zlinearyzowanego zestawu zmiennych.

W sprawozdaniu końcowym należy umieścić ponadto:

 informacje o (ewentualnie) użytych funkcjach linearyzujących;

 tabelę danych autoskalowanych (jeżeli zastosowano funkcje linearyzujące – autoskalowanie należy wykonać ponownie, wykorzystując dane po linearyzacji!);

 wykres rozmieszczenia zmiennych w przestrzeni istotnych variwektorów:

 jeżeli nie dokonano linearyzacji zmiennych – należy użyć elementów sprawozdania z ćwiczenia nr 10 ("Analiza głównych składowych");

 w przeciwnym wypadku – należy wykonać obliczenia i wykres od nowa (dla danych po linearyzacji);

 wnioski dotyczące relacji pomiędzy zmiennymi:

 czy wybrana zmienna zależna jest skorelowana z pozostałymi zmiennymi?;

 czy zmienne objaśniające są skorelowane pomiędzy sobą?;

 decyzję, wraz z uzasadnieniem, o podjęciu próby stworzenia modelu zależności lub o rezygnacji z niej;

 w przypadku podjęcia próby stworzenia modelu zależności: wszystkie etapy tworzenia modelu przez program MEOD.EXE oraz ocenę jakości ostatecznego modelu.

Przykład:

(19)

95 Dla zestawu MIECZE, najbardziej naturalną cechą, której wartości chcielibyśmy modelować w oparciu o wartości pozostałych zmiennych, jest cena repliki, CR*.

Wartości współczynniki korelacji liniowej oraz determinacji (ćwiczenie nr 4, sekcja I) wskazują na kompletny brak liniowych zależności zmiennej CR* od pozostałych zmiennych. Wykresy korelacyjne zmiennej CR* (nieumieszczone w instrukcjach) nie wskazują również na istnienie jakichkolwiek zależności nieliniowych.

Analiza wiązkowa zmiennych (ćwiczenie nr 5, sekcja II) oraz diagram Czekanowskiego dla cech (ćwiczenie nr 5, sekcja III) wyraźnie wskazują, iż spośród wszystkich cech zmienna CR* jest najmniej skorelowana z pozostałymi. W rzeczywistości możemy mówić o braku korelacji.

Wykres zmiennych w przestrzeni dwóch pierwszych variwektorów (ćwiczenie nr 10, sekcja III) potwierdza, iż zmienna CR* jest prawie ortogonalna do zmiennych objaśniających. Z kolei same zmienne objaśniające są na tyle do siebie podobne, że w praktyce opisują tylko jedną cechę replik - ich wielkość.

Wszystkie powyższe obserwacje skłaniają nas ku wnioskowi, iż podejmowanie próby stworzenia liniowego modelu zależności zmiennej CR*

od pozostałych zmiennych jest pozbawione sensu.

Odpowiedź na postawiony problem jest zatem następująca:

niemożliwie jest modelowanie ceny repliki w oparciu o wartości pozostałych cech.

Wykazaliśmy tym samym, że cena repliki nie zależy od jej rozmiarów, lecz od innych parametrów, takich jak: i) rodzaju materiału, z którego ją wykonano; ii) kunsztu kowala oraz iii) ewentualnych zdobień. Tego typu parametry trudno jest wyrazić w postaci liczbowej, przez co nie znalazły się one w tabeli danych wejściowych.

III. ANALIZA PODOBIEŃSTWA ZMIENNYCH I OBIEKTÓW.

Jeżeli celem Studenta jest poznanie wewnętrznej struktury zbioru danych, w sprawozdaniu końcowym powinien umieścić (prócz elementów opisanych w sekcji I):

 wszystkie elementy sprawozdania z ćwiczenia nr 6 ("Analiza podobieństwa obiektów");

 wszystkie elementy sprawozdania z ćwiczenia nr 10 ("Analiza głównych składowych");

 zestawienie wniosków dotyczących analizy podobieństwa zmiennych, tj. wnioski z ćwiczeń nr 4, 5 i 10;

 zestawienie wniosków dotyczących analizy podobieństwa obiektów, tj. wnioski z ćwiczeń nr 6 i 10;

 podsumowanie, zawierające określenie wewnętrznej struktury zbioru danych, tj.

odpowiedzi na pytania: i) czy wszystkie zmienne pochodzą z jednej populacji generalnej?; oraz ii) czy wszystkie obiekty pochodzą z jednej populacji generalnej?.

(20)

96 Przykład:

Ponieważ większość z podanych wyżej elementów znajduje się w przykładach zawartych w instrukcjach do odpowiednich ćwiczeń, nie będziemy prezentowali ich ponownie (o czym lojalnie uprzedziliśmy).

Odpowiedź na pytanie i) (dotyczące zmiennych) została w dużej części sformułowana w przykładzie zaprezentowanym w sekcji II. W tym miejscu wypada nam ją tylko powtórzyć w następującej postaci: wszystkie zmienne, poza CR*, należą do jednej populacji generalnej. Zmienna CR*, wyraźnie "odstająca" od pozostałych, należy do innej populacji generalnej.

Wnioski, zebrane z ćwiczeń nr 6 i 10 pozwalają na sformułowanie odpowiedzi na pytanie ii). Dendryt obiektów (ćwiczenie 6, sekcja III), diagram Czekanowskiego dla obiektów (ćwiczenie 6, sekcja IV) oraz mapa liniowa obiektów w przestrzeni dwóch pierwszych variwektorów (ćwiczenie 10, sekcja III) wyraźnie sugerują niejednorodność zbioru obiektów, ergo: obiekty z zestawu MIECZE nie pochodzą z jednej populacji generalnej.

Mapa liniowa obiektów pozwoliła nam również na oszacowanie charakteru niejednorodności zbioru. Zawiera on szereg punktów odbiegających oraz prawdopodobnie dwa, w miarę jednorodne podzbiory.

Charakterystykę przypuszczalnych podzbiorów i punktów odbiegających opisaliśmy w przykładzie, zawartym w sekcji III ćwiczenia nr 10. Wykorzystaliśmy w tym celu interpretacje nadane dwóm pierwszym variwektorom.

IV. ANALIZA SKUPIEŃ, POZWALAJĄCA NA OBIEKTYWNY PODZIAŁ NIEJEDNORODNEGO ZBIORU OBIEKTÓW NA JEDNORODNE PODGRUPY.

Jeżeli celem Studenta jest podzielenie niejednorodnego zbioru danych na wewnętrznie jednorodne podzbiory, w sprawozdaniu końcowym powinien umieścić (prócz elementów opisanych w sekcji I):

 wszystkie elementy sprawozdania z ćwiczenia nr 6 ("Analiza podobieństwa obiektów");

 wszystkie elementy sprawozdania z ćwiczenia nr 10 ("Analiza głównych składowych");

 wszystkie elementy sprawozdania z ćwiczenia nr 11 ("Analiza skupień");

 zestawienie wniosków dotyczących analizy podobieństwa obiektów, tj. wnioski z ćwiczeń nr 6, 10 i 11;

 w przypadku uprzedniej znajomości liczby i charakteru podzbiorów: podsumowanie zawierające potwierdzenie (lub brak potwierdzenia) podziału obiektów na znane wcześniej podzbiory, na podstawie wniosków z ćwiczeń nr 10 i 11;

(21)

97

 w przypadku nieznajomości liczby i charakteru podzbiorów (ale przy uzasadnionym podejrzeniu niejednorodności zestawu obiektów): podsumowanie zawierające podział obiektów na nieznane wcześniej podzbiory oraz próbę określenia ich charakteru (natury), na podstawie wniosków z ćwiczeń nr 10 i 11.

Przykład:

Elementy podane w pierwszych czterech punktach znajdują się w przykładach zawartych w instrukcjach do odpowiednich ćwiczeń. W drodze wyjątku, w tej sekcji niektóre z nich zaprezentujemy ponownie:

1) tabela surowych danych wejściowych:

Obiekt\Zmienna DC DG DR M SM T CR

AER 119 92 15 1900 5 1,5 500

AND 152 100 32 2500 12 2 260

AZU 88 71 14 1200 7 1 380

BAL 95 75 13 1400 7 1 320

DUR 102 81 14 1400 8 1 342

EXC 120 90 18 1800 10 1,5 450

GLA 120 95 12 1900 10 1,5 419

GOL 100 69 26 1100 6 1 600

GRA 106 83 15 1600 10 1 350

GUR 104 81 15 1800 10 1,5 406

GWY 103 81 15 1450 5 1 400

HER 85 60 14 1500 8 1 340

HUR 90 65 16 1600 7 1 380

JOY 100 80 14 1500 8 1 320

LOD 92 80 10 1800 10 1 375

ORK 130 97 18 1800 10 1,5 450

SIH 123 95 14 2200 8 1,5 390

UMB 180 125 40 3200 15 2 600

URI 160 120 25 2700 12 2 650

ZAD 68 54 13 800 5 1 375

2) mapa liniowa obiektów w przestrzeni istotnych variwektorów:

(22)

98 3) wynik analizy skupień uzyskany metodą naturalnego podziału

dendrytu (wersja hierarchiczna):

W trakcie kompletowania danych do zestawu MIECZE nie posiadaliśmy żadnych informacji, dotyczących ewentualnej niejednorodności zbioru

(23)

99 danych. Surowa tabela danych oczywiście również nie dostarczyła żadnych sugestii w tym zakresie.

Dendryt obiektów, wykonany w trakcie ćwiczenia nr 6, ujawnił tendencję obiektów do formowania grup oraz istnienie punktów odbiegających. Mapa liniowa obiektów, wykonana w trakcie ćwiczenia nr 10, potwierdziła informacje ujawnione przez dendryt. Co więcej, pozwoliła na subiektywne oszacowanie liczby i składu utworzonych podzbiorów oraz na ich charakterystykę w oparciu o interpretację variwektorów.

Subiektywnie utworzoną ośmioelementową grupę #1, {AZU, BAL, DUR, GRA, LOD, HER, HUR, JOY}, możemy opisać jako "repliki o cenach i rozmiarach lekko poniżej przeciętnej", natomiast pięcioelementową grupę

#2, {EXC, GLA, GUR, ORK, SIH}, jako "repliki o cenach i rozmiarach lekko powyżej przeciętnej". Nie są to opisy wyczerpujące. Pozostałe punkty, nienależące do żadnej grupy, czyli obiekty AER, AND, GOL, GWY, UMB, URI oraz ZAD, zostały opisane adekwatnie do pozycji zajmowanych na mapie liniowej.

Punktem odbiegającym jest obiekt AND. Kontrola pojedynczych zmiennych nie wykazała istnienia punktu odbiegającego – okazało się jednak, iż wyjątkowość obiektu AND objawia się dopiero po uwzględnieniu większej liczby zmiennych.

Naturalny podział dendrytu, który jest metodą dalece bardziej obiektywną, niźli subiektywne odczytanie mapy liniowej, doprowadził do identycznych wniosków. Grupy, widoczne na powyższym dendrycie, mają, w porównaniu do grup utworzonych na podstawie mapy liniowej, identyczny skład. Wygląda na to, iż zaproponowany podział możemy uznać za ostateczny i "obowiązujący".

Pojawia się jednak pytanie: czy jesteśmy w stanie nieco poszerzyć charakterystykę utworzonych grup i uzasadnić ich jednorodność?

Odpowiedzi na to pytanie udziela konfrontacja składu uzyskanych grup z tabelą danych wejściowych. Okazuje się bowiem, iż wszystkie repliki należące do grupy #1 są mieczami jednoręcznymi, co tłumaczy ich

"rozmiary lekko poniżej przeciętnej", ponieważ średnia arytmetyczna wartości zmiennej T wynosi 1,30. Z kolei grupa #2 zawiera wszystkie miecze półtoraręczne obecne w zestawie danych, co tłumaczy ich

"rozmiary lekko powyżej przeciętnej". Trzy wyraźnie odstające od reszty obiekty, tj. AND, UMB i URI, są replikami mieczy dwuręcznych o skrajnych cenach.

Na koniec, chcielibyśmy odwołać się do dwóch uwag, zawartych w instrukcji do ćwiczenia nr 2.

Po pierwsze, ostrzegaliśmy przed uwzględnianiem w danych zmiennych nieciągłych, takich jak zmienna T, z uwagi na ich potencjalnie wysoki wpływ na wynik analizy podobieństwa obiektów oraz analizy skupień. Jak się okazało – niebezpodstawnie.

(24)

100 Po drugie, wykonanie analiz chemometrycznych i przedstawienie ich wyników w formie graficznej (dendryt, diagram wiązkowy, mapa liniowa obiektów, etc.) rzeczywiście umożliwia odnajdywanie prawidłowości, których oko, w chemometryczne narzędzia nieuzbrojone, nie jest w stanie dostrzec.

***

I taki był cel tych ćwiczeń. Mamy nadzieję, że dostarczyły one Studentom odrobiny satysfakcji (i radości) z zabawy metodami chemometrycznymi. Na pierwszy rzut oka zdają się one być trudne i nieprzystępne; zyskują jednak przy bliższym poznaniu. Iucundi acti labores.²⁹

Mamy nadzieję, że przekonaliśmy Czytelnika, iż nawet z pozoru chaotyczne zbiory liczb mogą zawierać użyteczną informację i być atrakcyjnym obiektem dociekań.

29 "Miłe są trudy zakończone" - Cyceron.