• Nie Znaleziono Wyników

Metody opracowania danych wielowymiarowych i planowania eksperymentów w badaniach naukowych w górnictwie

N/A
N/A
Protected

Academic year: 2022

Share "Metody opracowania danych wielowymiarowych i planowania eksperymentów w badaniach naukowych w górnictwie"

Copied!
142
0
0

Pełen tekst

(1)

Adam Smoliński

Metody opracowania danych wielowymiarowych i planowania ekspeiymentów w badaniach naukowych w górnictwie

GŁÓWNY INSTYTUT GÓRNICTWA

(2)

Adam Smoliński

M e t o d y o p r a c o w a n i a d a n y c h w i e l o w y m i a r o w y c h i p l a n o w a n i a e k s p e r y m e n t ó w w b a d a n i a c h

n a u k o w y c h w g ó r n i c t w i e

G ŁÓ W N Y IN S T Y T U T G Ó R N IC T W A K a t o w i c e 2 0 1 4

G I G

(3)

R ad a P ro g ra m o w a ds. W y d a w n ic tw : prof, d r h a b . inż. Antoni T a jd u ś (p rz e w o d ­ niczący), prof. Rom an Ditchkovsky, prof. Dou Lin Ming, prof, d r hab. inż. Józef Dubiński, prof. Juraj Durove, prof. d r hab. inż. C zesław a Rosik-Dulewska, doc. ing.

Richard S n u p a re k , prof. T o m a sz S. Wiltowski, prof, d r hab. inż. T e o d o r Winkler, prof. Valery N. Z a k h a ro v

K o m ite t K w a lifik a c y jn o -O p in io d a w c z y : prof, d r hab. inż. Jan Wachowicz (p r z e ­ w odniczący), prof, d r hab. inż. K rystyna Czaplicka-Koiarz ( z a s tę p c a p rz ew o d n iczą­

c e g o ), dr hab. inż. Józef Kabiesz, prof. GIG, d r inż. Piotr Kalisz, prof, dr hab. inż.

Adam Lipowczan, prof, d r hab. inż. M. Ja c e k Łączny, d r h ab . inż. G rzegorz Mutke, prof. GIG, prof, dr hab. inż. Krzysztof S tań czy k , m g r M ałgorzata Zielińska

Recenzenci

dr hab. Michał D aszykowski, prof. UŚI prof, d r hab. inż. Stanisław Hławiczka

Redakcja wydawnicza Małgorzata K uśm irek-Z egadło

Korekta B arb ara Dusik

Skład, ła m a n ie Krzysztof Gralikowski

ISBN 9 7 8 - 8 3 - 6 1 1 2 6 - 7 6 - 8

P rin te d in P o la n d

All r ig h ts r e s e r v e d

C o p y rig h t b y G łó w n y I n s t y t u t G ó rn ic tw a

S p rz e d a ż wydaw nictw Głó w nego In s ty tu tu Górnictw a prowadzi Z espół W ydawnictw i Usług Poligraficznych

w y d a w n ic tw a .g ig .e u

tel. 32 2 5 9 - 2 4 - 0 3 , 32 2 5 9 - 2 4 - 0 4 , e-m ail: m .k u sm ire k @ g ig .e u

Katowice, GIG 2 0 1 4 . Ark. wyd. 7,0. F o rm a t B5.

Przygotow anie do druku: Z e sp ó ł W ydawnictw i Usług Poligraficznych Głównego In s ty tu tu Górnictwa

Druk i o p ra w a : Zakład Poligraficzny „Węglogryf", Katowice

(4)

SPIS T R E ŚC I

1. W p ro w a d z e n ie ...5

2. P ro b le m d u ż y c h zb io ró w d a n y c h e k s p e ry m e n ta ln y c h , czyli j a k p o p ra w n ie o rg an iz o w ać d a n e w m a cie rz e i ta b lic e w ie lo m o d a ln e ... 9

2.1. M iary podobieństw a m iędzy obiektam i w m acierzach i tablicach w ielo m o d aln y ch ... 11

2.2. M etody wstępnej transform acji danych zorganizow anych w m acierze i tablice w ielo m o d aln e... 15

3. M e to d y b a d a n ia s tr u k tu r y d a n y c h - m e to d y u cz en ia b ez n a d z o r u ... 18

3.1. A naliza czynników g łó w n y c h ...18

3.2. M etody analizy skupień... 22

3.2.1. Sposoby łączenia obiektów lub parametrów stosowane w analizie skupień...23

3.2.2. Analiza skupień uzupełniona o kolorową mapę danych doświadczalnych...25

3.3. A naliza danych w ielo m o d aln y ch ... 26

3.3.1. Konstrukcja modeli TUCKER... 27

3.3.2. Konstrukcja modelu PARAF A C ...30

3.4. A utoasocjacyjne sieci neuronow e ja k o nieliniow y w ariant m etody P C A ...31

3.5. P rzykłady zastosow ania m etod uczenia bez nadzoru do badania struktury danych z obszaru g ó rn ic tw a ... 35

3.5.1. Przykład zastosowania analizy czynników głównych do opracowania danych charakteryzujących parametry techniczno-organizacyjne śląskich kopalń w latach 1998-2005... 35

3.5.2. Opracowanie danych ankietowych dotyczących oceny parametrów kształtujących zagrożenie wybuchowe w pokładach metanowych z zastosowaniem metod badania struktury danych...56

4. M e to d y b a d a n ia s tr u k tu r y d a n y c h - m e to d y u c z e n ia z n a d z o r e m ... 88

4.1. Techniki k alib racy jn e...88

4.2. O cena popraw ności dopasow ania i zdolności predykcyjnych modeli k alib racy jn y ch ...92

4.3. T echniki dyskrym inacyjne i k lasy fik acy jn e...93

4.3.1. Metody drzew klasyfikacji i regresji...94

4.3.2. Maszyna wektorów wspierających...95

4.4. Przykłady zastosow ania m etod kalibracyjnych do danych z obszaru górnictw a... 98

4.4.1. Zastosowanie metody częściowych najmniejszych kwadratów do opisu zależności między jednostkowym kosztem wydobycia węgla w cenach stałych z roku 2005 i wszystkimi badanymi parametrami techniczno-organizacyjnymi śląskich kopalń wiatach 1998-2005... ... 99

4.4.2. Zastosowanie regresji krokowej do konstrukcji modelu opisującego zależność między jednostkowym kosztem wydobycia węgla w cenach stałych z roku 2005 i badanymi parametrami techniczno-organizacyjnymi śląskich kopalń w latach 1998-2005... 101

4.4.3. Konstrukcja modeli częściowych najmniejszych kwadratów opisujących zależność między jednostkowym kosztem wydobycia węgla w cenach bieżących i badanymi parametrami techniczno-organizacyjnymi śląskich kopalń w latach 1998-2005... 103

4.4.4. Konstrukcja modeli regresji krokowej opisujących zależność między jednostkowym kosztem wydobycia węgla w cenach bieżących i badanymi parametrami techniczno-organizacyjnymi śląskich kopalń w latach 1998-2005 ... 105

5. P ro b le m w y stę p o w a n ia b r a k u ją c y c h elem en tó w i o b ie k tó w odległych w d a n y c h e k s p e r y m e n ta ln y c h ... 109 5.1. P rzyczyny w ystępow ania brakujących elem entów w danych eksp ery m en taln y ch 109

(5)

5.2. M etody badania struktury danych dla danych z brakującym i elem e n ta m i... 111

5.2.1. Wpływ wstępnej inicjalizacji brakujących elementów na szybkość uzbieżnienia algorytmu EM/TUCKER3 na przykładzie symulowanych danych dotyczących jakości wód dołowych... 113

5.3. O pracow anie danych zaw ierających obiekty o d le g łe ... 116

5.3.1. Identyfikacja obiektów odległych w dużych zbiorach danych eksperymentalnych 117 5.4. O pracow anie danych zaw ierających jedno cześn ie brakujące elem enty i obiekty o d le g łe ...125

5.5. Zastosow anie stabilnej m etody częściow ych najm niejszych kw adratów do konstrukcji m odeli opisujących zależność m iędzy jednostkow ym kosztem w ydobycia w ęgla w cenach stałych z roku 2005, a param etram i techniczno- -organizacyjnym i śląskich kopalń w latach 1 9 9 8 -2 0 0 5 ...126

5.6. Zastosow anie stabilnej m etody częściow ych najm niejszych kw adratów do konstrukcji modeli opisujących zależność m iędzy jednostkow ym kosztem w ydobycia w ęgla w cenach bieżących, a param etram i techniczno-organizacyjnym i śląskich kopalń w latach 1998-2005 ... 130

6. Planowanie eksperym entu... 134

6.1. Istota planow ania e k s p e ry m e n tu ... 134

6.2. K onstrukcja planów eksperym entów ... 136

6.2.1. Warunki optymalności planów eksperymentów...138

6.2.2. Konstrukcja planów czynnikowych na dwóch poziomach...138

6.2.3. Konstrukcja planów czynnikowych na trzech poziomach...141

6.2.4. Konstrukcja planów czynnikowych wielopoziomowych...143

7. Podsum owanie... 147

L iteratura... 149

(6)

1. WPROWADZENIE

Jednym z efektów rozw oju nowych technik pom iarowych je st konieczność reje­

stracji i przechow yw ania dużych ilości danych. Obecnie wyzwanie stanowi nie gene­

rowanie i grom adzenie tych danych, ale um iejętność pełnego w ykorzystania zaw artych w nich inform acji. W iąże się z tym rozwój technologii inform atycznych, w tym nośników pam ięci o coraz większych pojem nościach, system ów przesyłania danych i narzędzi inform atyczno-m atem atycznych, um ożliw iających dostęp do tych danych i ich przetw arzanie. Są to przede wszystkim algorytm y m atem atyczno- -statystyczne um ożliwiające w nikliw ą analizę struktury badanych w ielow ym iarow ych danych (Bro 1998; Faber, Bro, H opke 2003; Daszykowski i in. 2007; Stanimirova i in. 2009; Smoliński i in. 2009, 2012, 2013b). D ziedziną nauki zajm ującą się ekstrak­

cją użytecznej inform acji z w ielow ym iarow ych danych z zastosow aniem statystyki i m etod num erycznych jest chem om etria (M assart i in. 1997; M azerski 2000; Smoliń­

ski 2012). M etody chemom etryczne, z uwagi na swoją uniwersalność, m ogą być sto­

sowane do analizy danych pochodzących z różnych dziedzin nauki i techniki.

W niniejszym opracow aniu przedstaw iono zastosow anie m etod chem om etrycznych do efektywnego opracow yw ania danych z obszaru nauk górniczych. Zastosow anie naj­

nowszych narzędzi badaw czych w górnictwie zw iększyło ilość informacji, niejedno­

krotnie trudnych do analizy za pom ocą m etod konw encjonalnych (Sm oliński 2008, 2011; Smoliński, H owaniec, Stańczyk 2011; Smoliński i in. 2012, 2013a, b; Howaniec i in. 2011; Smoliński, How aniec 2013; Howaniec, Smoliński 2013). Często prow a­

dzone są pom iary jednocześnie kilkudziesięciu lub więcej param etrów, których wyniki zostają następnie zebrane w w ielow ym iarow e zbiory danych. Już sam a w izualizacja takiej ilości danych stanowi wyzwanie. N a jakość danych m a wpływ nie tylko dobre opanow anie obsługi aparatury badawczej, lecz także w iedza na tem at planow ania eks­

perym entu. Zdarza się, że brak wiedzy w tym zakresie prowadzi do generow ania dużej ilości danych, które nie tylko nie um ożliw iają poznania i w yjaśnienia badanego zjaw i­

ska, ale dodatkowo w prow adzają szum, m ogący prowadzić do błędnych wniosków.

W rozdziale 2 niniejszej m onografii om ówiono sposoby organizacji danych w p o ­ staci m acierzy i tablic w ielom odalnych oraz scharakteryzowano podstaw ow e pojęcia chemom etryczne. N a przykładzie przedstawiono sposób śledzenia podobieństw m ię­

dzy badanymi próbkam i oraz zwrócono uwagę na konieczność wstępnej transform acji danych, gdy zbiory danych zaw ierają wielkości występujące w różnych zakresach wartości lub w różnych jednostkach.

W rozdziałach 3 i 4 przedstaw iono m etody badania struktury danych z podziałem na m etody uczenia bez nadzoru i metody uczenia z nadzorem. W rozdziale 3, pośw ię­

conym m etodom uczenia bez nadzoru, rozw ażania rozpoczęto od szczegółowego przedstaw ienia klasycznej m etody badania struktury danych, ja k ą je st analiza czynni­

ków głównych (ang. principal component analysis, PC A). Omówiono sposób kon­

strukcji m odelu PCA, w yznaczania kom pleksow ości skonstruow anego m odelu oraz wizualizacji i interpretacji otrzym anych wyników. N astępnie om ówiono m etody analizy skupień, um ożliw iające śledzenie na konstruow anych dendrogram ach podo­

bieństw między badanym i próbkam i (obiektam i) w przestrzeni m ierzonych param e­

(7)

trów (zmiennych) lub m iędzy zm iennym i w przestrzeni obiektów. Szczegółow o scha- rakteiyzow ano różne m iary podobieństw a stosowane w analizie skupień, sposoby łączenia podobnych obiektów lub param etrów oraz przedstaw iono przykład konstruk­

cji dendrogram u m etodą przeciętnych połączeń z zastosow aniem odległości euklide- sowej jako m iary podobieństw a. Zaprezentow ano rów nież uzupełnienie analizy skupień o kolorow ą m apę danych dośw iadczalnych, w celu bardziej wnikliwej inter­

pretacji struktury danych. W rozdziale 3 w iele uwagi pośw ięcono rów nież analizie w ielom odalnej, w której dane organizow ane są nie w prostą m acierz dw uw ym iarow ą, ale w tablicę wielom odalną. M a to szczególne znaczenie w analizie danych z długo- term inow ych pom iarów , których organizacja w tablicę trójm odalną i zastosow anie analizy w ielom odalnej um ożliw iają śledzenie zm ian w czasie w artości m ierzonych param etrów w różnych m iejscach pom iarow ych, co w przypadku organizacji danych w klasyczną m acierz dw uw ym iarow ą i z zastosow aniem analizy PC A lub analizy sku­

pień byłoby utrudnione lub wręcz, przy dużej liczbie próbek, niem ożliwe. O m ówiono podstaw ow e m odele stosow ane w analizie w ielom odalnej, takie ja k m odele TU C K ER i PA RAF AC. Zw rócono rów nież uwagę na przypadek, gdy klasyczna m etoda PC A nie um ożliw ia efektywnej kom presji danych, czego pow odem m oże być nieliniow a kore­

lacja zm iennych. Zaprezentow ano zastosow anie nieliniowej analizy czynników głów ­ nych, która, w ykorzystując działanie sieci neuronow ych, um ożliw ia efektyw ną kom presję danych skorelow anych nieliniow o i, podobnie ja k klasyczna m etoda PCA, w izualizację i interpretację otrzym anych wyników. R ozdział 3 kończą przykłady zastosow ania m etod uczenia bez nadzoru do opracow ania danych charakteryzujących param etry techniczno-organizacyjne śląskich kopalń w latach 1998-2005 oraz danych ankietowych, dotyczących oceny param etrów kształtujących zagrożenie w ybuchow e w pokładach m etanowych.

Rozdział 4 pośw ięcono m etodom uczenia z nadzorem . O m ów iono w nim zarów ­ no m etody kalibracyjne stosow ane w chemom etrii do opisyw ania ilościow ych zależ­

ności m iędzy m ierzonym i param etram i, takie ja k m etoda w ieloparam etrow ej regresji liniow ej, m etoda regresji krokowej (ang. stepwise regression, SR), m etoda regresji czynników głów nych (ang. principal component regression, PCR) i m etoda częścio­

w ych najm niejszych kw adratów (ang. partial least squares, PLS), ja k i techniki dys­

krym inacyjne, takie ja k m etoda drzew klasyfikacji i regresji (ang. classification and regression trees, CA RT) oraz m aszyna w ektorów w spierających (ang. support vector machines, SVM). Istotą konstrukcji m odeli kalibracyjnych je s t nie tylko dobre odw zo­

row anie danych użytych do ich konstrakcji, ale przede wszystkim dobra zdolność m odeli do przew idyw ania dla now ych zm iennych. D latego też część rozdziału 4 p o ­ św ięcono ocenie popraw ności dopasow ania i zdolności predykcyjnych m odeli kalibra­

cyjnych. O m aw iając zdolność prognostyczną m odeli kalibracyjnych przedstaw iono szczegółow o zastosow anie m etody w alidacji CV (ang. cross-validation) oraz ocenę tej zdolności na podstaw ie zbioru testow ego zaw ierającego now e dane nieużyte do kon­

strukcji m odelu kalibracyjnego. Przedstaw iono rów nież zastosow anie technik dys­

krym inacyjnych do rozdziału obiektów do poszczególnych klas, idee budow ania drzew klasyfikacyjnych w celu predykcji jakościow ej bądź ilościowej badanego zjaw iska lub procesu z zastosow aniem m etody C A R T - podziału zbioru obserw acji

(8)

na podzbiory m aksym alnie jednorodne pod względem wartości zmiennej zależnej.

Przy om aw ianiu m etody SVM, opartej na konstrukcji hiperpłaszczyzn dyskrym ina­

cyjnych, przedstawiono przykłady jej zastosow ania do rozdziału klas obiektów, linio­

wo bądź nieliniow o rozdzielnych. Rozdział 4 zakończono przykładem zastosow ania om awianych m etod uczenia z nadzorem do opracow ania danych opisujących zależ­

ności między jednostkow ym kosztem w ydobycia w ęgla w cenach stałych z roku 2005 i w cenach bieżących, a badanymi param etram i techniczno-organizacyjnym i śląskich kopalń w latach 1998-2005.

W rozdziale 5 omówiono typow e problem y zw iązane z opracow yw aniem dużych zbiorów w ielow ym iarow ych danych, dotyczące w ystępow ania w nich brakujących elem entów i obiektów odległych. K lasyczne metody badania struktury danych, bazu­

jące na m etodzie najm niejszych kwadratów, są bardzo czułe na obecność obiektów odległych i w zw iązku z tym nie m ogą być stosowane w analizie danych, w których w ystępują obiekty odległe. Problem brakujących elem entów pow inien być również każdorazow o rozpatrywany z dużą starannością, gdyż od tego etapu analizy zależy popraw ność w ygenerow anych wniosków. W arunkiem popraw nego stosow ania kla­

sycznych m etod badania struktury danych, takich jak analiza czynników głównych, analiza skupień, metody wielom odalne czy m etody regresji wieloparam etrow ej, jest kom pletność zbioru danych. W rozdziale 5 zaprezentow ano metody um ożliw iające popraw ne oszacowanie brakujących wartości. Przedstaw iono zasadę działania itera- cyjnej procedury EM , która w połączeniu z klasycznym i m etodam i badania struktury danych, takim i ja k analiza czynników głów nych czy m etoda TUCKERS, um ożliw ia konstrukcję popraw nych m odeli dla danych zaw ierających brakujące elementy.

N a podstaw ie przykładowych danych, przedstaw iających sym ulow ane trójw ym iarow e dane z m onitoringu jakości wód dołowych, prześledzono wpływ wstępnej inicjalizacji brakujących elementów na szybkość uzbieżniania się algorytm u EM wbudowanego w procedurę TUCKERS. K olejną przeszkodą w stosow aniu klasycznych m etod bada­

nia struktury danych je st w ystępow anie w zbiorach danych obiektów odległych.

W takim przypadku konieczne jest zastosowanie metod umożliwiających poprawną identyfikację i usunięcie z danych użytych do konstrukcji modelu, obiektów odległych oraz konstrukcję poprawnych modeli dla tzw. większości dobrych danych. Przedstawio­

no dwa sposoby eliminacji problemu występowania w danych obiektów odległych, po­

legające na zastosowaniu statystycznej diagnostyki obiektów odległych oraz tzw. metod stabilnych, um ożliwiających konstrukcję poprawnych modeli dla większości dobrych danych. Omówiono konstrukcję stabilnej metody analizy czynników głównych oraz stabilnej metody częściowych najmniejszych kwadratów, bazujących na programie ew o­

lucyjnym, będącym odm ianą algorytmu genetycznego. W rozdziale zwrócono również uwagę na problem brakujących elementów i obiektów odległych jednocześnie występu­

jących w danych. Zaprezentowano procedurę analizy zbioru danych, umożliwiającą poprawną identyfikację obiektów odległych i konstrukcję poprawnego m odelu dla da­

nych z brakującymi elementami. W końcowej części rozdziału 5 przedstawiono przy­

kład zastosowania stabilnej metody częściowych najmniejszych kwadratów do poprawnego opisu zależności między jednostkow ym kosztem wydobycia węgla w ce­

nach stałych z roku 2005 i w cenach bieżących, a badanymi parametrami techniczno- -organizacyjnymi śląskich kopalń w latach 1998-2005.

(9)

W celu pom yślnej realizacji celu badań oraz uzyskania w artościow ych danych konieczne je st popraw ne zaplanow anie eksperym entu. Planow anie eksperym entu jest częścią każdego procesu badaw czego, niezależnie od dziedziny prow adzonych prac badawczych. Eksperym ent pow inien zostać tak zaplanow any, aby um ożliw ić potw ier­

dzenie lub podw ażenie postawionej hipotezy badaw czej oraz aby dostarczyć inform a­

cji niezbędnych do opisu badanego procesu. Tem u zagadnieniu pośw ięcono rozdział 6 m onografii. Om ów iono w nim m iędzy innymi konstrukcję planów eksperym entu, ze szczególnym uw zględnieniem identyfikacji istotnych param etrów eksperym entu i w arunków optym alności planów eksperym entu. Zaprezentow ano sposób konstrukcji planów dwu-, trzy- i w ielopoziom ow ych, w zależności od złożoności badanego proce­

su (ilości badanych zmiennych).

(10)

2. PROBLEM DUŻYCH ZBIORÓW DANYCH

EKSPERYMENTALNYCH, CZYLI JAK POPRAWNIE ORGANIZOWAĆ DANE W MACIERZE I TABLICE WIELOMODALNE

W czasie prow adzenia badań generow ane s ą duże ilości danych, które pow inny być grom adzone i archiw izow ane. Najczęściej dane zestaw iane s ą w form ie tabeli - m acierzy, X (m x n) (rys. 2.1), o m w ierszach zw anych obiektam i (próbkam i) i n kolum nach, w których zebrane są zm ienne - param etry (np. pH, stężenia K +, C d+, charakterystyki faz stacjonarnych, pola pików , sygnały instrum entalne H N M R , NIR, U V -V IS, H PL C GC, M S). K ażdy obiekt opisany je st n pom iaram i, natom iast każdą zm ien n ą opisuje m obiektów (próbek).

n-zmiennych 1 2 3 4 5 6 7 8 9 1 0 1 1

m-obiektów (próbek)

X(m x n

1 2 3 4 5 6 7 8 9 10 11 12 13

i

*1.1

u■]

x 6.8

Rys. 2.1. Dane eksperymentalne zestawione w macierz X(m x n)

B adania prow adzone przez długi okres m a ją na celu uchw ycenie zm ian, jak ie za chodzą w czasie w badanym środow isku pom iarow ym . D latego też, oprócz rodzaju zm iennych i liczby badanych próbek, istotny je st rów nież czas pom iaru. W takim przypadku zaleca się organizację danych w tzw. tablice w ielom odalne X- T ablice wie- lom odalne tw orzą w przestrzeni figurę geom etryczną. Przedstaw ione rozw ażania b ęd ą dotyczyć tablic trójw ym iarow ych X (I x J x K) tw orzących graniastosłup lub, gdy 1 = J = K , sześcian (rys. 2.2). Indeksy I, J, K określają odpow iednio liczbę obiektów (próbek), param etrów oraz czas, w którym prow adzono pom iary, przypisanych kolej­

no pierw szem u, drugiem u i trzeciem u kierunkow i om awianej tablicy danych. P rzykła­

dow o w tablicę trójw ym iarow ą m ożna zorganizow ać dane przedstaw iające wyniki pom iarów param etrów jakościow ych w ęgla (pierw szy kierunek), pobranego z różnych pokładów w różnych kopalniach (drugi kierunek), prow adzonych system atycznie co m iesiąc n a przełom ie trzech lat (trzeci kierunek). W obrębie takiej tablicy trójw ym ia­

rowej m ożna w yodrębnić trzy płaszczyzny (C arroll, A rabie 1980; K roonenberg 1983;

H arshm an, L undy 1984; Leurgans, Ross 1992; B urdick 1995; Smoliński, W alczak 2002; Sm oliński, Falkow ska, Pryputniew icz 2008; H ow aniec i in. 2011):

• płaszczyznę czołow ą (um ożliw iającą śledzenie zm ian w artości w szystkich param e­

trów dla w szystkich pokładów węgla w określonym m iesiącu pom iarow ym ),

(11)

• płaszczyznę horyzontalną (um ożliw iającą śledzenie zm ian w szystkich m ierzonych param etrów przez w szystkie m iesiące pom iarow e dla konkretnego pokładu w ęgla z danej kopalni),

• płaszczyznę pionow ą (um ożliw iającą śledzenie zm ian w artości danego param etru przez w szystkie m iesiące pom iarow e w e w szystkich pokładach w ęgla z p oszcze­

gólnych kopalń).

trzeci kierunek

drugi kierunek

p ie r w s z y kierunek

Rys. 2.2. Graficzne przedstawienie tablicy trójwymiarowej X(l x j x « )

M ożliw e je s t przeorganizow anie tablicy w ielom odalnej X (I ;x J x K ) w odpo­

w iednio skonstruow ane m acierze przez odpow iednie w yłączenie i zestaw ienie ko lej­

nych płaszczyzn (rys. 2.3).

J J J J

a

k = 1 k = 2 *■* u *

I

K K K K

i = 1 1 = 2 i = I

b --- ►

/

X J

I I 1 I

j = l j = 2 j = J

Rys. 2.3. Przeorganizowanie wyjściowej tablicy danych X(l x J x K) w trzy macierze:

a - X ( | x J K ) , b - X ( J x | K ) , c - X ( K x | J )

(12)

2.1. Miary podobieństwa między obiektami w macierzach i tablicach wielomodalnych

N ajprostszym sposobem ekstrakcji inform acji zawartej w danych je st ich w izuali­

zacja. W przypadku, gdy m ierzone są dw a lub trzy param etry (np. opisujące stężenia jo n ó w K +, C d24 i C o2+ w w odach kopalnianych), nie stanow i ona problem u (rys. 2.4).

M iarą podobieństw a m iędzy obiektam i (próbkam i) je s t odległość euklidesow a (rys.

2.5).

a)

• •

X (10,2)

b)

X (10,3)

Rys. 2.4. Wizualizacja danych zorganizowanych w macierz: a - X(10 x 2), b - X(10 x 3)

y

Xi X

Rys. 2.5. Określanie podobieństwa między obiektami (próbkami)

W przypadku większej liczby m ierzonych param etrów , prosta w izualizacja nie je st m ożliw a. Poniew aż jesteśm y sobie w stanie w yobrazić najwyżej przestrzeń trój­

w ym iarow ą, w przypadku przestrzeni wielowym iarowej konieczna je st redukcja jej w ym iarow ości przy jednoczesnym zachow aniu w ariancji danych, czyli inform acji, ja k ą n io są badane dane. R edukcja w ym iarow ości przestrzeni pom iarow ej je st m ożli­

wa, kiedy m ierzone param etry są ze so b ą skorelow ane. Jeżeli dwie zm ienne są ze sobą

(13)

skorelow ane, to, znając w artość jednej z nich, m ożna przew idzieć w artość drugiej.

Z m ienne m ogą być skorelow ane liniow o b ądź nieliniow o. M iarą zależności liniow ej m iędzy zm ienną x i y je s t w spółczynnik korelacji Pearsona, będący ilorazem k o w a­

riancji x, y, cov(x,y) i iloczynu odchyleń standardow ych dla tych zm iennych, o x i o y

cov(x, y)

a x CJy

n

(2 . 1)

gdzie x i y są średnim i w artościam i zm iennej odpow iednio x i y . Interpretacja „siły”

korelacji je s t um ow na. P rzykładow o w danych spektralnych silnie skorelow ane będą zm ienne, dla których w spółczynnik korelacji P earsona w yniesie np. 0,99, natom iast w przypadku innych danych, np. danych górniczych, często o stosunkow o silnej k ore­

lacji m ów i się, gdy w spółczynnik korelacji P earsona w yniesie 0,6. N a rysunku 2.6 przedstaw iono przykład korelacji dodatniej, ujem nej i braku korelacji m iędzy dw iem a analizow anym i zm iennym i.

0.04

0.035 0.025

0.03

0.025 E 0.015

0.02

0.015

0.005 0.01

0.005

0.6 0.7 0.2 0.3

0.1

param etr 1 param etr 1

0.025 -0.005

0.02 -0.015

0.015

E -0.025

0.01

-0.035

0.005

-0.045 0.1 0.2 0.7 0.2 0.4 0.6

R= 1.000 R=0,9489

R=-0,2180

param etr 1 param etr 1

Rys. 2.6. Badanie korelacji między analizowanymi zmiennymi:

a, b - dodatnia korelacja, c - ujemna korelacja, d - brak korelacji

(14)

O m aksym alnej liczbie niezależnych (nieskorelow anych) zm iennych decyduje m atem atyczny rząd m acierzy. Zgodnie z definicją, m atem atyczny rząd m acierzy (rząd) je st rów ny m niejszem u z w ym iarów m acierzy X (m x n) (Schneider, B arker 1968)

rząd < m in(m ,n) (2.2)

N a rysunku 2.7 przedstaw iono trzy w arianty m ożliw ych w ym iarów m acierzy da­

nych. W przypadku m acierzy, w której je st więcej próbek niż zm iennych (rys. 2.7a) m atem atyczny rząd m acierzy rów ny je st liczbie w szystkich zm iennych, a w ięc m oże się zdarzyć, że w szystkie m ierzone param etry b ę d ą nieskorelow ane. W przypadku przedstaw ionym n a rysunku 2.7b liczba zm iennych przew yższa liczbę obiektów , a w ięc część z m ierzonych param etrów będzie liniow ą kom binacją pozostałych. T rzeci przypadek, przedstaw iony na rysunku 2.7c, przedstaw ia dane, w których liczba zm iennych je s t rów na liczbie próbek (obiektów ), a w ięc w szystkie param etry m o g ą być liniow o niezależne. P oniew aż dane eksperym entalne zaw sze obarczone s ą p ew ­ nym błędem , to znaczy n io są inform ację nie tylko o strukturze danych, ale rów nież o szum ie (błędzie), rząd takiej m acierzy zaw sze będzie rów ny m niejszem u z w ym ia­

rów m acierzy danych. N ie oznacza to jednak, że w szystkie param etry s ą istotne.

W celu określenia popraw nie rzędu m acierzy danych eksperym entalnych w prow adza się pojęcie tzw. rzędu chem icznego (rzChem) m acierzy danych, definiow anego następu­

jąco

rzchem « m in(m ,n) (2.3)

a)

m > n

b)

m < n

c)

n n

m = n

Rys. 2.7. Warianty możliwych wymiarów macierzy

R ząd chem iczny określa m aksym alną liczbę istotnych zm iennych, które zaw ierają inform ację o strukturze danych. W yelim inow anie pozostałych zm iennych pozw ala na częściow e usunięcie inform acji o błędzie eksperym entalnym .

R ozw ażając inform ację, opisaną przez zm ienną, isto tn ą k w estią je s t am plituda zm ienności, a w ięc w ariancja zmiennej

W = (2.4)

gdzie u je s t w artością średnią zm iennej x. W analizie danych cech ą pożąd an ą je st duża w ariancja zm iennych (rys. 2.8).

(15)

/ o

duża / wariancja

C)

O

mała wariancja

A + B+

Rys. 2.8. Przykład dużej i małej wariancji dla symulowanych zmiennych opisujących stężenia jonów A+ i B+

P roblem w izualizacji danych n-w ym iarow ych sprow adza się do redukcji ich w y- m iarow ości, jed n ak przy zachow aniu zaw artości inform acyjnej (w ariancji), ja k ą n io są te dane (rys. 2.9).

n -zm ien n ych

m -obiektów (p ró b ek )

d (n o w e z m ie n n e )

Tabela danych (m acierz danych)

d « n

Rys. 2.9. Idea redukcji wymiarowości danych n-wymiarowych

N a rysunku 2.10 przedstaw iono ideę redukcji dw uw ym iarow ej przestrzeni zdefi­

niow anej przez zm ienne x l i x2 (rys. 2.10a) do przestrzeni jednow ym iarow ej. R eduk­

cja w ym iarow ości przestrzeni pom iarow ej polega na poszukiw aniu takiego kierunku w przestrzeni zdefiniow anej przez zm ienne x l i x2, który będzie m aksym alizow ać opis w ariancji danych (rys. 2.1 Ob i c). K ierunek taki oznaczono na rysunku 2.10c jak o P C I. W przypadku danych w ielow ym iarow ych, efektyw na redukcja um ożliw ia p rz e­

kształcenie w yjściow ej n-w ym iarow ej przestrzeni zm iennych w n o w ą przestrzeń, w której inform acja na tem at struktury danych zaw arta je s t w kilku now ych czynni­

kach PC. K onstrukcja P C I narzuca kierunek kolejnych czynników . C zynnik P C 2 je s t ortogonalny do P C I i opisuje (w yjaśnia) tę w ariancję danych, ja k a nie została w ym o­

delow ana przez P C I (rys. 2.10d). K ażdy obiekt m ożna przedstaw ić w nowej p rze­

strzeni zdefiniow anej przez utw orzone czynniki P C I i PC2. O biekt ten będzie charakteryzow any dw iem a w artościam i na pierw szym i drugim czynniku głów nym .

(16)

a) b) xl

• •

x2 x2

d ) x1

PC2 PCI

PC1

--- x2 x2

Rys, 2.10. Idea redukcji przestrzeni dwuwymiarowej zdefiniowanej przez zmienne x1 i x2 do nowej przestrzeni jednowymiarowej

2.2. Metody wstępnej transformacji danych zorganizowanych w macierze i tablice wielomodalne

Z biory danych zaw ierają często w ielkości w ystępujące w różnych zakresach w ar­

tości lub w różnych jednostkach. D latego też konieczne je st poddanie takich danych wstępnej transform acji. Najczęściej stosow anym i sposobam i wstępnej transfonnacji są centrow anie i standardyzacja (Joliffe 1986; M assart i in. 1997; V andeginste i in. 1998;

Sm oliński i in. 2012, 2013a, b).

C entrow anie polega na usunięciu z danych stałych członów , czyli przedstaw ienie odchyleń danych od średniej wartości

x c i j = x i j - x .j (2-5)

gdzie

(2-6) Ul j=i

a m oznacza liczbę obiektów w m acierzy X (m x n). Idea centrow ania została przed­

staw iona na przykładzie dw óch zm iennych opisujących stężenia jo n ó w A + i B + m ie­

rzonych w ośm iu próbkach (tab. 2.1). Średnie stężenie jo n ó w A + w ynosi 1,9781, a jo n ó w B + - 2,0022. D ane po centrow aniu przedstaw iono w tabeli 2.1, natom iast na rysunku 2 . 1 1 - projekcje tych param etrów przed i po centrowaniu.

(17)

Tabela 2.1. Symulowane dane opisujące stężenia jonów A+ i B+ w ośmiu próbkach

Nr próbki Wartości danych wyjściowych Wartości danych po centrowaniu stężenie ionów A" stężenie ionów B+ stężenie jonów A+ stężenie jonów B+

1 1,4285 1,5031 -0,5496 -0,4991

2 1,5687 1,4707 -0,4094 -0,5315

3 1,5193 1,2233 -0,4588 -0,7789

4 1,4734 1,1868 -0,5047 -0,8154

5 1,3121 1,2112 -0,6660 -0,7910

6 2,5575 3,0944 0,5794 1,0922

7 2,9298 3,4331 0,9517 1,4309

8 3,0355 2,8947 1,0574 0,8925

b ) 1

2 1.4 1.6 1.8 2 2.2 2,4 2 6 2 6 3 3.2 'i

O o O 0°

.8 -OB -CU -0.2 O 0.2 0.4 0.6 0.8 A+

Rys. 2.11. Projekcje parametrów opisujących stężenia jonów A+ i B+ mierzonych w ośmiu próbkach:

a - przed i b - po centrowaniu

Jeżeli dane w w yjściow ej m acierzy X (m x n) w y stęp u ją w różnych jednostkach, poddaje się je transform acji zw anej autoskalow aniem

(x s - * i )

gdzie

(2.7)

(2.8)

O m ów iona procedura w stępnej transform acji danych odnosi się do przypadku, gdy dane organizow ane są w m acierze danych. W przypadku, gdy dane organizow ane są w tablice w ielom odalne, procedura w stępnej tran sfo n n acji danych je s t inna.

W przypadku danych zorganizow anych w m acierz zaleca się ich w stępną transform a­

cję, gdyż nie zaburza ona zależności, ja k ie w ystępują w w yjściow ych danych. W an a­

lizie danych w ielom odalnych natom iast w stępna transform acja danych nie pow inna być stosow ana, gdyż zaburza ona zależności m iędzy poszczególnym i kierunkam i w tablicy w ielom odalnej. W takich przypadkach w stępną transform ację danych prze­

pro w ad za się dla tablic przeorganizow anych w m acierze (B ro 1998; Sm oliński, F al­

(18)

kowska, Pryputniew icz 2008; Howaniec i in. 2011). W przypadku danych w ielom o- dalnych nie centruje się ich, gdyż niszczy to zależności m iędzy poszczególnym i para­

metrami w wyjściowej tablicy danych. Standardyzacja danych zorganizowanych w tablicę w ielom odalną X(I x J x K ) prow adzona je st oddzielnie w każdym kierunku tablicy, przy czym standardyzacja w jednym kierunku w yw iera wpływ na standardy- zację prow adzoną w pozostałych kierunkach. Przykładow o, chcąc przeprowadzić standardyzację w drugim kierunku dla danych zorganizowanych w tablicę X(I x J x K ) ,

należy ją przeorganizować w m acierz X(IK x J). M atem atycznie standardyzację we­

wnątrz drugiego kierunku w tablicy wielomodalnej m ożna zapisać następująco

x st =■

X i k j U k j

(2.9) gdzie x £ j oznacza w ystandardyzow any elem ent m acierzy X (IK x J), natom iast

I i

E Z :

ik j (2 .10)

N a rysunku 2.12 przedstawiono średnie wartości i odchylenia standardowe dla danych przed i po standardyzacji. N a podstawie analizy średnich wartości i odchyleń standardowych dla danych w yjściow ych (rys. 2.12a) m ożna zaobserw ow ać, że m ie­

rzone param etry są w różnych zakresach wartości i konieczna jest ich standardyzacja.

Po standardyzacji (rys. 2.12b) średnia wartość dla każdej zmiennej wynosi zero, na­

tom iast odchylenia standardowe tych zmiennych są rów ne jedności.

a)

I•w

Zmienna nr

b)

10 15

Zmienna nr

I

o

Zmienna nr

Rys, 2.12. Średnie wartości i odchylenia standardowe dla 24 zmiennych:

a - przed i b - po standardyzacji

(19)

3. METODY BADANIA STRUKTURY DANYCH - METODY UCZENIA BEZ NADZORU

3.1. Analiza czynników głównych

A naliza czynników głów nych (ang. principal component analysis, PCA) je s t kla­

syczną m etodą badania struktury danych (Joliffe 1986; W old, Esbensen, Geladi 1987;

G olub, V an Loan 1983; M assart i in. 1997; V andeginste i in. 1998; M ahapatra i in.

2012; Ghosh, C hattopadhyay 2012; B ehdad i in. 2012; Lin 2011; K onieczynski 2013;

Tiam po, M azzotti, Jam es 2012). Najczęściej od zastosow ania tej w łaśnie m etody ro z­

poczyna się analizę struktury danych eksperym entalnych. A nalizow ane dane pow inny być zorganizow ane w m acierz X (m * n), gdzie m i n oznacza liczbę odpow iednio obiektów i param etrów (zmiennych). W przypadku danych górniczych obiektam i m ogą być na przykład próbki badanych w ęgli/karbonizatów , badane pokłady węgla, badane próbki pow ietrza kopalnianego, natom iast zm iennym i - param etry charaktery­

zujące badane obiekty. Zastosow anie analizy czynników głów nych m a doprow adzić do zastąpienia skorelow anych zm iennych (param etrów ) now ym i, ortogonalnym i zm iennym i, m aksym alizującym i opis wariancji danych i będącym i liniow ą kom bina­

cją zm iennych w yjściow ych. Prow adzi to do redukcji w ym iarow ości danych, przy jednoczesnym zachow aniu pełnej inform acji o badanych danych (zaw artości inform a­

cyjnej, ja k ą niosą badane dane). M aksym alna liczba now ych zm iennych, zw anych czynnikam i głów nym i lub wektoram i własnym i, determ inow ana je st rzędem m acierzy danych, czyli liczbą niezależnych param etrów . M atem atyczny rząd m acierzy r jest rów ny lub m niejszy od m niejszego z w ym iarów m acierzy X, r < m in(m ,n).

Każdy w ektor w łasny opisuje tzw. w artość w łasną 7, która m ówi o istotności d a­

nego czynnika w opisie całkow itej w ariancji danych, przy czym pierw szy czynnik główny zw iązany je s t z najw iększą w artością własną, drugi - z kolejną pod w zględem w ielkości w artością w łasną itd.

X = t l V i d l ' + t l V2 d l ' + t3 v3 cb' + ....+ t r V r d r ' (3.1) gdzie V i = V k,. W ektory t i , t 2 . . . t r oraz w ektory d i , d 2 . . . d r są ortonorm alne, tzn. o r­

togonalne i unorm ow ane. Poszczególne składow e rów nania przedstaw iają m acierze o w ym iarach rów nych w ym iarom m acierzy X. G raficznie przedstaw iono to na rysun­

ku 3.1.

n © d , ’

©

Rys. 3.1. Rekonstrukcja macierzy X z użyciem r wektorów t, d i r wartości wiasnych

(20)

Oznaczając m acierz zrekonstruow aną na podstawie pierwszego czynnika głów ne­

go jak o X (l), a m acierz zrekonstruow aną na podstawie drugiego czynnika głównego jako X (2) itd., na rysunku 3.2 przedstawiono m acierz danych X jako sumę m acierzy zrekonstruow anych przez kolejne czynniki.

m m m m

X (l) X(2) X(r)

Rys. 3.2. Rekonstrukcja macierzy X z użyciem r czynników głównych

W ektory t oraz wektory d m ożna zestaw ić w m acierze T oraz D, co pozw ala za­

pisać rów nanie (3.1) w postaci macierzowej

X = TV D ' (3.2)

gdzie m acierz V je st m acierzą diagonalną, zawierającą na diagonali pierw iastki kw a­

dratow e kolejnych wartości własnych, tzn. v; = Vk;. W yniki PCA przedstaw ia się jak o iloczyn dw óch m acierzy

X = SD' (3.3)

gdzie

S = T V (3.4)

M acierz S zaw iera ortogonalne czynniki główne. Suma kwadratów elem entów kolejnych kolum n m acierzy S rów na się więc wartościom w łasnym kolejnych czynni­

ków głównych. M acierz S nazyw ana je st m acierzą obiektów, a m acierz D - m acierzą param etrów lub m acierzą wag. Poniew aż każde dane pom iarow e obarczone są błę­

dem, m atem atyczny rząd m acierzy danych będzie równy co najwyżej m niejszem u z jej w ym iarow ości. W praktyce je st jednak tak, że kilka pierw szych wektorów w łas­

nych opisuje zasadniczą wariancję danych, a pozostałe wektory własne zw iązane są jedynie z błędem eksperym entalnym i opisują niew ielką część tej wariancji danych.

Ze względu na to czy dany czynnik opisuje istotną wariancję danych czy też wariancję zw iązaną z błędem /szum em , czynniki te nazywa się czynnikami odpowiednio istot­

nymi oraz nieistotnym i (drugorzędowymi). Taki podział czynników głównych pozw a­

la na przedstaw ienie m acierzy X jak o sum y dwóch macierzy: m acierzy Xa, zrekonstruowanej na podstawie istotnych czynników głównych oraz m acierzy E , zre­

konstruow anej na podstaw ie nieistotnych czynników głównych

X = Xa + E (3.5)

gdzie X A = SaDa' (rys. 3.3).

n A ______________ n n

Ą D ’

X E

m

S +

m

Rys. 3.3. Graficzna ilustracja analizy czynników głównych

(21)

R óżnica m iędzy m acierzy w yjściow ą X, a m acierzą zrekonstruow aną na podsta­

w ie A czynników istotnych X A je st zatem m acierzą błędu E. Elim inacja nieistotnych czynników głów nych prow adzi do kom presji danych, um ożliwiającej ich w izualizację i interpretację oraz częściow ą redukcję błędu.

Istnieje kilka algorytm ów stosow anych w PC A. Są nimi SVD (ang. singular value decomposition), EV D (ang. eigenvalue decomposition) oraz NIP ALS (ang. non­

iterative partial least squares) (Golub, V an Loan 1983; V andeginste i in. 1998; K ul­

kam i i in. 2004; Y am am oto i in. 2009). Jednym z najczęściej stosow anych je s t algo­

rytm SVD (H otteling 1933; G olub, V an Loan 1983; Lipovetsky 2009).

D la określenia poprawnej kom pleksow ości m odelu w prow adza się pojęcie che­

m icznego rzędu m acierzy, który je st rów ny liczbie czynników głów nych uznanych za czynniki istotne. Tylko istotne czynniki głów ne służą do rekonstrukcji wyjściowej m acierzy danych. W śród licznych sposobów w yznaczania poprawnej kom pleksow ości m odelu (liczby istotnych czynników głów nych) należy w ym ienić procent wariancji danych opisanej przez kolejne czynniki głów ne (M assart i in. 1997; V andeginste i in.

1998), w ariancję resztow ą (Cattell 1966), test M alinow skiego (1988) oraz procedurę w alidacji CV (ang. cross-validation) (W old 1978; H ubert, Engelen 2007). W ybór optymalnej liczby czynników głów nych w ym aga zastosow ania kilku z nich, gdyż nie zaw sze w szystkie z w ym ienionych sposobów pozw alają na dokonanie w yboru po­

prawnej liczby czynników głównych. P rocent w ariancji danych, pr, opisanej przez kolejne czynniki głów ne obliczany je s t następująco

A

p r ( A ) = 4S— 100, d l a A = 1 ,2 ... r (3.6)

I L

j=i

gdzie n je s t całkow itą liczbą niezerow ych wartości w łasnych, natom iast A oznacza aktualną liczbę w artości własnych.

Graficznie procent opisanej w ariancji m ożna przedstaw ić w postaci w ykresu su­

my kum ulacyjnej wartości w łasnych, tzn. łącznej sumy w artości w łasnych zw iązanych z dwom a, trzem a itd. czynnikam i głównym i. D la przykładow ych danych zorganizo­

w anych w m acierz X (50 * 9) procent w ariancji danych opisanej przez kolejne czynni­

ki główne przedstaw iono na rysunku 3.4a. W ariancja resztow a, R, przedstaw ia tę część w ariancji, ja k a nie zostanie w ym odelow ana przy użyciu określonej liczby czyn­

ników głów nych (rys. 3.4b)

r

R (A ) = ^ k j , dla A = 1, 2 ... r (3.7)

j= A + l

W teście M alinow skiego porów nuje się wkłady pochodzące od w ektorów w łas­

nych, opisujących strukturę danych, z w kładem , jak i w noszą wektory w łasne opisują­

ce błędy pom iarow e. Z wektoram i w łasnym i zw iązane są w artości w łasne istotne i nieistotne. Podział wartości w łasnych na istotne i nieistotne je st oparty na określeniu tzw. błędu rzeczyw istego (ang. real error, RE)

(22)

RE(A) - - j=A+l

m (n - A), dla A = 1, 2 ... r (3 .8 ) M alinowski (M alinowski 1988; Guo i in. 2002; Keithley, Heien, W ightm an 2009) w oparciu o obliczony błąd RE wyznaczył w artość funkcji IND (ang. factor indicator function), która osiąga m inim um dla optymalnej liczby czynników głównych

IN D (A ): RE(A)

( n - A ) 2 dla A = 1, 2 ... r (3.9) W przypadku uw zględnienia większej liczby czynników głównych niż optym alna ich liczba obserwuje się w zrost wartości funkcji IND, co tłumaczy się wzrostem błędu opisywanego przez kolejne wektory własne, w stosunku do strukturalnej infonnacji zawartej w danych (rys. 3.4c). Zakłada się, że błąd m a rozkład normalny. W yznacze­

nie poprawnej liczby czynników głównych z wykorzystaniem procedury walidacji CV polega na przew idyw aniu współrzędnych każdego obiektu w wyjściowej macierzy danych, na podstaw ie analizy wykonanej dla pozostałych obiektów (rys. 3.4d).

b)300

200

.2 100

2 3 4 5 6 7 liczb a cz y n n ik ó w

1 2 3 4 5 6 7 £ liczb a cz y n n ik ó w c ) 0.2

300 0.16

m 200

2en

100 0.05

liczb a cz y n n ik ó w

1 2 3 4 5 6 7 liczb a cz y n n ik ó w

Rys. 3.4. Wyznaczanie poprawnej kompleksowości modelu PCA dia symulowanych danych X(50 x 9) z zastosowaniem: a - procentu wariancji, b - wariancji resztowej, c - funkcji IND, d - RMSCV

Idea procedury CV została przedstaw iona na rysunku 3.5. W m etodzie tej odrzuca się kolejne obiekty (Xi) z m acierzy X. D la pozostałej części m acierzy (X*) konstruuje się model PCA, a następnie rekonstruuje się na podstawie otrzymanego modelu rozpa­

tryw ane obiekty, z rosnącą liczbą czynników głównych. Błąd rekonstrukcji oblicza się, odejm ując param etry rozpatrywanego obiektu (x;) od param etrów obiektu zrekon­

struowanego (Xi) dla różnej liczby czynników głównych.

(23)

m n

res(A ) = J X (x ij - x ij(A ))2, dla A = 1, 2 ... r

i = i j = i

(3.10)

x i

X

X * PCA(X*)

Rys. 3.5. Procedura walidacji CV

O pisana procedura pow tarzana je s t dla w szystkich obiektów , co pozw ala otrzy­

m ać błąd rekonstrukcji w szystkich danych dla różnej liczby czynników głównych.

Procedura w alidacji CV m oże być przeprow adzona w różnych w ariantach, tzn. z w y­

łączeniem jednego lub k obiektów.

Średni błąd kw adratow y dla procedury walidacji CV je st zdefiniow any następu­

jąco

R M SC Y (A ) - '

JresXA)

m -, dla A = 1, 2 ... r (3.11) G raficzne przedstaw ienie w yników zastosow ania analizy procentu w ariancji, w a­

riancji resztow ej, funkcji IND oraz analizy błędu przew idyw ania R M SC V do określe­

nia poprawnej kom pleksow ości m odelu PCA dla w ysym ulow anych danych X (50 x 9) pozw ala stwierdzić, że optym alnym m odelem będzie m odel z czterem a czynnikam i głównym i.

Efektyw na kom presja danych z zastosow aniem m etody PCA um ożliw ia w izuali­

zację badanych danych. W celu prześledzenia podobieństw m iędzy obiektam i oraz zależności m iędzy param etram i, dokonuje się projekcji param etrów na płaszczyzny zdefiniow ane przez pary istotnych czynników głównych. M iarą podobieństw a m iędzy obiektam i je s t odległość euklidesow a. PC A zachow uje odległości euklidesow o m iędzy obiektam i, tzn. obiekty, które znajdują się blisko siebie w przestrzeni oryginalnych zm iennych, będą rów nież w niewielkiej odległości od siebie w przestrzeni czynników głównych. Inform acja zaw arta w m acierzy w ag pozw ala prześledzić zależności m ię­

dzy m ierzonym i param etram i. K ażdy param etr m oże być traktow any jak o w ektor w przestrzeni obiektów, natom iast kąt m iędzy poszczególnym i w ektoram i, reprezentu­

jącym i badane param etry, świadczy o ich wzajem nej korelacji. K ąt rów ny zero ozna­

cza, że param etry skorelow ane są dodatnio, jeśli je s t rów ny 90° - param etry są ortogonalne, a gdy kąt w ynosi 180° - param etry są skorelow ane ujemnie.

3.2. Metody analizy skupień

M etody analizy skupień um ożliw iają prześledzenie podobieństw m iędzy obiek­

tam i w przestrzeni m ierzonych param etrów lub m iędzy zm iennym i (param etram i) w przestrzeni obiektów. Są one często nazyw ane m etodam i grupow ania hierarchicz­

(24)

nego (ang. hierarchical clustering methods) (W ard 1963; M assart, K aufm an 1983;

Rom esburg 1984; Vogt, Nagel, Sator 1987; Noworol 1989; M assart i in. 1986; Van- deginste i in. 1998; Szekely, Rizzo 2005; Reynolds i in. 2006; Goldberger, Tassa 2008; Lu, W an 2013; El-Hames i in. 2013) i bazują na m acierzy podobieństw a między obiektam i lub zm iennym i. M etody analizy skupień charakteryzowane są stosowanymi miarami podobieństw a między obiektami lub parametrami oraz sposobem, w jaki łączone są ze sobą obiekty lub podobne parametry. Najczęściej stosowane w przypad­

ku zm iennych ciągłych są: odległość M ahalanobisa (M ahalanobis 1936; Dagnelie, M erckx 1991; Picard, Bar-H en 2012; Prekopcsäk, Lem ire 2012) oraz odległość eukli- desow a i odległość M anhattan (Vandeginste i in. 1998; Hsu, Chen, Su 2007), będące szczególnym i przypadkam i odległości M inkowskiego

d.; =y

N.k-Xj.k

l/q

(3.12)

Jeżeli q = 2, wówczas djj jest odległością euklidesową, natom iast gdy q = 1, dij jest odległością M anhattan. Z kolei w spom niana odległość M ahalanobisa bazuje na m acie­

rzy kow ariancji i określa odległość między obiektami w zbiorze danych, uw zględnia­

ją c ich strukturę

dij = (Xj - X i ) 'C _1 (Xj - X;) (3.13)

gdzie C je s t m acierzą kowariancji.

W yniki analizy skupień przedstawiane są w postaci dendrogram ów, których oś OX opisuje kolejność, w jakiej obiekty podobne są ze sobą łączone, natom iast oś OY opisuje m iarę podobieństw a między nimi.

3.2.1. Sposoby łączenia obiektów lub parametrów stosowane w analizie skupień

D endrogram y m ogą być konstruowane z zastosow aniem różnych m etod różnią­

cych się m iędzy sobą sposobem łączenia obiektów podobnych, w śród któiych w yróż­

nia się m etody prostych połączeń, całkow itych połączeń, średnich połączeń, połączeń środków mas oraz m etody połączeń W arda (W ard 1963; Dagnelie, M erckx 1991;

Alm eida i in. 2007; N asibov, Kandem ir-Cavas 2011). M etoda prostych połączeń, zw ana rów nież m etodą najbliższych sąsiadów, bazuje na wyszukiw aniu dwóch naj­

bardziej podobnych do siebie obiektów w klasterach. Innym i słowy, określa ona odle­

głość między dw om a klasteram i, jako najm niejszą odległość między obiektem z klasteru A i obiektem z klastera B. W przypadku metody całkow itych połączeń po­

szukuje się dw óch najodleglejszych obiektów w klasterach A i B, natom iast metoda średnich połączeń bazuje na uśrednionych wartościach odległości między wektorami w klasterach (średnia z odległości zdefiniowanych przez m etodę prostych i całkow i­

tych połączeń). W m etodzie połączeń środków mas w yznacza się centroidy (środki mas) dla każdego klasteru, a następnie oblicza się odległości m iędzy nimi. M etoda połączeń W arda bazuje na sum ie kwadratów odległości każdego z elem entów do

(25)

środka klasteru. Innymi słowy w m etodzie tej obiekty zaliczane są do jednego z dwóch klasterów w taki sposób, aby m inim alizow ać sumę kw adratów odchyleń w szystkich obiektów z tych dw óch grup od środka ciężkości now ego klasteru, jaki pow stanie w w yniku połączenia tych dw óch klasterów . Poniżej przedstaw iono przy­

kład konstrukcji dendrogram u m etodą przeciętnych połączeń dla sym ulow anych da­

nych przedstaw ionych w tabeli 3.1. Jako m iarę podobieństw a zastosow ano odległość euklidesową. D ane zorganizow ano w m acierz X(5 x 4). w pierw szym etapie obliczo­

no m acierz odległości euklidesow ych D (tab. 3.2). M acierz ta z definicji odległości je st m acierzą sym etryczną (d;j= djj).

Tabela 3.1. Symulowane dane wykorzystane do konstrukcji przykładowego dendrogramu metodą średnich połączeń

Nazwa próbki Parametr

XI X2 X3 X4

A 100 80 70 60

B 80 60 50 40

C 80 70 40 50

D 40 20 20 10

E 50 10 20 10

Tabela 3.2. Macierze odległości euklidesowych D, skonstruowane dla wysymulowanych danych X(5 x 4)

A B C D E

A 0 40.0000 38,7298 110.4536 111.3553

B 4 0 .0 0 0 0 0 17.3205 70.7107 72.1110

C 3 8 .7 2 9 8 1 7 .3 2 0 5 0 78.1025 80.6226 D 1 10.4536 7 0 .7 1 0 7 7 8 .1 0 2 5 0 14.1421 E 111.3553 72.1110 8 0 .6 2 2 6 14.1421 0

A B C D* c )

A 0 A B* D*

B 40.0000 0 A 0

C 38.7298 17.3205 0 B* 39.3649 0

D* 110.9450 71.4109 79.3646 0 D * 110.9450 75.3877 0

W kolejnym kroku określono dw a obiekty leżące najbliżej siebie. Z tabeli 3.2a wynika, że obiektam i tym i są próbki D i E (odległość euklidesow ą rów na 14,1421).

O biekty te połączono n a dendrogram ie (rys. 3.6a). W kolejnym kroku uśredniono odległość m iędzy próbkam i D i E, w prow adzając now ą próbkę D* (tab. 3.2b).

N astępnie w analogiczny sposób poszukiw ano dwóch kolejnych obiektów leżących najbliżej siebie. Są nimi obiekty B i C (odległość euklidesow ą rów na 17,3205). O biek­

ty te połączono na konstruow anym dendrogram ie (rys. 3.6b). Po połączeniu obiektów B i C w B* obliczono now ą m acierz odległości (tab. 3.2c). W kolejnym kroku na den­

drogram ie połączono ze sobą obiekty A i B* (A*) (rys. 3.6c), a następnie B* i D* (rys.

3.6d).

(26)

a)

o

'Cto0) Lq o

b)

c) O

£

d)

O -cto

10)q

TJo oCL

D E A B C

Rys. 3.6. Kolejne fazy konstrukcji dendrogramu dla symulowanych danych zorganizowanych w macierz X(5 x 4)

W ybór m etody łączenia obiektów podobnych zależy od rodzaju analizowanych danych. Zaleca się zastosow anie kilku m etod łączenia obiektów podobnych, a następ­

nie porów nanie otrzym anych wyników. A naliza skupień nie um ożliwia jednoczesnej interpretacji dendrogram u przedstawiającego obiekty w przestrzeni m ierzonych para­

m etrów i dendrogram u przedstaw iającego param etry w przestrzeni obiektów. O grani­

czenie to m oże zostać przezwyciężone przez uzupełnienie analizy skupień o kolorow ą mapę danych doświadczalnych, co pozw ala na bardziej w nikliw ą interpretację struktu- ry danych (Smoliński i in. 2002, 2013a).

3.2.2. Analiza skupień uzupełniona o kolorową mapę danych doświadczalnych W w yniku zastosow ania analizy skupień dla danych zorganizow anych w m acierz X (m x n) otrzym uje się dwa dendrogram®. Pierwszy z nich grupuje obiekty w prze­

strzeni m ierzonych param etrów , a drugi grupuje zmienne w przestrzeni obiektów.

W zdłuż osi O X na dendrogram ach znajdują się odpowiednio, m obiektów i n param e­

trów, uszeregow anych zgodnie z porządkiem wynikającym z metody stosowanej w analizie skupień. Dane przedstaw ione w m acierzy X (m x n) m ożna zw izualizować jak o kolorow ą mapę, w której kolory przypisane są odpowiednim wartościom. W ier­

sze tak skonstruowanej m apy to obiekty, kolum ny natom iast - m ierzone parametry.

(27)

Sortując odpow iednio wiersze i kolum ny m apy zgodnie z porządkiem projekcji obiek­

tów i param etrów , otrzym anym na dendrogram ach, m ożna przedstaw ić graficznie w yniki analizy skupień. Jednoczesna interpretacja dendrogram ów z tak uporządkow a­

n ą m apą danych dośw iadczalnych pozw ala w yjaśnić przyczyny podobieństw i różnic między poszczególnym i obiektam i. R easum ując, kolejne etapy analizy skupień, uzu­

pełnionej o kolorow ą m apę danych dośw iadczalnych, m ożna przedstaw ić następująco:

1) w ybór miary podobieństw a m iędzy obiektam i oraz sposobu łączenia obiektów podobnych,

2) konstrukcja dendrogram u dla obiektów w przestrzeni zm iennych, 3) konstrukcja dendrogram u dla zm iennych w przestrzeni obiektów ,

4) uszeregowanie obiektów i param etrów zgodnie z porządkiem otrzym anym z anali­

zy skupień,

5) przedstaw ienie kolorowej m apy danych doświadczalnych.

3.3. Analiza danych wielomodalnych

C zęsto w analizie danych ich organizacja w m acierz m oże okazać się niew łaści­

wa. Przykładem m ogą być dane z m onitoringu rozprzestrzeniania się ciekłych zanie­

czyszczeń podczas procesu podziem nego zgazow ania w ęgla w złożu. M onitoring taki pow inien być prow adzony w sposób ciągły w czasie trw ania procesu i po jeg o zakoń­

czeniu. Szczególnie istotne w tych badaniach je st śledzenie zm ian w czasie stężeń poszczególnych zanieczyszczeń w różnych m iejscach pom iarow ych. N iestety, organi­

zując dane w prostą m acierz dw uw ym iarow ą i stosując om ów ione we w cześniejszych rozdziałach m etody, takie ja k analiza PC A czy analiza skupień, utrudnione lub w ręcz niem ożliw e (przy dużej liczbie próbek) je st śledzenie trójliniow ych zależności m iędzy m iejscam i pom iarow ym i, czasem pobierania próbek i m ierzonym i param etram i. D la­

tego też w przypadku danych w ielow ym iarow ych zaleca się ich organizację w tablicę w ielom odalną oznaczaną jako X. D la tak zorganizow anych danych m ożliw e będzie prześledzenie trójliniow ych zależności z zastosow aniem analizy w ielom odalnej (ang.

multiway analysis, N-way analysis) (Tucker 1966; D e Ligny i in. 1984; van der Kloot, K roonenberg 1985; Geladi 1989; Bro 1998; Ortiz, Sarabia 2007; Stanim irova i in.

2006, 2009; D urante, Bro, C occhi 2011). A naliza w ielom odalna um ożliw ia, podobnie ja k analiza PCA, redukcję w ym iarow ości danych, ich w izualizację oraz elim inację części błędu eksperym entalnego. W śród w ielu m odeli stosow anych w analizie w ielo­

m odalnej na szczególną uw agę zasługują m odele T U C K ER (Tucker 1963, 1966;

K roonenberg, de Leeuw 1980; van der K loot, K roonenberg 1985; D e Ligny i in. 1984;

G em perline i in. 1992; B ro 1998; Gros, Cserhäti 2009; K roonenberg, Ten B erge 2011;

Kom pany-Zareh, A khlaghi, Bro 2012) oraz m odel PA R A F A C (C attell 1944; Carroll, C hang 1970; H arshm an 1972; H arshm an, B erenbaum 1981; B urdick 1995; Bro 1998;

Faber, Bro, H opke 2003; Tom asi, Bro 2005; Stanim irova i in. 2006; Leitäo, Esteves da Silva 2006; Bosco, Larrechi 2007; H uy Phan, Cichocki 2011; de Lim a R ibeiro i in.

2012).

Cytaty

Powiązane dokumenty

fizjologia zwierząt w Dudzińska Wioleta dr hab.. Hukowska-Szematowicz

[r]

[r]

polityka ochrony środowiska 20 ćw OiIŚP II 1,2 ocena zasobów przyrodniczych 15 ćw OiIŚP II 1,2 rekultywacja terenów. zdegradowanych 25 lb OiIŚP

[r]

Aktualnie intensyfikatory smaku stosuje się w celu podniesienia smakowitości żywności, w wielu gałęziach przemysłu spożywczego, w produkcji żywności gotowej i łatwej

W poprzednich dwóch punktach rozpatrzono obliczanie niepewności pomiarowych w przypadkach skrajnych: gdy niepewności systematyczne wszystkich wielkości bezpośred- nio

Zasadniczym celem pierwszego rozdziału jest prezentacja wyników badań w zakresie wykorzysta- nia technologii mobilnych pod kątem barier oraz ich ważności w ocenie użyt- kowników