2. Podstawowe pojęcia i metody analizy użyte w badaniach
2.4. Metoda symulacyjna Monte Carlo
2.4.2. Korelowanie zmiennych za pomocą kopuł
Klasyczna statystyka umożliwia identyfikację zależności liniowych (nieliniowych) po-między zmiennymi stosując do tego celu m.in. analizę korelacji. W tym zakresie najczęściej stosuje się współczynniki korelacji r-Pearsona i rho-Spearmana. Współczynnik korelacji r-Pearsona mierzy siłę zależności liniowej pomiędzy zmiennymi, rho-Spearmana jest jego odpowiednikiem w zbiorach danych uporządkowanych rangami. Współczynnik korelacji liniowej jest jednak wrażliwy na liczbę danych w zbiorze oraz obserwacje skrajne. Jego interpelacja i wykorzystanie jest także ograniczone wymogiem normalności rozkładu praw-dopodobieństwa analizowanych zmiennych, co w praktyce jest trudne do spełnienia (Iman i in. 1982; Sobczyk 2002). Korelacja rangowa w mniejszym stopniu jest wrażliwa na liczbę danych i obserwacje odstające. Wymóg normalności rozkładów nie musi być w tym przy-padku spełniony, a badane zależności mogą być również nieliniowe. Warto podkreślić, że zarówno współczynniki r-Pearsona, jak i rho-Spearmana mogą przedstawiać tylko niektóre, szczególne w swojej postaci i formie, wzorce korelacyjne między zmiennymi. Ich wartości mieszczą się w przedziałach obustronnie domkniętych od –1 do 1, przy czym silna zależ-ność – w sensie korelacji – występuje najczęściej dla współczynników większych niż 0,7 (wartości bezwzględnej) (Nieć 1990; Sobczyk 2006).
Analizując zmienność parametrów złożowych w pokładach C1, C2 i C3 złoża „X” za-uważono występowanie specyficznych struktur oraz nieregularne lokalne zależności (kon-centracje) zmiennych. Aby możliwie wiernie odwzorować je w środowisku symulacyjnym, posłużono się kopułami. Kopuły to zaawansowane matematyczne struktury – funkcje po-łączenia, gdzie na bazie statystyk brzegowych pojedynczych zmiennych (rozkładów brze-gowych, martyngałów) możliwa jest konstrukcja statystyk wielowymiarowych. Funkcje te z dużą dokładnością reprezentują, często nieznane w praktyce, struktury korelacji pomiędzy zmiennymi. Ma to szczególne znaczenie wtedy, kiedy analizowane zmienne łączy współwy-stępowanie, a nie związek przyczynowo-skutkowy14. W obrębie kopuł zdefiniowano wiele różnych ich postaci. Dominuje jednak użycie kopuły Claytona, Franka, Gumbela, Gaussa (normalnej) i tzw. T-kopuły.
14 Związek przyczynowo-skutkowy oznacza, że między danymi zmiennymi istnieje powiązanie (A jest przy-czyną B lub odwrotnie). Tymczasem korelacja zmiennych nie ujawnia związku przyczynowo-skutkowego. Wska-zuje jedynie na współwystępowanie zjawisk.
38
Ogólnie kopuła d-wymiarowa (C) może być przedstawiona (bazując na twierdzeniu Sklara) (Cherubini i in. 2004) jako wielowymiarowy rozkład, którego funkcje brzegowe (F1, F2, …, Fd) są rozkładami jednostajnymi U(0,1) w [0,1], co można zapisać w następu-jącej postaci (2.11):
(
1, 2, , d)
C(
1 1( )
, 2 2( )
, d( )
d)
F x x … x = F x F x …F x (2.11)
Związane z kopułą współczynniki korelacji τ-Kendalla i rho-Spearmana mogą być wów-czas wyrażone w sensie kopuły jako takiej, odzwierciedlając zależności korelacyjne między zmiennymi. Ogólnie zależność pomiędzy τ-Kendalla dla dwóch zmiennych losowych X, Y i kopuły C(u,υ) dwuwymiarowego rozkładu XY można przedstawić wzorem:
( )
1( ) ( )
Dla danych empirycznych szacowany jest uprzednio współczynnik τ-Kendalla, a na-stępnie wykorzystywany jest jego związek z parametrem charakterystycznym danej ko-puły (najczęściej oznaczanym jako α). Po przekształceniu (tzw. transformacja kwantyla i prawdopodobieństwa) wyznaczane są parametry dopasowywanej kopuły (reprezentacje kopuły C względem F oraz jej funkcji brzegowych). Ograniczeniem dla wiarygodności utworzonej kopuły jest wielkość zbioru danych. Przykładowo, jeżeli dysponujemy dzie-więcioma obserwacjami kopuła empiryczna będzie generować obserwacje w zbiorze {0,1;
0,2; 0,3 ... 0,9}, tj. między dziesiątym a dziewięćdziesiątym percentylem w rozkładzie funkcji brzegowej.
W symulacji Monte Carlo, w zakresie prowadzonych analiz, wykorzystano kopułę em-piryczną, która reprezentuje pierwotny, nieregularny wzorzec korelacyjny między zmienny-mi. Jest ona tworzona przy użyciu techniki bootstrapu w zbiorze obserwacji zrangowanych, wiążąc rangi w postaci (ri)/(n + 1) z określonym kwantylem (percentylem) w n-elemento-wym zbiorze danych. W przypadku analizowanych zbiorów parametrów złożowych, po-chodzących z modelu geologicznego, dla każdego z analizowanych pokładów i wszystkich zmiennych, liczba danych przekraczała 3000. Pozwoliło to uzyskać wysokiej jakości od-wzorowanie zależności korelacyjnych w zbiorach analizowanych parametrów złożowych za pomocą kopuły empirycznej (rys. 2.3–2.5). W przypadku danych pochodzących ze ścian, tj.
opadu stropu i pobierki spągu, liczba obserwacji sięgała 290, toteż losowe wartości kopuły empirycznej były generowane z uwzględnieniem niepewności wobec parametrów charakte-rystycznych rozkładów brzegowych.
W postaci graficznej korelacje wybranych parametrów złożowych (wartości opałowej, zawartości procentowej siarki i popiołu, gęstości przestrzennej) w pokładach C-1, C-2 i C-3 przedstawiono na rysunkach 2.3, 2.4 i 2.5.
Rys. 2.3. Struktury korelacyjne wybranych parametrów złożowych w pokładzie C-1 – lewa strona – dane pierwotne; prawa strona dobrana kopuła empiryczna
Źródło: opracowanie własne
Fig. 2.3. The correlation structures of the deposit parameters in the seam C-1 – left side – original data, right side – empirical copula
40
Rys. 2.4. Struktury korelacyjne wybranych parametrów złożowych w pokładzie C-2 – lewa strona – dane pierwotne; prawa strona – dobrana kopuła empiryczna
Źródło: opracowanie własne
Fig. 2.4. The correlation structures of the deposit parameters in the seam C-2 – left side – original data, right side – empirical copula
Rys. 2.5. Struktury korelacyjne wybranych parametrów złożowych w pokładzie C-3 – lewa strona – dane pierwotne; prawa strona – dobrana kopuła empiryczna
Źródło: opracowanie własne
Fig. 2.5. The correlation structures of the deposit parameters in the seam C-3 – left side – original data, right side – empirical copula
42
Analizując wybrane wzorce korelacyjne we wszystkich pokładach, można stwierdzić że:
— wartość opałowa i zawartość popiołu, silnie ujemnie skorelowane, tworzą nieregular-ne wzorce, najbardziej wysmukłe w przypadku pokładu C-2, choć z charakterystycz-nymi „skrzydełkami”,
— zawartość siarki jest słabo skorelowana z pozostałymi zmiennymi i również tworzy lokalne koncentracje,
— zawartość popiołu i gęstość przestrzenna węgla są dodatnio skorelowane, a wzorzec korelacyjny wartości opałowej i gęstości przestrzennej silnie przypomina związek wartości opałowej i zapopielenia.
Warto nadmienić, iż wzorce korelacyjne miąższości pokładów (bez przerostów) i sa-mych przerostów z pozostałymi parametrami złożowymi wskazują na zbliżony do losowe-go charakter współwystępowania. Wartości liczbowe korelacji ranlosowe-gowej, stanowiące pewne przybliżenie rezultatów modelowania w postaci kopuł, zostały wykazane w zestawieniach tabelarycznych w rozdziale 4 poświęconym źródłom danych.
Dla wykazania poglądowych różnic w modelowaniu zależności korelacyjnych za pomocą kopuł, na rysunku 2.6 zaprezentowano modele kopuły gaussowskiej dla wartości opałowej,
Rys. 2.6. Struktury korelacyjne wybranych parametrów złożowych w pokładzie C-1 – kopuła gaussowska – dane pierwotne
Źródło: opracowanie własne
Fig. 2.6. The correlation structures of the deposit parameters in the seam C-1 – Gaussian copula – original data
zawartości procentowej popiołu i siarki oraz gęstości przestrzennej węgla. Kopuła Gaussa jest strukturą aproksymującą liniowe zależności pomiędzy poszczególnymi zmiennymi. Można zauważyć, że istnieje wyższa koncentracja obserwacji w zakresach wartości wysokich oraz niskich zestawionych par parametrów. Rozmieszczenie wartości środkowych jest względnie regularne. Taka koncentracja obserwacji może potwierdzać udział lokalnych zjawisk (obser-wacji odstających) wpływających na kształt obserwowanych zależności. Widoczna jest także ujemna korelacja zapopielenia z wartością opałową oraz gęstością węgla w pokładzie C-1 oraz losowy charakter zależności zasiarczenia węgla z jego wartością opałową.
Ogólnie rzecz ujmując, przedstawione za pomocą kopuły Gaussa wzorce korelacyjne są bardziej regularne, mają charakterystyczny owalny kształt, typowy dla rozkładów współ-czynnika r-Pearsona oraz dla zależności korelacyjnych średnich i słabych.