Korelowanie zmiennych za pomocą kopuł - Metoda symulacyjna Monte Carlo

2. Podstawowe pojęcia i metody analizy użyte w badaniach

2.4. Metoda symulacyjna Monte Carlo

2.4.2. Korelowanie zmiennych za pomocą kopuł

Klasyczna statystyka umożliwia identyfikację zależności liniowych (nieliniowych) po-między zmiennymi stosując do tego celu m.in. analizę korelacji. W tym zakresie najczęściej stosuje się współczynniki korelacji r-Pearsona i rho-Spearmana. Współczynnik korelacji r-Pearsona mierzy siłę zależności liniowej pomiędzy zmiennymi, rho-Spearmana jest jego odpowiednikiem w zbiorach danych uporządkowanych rangami. Współczynnik korelacji liniowej jest jednak wrażliwy na liczbę danych w zbiorze oraz obserwacje skrajne. Jego interpelacja i wykorzystanie jest także ograniczone wymogiem normalności rozkładu praw-dopodobieństwa analizowanych zmiennych, co w praktyce jest trudne do spełnienia (Iman i in. 1982; Sobczyk 2002). Korelacja rangowa w mniejszym stopniu jest wrażliwa na liczbę danych i obserwacje odstające. Wymóg normalności rozkładów nie musi być w tym przy-padku spełniony, a badane zależności mogą być również nieliniowe. Warto podkreślić, że zarówno współczynniki r-Pearsona, jak i rho-Spearmana mogą przedstawiać tylko niektóre, szczególne w swojej postaci i formie, wzorce korelacyjne między zmiennymi. Ich wartości mieszczą się w przedziałach obustronnie domkniętych od –1 do 1, przy czym silna zależ-ność – w sensie korelacji – występuje najczęściej dla współczynników większych niż 0,7 (wartości bezwzględnej) (Nieć 1990; Sobczyk 2006).

Analizując zmienność parametrów złożowych w pokładach C1, C2 i C3 złoża „X” za-uważono występowanie specyficznych struktur oraz nieregularne lokalne zależności (kon-centracje) zmiennych. Aby możliwie wiernie odwzorować je w środowisku symulacyjnym, posłużono się kopułami. Kopuły to zaawansowane matematyczne struktury – funkcje po-łączenia, gdzie na bazie statystyk brzegowych pojedynczych zmiennych (rozkładów brze-gowych, martyngałów) możliwa jest konstrukcja statystyk wielowymiarowych. Funkcje te z dużą dokładnością reprezentują, często nieznane w praktyce, struktury korelacji pomiędzy zmiennymi. Ma to szczególne znaczenie wtedy, kiedy analizowane zmienne łączy współwy-stępowanie, a nie związek przyczynowo-skutkowy¹⁴. W obrębie kopuł zdefiniowano wiele różnych ich postaci. Dominuje jednak użycie kopuły Claytona, Franka, Gumbela, Gaussa (normalnej) i tzw. T-kopuły.

14 Związek przyczynowo-skutkowy oznacza, że między danymi zmiennymi istnieje powiązanie (A jest przy-czyną B lub odwrotnie). Tymczasem korelacja zmiennych nie ujawnia związku przyczynowo-skutkowego. Wska-zuje jedynie na współwystępowanie zjawisk.

Ogólnie kopuła d-wymiarowa (C) może być przedstawiona (bazując na twierdzeniu Sklara) (Cherubini i in. 2004) jako wielowymiarowy rozkład, którego funkcje brzegowe (F₁, F₂, …, F_d) są rozkładami jednostajnymi U(0,1) w [0,1], co można zapisać w następu-jącej postaci (2.11):

(

1, 2, , _d

)

(

1 1

^{( )}

, 2 2

^{( )}

, _d

^{( )}

)

F x x … x = F x F x …F x (2.11)

Związane z kopułą współczynniki korelacji τ-Kendalla i rho-Spearmana mogą być wów-czas wyrażone w sensie kopuły jako takiej, odzwierciedlając zależności korelacyjne między zmiennymi. Ogólnie zależność pomiędzy τ-Kendalla dla dwóch zmiennych losowych X, Y i kopuły C(u,υ) dwuwymiarowego rozkładu XY można przedstawić wzorem:

( )

( ) ( )

Dla danych empirycznych szacowany jest uprzednio współczynnik τ-Kendalla, a na-stępnie wykorzystywany jest jego związek z parametrem charakterystycznym danej ko-puły (najczęściej oznaczanym jako α). Po przekształceniu (tzw. transformacja kwantyla i prawdopodobieństwa) wyznaczane są parametry dopasowywanej kopuły (reprezentacje kopuły C względem F oraz jej funkcji brzegowych). Ograniczeniem dla wiarygodności utworzonej kopuły jest wielkość zbioru danych. Przykładowo, jeżeli dysponujemy dzie-więcioma obserwacjami kopuła empiryczna będzie generować obserwacje w zbiorze {0,1;

0,2; 0,3 ... 0,9}, tj. między dziesiątym a dziewięćdziesiątym percentylem w rozkładzie funkcji brzegowej.

W symulacji Monte Carlo, w zakresie prowadzonych analiz, wykorzystano kopułę em-piryczną, która reprezentuje pierwotny, nieregularny wzorzec korelacyjny między zmienny-mi. Jest ona tworzona przy użyciu techniki bootstrapu w zbiorze obserwacji zrangowanych, wiążąc rangi w postaci (r_i)/(n + 1) z określonym kwantylem (percentylem) w n-elemento-wym zbiorze danych. W przypadku analizowanych zbiorów parametrów złożowych, po-chodzących z modelu geologicznego, dla każdego z analizowanych pokładów i wszystkich zmiennych, liczba danych przekraczała 3000. Pozwoliło to uzyskać wysokiej jakości od-wzorowanie zależności korelacyjnych w zbiorach analizowanych parametrów złożowych za pomocą kopuły empirycznej (rys. 2.3–2.5). W przypadku danych pochodzących ze ścian, tj.

opadu stropu i pobierki spągu, liczba obserwacji sięgała 290, toteż losowe wartości kopuły empirycznej były generowane z uwzględnieniem niepewności wobec parametrów charakte-rystycznych rozkładów brzegowych.

W postaci graficznej korelacje wybranych parametrów złożowych (wartości opałowej, zawartości procentowej siarki i popiołu, gęstości przestrzennej) w pokładach C-1, C-2 i C-3 przedstawiono na rysunkach 2.3, 2.4 i 2.5.

Rys. 2.3. Struktury korelacyjne wybranych parametrów złożowych w pokładzie C-1 – lewa strona – dane pierwotne; prawa strona dobrana kopuła empiryczna

Źródło: opracowanie własne

Fig. 2.3. The correlation structures of the deposit parameters in the seam C-1 – left side – original data, right side – empirical copula

Rys. 2.4. Struktury korelacyjne wybranych parametrów złożowych w pokładzie C-2 – lewa strona – dane pierwotne; prawa strona – dobrana kopuła empiryczna

Źródło: opracowanie własne

Fig. 2.4. The correlation structures of the deposit parameters in the seam C-2 – left side – original data, right side – empirical copula

Rys. 2.5. Struktury korelacyjne wybranych parametrów złożowych w pokładzie C-3 – lewa strona – dane pierwotne; prawa strona – dobrana kopuła empiryczna

Źródło: opracowanie własne

Fig. 2.5. The correlation structures of the deposit parameters in the seam C-3 – left side – original data, right side – empirical copula

Analizując wybrane wzorce korelacyjne we wszystkich pokładach, można stwierdzić że:

— wartość opałowa i zawartość popiołu, silnie ujemnie skorelowane, tworzą nieregular-ne wzorce, najbardziej wysmukłe w przypadku pokładu C-2, choć z charakterystycz-nymi „skrzydełkami”,

— zawartość siarki jest słabo skorelowana z pozostałymi zmiennymi i również tworzy lokalne koncentracje,

— zawartość popiołu i gęstość przestrzenna węgla są dodatnio skorelowane, a wzorzec korelacyjny wartości opałowej i gęstości przestrzennej silnie przypomina związek wartości opałowej i zapopielenia.

Warto nadmienić, iż wzorce korelacyjne miąższości pokładów (bez przerostów) i sa-mych przerostów z pozostałymi parametrami złożowymi wskazują na zbliżony do losowe-go charakter współwystępowania. Wartości liczbowe korelacji ranlosowe-gowej, stanowiące pewne przybliżenie rezultatów modelowania w postaci kopuł, zostały wykazane w zestawieniach tabelarycznych w rozdziale 4 poświęconym źródłom danych.

Dla wykazania poglądowych różnic w modelowaniu zależności korelacyjnych za pomocą kopuł, na rysunku 2.6 zaprezentowano modele kopuły gaussowskiej dla wartości opałowej,

Rys. 2.6. Struktury korelacyjne wybranych parametrów złożowych w pokładzie C-1 – kopuła gaussowska – dane pierwotne

Źródło: opracowanie własne

Fig. 2.6. The correlation structures of the deposit parameters in the seam C-1 – Gaussian copula – original data

zawartości procentowej popiołu i siarki oraz gęstości przestrzennej węgla. Kopuła Gaussa jest strukturą aproksymującą liniowe zależności pomiędzy poszczególnymi zmiennymi. Można zauważyć, że istnieje wyższa koncentracja obserwacji w zakresach wartości wysokich oraz niskich zestawionych par parametrów. Rozmieszczenie wartości środkowych jest względnie regularne. Taka koncentracja obserwacji może potwierdzać udział lokalnych zjawisk (obser-wacji odstających) wpływających na kształt obserwowanych zależności. Widoczna jest także ujemna korelacja zapopielenia z wartością opałową oraz gęstością węgla w pokładzie C-1 oraz losowy charakter zależności zasiarczenia węgla z jego wartością opałową.

Ogólnie rzecz ujmując, przedstawione za pomocą kopuły Gaussa wzorce korelacyjne są bardziej regularne, mają charakterystyczny owalny kształt, typowy dla rozkładów współ-czynnika r-Pearsona oraz dla zależności korelacyjnych średnich i słabych.

W dokumencie Michał Kopacz WpłyW Wybranych paraMetróW geologiczno-górniczych na ocenę eKonoMiczną projeKtóW W górnictWie Węgla KaMiennego (Stron 37-43)