• Nie Znaleziono Wyników

Teoria otwartych układów kwantowych

N/A
N/A
Protected

Academic year: 2021

Share "Teoria otwartych układów kwantowych"

Copied!
281
0
0

Pełen tekst

(1)

################################################################################

Teoria otwartych układów kwantowych

Heinz Peter Breuer, Francesco Petruccione

Tytuł oryginału : „The theory of open quantum systems”

Oxford University Press 2002, 2003

************************************************************************************************

Tłumaczenie : R. Waligóra Pierwsze tłumaczenie : 2014

Ostatnia modyfikacja : 2015-09-01 Tłumaczenie całości książki ( w planach ).

////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////

Wstęp własny

Jako tekst wstępny polecam książkę pt. :

„Wykłady z mechaniki kwantowej” - W. W. Bałaszow, W. K. Dolinow

Skróty i oznaczenia zastosowane w tłumaczeniu (własne ).

MQ – mechanika kwantowa MK – mechanika klasyczna MS – mechanika statystyczna rr - równanie różniczkowe

rrz – równanie różniczkowe zwyczajne rrc – równanie różniczkowe cząstkowe

PDP - procesy kawałkami-zdeterminowane ( Piecewise deterministic processes ) Równanie podstawowe ≡ równanie Master

Wielkości wektorowe zapisywane będą czcionką pogrubioną F, a , ... ( w tekście są to literki ze strzałką u góry ) Dopiski własne oznaczono symbolami (* ... *)

************************************************************************************************

Przedsłowie

Mechanika kwantowa znajduje się w centrum naszego współczesnego rozumienia praw fizyki. Jest to najbardziej

fundamentalna teoria fizyczna. W swej istocie MQ jest teorią probabilistyczną. Wszelkie przewidywania, otrzymane na jej podstawie noszą charakter probabilistyczny. Na ile nam wiadomo nie istnieje teoria deterministyczna, z której moglibyśmy wyprowadzić prawdopodobieństwa kwantowe. Statystyczna interpretacja MQ zakłada, że wszelkie przewidywania dokonywane są odnośnie zachowania określonych ansambli tj. dużej liczby niezależnych indywidualnych układów.

Stwierdzenia teorii kwantowej sprawdzamy na podstawie pomiarów prowadzonych na dużych próbkach złożonych z takich układów.

Układy kwantowo- mechaniczne powinny być rozpatrywane jako układy otwarte. Tak jak i w MK, dowolny układ rzeczywisty podlega oddziaływaniu z niekontrolowanym otoczeniem, okazującym na niego wpływ, którego nie można zaniedbać. Zatem, teoria otwartych układów kwantowych odgrywa wiodąca rolę w wielu zastosowaniach fizyki kwantowej na mocy tego, ze nie możliwe jest absolutne izolowanie układów kwantowych, pełny opis mikroskopowy lub kontrola stopni swobody otoczenia również nie są możliwe lub są możliwe tylko częściowo.

Najbardziej interesujące układy są zbyt złożone dla ich opisania w praktyce, jeśli tylko opieramy się na mikroskopowych prawach fizyki. Można nawet powiedzie coś więcej. Takie mikroskopowe przybliżenie jest nie tylko niemożliwe w praktyce, ale i nie odzwierciedla tego, co w rzeczywistości chciałby wiedzieć badacz, jeśli chodzi o analizowany problem.

Nawet, jeśli rozwiązanie ewolucyjnych równań mikroskopowych było by możliwe, to dawałoby ono trudną do ogarnięcia ilość informacji, większość, której i tak byłaby nieużyteczna dla racjonalnego opisu.

Praktyczne zagadnienia wymagają poszukiwania niezłożonego, efektywnego opisu probabilistycznego w języku dynamiki układów otwartych. Wykorzystanie teorii prawdopodobieństwa pozwala zrealizować analizę złożonych układów

posiadających zbiorowe lub nawet nieskończone ilości stopni swobody. Osiągamy to poprzez ograniczenie sformułowania matematycznego, które sprowadza się do wybrania odpowiedniego zbioru niewielkiej liczby zmiennych

charakterystycznych. Doświadczenie pokazuje, że przy dostatecznie ogólnych warunkach ewolucja takich zmiennych kierowana jest prostymi prawami dynamicznymi. Prawa takie mogą być sformułowane w języku rodzin równań

(2)

ewolucyjnych. Uwzględnienie pozostałych mikroskopowych stopni swobody może być w przybliżeniu zrealizowane poprzez włączenie członów stochastycznych i dysypatywnych.

Istnieje również inna, bardziej fundamentalna przyczyna dla wprowadzenia pojęcia układu otwartego do teorii kwantowej.

Równanie Schrödingera przedstawia sobą prawo deterministyczne, które kieruje dynamika rozkładów prawdopodobieństw.

Równanie to opisuje dynamikę wielkości probabilistycznych, odnoszących się do ansamblu izolowanych układów, jednakże w charakterze prawdopodobieństw teorii, MQ powinna obejmować również i przypadkowe pojawianie się określonych zdarzeń, będących realizacjami podstawowych rozkładów prawdopodobieństw. Dla oceny

prawdopodobieństw zdarzeń przypadkowych układ kwantowy powinien oddziaływać ze sowim otoczeniem.

Dowolny empiryczny sprawdzian przewidywań statystycznych w prowadzony w układzie kwantowym wymaga związania z aparaturą pomiarową. Taki związek, mówiąc ogólnie prowadzi do wpływu pomiaru na obiekt kwantowy, który nie może być zaniedbany. W ten sposób poprzez proces pomiarowy MQ okazuje się być blisko związana z pojęciem otwartego układu kwantowego.

W przedstawionej książce rozpatrujemy podstawowe koncepcje fizyczne i metody matematyczne, wykorzystywane dla analizy dynamiki otwartych układów kwantowych. Ogólne podejście, którego trzymamy się w niniejszej publikacji, polega na wykorzystaniu dwóch różnych metod wyprowadzenia dynamiki układów otwartych. Taka dynamika wynika, albo z fundamentalnej teorii mikroskopowej poprzez wykluczenie stopni swobody, odnoszących się do otoczenia, albo poprzez sformułowanie specyficznych schematów pomiarowych w języku operacji kwantowych. Istnieje ścisły fizyczny i matematyczny związek pomiędzy ewolucją układu otwartego, zmiana stanu, którego generowana jest poprzez pomiary kwantowe i klasycznym pojęciem procesu stochastycznego. W niniejszej książce czytelnik znajdzie szczegółowy opis takich wzajemnych relacji, jak również szereg przykładów fizycznych ilustrujących matematyczna strukturę takiej teorii.

Aby zapewnić samowystarczalność wykładu na początku książki ( część I ) podajemy wstęp do klasycznej teorii prawdopodobieństwa i procesów stochastycznych (rozdział 1), jak również wprowadzenie do podstaw MQ ( rozdział 2).

Oprócz standardowych pojęć, takich jak przestrzeń probabilistyczna, zmienne przypadkowe i procesy stochastyczne w rozdziale 2 rozpatrujemy jeszcze dwa zagadnienia, które są ważne dla dalszego rozbudowania teorii. Są to procesy kawałkami-zdeterminowane (* piecewise deterministic processes PDP *) i procesy Lévyego. W rozdziale 2 kładziemy akcent na statystyczną interpretacje MQ i jej związek z klasyczną teorią prawdopodobieństwa. W charakterze

przygotowania dla kolejnych rozdziałów rozpatrujemy również złożone układy kwantowe, pojęcie stany splątanego jak również entropie kwantową. Oprócz tego, podajemy szczegółowy opis kwantowej teorii pomiarów w ramach formalizmu operacji kwantowych i ich efektów.

W części II w języku podstawowych równań kwantowych przedstawiono podstawy opisu kwantowej dynamiki układów otwartych ( wraz z najważniejszymi zastosowaniami ). W rozdziale 3 omawiamy teorię kwantowych półgrup (* quantum dynamical semigroups *) dynamicznych, które prowadza do koncepcji procesów Markowa. Omawiamy relaksacje do stanu równowagi i wieloczasową strukturę kwantowych procesów Markowa, jak również ich nieodwracalną naturę, którą charakteryzuje się z pomocą odpowiednio zdefiniowanego funkcjonału entropii. Przedstawiamy szczegółowe wyprowadzenia dla podstawowych równań kwantowych, takich jak podstawowe optyczne równanie kwantowe i podstawowe równanie kwantowego ruchu Browna. W kontekście modelu Caldeiry- Leggetta rozpatrujemy metodę funkcjonału wpływu (*influence functional *). W charakterze zastosowania wprowadzamy podstawowe równanie, które opisuje ciągły monitoring obiektu kwantowego i analizujemy jego związek z kwantowym efektem Zenona.

W rozdziale 3 przedstawiono również nieliniowe kwantowe równanie pola średniego (* non-linear, mean field quantum master equations *) wraz z pewnymi jego zastosowaniami do teorii laserów i superluminescencji.

W rozdziale 4 analizujemy ważne zjawisko dekoherentyzacji, generowane poprzez wpływ otoczenia i prowadzące do przejścia ku klasycznemu opisowi otwartych układów kwantowych. (* environment-induced decoherence *)

Rozpracowano tam szereg metod dla określenia czasu dekoherentyzacji. W charakterze konkretnych przykładów rozpatrujemy eksperymenty związane z dekoherentyzacją stanów pola EM typu kota Schrödingera, naruszenie

koherentności w modelu Caldeiry- Leggetta i generowany wpływem otoczenia wybór bazy pomiarowej w kwantowej teorii pomiarów.

Podczas, gdy w częściach I i II główny nacisk kładziemy na standardowe aspekty teorii, to części III – V przedstawiają sobą przegląd bardziej współczesnych i nowocześniejszych metod stosowanych w teorii otwartych układów kwantowych.

W części III wprowadzamy specyficzne pojęcie „ansamblu ansambli” i koncepcje stochastycznych funkcji falowych, i stochastycznych macierzy gęstości. W rozdziale 5 podajemy podstawy teorii przypadkowych wektorów stanu i matematycznej struktury rozkładów probabilistycznych w przestrzeniach Hilberta i Liouville’a.

(*Part III introduces the notion of an ensemble of ensembles and the concept of stochastic wave functions and

stochastic density matrices. The underlying mathematical structure of probability distributions on Hilbert or Liouville space and of the corresponding random state vectors is introduced in Chapter 5. *)

W rozdziale 6 takie koncepcje wykorzystujemy w celu opisania dynamiki pomiarów ciągłych, dokonywanych nad układami otwartymi. Pokazano tam m.in., że ewolucja wektora stanu generowana przez rejestracje wyników pomiarów, zadana jest poprzez proces kawałkami –zdeterminowany, zawierającym ciągłe ewolucyjne okresy czasu, przeplatane

(3)

natychmiastowym pojawianiem się kwantowych skoków. Ogólną teorię ilustrujemy szeregiem przykładów, takich jak bezpośrednia homodynowa i heterodynowa fotodetekcja.

Ogólny formalizm pomiarów kwantowych z użyciem pojęć operacji kwantowych przedstawiono w rozdziale 8. Tam też rozpatrujemy przykłady zaczerpnięte z fizyki atomowej i optyki kwantowej, np. rezonanse „ciemnych” stanów (* dark state resonances ) i laserowe chłodzenie atomów. W szczególności przykład sub-odbicia (?) w dynamice ochładzania atomów dobrze ilustruje wzajemne oddziaływanie pomiędzy procesami niekoherentnymi i efektami kwantowo-interferencyjnymi, które prowadza do pojawienia się rozkładów Lévyego z długimi ogonami dla atomowego czasu oczekiwania

(*In particular, the example of the sub-recoil cooling dynamics of atoms nicely illustrates the interplay between incoherent processes and quantum interference effects which leads to the emergence of long-tail Levy distributions for the atomic waiting time *)

Numeryczne modelowanie procesów stochastycznych na komputerach o wysokiej wydajności zapewnia efektywny instrument dl prowadzenia przewidywań charakterystyk dynamiczny procesów fizycznych. Sformułowanie dynamiki układów otwartych z użyciem pojęć procesów kawałkami –zdeterminowanych lub stochastycznych równań różniczkowych w przestrzeni Hilberta prowadzi do efektywnych numerycznych metod modelowania, które omawiamy szczegółowo w rozdziale 7.

Część IV poświęcono podstawowym własnościom bardziej złożonego niemarkowskiego opisu układów otwartych.

W rozdziale 9 podajemy przegląd metod operatorowych Nakajima-Zwanziga, z pomocą, których można otrzymać tzw.

uogólnione podstawowe równania dla dynamiki zredukowanego układu. W reżimie niemarkowskim takie równania zawierają jądro, uwzględniające pamięć, tak, że całkę kontrakcji czasowej można obliczyć z uwzględnieniem historii zredukowanego układu.

(*In the non-Markovian regime, these master equations involve a retarded memory

retarded memory kernel, that is a time-convolution integral taken over the history of the reduced *)

W przypadku ogólnym napotykamy złożone zagadnienie analizy równania całkowo- różniczkowego dla macierzy gęstości otwartego układu kwantowego. Dlatego też w rozdziale 9 rozwijamy przybliżoną metodę, opartą na równaniu ruchu, która jest lokalna w czasie i która znana jest jako operatorowa metoda rzutowania z zawężeniem czasu (* time-convolutionless projection operator method *)

Metoda ta posłuży nam jako punkt wyjścia dla usystematyzowanej teorii zaburzeń w granicy Markowa, jak również dla analiz numerycznych. W rozdziale 10 analizujemy szereg zastosowań dynamiki niemarkowskiej w układach fizycznych, takich jak model Jaynesa-Cummingsa, kwantowy ruch Browna i model spin- bozonowy.

Kończąca książkę, część V związana jest z omówieniem relatywistycznego sformułowania dynamiki otwartych układów kwantowych i kwantowej teorii pomiaru. W rozdziale 11 analizujemy relatywistyczne sformułowanie dla postulatu redukcji stanu w kwantowej teorii pomiaru. Postulat ten wykorzystywany jest przy dalszej analizie zastosowań do pomiarów lokalnych i nielokalnych, jak również do sformułowania ograniczeń na mierzalność wielkości nielokalnych, wynikających z zasady przyczynowości. Sformułowanie relatywistyczne pozwala nam, z jednej strony rozpatrzyć z jednego punktu widzenia wiele ważnych eksperymentów np. splątanie typu EPR, pomiar operatorów stanu Bella, pomiary wymienne i teleportacja kwantowa. Relatywistyczna teoria macierzy gęstości w elektrodynamice kwantowej, rozwinięta w rozdziale 12, wykorzystuje metody funkcjonalne zaczerpnięte z teorii pola, metody całek po trajektoriach i sformułowanie funkcjonału wpływu. W charakterze ważnego przykładu przedstawiamy teorię dekoherentyzacji zastosowaną w QED.

Mulitidyscyplinarna w swej naturze teoria otwartych układów kwantowych wymaga analizy różnorodnych aspektów teorii kwantowej i zastosowań w wielu obszarach fizyki. Na rysunku 0.1 przedstawiliśmy szkic możliwych marszrut po niniejszej książce, którymi można się kierować przy jej pierwszym czytaniu.

Książka adresowana jest do studentów i specjalistów z zakresu fizyki teoretycznej i matematyki stosowanej. Zakładamy w niej znajomość jedynie podstaw MQ, matematyki i teorii prawdopodobieństwa. Poszczególne rozdziały zostały napisane w miarę niezależnie i można je wykorzystywać jako materiał dla dalszych wykładów i specjalistycznych kursów.

Każdy rozdział kończymy odpowiednio dobraną bibliografią. Ponieważ w większość rozdziałów rozpatrujemy szybko rozwijające się obszary fizyki, to nie zawsze możliwe było podać w miarę pełny spis literatury.

W miejsce tego spróbowaliśmy podać odsyłacze do pewnych ważnych przykładów oryginalnych prac i wprowadzających artykułów, w których opisuje się rozpatrywaną tematykę. Na konkretną postać spisu literatury silnie wpłynęły osobiste preferencje autorów, dlatego z góry przepraszamy tych autorów, których nie cytowaliśmy. Istnieje ogromna liczba różnorodnych książek i monografii o ogólnym charakterze, z których dowiedzieliśmy się wiele cennych rzeczy.

Część z nich podajemy poniżej.

(4)

Rys. 0.1 Możliwe drogi analizy treści książki przy pierwszym czytaniu. Czarne kółeczka pokazują rozdziały, w których można znaleźć informacje o podstawowych ideach poruszanych w książce.

Literaura.

(5)

*************************************************************************************************

Cześć I

Prawdopodobieństwo w fizyce klasycznej i kwantowej

************************************************************************************************

Rozdział 1 Klasyczna teoria prawdopodobieństwa i procesy stochastyczne.

Niniejszy rozdział przedstawia sobą krótki przegląd klasycznej teorii prawdopodobieństwa i procesów stochastycznych.

Naszym celem będzie to, aby być w tym przeglądzie samo wystarczającym. Szczególny nacisk kładziemy na omówieniu obiektów, które będą ważne dla kolejnych rozdziałów niniejszej książki. Bardziej szczegółowy wykład wraz z całym szeregiem interesujących przykładów klasycznej teorii prawdopodobieństwa można znaleźć w podręcznikach.

Dla czytelników z zacięciem matematycznym rekomendujemy następujące podręczniki : Feller 1968, 1971 ; Doob 1953

Dla tych, którzy bardziej zainteresowani są fizycznymi zastosowaniami polecam książki : Gardiner 1985 ; van Kampen 1992 ; Reichl 1998

(* zobacz również Rozdział XXIII Rachunek prawdopodobieństwa *)

1.1 Przestrzeń probabilistyczna.

Fundamentalnym pojęciem teorii prawdopodobieństwa jest przestrzeń probabilistyczna. Składa się ona z trzech podstawowych obiektów :

Przestrzeń zdarzeń elementarnych , σ-algebra zdarzeń, miara probabilistyczna określona na σ-algebrze

Pojęcia te omówimy dalej. W wykładzie będziemy posługiwali się aksjomatycznym podejściem do prawdopodobieństwa, które zdefiniował Kołmogorow (1956)

1.1.1 σ-algebra zdarzeń.

Formalne obiekty, które są podstawowymi atrybutami prawdopodobieństwa nazywa się zdarzeniami.

Matematycznie zdarzenia są podzbiorami pewnego zbioru podstawowego Ω, nazywanego przestrzenią zdarzeń lub przestrzenią próbek. Podzbiory Ω, zawierające tylko jeden element ω ∈Ω odnoszą się do zdarzeń elementarnych.

Mając zadaną przestrzeń zdarzeń Ω zazwyczaj nie interesujemy się wszystkimi możliwymi podzbiorami Ω ( przestrzeń Ω może być np. nieskończenie wymiarowa i nieprzeliczalna ), tak, więc powinniśmy wskazać, jakie konkretnie podzbiory A⊂ Ω chcemy rozpatrywać w naszej konkretnej teorii.

(6)

Istotny wymóg jest taki, że zdarzenia powinny tworzyć tzw. σ-algebrę, będącą rodziną A podzbiorów Ω, cechującą się następującymi warunkami :

1) sama przestrzeń zdarzeń i zbiór pusty należy do układu zdarzeń tj. Ω∈ A i ∅∈ A

2) jeśli A1 A i A2 A, to również suma mnogościowa A1 A2 , przecięcie A1 A2 i różnica A1\ A2 również należy do A.

3) Jeśli A1, A2 , ... , An ∈ A to :

An ∈ A

n=1

Będziemy zawsze pisali A∈ A podkreślając tym samym, ze podzbiór A ⊂ Ω jest zderzeniem naszej teorii.

Wyżej wymienione wymagania gwarantują, że cała przestrzeń zdarzeń , oraz zbiór pusty będą zdarzeniami, jak również to, że nad wszystkimi zdarzeniami A mogą być realizowane operacje logiczne : AND, OR, NOT nie prowadzące do wyprowadzenia poza obszar zdefiniowanej struktury. Oto, dlaczego A nazywa się algebrą. Warunek trzeci sprawia, że A staje się σ-algebrą. Mówi on, że dowolna przeliczalna suma zdarzeń sama jest zdarzeniem.

1.1.2 Miary probabilistyczne i aksjomaty Kołmogorowa.

Budowę przestrzeni probabilistycznej zakończymy zdefiniowaniem miary probabilistycznej określonej na σ-algebrze zdarzeń.

Miara probabilistyczna jest to odwzorowanie µ : A → R, które wiąże każde zdarzenie A σ-algebry z liczbą rzeczywistą µ(A) :

A → µ(A) ∈ R (1.1)

Liczbę µ(A) traktujemy jako prawdopodobieństwo zdarzenia A. Zatem, aby spełnić aksjomaty Kołmogorowa od miary probabilistycznej µ wymagamy :

1) dla wszystkich zdarzeń A ∈ A :

0 ≤ µ(A) ≤ 1 (1.2)

2) normalizacja prawdopodobieństwa :

µ(Ω) = 1 (1.3)

3) jeśli dany jest przeliczany zbiór zdarzeń

A1, A2 , ... , An A przy czym Ai Aj = ∅ przy i ≠ j (1.4)

to prawdopodobieństwo ich sumy jest równe sumie ich prawdopodobieństw : ∞ ∞

µ( An ) = Σ µ(An ) (1.5) n=1 n=1

Na podstawie powyższych aksjomatów można zbudować konsekwentną teorie prawdopodobieństwa. W szczególności, aksjomaty Kołmogorowa dają nam możliwość określenia prawdopodobieństwa wszystkich zdarzeń, będących wynikiem operacji logicznych innych zdarzeń. Przykładowo :

µ( A1 A2 ) = µ(A1) + µ(A2 ) – µ( A1 A2 ) (1.6)

Podsumowując – przestrzeń probabilistyczna składa się z przestrzeni zdarzeń Ω, σ-algebry zdarzeń A i miary probabilistycznej µ określonej nad A. Takie ogólne pojęcie przestrzeni probabilistycznej stanowi aksjomatyczna bazę klasycznej teorii prawdopodobieństwa. Oczywiście z fizycznego punktu widzenia istnieje związek takich abstrakcyjnych pojęć z eksperymentem i szczególnymi modelami teoretycznymi zjawisk rzeczywistych, co stanowi nietrywialne zagadnienie.

1.1.3 Prawdopodobieństwa warunkowe i niezależność.

Ważną zasadą teorii prawdopodobieństwa jest pojęcie statystycznej niezależności. Zasada ta jest często formułowana poprzez wprowadzenie prawdopodobieństwa warunkowego (* conditional probability *) µ( A1| A2 ) zdarzenia A1 przy warunku zajścia zdarzenia A2 :

µ( A1| A2 ) = µ( A1 A2 ) / µ(A2 ) (1.7)

Zakładamy przy tym, że oba zdarzenia A1i A2 należą do σ-algebry i µ(A2 ) > 0.

Rozpatrywane zdarzenia nazywają się statystycznie niezależnymi, jeśli :

µ( A1| A2 ) = µ(A1) (1.8)

lub, co równoważne :

µ( A1 A2 ) = µ( A1) µ(A2 ) (1.9)

(7)

To oznacza, że prawdopodobieństwo łącznego pojawienia się zdarzeń A1 i A2 jest równe iloczynowi prawdopodobieństw A1 i A2.

Dla kilku zdarzeń A1, A2, ... , An warunek statystycznej niezależności jest taki – dla dowolnego podzbioru ( i1, i2, ... , ik ) zbioru indeksów ( 1, 2, ... , n ) powinna być spełniona zależność :

µ( Ai1 Ai2 ∩ ... ∩ Aik ) = µ(Ai1) µ(Ai2) … µ(Aik ) (1.10) to oznacza, że prawdopodobieństwo łącznego pojawienia się dowolnego podzbioru zdarzeń Ai jest faktoryzowalne.

Jak pokazują proste przykłady (Gardiner 1985 ) sprawdzenie statystycznej niezależności tylko wszystkich par możliwych zdarzeń Ai i Aj nie jest wystarczające.

Następująca zależność jest bezpośrednim wynikiem definicji (1.7) :

µ( A1 | A2 ) = µ( A2 | A1 ) ( µ(A1) / µ( A2 )) (1.11)

Zależność ta znana jest szerzej jako twierdzenie Bayesa.

1.2 Zmienne losowe. (* Random variables *).

Elementy ω przestrzeni zdarzeń Ω mogą być dowolnymi abstrakcyjnymi obiektami. W praktyce często chcemy rozpatrywać po prostu liczby ( całkowite, rzeczywiste lub zespolone ) w miejsce takich abstrakcyjnych obiektów.

Przykładowo, chcielibyśmy dodawać, mnożyć takie liczby jak również rozpatrywać dowolne ich funkcje. Zatem naszym celem jest przyporządkowanie liczb i odpowiednich elementów przestrzeni zdarzeń. Idea taka prowadzi do pojęcia zmiennej przypadkowej.

1.2.1 Definicja zmienne losowej.

Zmienną losową X definiujemy poprzez odwzorowanie :

X : Ω → R (1.12)

które wiąże z każdym zdarzeniem elementarnym ω ∈Ω liczbę rzeczywistą X(ω).

Przy zadanym ω wartość :

x = X(ω) (1.13)

nazywa się realizacją X. W dalszej kolejności będziemy wykorzystywali duże litery dla oznaczenia zmiennych losowych, jednocześnie ich realizacje będziemy oznaczali odpowiednimi małymi literkami.

Nasza definicja zmiennej losowej nie jest jeszcze pełna. Powinniśmy nałożyć określony warunek na funkcje X.

Aby go sformułować, wprowadzimy σ-algebrę zbiorów borelowskich, które oznaczymy jako B. ( σ-algebra zbiorów Borela R jest to najmniejsza σ-algebra, która zwiera wszystkie podzbiory postaci (–, x ) ,x R. W szczególności zawiera ona wszystkie otwarte i zamknięte odcinki osi rzeczywistej )

Warunek nakładany na funkcje X polega na tym, ze powinna być ona mierzalna, co oznacza że dla dowolnego zbioru Borela B ∈ B przeciwobraz A = X–1(B) jest członem σ-algebry A zdarzeń. Warunek ten gwarantuje, że X–1(B) jest wielkością dobrze określoną i że możemy zdefiniować rozkład prawdopodobieństwa (* probability distribution *) X wzorem :

PX(B) = µ( X–1(B) ) (1.14)

Zatem zmienna losowa X odpowiada rozkładowi prawdopodobieństwa PX(B)na zbiorach Borela B na osi rzeczywistej ( zobacz rys. 1.1 )

Rys. 1.1 Ilustracja definicji zmiennej losowej. Zmienna losowa X jest odwzorowaniem z przestrzeni zdarzeń w przestrzeń liczb rzeczywistych. Prawdopodobieństwo tego, że liczba losowa przynależy do pewnego zbioru Borela B jest równa mierze µ(A) zdarzenia A = X–1(B), zadanej przeciwobrazem B.

Zbiory borelowskie są to zbiory ( –∞, x] , gdzie x ∈R. Rozpatrzmy teraz przeciwobraz takiego zbioru :

Ax { ω | X(ω) x } (1.15)

(8)

Zgodnie z warunkiem nałożonym na X, takie zbiory są mierzalne przy dowolnym x ∈R, co pozwala wprowadzić funkcje :

FX µ(Ax ) = µ( { ω | X(ω) x } ) (1.16)

Funkcja taka daje prawdopodobieństwo tego, że zmienna losowa X przyjmuje wartość w interwale ( – , x].

FX nazywa się kumulantywną funkcją rozkładu lub po prostu funkcją rozkładu X ( dystrybuantą ).

Często wykorzystuje się następujące oznaczenie :

FX ≡ µ(X ≤ x ) (1.17)

Jak łatwo pokazać, funkcja rozkładu posiada następujące własności : 1) FX(x) rośnie monotonicznie :

FX(x1 ) FX(x2 ) , przy x1< x2 (1.18)

2) FX(x) jest prawostronnie ciągła :

lim FX(x + ε ) = FX(x) (1.19)

ε→+0

3) FX posiada następujące granice :

lim FX(x) = 0 , lim FX(x ) = 1 (1.20)

x→–∞ x→+∞

Mówimy, że zmienna losowa X posiada gęstość prawdopodobieństwa pX(x), jeśli funkcja rozkładu może być przedstawiona następująco :

x

FX(x) = pX(x)dx (1.21)

–∞

Jeśli FX(x) jest absolutnie ciągła, to otrzymujemy następującą zależność :

pX(x) = dFX(x)/dx (1.22)

W dalszej kolejności, jak powszechnie przyjęto w literaturze fizycznej, funkcje rozkładu będziemy przedstawiali poprzez ich gęstości pX(x). Jest to dopuszczalne, jeśli dołączymy do pX(x) sumy δ- funkcji i wykluczymy określone syngularne funkcje rozkładu (Feller 1971).

W języku gęstości (1.14) możemy zapisać następująco :

PX(B) = pX(x)dx (1.23)

B

gdzie całkę bierzemy po zbiorze borelowskim B.

Do tej pory rozpatrywaliśmy jednowymiarową zmienną losową. Możliwe jest jednakże wprowadzenie dowolnego zbioru :

X = ( X1, X2, ... , Xd ) (1.24)

zmiennych losowych, określonych na tej samej przestrzeni probabilistycznej.

Funkcja wektorowa X : Rd nazywa się wielowymiarową zmienną losową lub wektorem losowym. To oznacza, że każdej składowej Xi odpowiada zmienna o wartości rzeczywistej.

Dla zadanego ω∈Ω wielkość x = X(ω) = ( X1(ω), X2(ω), ... , Xd(ω) ) będzie realizacją wielowymiarowej zmiennej losowej. Jednoczesną gęstość prawdopodobieństwa wielowymiarowej zmiennej losowej oznaczymy jako pX(x).

Prawdopodobieństwo tego, aby zmienna znalazła się w zbiorze borelowskim B ⊂ Rd zadane jest przez wyrażenie :

PX(B) = µ( X–1(B)) = pX(x)ddx (1.25)

B

Zgodnie z powyższymi definicjami, dwie zmienne losowe X1 i X2 na tejże przestrzeni probabilistycznej nazywają się statystycznie niezależnymi, jeśli :

µ(X1 x1, X2 x2 ) = µ( X1 x1) µ(X2 x2 ) (1.26)

dla wszystkich x1, x2.

Lewa strona stanowi skrócony zapis dla prawdopodobieństw :

µ(X1 x1, X2 x2 ) ≡µ( { ω∈Ω | X1(ω) ≤ x1 i X2(ω) ≤ x2 } ) (1.27) Jednoczesna statystyczna niezależność kilku zmiennych losowych może być zdefiniowana analogicznie do wzoru (1.10).

(9)

1.2.2 Przekształcenie zmiennych losowych.

Przy zadanej d- wymiarowej zmiennej losowej X możemy wygenerować nowe zmienne losowe, wykorzystując odpowiednie przekształcenia. Aby je określić, na początku rozpatrzymy mierzalne w sensie Borela funkcje :

g : Rd → Rf (1.28)

Założymy przy tym, że przeciwobraz g–1(B) dowolnego zbioru borelowskiego B ⊂ Rf jest również zbiorem borelowskim Rd . Zatem równanie :

Y = g(X) (1.29)

Określa nową f-wymiarową zmienną losową Y. Jeśli PX jest rozkładem prawdopodobieństwa zmiennej losowej X, to rozkład prawdopodobieństwa zmiennej losowej Y zadany jest za pośrednictwem wzoru :

PX(B) = PX ( g–1(B)) (1.30)

Odpowiednie gęstości prawdopodobieństw związane są poprzez zależności :

pY(y) = δ(f)( y – g(x)) pX(x) ddx (1.31)

gdzie δ(f) oznacza f- wymiarową funkcje δ.

Podany wzór daje nam możliwość określenia gęstości Y = g(X). Przykładowo suma Y = X1 + X2 dwóch zmiennych losowych możemy znaleźć za pomocą wzoru g(x1, x2 ) = x1 + x2. Jeśli X1 i X2 są niezależne, to otrzymujemy wzór : pY(y) = pX

1(x1 ) pX2 (y – x1) dx1 (1.32)

który pokazuje, ze gęstość zmiennej losowej Y jest splotem (* convolution *) gęstości zmiennych losowych X1 i X2.

1.2.3 Wartość oczekiwana (nadzieja matematyczna ) i funkcja charakterystyczna.

(* Expectation values and characteristic function *)

Badanie wartości oczekiwanych rozkładów prawdopodobieństw stanowi ważny instrument w ich opisie.

Wartość oczekiwana ( lub też czasami - wartość przeciętna, średnia ) dla rzeczywistej zmiennej losowej X definiujemy następująco :

( wartość oczekiwaną tradycyjnie oznacza się symbolem E(X) ( frc. esperance – nadzieja, ang. expectation – oczekiwanie ) +∞ +∞

E(X) ≡ x dFX = x pX(x ) dx (1.33)

–∞ –∞

Wielkość dFX(x) zdefiniowana jest następująco :

dFX(x) FX( x + dx ) – FX(x) = µ( x < X ≤ x + dx ) (1.34)

Całki w wyrażeniu (1.33) rozpatrujemy jako całki Lebesgue’a –Stieltjesa (Feller, 1971). W ogólniejszym przypadku wartość oczekiwaną funkcji mierzalnej g(X) od X definiujemy następująco :

+∞ +∞

E(X) ≡ g(x)dFX(x) = g(x) pX(x ) dx (1.35)

–∞ –∞

Szczególnie ważnymi przykładami wartości oczekiwanej są momenty m-tego rzędu : +∞ +∞

E(Xm ) ≡ xm dFX = xm pX(x ) dx (1.36)

–∞ –∞

W szczególności wariancje definiujemy następująco :

Var(X) ≡ E( [ X – E(X)]2 ) = E(X2 ) – E(X)2 (1.37)

Wariancja może stanowić miarę fluktuacji zmiennej losowej X. To oznacza, ze wariancja daje nam przedziały możliwych odchyleń realizacji X od wartości średniej E(X). Fakt ten wyraża się np. w nierówności Czebyszewa, która mówi, ze wariancja kontroluje prawdopodobieństwo dla takiego rodzaju odchyleń, a mianowicie dla wszystkich ε > 0 :

µ( | X – E(X) | ≥ ε ) ≤ Var(X )/ ε2 (1.38)

W szczególności, jeśli wariancja dąży do zera, to zmienna losowa X, faktycznie staje się wartością zdeterminowaną i przyjmuje jednoznaczną wartość x = E(X) z prawdopodobieństwem 1. Wariancja odgrywa ważną rolę w statystycznej analizie danych eksperymentalnych ( Honerkamp 1998), gdzie wykorzystuje się ją np. dl oceny wartości błędu standardowego dla wartości średniej próbek, otrzymanych w eksperymencie.

Dla wielowymiarowej zmiennej losowej X = ( X1, X2 , ... , Xd ) możemy zdefiniować elementy macierzy kowariancji :

Cov (Xi , Xj ) E( [ Xi – E(Xi )][ Xj – E(Xj )] ) (1.39)

Macierz kowariancji o wymiarze d × jest macierzą symetryczną i dodatnio określoną. Dobrze wiadomo, że niezależność statystyczna dwóch zmiennych losowych X1 i X2 wymaga aby niediagonalne elementy Cov( X1, X2 ) były równe zero, jednakże stwierdzenie odwrotne nie jest prawdziwe.

(10)

Elementy niediagonalne dają nam miarę liniowej zależności odpowiednich zmiennych losowych ( np. X1 i X2 ).

Aby się o tym przekonać rozpatrzymy współczynnik korelacji dla dowolnych dwóch zmiennych losowych o zerowej wariancji :

Cor (X1, X2 ) Cov (X1, X2 )/ sqrt[ Var (X1 ) Var (X2 )] (1.40)

który spełnia nierówność | Cor (X1, X2 ) | ≤ 1. Jeśli wartość absolutna współczynnika korelacji jest równa 1 tj.

| Cor (X1, X2 )| = 1, to istnieją takie stałe a, b, że X2 = aX1 + b z prawdopodobieństwem równym 1, tj. X2 liniowo zależy od X1.

Na zakończenie wprowadzimy jeszcze ważne dla dalszego wykładu pojęcie funkcji charakterystycznej, którą definiujemy jako przekształcenie Fouriera gęstości prawdopodobieństwa :

G(k) = E( exp[ikX] ) = pX(x ) exp(ikx) dx (1.41)

Można pokazać, ze funkcja charakterystyczna G(k) określa jednoznacznie odpowiednią gęstość rozkładu X.

Momenty X przy warunku istnienia pochodnych G(x) przy k = 0 można obliczyć następująco :

E(Xm ) = (1/im ) dm /dkm |k=0 G(k) (1.42)

Z tego powodu G(k) nazywa się również funkcją tworzącą.

Dla wielowymiarowej zmiennej losowej podane powyżej wyrażenie można następująco uogólnić : d

G(k1, k2 , ... , kd ) = E( exp[ i Σ kjXj ] ) (1.43) j=1

Podamy teraz ważną własność funkcji charakterystycznej.

Jak już mówiliśmy wcześniej, jeśli X i Y – są dwiema niezależnymi zmiennymi losowymi, to gęstość prawdopodobieństwa ich sumy Z = X + Y jest splotem gęstości X i Y. Odpowiednio do tego funkcja charakterystyczna dla zmiennej losowej Z jest iloczynem funkcji charakterystycznych zmiennych losowych X i Y.

1.3 Procesy stochastyczne.

Do tej pory rozpatrywaliśmy zmienne losowe określone na przestrzeni probabilistycznej bez jawnej zależności czasowej ich własności statystycznych. Dla odpowiedniego opisania dynamiki procesów fizycznych wymagane jest wprowadzenie pojęcia procesu stochastycznego, który w naturalny sposób opisuje zmienną losową, której własności statystyczne zmieniają się w czasie. Idea procesów stochastycznych uogólnia idee deterministycznej ewolucji czasowej. Ta ostatnia może być przedstawiona w języku rr, opisujących zdeterminowaną zmianę w czasie kilku zmiennych. W procesie stochastycznym taka deterministyczna ewolucja zamieniona zostaje na probabilistyczne prawo czasowej ewolucji zmiennych losowych.

Dalej przedstawiamy skrócone wprowadzenie do teorii procesów stochastycznych. Po formalnym ich zdefiniowaniu opiszemy rodzinę łącznych rozkładów prawdopodobieństw, które charakteryzują proces stochastyczny w takim stopniu, który jest w pełni wystarczający dla celów praktycznych. W pewnym sensie, kiedy mamy do czynienia z procesami stochastycznymi, to zamieniamy rr teorii zdeterminowanej na określoną rodzinę łącznych rozkładów prawdopodobieństw.

Staje się to oczywistym szczególnie w ramach twierdzenia Kołmogorowa, które podajemy w niniejszym podrozdziale.

1.3.1 Formalna definicja procesu stochastycznego.

W języku matematyki proces stochastyczny jest to rodzina zmiennych losowych X(t), zadanych na wspólnej przestrzeni probabilistycznej i zależnych od parametru t ∈ T. W większości zastosowań fizycznych parametr t odgrywa rolę zmiennej czasowej. Dlatego tez zbiór wartości parametru T – jest to zazwyczaj pewien odcinek rzeczywistej osi czasu.

Zgodnie z definicją dla każdego ustalonego t zmienna X(t) jest to odwzorowanie przestrzeni próbek Ω w R.

Z tego powodu proces stochastyczny może być rozpatrywany jako odwzorowanie :

X : Ω × T → R (1.44)

które wiążę z każdym ω ∈Ω i t∈ T liczbę rzeczywistą X(ω, t).

Przyjmując ω, odwzorowanie postaci :

t → X(ω, t) ; t ∈ T (1.45)

nazywamy realizacją lub trajektorią procesu stochastycznego.

Zdefiniowane powyżej odwzorowanie (1.44) może być całkowicie ogólne. Dzięki takiej reprezentacji proces stochastyczny jest pojęciem bardzo szerokim. Nam jednakże będzie potrzebny jeden warunek nakładany na możliwość reprezentacji X(t) zmiennej losowej przy każdym ustalonym t.

Mianowicie, dla każdego ustalonego t funkcja X(t), która odwzorowuje Ω w R, powinna być funkcją mierzalną w tym sensie, że przeciwobrazy dowolnego zbioru borelowskiego w R powinny należeć do algebry zdarzeń przestrzeni probabilistycznej.

Wielowymiarowy proces stochastyczny X(t) definiuje się analogicznie – jest to wektorowy proces stochastyczny X(t) = ( X1(t), X2(t), ... , Xd(t))

Gdzie każda składowa Xi(t) , i = 1, 2, ... , d jest procesem stochastycznym o wartościach rzeczywistych.

(11)

Zatem, formalnie wielowymiarowy proces stochastyczny może być rozpatrzony jako odwzorowanie :

X : Ω × T → Rd (1.46)

1.3.2 Hierarchia jednoczesnych rozkładów prawdopodobieństw.

Proces stochastyczny charakteryzuje się tym, w jaki sposób zmienne losowe X(t) są wzajemnie związane ze sobą w różnych chwilach t. Taki związek określany jest stopniem zależności statystycznej pomiędzy zmiennymi losowymi danej ich rodziny.

Zgodnie z definicją, podaną powyżej, proces stochastyczny jeśli traktować go formalnie, jest niczym innym jak zależną od czasu zmienną losową. Dlatego może on być opisany jednoznacznie, jeśli skonstruujemy przestrzeń probabilistyczną oraz odwzorowanie postaci (1.46) określone na niej. Nie jest to jednakże jedyna metoda opisu procesu stochastycznego.

W większości zastosowań odpowiedni proces stochastyczny próbuje się skonstruować na podstawie wyników obserwacji korelacji statystycznych pomiędzy zmiennymi losowymi X(tν ) na dyskretnym zbiorze czasu tν.

Wykonuje się to na podstawie danych eksperymentalnych, stosując pewien model fenomenologiczny lub z pomocą fundamentalnej dla danego zjawiska mikroskopowej teorii fizycznej.

W ten sposób teoria fizyczna prowadzi do tzw. rodziny skończenie wymiarowych połączonych rozkładów prawdopodobieństw, które zdefiniowane są następująco ( rys. 1.2 )

Rys. 1.2 Trajektoria X(t, ω) każdego procesu stochastycznego, która następuje po czasach t1, t2 , ... , tm–1, tm dla odpowiednio zbiorów B1, B2 , ... , Bm–1, Bm. Prawdopodobieństwo pojawienia się takiej trajektorii zadane jest przez prawdopodobieństwo łączne P( B1, t1 , ... , Bm, tm )

Weźmy zbiór t1, t2 , ... , tm dyskretnych chwil czasu i zbiorów borelowskich B1, B2 , ... , Bm w Rd i rozpatrzmy dla wielowymiarowego procesu stochastycznego X(t) wielkość :

Wielkość ta jest łącznym rozkładem prawdopodobieństw rzędu m. Daje ona prawdopodobieństwo tego, że w procesie X(t) zrealizuje się pewna wartość B1w chwili t1, pewna wartość B2, w chwili t2 , .... i pewna wartość Bmw chwili tm.

Zbiór łącznych rozkładów prawdopodobieństw dla wszystkich m = 1, 2, ... dla wszystkich czasów dyskretnych tν i dla wszystkich zbiorów borelowskich Bν nazywa się rodziną skończenie wymiarowych łącznych rozkładów

prawdopodobieństw procesu stochastycznego.

Każdy proces stochastyczny generuje taką rodzinę prawdopodobieństw łącznych. Wynika to bezpośrednio z podanej powyżej definicji, zgodnie z którą prawdopodobieństwa spełniają warunki niesprzeczności Kołmogorowa :

(12)

Z pierwszych dwóch warunków wynika, ze rozkłady powinny być nieujemne oraz że prawdopodobieństwo zdarzenia pewnego X(t) ∈ Rd jest unormowane do 1. Warunek trzeci mówi, że przy ν > 1 zdarzenie pewne X(tν ) ∈ Rd może być zawsze opuszczone ze spisu argumentów, warunek czwarty oznacza, że łączny rozkład prawdopodobieństwa jest inwariantny względem wszystkich permutacji swoich argumentów π.

Oczywiście dla zadanego procesu stochastycznego X(t) warunki niesprzeczności (1.48) – (1.51) są trywialnymi

następstwami definicji (1.47). Ważnym jest tutaj podkreślić, że słuszne jest również następujące nietrywialne twierdzenie : Załóżmy, że zadano rodzinę funkcji, spełniających warunki (1.48) – (1.51). Wtedy istnieje przestrzeń probabilistyczna i proces stochastyczny X(t) na tej przestrzeni, takie że rodzina łącznych prawdopodobieństw, przynależnych do X(t) pokrywa się z zadana rodziną funkcji.

Jest to twierdzenie Kołmogorowa. Gwarantuje ono, że dla dowolnej niesprzecznej rodziny łącznych prawdopodobieństw istnieje proces stochastyczny X(t) określony na pewnej przestrzeni probabilistycznej. Należy jednakże zauważyć, że proces X(t) jest niejednoznaczny – dla zadanej rodziny rozkładów łącznych prawdopodobieństwa mogą istnieć różne procesy stochastyczne, a termin „różne” oznacza, ze takie procesy mogą różnić się od siebie na zdarzeniach o niezerowej mierze.

W praktyce niejednoznaczność X(t) nie powoduje jakiś szczególnych problemów, ponieważ rodziny łącznych skończenie wymiarowych rozkładów prawdopodobieństw określają jednoznacznie prawdopodobieństwa wszystkich zdarzeń, które mogą być opisane przez skończoną liczbę zmiennych losowych. Przykładowo, jeśli otrzymamy pewien model

stochastyczny za pośrednictwem porównania ze zbiorem danych eksperymentalnych ( który to jest zawsze skończony ), to nie pojawią się żadne problemy, generowane przez niejednoznaczność procesu.

1.4 Procesy Markowa.

Procesy Markowa odgrywają ważną rolę w fizyce i naukach przyrodniczych. Po pierwsze wiele procesów, pojawiających się w równowagowej mechanice statystycznej, może być przedstawione jako proces Markowa przy odpowiednim wyborze zmiennych. Po drugie, wiele typów procesów stochastycznych staje się procesami Markowa przy odpowiednim

rozszerzeniu przestrzeni stanów. I na koniec – procesy Markowa można stosunkowo łatwo opisać matematycznie.

W niniejszym podrozdziale zdefiniujemy i sklasyfikujemy najważniejsze procesy Markowa, omówimy również krótko ich własności.

1.4.1 Równanie Chapmana-Kołmogorowa

W istocie proces Markowa jest to proces stochastyczny X(t) z krótką pamięcią, tj. proces, który szybko zapomina swoją prehistorie. Własność taka sprawia, że proces Markowa jest bardzo łatwy do analizy, ponieważ gwarantuje on, że cała hierarchia prawdopodobieństw łącznych, wprowadzona w poprzednim podrozdziale, może być sprowadzona do dwóch funkcji rozkładu.

Warunek takie dla szybko zanikających efektów pamięci może być sformułowany w języku prawdopodobieństw warunkowych w następujący sposób :

Jest to warunek Markowa. Zakładamy przy tym, ze ma on miejsce przy wszystkich m = 1, 2, 3, ... , dla wszystkich

uporządkowanych chwil czasu :

t1 < t2 < ... < tm < t (1.53)

dla wszystkich zbiorów borelowskich B i wszystkich x1 , ... , xm ∈ Rd

Warunek (1.52) gwarantuje, ze prawdopodobieństwo zdarzenia X(t) ∈B, pociąganego przez m poprzednich zdarzeń X(t1) = x1 , ... , X(tm) = xm

zależy tylko od zdarzenia ostatniego X(tm) = xm

Dalej omówimy następstwa warunku Markowa, wprowadzając gęstości łącznych prawdopodobieństw :

oraz odpowiadające im gęstości prawdopodobieństw warunkowych :

(13)

w języku których warunek Markowa przyjmie postać :

Równanie to demonstruje ten fakt, że wielkość p1|1( x, t | x’, t’ ) odgrywa kluczową rolę w teorii procesów Markowa.

Dla dowolnego procesu stochastycznego ( nie koniecznie markowskiego ) wielkość p1|1( x, t | x’, t’ ) jest równa gęstości prawdopodobieństwa tego, ze proces przyjmuje wartość x w chwili t przy warunku, ze proces przyjmował wartość x’ w chwili t’. Dlatego też podane prawdopodobieństwo warunkowe nazywa się warunkowym prawdopodobieństwem przejścia (* conditional transition probability *) lub po prostu propagatorem.

Wprowadzimy następujące oznaczenie :

T(x, t | x’, t’ ) ≡ p1|1 (x, t | x’, t’ ) (1.57) dla propagatora. Jak wynika z definicji, propagator spełnia zależności :

Pierwsze równanie wyraża ten fakt, że z prawdopodobieństwem równym 1 proces przyjmuje pewną wartość w dowolnej ustalonej chwili czasu. Równanie drugie mówi, że przy dążeniu do zera przyrostu czasu, z prawdopodobieństwem równym 1 proces nie zmienia się.

Gęstość prawdopodobieństwa p1(x, t), które jest po prostu gęstością dla prawdopodobieństwa bezwarunkowego tego, że proces przyjmuje wartość x w chwili t, będziemy oznaczali jako :

p(x, t) ≡ p1(x, t) (1.60)

Gęstość p(x, t) związana jest z gęstością początkową w pewnej chwili t0 poprzez oczywistą zależność :

Proces stochastyczny nazywa się stacjonarnym, jeśli wszystkie łączne gęstości prawdopodobieństw są inwariantne względem przesunięcia w czasie, tj. dla wszystkich τ :

pm(xm, tm + τ ; ... ; x1 , t1+ τ ) = pm(xm, tm ; ... ; x1 , t1 ) (1.62)

W szczególności, stacjonarność zakłada, że gęstość prawdopodobieństwa p nie zależy od czasu p(x, t ) = p(x), oraz że propagator T(x, t | x’, t’ ) zależny jest tylko od różnicy t – t’ swoich argumentów czasowych. Z pomocą procesów stacjonarnych można opisać np. równowagowe fluktuacje w mechanice statystycznej.

Proces nazywa się jednorodnym w czasie, jeśli propagator zależny jest tylko od różnicy swoich argumentów. Zatem, proces stacjonarny jest jednorodny w czasie, ale istnieją również procesy jednorodne, które nie są stacjonarne. W charakterze przykładu można podać proces Wienera (zobacz dalej )

W wyniku zadania warunku Markowa całe zagadnienie mocno się upraszcza, co jest związane z tym, ze ogólna hierarchia prawdopodobieństw łącznych może być odtworzona z gęstości początkowej p(x, t0 ) i odpowiedniego propagatora.

Zgodnie z (1.61) gęstość p(x, t ) dla kolejnych chwil czasu t > t0 może być otrzymana z gęstości początkowej i propagatora. W ten sposób, rozkład prawdopodobieństw p2(x, t ; x’, t’ ) również będzie znany. Na mocy warunku Markowa wszystkie funkcje rozkładu wyższego rzędu mogą być zadane przy warunku, że propagator spełnia określone równanie całkowe. Równanie to zostanie obecnie wyprowadzone.

(14)

W tym celu rozpatrzymy trzy chwile czasu t1 < t2 < t3 oraz rozkład p3. Przyjmując definicje prawdopodobieństwa warunkowego oraz warunki Markowa, otrzymujemy :

Scałkujmy to równanie po x2 :

następnie podzielmy przez p1(x1, t1 ) :

Wykorzystując definicje propagatora (1.57) otrzymujemy :

jest to równanie Chapmana-Kołmogorowa.

Równanie Chapmana-Kołmogorowa dopuszcza prostą poglądową interpretacje, która zilustrowana jest na rysunku 1.3.

Poczynając od punktu x1 i czasu t1, proces osiąga punkt x3 w chwili t3. W pewnej pośredniej chwili czasu t2 proces przyjmuje pewną wartość x2. Prawdopodobieństwo przejścia z (x1, t1 ) do (x3, t3 ) może być otrzymane poprzez

przemnożenie prawdopodobieństw przejść : (x1, t1 ) (x2, t2 ) i (x2, t2 ) (x3, t3 ) oraz przesumowanie po wszystkich możliwych położeniach pośrednich x2.

Rys. Ilustracja równania Chapmana-Kołmogorowa (1.66)

Mając propagator T(x, t | x’, t’ ) oraz pewną gęstość początkową p(x, t0 ) możemy skonstruować całą hierarchię rozkładów prawdopodobieństw łącznych. Jak już widzieliśmy, propagator, oraz gęstość początkowa dają nam zależność od czasu gęstości p(x, t). Łatwo się przekonać, że poprzez takie wielkości wszystkie łączne gęstości prawdopodobieństw m-tego rzędu określone są poprzez zależność :

(15)

gdzie t0 t1 t2 ≤ ... ≤ tm

W wyniku tego dla definicji stochastycznego procesu Markowa powinniśmy określić propagator T(x, t | x’, t’ ), spełniający równanie Chapmana-Kołmogorowa (1.66) oraz początkową gęstość prawdopodobieństwa p(x, t0 ).

Dlatego też w istocie, klasyfikacja procesów Markowa sprowadza się do klasyfikacji rozwiązań równania Chapmana- Kołmogorowa.

1.4.2 Różniczkowe równanie Chapmana-Kołmogorowa.

Równanie Chapmana-Kołmogorowa (1.66) jest równaniem całkowym dla prawdopodobieństwa przejścia warunkowego.

W trakcie poszukiwań rozwiązań w/w równania często użytecznym jest jego rozpatrzenie w postaci różniczkowej – różniczkowego równania Chapmana-Kołmogorowa.

Zakładamy, że propagator T(x, t | x’, t’ ) jest różniczkowalny po czasie. Różniczkując (1.66), otrzymujemy rr Chapmana- Kołmogorowa :

gdzie A – liniowy operator (generator ), który generuje nieskończenie małe translacje w czasie.

Definiujemy go poprzez działanie na pewną gęstość ρ(x) :

W przypadku ogólnym operator A może zależeć od czasu t. Jednakże dla jednorodnego procesu Markowa propagator T(x, t + ∆t | x’, t ) na interwale czasu od t do t + ∆t nie jest zależny od t, a zatem w tym przypadku generator nie zależy od czasu.

Dla jednorodnego procesu Markowa możemy zapisać propagator w postaci Tτ( x | x’ ), gdzie τ = t – t’ ≥ 0 oznacza różnicę jego argumentów czasowych. Równanie Chapmana-Kołmogorowa może być dla tego przypadku zapisane następująco :

Jeśli generator A jest znany, to rozwiązanie równania Chapmana-Kołmogorowa dla jednorodnego procesu Markowa może być formalnie zapisane w następującej postaci :

Tτ( x | x’ ) = exp(τA ) δ(x – x’ ) ; τ ≥ 0 (1.71)

Równania te wyrażają ten fakt, że jednoparametrowa rodzina {Tτ | τ ≥ 0 } prawdopodobieństw warunkowego przejścia reprezentuje sobą półgrupę dynamiczną. Pojęcie półgrupy oznacza, że rodzina {Tτ | τ ≥ 0 } w istocie nie jest grupą, ponieważ parametr τ jest ograniczony do wartości nieujemnych.

Z fizycznego punktu widzenia własności półgrupy otrzymujemy z nieodwracalnej natury procesów stochastycznych.

Załóżmy, że w chwili t0 zadana jest gęstość początkowa p(x, t0 ). Wyżej wymieniona rodzina prawdopodobieństw przejścia warunkowego pozwala nam jednoznacznie rozciągnąć taką gęstość na czasy t = t0 + τ > t0.

Z pomocą równań (1.61) i (1.71) otrzymujemy :

p(x , t ) = exp(τA ) p(x ,t0 ) (1.72)

Jednakże w przypadku ogólnym proces nie jest inwariantny względem odwrócenia czasu, to oznacza, że nie można dla każdej gęstości p(x ,t0 ) znaleźć takiej gęstości rozkładu p(x, t) dla wcześniejszej chwili czasu t < t0 , która ewoluowałaby do gęstości p(x ,t0 ). Matematycznie wygląda to tak, ze obszar określoności operatora exp(τA ) jest zawężany przy zwiększaniu τ, tj. taki operator jest nieodwracalny w ogólnej przestrzeni wszystkich rozkładów probabilistycznych (rys. 1.4 ). Oto dlaczego procesy nieodwracalne pozwalają nam odróżniać przyszłość od przeszłości.

(16)

Rys. 1.4 Schematyczne przedstawienie nieodwracalnej natury półgrupy dynamicznej. Rysunek pokazuje zawężanie obszaru określoności propagatorów Tτ przy zwiększaniu τ.

Opisaną powyżej sytuacje otrzymamy, jeśli np. proces relaksuje ku jednemu stanu stacjonarnemu p

*(x) w granicy dużego czasu :

lim p(x, t ) = p

*(x) (1.73)

t→+∞

Takie procesy pojawiają się np. w mechanice statystycznej, kiedy analizujemy relaksacje zamkniętych układów fizycznych do stanu równowagi. Wtedy oczywiście, ze gęstość stacjonarna powinna być zerowym modem generatora :

A p*(x) = 0 (1.74)

I odpowiednio do tego, przy odwrotnej propagacji p

*(x) również pozostaje inwariantem, inny sposób otrzymania jakiegoś rozkładu charakterystycznego, różnego od p

*(x) w chwili początkowej nie istnieje.

W dalszych podrozdziałach wyprowadzimy trzy podstawowe typy procesów Markowa, które można rozpoznać z postaci generatora lub, co równoważne, z zachowania propagatora na małych czasach.

1.4.3 Procesy zdeterminowane i równanie Liouville’a

Najprostszym przykładem procesu markowa jest proces deterministyczny. Jest on określony poprzez pewną gęstość początkową p(x ,t0 ) oraz propagator, opisujący zdeterminowaną ewolucje czasową, odpowiadająca układowi rrz :

d/dt x(t) = g(x(t)) , x(t) ∈ Rd (1.75)

g(x) – oznacza d-wymiarowe pole wektorowe.

Dla uproszczenia zakładamy iż układ jest autonomiczny, tj. wektor pola g(x) nie zależy jawnie od czasu, tak że wynikowy proces jest jednorodny.

Większość znanych przykładów procesów takiego typu, to procesy pojawiające się w równowagowej MS, w przypadku których (1.75) przedstawia sobą hamiltonian równań ruchu w przestrzeni fazowej.

Takie rrz odpowiada potokowi fazowemu, który możemy oznaczyć jako Φt(x). To oznacza, że dla ustalonego x krzywa fazowa (trajektoria ) :

t → Φt(x) (1.76)

przedstawia sobą rozwiązanie (1.75), odpowiadające wartości początkowej Φ0(x) = x.

Realizacje procesu zdeterminowanego zadane są poprzez krzywe fazowe (1.76). Zatem, propagatorem dla takiego procesu jest wielkość :

T(x, t | x’, t’ ) = δ( x – Φt–t’(x’) ) (1.77)

Równanie to mówi nam, że gęstość prawdopodobieństwa osiągnięcia punktu x w chwili t przez proces, przy warunku, ze był on w punkcie x’ w chwili t’, jest równe od zera, tylko jeśli potok fazowy przenosi x’ w x w interwale czasu pomiędzy t’ i t, tj. wtedy i tylko wtedy, kiedy x = Φt–t’(x’)

(17)

Jak łatwo się przekonać, propagator (1.77) spełnia zależności (1.58) i (1.59). Wykorzystując własność grupową potoku fazowego, która może być wyrażona następująco :

Φt(Φs(x)) = Φt+s(x) (1.78)

można pokazać, że (1.78) spełnia równanie Chapmana-Kołmogorowa. Zatem skonstruowaliśmy rozwiązanie równania Chapmana-Kołmogorowa i określiliśmy prosty proces Markowa.

Aby znaleźć nieskończenie mały generator A dla zdeterminowanego procesu, podstawiliśmy wyrażenie (1.77) do definicji (1.69) :

gdzie : gi(x) – oznacza składowe pola wektorowego g(x) ; zakładamy również sumowanie po wszystkich indeksach i.

Zatem, generator zdeterminowanego procesu można przedstawić w postaci :

A = – ∂/∂xi gi(x) (1.80)

A różniczkowe równanie Chapmana-Kołmogorowa przyjmuje postać :

Jest to równanie Liouville’a dla zdeterminowanego procesu Markowa, odpowiadające równaniu różniczkowemu (1.75) . Oczywiście, gęstość p(x, t) spełnia równanie, które jest formalnie identyczne z (1.81).

1.4.4 Procesy skokowe i równanie Master.

Zdeterminowany proces z poprzedniego podrozdziału jest bardzo prosty. Reprezentuje on proces, którego realizacje są rozwiązaniami deterministycznego równania ruchu, tylko warunki początkowe są wybierane przypadkowo.

Teraz rozpatrzymy procesy z dyskretnymi realizacjami, spełniającymi rzeczywistą dynamikę probabilistyczną.

1.4.4.1 Równanie różniczkowe Chapmana-Kołmogorowa.

Będziemy wymagali, aby realizacja X(t) w miejsce wygładzonych rozwiązań rr wykonywała natychmiastowe skoki.

Aby sformułować rr Chapmana-Kołmogorowa dla takiego skokowego procesu, powinniśmy skonstruować odpowiedni opis dla propagatora dla małych czasów.

W tym celu wprowadzimy współczynnik przeskoku (* transition rates *) dla skoków W( x |x’, t ), które zdefiniujemy poniżej.

Wielkość W(x | x’, t )∆t jest równa gęstości prawdopodobieństwa natychmiastowego skoku z położenia x’ do położenia x w nieskończenie małym interwale czasu [ t, t + t] przy warunku, że proces znajduje się w x’ w chwili t.

Przyjmując, że X(t) = x’ ,to sumaryczny współczynnik przeskoku w chwili t jest następujący :

Γ(x’, t ) = W( x |x’, t )dx (1.82)

co oznacza, że Γ(x’, t)∆t – jest prawdopodobieństwem warunkowym tego, ze proces w chwili t przeskoczy z x’ do pewnego innego stanu.

Teraz charakterystyczne zachowanie propagatora na małych czasach może być sformułowane tak :

Pierwszy człon po prawej daje prawdopodobieństwo skoku z x’ do x w interwale czasu pomiędzy t i t + ∆t.

Czynnik stojący przed funkcją δ jest prawdopodobieństwem tego, że skok nie następuje i proces pozostaje w położeniu x’

w chwili t + ∆t. Tak jak być powinno, przy ∆t → 0 propagator dąży do δ-funkcji δ(x – x’ ) ( zobacz równanie (1.59)).

Przyjmując do wiadomości (1.82), otrzymujemy że propagator również spełnia warunek normalizacji (1.58).

(18)

Teraz stosunkowo łatwo można wyprowadzić rr Chapmana-Kołmogorowa (1.68) dla procesu skokowego.

Podstawiając (1.83) do (1.69) dla generatora procesu skokowego, otrzymujemy :

W ostatnim kroku wykorzystaliśmy definicje (1.82) dla sumarycznego współczynnika przejścia.

To bezpośrednio prowadzi do równania ruchu dla propagatora :

Jest to rr Chapmana-Kołmogorowa dla procesu skokowego. Równanie to nazywa się również równaniem master.

Takie równanie ma również miejsce dla gęstości p(x, t) :

Powyższe równanie nazywa się również równaniem master. Jednakże należy mieć na uwadze to, że równanie master w rzeczywistości jest równaniem dla prawdopodobieństwa warunkowego procesu przejścia. Jest to ważna uwaga, ponieważ równanie dla gęstości pierwszego rzędu p(x, t) ewoluującej w czasie, nie jest wystarczającym dla określenia

stochastycznego procesu Markowa.

Równanie master (1.86) dopuszcza poglądową interpretacje w postaci równania równowagi dla współczynnika zmiany gęstości prawdopodobieństwa w punkcie x. Pierwszy człon z prawej strony opisuje współczynnik wzrostu gęstości prawdopodobieństwa w x, która następuje dzięki skokom z innych stanów x’ w stan x. Człon drugi opisuje współczynnik obniżenia prawdopodobieństwa na skutek skoków ze stanu x, do innych stanów.

Zauważmy, że w podanym powyżej wyprowadzeniu nie zakładaliśmy jednorodność procesu w czasie. W przypadku jednorodności współczynniki przejścia powinny być nie zależne od czasu :

W(x |x’, t ) = W(x |x’ )

Wtedy sumaryczny współczynnik Γ(x’ ) również jest niezależny od czasu.

Dla przypadku procesu całkowitoliczbowego, który może być zarówno jednowymiarowy, jak i wielowymiarowy.

Wprowadźmy oznaczenie X(t) = N(t). Rozkład prawdopodobieństwa dla procesu dyskretnego definiujemy następująco :

P(n, t) = µ(N(t) = n ) (1.87)

Jednocześnie propagator przyjmuje postać:

T(n, t | n’, t’ ) = µ(N(t) = n | N(t’) = n’ ) (1.88)

Odpowiednie równanie master dla rozkładu prawdopodobieństwa w tym przypadku przyjmuje postać :

z podobnym równaniem dla propagatora.

Cytaty

Powiązane dokumenty

Pokaż na przykladzie zmiennych Bernouliego, że tempo zbieżności w Twierdzeniu Berry Essena niemoże zostac poprawione bez

[r]

[r]

Liniowos´c T jest

Je´sli r´ ownanie nie daje sie rozwiaza´c, to mo˙zemy pr´ obowa´c przybli˙zy´c rozwiazanie, czasem przybli˙zy´c r´ ownanie i rozwiaza´c r´ ownanie przybli˙zone w nadziei,

Zmienna losowa X przyjmuje wartości równe sumie liczby wypadłej na monecie i wartości bezwzględnej różnicy wyrzuconych oczek.. Podać rozkład

Tak jak w przypadku równa« liniowych tak i dla ich ukªadów je»eli f (t) = ~0 ~ (czyli mamy posta¢ (1)) to taki ukªad b¦dziemy nazywa¢ jednorodnym, w przeciwnym przypadku mówimy

[r]