Wydział Matematyki i Nauk Informacyjnych Politechnika Warszawska
Analiza
szeregów czasowych
Jan Mielniczuk
Wykład 1
Szeregi czasowe i ich miary zależności
(Xt)t∈T, Xt∈ L2(Ω, F , P ), t ∈ T .
Z reguły będziemy rozważali szeregi rzeczywiste: Xt∈ R, czasami będziemy rozpatrywali Xt∈ C.
Istotny nie omawiany tu przypadek: Xt∈ Rk, k > 1.
Jeśli T ⊂ R jest przeliczalny i elementy T oznaczają momenty czasowe, to
(Xt)t∈T – szereg czasowy. Szereg czasowy jest zatem procesem stochastycznym indeksowa- nym elementami zbioru przeliczalnego, które mają znaczenie momentów czasowych.
Z reguły tutaj: T = N lub T = Z.
Często: szeregi (np. finansowe) indeksowane dniami tygodnia. Efekt weekendowy!
Przykład. Dane uspop.data dotyczą wielości populacji USA w latach 1790-1990. Wczytanie danych do środowiska R
library(MASS)
USpop <- ts(data=scan("USPOP.DATA"), start=1790, end=1990, frequency=0.1)
# opcja frequency- liczba obserwacji na jednostkę czasu, w tym przypadku jedenostka
#-1 rok,frequency=0.1 oznacza 1 obserwacja na 10 lat
ts.plot(USpop, gpars=list(xlab="Year", ylab="Population", type="o")) 3
● ● ● ● ● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
Year
Population
1800 1850 1900 1950
0.0e+005.0e+071.0e+081.5e+082.0e+082.5e+08
1.0.1 Podprzestrzenie liniowe związane z (Xt)
L2(Ω, F , P ): rzeczywista przestrzeń Hilberta z iloczynem skalarnym
< X, Y >= EXY =
Z
X(ω)Y (ω)dP (ω) (ogólnie, dla zmiennych o wartościach zespolonych < X, Y >= EX ¯Y )
Z reguły X oznaczać będzie zmienną losową całkowalną z kwadratem X ∈ L2, wtedy k X k2:= EX2. Jednakże czasami będziemy oznaczali (Xt)t∈T =: X. Niech sp(Xt)t∈T oznacza powłokę liniową zmiennych {Xt, t ∈ T }. Załóżmy, że Xt∈ L2 dla każdego t ∈ T .
H(X) = sp(Xt, t ∈ T )(domknięcie w L2)
= {a1Xt1 + a2Xt2 + · · · + anXtn, t1, . . . tn∈ T, a1, . . . an∈ R, n ∈ N}
⊂ {g(Xt1, Xt2, . . . , Xtn) ∈ L2(Ω, F , P ), g : Rn→ R, borelowska}
– podprzestrzeń funkcji całkowalnych z kwadratem, mierzalnych względem σ−ciała gene- rowanego przez proces (Xt).
Ht = sp(Xs, s ¬ t) (wiedza o procesie (Xs) do momentu t)
Ht⊂ Ht+1 ⊂ . . .
5 dla T = Z definiujemy przestrzeń resztową:
H−∞= \
t∈Z
Ht {0} ∈ H−∞, {0} − z.l. = 0 p.w.
H−∞ może zawierać coś więcej niż niż tylko element 0.
Przykład Xt= ε + εt, εt− i.i.d., Eε2t < ∞, Eεt= 0, Eε2 < ∞
⇓
ε ∈ H−∞, gdyż
Xt+ Xt−1+ · · · + Xt−|t|+1
|t| = εt−|t|+1+ · · · + εt
|t|
| {z }
→0, gdy t→−∞
+ε ∈ Ht
L2
−→ ε ∈ H−∞ (H−∞− domknięta).
1.0.2 Funkcja autokowariancji procesu X
γX(s, t) = Cov(Xs, Xt) = E((Xs− EXs)(Xt− EXt)) = < Xs− EXs, Xt− EXt >
Wartość γX(s, t) dobrze określona, jeśli Xt, Xs ∈ L2. Uwaga: dla procesów o wartościach zespolonych
γX(s, t) = E((Xs− EXs)(Xt− EXt)) Proces stacjonarny w szerszym sensie (proces sss)
(i) EXt= m, t ∈ Z (ii) V arXt< ∞, t ∈ Z
(iii) γX(s, t) = γX(s + r, t + r), r, s, t ∈ Z Uwaga: (ii) zawsze spełniony Xt∈ L2(Ω, F , P ).
Tak samo definiujemy proces sss dla t ∈ N.
Dla procesu sss γX(t, s) jest funkcją różnicy t − s tylko!
Definiujemy funkcję jednej zmiennej (funkcja autokowariancji procesu sss, czasami ozna- czana ACF, podobnie jak funkcja autokorelacji)
γX(h) := γX(h, 0) = γX(s, t), dla s − t = h.
γX(h) : Z −→ R Własności γX(h).
(i) V ar(Xt) = γ(0), t ∈ Z.
(ii) |γ(h)| ¬ γ(0), t, h ∈ Z.
(|Cov(Xt+h, Xt)| ¬ (V arXt+h)1/2(V arXt)1/2 = γ(0)1/2γ(0)1/2 = γ(0) ) (iii) γ(h) = γ(−h) (γ(h) = γ(−h)).
(iv) γX(·) jest nieujemnie określona, tzn. ∀a1, . . . , an∈ R, t1, . . . , tn∈ R,
X
1¬i,j¬n
aiajγX(ti− tj) 0. (1.1)
w = (Xt1 − EXt1, . . . , Xtn− EXtn)0, EXti = m a = (a1, . . . , an):
V ar(a0w) =X
i,j
aiajγX(ti− tj) 0.
(1.1) ≡ a0Γna 0.
Zatem macierz Γn =γX(ti− tj)
i,j¬n − nieujemnie określona.
Proces stacjonarny w węższym sensie (proces sws).
Dla dowolnych t1, t2, . . . , tk, h ∈ Z
(Xt1, Xt2, . . . , Xtk) ∼ (XD t1+h, Xt2+h, . . . , Xtk+h)
Dystrybucyjne własności procesu nie zależą od momentu czasu, w którym zaczynamy go obserwować. Rzeczywiście, jesli zaczniemy obserwować proces nie w momencie 0, a w mo- mencie h, to moment ti w nowym układzie czasowym odpowiada momentowi ti+ h.
Oczywiście proces sws + istnienie EXt2 =⇒ proces sss. Jednakże dla procesu sws nie zakładamy z góry, że jego elementy są całkowalne z kwadratem.
Ścisła stacjonarność =⇒ Xt+h ∼ XD t(równość jednowymiarowych rozkładów brzegowych).
Dla procesu sws X1, . . . , Xnpochodzą z tego samego rozkładu i jego parametry można esty- mować na podstawie jednej trajektorii X1(ω), . . . , Xn(ω), . . . . Trudność: zależność między zmiennymi X1, . . . , Xn, dlatego często konieczne dodatkowe warunki, np. ergodyczność.
Dla procesu sss możliwe do estymacji są jego niezmienne w czasie charakterystyki średnio- kwadratowe: funkcja kowariancji i wariancja oraz średnia procesu.
Przykład.
(i) (Xi)i∈Z i.i.d., Xi ∼ N (0, 2)D
(ii) (Xi)i∈Z niezależne, X2k ∼ N (0, 2), XD 2k+1 ∼ χD 21− 1 (i) – ściśle stacjonarny
(ii) proces sss (γX(0) = 2, γX(h) = 0 dla h 6= 0) ale nie sws (rozkłady brzegowe dla parzystych i nieparzystych indeksów są różne).
7 Przykłady procesów stacjonarnych
(i) (Xt)t∈Z – ciąg nieskorelowanych z.l. o średniej m i wariancji σ2 µX(t) = EXt= m
γX(r, s) = σ2· δrs
proces sss, jest sws gdy zmienne niezależne o tym samym rozkładzie, dla m = 0 – biały szum (słaby, gdy sss, silny, gdy sws)
Uwaga Oznaczenie WN(0, σ2) (white noise) może oznaczać zarówno silny jak i słaby biały szum.
(ii) Proces liniowy. Konstruowany w oparciu o : (εt)t∈Z− WN(0, σ2). oraz cj ∈ `2 P∞j=−∞c2j < ∞: ustalony ciąg.
Proces liniowy Xt
Xt =
∞
X
j=−∞
cjεt−j, t ∈ Z
k Xt k2= σ2
∞
X
j=−∞
c2j < ∞
proces dobrze określony i EXt= 0 dla t ∈ Z (ćwiczenia). Ciągłość < ·, · > =⇒
< Xt+k, Xt >= lim
n,m→∞<
m
X
i=−m
ciεt+k−i,
n
X
j=−n
cjεt−j >=
=
∞
X
i=−∞
∞
X
j=−∞
cicj< εt+k−i, εt−j >
| {z }
σ2δt+k−i,t−j
= σ2
∞
X
i=−∞
cici−k = σ2
∞
X
i=−∞
cici+k
j = i − k,
∞
X
i=−∞
cici−k =
∞
X
i=−∞
cici+k
zależy tylko od k. Xt – proces sss. Gdy (εt) – silny WN(0, σ2), to Xt – proces sws.
Przypadek szczególny: cj = 0 dla j < 0 - jednostronny proces liniowy, średnia ruchoma nieskończonego rzędu MA(∞)
Xt=
∞
X
j=0
cjεt−j, t ∈ Z Zauważmy, że w tym przypadku
Xt∈ Ht(ε).
MA(q) – średnia ruchoma rzędu q
Xt=
q
X
i=0
ciεt−i Tradycyjny zapis: θi = ci i θ0 = 1
Xt= εt+ θ1εt−1+ · · · + θqεt−q
1.0.3 Funkcja autokorelacji procesu (ACF)
(Xt)t∈Z – proces sss
ρX(h) = ρ(Xt+h, Xt) = γX(h)
{γX(0)γX(0)}1/2 = γX(h) γX(0) (ρX(h) = ρX(−h), |ρX(h)| ¬ ρX(0) = 1).
Przykład. Rysunek poniżej przedstawia próbkową funkcję autokorelacji dla reszt danych uspop.dat po dopasowaniu krzywej kwadratowej od czasu. Zaznaczone przedziały ufności dla białego szumu
0 20 40 60 80 100 120
−0.50.00.51.0
Lag
ACF
Series USres
Procesy czysto niedeterministyczne PND (Purely Non-Deterministic)
Proces sss o średniej 0 jest czysto niedeterministyczny (PND - purely non-deterministic) jeśli
H−∞= {0}.
Uwaga. Zakładamy, że średnia procesu jest równa 0, gdyż w ogólnej sytuacji, jeśli zachodzi dla procesu Prawo Wielkich Liczb w L2, to rozumując jak w poprzednim przykładzie łatwo pokazać, że EXt ∈ H−∞. Z reguły będziemy zakładać, że średnia procesu sss jest równa 0, jeśli nie, rozpatrujemy proces Xt := Xt− EXt.
Fakt. (εt) − słaby WN(0, σ2) jest PND.
Chcemy udowodnić, że jeśli Y ∈ H−∞(ε) =⇒ Y = 0 p.w. (prawie wszędzie).
Y ∈ Ht−1(ε) ⊂ Ht(ε),
9 ale εt⊥ Ht−1(ε) =⇒< Y, εt >= 0 ∀t
Y ∈ H(ε) i (εt) – baza w H(ε) (!) ( znakiem (!) oznaczać będziemy fakty wymagające małego dowodu), zatem
Y =
∞
X
s=−∞
csεs, (cs) ∈ `2
=⇒ cs=< Y, εs >= 0 =⇒ Y = 0.
(!): Aby sprawdzić, że (εt) – baza w H(ε), wystarczy stwierdzić, że jest to maksymalny układ ortogonalny. Jeśli bowiem istniałby wektor a ∈ H(ε)⊥(εt), to a⊥sp(εt) i a⊥sp(εt) = H(ε), sprzeczność.
ACF mierzy zależność (liniową) par. Zależność rozkładów wielowymiarowych mierzy się w oparciu o momenty i kumulanty X = (X1, . . . , Xk)0.
ϕX(t1, . . . , tk) = E exp{it0X} = X
ν1+···+νk¬n
iν1+ν2+···+νk
ν1! . . . νk! m(νX1,...,νk)tν11. . . tνkk + o(|t|n), gdzie
m(νX1,...,νk)= E(X1ν1· · · Xkνk).
Rozpatrzmy odpowiednie rozwinięcie dla ln ϕX(t1, . . . , tk)
ln ϕX(t1, . . . , tk) = X
ν1+···+νk¬n
c(νX1,...,νk)iν1+ν2+···+νk
ν1! . . . νk! tν11. . . tνkk + o(|t|n) =
= X
|ν|¬n
iν
ν!c(ν)X tν + o(|t|n),
gdzie
tν = tν11. . . tνkk, µ = µ1! . . . µk!, |µ| = µ1+ · · · + µk c(νX1,...,νk) – kumulant zmiennych X1ν1, . . . , Xkνk
cum(X1, . . . , Xk) = c(1,...,1)X
(współczynnik przy t1· X2· · · tk w rozwinięciu ln ϕ(t) (po pominięciu ik)).
Związki między kumulantami a momentami
ϕX(t) = exp(ln ϕX(t)) =
∞
X
q=0
1 q!
nln ϕX(t)oq Porównując współczynniki dostajemy
m(ν)X =X
q0
X
λ(1)+···+λ(q)=ν
1 q!
ν!
λ(1)! · · · λ(q)!
q
Y
p=1
c(λX(p))
Uwaga: suma po układach uporządkowanych multindeksów. Układy
λ(1)+ · · · + λ(q) = ν
λ(q)+ · · · + λ(1) = ν liczymy oddzielnie!
W szczególności
E(X1· · · Xk) =X
q0
X
różne podziały ν1···νq ν1∪···∪νq ={1,2,...,k}
Dν1· · · Dνq
Dνs = cum(Xα1, . . . , Xαm) {α1, . . . , αm} = νs
(liczba wszystkich partycji {ν1, . . . , νq} = q! liczba partycji różnych) Analogicznie rozwijamy ln Eeit0X
ln x = X
q1
(−1)q−1 q xq
c(ν)X =X
q0
X
λ(1)+···+λ(q)=ν układy uporządkowane
(−1)q−1 q
ν!
λ(1)! · · · λ(q)!
q
Y
i=1
m(λX(i))
dla ν = (1, . . . , 1)
cum(X1, . . . , Xk) = X
q
X(−1)q−1(q − 1)!E Y
i∈ν1
XiE Y
i∈νq
Xi (1.2) druga suma po różnych partycjach zbioru {1, . . . , k}.
Z (1.2) wynika cum(X1) = EX1
cum(X1, X2) = EX1X2− EX1EX2 = Cov(X1, X2) Własności kumulantów
(1) Jeśli nietrywialny podzbiór wsp. X jest niezależny od reszty, to cum(X1, . . . , Xk) = 0
(niespełnione dla momentu E(X1· · · Xk) !).
I – układ indeksów odpowiadający zmiennym niezależnym od reszty J = {1, . . . , k} \ I.
log Eeit0X = log Eei(t0IXI+t0JXJ) = log Eeit0IXI + log Eeit0JXJ
| {z }
po rozwinięciu nie zawiera układu t1,...,tk
(2) Kumulanty wielowymiarowego rozkładu normalnego rzędu > 2 są równe 0.
X ∼ N (m, Σ)
11 ϕ(t) = exp(t0m − t0Σt)
W rozwinięciu ln ϕ(t) = t0m − t0Σt występują tylko wyrazy ti oraz ti· tj. (3)
cum(α1X1+ β1Y1, X2, . . . , Xk) = α1cum(X1, X2, . . . , Xk) + β1cum(Y1, X2, . . . , Xk) Twierdzenie (o partycji).
Zmienne Xij ustawione w tablicy: Xij, i = 1, . . . , I, j = 1, . . . , ji.
Yi =
ji
Y
k=1
Xik, i = 1, . . . , I
cum(Y1, . . . , YI) =Xcum(Xij, ij ∈ ν1) × · · · × cum(Xij, ij ∈ νp) Suma po wszystkich nierozkładalnych partycjach tablicy
(1, 1) . . . (1, j1) ... ... ... (I, 1) . . . (I, jI)
(partycja nierozkładalna: suma elementów podpartycji nie może zawierać całych wierszy).
Zadania
1. Udowodnić, że (i) proces liniowy zdefiniowany w wykładzie jest dobrze określony (ii) EXt= 0.
W dowodzie częsci (i) pokazać, że Xtn=Pni=−ncjεt−j jest ciągiem Cauchy’ego (względem n).
2. Zdefiniujmy proces harmoniczny Xt=
∞
X
j=−∞
cjeiλjtεt,
gdzie (cj) ∈ `2 i cj ∈ C i (εt) - WN(0, σ2). Uzasadnić:
(i) Xt jest dobrze określony i EXt= 0;
(ii) Obliczyć funkcję kowariancji γ(s, t) i sprawdzić, czy proces jest sss.
3. Niech Yt będzie procesem zdefiniowanym jako
Yt= µ + εt+ θ1εt−1+ θ12εt−12,
gdzie εt-WN(0, σ2). Sprawdzić, że proces jest sss i znależć funkcję kowariancji tego procesu.
4. Pokazać, że dla procesu liniowego γ(h) → 0, gdy h → ∞. Skonstruować proces sss, dla którego funkcja kowariancji nie ma tej własności.
5. Pokazać, że jeśli εt jest białym szumem WN(0, σ2), to H−∞(ε) = {0}.
6. W oparciu o poprzednie zadanie uzasadnić tę samą własność dla jednostronnego procesu liniowego.
Wykład 2
Optymalna predykcja liniowa
(Xt)t∈Z – szereg czasowy sss o średniej m i funkcji kowariancji γ(·).
Problem optymalnej prognozy liniowej (h–krokowej). Obserwujemy X1, . . . , Xn. Chcemy prognozować (estymować) wartość Xn+h w oparciu o te zmienne, ograniczając się do ich kombinacji afinicznych. Załóżmy na początku, że funkcja kowariancji γX(h) jest znana.
Szukamy rzutu Xn+h na sp(1, X1, . . . , Xn).
Równoważnie, szukamy arg mina0,a1,...,anS(a0, a1, . . . , an), gdzie
S(a0, a1, . . . , an) =k Xn+h− a0−
n
X
i=1
aiXn+1−i k2= EXn+h− a0−
n
X
i=1
aiXn+1−i2
PnXn+h – rzut Xn+h na sp(1, X1, . . . , Xn) (kombinacja liniowa a0 +Pni=1aiXn+1−i, reali- zująca minimum S(a0, a1, . . . , an) (rzutujemy Xn+h na domkniętą podprzestrzeń liniową przestrzeni Hilberta, zatem rzut istnieje).
PnXn+h
Xn+h− PnXn+h Xn+h
Hiperpłaszczyzna
Rys. 2.1: Wektor PnXn+h jako rzut prostopadły wektora Xn+h
13
Równania normalne
Wektor Xn+h− PnXn+h musi być prostopadły ( w sensie przestrzeni L2) do generatorów podprzestrzeni sp(1, X1, . . . , Xn). Zatem
(1) Xn+h− PnXn+h⊥ 1
(2) Xn+h− PnXn+h⊥ Xj, j = 1, . . . , n (1)
E1(Xn+h− a0−
n
X
i=1
aiXn+1−i)= 0 (2)
∀j ¬ n EXj(Xn+h− a0−
n
X
i=1
aiXn+1−i)= 0 (1) jest równoważne
a0 = m(1 −
n
X
i=1
ai) (2.1)
⇓
(2) ≡ EXj(Xn+h− m −
n
X
i=1
ai(Xn+1−i− m))= 0
⇓
Cov(Xn+h, Xj) =
n
X
i=1
aiCov(Xn+1−i, Xj) j := n + 1 − j, j = 1, . . . , n po podstawieniu (2) równoważna
γ(h + j − 1) =
n
X
i=1
aiγ(i − j), j = 1, . . . , n. (2.2) Zdefiniujmy
Γn=γ(i − j)n
i,j=1
(ważny obiekt: macierz kowariancji (X1, X2, . . . , Xn)0) γn(h) = (γ(h), γ(h + 1), . . . , γ(h + n − 1))0
γn(h) jest wektorem kowariancji Xn+h z Xn, . . . , X1. an= (a1, a2, . . . , an)0
(2.2) ≡ Γnan= γn(h) Jeśli Γ−1n istnieje, to an jednoznaczne i
an= Γ−1n γn(h) (2.3)
Równania (2.1) i (2.3) zwane są równaniami Yule’a-Walkera.
15 Błąd prognozy h–krokowej (bez straty ogólności załóżmy, że m = 0)
σn,h2 = k Xn+h− PnXn+hk2=k Xn+hk2 − k PnXn+hk2=
= γ(0)− < Xn+h, PnXn+h
| {z }
a0nXn
>= γ(0) − a0nγn(h) =
= γ(0) − γ0n(h)Γ−1n γn(h) (2.4)
(ostatnia równość zachodzi, gdy Γn odwracalna).
(2.4) – podstawowy wzór na średniokwadratowy błąd prognozy.
σn2 := σn,12 (dla prognozy jednokrokowej), γn := γn(1)
Fakt (i) σn2 > 0 jest równoważne odwracalności Γn. W tym przypadku σ2n= |Γn+1| / |Γn|
(ii) Jeśli σ2 = ||Xt − PHt−1Xt||2 > 0 (tzw. proces niedeterministyczny), to σ2n > 0 dla każdego n i
σ2 = exp( lim
n→∞
1
nlog |Γn|).
Dowód (i) wynika ze wzoru
det
A B
C D
= |A| |D − CA−1B| = |D| |A − BD−1C| (2.5) i postaci
Γn+1 =
γ(0) γ0n γn Γn
Z (2.5) dostajemy
|Γn+1| =γ(0) − γ0nΓ−1n γn
| {z }
σn2
|Γn|
Dowód (ii)-ćwiczenia.
Uwagi
(i) (2.1 implikuje
PnXn+h = a0+
n
X
i=1
aiXn+1−i = m +
n
X
i=1
ai(Xn+1−i− m) (2.6)
Z (2.6) wynika, że optymalny predyktor dla procesu o średniej m
= m + optymalny predyktor dla procesu Xt− m (o średniej 0).
(ii) Oczywiście, wektor współczynników prognozy Xn+h na podstawie 1, Xn, Xn−1, . . . , X1, jest taki sam jak dla prognozy
Xt+h na podstawie 1, Xt, Xt−1, . . . , Xt−n+1
| {z }
n obserwacji
(iii)
σn2 ¬ σ2n−1¬ · · · ¬ σ02 = V ar(Xn+1) = γ(0).
(iv)
σn2 → σ2 gdy n → ∞.
(ćwiczenia)
2.1 Algorytm Durbina–Levinsona i współczynnik ko- relacji częściowej
Rozpatrzmy sytuację, gdy h = 1 (prognoza jednokrokowa).
Tradycyjnie (a1, . . . , an)0 oznaczamy (ϕn1, . . . , ϕnn)0
PnXn+1= m + ϕn1(Xn− m) + ϕn2(Xn−1− m) + · · · + ϕnn(X1− m) Bey straty ogólności przyjmijmy zatem, że m = 0.
Algorytm Durbina–Levinsona: wyliczamy (ϕni)ni=1i σn2 na podstawie (ϕn−1,i)n−1i=1 i σn−12 . σ02 = γ(0)
ϕnn =nγ(n) −
n−1
X
j=1
ϕn−1,jγ(n − j)oσn−1−2 (2.7)
ϕn,1 ... ϕn,n−1
=
ϕn−1,1 ... ϕn−1,n−1
− ϕnn
ϕn−1,n−1 ... ϕn−1,1
(2.8)
σ2n= (1 − ϕ2nn)σ2n−1= · · · = γ(0)
n−1
Y
i=1
(1 − φ2i,i) (2.9) Z (2.7): ϕ11 = γ(1)/γ(0).
Zatem rzut X2 na X1: γ(1)γ(0)X1
Na podstawie ϕn−1,1, . . . , ϕn−1,n−1 wyliczamy σn−12 (z (2.9)), później ϕn,n z (2.7) i ϕn,i, i = 1, . . . , n − 1 z (2.8).
Dowód.
K1 = sp{X2, . . . , Xn}
K2 = sp{X1− PK1X1} – przestrzeń jednowymiarowa K1 ⊥ K2