Od teorii bayesowskiej do modeli liniowych

Naszym celem jest przewidywanie przyszłych szkód na podstawie zgroma-dzonych przez ubezpieczyciela danych. W modelu bayesowskim, zadanie predykcji ma eleganckie rozwiązanie, które przedstawiliśmy w poprzednim podrozdziale. Niestety, użyteczność tego rozwiązania jest ograniczona. Obli-czenie najlepszego predyktora wymaga znajomości łącznego rozkładu praw-dopodobieństwa rozważanych zmiennych losowych. Dlatego warto zadanie postawić trochę mniej ambitnie i skupić uwagę na predykcji liniowej. Dzięki temu można rozważać modele znacznie prostsze i wymagające mniej szcze-gółowych założeń.

Predykcja liniowa

Rozważamy, podobnie jak w poprzednim podrozdziale, wektor obserwacji X = (X1, . . . , Xn) i nieobserwowalną zmienną losową Y . Poszukujemy teraz predyktora h(X) zmiennej Y , który jest liniową funkcją obserwacji:

h(X) = h(X₁, . . . , X_n) = c₀ +

i=1

c_iX_i.

W dalszym ciągu, mówiąc o funkcjach liniowych mamy na myśli funkcje nie-jednorodne, które mogą zawierać wyraz wolny. Tak jak poprzednio, za kry-terium jakości przyjmiemy błąd średniokwadratowy MSE. Od tego momentu zakładamy stale, że EY² < ∞ i EXi² < ∞.

4.4.1 DEFINICJA. Zmienna losowa ˆY = ˆh(X) jest najlepszym liniowym predyktorem zmiennej Y , jeśli ˆh : Rⁿ→ R jest funkcją liniową i

E Y −ˆh(X)2

≤ E Y − h(X)2

dla każdej funkcji liniowej h : Rⁿ → R. Będziemy symbolicznie pisali ˆY =

BLP(Y ).

Skrót BLP pochodzi od „Best Linear Predictor”.

4.4.2 TWIERDZENIE (Najlepszy liniowy predyktor). Zmienna losowa c₀+Pn

i=1c_iX_i jest najlepszym liniowym predyktorem Y , jeśli współczynniki c0, c1, . . . , cn spełniają układ równań:

i=1

c_iCov(X_i, X_k) = Cov(X_k, Y ), k = 1, . . . , n;

c₀ = EY −

i=1

c_iEXi.

Dowód. Ponieważ ograniczamy się do funkcji liniowych, MSE jest faktycznie

Czytelnik łatwo przekona się, że te iloczyny mieszane w rozwinięciu kwa-dratu, które nie zostały napisane, mają wartość oczekiwaną zero.

Tak więc, MSE =

Pierwszy składnik w ogóle nie zależy od współczynników ci. Z kolei ostatni składnik można zawsze zmniejszyć do zera przez odpowienie dobranie wyrazu wolnego c₀, dla każdych c₁, . . . , c_n. Ostatnie z równań w tezie twierdzenia dostajemy, przyrównując do zera ten składnik. Pozostaje więc wyznaczyć c₁, . . . , c_n tak, żeby zminimalizować dwa środkowe składniki. Mamy

Przyrównując pochodne cząstkowe do zera, otrzymujemy nasz układ równań.

Układ równań w tym twierdzeniu zawsze ma rozwiązanie. To po prostu dla-tego, że nieujemna funkcja kwadratowa gdzieś musi przyjmować najmniejszą wartość. Niekiedy rozwiązań może być dużo. Najczęściej będziemy mieli do czynienia z „niezdegenerowanym przypadkiem”, kiedy nasz układ n + 1 równań z n + 1 niewiadomymi ma jedno rozwiązanie.

Ważne dla nas będzie spostrzeżenie, że możemy wyznaczyć najlepszy liniowy predyktor bez dokładnej znajomości rozkładów prawdopodobieństwa. Wy-starczy znać wartości oczekiwane i kowariancje wszystkich interesujących nas zmiennych.

Liniowa predykcja w modelu bayesowskim

Wróćmy do modelu bayesowskiego z poprzedniego rozdziału. Rozpatrujemy zmienne losowe Θ, X₁, . . . , X_nspełniające Założenie 4.3.3. W tym modelu, Θ jest losową „zmienną strukturalną”, z samej swojej natury nieobserwowalną.

Interesuje nas predykcja µ(Θ) na podstawie obserwacji X₁, . . . , X_n.

Wartości oczekiwane i struktura kowariancji. Przypomnijmy, że funk-cja µ jest określona następująco.

µ(θ) = Eθ(X_i) =

(R xf_θ(x)dx dla zmiennej typu ciągłego;

xxf_θ(x) dla zmiennej typu dyskretnego.

Analogicznie, niech

σ²(θ) = Var_θ(X_i) =

(R(x − µ(θ))²f_θ(x)dx dla zmiennej ciągłej;

x(x − µ(θ))²f_θ(x) dla zmiennej dyskretnej.

W modelu bayesowskim, µ(θ) i σ²(θ) można interpretować jako warunkową wartość oczekiwaną i warunkową wariancję:

µ(θ) = E(Xⁱ|Θ = θ), σ²(θ) = Var(Xi|Θ = θ).

Zauważmy, że µ(Θ) = E(Xi|Θ) i σ²(Θ) = Var(X_i|Θ) są zmiennymi losowymi.

Dalszą dyskusję ułatwią nam następujące oznaczenia:

m = Z

µ(θ)π(θ)dθ, s² =

σ²(θ)π(θ)dθ, a² =

(µ(θ) − m)²π(θ)dθ.

Całki w powyższych wzorach intertetujemy jako wartości oczekiwane wzglę-dem rozkładu a priori. W zasadzie trzymamy się symboli tradycyjnie uży-wanych w teorii wiarogodności. Może tylko oznaczenie a² nie jest całkiem ortodoksyjne. Reasumując,

µ(Θ) = E(Xi|Θ), σ²(Θ) = Var(X_i|Θ), m = Eµ(Θ),

s² = Eσ²(Θ), a² = Varµ(Θ).

Na mocy dobrze znanej własności warunkowej wartości oczekiwanej,

EXⁱ = EE(Xi|Θ) = Eµ(Θ) = m.

Równie znany „wzór na dekompozycję wariancji” daje

VarX_i = VarE(Xi|Θ) + EVar(Xi|Θ)

= Varµ(Θ) + Eσ²(Θ)

= a²+ s².

Dla i 6= k mamy Covθ(Xi, Xk) = 0. Istotnie, zmienne Xi i Xk są warunkowo niezależne, a więc są warunkowo nieskorelowane, dla danego Θ = θ. Stąd wynika, że

Cov(X_i, X_k) = Cov (E(Xi|Θ), E(Xi|Θ)) + ECov(Xi, X_k|Θ)

= Cov(µ(Θ), µ(Θ)) + 0

= a².

Zastosowaliśmy „dekompozycję kowariancji”, która wygląda zupełnie podob-nie jak dla wariancji. Rówpodob-nie łatwo sprawdzić, że Cov (X_i, µ(Θ)) = a². Otrzymane powyżej wyniki można prosto zapisać używając symbolu I_ik zde-finiowanego w taki sposób:

I_ik =

(1 jeśli i = k;

0 jeśli i 6= k.

4.4.3 Stwierdzenie. W modelu określonym przez 4.3.3, zmienne X₁, . . . , X_n mają tę samą wartość oczekiwaną m i następującą strukturę kowariancji:

Cov(X_i, X_k) = a²+ I_iks²,

Ponadto, Eµ(Θ) = m, Varµ(Θ) = a² i Cov (X_i, µ(Θ)) = a².

Stwierdzenie 4.4.3 opisuje strukturę wartości oczekiwanych i kowariancji, a więc zawiera wszystko co potrzeba do rozwiązania zadania predykcji liniowej.

Przypuśćmy, że interesuje nas predykcja zmiennej losowej X_n+1, która repre-zentuje przyszłe szkody. Jeśli włączymy tę nową zmienną do naszego mo-delu, to łatwo widać, że BLP(Xn+1) = BLP(µ(Θ)). Zmienna losowa µ(Θ), powtórzmy, reprezentuje średnią wysokość szkód dla rozpatrywanego klienta.

Żeby wyznaczć BLP(µ(Θ)), musimy rozwiązać układ równań

i=1

c_k(I_iks²+ a²) = a², (k = 1, . . . , n),

c₀ = m −

i=1

c_im.

Przepiszmy k-te równanie w postaci

s²c_k+ a²c• = a², gdzie c•=Pn

i=1c_i. Jeśli zsumujemy te równania względem k to otrzymamy s²c•+ a²nc• = a²n,

skąd

c• = a²n a²n + s².

Niech z = c•. Teraz już łatwo wyliczyć, że c_k = z/n dla k = 1, . . . , n.

Wreszcie, c₀ = m − c•m = (1 − z)m.

W ten sposób wyprowadziliśmy następujący wynik:

4.4.4 TWIERDZENIE (Najlepszy liniowy predyktor). W modelu 4.3.3 mamy

BLP(µ(Θ)) = z ¯X + (1 − z)m, gdzie

X =¯ 1 n

i=1

Xi, z = a²n a²n + s².

Liczba z nazywa się współczynnikiem zaufania (lub wiarogodności).

W Przykładzie 4.3.10 spotkaliśmy już ten sam predyktor. Ogólniej, jeśli najlepszy predyktor jest liniową funkcją obserwacji, to siłą rzeczy pokrywa się z najlepszym liniowym predyktorem, a więc musi mieć postać podaną powyżej. Modele bayesowskie, w których tak właśnie jest, to znaczy BP = BLP, nazywają się „dokładnymi modelami zaufania” (exact credibility). We wszystkich przykładach rozpatrzonych poprzednio mieliśmy do czynienia z takimi właśnie modelami.

Model Bühlmanna - Strauba.

Rozpatrzymy p jednorodnych grup danych. Dla ustalenia uwagi powiedzmy, że Xji jest średnią szkód i-tego klienta z j-tej grupy. Nasze dane mają więc postać tablicy zmiennych losowych. Zakładamy, że z każdą grupą klientów, czyli z każdym wierszem tablicy związana jest inna zmienna strukturalna:

Θ1; X11, . . . X1i, . . . X1n1, ... ... . .. ... . ..

Θ_j; X_j1, . . . X_ji, . . . X_jn_j, ... ... . .. ... . ..

Θ_p; X_p1, . . . X_pi, . . . X_pn_p.

4.4.5 Założenie. Rozważany układ zmiennych losowych Θ_j; X_ji (j = 1, . . . , p; i = 1, . . . , n_j) ma łączną gęstość prawdopodobieństwa

f (θ_j); (x_ji) =Y

π(θ_j)Y

f_θ_j(x_ji).

Zmienne X_ji mają skończoną wartość oczekiwaną i wariancję. Innymi słowy,

• Θ₁, . . . , Θ_p są niezależnymi zmiennymi losowymi.

• π jest gęstością prawdopodobieństwa każdej ze zmiennych Θ_j;

• Dla ustalonych wartości Θ_j = θ_j,

X_ji są warunkowo niezależnymi zmiennymi losowymi;

f_θ_j jest warunkową gęstością każdej ze zmiennych X_ji.

Zauważmy, że warunkowy rozkład zmiennych X_ji z j-tej grupy zależy tylko od Θ_j. Układ zmiennych losowych spełniających Założenie 4.4.5 będziemy nazywać modelem Bühlmanna - Strauba.

Funkcje µ, σ² i liczbę m definiujemy tak jak poprzednio w terminach gęstości f_θ i rozkładu a priori π. Mamy teraz

µ(Θ_j) = E(Xji|Θ_j), σ²(Θ_j) = Var(X_ji|Θ_j).

Oczywiście,

m = EXji = Eµ(Θj), s² = Eσ²(Θ_j), a² = Varµ(Θ_j).

Opiszemy strukturę kowariancji zmiennych występujących w modelu Bühl-manna - Strauba. Wobec tego, że wiersze są niezależne, z łatwością otrzy-mujemy następujący wzór:

Cov(X_ji, X_j⁰_i⁰) = I_jj⁰(I_ii⁰s² + a²).

Podobnie, Cov(X_ji, µ(Θ_j⁰)) = I_jj⁰a².

Najlepsza predykcja liniowa. Interesuje nas głównie predykcja zmiennej losowej µ(Θ_j) dla pewnego ustalonego j = j₀. Jest to średnia wysokość szkód w j₀-tej grupie klientów. Dla ubezpieczyciela predykcja tej zmiennej ma zasadnicze znaczenie. Jest równoważna predykcji przyszłych szkód każdego z klientów należących do tej grupy (lub nawet nowego klienta, jeśli mamy podstawy zakwalifikować go właśnie do j₀-tej grupy).

Zaczniemy od spostrzeżenia tyleż oczywistego, co zaskakującego. Najlepszy liniowy predyktor BLP(µ(Θ_j₀)) obliczony na podstawie całej tablicy danych (X_ji) zależy tylko od zmiennych X_j₀_i z j₀-tej grupy. To wynika z faktu, że wiersze: (Θj; X_ji, i = 1, . . . , n_j) są niezależne dla j = 1, . . . , p. Stosując Twierdzenie 4.4.4 do j-tego wiersza dostajemy

BLP(µ(Θ_j)) = z_jX¯_j + (1 − z_j)m, gdzie

zj = a²n_j a²n_j + s²

jest współczynnikiem zaufania (zależnym od grupy j), X¯_j = 1

n_j X

X_ji

jest średnią danych w j-tej grupie. Oczywiście, można również odwołać się explicite do Twierdzenia 4.4.2 i wykorzystać fakt, że zmienne z różnych wier-szy są nieskorelowane, aby otrzymać w drodze czysto rachunkowej ten sam wynik.

Nasuwa się wobec tego pytanie: po co nam model uwzględniający dane dla wielu klientów, skoro najlepszy liniowy predyktor korzysta tylko z danych dotyczących jednego klienta? Odpowiedź jest bardzo prosta. Nasz predyktor zakłada znajomość trzech parametrów: m, s² i a². W praktyce te parametry są nieznane i musimy je estymować na podstawie danych. Dwa z nich, m i a² opisują własności populacji klientów i mogą być estymowane tylko jeśli mamy próbkę z tej populacji! Rolę tej próbki odgrywają wiersze tablicy (X_ji) – i dlatego są potrzebne. Model Bühlmanna - Strauba reprezentuje w tym sensie empiryczne podejście bayesowskie.

Istnieje pewna „hierarchia predyktorów”, której warto się przyjrzeć na przy-kładzie modelu Bühlmanna - Strauba. Załóżmy, że celem jest predykcja µ(Θ_j) dla ustalonego j = j₀.

• BP (Best Predictor ), najlepszy predyktor: obliczenie BP wymaga zna-jomości wiarogodności f_θ i rozkładu a priori π;

• BLP (Best Linear Predictor ), najlepszy liniowy predyktor: obliczenie BLP wymaga znajomości parametrów m, s², i a²;

• BLUP (Best Linear Unbiased Predictor ), najlepszy nieobciążony li-niowy predyktor: obliczenie BLUP wymaga znajomości parametrów s², i a², czyli komponentów wariancyjnych; średnią globalną m esty-mujemy z danych;

• EBLUP (Empirical Best Linear Unbiased Predictor ), empiryczna wer-sja najlepszego nieobciążonego liniowego predyktora: EBLUP można obliczyć na podstawie danych; z danych estymujemy parametry m, s², i a²

Poprzestaniemy na podaniu podstawowych wzorów na predyktory i estyma-tory używane w modelu Bühlmanna - Strauba. Wyjaśnimy sens tych wzo-rów na poziomie intuicyjnym. Pominiemy formalne definicje takich pojęć jak BLUP i BLUE (Best Linear Unbiased Estimator ), najlepszy liniowy nie-obciążony estymator oraz wyjaśnienie związku między nimi. To są tematy należące do teorii mieszanych modeli liniowych i tylko w tym kontekście można je właściwie zrozumieć.

Oznaczenia. Niech µ_j = µ(Θ_j). Jak zwykle, pomijamy wskaźniki sumowa-nia, dostatecznie jasno wynikacjące z kontekstu. Stosujemy konwencję wpro-wadzoną już poprzednio: sumowanie względem pewnego indeksu oznaczmy

„wykropkowując” ten indeks. Na przykład:

n•=X

Będziemy potrzebowali kilku skrótów używanych w analizie wariancji (ANOVA).

Przypomnijmy oznaczenia wprowadzone w Podrozdziale 4.2:

X =¯ X

Predyktory i estymatory Najlepszy liniowy predyktor BLP(µ_j), został obliczony przy założeniu, że znana jest globalna średnia m i zależy tylko od zmiennych X_ji z j-tej grupy. Jeśli m jest nieznane, to możemy po prostu zastępujemy ten parametr odpowiednim estymatorem. Do estymacji m wy-korzystujemy dane ze wszystkich grup. Można pokazać, że najlepszy liniowy nieobciążony estymator parametru m jest dany następującym wzorem:

BLUE(m) = ˆm =X

z_j z•

X¯_j.

Interesujące jest to, że BLUE(m) jest średnią ważoną w której wagi są zwią-zane ze współczynnikami wiarogodności z_j. Na pierwszy rzut oka wydawać by się mogło, że bardziej naturalne jest użycie „zwykłej” średniej ¯X. Na ogół

jednak ¯X 6= ˆm. Obie średnie są estymatorami nieobciążonymi, ale ˆm ma mniejszą wariancję (w istocie, najmniejszą spośród wszystkich estymatorów liniowych nieobciążonych). To wynika z faktu, że średnie grupowe ¯Xj mają wariancje odwrotnie proporcjonalne do z_j, mianowicie Var ¯X_j = a² = s²/n_j. Wstawiając estymator BLUE(m) = ˆm w miejsce nieznanego parametru m we wzorze na BLP, otrzymujemy BLUP (możemy to prowizorycznie uznać za definicję BLUPa):

BLUP(µ_j) = z_jX¯_j + (1 − z_j) ˆm.

Przejdźmy teraz do estymacji komponentów wariancyjnych s² i a². To jest trudniejsze zadanie i wyniki teoretyczne są mniej zadowalające, niż w przy-padku estymacji parametru m. Z pierwszym komponentem, s² jest jeszcze nie tak trudno. Estymator

s² = MSB = SSW n•− p

jest nieobciążony i intuicyjnie przekonujący. Gorzej z komponentem a². Są używane różne estymatory i nie można definitywnie powiedzieć, które z nich są „najlepsze”. Interpretacja komponentu a²podpowiada, żeby użyć „natural-nego” estymatora MSB = SSB/(p − 1). Okazuje się jednak, że ten estymator jest obciążony. Proste ale dość żmudne rachunki prowadzą do wzoru na war-tość oczekiwaną SSB w naszym modelu i pozwalają „usunąć obciążenie”. W rezultacie otrzymujemy następujący nieobciążony estymator:

ˆ a² =

SSB − p − 1 n•− pSSW

n•

n²_•−P n²_j.

Powiemy, że jest to estymator otrzymany metodą ANOVA. Jego wadą jest to, że czasami przyjmuje wartości ujemne, choć jest estymatorem nieujemnego parametru a². Z praktycznego punktu widzenia problem jest niewielki, bo można używać estymatora max(ˆa², 0). Jednak w ten sposób otrzymujemy oczywiście estymator obciążony, a więc rezygnujemy z ważnej teoretycznej zalety estymatora ˆa².

Zestawienie wzorów

Współczynnik zaufania dla grupy j:

z_j = a²n_j a²n_j + s²

Najlepszy liniowy predyktor:

BLP(µ_j) = z_jX¯_j + (1 − z_j)m.

Najlepszy liniowy nieobciążony predyktor:

BLUP(µ_j) = z_jX¯_j + (1 − z_j) ˆm.

Najlepszy liniowy nieobciążony estymator średniej:

BLUE(m) = ˆm =X

z•

X¯_j.

Empiryczna wersja predyktora:

EBLUP(µ_j) = ˆz_jX¯_j + (1 − ˆz_j) ˆm,ˆ gdzie

z_j = ˆa²n_j ˆ

a²nj+ ˆs², m =ˆˆ X

ˆ z_j ˆ z•

X¯_j.

Model Bühlmanna-Strauba jako mieszany model liniowy

Z Założenia 4.4.5 wynika, że spełnione są założenia następującego modelu, który należy do rodziny tak zwanych mieszanych modeli liniowych (Mixed Linear Models).

4.4.6 Założenie (Model 1-kierunkowej klasyfikacji z efektami losowymi).

Zmienne losowe Xji są postaci

X_ji = m + α_j + ε_ji, (j = 1, . . . , p; i = 1, . . . , n_j),

gdzie m jest stałą, wszystkie zmienne losowe α_j i ε_ji są nieskorelowane, Eαj = Eεji= 0, Varα_j = a², Varε_ji = s².

Aby przejść od modelu bayesowskiego do modelu liniowego, czyli pokazać, że z Założenia 4.4.5 wynika Założenie 4.4.6, wystarczy napisać

ε_ji = X_ji− µ(Θ_j);

α_j = µ(Θ_j) − m.

Obliczenie wartości oczekiwanych, wariancji i kowariancji tak zdefiniowanych zmiennych nie przedstawia żadnych trudności.

Interpretacja wielkości występujących w powyższym modelu jest bardzo przej-rzysta. Każdą ze zmiennych X_ji rozkładamy na sumę trzech składników (w statystycznym żargonie – efektów). Liczba m jest średnią wysokością szkód w całej populacji klientów, α_j jest losowym efektem związanym z przyna-leżnością klienta do j-tej grupy, zaś ε_ji jest „błędem losowym” zależnym od grupy i od klienta. Nasze rozważania, oczywiście, żywo przypominają to, co mówiliśmy w poprzednim rozdziale o interpretacji modelu bayesowskiego.

Nic dziwnego, mamy do czynienia po prostu z opisem tego samego zjawiska w nieco innym języku.

W dokumencie Teoria ryzyka w ubezpieczeniach (Stron 75-88)