AndrzejTorój , PiotrDybka Wykład12:Bayesowskiełączeniewiedzy(BMA) EkonometriaBayesowska

(1)

Ekonometria Bayesowska

Wykład 12: Bayesowskie łączenie wiedzy (BMA)

Andrzej Torój, Piotr Dybka

Kolegium Analiz Ekonomicznych, SGH

(2)

Plan wykładu

1 Wprowadzenie

2 Oczekiwana wielkość modelu

3 Losowanie próby modeli

4 Ćwiczenia w R

Andrzej Torój, Piotr Dybka Kolegium Analiz Ekonomicznych, SGH

(3)

Plan prezentacji

1 Wprowadzenie

4 Ćwiczenia w R

(4)

Podstawy teoretyczne

Bayesowskie łączenie wiedzy

Bayesowskie łączenie wiedzy (ang. Bayesian Model Averaging – BMA) służy do rozwiązywania problemu niepewności odpowiedniego doboru specyfikacji modelu (doboru zmiennych). BMA czasami określane jest także mianem bayesowskiego uśredniania modeli.

Załóżmy, że mamy K potencjalnych zmiennych objaśniających.

Oznacza to że mamy aż 2^K potencjalnych zbiorów zmiennych objaśniających. Dobór specyfikacji może mieć znaczący wpływ na oszacowane wartości parametrów dla poszczególnych zmiennych.

BMA polega na tym, że oszacowane (za pomocą metod

klasycznych) zostaje 2^K modeli, które są następnie agregowane za pomocą metod bayesowskich. Dzięki temu możliwe jest uzyskanie spójnego wyniku oraz określenie prawdopodobieństwa a posteriori wyboru danej specyfikacji lub włączenia danej zmiennej do modelu.

(5)

Bayesowskie łączenie wiedzy

(6)

Bayesowskie łączenie wiedzy

(7)

Prawdopodobieństwo a posteriori modelu

BMA opiera się na obliczeniu prawdopodobieństwa a posteriori dla modelu j – P(M_j|y), czyli prawdopodobieństwa warunkowego zależącego od (por. wykład 5):

założeń a priori dotyczących prawdopodobieństwa modelu j – P(M_j) oraz

brzegowej wiarygodności modelu j, P(y|M_j)

(prawdopodobieństwa doboru danych y warunkowo dla danego modelu) na podstawie wzoru:

P(Mj|y ) = ^P(^y|Mj)^P(^Mj)

∑^2K_{i =1}P(y|Mi)P(Mi)

(8)

Założenia dla kalkulacji prawdopodobieństwa a posteriori modelu

g-prior Zellnera

Standardem w literaturze jest zastosowanie specyficznej struktury założeń określanej mianem Zellner’s g-prior.

Załóżmy, że dla każdego modelu M_j skladnik losowy ma rozkład N(0, σ²I ).

Kluczowe znaczenie ma przyjęcie założeń dotyczących wektora współczynników regresji liniowej, β_j. Przed wykorzystaniem danych, konieczne jest przyjęcie założeń a priori dotyczących współczynników regresji. Zakładamy rozkład normalny o określonej średniej i wariancji.

Często przyjmuje się założenia konserwatywne (wskazujące na małą wiedzę a priori) ze średnią równą 0 oraz macierzą wariancji-kowariancji zbliżoną do struktury wynikającej z macierzy zmiennych objaśniających X_j:

β_j|g ∼ Nh

0, σ²(_g¹X_j^TX_j)⁻¹i

Niska wartość g oznacza, że badacz jest mocno przekonany, że

współczynniki regresji są równe 0. Natomiast wysoka wartość g wskazuje, że badacz jest niepewny zakładanej wartości współczynników.

(9)

Założenia dla kalkulacji prawdopodobieństwa a posteriori modelu

Wartość oczekiwana a posteriori

Rozkład a posteriori współczynników regresji odzwierciedla niepewność a priori: dla danej wartości g (przy wcześniejszych założeniach) β_j ma wielowymiarowy rozkład a posteriori t o wartości oczekiwanej:

E (β_j|g , X_j, M_j) =_1+g^g βˆ_j βˆ_j to oszacowanie KMNK parametrów modelu j.

Im niższa wartość g , tym większe znaczenie dla wartości oczekiwanej a posteriori ma przyjęta wartość a priori i w tym większym stopniu wartość parametru zbliża się do 0. Są różne warianty doboru wartości g , np. jednostkowy g-prior g = N (gdzie N to liczba obserwacji) lub „naśladujące” kryteria informacyjne.

(10)

Plan prezentacji

1 Wprowadzenie

4 Ćwiczenia w R

(11)

Podejście oczekiwanej wielkości modelu

Oczekiwana wielkość modelu

Jak ocenić prawdopodobieństwo a priori danego modelu, P(Mj)? Załóżmy, że każda zmienna może być niezależnie włączona do modelu z prawdopodobieństwem θ i pominięta z prawdopodobieństwem 1 − θ . Wówczas prawdopodobieństwo a priori modelu M_j zależy od liczby regresorów włączonych do modelu (K_j).

Prawdopodobieństwo a priori modelu M_j ma wówczas rozkład dwumianowy:

P(M_j) = θ^K^j(1 − θ )^{K −K}^j

Parametr mprior = fixed w poleceniu bms.

(12)

Oczekiwana wielkość modelu

Warto zauważyć, że dla danego θ oczekiwana wielkość modelu (liczba regresorów) jest równa θ K . Jeżeli chcemy aby

oczekiwana wielkość modelu wynosiła K^∗ to wówczas musimy ustalić prawdopodobieństwo włączenia zmiennej na poziomie:

θ =^K

∗

K

Załóżmy, że θ =¹₂, przy tych założeniach prawdopodobieństwo a priori modeli będzie skupione wokół modeli zawierających K /2 zmiennych.

(13)

Oczekiwana wielkość modelu

(14)

Podejście agnostyczne

Istnieje jednak inne podejście. Możemy założyć, że parametr θ jest losowy i pochodzi z rozkładu beta:

θ ∼ Beta (a, b)

Ta zmiana znacząco zmniejsza wagę założeń związanych z oczekiwaną wielkością modeli, ponieważ “spłaszcza” rozkład gęstości a priori modeli. W szczególnym przypadku, gdy a = 1 oraz b = 1, rozkład ten staje się rozkładem jednostajnym.

Jeżeli a = 1 to b = (K − K^∗)/K^∗, gdzie K^∗ oznacza oczekiwaną wielkość modelu. Dlatego niektóre programy umożliwiają sterowanie poprzez parametr K^∗ zamiast definiowania parametrów a, b.

Parametr mprior = random w poleceniu bms.

(15)

Podejście agnostyczne

(16)

Plan prezentacji

1 Wprowadzenie

4 Ćwiczenia w R

(17)

Losowanie próby modeli

Duża liczba modeli do oszacowania

Przy K potencjalnych zmiennych objaśniających, mamy aż 2^K potencjalnych specyfikacji modelu. Oznacza to, że ich

oszacowanie może być bardzo wymagające obliczeniowo.

Wówczas możemy posłużyć się algorytmami służącymi do wylosowania próby modeli - próbnikami.

W tym celu wykorzystuje się algorytmy MCMCMC (ang.

Markov Chain Monte Carlo Model Composition).

(18)

Losowanie próby modeli

Duża liczba modeli do oszacowania

Przykład algorytmu birth-death:

Zaczynamy od początkowego modelu, gdzie wylosowaliśmy np.

3 zmienne. Losujemy kolejną zmienną ze zbioru wszystkich rozważanych zmiennych. Jeżeli wylosowana zmienna nie jest w naszym modelu, to ją dodajemy, w przeciwnym razie --

usuwamy z modelu. Operację powtarzamy wielokrotnie.

Dla każdego algorytmu należy ustawić liczbę losowań (wielkość próby) oraz liczbę początkowych losowań do odrzucenia (burn-in).

(19)

Plan prezentacji

1 Wprowadzenie

4 Ćwiczenia w R

(20)

Pakiet BMS

BMA może być wykonywane w oparciu o pakiet do R o nazwie BMS. Szczegółowe informacje o pakiecie wraz z przykładami jego zastosowania można znaleźć na stronie:

http://bms.zeugner.eu/

W pakiecie dostępna jest funkcja bms, która przeprowadza bayesowskie łączenie wiedzy w oparciu o zdefiniowane założenia a priori.

(21)

Pakiet BMS

Przykład - baza danych

Baza danych zawiera 13 zmiennych dla 119 krajów na przestrzeni 13 lat.

Panel ten jest zbilansowany - porównywanie i uśrednianie modeli oszacowanych na różnych próbach jest bardzo skomplikowane!

Pierwsza zmienna po zmiennych identyfikujących kraj (unit_id ) oraz czas (time) jest domyślnie traktowana przez funkcję bms jako zmienna objaśniająca.

(22)

Pakiet BMS

Ćwiczenia 1-3

1 Zmień ustawienia założeń dotyczących prawdopodobieństwa poszczególnych zmiennych w modelu (g-prior) z

jednostkowego na naśladujący kryterium informacyjne Hannana-Quinna. Zanotuj różnicę w oszacowaniach trzech wybranych parametrów.

2 Zmień ustawienia parametru θ z losowego na stały.

Porównaj zmiany wybranych wcześniej parametrów

(pamiętaj o zachowaniu spójności g-prior). Które ustawienia mają większy wpływ na wyniki?

3 Dodatkowe: Zbadaj zmienną sav. Na jakie zmienne wskazuje BMA jako kluczowe determinanty oszczędności?

(23)

Pakiet BMS

Ćwiczenie 4: indywidualne efekty ustalone w danych panelowych

Zaprezentowane wcześniej wyniki zostały oszacowane na danych panelowych, gdzie jednak nie uwzględniono heterogeniczności pw próbie. Była to prosta regresja bez uwzględniania efektów specyficznych dla poszczególnych krajów (pooled).

Dlatego w dalszym kroku oszacujemy model uwzględniający efekty ustalone (fixed effects).

Porównaj wcześniejsze wyniki (pooled) z wynikami po wprowadzeniu efektów ustalonych (fixed effects). Wniosek?