Ekonometria Bayesowska
Wykład 12: Bayesowskie łączenie wiedzy (BMA)
Andrzej Torój, Piotr Dybka
Kolegium Analiz Ekonomicznych, SGH
Plan wykładu
1 Wprowadzenie
2 Oczekiwana wielkość modelu
3 Losowanie próby modeli
4 Ćwiczenia w R
Andrzej Torój, Piotr Dybka Kolegium Analiz Ekonomicznych, SGH
Plan prezentacji
1 Wprowadzenie
2 Oczekiwana wielkość modelu
3 Losowanie próby modeli
4 Ćwiczenia w R
Podstawy teoretyczne
Bayesowskie łączenie wiedzy
Bayesowskie łączenie wiedzy (ang. Bayesian Model Averaging – BMA) służy do rozwiązywania problemu niepewności odpowiedniego doboru specyfikacji modelu (doboru zmiennych). BMA czasami określane jest także mianem bayesowskiego uśredniania modeli.
Załóżmy, że mamy K potencjalnych zmiennych objaśniających.
Oznacza to że mamy aż 2K potencjalnych zbiorów zmiennych objaśniających. Dobór specyfikacji może mieć znaczący wpływ na oszacowane wartości parametrów dla poszczególnych zmiennych.
BMA polega na tym, że oszacowane (za pomocą metod
klasycznych) zostaje 2K modeli, które są następnie agregowane za pomocą metod bayesowskich. Dzięki temu możliwe jest uzyskanie spójnego wyniku oraz określenie prawdopodobieństwa a posteriori wyboru danej specyfikacji lub włączenia danej zmiennej do modelu.
Andrzej Torój, Piotr Dybka Kolegium Analiz Ekonomicznych, SGH
Podstawy teoretyczne
Bayesowskie łączenie wiedzy
Bayesowskie łączenie wiedzy (ang. Bayesian Model Averaging – BMA) służy do rozwiązywania problemu niepewności odpowiedniego doboru specyfikacji modelu (doboru zmiennych). BMA czasami określane jest także mianem bayesowskiego uśredniania modeli.
Załóżmy, że mamy K potencjalnych zmiennych objaśniających.
Oznacza to że mamy aż 2K potencjalnych zbiorów zmiennych objaśniających. Dobór specyfikacji może mieć znaczący wpływ na oszacowane wartości parametrów dla poszczególnych zmiennych.
BMA polega na tym, że oszacowane (za pomocą metod
klasycznych) zostaje 2K modeli, które są następnie agregowane za pomocą metod bayesowskich. Dzięki temu możliwe jest uzyskanie spójnego wyniku oraz określenie prawdopodobieństwa a posteriori wyboru danej specyfikacji lub włączenia danej zmiennej do modelu.
Podstawy teoretyczne
Bayesowskie łączenie wiedzy
Bayesowskie łączenie wiedzy (ang. Bayesian Model Averaging – BMA) służy do rozwiązywania problemu niepewności odpowiedniego doboru specyfikacji modelu (doboru zmiennych). BMA czasami określane jest także mianem bayesowskiego uśredniania modeli.
Załóżmy, że mamy K potencjalnych zmiennych objaśniających.
Oznacza to że mamy aż 2K potencjalnych zbiorów zmiennych objaśniających. Dobór specyfikacji może mieć znaczący wpływ na oszacowane wartości parametrów dla poszczególnych zmiennych.
BMA polega na tym, że oszacowane (za pomocą metod
klasycznych) zostaje 2K modeli, które są następnie agregowane za pomocą metod bayesowskich. Dzięki temu możliwe jest uzyskanie spójnego wyniku oraz określenie prawdopodobieństwa a posteriori wyboru danej specyfikacji lub włączenia danej zmiennej do modelu.
Andrzej Torój, Piotr Dybka Kolegium Analiz Ekonomicznych, SGH
Podstawy teoretyczne
Prawdopodobieństwo a posteriori modelu
BMA opiera się na obliczeniu prawdopodobieństwa a posteriori dla modelu j – P(Mj|y), czyli prawdopodobieństwa warunkowego zależącego od (por. wykład 5):
założeń a priori dotyczących prawdopodobieństwa modelu j – P(Mj) oraz
brzegowej wiarygodności modelu j, P(y|Mj)
(prawdopodobieństwa doboru danych y warunkowo dla danego modelu) na podstawie wzoru:
P(Mj|y ) = P(y|Mj)P(Mj)
∑2Ki =1P(y|Mi)P(Mi)
Założenia dla kalkulacji prawdopodobieństwa a posteriori modelu
g-prior Zellnera
Standardem w literaturze jest zastosowanie specyficznej struktury założeń określanej mianem Zellner’s g-prior.
Załóżmy, że dla każdego modelu Mj skladnik losowy ma rozkład N(0, σ2I ).
Kluczowe znaczenie ma przyjęcie założeń dotyczących wektora współczynników regresji liniowej, βj. Przed wykorzystaniem danych, konieczne jest przyjęcie założeń a priori dotyczących współczynników regresji. Zakładamy rozkład normalny o określonej średniej i wariancji.
Często przyjmuje się założenia konserwatywne (wskazujące na małą wiedzę a priori) ze średnią równą 0 oraz macierzą wariancji-kowariancji zbliżoną do struktury wynikającej z macierzy zmiennych objaśniających Xj:
βj|g ∼ Nh
0, σ2(g1XjTXj)−1i
Niska wartość g oznacza, że badacz jest mocno przekonany, że
współczynniki regresji są równe 0. Natomiast wysoka wartość g wskazuje, że badacz jest niepewny zakładanej wartości współczynników.
Andrzej Torój, Piotr Dybka Kolegium Analiz Ekonomicznych, SGH
Założenia dla kalkulacji prawdopodobieństwa a posteriori modelu
Wartość oczekiwana a posteriori
Rozkład a posteriori współczynników regresji odzwierciedla niepewność a priori: dla danej wartości g (przy wcześniejszych założeniach) βj ma wielowymiarowy rozkład a posteriori t o wartości oczekiwanej:
E (βj|g , Xj, Mj) =1+gg βˆj βˆj to oszacowanie KMNK parametrów modelu j.
Im niższa wartość g , tym większe znaczenie dla wartości oczekiwanej a posteriori ma przyjęta wartość a priori i w tym większym stopniu wartość parametru zbliża się do 0. Są różne warianty doboru wartości g , np. jednostkowy g-prior g = N (gdzie N to liczba obserwacji) lub „naśladujące” kryteria informacyjne.
Plan prezentacji
1 Wprowadzenie
2 Oczekiwana wielkość modelu
3 Losowanie próby modeli
4 Ćwiczenia w R
Andrzej Torój, Piotr Dybka Kolegium Analiz Ekonomicznych, SGH
Podejście oczekiwanej wielkości modelu
Oczekiwana wielkość modelu
Jak ocenić prawdopodobieństwo a priori danego modelu, P(Mj)? Załóżmy, że każda zmienna może być niezależnie włączona do modelu z prawdopodobieństwem θ i pominięta z prawdopodobieństwem 1 − θ . Wówczas prawdopodobieństwo a priori modelu Mj zależy od liczby regresorów włączonych do modelu (Kj).
Prawdopodobieństwo a priori modelu Mj ma wówczas rozkład dwumianowy:
P(Mj) = θKj(1 − θ )K −Kj
Parametr mprior = fixed w poleceniu bms.
Podejście oczekiwanej wielkości modelu
Oczekiwana wielkość modelu
Warto zauważyć, że dla danego θ oczekiwana wielkość modelu (liczba regresorów) jest równa θ K . Jeżeli chcemy aby
oczekiwana wielkość modelu wynosiła K∗ to wówczas musimy ustalić prawdopodobieństwo włączenia zmiennej na poziomie:
θ =K
∗
K
Załóżmy, że θ =12, przy tych założeniach prawdopodobieństwo a priori modeli będzie skupione wokół modeli zawierających K /2 zmiennych.
Andrzej Torój, Piotr Dybka Kolegium Analiz Ekonomicznych, SGH
Podejście oczekiwanej wielkości modelu
Oczekiwana wielkość modelu
Podejście agnostyczne
Podejście agnostyczne
Istnieje jednak inne podejście. Możemy założyć, że parametr θ jest losowy i pochodzi z rozkładu beta:
θ ∼ Beta (a, b)
Ta zmiana znacząco zmniejsza wagę założeń związanych z oczekiwaną wielkością modeli, ponieważ “spłaszcza” rozkład gęstości a priori modeli. W szczególnym przypadku, gdy a = 1 oraz b = 1, rozkład ten staje się rozkładem jednostajnym.
Jeżeli a = 1 to b = (K − K∗)/K∗, gdzie K∗ oznacza oczekiwaną wielkość modelu. Dlatego niektóre programy umożliwiają sterowanie poprzez parametr K∗ zamiast definiowania parametrów a, b.
Parametr mprior = random w poleceniu bms.
Andrzej Torój, Piotr Dybka Kolegium Analiz Ekonomicznych, SGH
Podejście agnostyczne
Podejście agnostyczne
Plan prezentacji
1 Wprowadzenie
2 Oczekiwana wielkość modelu
3 Losowanie próby modeli
4 Ćwiczenia w R
Andrzej Torój, Piotr Dybka Kolegium Analiz Ekonomicznych, SGH
Losowanie próby modeli
Duża liczba modeli do oszacowania
Przy K potencjalnych zmiennych objaśniających, mamy aż 2K potencjalnych specyfikacji modelu. Oznacza to, że ich
oszacowanie może być bardzo wymagające obliczeniowo.
Wówczas możemy posłużyć się algorytmami służącymi do wylosowania próby modeli - próbnikami.
W tym celu wykorzystuje się algorytmy MCMCMC (ang.
Markov Chain Monte Carlo Model Composition).
Losowanie próby modeli
Duża liczba modeli do oszacowania
Przykład algorytmu birth-death:
Zaczynamy od początkowego modelu, gdzie wylosowaliśmy np.
3 zmienne. Losujemy kolejną zmienną ze zbioru wszystkich rozważanych zmiennych. Jeżeli wylosowana zmienna nie jest w naszym modelu, to ją dodajemy, w przeciwnym razie --
usuwamy z modelu. Operację powtarzamy wielokrotnie.
Dla każdego algorytmu należy ustawić liczbę losowań (wielkość próby) oraz liczbę początkowych losowań do odrzucenia (burn-in).
Andrzej Torój, Piotr Dybka Kolegium Analiz Ekonomicznych, SGH
Plan prezentacji
1 Wprowadzenie
2 Oczekiwana wielkość modelu
3 Losowanie próby modeli
4 Ćwiczenia w R
Pakiet BMS
Pakiet BMS
BMA może być wykonywane w oparciu o pakiet do R o nazwie BMS. Szczegółowe informacje o pakiecie wraz z przykładami jego zastosowania można znaleźć na stronie:
http://bms.zeugner.eu/
W pakiecie dostępna jest funkcja bms, która przeprowadza bayesowskie łączenie wiedzy w oparciu o zdefiniowane założenia a priori.
Andrzej Torój, Piotr Dybka Kolegium Analiz Ekonomicznych, SGH
Pakiet BMS
Przykład - baza danych
Baza danych zawiera 13 zmiennych dla 119 krajów na przestrzeni 13 lat.
Panel ten jest zbilansowany - porównywanie i uśrednianie modeli oszacowanych na różnych próbach jest bardzo skomplikowane!
Pierwsza zmienna po zmiennych identyfikujących kraj (unit_id ) oraz czas (time) jest domyślnie traktowana przez funkcję bms jako zmienna objaśniająca.
Pakiet BMS
Ćwiczenia 1-3
1 Zmień ustawienia założeń dotyczących prawdopodobieństwa poszczególnych zmiennych w modelu (g-prior) z
jednostkowego na naśladujący kryterium informacyjne Hannana-Quinna. Zanotuj różnicę w oszacowaniach trzech wybranych parametrów.
2 Zmień ustawienia parametru θ z losowego na stały.
Porównaj zmiany wybranych wcześniej parametrów
(pamiętaj o zachowaniu spójności g-prior). Które ustawienia mają większy wpływ na wyniki?
3 Dodatkowe: Zbadaj zmienną sav. Na jakie zmienne wskazuje BMA jako kluczowe determinanty oszczędności?
Andrzej Torój, Piotr Dybka Kolegium Analiz Ekonomicznych, SGH
Pakiet BMS
Ćwiczenie 4: indywidualne efekty ustalone w danych panelowych
Zaprezentowane wcześniej wyniki zostały oszacowane na danych panelowych, gdzie jednak nie uwzględniono heterogeniczności pw próbie. Była to prosta regresja bez uwzględniania efektów specyficznych dla poszczególnych krajów (pooled).
Dlatego w dalszym kroku oszacujemy model uwzględniający efekty ustalone (fixed effects).
Porównaj wcześniejsze wyniki (pooled) z wynikami po wprowadzeniu efektów ustalonych (fixed effects). Wniosek?