• Nie Znaleziono Wyników

AndrzejTorój , PiotrDybka Wykład12:Bayesowskiełączeniewiedzy(BMA) EkonometriaBayesowska

N/A
N/A
Protected

Academic year: 2021

Share "AndrzejTorój , PiotrDybka Wykład12:Bayesowskiełączeniewiedzy(BMA) EkonometriaBayesowska"

Copied!
23
0
0

Pełen tekst

(1)

Ekonometria Bayesowska

Wykład 12: Bayesowskie łączenie wiedzy (BMA)

Andrzej Torój, Piotr Dybka

Kolegium Analiz Ekonomicznych, SGH

(2)

Plan wykładu

1 Wprowadzenie

2 Oczekiwana wielkość modelu

3 Losowanie próby modeli

4 Ćwiczenia w R

Andrzej Torój, Piotr Dybka Kolegium Analiz Ekonomicznych, SGH

(3)

Plan prezentacji

1 Wprowadzenie

2 Oczekiwana wielkość modelu

3 Losowanie próby modeli

4 Ćwiczenia w R

(4)

Podstawy teoretyczne

Bayesowskie łączenie wiedzy

Bayesowskie łączenie wiedzy (ang. Bayesian Model Averaging – BMA) służy do rozwiązywania problemu niepewności odpowiedniego doboru specyfikacji modelu (doboru zmiennych). BMA czasami określane jest także mianem bayesowskiego uśredniania modeli.

Załóżmy, że mamy K potencjalnych zmiennych objaśniających.

Oznacza to że mamy aż 2K potencjalnych zbiorów zmiennych objaśniających. Dobór specyfikacji może mieć znaczący wpływ na oszacowane wartości parametrów dla poszczególnych zmiennych.

BMA polega na tym, że oszacowane (za pomocą metod

klasycznych) zostaje 2K modeli, które są następnie agregowane za pomocą metod bayesowskich. Dzięki temu możliwe jest uzyskanie spójnego wyniku oraz określenie prawdopodobieństwa a posteriori wyboru danej specyfikacji lub włączenia danej zmiennej do modelu.

Andrzej Torój, Piotr Dybka Kolegium Analiz Ekonomicznych, SGH

(5)

Podstawy teoretyczne

Bayesowskie łączenie wiedzy

Bayesowskie łączenie wiedzy (ang. Bayesian Model Averaging – BMA) służy do rozwiązywania problemu niepewności odpowiedniego doboru specyfikacji modelu (doboru zmiennych). BMA czasami określane jest także mianem bayesowskiego uśredniania modeli.

Załóżmy, że mamy K potencjalnych zmiennych objaśniających.

Oznacza to że mamy aż 2K potencjalnych zbiorów zmiennych objaśniających. Dobór specyfikacji może mieć znaczący wpływ na oszacowane wartości parametrów dla poszczególnych zmiennych.

BMA polega na tym, że oszacowane (za pomocą metod

klasycznych) zostaje 2K modeli, które są następnie agregowane za pomocą metod bayesowskich. Dzięki temu możliwe jest uzyskanie spójnego wyniku oraz określenie prawdopodobieństwa a posteriori wyboru danej specyfikacji lub włączenia danej zmiennej do modelu.

(6)

Podstawy teoretyczne

Bayesowskie łączenie wiedzy

Bayesowskie łączenie wiedzy (ang. Bayesian Model Averaging – BMA) służy do rozwiązywania problemu niepewności odpowiedniego doboru specyfikacji modelu (doboru zmiennych). BMA czasami określane jest także mianem bayesowskiego uśredniania modeli.

Załóżmy, że mamy K potencjalnych zmiennych objaśniających.

Oznacza to że mamy aż 2K potencjalnych zbiorów zmiennych objaśniających. Dobór specyfikacji może mieć znaczący wpływ na oszacowane wartości parametrów dla poszczególnych zmiennych.

BMA polega na tym, że oszacowane (za pomocą metod

klasycznych) zostaje 2K modeli, które są następnie agregowane za pomocą metod bayesowskich. Dzięki temu możliwe jest uzyskanie spójnego wyniku oraz określenie prawdopodobieństwa a posteriori wyboru danej specyfikacji lub włączenia danej zmiennej do modelu.

Andrzej Torój, Piotr Dybka Kolegium Analiz Ekonomicznych, SGH

(7)

Podstawy teoretyczne

Prawdopodobieństwo a posteriori modelu

BMA opiera się na obliczeniu prawdopodobieństwa a posteriori dla modelu j – P(Mj|y), czyli prawdopodobieństwa warunkowego zależącego od (por. wykład 5):

założeń a priori dotyczących prawdopodobieństwa modelu j – P(Mj) oraz

brzegowej wiarygodności modelu j, P(y|Mj)

(prawdopodobieństwa doboru danych y warunkowo dla danego modelu) na podstawie wzoru:

P(Mj|y ) = P(y|Mj)P(Mj)

2Ki =1P(y|Mi)P(Mi)

(8)

Założenia dla kalkulacji prawdopodobieństwa a posteriori modelu

g-prior Zellnera

Standardem w literaturze jest zastosowanie specyficznej struktury założeń określanej mianem Zellner’s g-prior.

Załóżmy, że dla każdego modelu Mj skladnik losowy ma rozkład N(0, σ2I ).

Kluczowe znaczenie ma przyjęcie założeń dotyczących wektora współczynników regresji liniowej, βj. Przed wykorzystaniem danych, konieczne jest przyjęcie założeń a priori dotyczących współczynników regresji. Zakładamy rozkład normalny o określonej średniej i wariancji.

Często przyjmuje się założenia konserwatywne (wskazujące na małą wiedzę a priori) ze średnią równą 0 oraz macierzą wariancji-kowariancji zbliżoną do struktury wynikającej z macierzy zmiennych objaśniających Xj:

βj|g ∼ Nh

0, σ2(g1XjTXj)−1i

Niska wartość g oznacza, że badacz jest mocno przekonany, że

współczynniki regresji są równe 0. Natomiast wysoka wartość g wskazuje, że badacz jest niepewny zakładanej wartości współczynników.

Andrzej Torój, Piotr Dybka Kolegium Analiz Ekonomicznych, SGH

(9)

Założenia dla kalkulacji prawdopodobieństwa a posteriori modelu

Wartość oczekiwana a posteriori

Rozkład a posteriori współczynników regresji odzwierciedla niepewność a priori: dla danej wartości g (przy wcześniejszych założeniach) βj ma wielowymiarowy rozkład a posteriori t o wartości oczekiwanej:

E (βj|g , Xj, Mj) =1+gg βˆj βˆj to oszacowanie KMNK parametrów modelu j.

Im niższa wartość g , tym większe znaczenie dla wartości oczekiwanej a posteriori ma przyjęta wartość a priori i w tym większym stopniu wartość parametru zbliża się do 0. Są różne warianty doboru wartości g , np. jednostkowy g-prior g = N (gdzie N to liczba obserwacji) lub „naśladujące” kryteria informacyjne.

(10)

Plan prezentacji

1 Wprowadzenie

2 Oczekiwana wielkość modelu

3 Losowanie próby modeli

4 Ćwiczenia w R

Andrzej Torój, Piotr Dybka Kolegium Analiz Ekonomicznych, SGH

(11)

Podejście oczekiwanej wielkości modelu

Oczekiwana wielkość modelu

Jak ocenić prawdopodobieństwo a priori danego modelu, P(Mj)? Załóżmy, że każda zmienna może być niezależnie włączona do modelu z prawdopodobieństwem θ i pominięta z prawdopodobieństwem 1 − θ . Wówczas prawdopodobieństwo a priori modelu Mj zależy od liczby regresorów włączonych do modelu (Kj).

Prawdopodobieństwo a priori modelu Mj ma wówczas rozkład dwumianowy:

P(Mj) = θKj(1 − θ )K −Kj

Parametr mprior = fixed w poleceniu bms.

(12)

Podejście oczekiwanej wielkości modelu

Oczekiwana wielkość modelu

Warto zauważyć, że dla danego θ oczekiwana wielkość modelu (liczba regresorów) jest równa θ K . Jeżeli chcemy aby

oczekiwana wielkość modelu wynosiła K to wówczas musimy ustalić prawdopodobieństwo włączenia zmiennej na poziomie:

θ =K

K

Załóżmy, że θ =12, przy tych założeniach prawdopodobieństwo a priori modeli będzie skupione wokół modeli zawierających K /2 zmiennych.

Andrzej Torój, Piotr Dybka Kolegium Analiz Ekonomicznych, SGH

(13)

Podejście oczekiwanej wielkości modelu

Oczekiwana wielkość modelu

(14)

Podejście agnostyczne

Podejście agnostyczne

Istnieje jednak inne podejście. Możemy założyć, że parametr θ jest losowy i pochodzi z rozkładu beta:

θ ∼ Beta (a, b)

Ta zmiana znacząco zmniejsza wagę założeń związanych z oczekiwaną wielkością modeli, ponieważ “spłaszcza” rozkład gęstości a priori modeli. W szczególnym przypadku, gdy a = 1 oraz b = 1, rozkład ten staje się rozkładem jednostajnym.

Jeżeli a = 1 to b = (K − K)/K, gdzie K oznacza oczekiwaną wielkość modelu. Dlatego niektóre programy umożliwiają sterowanie poprzez parametr K zamiast definiowania parametrów a, b.

Parametr mprior = random w poleceniu bms.

Andrzej Torój, Piotr Dybka Kolegium Analiz Ekonomicznych, SGH

(15)

Podejście agnostyczne

Podejście agnostyczne

(16)

Plan prezentacji

1 Wprowadzenie

2 Oczekiwana wielkość modelu

3 Losowanie próby modeli

4 Ćwiczenia w R

Andrzej Torój, Piotr Dybka Kolegium Analiz Ekonomicznych, SGH

(17)

Losowanie próby modeli

Duża liczba modeli do oszacowania

Przy K potencjalnych zmiennych objaśniających, mamy aż 2K potencjalnych specyfikacji modelu. Oznacza to, że ich

oszacowanie może być bardzo wymagające obliczeniowo.

Wówczas możemy posłużyć się algorytmami służącymi do wylosowania próby modeli - próbnikami.

W tym celu wykorzystuje się algorytmy MCMCMC (ang.

Markov Chain Monte Carlo Model Composition).

(18)

Losowanie próby modeli

Duża liczba modeli do oszacowania

Przykład algorytmu birth-death:

Zaczynamy od początkowego modelu, gdzie wylosowaliśmy np.

3 zmienne. Losujemy kolejną zmienną ze zbioru wszystkich rozważanych zmiennych. Jeżeli wylosowana zmienna nie jest w naszym modelu, to ją dodajemy, w przeciwnym razie --

usuwamy z modelu. Operację powtarzamy wielokrotnie.

Dla każdego algorytmu należy ustawić liczbę losowań (wielkość próby) oraz liczbę początkowych losowań do odrzucenia (burn-in).

Andrzej Torój, Piotr Dybka Kolegium Analiz Ekonomicznych, SGH

(19)

Plan prezentacji

1 Wprowadzenie

2 Oczekiwana wielkość modelu

3 Losowanie próby modeli

4 Ćwiczenia w R

(20)

Pakiet BMS

Pakiet BMS

BMA może być wykonywane w oparciu o pakiet do R o nazwie BMS. Szczegółowe informacje o pakiecie wraz z przykładami jego zastosowania można znaleźć na stronie:

http://bms.zeugner.eu/

W pakiecie dostępna jest funkcja bms, która przeprowadza bayesowskie łączenie wiedzy w oparciu o zdefiniowane założenia a priori.

Andrzej Torój, Piotr Dybka Kolegium Analiz Ekonomicznych, SGH

(21)

Pakiet BMS

Przykład - baza danych

Baza danych zawiera 13 zmiennych dla 119 krajów na przestrzeni 13 lat.

Panel ten jest zbilansowany - porównywanie i uśrednianie modeli oszacowanych na różnych próbach jest bardzo skomplikowane!

Pierwsza zmienna po zmiennych identyfikujących kraj (unit_id ) oraz czas (time) jest domyślnie traktowana przez funkcję bms jako zmienna objaśniająca.

(22)

Pakiet BMS

Ćwiczenia 1-3

1 Zmień ustawienia założeń dotyczących prawdopodobieństwa poszczególnych zmiennych w modelu (g-prior) z

jednostkowego na naśladujący kryterium informacyjne Hannana-Quinna. Zanotuj różnicę w oszacowaniach trzech wybranych parametrów.

2 Zmień ustawienia parametru θ z losowego na stały.

Porównaj zmiany wybranych wcześniej parametrów

(pamiętaj o zachowaniu spójności g-prior). Które ustawienia mają większy wpływ na wyniki?

3 Dodatkowe: Zbadaj zmienną sav. Na jakie zmienne wskazuje BMA jako kluczowe determinanty oszczędności?

Andrzej Torój, Piotr Dybka Kolegium Analiz Ekonomicznych, SGH

(23)

Pakiet BMS

Ćwiczenie 4: indywidualne efekty ustalone w danych panelowych

Zaprezentowane wcześniej wyniki zostały oszacowane na danych panelowych, gdzie jednak nie uwzględniono heterogeniczności pw próbie. Była to prosta regresja bez uwzględniania efektów specyficznych dla poszczególnych krajów (pooled).

Dlatego w dalszym kroku oszacujemy model uwzględniający efekty ustalone (fixed effects).

Porównaj wcześniejsze wyniki (pooled) z wynikami po wprowadzeniu efektów ustalonych (fixed effects). Wniosek?

Cytaty

Powiązane dokumenty

Fizyka Na poprzedniej lekcji nauczyciel zadaje uczniom utrwalenie wiadomości z budowy wewnętrznej ciał stałych, cieczy i gazów. Uczniowie mają zadane

Wyzwaniem pozostaje wyznaczenie wiarygodności brzegowej (ang. marginal likelihood) modelu, czyli całki licznika gęstości a posteriori ze względu na wszystkie parametry

Często decydujemy się na użycie większej liczby łańcuchów niż tylko jeden (to również przydaje się w diagnostyce zbieżności

Pojęcia z mechaniki: położenia, ruchu, pędu oraz energii kinetycznej i potencjalnej można odnieść do wędrówki hipotetycznej „sondy” po przestrzeni parametrów..

3 Przedmiotem naszego zainteresowania jest predykcja wyniku wyborów w USA w listopadzie 2020 r., z perspektywy lipca tego samego roku, gdy nieznana była jeszcze wartość jednego

Podstawy: przypomnienie Analiza bayesowska modelu SAR Analiza bayesowska w rstan (HMC)..

lokalnie ważona regresja (LWR, Cleveland i Devlin, 1988) – regresja w podpróbie skoncentrowanej wokół danego punktu, ważona bliskością tego punktu. Pomysł geograficznie

Korzystając z reguły odwracania proszę znaleźć skuteczny wzór na liczbę nieporząd- ków n obiektów (n podsilnia).. Patasnik Matematyka