• Nie Znaleziono Wyników

Modele regresyjne w analizie wydatków gospodarstw domowych

N/A
N/A
Protected

Academic year: 2021

Share "Modele regresyjne w analizie wydatków gospodarstw domowych"

Copied!
21
0
0

Pełen tekst

(1)Zeszyty Naukowe nr. 790. Uniwersytetu Ekonomicznego w Krakowie. 2008. Barbara Podolec Katedra Statystyki. Paweł Ulman Katedra Statystyki. Modele regresyjne w analizie wydatków gospodarstw domowych 1. Wprowadzenie Procesowi transformacji gospodarczej w Polsce towarzyszy w dalszym ciągu pogłębianie się rozwarstwienia społeczeństwa pod względem sytuacji materialnej. Zmieniają się zachowania konsumpcyjne ludności, zmianom podlega poziom oraz struktura wydatków. Wśród wielu procedur badawczych pozwalających na przeprowadzenie analizy kształtowania się wydatków gospodarstw domowych wymienić należy modele regresyjne. Zakres i tematyka modelowania regresyjnego jest bardzo obszerna. Dotyczy zagadnień, które wynikają bezpośrednio z etapów budowy modelu ekonometrycznego. Możemy tutaj wymienić: – specyfikację modelu regresyjnego, czyli wybór zmiennych objaśniających i objaśnianych, które mają wystąpić w modelu regresyjnym, oraz wybór matematycznej postaci funkcji regresji, – estymację modelu, której procedury zależą od założeń przyjętych w pierwszym etapie budowy modelu, – weryfikację modelu mającą na celu, ogólnie rzecz ujmując, sprawdzenie, czy model dostatecznie dobrze opisuje rzeczywistość i czy spełnia wcześniej przyjęte założenia. Modelowaniu ekonometrycznemu – w tym także powyższym aspektom modelowania regresyjnego – poświęcono wiele miejsca w literaturze przedmiotu (por. np.: [Jakubczyc 1982], [Czerwiński 1984], [Kudrycka 1984], [Zeliaś 1970],.

(2) 6. Barbara Podolec, Paweł Ulman. [Pawłowski 1971], [Johnston 1984], [Neter, Wasserman, Kutner 1989], [Seber 1977], [Weisberg 1985]. Celem pracy jest przedstawienie możliwości wykorzystania modeli regresyjnych w analizie kształtowania się wydatków gospodarstw domowych1. 2. Wybrane zagadnienia modelowania regresyjnego w analizie wydatków Model regresyjny możemy najogólniej zapisać za pomocą formuły:. Y = f (X, ε), gdzie: Y – wektor obserwacji dla zmiennej objaśnianej, X – macierz obserwacji dla zmiennych objaśniających, ε – wektor składników losowych, f – pewna nieznana nam funkcja. W zależności od postaci tej funkcji modele regresyjne można podzielić na liniowe i nieliniowe. Nieliniowość funkcji regresji może wynikać z nieliniowości względem zmiennych objaśniających lub nieliniowości względem parametrów. Dopóki model jest liniowy względem parametrów, nieliniowość względem zmiennych objaśniających nie generuje problemów natury estymacyjnej, ponieważ zostaje zachowany w takim wypadku liniowy charakter modelu. Model regresyjny nieliniowy względem parametrów może być w prosty sposób oszacowany, jeśli poprzez odpowiednią transformację da się go sprowadzić do postaci liniowej. W przeciwnym wypadku należy się posłużyć właściwą w tej sytuacji metodą estymacji nieliniowej. W analizie regresyjnej wydatków podstawowym modelem jest liniowy model regresyjny, którego postać można przedstawić następująco: (1). yi = α0 + α1xi1 + α2 xi2 + … + αkxik + εi   (i = 1, …, n), gdzie: yi – kwota wydatków przypadających na osobę poniesionych przez i-te gospodarstwo domowe, xji – wartość j-tej zmiennej objaśniającej dla i-tego gospodarstwa domowego, αj – parametr stojący przy j-tej zmiennej objaśniającej, εi – wartość składnika losowego dla i-tego gospodarstwa domowego. 1   Artykuł powstał na podstawie części opracowania nt. „Metody statystyczne w analizie wydatków gospodarstw domowych”, przygotowanego w ramach badań statutowych w Akademii Ekonomicznej w Krakowie w 2004 r. (zespół: Barbara Podolec – kierownik tematu, Paweł Ulman, Agata Niemczyk, Agnieszka Walicka, Marcin Salamaga)..

(3) Modele regresyjne w analizie wydatków…. 7. W analizie kształtowania się wydatków wykorzystuje się także modele nieliniowe, które przez odpowiednie transformacje sprowadzamy do postaci liniowych (por. [Podolec 1995, 2000]). Pierwszą z takich funkcji jest funkcja potęgowa dana wzorem: k. yi = α 0 ∏ xij ⋅ eε ,  αj. i. (2). która po sprowadzeniu do liniowości za pomocą obustronnego przekształcenia logarytmem naturalnym prezentuje się następująco: j =1. k. ln yi = ln α 0 + ∑ α j ln xij + εi . . (3). j =1. Drugą z funkcji nieliniowych wykorzystywanych do opisu kształtowania się wydatków jest funkcja wykładnicza:. yi = exp (α0 + α1xi1 +α2 xi2 + … + αkxik + εi) . . (4). Po obustronnym zlogarytmowaniu powyższej funkcji otrzymujemy:. ln yi = α0 + α1xi1 + α2 xi2 + … + αkxik + εi .. (5). Można także łączyć powyższe funkcje, otrzymując model potęgowo-wykładniczy. Zmienną objaśnianą w podanych modelach regresyjnych są oczywiście – ogólnie rzecz ujmując – wydatki na osobę w gospodarstwie domowym. Główną przesłanką decydującą o wyborze zmiennych objaśniających powinna być ich wartość merytoryczna odnosząca się do celu badania. Nie należy jednak zapominać o kryteriach formalnostatystycznych, które dotyczą zmiennych niezależnych, spośród których – w przypadku modeli jednorównaniowych – podstawowe znaczenie ma postulat niezależności zmiennych objaśniających. Wprowadzenie do modelu silnie skorelowanych zmiennych objaśniających może skutkować błędnymi ocenami parametrów stojących przy tych zmiennych (może wystąpić brak tzw. koincydencji równania objawiający się niezgodnością znaku parametru równania i współczynnika korelacji odpowiedniej zmiennej objaśniającej ze zmienną objaśnianą). Ponadto zmienne objaśniające pozostające w silnej zależności ze zmienną objaśnianą oraz jednocześnie ze sobą mogą zostać odrzucone jako nieistotne dla wyjaśnienia zmiennej objaśnianej. Spośród wielu metod doboru zmiennych objaśniających w modelu regresyjnym powszechnie stosowaną jest procedura tzw. regresji krokowej. Jej powszechność wynika przede wszystkim z jej dostępności w większości pakietów statystycznych. Należy jednak pamiętać, że chociaż skomputeryzowane procedury są pomocne.

(4) 8. Barbara Podolec, Paweł Ulman. w doborze zmiennych objaśniających do modelu, to nie zastąpią w pełni doświadczenia i intuicji badacza. Przypomnijmy, że u podstaw klasycznego modelu regresji liniowej leżą następujące założenia: – związek między zmienną objaśnianą Y a zmiennymi objaśniającymi Xj jest związkiem liniowym, co można zapisać:. yi = α0 + α1xi1 + α2 xi2 + … + αkxik + εi , . (6). – wartości zmiennych niezależnych są ustalone z góry (nie są losowe). Losowość zmiennej zależnej Y jest generowana wyłącznie przez składnik losowy, – średnia wartość składnika losowego wynosi zero: E(ε) = 0, – wariancja składnika losowego jest stała i skończona: D2(ε) = σ2, σ2 < +∞, – składniki losowe związane z kolejnymi obserwacjami nie są ze sobą skorelowane: cov (εiεs ) = 0 dla i � s, – między zmiennymi objaśniającymi nie mogą zachodzić dokładne zależności liniowe, liczba obserwacji zaś powinna być nie mniejsza niż liczba szacowanych parametrów: rz(X) = k + 1. Ponadto postuluje się jeszcze, aby składnik losowy charakteryzował się rozkładem normalnym, co pozwala weryfikować hipotezy dotyczące parametrów modelu regresyjnego. Podstawową metodą estymacji parametrów liniowego modelu regresji jest metoda najmniejszych kwadratów (MNK). Zaprezentowane powyżej założenia, będące podstawą klasycznego modelu regresji liniowej, w praktyce nie zawsze są spełnione. Powstaje więc pytanie o konsekwencje nieprawdziwości niektórych założeń. Jeśli chodzi o założenie postulujące, że składniki losowe modelu związane z kolejnymi obserwacjami nie są ze sobą skorelowane, to brak spełnienia tego założenia (występowanie tzw. autokorelacji składników losowych) przy spełnieniu wszystkich pozostałych nie wpływa na nieobciążoność i zgodność estymatorów parametrów równania linii regresji, ale zmienia ich efektywność, i to na ogół w ten sposób, że wariancje estymatorów wzrastają. W celu uzyskania odpowiedniej precyzji oszacowania należy więc zwiększyć liczebność próby lub zastosować inną metodę estymacji parametrów modelu. Nadmienić należy, że z autokorelacją składników losowych możemy spotkać się najczęściej w badaniach opartych na szeregach czasowych, natomiast znacznie rzadziej w badaniach opartych na danych przekrojowych. Przy szacowaniu parametrów klasycznego modelu regresji liniowej należy się liczyć z niespełnieniem założenia o stałości wariancji składnika losowego. Niestałość ta ma swe źródło w zależności wariancji od jednej ze zmiennych objaśniających modelu. Zmienność wariancji składnika losowego nie.

(5) Modele regresyjne w analizie wydatków…. 9. wpływa na nieobciążoność estymatorów i z reguły zwiększa wariancję estymatorów (por. [Pawłowski 1971]). Jeśli jesteśmy w stanie poznać zróżnicowanie wariancji, to nieobciążone i najbardziej efektywne estymatory uzyskujemy stosując uogólnioną metodę najmniejszych kwadratów A.C. Aitkena. Wspomniane powyżej założenie normalności składnika losowego generuje w klasycznym modelu regresji to, że warunkowe rozkłady zmiennej losowej Y są normalne. Ponieważ estymatory MNK parametrów modelu regresyjnego są liniowymi funkcjami wyników próby, to estymatory te również mają rozkłady normalne. Jest to ważna okoliczność, ponieważ pozwala na wnioskowanie o wartościach szacowanych parametrów, a przede wszystkim na weryfikację odpowiednich hipotez dotyczących ich wartości. W modelowaniu regresyjnym podstawowymi hipotezami są hipotezy odnoszące się do poszczególnych parametrów modelu, które ogólnie możemy zapisać:. H0: αj = 0 oraz H1: αj � 0  . dla   j = 0, 1, …, k .. Statystyką testową dla omawianych hipotez jest statystyka t charakteryzująca się rozkładem t-Studenta o n – k – 1 stopniach swobody, przy założeniu prawdziwości hipotezy H0. Większość pakietów statystycznych nie określa obszarów krytycznych sensu stricto, lecz wyznacza tzw. wartość prawdopodobieństwa testowego p, na podstawie której w łatwy sposób możemy wnioskować o hipotezie zerowej przy dowolnym poziomie istotności. Jeśli mianowicie wartość p jest mniejsza lub równa od założonego poziomu istotności testu, to hipotezę zerową należy odrzucić, co sugeruje istotność badanego parametru. W przeciwnym wypadku dane statystyczne nie dają podstaw do odrzucenia H0. Innym testem wykorzystywanym w analizie regresyjnej jest test F dla weryfikacji hipotezy o braku liniowego związku między zmienną objaśnianą a którąkolwiek ze zmiennych objaśniających, co formalnie możemy zapisać następująco:. H0: α1 + α2 = … = αk = 0.. Hipoteza alternatywna mówi, że nie wszystkie αj dla ( j = 1, 2, …, k) są równe zeru. Statystyką testową jest statystyka F, która przy założeniu prawdziwości hipotezy zerowej charakteryzuje się rozkładem F-Snedecora o k oraz n – k – 1 stopniach swobody. Należy podkreślić, że odrzucenie hipotezy zerowej mówi nam, że co najmniej jeden z parametrów αj jest różny od zera. Kolejnymi testami dla modelu regresyjnego są testy weryfikujące założenia tego modelu. W szczególności dotyczą one założeń poczynionych co do składnika losowego, czyli braku autokorelacji składników losowych, stałości jego wariancji i normalności rozkładu. Wszystkie te testy przeprowadza się poprzez analizę reszt, czyli różnic między wartościami rzeczywistymi zmiennej objaśnianej a jej warto-.

(6) Barbara Podolec, Paweł Ulman. 10. ściami uzyskanymi na podstawie modelu regresyjnego. Nie wchodząc głębiej w te zagadnienia, można o prawdziwości lub fałszywości niektórych z tych założeń przekonać się, analizując odpowiednie wykresy reszt. Miarą dopasowania hiperpłaszczyzny regresji (w przypadku regresji wielorakiej) do danych empirycznych jest współczynnik determinacji oznaczany symbolem R2. Przyjmuje on wartości z przedziału [0, 1] i określa, jaka część obserwowanej w próbie zmienności zmiennej objaśnianej została wyjaśniona oszacowaną funkcją regresji. Należy tutaj przestrzec przed bezkrytycznym dążeniem do zwiększania wartości współczynnika determinacji przez wprowadzanie wielu zmiennych objaśniających, z których każda z osobna niewiele wnosi do wyjaśnienia zmiennej objaśnianej. Aby się ustrzec przed tym niebezpieczeństwem, konstruuje się tzw. skorygowany współczynnik determinacji (R 2). Skorygowanie następuje tutaj przez wprowadzenie poprawki ze względu na liczby stopni swobody związane z sumami kwadratów będących podstawą obliczenia R2. Pakiety statystyczne podają wartości obydwu współczynników determinacji. Od strony praktycznej do modelu regresji warto wprowadzać nową zmienną, jeśli to spowoduje wzrost R 2. Pakiety statystyczne dostarczają jeszcze jednego rodzaju wyników związanych z analizą regresji. Obok wartości ocen parametrów modelu regresji uzyskujemy oceny parametrów dla zmiennych standaryzowanych. Oceny te wyznacza się ze wzoru: sx alfa( j ) = α j , (7) sy. gdzie symbolem s oznaczone zostały wartości odchyleń standardowych odpowiednich zmiennych. Współczynnik alfa interpretuje się jako przyrost zmiennej objaśnianej wyrażony w liczbie odchyleń standardowych tej zmiennej, wywołany przyrostem zmiennej objaśniającej o jedno (jej) odchylenie standardowe. W praktyce współczynniki alfa wykorzystuje się do porównania wielkości wpływu zmiennych objaśniających o różnych mianach i mierzonych różnymi skalami na zmienną objaśnianą. Im większa jest wartość współczynnika alfa co do modułu, tym większy jest wpływ odpowiedniej zmiennej na kształtowanie się zmiennej objaśnianej. Do modelu regresji liniowej można włączyć różnego rodzaju zmienne objaśniające. Można więc wprowadzić zmienne ciągłe (np. wiek) oraz zmienne jakościowe (np. płeć czy wykształcenie). Zmienne jakościowe z kolei możemy podzielić na zmienne binarne (zero-jedynkowe) i kategorialne. Przykładem pierwszej z nich jest właśnie płeć, natomiast drugiej wykształcenie. Każdą zmienną kategorialną można (podobnie jak zmienną ciągłą) przekształcić na zestaw zmiennych zero-jedynkowych. Taka operacja zazwyczaj uszczegóławia analizę regresji. Przyjmijmy, że rozpatrujemy zmienną kategorialną – wykształcenie – o pięciu kategoriach j.

(7) Modele regresyjne w analizie wydatków…. 11. określonych słownie jako poziomy wykształcenia, poczynając od wykształcenia podstawowego i kończąc na wyższym. Do analizy regresyjnej można włączyć taką zmienną, przypisując uporządkowanym kategoriom kolejne liczby całkowite, poczynając od jedynki. Jednakże można uszczegółowić analizę wpływu poszczególnych poziomów wykształcenia uzyskanych przez badane osoby na zmienną objaśnianą, tworząc na podstawie zmiennej kategorialnej pięć zmiennych zero‑jedynkowych identyfikujących osoby o odpowiednim poziomie wykształcenia. Oczywiste jest, że do analizy nie można wprowadzić wszystkich zmiennych zero-jedynkowych, ponieważ zajdzie zależność liniowa między zespołem tych zmiennych a kolumną jedynek wprowadzoną do zbioru danych dla oszacowania wyrazu wolnego w modelu regresyjnym. Należy więc pominąć jedną ze zmiennych zero-jedynkowych, co pozwala oszacować parametry modelu. Parametry te dla pozostałych zmiennych binarnych mają wtedy swoiste znaczenie, ponieważ mierzą wpływ tych wariantów na zmienną objaśnianą w odniesieniu do wariantu pominiętego. Natomiast wyraz wolny jest powiększony o wartość mierzącą wpływ pominiętego wariantu zmiennej kategorialnej. W celu dalszego pogłębiania analizy można badać skutki (jeśli takie istnieją) interakcji między zmienną jakościową i ilościową. Dokonuje się tego poprzez włączenie do modelu iloczynu zmiennych stanowiących daną interakcję. Statystyczna istotność parametru odnoszącego się do iloczynu zmiennych potwierdza istnienie interakcji. Kończąc tę część opracowania, należy podkreślić, że zmienne objaśniające powinny być wprowadzane do modelu w sposób oszczędny. Formalnym kryterium wprowadzenia zmiennych mogą być przyrosty wspomnianego już skorygowanego współczynnika determinacji R 2, natomiast decydująca powinna być ich wartość merytoryczna. 3. Charakterystyka materiału statystycznego Analiza kształtowania się wydatków została przeprowadzona na podstawie materiału statystycznego pochodzącego z badań budżetów gospodarstw domowych. Wykorzystane zostały przede wszystkim informacje o indywidualnych gospodarstwach domowych, a także dane liczbowe zagregowane z punktu widzenia wybranych cech społeczno-ekonomicznych gospodarstw domowych, publikowane przez Główny Urząd Statystyczny. Pełny zbiór danych dotyczący 2003 r. obejmuje 32 488 obserwacji indywidualnych gospodarstw domowych, uczestniczących w ramach reprezentacyjnego badania budżetów gospodarstw domowych, prowadzonego przez GUS. Przypomnijmy, że GUS przeprowadza to badanie metodą rotacji miesięcznej, tzn..

(8) 12. Barbara Podolec, Paweł Ulman. w każdym miesiącu badane jest ok. 2700 innych gospodarstw domowych, które w sumie dają próbę roczną o liczebności ok. 32 000 obserwacji. W ramach badania budżetów gospodarstw domowych stawia się respondentom pytania. Odpowiednio zakodowane odpowiedzi stają się dla nas podstawą do uzyskania zmiennych objaśniających dla modelowania regresyjnego. Tak więc w analizie wykorzystywać będziemy zbiory danych statystycznych, które zostały utworzone po odpowiedniej obróbce na podstawie zbiorów zakupionych w GUS-ie. W analizie kształtowania się wydatków gospodarstw domowych, opartej na informacjach o indywidualnych gospodarstwach domowych, wykorzystywać będziemy następujące zmienne objaśniające: dochód na osobę (dochód), wiek głowy gospodarstwa domowego (wiek), subiektywna ocena sytuacji materialnej gospodarstwa domowego (sosm), główne źródło utrzymania gospodarstwa domowego (zut), klasa miejscowości, w której gospodarstwo domowe istnieje (klm), wykształcenie głowy gospodarstwa domowego (wyk), płeć głowy gospodarstwa domowego (płeć), kwartał, w którym dane gospodarstwo zostało poddane badaniu (kwartał), liczba osób w gospodarstwie domowym (liczos). Do opisu kształtowania się wybranej grupy wydatków gospodarstw domowych, opartego na zagregowanych danych liczbowych, potencjalny zbiór zmiennych objaśniających stanowią: dochód rozporządzalny (drozp), wydatki ogółem (wydog) lub wydatki konsumpcyjne (wydkons) – określające sytuację materialną gospodarstw, liczba osób w gospodarstwie (los) oraz zmienne zero-jedynkowe określające główne źródło utrzymania (grupę społeczno-ekonomiczną). Gospodarstwa pogrupowane są według 6 klas wielkości oraz według 7 źródeł utrzymania. Zatem wymienione wyżej zmienne określają przeciętny miesięczny poziom wydatków (dochodów) na osobę w gospodarstwach należących do i-tej klasy wielkości (i = 1, 2, …, 6) oraz s-tej grupy społeczno-ekonomicznej. Drugi zbiór zmiennych zawiera dane przekrojowo-czasowe za lata 1993–2003. Gospodarstwa domowe zostały w każdym roku pogrupowane według 6 klas wielkości. Dochody i wydatki przypadające na osobę wyrażono w cenach stałych z 2000 r. 4. Poziom i zróżnicowanie wydatków ogółem Na wstępie zwróćmy uwagę na przedstawione w tabeli 1 podstawowe charakterystyki rozkładu wydatków ogółem na osobę w gospodarstwie domowym. Przeciętne miesięczne wydatki w gospodarstwach domowych na osobę w 2003 r. wyniosły 643,85 zł, natomiast za typowy można uznać wydatek na poziomie 345 zł. 25% gospodarstw wydawało w 2003 r. nie więcej niż ok. 338 zł. Zmienność wydatków stanowiła ok. 86% wartości przeciętnej. Jak się można było spodziewać, asymetria (skośność) rozkładu jest prawostronna..

(9) Modele regresyjne w analizie wydatków…. 13. Tabela 1. Podstawowe charakterystyki liczbowe rozkładu wydatków ogółem na osobę w gospodarstwach domowych w 2003 r. Wartość (w zł). Charakterystyka. Charakterystyka. Wartość (w zł). Charakterystyka. Wartość. Współczynnik zmienności (w %). 85,26. Średnia. 643,85. Kwartyl 1. 338,69. Modalna. 344,62. Kwartyl 3. 776,93. Skośność. 6,16. Mediana. 504,97. 548,92. Kurtoza. 93,15. Odchylenie standardowe. Źródło: obliczenia własne.. Interesujące są przeciętne wartości wydatków ogółem w przekrojach różnych cech gospodarstw domowych pogrupowanych według liczby osób. Interpretacja wyników zamieszczonych w tabelach 2–6 została z konieczności ograniczona objętością artykułu. W tabeli 2 przedstawiono zróżnicowanie przeciętnych wartości wydatków ze względu na subiektywnie ocenianą sytuację materialną gospodarstwa domowego. Tabela 2. Średnie wydatki ogółem na osobę w przekroju oceny sytuacji materialnej gospodarstwa domowego i liczby osób w gospodarstwie Liczba osób. Subiektywna ocena sytuacji materialnej gospodarstwa domowego. bardzo dobra. raczej dobra. przeciętna. 1422,33. 961,48. 1. 2403,00. 1803,46. 3. 1796,49. 1171,92. 5. –. 2. 4. 6 i więcej Ogółem. 2183,55. 1059,65 –. 1681,08. raczej zła. zła. ogółem. 805,94. 1160,50. 1229,01. 924,05. 750,99. 543,40. 687,62. 495,54. 370,28. 298,58. 1075,05. 670,09. 484,03. 396,85. 931,80. 625,80. 593,02 389,08. 687,45. 441,32. 301,95. 576,97 451,83. 366,73. 253,22. 948,90 739,99. 577,00 455,33 358,12. 643,85. Źródło: obliczenia własne.. Wyraźny jest związek poziomu wydatków na osobę zarówno z liczbą osób w gospodarstwie domowym, jak i z postrzeganiem sytuacji materialnej gospodarstwa. Gospodarstwa, w których postrzega się sytuację materialną jako złą, ponoszą ponad 4-krotnie mniejsze wydatki – przeciętnie rzecz ujmując – od gospodarstw o bardzo dobrej sytuacji materialnej. Wzrost liczby osób w gospodarstwie domowym powoduje spadek przeciętnych wydatków prawie w każdej grupie sytuacji materialnej. W tym miejscu można byłoby rozważyć wprowadzenie tzw..

(10) Barbara Podolec, Paweł Ulman. 14. jednostki ekwiwalentnej. W naszym opracowaniu pominiemy jednak świadomie problem skali ekwiwalentności, ponieważ zadanie to wykracza poza ramy pracy2. Zauważmy bowiem, że celem pracy nie jest określenie poziomu wydatków, jaki powinny uzyskiwać gospodarstwa domowe o zróżnicowanym składzie osobowym, lecz opisanie poziomu ich rzeczywistych wydatków. Tabela 3. Średnie wydatki ogółem na osobę w przekroju klas wieku głowy gospodarstwa domowego i liczby osób w gospodarstwie Liczba osób. Wiek głowy gospodarstwa domowego do 25 lat. 25–35 lat. 35–45 lat. 45–55 lat. 55–65 lat. 1. 1464,84. 1627,98. 1316,84. 1115,62. 1126,42. 3. 556,38. 764,78. 749,08. 777,07. 730,68. 441,04. 445,54. 490,03. 466,07. 617,75. 554,13. 660,73. 759,01. 2 4. 1035,53 453,76. 546,91. 327,43. 367,01. 5. 405,80. Ogółem. 612,19. 6 i więcej. 1119,33. 908,83 586,15 345,77. 977,91 613,63. 378,74. 948,77 559,67. 358,52. powyżej 65 lat 1043,30 871,05. 643,84 517,00. 419,00. 344,36 756,33. Źródło: obliczenia własne.. Kolejnym kryterium grupowania jest wiek głowy gospodarstwa domowego. Z ostatniego wiersza tabeli 3 wynika, że najwyższy poziom przeciętnych wydatków ogółem na osobę przypada w gospodarstwach, w których głowa gospodarstwa charakteryzuje się wiekiem powyżej 55 lat, pomimo że w żadnej z klas liczby osób gospodarstwa te nie mają najwyższych wartości średnich. Przyczyną jest fakt, że liczba osób w większości takich gospodarstw jest mała. W tabeli 4 zostały zaprezentowane średnie wartości wydatków ze względu na główne źródło utrzymania gospodarstwa domowego w poszczególnych klasach wielkości tych gospodarstw. Jak można było się spodziewać, najwyższymi przeciętnymi wydatkami ogółem na osobę charakteryzują się gospodarstwa, których głównym źródłem utrzymania jest praca na własny rachunek, natomiast najniższymi gospodarstwa rolnicze. Znamienny jest fakt wysokich przeciętnych wydatków gospodarstw emeryckich odmiennych pod tym względem od gospodarstw rencistów, co potwierdza słuszność rozdzielenia przez GUS obu grup gospodarstw3.   S.M. Kot [2000] dla podobnych danych jak w tabeli 2 podjął próbę wyznaczenia elastyczności skali ekwiwalentności za pomocą modelu regresyjnego. 2.   Do 1996 r. w przeprowadzanych przez GUS badaniach budżetów gospodarstw domowych emeryci i renciści należeli do jednej grupy społeczno-ekonomicznej. 3.

(11) Modele regresyjne w analizie wydatków…. 15. Tabela 4. Średnie wydatki ogółem na osobę w przekroju głównego źródła utrzymania gospodarstwa domowego i liczby osób w gospodarstwie Liczba osób. Źródło utrzymania gospodarstwa domowego. pracow­ nicze. 1. 1570,60. 3. 795,67. 2. 4. rolnicze. 927,57. 712,42. 1145,95 601,65. 5. 462,95. Ogółem. 673,15. 6 i więcej. pracow­ niczo‑rolnicze 806,66. 907,28. 695,88. 598,09. 472,27. 412,07. 484,60. 461,11. 527,92. 377,41. 366,59. 485,11. własny rachunek. emerytów. 1629,90. 1103,76. 1402,31. 1026,38 756,38 629,58. 361,17. 465,96 817,31. 916,78. 701,96. rencistów. źródła niezarobkowe. 987,12. 1012,99. 714,93. 528,15. 618,84. 472,44. 577,50. 432,88. 346,66. 368,22. 273,69. 228,07. 438,55. 776,86. 351,79. 565,92. 276,49. 436,54. Źródło: obliczenia własne.. Wyniki przestawione w tabeli 5 dowodzą, że wielkość ponoszonych wydatków ogółem jest funkcją rosnącą wielkości miejscowości, z której pochodzi gospodarstwo domowe. Jedyne zachwianie tej relacji obserwujemy w przypadku gospodarstw o liczbie osób 3 i większej dla mniejszych miast. Tabela 5. Średnie wydatki ogółem na osobę w przekroju klas miejscowości pochodzenia gospodarstwa domowego i liczby osób w gospodarstwie Klasa miejscowości pochodzenia gospodarstwa domowego. Liczba osób. wieś. 1. 869,04. 2 3. 781,57 618,52. miasto o liczbie mieszkańców. do 20 tys. 1047,92 891,79. 677,94. 20–100 tys. 100–200 tys. 200–500 tys. 1109,07. 1251,32. 742,47. 730,08. 922,27. 4. 488,07. 549,24. 585,27. 6 i więcej. 341,58. 387,47. 398,85. 5. Ogółem. 418,81. 506,43. Źródło: obliczenia własne.. 441,58 611,25. 467,60. 669,88. 1308,11. powyżej 500 tys. 1505,71. 984,40. 1054,90. 1236,94. 583,72. 636,54. 798,08. 344,29. 353,82. 470,18. 700,89. 786,15. 1005,07. 485,74. 650,28. 760,86. 981,93. 469,93.

(12) Barbara Podolec, Paweł Ulman. 16. Tabela 6. Średnie wydatki ogółem na osobę w przekroju poziomu wykształcenia głowy gospodarstwa domowego i liczby osób w gospodarstwie Liczba osób. Wykształcenie głowy gospodarstwa domowego podstawowe. zasadnicze. 1. 863,92. 953,00. 3. 521,16. 2. 4. 680,17. 794,64. 424,21. 471,98. 5. 346,33. Ogółem. 498,22. 6 i więcej. 298,02. 588,82. średnie ogólne. średnie zawodowe. 1006,36. 1015,56. 1291,30 749,93 618,65. 419,29. 464,59. 499,36. 762,55. 331,61. 434,80. wyższe. 1301,88. 1988,43. 777,10. 1211,76. 632,13 513,79. 448,61. 712,07. 1557,67 920,32 700,63 655,65. 1148,13. Źródło: obliczenia własne.. Zaprezentowane na koniec w tabeli 6 wyniki obliczeń przekonują o prawidłowości, że wraz ze wzrostem poziomu wykształcenia głowy gospodarstwa domowego wzrasta poziom wydatków w gospodarstwie. 5. Empiryczne wykorzystanie modelowania regresyjnego w analizie wydatków gospodarstw domowych W tej części opracowania zostaną przedstawione wyniki modelowania regresyjnego wydatków ogółem gospodarstw domowych oraz wydatków na turystykę zorganizowaną, na podstawie informacji o indywidualnych gospodarstwach domowych z 2003 r. Podjęta zostanie także próba zastosowania modelu regresji w analizie wydatków na ochronę zdrowia przy wykorzystaniu danych liczbowych, publikowanych przez GUS. Potrzeba turystyki zorganizowanej nie należy do potrzeb podstawowych, spróbujemy więc określić zmienne, które mają wpływ na poziom wydatków przeznaczonych na ich zaspokojenie. Wydatki na ochronę zdrowia mają odmienny charakter. Do głównych celów reformy służby zdrowia należy m.in. powszechność i obowiązkowość ubezpieczenia zdrowotnego, z którego pokrywane są koszty całościowej opieki medycznej4. Interesujący jest zatem problem kształtowania się tej grupy wydatków ponoszonych przez gospodarstwa domowe i jej ewentualny związek z dochodami.   Por. Ustawa z dnia 23 stycznia 2003 r. o powszechnym ubezpieczeniu w Narodowym Funduszu Zdrowia, Dz.U. nr 45, poz. 391. 4.

(13) Modele regresyjne w analizie wydatków…. 17. W pierwszym podejściu spróbujemy zbudować model regresyjny wyjaśniający kształtowanie się poziomu wydatków ogółem na osobę dla gospodarstw domowych. Zestaw zmiennych objaśniających podano w punkcie 2. Zastosowano model liniowy (1), wykładniczy (2) i potęgowo-wykładniczy (3). Parametry tych modeli zostały oszacowane za pomocą MNK z wykorzystaniem pakietu statystycznego STATISTICA. Doboru zmiennych do modelu dokonano na drodze regresji krokowej. Wyniki obliczeń dla modelu liniowego prezentuje tabela 7. Tabela 7. Oceny parametrów liniowego modelu regresyjnego wydatków ogółem na osobę (model 1) Parametr Wyraz wolny. Dochód Liczos. Wiek. Wykształcenie zasadnicze. Wykształcenie średnie ogólne. Wykształcenie średnie zawodowe. Wykształcenie wyższe. alfa –. Niezarobkowe źródło. Własny rachunek. Poziom p. 0,00488. 18,2494. 125,7572. 0,000000. –27,6174. 2,7137. 0,000000. 0,004960. –58,8449. 0,5441. 0,20049. 0,021497. 0,005413. 31,1864. 7,85220. 3,9717. 0,000072. 0,041139. 0,004490. 108,1773. 11,80779. 9,1615. 0,000000. 0,059286. 0,005282. 92,2915. 8,22207. 11,2249. 0,000000. 0,126769. 0,005249. 248,0451. 10,27116. 24,1497. 0,000000. 0,004761. 32,2993. 7,40646. 0,585411. 0,012543. 0,041988. Zamężna/żonaty. t (32276). –0,136969. Kwartał 4 Miasto powyżej 500 tys.. Błąd standardowy. 316,2423. 0,020764. Płeć. A. –. Kwartał 2 Kwartał 3. Błąd standardowy 0,004655. 0,004622. 0,6132. 2,13072. 4,3610. 0,006657. 0,000013. 0,004760. 0,016717. 0,004516. 23,0206. 6,21877. 7,39273. 8,8024. 0,027427. 0,004072. 53,0078. 7,86918. 6,7361. 0,000000. –0,018832. 0,004907. –27,2223. 7,09286. –3,8380. 0,000124. –0,010032. 0,004031. –27,3643. 10,99494. –2,4888. 0,012822. 0,021437. 0,003973. 59,6491. 11,05648. 5,3949. 0,000000. 65,0735. 7,41627. 0,000000. 0,038508. 0,004770. 59,9919. 17,32892. 8,0892. 0,000000. 3,7018. 0,000214. 0,000000. R = 0,716; R2 = 0,512; R = 0,512; F = 2260,9 (p < 0,000); DW = 1,96; rs = 0,0198 2. Źródło: obliczenia własne.. Jak można zauważyć, wszystkie parametry są statystycznie istotne. Największy wkład w przewidywanie wartości wydatków ogółem na osobę ma dochód na osobę w gospodarstwie domowym, o czym mówią współczynniki alfa. Dodatnie znaki.

(14) 18. Barbara Podolec, Paweł Ulman. przy ocenach parametrów sugerują, że wraz ze wzrostem wartości odpowiedniej zmiennej objaśniającej o jedną jednostkę wzrasta wartość zmiennej objaśnianej o wartość danego parametru. Zatem wzrost dochodu na osobę o jedną złotówkę powoduje wzrost ogólnych wydatków na osobę przeciętnie o 61 groszy przy ustalonych wartościach pozostałych zmiennych5. Każda dodatkowa osoba w gospodarstwie zmniejsza wydatki na osobę o przeciętnie ok. 59 zł. Gospodarstwa, których głowa posiada wyższe wykształcenie, wydają przeciętnie na osobę o ok. 248 zł więcej niż gospodarstwa z osobami prowadzącymi o wykształceniu podstawowym. Przeciętnie najwyższe wydatki w stosunku do kwartału 1 obserwujemy w kwartale 4. Ponadto zamieszkiwanie w dużych miastach oraz utrzymywanie się z pracy na własny rachunek powoduje wzrost przeciętnych wydatków ogółem na osobę. Współczynnik determinacji wynosi 0,512, co przy wysokiej zmienności zmiennej objaśnianej jest dobrym rezultatem. Wartość statystyki F jest bardzo wysoka, więc odrzucamy hipotezę o równości wszystkich parametrów wartości zero na właściwie dowolnie małym poziomie istotności. Statystyka DurbinaWatsona (DW) i współczynnik korelacji seryjnej reszt (rs) pokazują, że przypuszczalnie nie ma tutaj autokorelacji składnika losowego. Należy jednak zauważyć, że analiza reszt nie potwierdziła normalności ich rozkładu. Okoliczność ta może powodować wątpliwości co do wnioskowania odnośnie do istotności parametrów modelu regresyjnego. Problem braku normalności reszt można rozwiązać poprzez odpowiednią transformację zmiennej objaśnianej, co prowadzi do nowej postaci funkcyjnej modelu. Przyjmijmy więc, że będziemy teraz wyjaśniać logarytm naturalny wydatków ogółem na osobę, co daje w konsekwencji wykładniczy model regresyjny. Wyniki ocen parametrów prezentuje tabela 8. Zauważmy, że transformacja zmiennej objaśnianej spowodowała wprowadzenie do modelu nowych zmiennych objaśniających, które wcześniej były odrzucone na drodze regresji krokowej. Ponadto znalazło to swoje odbicie w zwiększonej wartości współczynnika determinacji. Parametry modelu interpretujemy jako przyrosty procentowe (wartość oceny parametru mnożymy razy 100) wartości wydatków na osobę przy wzroście danej zmiennej objaśnianej o jednostkę. Przy zmiennych zero-jedynkowych przyrosty te należy przeliczyć w następujący sposób: przyrost wydatków na osobę = (ea – 1) · 100%, gdzie a oznacza ocenę danego parametru. Na przykład jeśli głowa gospodarstwa legitymuje się wykształceniem wyższym, to przeciętnie gospodarstwo takie wydaje o ponad (e0,302 – 1) · 100% = 32,5% więcej niż gospodarstwo, w którym głowa ma wykształcenie podstawowe. Pozostałe. 5   Warunek niezmienności wartości pozostałych zmiennych jest oczywiście ważny dla interpretacji oceny każdego kolejnego parametru. Aby się nie powtarzać, przyjmijmy, że jest on spełniony również w następnych przypadkach, o czym już nie będziemy wspominać..

(15) Modele regresyjne w analizie wydatków…. 19. parametry interpretujemy analogicznie. Dodajmy, że reszty modelu mają rozkład zbliżony do normalnego. Tabela 8. Oceny parametrów wykładniczego modelu regresyjnego wydatków ogółem na osobę (model 2) Parametr Wyraz wolny. Dochód. alfa –. Błąd standardowy –. A 5,995269. 0,004476. –0,125240. 0,041026. 400,3745. 0,000000. 0,000167. 0,001828. –68,5033 16,4729. 0,000000. 0,004777. 0,056578. 0,006588. 8,5883. 0,000000. 0,087377. 0,003975. 0,218449. 0,009937. 21,9832. 0,000000. 0,137655. 0,004752. 0,203741. 0,007033. 28,9705. 0,000000. 0,162450. 0,004743. 0,302296. 0,008825. 34,2537. 0,000000. 0,029147. 0,004144. 0,043107. 0,006129. 7,0337. 0,000000. 0,064955. 0,004152. 0,095709. 0,006118. 15,6435. 0,000000. 0,017522. 0,003885. 0,033246. 0,007372. 4,5098. 0,000007. 0,025131. 0,003822 0,003953. 0,055806. 0,077660. 0,008487. 6,5755. 0,057533. 0,004201. 0,105740. 0,007721. 13,6944. 0,000000. Źródło niezarobkowe. 0,028626. 0,003486. 0,075787. 0,009228. 8,2128. 0,000000. –0,069039. 0,003565. –0,179049. 0,009246. –19,3643. 0,000000. Pracowniczo-rolnicze. –0,019107. 0,003645. –0,036343. 0,006932. –5,2425. 0,000000. 0,022618. 0,003741. 0,056765. 0,009388. 6,0467. 0,000000. 0,016896. 0,004312. 0,023221. 0,005926. 3,9182. 0,000089. Wykształcenie średnie ogólne. 0,004055. 0,014974. 0,002755. Wykształcenie zasadnicze. 0,066796. Poziom p. 0,000005. Wiek. 0,004200. t (32259). 0,000545. Liczos. 0,504625. Błąd standardowy. –0,306618. Wykształcenie średnie zawodowe. Wykształcenie wyższe. Kwartał 2. Kwartał 3. Kwartał 4. Płeć. Miasto do 20 tys.. 0,048527. 0,026303. Miasto 20–100 tys.. Miasto 100–200 tys.. Miasto 200–500 tys. Miasto powyżej 500 tys.. Własny rachunek. Renciści. Zamężna/żonaty. 0,031852. 0,038803. 0,004143. 0,003939 0,004103. 0,071876. 0,034435. 0,051401. R = 0,794; R 2 = 0,631; R = 0,631; F = 2624,9 (p < 0,000) 2. Źródło: obliczenia własne.. 0,006137 0,005157. 0,006621 0,007911. 120,1519. 11,7118 6,6777. 0,000000 0,000000. 0,000000. 0,000000. 7,7632. 0,000000. 9,8167. 0,000000. 0,000000.

(16) Barbara Podolec, Paweł Ulman. 20. Jeśli przyjrzymy się dokładnie oszacowaniom parametrów w modelu 2, to zauważamy pewną niezgodność. Oczekiwaliśmy mianowicie, że parametr stojący przy zmiennej zero-jedynkowej identyfikującej gospodarstwa pracowniczo-rolnicze będzie ujemny, co oznaczałoby mniejszą kwotę wydatków ogółem na osobę ponoszonych przez te gospodarstwa w stosunku do gospodarstw pracowniczych. Taki wniosek można wysunąć analizując tabelę 4. Można przypuszczać, że takie wyniki są następstwem skorelowania zmiennych objaśniających. Problem ten miała rozwiązać metoda regresji krokowej. Zauważymy także, że relatywnie bliskie zeru wartości alfa dla zmiennych określających źródło utrzymania gospodarstwa domowego (poza zmienną identyfikującą gospodarstwa utrzymujące się z niezarobkowych źródeł) potwierdzają niewielki ich wkład w wyjaśnieniu wydatków ogółem na osobę. W tej sytuacji powyższe zmienne można usunąć z modelu bez obniżenia stopnia, w jakim model wyjaśnia zmienność wydatków ogółem na osobę. Tabela 9. Oceny parametrów potęgowo-wykładniczego modelu regresyjnego wydatków ogółem na osobę (model 3) Parametr Wyraz wolny. Ln dochodu. alfa –. –. 2,383521. Błąd standardowy. t (32277). Poziom p. 61,2751. 0,000000. 0,038899. 0,004654. –0,275316. 0,615864. 0,004098. 150,2709 –51,1031. 0,000000. 0,144044. 0,004318. 0,268292. 0,008043. 33,3590. 0,000000. 0,096628. 0,004323. 0,143189. 0,006406. 22,3514. 0,000000. Wykształcenie średnie ogólne. 0,058206. 0,003682. 0,145695. 0,009217. 15,8071. 0,000000. Miasto pow. 500 tys.. 0,036334. 0,043191. 0,004308. 0,059430. 0,005928. 10,0247 12,6103. Wykształcenie wyższe. Wykształcenie średnie zawodowe. Zamężna/żonaty. 0,004128. A. –0,237809. Ln liczos. 0,620379. Błąd standardowy. 0,003369. 0,066846. 0,006197. Kwartał 4. 0,048937. 0,003869. 0,072197. 0,058012. 0,005725. Wykształcenie zasadnicze. 0,039119. 0,034175. 0,004351. 0,047193. Kwartał 3. Kwartał 2. 0,021549. 0,003881. 0,005387. 0,003870. Płeć. 0,020822. 0,003669. Miasto 200–500 tys.. 0,012765. Ln wieku. 0,015652. 0,031908. 0,005737. 10,7860. 0,000000. 0,000000. 0,000000. 10,1114. 0,000000. 0,006008. 7,8547. 0,000000. 0,005730. 5,5685. 0,000000. 0,007051. 4,3113. 0,000016. 0,003630. 0,027295. 0,030399. 0,004809. 0,003247. 0,025581. 0,006507. 5,6758 3,9311. R = 0,823; R 2 = 0,678; R 2 = 0,678; F = 4413,5 (p < 0,000); DW = 1,89; rs = 0,055 Źródło: obliczenia własne.. 0,000000. 0,000000 0,000085.

(17) Modele regresyjne w analizie wydatków…. 21. W tabeli 9 przedstawiono rezultaty oszacowania parametrów dla modelu potęgowo-wykładniczego. Tym razem poszczególne zmienne objaśniające zostały przedstawione w kolejności będącej rezultatem zastosowania regresji krokowej. Najwyższy wkład w wyjaśnianie wydatków na osobę ma logarytm naturalny dochodu na osobę, a najmniejszy zmienna identyfikująca gospodarstwa położone w miastach od 200–500 tys. mieszkańców. Parametry dla zmiennych zero-jedynkowych w tym modelu interpretujemy tak jak w modelu wykładniczym. W przypadku zmiennych ciągłych parametry są elastycznościami, co narzuca interpretację w konwencji przyrostów względnych. Zatem jeśli dochód na osobę wzrośnie o 1%, to wydatki ogółem na osobę wzrosną średnio o 0,616% przy niezmienności pozostałych zmiennych. Współczynnik determinacji równy 0,823 przyjmuje najwyższą wartość spośród dotychczas oszacowanych modeli. W analizie regresyjnej wydatków na turystykę zorganizowaną na osobę postanowiono zbudować modele dla zmiennej objaśnianej, jaką jest frakcja gospodarstw podejmujących wydatki na turystykę zorganizowaną. W celu oszacowania parametrów modelu dla wspomnianej frakcji należy dokonać agregacji danych. Przyjmując za podstawę agregacji źródło utrzymania gospodarstwa domowego oraz liczbę osób w gospodarstwie domowym, otrzymano 42 grupy gospodarstw, dla których policzono frakcje podejmujących analizowany rodzaj wydatków oraz średni dochód na osobę. Tak uzyskane obserwacje dały możliwość oszacowania parametrów modelu, czego rezultaty prezentuje tabela 10. Tabela 10. Oceny parametrów modelu liniowego dla frakcji gospodarstw domowych z wydatkami na turystykę zorganizowaną (model 4) Parametr Wyraz wolny. Liczba osób Dochód. alfa –. 0,946841. 0,462366. Błąd standardowy. A. –. –0,057750. 0,173203. 0,000068. 0,173203. 0,027175. Błąd standardowy. t (39). 0,034580. –1,67007. 0,000026. 2,66950. 0,004971. 5,46665. Poziom p 0,102913. 0,000003 0,011016. R = 0,682; R2 = 0,465; R = 0,438; F = 16,96 (p < 0,000) 2. Źródło: obliczenia własne.. Zasadniczą rolę w wyjaśnieniu zmienności frakcji gospodarstw pokrywających wydatki na turystykę zorganizowaną odgrywa liczba osób w gospodarstwie (alfa = = 0,947). Drugą istotną zmienną są dochody. Dodajmy, że składnik losowy w tym modelu charakteryzuje się rozkładem normalnym. Zmienna objaśniana w powyżej opisanym modelu jest tzw. zmienną ograniczoną (limited-dependent variable), ponieważ przyjmuje wartości z przedziału [0, 1]. W takim przypadku zastosowanie modelu 4 może prowadzić do oszacowań.

(18) Barbara Podolec, Paweł Ulman. 22. frakcji gospodarstw z wydatkami na turystykę zorganizowaną spoza wspomnianego przedziału. Aby zaradzić takim sytuacjom, należy przeprowadzić transformację zmiennej objaśnianej. Proponuje się wykorzystać transformację logistyczną postaci:  y  (8) y∗ = ln  .  1 − y  . Po oszacowaniu modelu, wartości badanej frakcji uzyskuje się poprzez przekształcenie wzoru (8) za pomocą formuły: y=. exp(α 0 + α1 x1 + ... + α k xk ). 1 + exp(α 0 + α1 x1 + ... + α k xk ). .. (9). Wadą takiego podejścia jest brak oczywistej interpretacji parametrów modelu. Wyniki oszacowania modelu dla transformowanej frakcji prezentuje tabela 11. Tabela 11. Oceny parametrów modelu z transformacją logistyczną zmiennej objaśnianej dla frakcji gospodarstw domowych z wydatkami na turystykę zorganizowaną (model 5) Parametr Wyraz wolny Liczba osób Dochód. alfa –. 1,016634 0,516812. Błąd standardowy. A. –. –4,29801. 0,170405. 0,00076. 0,170405. 0,30186. Błąd standardowy. t (37). Poziom p. 0,348755. –12,3239. 0,000000. 0,000250. 3,0329. 0,004410. 0,050597. 5,9660. 0,000001. R = 0,682; R = 0,519; R = 0,493; F = 20,00 (p < 0,000) 2. 2. Źródło: opracowanie własne.. Do opisu kształtowania się wydatków na ochronę zdrowia w 2003 r. zastosowano liniowy, potęgowy oraz potęgowo-wykładniczy model regresyjny z zaproponowanymi w punkcie 2 zmiennymi objaśniającymi. Przypomnijmy, że w tej grupie zmiennych znalazły się m.in.: dochód rozporządzalny, wydatki ogółem oraz wydatki konsumpcyjne, jako zmienne określające sytuację materialną gospodarstw domowych. Po zastosowaniu metody regresji krokowej pozostawały w modelach zawsze wydatki konsumpcyjne. W tabeli 12 przedstawiono rezultaty oszacowania parametrów modelu potęgowo-wykładniczego, w którym oprócz wspomnianych już wydatków konsumpcyjnych znalazły się zmienne zero-jedynkowe wskazujące, że poziom wydatków na ochronę zdrowia jest w gospodarstwach rencistów o 68,8%, a w gospodarstwach emerytów o 61,4% wyższy od wydatków w gospodarstwach pracowników, stanowiących postawę porównania (przy założeniu stałości pozostałych zmiennych)..

(19) Modele regresyjne w analizie wydatków…. 23. Na poziom wydatków najsilniej wpływa zmienność wydatków konsumpcyjnych (alfa = 0,847). Zwróćmy także uwagę na wysoką wartość współczynnika elastyczności (większą od 1) przy tej zmiennej. Pozostałe wyniki wskazują, że model dobrze opisuje kształtowanie wydatków na ochronę zdrowia. Tabela 12. Oceny parametrów potęgowo-wykładniczego modelu regresyjnego wydatków na ochronę zdrowia (model 6) Parametr Wyraz wolny. alfa –. Błąd standardowy –. Ln wydkons. 0,847104. 0,074720. Emeryci. 0,294562. 0,074751. Renciści. 0,322105. 0,075793. A –4,32547 1,16231. 0,52355. 0,47878. Błąd standardowy. t (35). Poziom p. 0,660898. –6,54483. 0,000000. 0,123193. 4,24981. 0,102522. 0,121500. 11,33711. 0,000000. 3,94056. 0,000371. 0,000151. R = 0,901; R = 0,811; R = 0,795; F = 50,0012 (p < 0,000) 2. 2. Źródło: opracowanie własne.. Analizę dynamiki wydatków na ochronę zdrowia przeprowadzono na podstawie średnich wartości cech charakteryzujących gospodarstwa domowe według liczby osób w gospodarstwie (1, 2, …, 6 i więcej) w latach 1993–2003. Wydatki oraz dochody urealniono, wyrażając je w cenach stałych z 2000 r. Do modeli wprowadzono zmienne zero-jedynkowe charakteryzujące poszczególne lata. Wprowadzono także zmienną T przyjmującą wartości: 1, 2, …, 11. W tabelach 13 i 14 przedstawiono wyniki oszacowania parametrów wybranych modeli wydatków. Tabela 13. Oceny parametrów liniowego modelu regresyjnego wydatków na ochronę zdrowia (model 7) Parametr Wyraz wolny. Wydkons. Liczba osób Rok 95. Rok 94. Rok 99. alfa –. 1,756328. 0,822495 0,072245. 0,057285. –0,051589. Błąd standardowy –. 0,091443. 0,090461 0,026218. 0,025982. 0,024908. A –102,990. Błąd standardowy. t (37). Poziom p. 8,625242. –11,9405. 0,000000. 0,950140. 9,0923. 0,000000. 0,171. 0,008882. 4,955. 1,798069. –3,538. 1,708256. 8,639. 3,929. 1,781911. 19,2067. 2,7555. 2,2048. –2,0712. 0,000000 0,007748 0,031316. 0,042653. R = 0,982; R2 = 0,965; R 2 = 0,962; F = 328,31 (p < 0,000) Źródło: opracowanie własne.. Tabela 13 zawiera rezultaty uzyskane w wyniku zastosowania modelu liniowego. Zauważmy, jak silnie poziom wydatków na ochronę zdrowia kształtuje się.

(20) Barbara Podolec, Paweł Ulman. 24. pod wpływem zróżnicowania wydatków konsumpcyjnych. Drugą ważną zmienną jest liczba osób w gospodarstwie domowym, która jest ujemnie skorelowana z wydatkami na ochronę zdrowia (r = –0,93). Zauważmy jednak, że ze względu na jej skorelowanie z wydatkami konsumpcyjnymi (r = –0,95) wartość oceny parametru zmieniła znak i jest dodatnia. W modelu znalazły się zmienne zero-jedynkowe, wyróżniające lata 1994, 1995 oraz 1999. Przypomnijmy, że 1 stycznia 1999 r. rozpoczęła się reforma służby zdrowia. Tabela 14. Oceny parametrów potęgowo-wykładniczego modelu regresyjnego wydatków na ochronę zdrowia (model 8) Parametr Wyraz wolny. Ln wydkons Czas. alfa –. 0,960415 0,112462. Błąd standardowy. A. –. –8,36364. 0,029170. 0,00391. 0,029170. 1,79799. Błąd standardowy. t (37). Poziom p. 0,344708. –24,2630. 0,000000. 0,0011015. 3,8554. 0,000274. 0,054609. 32,9246. 0,000000. R = 0,973; R = 0,947; R = 0,945; F = 557,79 (p < 0,000) 2. 2. Źródło: opracowanie własne.. Do modelu potęgowo-wykładniczego zostały wprowadzone dwie zmienne: wydatki konsumpcyjne, których wzrost o 1% powoduje wzrost wydatków na ochronę zdrowia średnio o 1,8%, oraz zmienna czas wskazująca, że przy stałych wydatkach konsumpcyjnych realny poziom wydatków na ochronę zdrowia wzrasta z roku na rok średnio o 0,4%. Wszystkie statystyki wskazują, że model dobrze opisuje badaną grupę wydatków. 6. Zakończenie W artykule przedstawiono wybrane problemy zastosowania modeli regresyjnych w analizie wydatków gospodarstw domowych. Wskazują one na złożoność poruszonej problematyki. Analiza wydatków oparta na indywidualnych danych liczbowych stwarza ogromne możliwości poznawcze, chociaż trudno na ich podstawie uzyskać w pełni zadowalające rezultaty. Współczesna technika obliczeniowa dostarcza wielu narzędzi umożliwiających dobieranie postaci modelu zgodnie z postawionym celem oraz pozwala na weryfikację jego poprawności. Literatura Czerwiński Z. [1984], Matematyka na usługach ekonomii, PWN, Warszawa. Jakubczyc J. [1982], Jednorównaniowe modele ekonometryczne, PWE, Warszawa..

(21) Modele regresyjne w analizie wydatków…. 25. Johnston J. [1984], Econometric Methods, McGraw-Hill, New York. Kot S.M. [2000], Ekonometryczne modele dobrobytu, PWN, Warszawa–Kraków. Kudrycka I. [1984], Problemy i metody modelowania ekonometrycznego, PWN, Warszawa. Neter J., Wasserman W., Kutner M.H. [1989], Applied Linear Regression Models, Richard D. Irwin, Homewood, Ill. Pawłowski Z. [1971], Modele ekonometryczne równań opisowych, PWN, Warszawa. Podolec B. [1995], Zachowania konsumpcyjne gospodarstw domowych. Analiza ekonometryczna, Wydawnictowo AE w Krakowie, Zeszyty Naukowe, Seria specjalna: Monografie, nr 124, Kraków. Podolec B. [2000], Analiza kształtowania się dochodów i wydatków ludności, PWN, Warszawa–Kraków. Seber G.A.F. [1977], Linear Regression Analisis, John Wiley & Sons, New York. Weisberg S. [1985], Applied Linear Regression, John Wiley & Sons, New York. Zeliaś A. [1970], Uwagi o problemie optymalnego wyboru wektora zmiennych objaśniających, „Przegląd Statystyczny”, nr 2. Regression Models in Analysis of Household Expenditure The aim of the article is to present possibilities of regression modelling of household expenditure, with particular emphasis on interpretation of results obtained. The authors show that the application of various functional forms of models enables those that best describe expenditure (according to statistical criteria) to be selected and also enables assessment of their parameters to be interpreted. They also identify the dangers faced by researchers using regression modelling. Furthermore, the authors also indicate the possibility of carrying out regression analysis for so-called limited variables, illustrated by the example of a model for households incurring expenditure on organised tourism. The authors use real data obtained from the Household Budget Survey carried out by the Central Statistical Office (GUS) in 2003 as the basis for all the above-mentioned regression models..

(22)

Cytaty

Powiązane dokumenty

(2007) (Paper II, from now on), it was shown that the growth of high-order Kelvin- Helmholtz modes developing in the shearing layer, hereafter referred to as resonant modes,

Omawiając działania sowieckiej 2 Armii Pancernej Gwardii na przełomie lipca i sierpnia 1944 roku, historycy koncentrują się przeważnie na politycznej stronie zagadnienia: ich

Deze stellingen worden opponeerbaar en verdedigbaar geacht en zijn als zodanig goedgekeurd door de

Celem pracy była ocena występowania chorób azbestozależnych uznanych za zawodowe wśród byłych pracowników zakładów przetwórstwa azbestu, zgłasza- jących się na badania

Projekt Polskiego Towarzystwa Prawniczego we Lwowie silnie akcentował znaczenie zespolenia administracyjnego jako naczelnej zasady organizacji apara- tu administracyjnego. W

The aim of the present study was: 1) the evaluation of accuracy of shal- low EC (ECsh) calibration for assessment of ST using a small number of soil samples 2) the assessment of

an epistemic or deontic evaluation expressed by a modal form is construed as subjective if it is signaled, through either its embedding syntactic pattern, (immediate or

Mimo, Ŝe w kombinacjach łączonych (pole magnetyczne + MNU) redukcja wartości badanych cech jest wyraźnie widoczna, to dla większości cech i kombinacji obniŜenie