M-estymacja w badaniu małych przedsiębiorstw

(1)

Zeszyty

Naukowe

ISSN 1898-6447 Zesz. Nauk. UEK, 2016; 1 (949): 5–21 DOI: 10.15678/ZNUEK.2016.0949.0101

1 (949)

Grażyna Dehnel

Elżbieta Gołata

Katedra Statystyki

Uniwersytet Ekonomiczny w Poznaniu

M-estymacja w badaniu

małych przedsiębiorstw

*

Streszczenie

W wielu badaniach z zakresu statystyki gospodarczej liczebność próby jest na tyle duża, że obserwacje odstające mają stosunkowo niewielki wpływ na wartości szacowa-nych parametrów. W badaniach prowadzoszacowa-nych na niskim poziomie agregacji w ramach statystyki krótkookresowej obecność obserwacji odstających może być jednak znacząca. Z tego powodu w przypadku populacji takich jak populacja przedsiębiorstw obok podej-ścia klasycznego w badaniach powinien być uwzględniany nurt metod odpornych na występowanie jednostek nietypowych. W literaturze przedmiotu zaproponowano wiele alternatywnych metod estymacji mniej wrażliwych na wartości odstające. W opracowa-niu weryfikacji empirycznej poddano jedną z nich – M-estymację. Celem analizy była ocena jej użyteczności w odniesieniu do badania małych przedsiębiorstw.

Słowa kluczowe: regresja odporna, M-estymacja, statystyka przedsiębiorstw, obserwacje odstające.

1. Wprowadzenie

Założenia dotyczące rozkładów jednostek według badanych cech, które muszą być spełnione w przypadku stosowania metody najmniejszych kwadratów, zostały precyzyjnie określone. Ich niezachowanie prowadzi do obciążenia

szaco-* Artykuł powstał w ramach realizacji projektu sfinansowanego ze środków Narodowego Centrum Nauki przyznanych na podstawie decyzji numer DEC-2015/17/B/HS4/00905.

(2)

wanego modelu. Problemy dotyczące niespełnienia wymaganych założeń można rozwiązać, dokonując transformacji zmiennych. Transformacja nie jest jednak wystarczającym rozwiązaniem w przypadku obecności obserwacji nietypowych. Nie zawsze bowiem prowadzi do wyeliminowania, czy chociaż złagodzenia ich oddziaływania obciążającego szacunek parametrów modelu. W takiej sytuacji regresja odporna, która może wykluczyć wpływ obserwacji odstających, stanowi propozycję godną rozważenia. W praktyce badań statystycznych dość często napotykamy populacje, które charakteryzują się obecnością obserwacji nietypo-wych. Zaproponowanych zostało wiele metod badawczych, które mają na celu złagodzenie wpływu jednostek odstających.

W literaturze przedmiotu metody te podzielono na trzy grupy [Cox i in. 1995]: 1) zmieniające wartości obserwacji odstających (winsorization, trimming), 2) redukujące wagi obserwacji odstających,

3) techniki estymacji (regresji) odpornej.

Metody zaliczane do pierwszej grupy należą do najprostszych, rzadziej dziś stosowanych. Metody wchodzące w skład drugiej grupy wykorzystywane są przede wszystkich w badaniach próbkowych. Pozwalają one na modyfikację wag wynikających z przyjętego schematu losowania próby. Metody zaliczane do trze-ciej grupy, czyli techniki estymacji odpornej, w ostatnich latach coraz bardziej zyskują na znaczeniu. Wśród nich wyróżnić można M-estymację, S-estymację czy MM-estymację. Wiele z nich zostało opracowanych już w latach 70. i 80. XX w., z tego względu jednak, że wymagają one podejścia iteracyjnego, stoso-wanie ich było ograniczone, gdyż wiązało się m.in. z długim czasem obliczeń. Obecnie dostępne są pakiety statystyczne umożliwiające łatwą implementację metod. Wzrost zainteresowania technikami regresji odpornej wynika również z tego, że ich zastosowanie, w przeciwieństwie do innych metod, nie wymaga wcześniejszej detekcji obserwacji odstających.

Prowadząc badanie z wykorzystaniem technik regresji odpornej, stajemy przed koniecznością dokonania wyboru takiej metody, której zastosowanie pozwoli osiągnąć najlepszy kompromis pomiędzy obciążeniem szacunków a ich efektywnością. W wyborze kierować należy się własnościami poszczególnych metod, które zostały sformułowane m.in. w literaturze przedmiotu [Holland i Welsch 1977, Huber 1981, Hampel i in. 2011, Chen i Yin 2002], czy też na podstawie przeprowadzonych wcześniej badań empirycznych. Wybór metody wymusza konieczność podjęcia dalszych decyzji, ponieważ w ramach każdej z wyróżnionych metod stosowanych może być wiele podejść różniących się doborem parametrów lub wykorzystywanych funkcji.

W niniejszym artykule ograniczono się do analizy jednej z najczęściej stoso-wanych technik regresji odpornej, jaką jest M-estymacja. Celem badania było porównanie jakości szacunków otrzymanych w oparciu o pięć M-estymatorów,

(3)

w których do określenia wartości wag wykorzystano różne funkcje. Oceny esty-macji dokonano na podstawie badania empirycznego, w którym wykorzystano dane dotyczące małych przedsiębiorstw działających w ramach sekcji PKD „Transport i gospodarka magazynowa”.

2. M-estymacja

M-estymacja reprezentuje grupę regresyjnych odpornych estymatorów

tzw. pierwszej generacji. Estymator M został wprowadzony przez P.J. Hubera w 1964 r. [Huber 1964] jako odporny na obserwacje nietypowe odpowiednik podejścia reprezentowanego przez metodę najmniejszych kwadratów. Minimali-zuje on funkcję straty ρ(·):

( )

1 ˆ _{arg min} n i _, _, M i i i r _r _{y X} s θ =   θ = ρ_ θ _ = − θ  

∑

(1) gdzie: ρ – funkcja celu, s – parametr skali.

Zakładając, że parametr skali s jest znany, oszacowanie estymatora θ_M otrzy-mujemy przez rozwiązanie układu p równań normalnych ze względu na wektor θ, rozpisanych jako iloczyn zmiennych niezależnych i pochodnych cząstkowych funkcji ρ: 1 1 0, p i ik k n k i i y x x s = =   − θ     Ψ =    

∑

(2) gdzie: Ψ – pochodna funkcji ρ, p – liczba zmiennych x.

Zakłada się tutaj, że s jest znane. W celu rozwiązania równania (2) propono-wane jest zastosowanie metody iteracyjnej ważonych najmniejszych kwadratów (IRLS) z wagami określonymi wzorem [Trzpiot 2013]:

1 1 . p i ik k k i p i ik k k y x s w y x s = =   − θ     Ψ   =   − θ      

∑

(3)

(4)

Szacunku początkowej wartości ˆθ dokonujemy na podstawie KMNK. ₀ W każdej kolejnej iteracji t + 1 wykorzystuje się wartości reszt oraz wag otrzy-mane w iteracji t aż do osiągnięcia zbieżności [Alma 2011].

Wartości wag zależne są od wyboru funkcji Ψ korespondującej z funkcją ρ. Doboru funkcji Ψ dokonujemy zatem m.in. w zależności od tego, jaką wagę chcemy przypisać obserwacjom odstającym. W literaturze przedmiotu propo-nowanych jest wiele podejść [Fair 1974, Holland i Welsch 1977, Hampel i in. 2011, Chen i Yin 2002, Banaś i Ligas 2014]. W celu przybliżenia ich własności, oceny przydatności oraz wpływu na wyniki szacunku w niniejszym artykule zastosowanych zostało pięć najczęściej wykorzystywanych w badaniach empi-rycznych funkcji: Andrewsa, Tukeya (bisquare), Cauchy’ego, Faira i Hampela (por. tabela 1): Funkcja Andrewsa

( )

sin jezeli , , 0 w przeciwnym przypadku, x c _x _c W x c _x c       _{ }  ≤ π =      ₍₄₎ Funkcja Tukeya

( )

2 2 1 jezeli , , 0 w przeciwnym przypadku, x _{x c} W x c _c  _{ }   − _{ }  ≤ = _ _{ } _    ₍₅₎ Funkcja Cauchy’ego

( )

2 1 , , 1 W x c x c =   +     (6) Funkcja Faira

( )

, 1 , 1 W x c x c = + (7) Funkcja Hampela

(

)

1 , , , , , , 0 w przeciwnym przypadku. x a a _{a x b} x W x a b c c x a _{b x c} x c b  <   < ≤  =  ₋  _< _≤  −   (8)

(5)

Tabela 1. Przyjęte wartości parametrów funkcji

Funkcje wag Wartości parametrów

Andrewsa c = 1,339

Tukeya c = 4,685

Cauchy’ego c = 2,385

Faira c = 1,4

Hampela a = 2, b = 4, c = 8

Źródło: opracowanie własne na podstawie [User’s Guide… 2014].

W praktycznych zastosowaniach parametr skali s jest nieznany. Z uwagi na to, że wartość wariancji resztowej pozostaje pod silnym wpływem obserwacji odsta-jących, do szacunku parametru skali wykorzystywane są różne metody. Wśród najczęściej stosowanych wyróżnić można łatwy i odporny estymator parametru skali, jakim jest mediana odchyleń bezwzględnych (MAD) (względem pewnego przyjętego centrum) (por. [Trzpiot 2013]). Można go zastosować dla reszt bliskich zero, dla pozostających w pewnym otoczeniu albo dla reszt z odpornego dopaso-wania. Iteracyjnie szacuje się:

( ) ( ) 1 1 0 ˆ ˆ , n _m T i i m med y xi s + ₌ = − θ β (9)

gdzie: β₀ = Φ–1_{(0,75) jest stałą (por. [Hampel i in. 2011]).}

M-estymator jest odporny jedynie na obserwacje odstające w kierunku y, nie

jest natomiast odporny na punkty wysokiej dźwigni. Wpływa to na zakres jego zastosowań. Stosowany jest bowiem często, ale w sytuacjach, w których punkty wysokiej dźwigni nie są problemem. Jego punkt załamania nie jest wysoki i wynosi 1/n.

3. Charakterystyka badania empirycznego

Miary wykorzystane do oceny szacunków otrzymanych w badaniu empirycznym

W ocenie szacunków wykorzystano R2_{– odporną wersję współczynnika}

(6)

2 ˆ ˆ ˆ ˆ ˆ ˆ T i i i i y y x s s R y s   − µ − θ   ρ − ρ_ _   _ _ = − µ   ρ   

∑

(10)

oraz D – odporną miarę jakości dopasowania modelu1_{(por. [Chen 2003]):}

( )

2 ˆ ˆ 2 , ˆ T i i y x D s s  − θ = ρ_ _  

∑

(11) gdzie: ρ – funkcja celu,

ˆµ – estymator parametru położenia, ˆs – estymator parametru skali.

Założenia badania

W badaniu empirycznym wykorzystano informacje pochodzące z badania przedsiębiorstw prowadzonego w ramach statystyki publicznej, oznaczonego symbolem DG1. Badanie to jest największym badaniem w Polsce zaliczanym do krótkookresowej statystyki gospodarczej. Objęte są nim przedsiębiorstwa, w których pracuje więcej niż 9 osób. Badanie dotyczy wszystkich średnich i dużych przedsiębiorstw oraz 10% małych. Prowadzone jest z częstotliwością miesięczną. Dostarcza ono informacji na temat takich zmiennych, jak: przy-chód, koszt, sprzedaż, transport, ceny, wynagrodzenia, obrót, pracujący, podatki i dotacje. W przeprowadzonym badaniu empirycznym ograniczono się do przed-siębiorstw małych i średnich (liczba pracujących zawiera się w przedziale od 10 do 250), które prowadziły działalność gospodarczą w grudniu 2011 r. Analizie poddano model, w którym jako zmienną zależną przyjęto przychód, zaś zmienną niezależną był koszt. Jako populację generalną przyjęto wszystkie małe i średnie przedsiębiorstwa biorące udział w badaniu DG1. Domeną studiów była jednostka powstała w wyniku uwzględnienia podziału na województwa i rodzaj prowa-dzonej działalności gospodarczej zgodnie z klasyfikacją NACE. W prezentacji wyników badania ograniczono się do 16 domen sekcji „Transport” w przekroju województw. Selekcji domen dokonano na podstawie wartości współczynnika determinacji charakteryzującego dobroć dopasowania modelu. Głównym celem wyboru domen do analizy było uwzględnienie tych jednostek, dla których wartości współczynnika determinacji charakteryzowały się dużą dyspersją. W przypadku sekcji PKD „Transport i gospodarka magazynowa” obszar zmien-ności zawierał się w granicach od 0,041 do 0,999 (por. tabela 3).

(7)

Pierwszym etapem analizy była ocena rozkładów przedsiębiorstw względem zmiennej „przychód” na podstawie informacji pochodzących z badania DG1. Wartości podstawowych charakterystyk, takich jak współczynnik zmien-ności (65%; 405%), skośność (0,27; 5,63), obszar zmienzmien-ności (10 357 tys. PLN; 4 092 507 tys. PLN), wskazują na duże zróżnicowanie i bardzo silną asymetrię (por. tabela 2). Własności te przemawiają za użyciem metod uwzględniających obserwacje odstające. Ich obecność potwierdzona została na podstawie dwóch miar – RStudenta i statystyki D-Cooka [Rousseeuw i Leroy 1987]:

RStudent * _, * _3, 1 i i i i i e r r MSE h = ≥ ⋅ − (12)

(

)

(

)

2 2 1 i _, i i X X h n _X _X − = + −

∑

(13) gdzie:

MSE_i – średni kwadrat odchyleń dla reszty po wyeliminowaniu i-tej obser-wacji,

h_i – odległość i-tej obserwacji od średniej wartości zmiennej X, Statystyka D-Cooka

(

) (

)

2 2 4 , . 1 1 i i i i i e h D D MSE k h n = ⋅ > + − (14)

Tabela 2. Charakterystyka statystyczna rozkładu zmiennej „przychód” (w tys. PLN) w małych i średnich przedsiębiorstwach stanowiących populację generalną w badaniu w przekroju województw, sekcja PKD „Transport i gospodarka magazynowa”, 2011 r.

Województwo Minimum Średnia Mediana Maximum Vx (%) Skośność

Dolnośląskie 38 6 796 5 774 24 606 90 1,24 Kujawsko-pomorskie 622 6 935 4 563 25 200 100 1,45 Lubelskie 1 036 17 663 4 456 202 558 231 4,22 Lubuskie 553 56 246 5 938 751 871 303 3,99 Łódzkie 625 8 680 6 072 43 783 106 2,47 Małopolskie 37 21 612 5 649 417 352 327 5,62 Mazowieckie 491 146 475 11 776 4 092 998 405 5,63 Opolskie 1 125 9 173 6 073 25 034 89 0,91 Podkarpackie 758 5 298 5 278 11 115 72 0,27 Podlaskie 2 046 44 010 7 605 443 218 286 3,45 Pomorskie 26 10 459 4 621 64 424 138 2,38

(8)

Województwo Minimum Średnia Mediana Maximum Vx (%) Skośność Śląskie 778 20 700 6 712 384 637 261 5,55 Świętokrzyskie 131 8 187 3 776 49 336 143 2,52 Warmińsko-mazurskie 707 5 795 5 396 13 965 65 0,76 Wielkopolskie 805 9 412 6 863 40 564 98 1,87 Zachodniopomorskie 316 12 876 6 237 76 897 138 2,21

Źródło: opracowanie własne na podstawie wyników badania DG1, 2011.

Tabela 3. Charakterystyka statystyczna liczebności małych i średnich przedsiębiorstw stanowiących populację generalną w badaniu w przekroju województw, sekcja PKD „Transport i gospodarka magazynowa”, 2011 r.

Województwo Liczebność _populacji Liczba obserwacji _odstających Odsetek obserwacji _odstających R2

Dolnośląskie 28 1 3,6 0,498 Kujawsko-pomorskie 24 2 8,3 0,873 Lubelskie 25 2 8,0 0,986 Lubuskie 20 2 10,0 0,041 Łódzkie 30 2 6,7 0,989 Małopolskie 34 4 11,8 0,998 Mazowieckie 73 2 2,7 0,935 Opolskie 14 2 14,3 0,921 Podkarpackie 16 2 12,5 0,977 Podlaskie 12 2 16,7 0,999 Pomorskie 33 3 9,1 0,972 Śląskie 64 4 6,3 0,992 Świętokrzyskie 23 3 13,0 0,996 Warmińsko-mazurskie 13 2 15,4 0,888 Wielkopolskie 49 6 12,2 0,982 Zachodniopomorskie 30 2 6,7 0,910

Źródło: opracowanie własne na podstawie wyników badania DG1, 2011.

Liczbę, udział procentowy obserwacji odstających i R2 _{zaprezentowano}

w tabeli 3. Wartości współczynnika determinacji wskazują, że w przypadku liczniejszych sekcji nawet stosunkowo duża liczba obserwacji odstających niekoniecznie musi mieć wpływ na dopasowanie modelu. Z odwrotną sytuacją spotykamy się w sekcjach mniej licznie reprezentowanych, w których pojedyncze cd. tabeli 2

(9)

Lu bu sk ie Prz yc hó d D ol no śl ąs ki e Prz yc hó d O ut lie r Le ve ra ge O ut lie r a nd l ev er ag e 20 80 0 0 00 20 0 00 10 0 00 10 0 00 5 0 00 0 60 0 0 00 40 0 0 00 20 0 0 00 0 0 ₀ 50 00 10 0 00 15 0 00 20 0 00 25 0 00 50 0 00 10 0 0 00 15 0 0 00 20 0 0 00 0 –2 0 –4 0 –60 –80 _–100 0, 2 0,1 0 10 20 30 40 50 0, 2 0, 3 0,4 0, 5 0,4 0,6 0, 8 Kosz t t Kosz RSt ude nt RSt uden t Le ve rag e Le ve rag e Ry s. 1 . O bs er w acj e o ds ta ją ce w k ie ru nk u x ( le ve rag e) i y ( ou tli er ) w s ek cj i „ Tr an sp or t” w w oj ew ód zt w ie d ol no ślą sk im i lu bu sk im Źr ód ło : o pr ac ow an ie w ła sn e n a p od st aw ie w yn ik ów b ad an ia D G1 , 2 01 1.

(10)

obserwacje odstające mogą mieć bardzo duży wpływ na jakość modelu. O mocy oddziaływania jednostek nietypowych decyduje bowiem poza ich liczbą także typ (obserwacje odstające w kierunku x, obserwacje odstające w kierunku y) oraz odległość od jednostek typowych.

W prezentacji graficznej pozwalającej na ocenę typu obserwacji odstającej ograniczono się do domen o najmniejszej wartości współczynnika determinacji, tj. województwa dolnośląskiego i lubuskiego (por. rys. 1).

Wyniki empiryczne badania

Celem badania było porównanie pięciu M-estymatorów wykorzystujących różne funkcje do określenia wartości wag pod względem dokładności dopaso-wania modelu, która była reprezentowana przez odporną wersję współczynnika determinacji R2_{oraz odporną miarę jakości dopasowania modelu D.}

Różnice w wartościach wyżej wskazanych parametrów otrzymanych dla poszczególnych rodzajów M-estymatorów odzwierciedlają wrażliwość na obec-ność różnych typów obserwacji odstających oraz odległość jednostek nietypo-wych od pozostałych, standardonietypo-wych jednostek.

Analiza otrzymanych wyników skłania do wniosku, że wykorzystanie

M-estymacji poprawia jakość dopasowania modelu tylko wtedy, gdy obecne są

obserwacje odstające w kierunku y. Jeśli bliżej przyjrzymy się sekcji „Trans-port”, zauważymy, że zastosowanie M-estymacji ze względu na obecność punktów wysokiej dźwigni spowodowało spadek wartości współczynnika deter-minacji (w porównaniu z klasyczną metodą najmniejszych kwadratów) w prawie wszystkich województwach. Wyjątek stanowiło województwo dolnośląskie. Podobne wnioski można sformułować na podstawie wartości miary jakości dopa-sowania modelu D (por. tabela 4).

Najwyższe wartości współczynników determinacji i najniższe wartości charakterystyki D odnotowano dla funkcji Faira. W przypadku dwóch z zasto-sowanych funkcji wag – Andrewsa i Tukeya, jakość dopasowania modelu jest bardzo podobna. W pozostałych dwóch przypadkach, tzn. dla funkcji Cauchy’ego oraz Hampela, obserwujemy zdecydowanie niższe wartości współczynnika deter-minacji i wyższe odpornej miary D.

Zbadano także parametry modelu oraz wyznaczone dla nich przedziały ufności (por. tabela 5). Zarówno wartości estymatorów parametrów, jak i ich prezentacja graficzna wskazują na dużą zgodność oszacowań w przypadku wszystkich pięciu analizowanych funkcji wag (por. rys. 2 i 3). Dla dwóch woje-wództw – lubelskiego i mazursko-warmińskiego, oszacowania współczynnika kierunkowego są bardzo bliskie zera, co oznacza brak korelacji między zmien-nymi. W pozostałych przypadkach wartość parametru kształtuje się na poziomie jedności.

(11)

Ta be la 4 . W ar to ści ws pó łc zy nn ik a d et er m in acj i R 2 or az o dp or nej m ia ry D d la M -e st ym at or ów w yk or zy st uj ąc yc h pi ęć f un kcj i w ag Wo je w ód z-two R 2 D KMN K An dr ew sa Tu ke ya C au ch y’e go Fa ir a H am pe la An dr ew sa Tu ke ya C au ch y’e go Fa ir a H am pe la D ol no śl ąs ki e 0, 49 8 0, 714 0, 717 0, 465 0, 71 9 0, 661 14 31 85 91 14 41 04 04 83 99 41 51 262 162 60 53 59 17 08 K ujaw sk o--p om or sk ie 0, 873 0, 639 0, 64 1 0, 39 6 0, 79 6 0,6 02 11 18 85 19 11 32 8444 69 79 40 42 16 59 316 7 39 60 53 75 Lu bel sk ie 0, 98 6 0, 70 4 0, 70 8 0, 53 8 0, 926 0, 65 4 444 30 05 45 96 90 2 32 81 56 03 173 80 73 6 25 04 46 38 Lu bu sk ie 0, 04 1 0, 016 0, 016 0,0 02 0, 000 0,0 05 43 96 10000 44 42 40000 37 52 000000 24 87 400000 19 12 400000 Łó dz kie 0, 989 0, 80 1 0,8 02 0, 44 6 0, 94 1 0, 659 20 233 99 8 20 22 78 89 16 57 10000 93 34 61 0 96 76 55 72 M ał op ol sk ie 0, 998 0,6 60 0, 661 0, 47 8 0, 949 0, 575 182 82 78 8 18 51 15 94 11 53 40000 25 86 67 21 74 15 97 80 M az ow ie ck ie 0, 935 0, 61 3 0, 614 0, 42 0 0, 836 0, 54 8 32 16 70000 32 26 80000 23 08 600000 31 24 500000 13 39 000000 O pol sk ie 0, 921 0, 716 0, 717 0, 48 0 0, 836 0, 65 0 94 63 874 96 632 67 49 95 18 95 10 47 80 68 51 28 16 48 Po dk ar pa ck ie 0, 977 0, 79 0 0, 79 2 0, 616 0, 94 1 0, 682 85 22 58 86 33 63 ,8 58 7444 7 89 37 99 39 71 34 1 Po dl as ki e 0, 999 0, 861 0, 86 3 0, 49 5 0, 995 0, 683 92 67 82 4 92 80 57 6 12 54 90000 44 791 08 72 614 83 9 Po m or sk ie 0, 972 0, 683 0,6 86 0, 41 3 0, 90 1 0, 658 29 649 98 7 30 15 76 48 33 50 30000 35 27 874 4 14 54 90000 Śl ąs ki e 0, 99 2 0, 69 6 0, 69 7 0, 42 3 0,9 23 0, 616 12 72 10000 12 79 80000 84 32 60000 14 57 10000 46 98 90000 Św ię to kr zy -sk ie 0, 99 6 0, 75 6 0, 75 9 0, 50 7 0, 96 8 0, 70 1 65 20 62 5 65 48 36 3 52 57 68 76 33 69 79 4 30 68 54 33 Wa rm iń sk o--m az ur sk ie 0, 888 0, 78 3 0, 78 4 0,1 53 0, 80 7 0, 391 16 000 42 3 16 01 15 95 35 47 10000 847 36 38 14 97 40000 W ie lk op ol -sk ie 0, 982 0, 75 5 0, 72 2 0, 50 4 0, 93 4 0, 69 6 26 69 57 82 22 68 55 14 18 39 60000 17 59 79 55 14 31 40000 Za ch od ni o-po m or sk ie 0, 91 0 0, 62 9 0, 62 9 0, 442 0, 818 0, 62 0 32 03 67 88 31 90 45 99 17 44 30000 67 31 90 33 12 79 40000 Źr ód ło : o pr ac ow an ie w ła sn e n a p od st aw ie w yn ik ów b ad an ia D G1 , 2 01 1.

(12)

Ta be la 5 . S za cu nk i p ar ame tró w r ów na nia or az p rz ed zia ły u fn oś ci ( 95 % ) d la M -e st ym at or ów w yk or zy st uj ąc yc h p ię ć f un kcj i w ag W oj ewó dz two Fu nkc ja A nd re w sa Fu nkc ja T uk ey a Fu nkc ja C au chy ’e go Fu nkc ja F ai ra Fu nkc ja H am pe la ko sz t pr ze dz ia ł uf noś ci ko sz t pr ze dz ia ł uf noś ci ko sz t pr ze dz ia ł uf noś ci ko sz t pr ze dz ia ł uf noś ci ko sz t pr ze dz ia ł uf noś ci Sz ac un ek w sp ół cz yn ni ka k ie ru nk ow eg o D ol no śl ąs ki e 1, 000 0, 949 1, 05 2 1, 000 0, 949 1, 05 2 1, 00 8 0, 962 1, 05 4 1, 00 4 0, 953 1, 055 1, 00 2 0, 950 1, 055 K ujaw sk o--p om or sk ie 0, 981 0, 943 1, 02 0 0, 982 0, 943 1, 02 0 0, 98 0 0, 942 1, 019 0, 982 0, 931 1, 03 3 0, 979 0, 937 1, 02 0 Lu bel sk ie 0, 99 0 0, 98 6 0, 99 4 0, 99 0 0, 98 6 0, 99 4 0, 99 0 0, 98 6 0, 99 4 0, 99 0 0, 985 0, 995 0, 99 0 0, 985 0, 995 Lu bu sk ie –0 ,0 04 –0 ,0 13 0,0 06 –0 ,0 04 –0 ,0 13 0,0 05 –0 ,0 04 –0 ,0 14 0,0 06 –0 ,0 01 –0 ,0 19 0, 017 –0 ,0 04 –0 ,0 15 0,0 06 Łó dz kie 1, 00 5 0, 96 8 1, 04 1 1, 00 4 0, 96 8 1, 04 1 1, 000 0, 965 1, 03 4 0, 998 0, 96 7 1, 02 9 1, 00 7 0, 971 1, 04 3 M ał op ol sk ie 0, 921 0, 91 9 0, 92 4 0, 921 0, 91 9 0, 92 4 0, 921 0, 918 0, 92 4 0, 921 0, 917 0, 925 0, 921 0, 918 0, 925 M az ow ie ck ie 1, 019 1, 017 1, 02 0 1, 019 1, 018 1, 02 0 1, 03 4 1, 03 3 1, 035 0, 931 0, 929 0, 932 1, 03 4 1, 03 3 1, 035 O pol sk ie 0, 881 0, 842 0, 92 0 0, 881 0, 84 1 0, 921 0, 886 0, 840 0, 932 0, 90 6 0, 838 0, 974 0, 875 0, 81 5 0, 935 Po dk ar pa ck ie 1, 014 0,9 88 1, 04 0 1, 014 0,9 88 1, 04 0 1, 00 2 0, 973 1,0 30 0, 985 0, 949 1, 02 0 1, 00 8 0, 98 0 1, 03 6 Po dl as ki e 0, 995 0, 989 1, 000 0, 995 0, 989 1, 000 0, 995 0, 99 0 1, 000 0, 995 0, 99 0 1, 000 0, 99 4 0, 989 0, 999 Po m or sk ie 0, 98 0 0, 961 0, 999 0, 98 0 0, 96 0 0, 999 0, 961 0, 939 0, 983 0, 937 0, 91 1 0, 96 3 0, 982 0, 961 1, 00 4 Śl ąs ki e 0, 889 0, 88 4 0, 89 5 0, 889 0, 88 4 0, 89 5 0, 883 0, 877 0, 889 0, 882 0, 874 0, 889 0, 89 2 0, 885 0, 89 8 Św ię to kr zy -sk ie 0, 98 4 0, 965 1, 00 3 0, 98 4 0, 965 1, 00 4 0, 982 0, 962 1, 00 1 0, 979 0, 96 0 0, 998 0, 98 0 0, 96 0 1, 00 1 Wa rm iń sk o--m az ur sk ie 0, 47 8 0, 37 2 0,5 84 0, 47 8 0, 37 2 0,5 84 0, 47 8 0, 36 8 0, 58 8 0, 47 9 0, 36 0 0, 59 8 0, 47 9 0, 37 8 0, 57 9 W ie lk op ol sk ie 0, 99 0 0, 970 1, 010 0, 98 7 0, 96 3 1, 01 1 0, 96 7 0, 942 0, 99 2 0, 961 0, 93 4 0,9 88 0, 95 2 0, 925 0, 98 0 Za ch od ni op o-m or sk ie 1, 03 7 1, 019 1, 055 1, 03 7 1, 018 1, 05 6 1, 03 4 1, 01 5 1, 05 3 1, 04 1 1, 01 5 1, 06 7 1, 03 2 1, 00 7 1, 05 6

(13)

W oj ewó dz two Fu nkc ja A nd re w sa Fu nkc ja T uk ey a Fu nkc ja C au chy ’e go Fu nkc ja F ai ra Fu nkc ja H am pe la ko sz t pr ze dz ia ł uf noś ci ko sz t pr ze dz ia ł uf noś ci ko sz t pr ze dz ia ł uf noś ci ko sz t pr ze dz ia ł uf noś ci ko sz t pr ze dz ia ł uf noś ci Sz ac un ek w yr az u w ol ne go D ol no śl ąs ki e –88 –5 28 351 –88 –5 28 351 –82 –47 3 30 8 8 –42 9 444 –94 –5 42 35 4 K ujaw sk o--p om or sk ie –1 22 –47 2 228 –1 24 –4 69 222 –14 6 –49 2 20 0 –16 1 –62 3 30 0 –1 26 –50 2 249 Lu bel sk ie –8 –16 4 14 7 –5 –16 6 15 6 4 –16 2 17 0 9 –2 03 222 45 –16 0 250 Lu bu sk ie 35 90 19 27 52 52 362 2 20 10 52 34 39 77 222 0 57 35 516 7 20 09 832 5 40 97 22 63 59 30 Łó dz kie –65 –51 3 38 4 –65 –50 9 37 9 –45 –4 69 37 9 –50 –42 7 32 7 –1 41 –58 5 303 M ał op ol sk ie 270 65 474 26 8 66 471 273 57 488 33 6 51 62 0 262 10 51 5 M az ow ie ck ie –5 75 –9 95 –15 6 –58 0 –9 91 –17 0 –9 37 –1 39 1 –4 82 443 –16 2 10 47 –9 43 –14 92 –39 5 O pol sk ie –2 8 –4 63 40 7 –29 –4 81 42 3 –3 8 –55 6 48 0 –6 7 –8 33 69 8 –69 –74 6 60 7 Po dk ar pa ck ie –10 2 –2 65 61 –10 2 –2 65 61 –7 6 –2 57 10 5 –4 6 –2 72 18 1 –92 –2 67 84 Po dl as ki e 48 7 –14 4 11 17 488 –14 3 11 18 451 –17 2 10 74 443 –15 3 10 38 562 –47 11 70 Po m or sk ie 52 –29 9 403 55 –3 04 41 4 237 –16 6 640 43 0 –49 908 96 –29 7 49 0 Śl ąs ki e 631 31 3 949 633 317 948 75 0 42 9 10 71 90 7 491 13 22 689 32 8 10 50 Św ię to kr zy -sk ie 37 –2 33 30 6 36 –2 38 31 0 27 –2 45 30 0 31 –2 34 29 7 39 –2 49 32 8 Wa rm iń sk o--m az ur sk ie 19 44 935 29 53 19 44 936 29 52 19 42 89 7 29 86 19 31 802 30 61 19 50 996 29 04 W ie lk op ol sk ie 14 9 –10 0 39 8 17 5 –1 26 475 29 7 –10 60 4 347 6 689 42 3 81 76 5 Z ac ho dn io po -m or sk ie –5 26 –9 09 –14 4 –5 21 –9 11 –13 0 –47 2 –8 70 –7 3 –5 16 –10 63 30 –50 5 –10 19 9 Źr ód ło : o pr ac ow an ie w ła sn e n a p od st aw ie w yn ik ów b ad an ia D G1 , 2 01 1.

(14)

–15 00 –1 000 –50 0 0 50 0 1000 15 00 2000 250 0 Dol noś ląs kie Kuj aw sko --pomo rsk ie Lub elsk ie Lub usk ie Łód zkie Mał opol ski e Maz ow ieck ie Opol ski e Podk arp ack ie Podl ask ie Pomo rsk ie Śląs kie Świę tok rzy ski e War miń

sko- ursk -maz

ie Wie lko pol skie Zach odni o-pomo rsk ie fu nk cja A nd re w sa fu nk cja T uk ey a fu nk cja C au ch y’ ego fu nk cja F ai ra fu nk cja H am pe la Ry s. 2 . O ce na ws pó łc zy nn ik a k ie ru nk ow eg o m od el u r eg re sji n a p od st aw ie w yb ra ny ch f un kcj i Źr ód ło : o pr ac ow an ie w ła sn e n a p od st aw ie w yn ik ów b ad an ia D G1 , 2 01 1.

(15)

–0, 2 0 0, 2 0,4 0,6 0, 8 1 1, 2 Dol noś ląs kie Kuj aw sko - ie rsk -pomo Lub elsk ie Lub usk ie Łód zkie Mał opol ski e Maz ow ieck ie Opol ski e Pod kar pac kie Pod las kie Pomo rsk ie Śląs kie Świę tok rzy ski e War miń sko--maz ursk ie Wie lko pol skie Zach odni o-pomo rsk ie fu nk cja A nd re w sa fu nk cja T uk ey a fu nk cja C au ch y’ ego fu nk cja F ai ra fu nk cja H am pe la Ry s. 3 . O ce na w yr az u w ol ne go m od el u r eg re sji n a p od st aw ie w yb ra ny ch f un kcj i Źr ód ło : o pr ac ow an ie w ła sn e n a p od st aw ie w yn ik ów b ad an ia D G1 , 2 01 1.

(16)

4. Wnioski

Zastosowanie każdej z pięciu badanych funkcji z punktu widzenia dopaso-wania modelu przyniosło zbliżone rezultaty. W wielu praktycznych sytuacjach wykorzystania M-estymacji wybór funkcji Ψ nie jest kluczowy dla uzyskania dobrego odpornego oszacowania. Największe rozbieżności w ocenie szacowa-nych parametrów dotyczyły funkcji Cauchy’ego i Hampela. Dla tych funkcji jakość dopasowania modelu była też najsłabsza.

Zastosowanie M-estymatora w przypadku obecności wartości odstających może wpłynąć na poprawę jakości dopasowania modelu w porównaniu z klasycz-nymi metodami szacunków, zależy to jednak w dużym stopniu od rodzaju obser-wacji nietypowej (odległości). M-estymator nie jest odporny na punkty wysokiej dźwigni, a więc powinien być stosowany w sytuacjach, w których punkty wyso-kiej dźwigni nie występują.

Literatura

Alma Ö.G. [2011], Comparison of Robust Regression Methods in Linear Regression, „International Journal of Contemporary Mathematical Sciences”, vol. 6, nr 9, http:// dx.doi.org/10.12988/ijcms.

Banaś M., Ligas M. [2014], Empirical Tests of Performance of Some M-estimators, „Geo-desy and Cartography”, vol. 63, nr 2, http://dx.doi.org/10.2478/geocart-2014-0015. Chen C. [2003], Robust Tools in SAS [w:] Developments in Robust Statistics.

Interna-tional Conference on Robust Statistics, red. R. Dutter i in., Springer Science and Business Media, Berlin–Heidelberg, http://dx.doi.org/10.1007/2F978-3-642-57338-5. Chen C., Yin G. [2002], Computing the Efficiency and Tuning Constants for

M-Esti-mation, Proceedings of the 2002 Joint Statistical Meetings, American Statistical Association, Alexandria.

Cox B.G., Binder A., Chinnappa N.B., Christianson A., Colledge M.J., Kott P.S. [1995], Business Survey Methods, John Wiley and Sons, Hoboken, NJ, http://dx.doi. org/10.1002/9781118150504.fmatter.

Fair R.C. [1974], On the Robust Estimation of Econometric Models, „Annals of Econo-mic and Social Measurement”, vol. 3.

Hampel F.R., Ronchetti E.M., Rousseeuw P.J., Stahel W.A. [2011], Robust Statistics: The Approach Based on Influence Functions, John Wiley and Sons, Hoboken, NJ, http:// dx.doi.org/10.1002/9781118186435.fmatter.

Holland P., Welsch R. [1977], Robust Regression Using Iteratively Reweighted Least--Squares, „Communications in Statistics – Theory and Methods”, vol. 6, http://dx.doi. org/10.1080/03610927708827533.

Huber P.J. [1964], Robust Estimation of a Location Parameter, „Annals of Mathematical Statistics”, vol. 35.

(17)

Renaud O., Victoria-Feser M. [2010], A Robust Coefficient of Determination for Regres-sion, „Journal of Statistical Planning and Inference”, vol. 140, nr 7, http://dx.doi. org/10.1016/j.jspi.2010.01.008.

Rousseeuw P.J., Leroy A.M. [1987], Robust Regression and Outlier Detection, Wiley--Interscience, New York.

Trzpiot G. [2013], Wybrane statystyki odporne, „Studia Ekonomiczne”, nr 152. User’s Guide. The Robustreg Procedure [2014], SAS Institute, Cary, NC. M-estimation in a Small Business Survey

(Abstract)

In many business surveys, sample sizes are large enough to compensate for the pres-ence of outliers, which have a relatively small impact on estimates. However, at low levels of aggregation, the impact of outliers might be significant. Therefore, in the case of a population such as the population of enterprises, the classical approach should be accompanied by methods that resist the occurrence of outliers. To deal with this problem, several alternative technique of estimation, less sensitive to outliers, have been proposed in the statistics literature. In this paper we look at one of them – M-estimation, and compare its usefulness in the small businesses survey.