• Nie Znaleziono Wyników

Badanie wrażliwości miar Jeffreysa-Matusity i Canberry na małe zmiany wartości zmiennych

N/A
N/A
Protected

Academic year: 2021

Share "Badanie wrażliwości miar Jeffreysa-Matusity i Canberry na małe zmiany wartości zmiennych"

Copied!
17
0
0

Pełen tekst

(1)Zeszyty Naukowe nr 797. Uniwersytetu Ekonomicznego w Krakowie. 2008. Barbara Pawełek Katedra Statystyki. Badanie wrażliwości miar Jeffreysa-Matusity i Canberry na małe zmiany wartości zmiennych* 1. Wprowadzenie W analizie statystycznej stosuje się metody służące do statycznego lub dynamicznego (np. budowania ścieżek rozwoju badanych obiektów) badania jednostek statystycznych opisanych przez cechy statystyczne. Na jednym z początkowych etapów badania statystycznego należy precyzyjnie określić jednostki i cechy statystyczne, okres badawczy oraz wybrać odpowiednie narzędzia. W zależności od tematyki i zakresu prowadzonych analiz jednostkami statystycznymi mogą być m.in. obiekty, osoby, okresy lub zdarzenia. Cechy zaś, w zależności od skal, w których są mierzone, umożliwiają rozróżnienie badanych jednostek (skala nominalna), uporządkowanie ich (skala porządkowa), obliczenie dystansów między nimi (skala przedziałowa) lub stosunków wartości przypisanych tym jednostkom (skala ilorazowa). Z kolei wymiar czasu mogą tworzyć np. lata, kwartały, miesiące, tygodnie, dni, godziny, sekundy. Ze względu na liczbę rozważanych cech analizy statystyczne dzieli się na jednowymiarowe, gdy badane jednostki statystyczne są opisane tylko przez jedną cechę, i wielowymiarowe, w wypadku badania co najmniej dwóch cech. Typ analizy determinuje wybór odpowiednich metod statystycznych. Bez względu jednak na wymiar kostki danych, zawierającej obserwacje dotyczące badanych obiektów, cech, okresów i warstw, prowadzone badania mogą mieć na celu dokonanie porównań między przekrojami rozważanych struktur. *. Artykuł zawiera wybrane wyniki badań opisanych w pracy [Pawełek 2006]..

(2) 144. Barbara Pawełek. W ramach statystycznej analizy porównawczej wyróżnia się metody grupowania, skalowania i porządkowania jednostek statystycznych. W większości procedur wymagane jest przeprowadzenie normalizacji danych wejściowych. Normalizacja, mająca na celu doprowadzenie do porównywalności badanych zmiennych, pozbawia m.in. realizacje zmiennych mian i ujednolica ich rzędy wielkości. W porządkowaniu jednostek statystycznych zachodzi dodatkowo konieczność uwzględnienia charakteru oddziaływania rozważanych zmiennych na kształtowanie się badanego złożonego zjawiska ekonomicznego. Jest to realizowane albo przez zastosowanie przekształceń preferencyjnych, albo przez przyjęcie odpowiednich, uwzględniających ten charakter wariantów formuł normalizacyjnych na etapie normalizowania zmiennych. W metodach grupowania, skalowania i porządkowania obiektów ważną rolę odgrywają miary odległości. W grupowaniach wyznaczana jest macierz odległości będąca podstawą podziału badanych jednostek (por. np. [Grabiński 1992]). W metodach skalowania wielowymiarowego wykorzystuje się rzuty obiektów na wybrane podprzestrzenie, w których są analizowane grupy obiektów blisko położonych (por. np. [Zaborski 2001]). Przy porządkowaniu obiektów można zastosować syntetyczny miernik rozwoju, będący zmienną agregatową. Agregację można przeprowadzić np. według wzorcowej formuły, w której wykorzystuje się odległości poszczególnych jednostek od wzorca lub antywzorca rozwoju (por. np. [Hellwig 1968]). Miary odległości mogą służyć nie tylko do badania podobieństwa (a właściwie niepodobieństwa) obiektów, ale także przynależności obiektów do poszczególnych klas czy podobieństwa rozważanych grup obiektów. Przegląd miar podobieństwa można znaleźć np. w pracach [Ekonometria przestrzenna 1991, Grabiński 1992, Gatnar 1998]. Wspomniane metody mogą być stosowane tylko w wypadku dysponowania pomiarami w silnych skalach. Obliczanie odległości między rangami (tzn. znormalizowanymi danymi mierzonymi w skali porządkowej) oznaczałoby traktowanie rang jako pomiarów w skali co najmniej przedziałowej. To zaś oznaczałoby wzmocnienie skali, czyli operację niedopuszczalną w teorii pomiaru. Celem opracowania jest przedstawienie wyników badań nad wrażliwością wybranych miar odległości na małe zmiany wartości rozważanych zmiennych. W literaturze przedmiotu można znaleźć informacje dotyczące wrażliwości niektórych miar na małe zmiany wartości bliskich zera. Wydaje się, że konieczne jest rozszerzenie rozważań także na duże wartości zmiennych. Argumentem przemawiającym za podjęciem takich badań może być np. znaczenie stymulant charakteryzujących się prawostronnie asymetrycznym rozkładem w syntetycznych badaniach porównawczych. Rozważania dotyczące wartości bliskich zera znajdują zastosowanie tylko dla destymulant, w wypadku których może być postulowany.

(3) Badanie wrażliwości miar…. 145. lewostronnie asymetryczny rozkład. Zmienne syntetyczne umożliwiają m.in. prognozowanie poziomu rozwoju obiektów ze względu na badane złożone zjawisko ekonomiczne. 2. Wybrane miary odległości dla danych mierzonych w silnych skalach W badaniach porównawczych obiekty opisane zmiennymi mierzonymi w silnych skalach są traktowane w danym okresie jako punkty w wielowymiarowej przestrzeni zmiennych. Podobieństwo obiektów może być mierzone z wykorzystaniem odległości między nimi w tej przestrzeni. Funkcja d : O × O → R, gdzie O to zbiór złożony z n badanych obiektów, jest miarą odległości wtedy i tylko wtedy, gdy jest funkcją: – nieujemną, tzn. ∀ r, s = 1, …, n: d(Or, Os) ≥ 0, – zwrotną, tzn. ∀ r, s = 1, …, n: d(Or, Os) = 0 ⇔ Or ≅ Os , gdzie symbol ≅ oznacza, że obiekty Or i Os są nierozróżnialne ze względu na badane zmienne, – symetryczną, tzn. ∀ r, s = 1, …, n: d(Or, Os) = d(Or, Os). Jeżeli jest także spełniony warunek trójkąta, tzn. ∀ l, r, s = 1, …, n: d(Ol, Os) ≤ ≤ d(Ol, Os) + d(Or, Os), to taka miara odległości jest metryką. Poniżej podano najczęściej wymieniane w literaturze przedmiotu miary odległości. W pierwszej kolejności zaprezentowano te, których stosowanie musi być poprzedzone znormalizowaniem danych wejściowych (wzory z yijt). Następnie omówiono miary znajdujące zastosowanie zarówno dla danych wejściowych, jak i znormalizowanych (wzory z xijt). Odległość Minkowskiego (inaczej: norma Lp) ma postać1: m. dlr( ) = p ∑ w jt yljt − yrjt t. j =1. p. (p ≥ 1; l, r = 1, …, n; t = 1, …, k). (1). gdzie yljt i yrjt to znormalizowane wartości zmiennej Xjt (j = 1, …, m) dla obiektów Ol i Or(l, r = 1, …, n) w okresie t (t = 1, …, k), zaś wjt jest wagą nadaną zmiennej m. Xjt w okresie t, przy czym: wjt ≥ 0 oraz2 ∑ w jt = 1. j =1. 1 2. W celu uproszczenia zapisu przyjęto, że d (t) = d(t)(Ol, Or). lr m. m. j =1. j =1. Zamiast warunku: ∑ w jt = 11, można rozważać następujący: ∑ w jt = 1m..

(4) Barbara Pawełek. 146. Dla dowolnie znormalizowanych zmiennych miara (1) przyjmuje wartości z przedziału 〈0, +∞). Dla znormalizowanych wartości, które są unormowane w przedziale3 〈0, 1〉, powyższa miara przyjmuje natomiast wartości z przedziału p 〈0, m 〉. Uwzględniając dodatkowo nieujemne wagi, sumujące się do jedności, miara Minkowskiego dla unormowanych wartości znormalizowanych przyjmuje wartości z przedziału 〈0, 1〉. Szczególnymi przypadkami powyższej odległości są następujące miary: – odległość miejska (inaczej: odległość Manhattan, odległość taksówkowa, odległość absolutnych różnic), gdy p = 1; wówczas miara przyjmuje postać: m. t dlr( ) = ∑ w jt yljt − yrjt . (2). j =1. i dla dowolnego przekształcenia normalizacyjnego przyjmuje wartości z przedziału 〈0, +∞), a dla unormowanych wartości znormalizowanych – z przedziału 〈0, m〉, przy czym po uwzględnieniu wag – 〈0, 1〉; – odległość Euklidesa, gdy p = 2; wtedy wzór jest postaci: t. dlr( ) =. m. ∑ w jt ( yljt − yrjt ). 2. j =1. (3). która oznacza, że dla dowolnego przekształcenia normalizacyjnego odległość Euklidesa przyjmuje wartości z przedziału 〈0, +∞), dla unormowanych wartości znormalizowanych miara (3) przyjmuje wartości z przedziału 〈0, m 〉, przy czym po uwzględnieniu wag – 〈0, 1〉; w badaniach empirycznych stosowana jest także kwadratowa odległość Euklidesa postaci: m. dlr( ) = ∑ w jt yljt − yrjt t. j =1. (. )2. (4). która w stosunku do zwykłej odległości Euklidesa w większym stopniu niż odległość miejska uwzględnia wpływ pojedynczych dużych różnic4; – odległość Czebyszewa, gdy p → ∞; wówczas korzysta się z następującego zapisu: Z unormowanymi wartościami znormalizowanymi w przedziale 〈0, 1〉 można mieć do czynienia np. w wypadku dokonania normalizacji danych mierzonych w skali ilorazowej przez zastosowanie ilorazowej formuły z parametrem skalującym równym sumie wszystkich wejściowych obserwacji. Otrzymuje się wówczas wartości udziałów poszczególnych realizacji w całym zasobie wartości danej zmiennej w rozważanej zbiorowości w pewnym okresie. 3. 4 Duże, pojedyncze różnice (dla poszczególnych zmiennych) mogą się pojawiać np. w wypadku występowania w zbiorze danych obserwacji odstających, nietypowych itp. Więcej na temat takich danych można znaleźć m.in. w pracy [Pawełek i Zeliaś 1996]..

(5) Badanie wrażliwości miar…. 147 t. dlr( ) = max. j =1, …, m. {w. jt. }. yljt − yrjt . (5). i otrzymuje się miarę, która dla dowolnego przekształcenia normalizacyjnego przyjmuje wartości z przedziału 〈0, +∞), dla unormowanych wartości znormalizowanych bez wag miara (5) przyjmuje natomiast wartości z przedziału 〈0, 1〉, zaś z wagami – 〈0, max. j =1, …, m. {w jt }〉; jest stosowana, gdy o wysokim stopniu inności obiektów ma. świadczyć choćby jedna duża różnica ze względu na dowolną zmienną. Omawiając miarę Minkowskiego, warto wspomnieć o mierze stosowanej w pakietach statystycznych (np. w programie Statistica, por. [Statistica PL… 1997]), a mianowicie odległości potęgowej wyrażonej wzorem: m. dlr( ) = q ∑ w jt yljt − yrjt t. p. j =1. (6). Miara (6) pozwala, przez dobór parametrów p i q, zwiększać lub zmniejszać znaczenie wielkości pojedynczych różnic obliczanych dla poszczególnych zmiennych (parametr p) lub różnic rozumianych ogólnie, tzn. w podziale na kategorie: małe, średnie i duże różnice (parametr q). Odległość Jeffreysa-Matusity jest obliczana ze wzoru: m. dlr( ) = ∑ w jt t. j =1. (. yljt − yrjt. 2. ). (7). co oznacza, że dla dowolnie przeprowadzonej normalizacji miara ta przyjmuje wartości z przedziału 〈0, +∞), zaś dla unormowanych – 〈0, m), a dla unormowanych i z wagami – 〈0, 1〉. Miara Jeffreysa-Matusity jest bardzo wrażliwa na małe zmiany wartości bliskich zera. W analizie podobieństwa (zgodności) struktur własność ta oznacza, że w wypadku miary (7) są preferowane różnice uzyskane ze składowych o niskich udziałach (por. np. [Malina 2004]). W literaturze z zakresu badania struktur pojawiają się modyfikacje tej miary, w których w większym stopniu są uwzględniane różnice między składowymi struktur o wysokich udziałach. Przykładem może być miara podana w pracy M. Walesiaka [1983]. Wykorzystując ideę zaproponowaną przez tego autora, można podać przykładowe modyfikacje odległości Jeffreysa-Matusity, które byłyby bardziej czułe na małe różnice między dużymi wartościami. Oto one:. m. p dlr( ) = ∑ w jt yljtp − yrjt t. j =1. q. (p > 1; q ≥ 1). (8).

(6) Barbara Pawełek. 148. przy czym im większe wartości parametrów p i q, tym mniejsza w stosunku do oryginalnej odległości Jeffreysa-Matusity wrażliwość miary (8) na małe zmiany wartości bliskich zera. Równocześnie rośnie wrażliwość zaproponowanej modyfikacji odległości na małe różnice między dużymi wartościami. Odległość Braya-Curtisa (inaczej: odległość Sorensena) jest podawana najczęściej w postaci: m. (t ). dlr =. ∑ w jt j =1 m. yljt − yrjt. ∑ w jt ( yljt + yrjt ). (9). j =1. Miara (9) dla dowolnej formuły normalizacyjnej przyjmuje wartości z przedziału 〈0, 1〉. Stosując odległości Braya-Curtisa, należy pamiętać o wyłączeniu z analizy obiektów mających wszystkie przypisane im realizacje zmiennych równe zero. Spowodowane jest to tym, że wartość tej miary między takim obiektem i pozostałymi, mającymi przynajmniej jedną niezerową realizację, jest stale równa liczbie 1, bez względu na te niezerowe wartości. Dla obiektów o wszystkich realizacjach równych zero trzeba osobno zdefiniować wartość miary odległości. Przyjmuje się wówczas, że obiekty są nierozróżnialne ze względu na przyjęte kryterium, czyli wartość miary jest równa zero. W wypadku odległości Canberry można spotkać się z różnymi wariantami zapisu. Najczęściej podawana jest postać: m. dlr( ) = ∑ w jt t. j =1. xljt − xrjt. ( xljt + xrjt ). (10). gdzie: xljt, xrjt – wartości zmiennej Xjt dla obiektów Ol i Or w okresie t. Odległość Canberry (10) przyjmuje wartości z przedziału 〈0, m〉, zaś dla unormowanych z wagami – 〈0, 1〉. Podobnie jak dla odległości Jeffreysa-Matusity, tak i w tym wypadku w literaturze przedmiotu zwraca się uwagę na to, że odległość Canberry jest bardzo wrażliwa na małe zmiany wartości bliskich zera. Nie spotyka się jednak modyfikacji miary (10) zmieniających tę własność. Można natomiast zaproponować wersje odległości Canberry zmniejszające tę wrażliwość. Oto one:. m. dlr( ) = ∑ w jt ⋅ p t. j =1. xljt − xrjt. ( xljt + xrjt ). (p > 1). (11).

(7) Badanie wrażliwości miar…. 149. przy czym im większa wartość parametru p, tym mniejsza w stosunku do oryginalnej odległości Canberry wrażliwość miary (11) na małe zmiany wartości bliskich zera. Korzystając z odległości Canberry, należy pamiętać, że dla obiektu przyjmującego wartość zero ze względu na pewną zmienną składnik sumy we wzorze (10) odpowiadający tej zmiennej jest równy liczbie 1, bez względu na wartość przypisaną drugiemu obiektowi. Obiekty takie muszą zatem zostać wyłączone z analizy. Kolejna uwaga dotyczy przypadku, gdy pojawią się dwa obiekty o zerowych realizacjach ze względu na tę samą zmienną. Wówczas z definicji przyjmuje się, że składnik sumy we wzorze (10) odpowiadający tej zmiennej jest równy zero. Wśród miar odległości stosowanych w badaniach empirycznych występuje odległość Clarka (inaczej: współczynnik dywergencji). Przyjmuje ona postać:. (t ). dlr =. m. ∑ w jt j =1. xljt − xrjt. 2. xljt + xrjt. (12). co oznacza, że dla dowolnej formuły normalizacyjnej miara ta przyjmuje wartości z przedziału 〈0, m 〉, a w wersji z wagami – 〈0, 1〉. W wersji wzmacniającej znaczenie dużych różnic miara (12) mogłaby być następująca:. m. dlr = ∑ w jt (t ). j =1. xljt − xrjt xljt + xrjt. 2. (13). Przedział 〈0, m〉 obejmuje wszystkie możliwe wartości miary (13). Uwzględnienie wag sumujących się do jedności zawęża podany przedział do zbioru 〈0, 1〉. Miara (12), podobnie jak odległości Jeffreysa-Matusity (7) i Canberry (10), jest bardzo wrażliwa na małe zmiany wartości bliskie zera. W wypadku rozważania jednej zmiennej odległość Clarka daje się zapisać takim samym wzorem jak odległość Canberry. Wyniki obliczeń zaprezentowane w części 4. ilustrują zatem także wrażliwość jednowymiarowej odległości Clarka na niewielkie zmiany wartości zmiennej. Korzystając z miary (12), należy pamiętać (podobnie jak w wypadku odległości Canberry; 10), że dla obiektu przyjmującego wartość zero ze względu na pewną zmienną składnik sumy we wzorze na odległość Clarka, odpowiadający tej zmiennej, jest równy liczbie 1, bez względu na wartość przypisaną drugiemu obiektowi. Obiekty takie muszą zatem zostać wyłączone z analizy. Gdy pojawiają się dwa obiekty o zerowych realizacjach ze względu na tę samą zmienną, przyjmuje się, że składnik odpowiadający tej zmiennej jest równy zero..

(8) Barbara Pawełek. 150. Miary odległości wymieniane w literaturze przedmiotu można podzielić ze względu na zakres zastosowań związany ze skalami pomiaru. Jeśli chodzi o omówione miary, odległości Minkowskiego (w tym: miejską, Euklidesa i Czebyszewa) oraz Jeffreysa-Matusity można stosować zarówno dla danych mierzonych w skali przedziałowej, jak i ilorazowej. Odległości Braya-Curtisa, Canberry i Clarka natomiast – tylko w wypadku skali ilorazowej. Dwie ostatnie miary nie wymagają normalizowania danych ze względu na jednostki pomiaru, często jednak przeprowadza się normalizację w celu ujednolicenia rzędów wielkości. W dalszej części pracy dla przejrzystości prowadzonych rozważań oraz kierując się tym, że w badaniach empirycznych przyjmuje się najczęściej jednakową ważność zmiennych diagnostycznych, poddano analizie wersje omawianych miar odległości z jednostkowymi wagami. Zaprezentowane badania można bez trudu uogólnić na miary uwzględniające zróżnicowaną ważność badanych zmiennych. Nasuwa się spostrzeżenie, że dla miar odległości (1), (7), (10) i (12) można rozważać wiele ich wersji opartych na idei odległości potęgowej (6). Ogólna formuła byłaby wówczas następująca:. (t ). dlr =. m. ∑. j =1. A(pl ,r ) jt. q. (p, q ≥ 0). (14). gdzie postać wyrażenia A(l, r)jr zależy od miary odległości. Parametry p i q umożliwiają wzmacnianie lub osłabianie wpływu małych bądź dużych zmian wartości zmiennych w ujęciu szczegółowym (parametr p) albo ogólnym (parametr q) na wartość miary odległości między obiektami. Biorąc pod uwagę formułę (14), można zauważyć, że szczególne przypadki odległości Minkowskiego (1), tzn. odległość miejska (2), Euklidesa (3), kwadratowa Euklidesa (4) i Czebyszewa (5), są wersjami tej miary – ze względu na badane zmienne bardziej lub mniej osłabiającymi wpływ małych różnic (wzmacniającymi wpływ dużych różnic) między realizacjami przypisanymi obiektom na odległość między nimi. Odległość Clarka (12) stanowi natomiast tylko wersję miary Canberry (10), w której w większym stopniu uwzględnia się wpływ pojedynczych dużych zmian i równocześnie osłabia wpływ dużych różnic rozumianych ogólnie. 3. Badanie wrażliwości miary Jeffreysa-Matusity na małe zmiany wartości zmiennych Dla trzech obiektów Ol, Or i Os przyjęto pięć różnych zestawów umownych realizacji jednowymiarowej zmiennej Xjt w okresie t. Współrzędna jednowymia-.

(9) Badanie wrażliwości miar…. 151. rowego obiektu Os różniła się od współrzędnej obiektu Or zawsze o zadaną bardzo małą liczbę równą ∆ = 0,001. Obliczono wartości odległości Jeffreysa-Matusity (7) oraz zaproponowanej modyfikacji (8) z parametrami p = 2 i q = 1 (wariant A) oraz p = 2 i q = 2 (wariant B) między obiektami Or i Os oraz obiektem Ol. Dla każdej z rozważanych miar poddano analizie bezwzględne i względne różnice wartości obliczonych odległości5, tzn. d lr(jt) i d ls(jt) (por. tabela 1). Tabela 1. Wartości odległości Jeffreysa-Matusity (7) oraz jej modyfikacji (8) z parametrami p = 2 i q = 1 (wariant A) oraz p = 2 i q = 2 (wariant B) dla różnych poziomów wartości jednowymiarowej zmiennej (umowne dane) w ustalonym okresie i stałym przyroście ∆ = 0,001 Przypadek. Wariant miary. d lr(jt). d ls(jt). jt jt dlr( ) − dls( ). I Ol = (50) Or = (80) Os = (80,001). Jeffreysa-Matusity. 3,5089. 3,5091. 0,0002. 3900,0000. 3900,1600. II Ol = (5) Or = (8) Os = (8,001). Jeffreysa-Matusity. 0,3509 39,0000. III Ol = (0,5) Or = (0,8) Os = (0,801). Jeffreysa-Matusity. wariant A wariant B. wariant A wariant B. 15210000,0000 15211248,0334. 0,1600. jt jt dlr( ) − dls( ). ∆ 0,2 160,0. 1248,0334. 1248033,4. 0,3511. 0,0002. 0,2. 39,0160. 0,0160. 16,0. 1521,0000. 1522,2483. 1,2483. 1248,3. 0,0351. 0,0353. 0,0002. 0,2. wariant A. 0,3900. 0,1534. 0,0016. 0,0013. 1,6. 1,3. IV Ol = (0,05) Or = (0,08) Os = (0,081). Jeffreysa-Matusity. 0,1521. 0,3916. 0,003509. 0,003721. 0,000212. 0,212. wariant A. 0,003900. 0,004061. 0,000001. 0,161. 0,001. V Ol = (0,005) Or = (0,008) Os = (0,009). Jeffreysa-Matusity. 0,000016. 0,000161. 0,000351. 0,000584. 0,000233. 0,233. wariant B. wariant B. wariant A wariant B. 0,000015. 0,000039. 0,000000. 0,000056. 0,000000. 0,000017. 0,000000. 0,017. 0,000. Źródło: obliczenia własne.. Oznaczenie d lr(jt) (d ls(jt))reprezentuje odległość Jeffreysa-Matusity (dla m = 1) między obiektami Ol i Or (Ol i Os) ze względu na przypisane im wartości zmiennej Xjt w okresie t. 5.

(10) Barbara Pawełek. 152. Uzyskane wyniki potwierdziły hipotezę, że zaproponowane warianty miary Jeffreysa-Matusity przy obliczaniu odległości pozwalają w większym stopniu uwzględniać małe zmiany w wypadku dużych wartości zmiennej przypisanych pewnym obiektom (por. rys. 1). a) przypadek I. b) przypadek II. 1400 1200 1000 800 600 400 200 0. J–M A. c) przypadek III. B. J–M A. B. J–M A. B. 0,0002. 0,002. 0,0002. 0,001. 0,0001. 0,001. e) przypadek V. d) przypadek IV 0,0003. 0,002. 0,000. 1,4 1,2 1,0 0,8 0,6 0,4 0,2 0,0. 0,0001 J–M A. B. J–M A. B. 0,0000. 0,0003 0,0002 0,0002. 0,0001 0,0001 0,0000. Uwaga: na osi pionowej znajdują się wartości dlr( jt ) − dls( jt ) , a symbole J-M, A i B oznaczają, odpowiednio, miarę (7), miarę (8) z parametrami p = 2 i q = 1 oraz miarę (8) z parametrami p = 2 i q = 2.. Rys. 1. Bezwzględne różnice wartości odległości Jeffreysa-Matusity (7) oraz jej modyfikacji (8) dla różnych poziomów wartości jednowymiarowej zmiennej (umowne dane) w ustalonym okresie i stałym przyroście ∆ = 0,001 Źródło: opracowanie własne..

(11) Badanie wrażliwości miar…. 153. W przypadku I obiektom Ol = (50) i Or = (80) przypisano duże wartości współrzędnych6. Obiekt Os = (80,001) powstał przez zwiększenie o zadany przyrost ∆ = 0,001 współrzędnej obiektu Or. Po obliczeniu odległości obiektów Or i Os od obiektu Ol okazało się, że niewielka zmiana współrzędnych spowodowała: – bardzo małą zmianę wartości odległości Jeffreysa-Matusity (7), – bardzo duże zmiany w wartościach rozważanych wariantów A i B miary (8). Największą bezwzględną różnicę odnotowano w wypadku zastosowania wariantu B, mniejszą – wariantu A i najmniejszą dla oryginalnej wersji odległości Jeffreysa-Matusity (7). W kolejnych rozważanych przypadkach zmniejszano wartości współrzędnych badanych obiektów tak, aby dla Ol i Or stanowiły 10% wartości z poprzedniego przypadku. Za każdym razem obiekt Os powstawał przez zwiększenie o zadany przyrost ∆ = 0,001 współrzędnej obiektu Or. Analizując uzyskane wyniki, można zauważyć, że dla wariantów A i B miary (8) wraz ze spadkiem wartości przypisanych badanym obiektom Ol i Or maleją bezwzględne różnice między odległościami obliczanymi dla par obiektów (tzn. między d lr(jt) i d ls(jt)). Równocześnie, w miarę jak zacierają się bezwzględne różnice w wynikach otrzymywanych przy stosowaniu podanych wariantów (A i B), rosną bezwzględne różnice między wartościami oryginalnej miary Jeffreysa-Matusity (7). W przypadku V, w którym obiektom Ol i Or przypisano bardzo małe wartości współrzędnych, nie obserwuje się już rozbieżności (przy zadanej dokładności) między wynikami uzyskanymi z wariantu B. Różnica występująca dla wariantu A jest natomiast bardzo mała w stosunku do wyniku obliczeń wykonanych z wykorzystaniem oryginalnej miary Jeffreysa-Matusity. Od przypadku IV zdecydowanie większe bezwzględne różnice są obserwowane dla oryginalnej miary Jeffreysa-Matusity. W tabeli 1 zamieszczono także względne różnice wartości odległości obliczanych rozważanymi miarami, przy czym punktem odniesienia był zadany przyrost ∆ = 0,001 (por. także rys. 2). Warto zauważyć, że w wypadku miary Jeffreysa-Matusity (7) względna różnica dla dużych wartości zmiennej (przypadki od I do III) utrzymuje się na poziomie zbliżonym do 20%. Dopiero od przypadku IV, w miarę zbliżania się wartości zmiennej do zera, obserwuje się powolny wzrost względnych różnic. Dla zaproponowanych wariantów miary Jeffreysa-Matusity (A i B) dzieje się inaczej. Względne różnice charakteryzują się tendencją spadkową wraz ze zmniejszaniem się realizacji zmiennej. Na uwagę zasługuje tempo tych spadków, które zdecydowanie przewyższa tempo zmian odnotowane dla oryginalnej miary Jeffreysa-Matusity. Pozostało jeszcze wyjaśnić, dlaczego spośród omawianych miar, znajdujących zastosowanie w pomiarach zarówno w skali przedziałowej, jak i ilorazowej, do badania przyjęto odległość Jeffreysa-Matusity (7). Wybór był podyktowany tym, że 6. Zapis np. Ol = (50) oznacza, że xljt = 50..

(12) Barbara Pawełek. 154. rozważane bezwzględne i względne różnice wartości w wypadku wykorzystania jednowymiarowej wersji miary Minkowskiego (1) są równe, odpowiednio, ∆ i 1. To z kolei oznacza, że zmiana tej odległości zależy od zmiany wartości zmiennej, ale nie zależy od tego, czy analizowane wartości zmiennej są małe, czy też duże. a) przypadek I 1400000 1200000 1000000 800000 600000 400000 200000 0. b) przypadek II. J–M A. B. J–M. A. B. J–M. A. B. d) przypadek IV. c) przypadek III. 0,25. 2,0. 0,20. 1,5. 0,15. 1,0. 0,10. 0,5 0. 1400 1200 1000 800 600 400 200 0. 0,05 J–M. A. B. J–M. A. B. 0,00. e) przypadek V 0,25 0,20 0,15 0,10 0,05 0,00. Uwaga: na osi pionowej znajdują się wartości dlr( jt ) − dls( jt ) / ∆, a symbole J-M, A i B oznaczają, odpowiednio, miarę (7), miarę (8) z parametrami p = 2 i q = 1 oraz miarę (8) z parametrami p = 2 i q = 1.. Rys. 2. Względne różnice wartości odległości Jeffreysa-Matusity (7) oraz jej modyfikacji (8) dla różnych poziomów wartości jednowymiarowej zmiennej (umowne dane) w ustalonym okresie i stałym przyroście ∆ = 0,001 Źródło: opracowanie własne..

(13) Badanie wrażliwości miar…. 155. Inna sytuacja ma miejsce w wypadku zastosowania miary Jeffreysa-Matusity (7). Wówczas dla m = 1 prawdziwe są następujące równania: jt jt dlr( ) − dls( ) = 2 ⋅ yljt ⋅. jt jt dlr( ) − dls( ). Δ. =. 2 ⋅ yljt ⋅. jt jt yljt + ∆ (lr ) + ∆ − yljt + ∆(lr ) − ∆ jt jt yljt + Δ (lr ) + Δ − yljt + Δ (lr ). Δ. (15). −1 . (16). które wskazują na to, że bezwzględne i względne różnice wartości w wypadku wykorzystania jednowymiarowej wersji miary Jeffreysa-Matusity zależą nie tylko od wartości ∆, ale także od yljt oraz yrjt. 4. Badanie wrażliwości miary Canberry na małe zmiany wartości zmiennych Odległość Canberry (10) oraz zaproponowaną wersję (11) z parametrami p = 2 i p = 4 zastosowano dla takich samych pięciu zestawów umownych danych jak w wypadku miary Jeffreysa-Matusity. Wyniki obliczeń zostały zamieszczone w tabeli 2 i zaprezentowane na rys. 3 oraz 4. Tabela 2. Wartości odległości Canberry (10) oraz jej modyfikacji (11) z parametrami p = 2 oraz p = 4 dla różnych poziomów wartości jednowymiarowej zmiennej (umowne dane) w ustalonym okresie i stałym przyroście ∆ = 0,001 Przypadek I Ol = (50) Or = (80) Os = (80,001) II Ol = (5) Or = (8) Os = (8,001) III Ol = (0,5) Or = (0,8) Os = (0,801). jt jt dlr( ) − dls( ). Wariant miary. d lr(jt). d ls(jt). jt jt dlr( ) − dls( ). Canberry. 0,2308. 0,2308. 0,0000. 0,0. wersja z p = 2. 0,4804. 0,4804. 0,0000. 0,0. wersja z p = 4. 0,6931. 0,6931. 0,0000. 0,0. Canberry. 0,2308. 0,2308. Δ. 0,0001. 0,1. wersja z p = 2. 0,4804. 0,4804. 0,0001. 0,1. wersja z p = 4. 0,6931. 0,6931. 0,0000. 0,0. Canberry. 0,2308. 0,2314. 0,0006. 0,6. wersja z p = 2. 0,4804. 0,4810. 0,0006. 0,6. wersja z p = 4. 0,6931. 0,6935. 0,0004. 0,4.

(14) Barbara Pawełek. 156. cd. tabeli 2 jt jt dlr( ) − dls( ). Przypadek. Wariant miary. d lr(jt). d ls(jt). jt jt dlr( ) − dls( ). IV Ol = (0,05) Or = (0,08) Os = (0,081). Canberry. 0,2308. 0,2366. 0,0059. 5,9. wersja z p = 2. 0,4804. 0,4865. 0,0061. 6,1. wersja z p = 4. 0,6931. 0,6975. 0,0044. 4,4. Canberry. wersja z p = 2. 0,2308. 0,4804. 0,2857. 0,0549. 54,9. wersja z p = 4. 0,6931. 0,7311. 0,0380. 38,0. V Ol = (0,005) Or = (0,008) Os = (0,009). Δ. 0,5345. 0,0541. 54,1. Źródło: obliczenia własne. a) przypadek II 0,00012 0,00010 0,00008 0,00006 0,00004 0,00002 0,00000. b) przypadek III. J–M A. B. J–M A. B. J–M A. B. a) przypadek V. c) przypadek IV 0,007 0,006 0,005 0,004 0,003 0,002 0,001 0,000. 0,0007 0,0006 0,0005 0,0004 0,0003 0,0002 0,0001 0,0000. 0,06 0,05 0,04 0,03 0,02 0,01. J–M A. B. 0,00. Uwaga: na osi pionowej znajdują się wartości dlr( jt ) − dls( jt ) , a symbole C, A i B oznaczają, odpowiednio, miarę (10), miarę (11) z parametrem p = 2 oraz miarę (11) z parametrem p = 4.. Rys. 3. Bezwzględne różnice wartości odległości Canberry (10) oraz jej modyfikacji (11) dla różnych poziomów wartości jednowymiarowej zmiennej (umowne dane) w ustalonym okresie i stałym przyroście ∆ = 0,001 Źródło: opracowanie własne..

(15) Badanie wrażliwości miar…. 157. W przypadkach I i II, w których badanym obiektom przypisano duże wartości, dla par obiektów Ol i Or oraz Ol i Os bezwzględne różnice między wynikami uzyskanymi oryginalną miarą Canberry (10) i wersjami zaproponowanej modyfikacji (11) są bardzo zbliżone. Zauważalne rozbieżności pojawiają się dopiero od przypadku IV, przy czym odległości obliczone na podstawie wersji podanej modyfikacji różnią się mniej niż te, które uzyskano na podstawie oryginalnej miary Canberry. Warto także zwrócić uwagę na zdecydowanie mniejszą wrażliwość na małe zmiany wartości bliskich zera wersji z większą wartością parametru p. Spośród omawianych miar znajdujących zastosowanie w pomiarach wykonanych w najsilniejszej ze skal, czyli skali ilorazowej, badaniu poddano odległość Canberry (10). Na wybór tej odległości wpłynęło to, że jednowymiarowe wersje miar Braya-Curtisa (9) i Clarka (12) mają taką samą postać jak w wypadku odległości Canberry, dlatego wnioski z zaprezentowanych rozważań są prawdziwe także dla tych dwóch miar. a) przypadek II 0,12 0,10 0,08 0,06 0,04 0,02 0,00. b) przypadek III. J–M A. B. c) przypadek IV 7 6 5 4 3 2 1 0. 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0,0. J–M A. B. J–M A. B. a) przypadek V 60 50 40 30 20 10. J–M A. B. 0. Uwaga: na osi pionowej znajdują się wartości, a symbole C, A i B oznaczają, odpowiednio, miarę (10), miarę (11) z parametrem p = 2 oraz miarę (11) z parametrem p = 4.. Rys. 4. Względne różnice wartości odległości Canberry (10) oraz jej modyfikacji (11) dla różnych poziomów wartości jednowymiarowej zmiennej (umowne dane) w ustalonym okresie i stałym przyroście ∆ = 0,001 Źródło: opracowanie własne..

(16) Barbara Pawełek. 158. Bezwzględne i względne różnice w wypadku zastosowania jednowymiarowej wersji miary Canberry przyjmują postaci:. jt jt dlr( ) − dls( ) = jt jt dlr( ) − dls( ). ∆. =. 2 ⋅ xljt ⋅ ∆. (2 ⋅ x. ljt. (2 ⋅ x. ljt. jt jt + ∆ (lr ) ⋅ 2 ⋅ xljt + ∆ (lr ) + ∆. )(. ( jt ). + ∆ lr. 2 ⋅ xljt. ) ⋅ (2 ⋅ x. ljt. ). jt + ∆ (lr ) + ∆. ). (17). (18). co oznacza, że zależą zarówno od wartości ∆, jak i xljt oraz xrjt. 5. Uwagi końcowe Szukanie wariantów miar odległości, uwzględniających w większym lub mniejszym stopniu małe różnice między dużymi lub małymi wartościami, jest bardzo ważne dla zastosowań tych miar. W niektórych badaniach duże znaczenie jest przypisywane zmiennym o rozkładzie np. prawostronnie asymetrycznym (por. np. [Rusnak, Siedlecka i Siedlecki 1982; Zeliaś 1994, 1997; Pawełek i Zeliaś 1995]). Sytuacja taka ma miejsce np. podczas wyboru zmiennych diagnostycznych. Wówczas cenna własność zmiennych, polegająca na trudnościach (np. ekonomicznych) w przyjmowaniu dużych wartości, powinna zostać uwzględniona w pomiarze odległości między badanymi obiektami. Zwiększenie o pewną wartość poziomu wskaźnika charakteryzującego się rozkładem prawostronnie asymetrycznym jest łatwiejsze przy jego niskim poziomie niż przy wysokim. Duże wartości pojawiają się sporadycznie i cechują wybitne obiekty. Trzeba zatem zadbać o wykrycie i wykorzystanie tej własności w pomiarze odległości będącej podstawą np. liniowego porządkowania lub grupowania obiektów. Literatura Ekonometria przestrzenna [1991], red. A. Zeliaś, PWE, Warszawa. Gatnar E. [1998], Symboliczne metody klasyfikacji danych, Wydawnictwo Naukowe PWN, Warszawa. Grabiński T. [1992], Metody taksonometrii, Akademia Ekonomiczna w Krakowie, Kraków. Hellwig Z. [1968], Zastosowanie metody taksonomicznej do typologicznego podziału krajów ze względu na poziom ich rozwoju i strukturę wykwalifikowanych kadr, „Przegląd Statystyczny”, z. 4. Malina A. [2004], Wielowymiarowa analiza przestrzennego zróżnicowania struktury gospodarki Polski według województw, Zeszyty Naukowe Akademii Ekonomicznej w Krakowie, nr 162, seria specjalna: Monografie, Kraków..

(17) Badanie wrażliwości miar…. 159. Pawełek B. [2006], Badanie wrażliwości wybranych miar odległości na małe zmiany wartości zmiennych [w:] Wybrane metody modelowania i prognozowania złożonych zjawisk ekonomicznych, cz. III, niepublikowane opracowanie wykonane w ramach badań statutowych, nr umowy 80/KS/2/2006/S/344, Kraków. Pawełek B., Zeliaś A. [1995], Simple Methods of Estimation of Importance of Diagnostic Variables in Taxonomic Investigation, „Statistics in Transition”, vol. 2, nr 2. Pawełek B., Zeliaś A. [1996], Obserwacje nietypowe w badaniach ekonometrycznych, „Badania Operacyjne i Decyzje”, nr 2, Wrocław. Rusnak Z., Siedlecka U., Siedlecki J. [1982], Metody badania ważności cech, Prace Naukowe Akademii Ekonomicznej we Wrocławiu, nr 215, Wrocław. Statistica PL dla Windows, t. 3: Statystyki II [1997], StatSoft Polska Sp. z o.o., Kraków. Walesiak M. [1983], Propozycja rodziny miar odległości struktur udziałowych, „Wiadomości Statystyczne”, nr 10. Zaborski A. [2001], Skalowanie wielowymiarowe w badaniach marketingowych, Wydawnictwo Akademii Ekonomicznej we Wrocławiu, Wrocław. Zeliaś A. [1994], Proste metody oceny ważności zmiennych diagnostycznych, Zeszyty Naukowe Akademii Ekonomicznej w Krakowie, nr 440, Kraków. Zeliaś A. [1997], Teoria prognozy, wyd. 3 zm., PWE, Warszawa. Testing the Sensitivity of Jeffreys-Matusita and Canberra Measures to Small Changes in the Values of Variables In this article, the author presents the results of research on the sensitivity of selected distance measures to small changes in the values of variables. In the subject literature, it is possible to find information on the sensitivity of certain measures to small changes in values that are close to zero. It would seem necessary to expand the analysis to include high-value variables. Finding distance measure variants that take into account, to a greater or lesser degree, small differences between large and small values, is very important for the application of these measures. Indeed, in some empirical research, great importance is attached to variables with, for instance, a right-sided asymmetric distribution. This situation occurs, for instance, when selecting diagnostic variables. In this case, the valuable property of variables, which consists in the difficulty of accepting large values, should be taken into account when measuring the distance between researched objects that is the basis for, among others, the linear ordering or grouping of objects. In this article, the author analyses in detail Jeffreys-Matusita and Canberra distances and the proposed modifications of these measures that change or weaken the sensitivity of the analysed distances to small changes in the values of variables..

(18)

Cytaty

Powiązane dokumenty

Dal- szy opis wytwarza wrażenie, że odkrycie spowodowało olśnienie bohatera wiersza, który zrozumiał istotę rzeczy i teraz – mimo że istota ta jest czymś negatywnym –

Nie można uogólniać problemu – mó- wiąc o antybiotykoterapii, trzeba zdefiniować, o jakim zakaże- niu mówimy (ostrym czy przewlekłym), jaki jest przebieg cho- roby (lekki

Na podstawie badania przedmiotowego błony śluzo- wej jamy ustnej stwierdzono wyczuwalne palpacyjnie zmiany o charakterze przerostu włóknistego w obrębie błony śluzowej wargi górnej

Projekt jest to przedsięwzięcie, na które składa się zespół czynności, które charakteryzują się tym, że mają:.. 

Z Szuflandii, tego spowitego kurzem i pajęczyną światka krasnali, których życie, zdaniem Machulskiego, wcale nie jest takie wesołe, jakby to się mogło wydawać

W uzasadnieniu postanowienia sąd podał, że co prawda materiał dowodowy wskazuje na duże prawdopodobieństwo, że podejrzany dopuścił się popełnienia zarzucanego

Oczywiście jednym z czynników rozwoju rynku private equity jest stopień zainteresowania małych przedsiębiorstw tego rodzaju kapitałem – im więcej własnego potencjału wykażą

Piotr: Dres (Przejściowe) Rozmiar: 146 cm, Uwagi: spodnie dresowe Piotr: Czapka (Zimowe). Piotr: