• Nie Znaleziono Wyników

DLA OBIEKTÓW OPISANYCH ZMIENNYMI Z RÓŻNYCH SKAL POMIARU- OPROGRAMOW ANIE KOMPUTEROWE

N/A
N/A
Protected

Academic year: 2021

Share "DLA OBIEKTÓW OPISANYCH ZMIENNYMI Z RÓŻNYCH SKAL POMIARU- OPROGRAMOW ANIE KOMPUTEROWE "

Copied!
7
0
0

Pełen tekst

(1)

PRACE NAUKOWE AKADEMII EKONOMICZNEJ WE WROCŁAWIU

Nr l 022 2004

TAKSONOMIA li

Klasyfikacja i analiza danych- teoria i zastosowania

Marek Walesiak

Akademia Ekonomiczna we Wrocławiu

UOGÓLNIONA MIARA ODLEGLOŚCI

DLA OBIEKTÓW OPISANYCH ZMIENNYMI Z RÓŻNYCH SKAL POMIARU- OPROGRAMOW ANIE KOMPUTEROWE

l.

Wstęp

W pracy Walesiaka 12002a] zaproponowano

uogólnioną miarę odległości

GDM (Tite Generalised Disrance Measure), w konstrukcji której wykorzystano

ideę

uogólnionego

współczynnika

korelacji

obejmującego współczynnik

korelacji li- niowej Pearsona i

współczynnik

korelacji tau Kendalla (zob. [Kendall, Buckland

1986, s. 266: Kendall 1955, s. 19]):

l ' (l)

". "' 11 2

2 L:2:w 1 a~ ·L:L:w,b~

J l /-1 l l l l

gdzie: diJ;

(s,k)

-miara

odległości (podobieństwa) nilędzy obieklamiĄ,Ą (sit

E [-1; l]).

w - wagaj-tej zmiennej spełniająca warunki

1:

w, . E (0;

m),

~"' w

1.

=

1n,

l ~jwl

i,k,l = J.. .. ,n -numer obiektu, j = l, ... ,m -numer zmiennej.

Szczegółową charakterystykę

miary

(l)

oraz rezultaty eksperymentów symula- cyjnych

pozwalających ocenić

zachowanie

się

uogólnionej miary

odległości

GDM przy

różnych

strukturach danych

zawierają

prace: [Walesiak 2002b; Walesiak.

Bąk,

Jajuga 2002: Jajuga, Walesiak,

Bąk

20031.

1 Motliwe jest stosowanie wag spełniających warunki:

w

1 e (O; l). " • L-,,, .• w1

=

l .

(2)

Stosowanie konkretnych konstrukcji miar

odległości

(l) jest

uzależnione

od skal pomiaru zmiennych. Dla zmiennych mierzonych na skali ilorazowej i (lub)

interwałowej

w fonnule

(1)

stosowane Jest podstawienie:

aw

= xv - .x.PJ

dla

p=

k. l

bl;rj =

x*' -xti dla r =i,

l •

gdzie: xil

(x9

,x

11)

-i-ta (k-ta, l-ta) obserwacja naj-tej zmiennej

(2)

Zasób infonnacji skali

porządkowej

jest nieporównanie mmejszy.

Jedyną

do-

puszczalną operacją empiryczną

na skali

porządkowej

jest zliczanie

zdarzeń

(tzn.

wyznaczanie liczby relacji

większości, mniejszości

i

równości).

W

związku

z tym w konstrukcji miernika

odległości

musi

być

wykorzystana infonnacja o relacjach, w jakich

pozostają

porównywane obiekty w stosunku do

pozostałych

obiektów ze zbioru

A.

Dla zmiennych mierzonych na skali

porządkowej

w fonnule

(l)

stosuje

s1ę

podstawienie [Walesiak 1993, s. 44-45]:

l i dla

xi/

>

xl'l

(x.~;~ >

x1 )

a~(b1ti)= O dla xil=xP

1

(x

41

=x,

1

},dlap=k,/; r=i.l.

- l d)

a

Xq

<

X Pi (X"q

<

Xlj)

(3)

Wtedy w mianownik'"ll wzoru

(l)

p1erwszy czynnik oznacza

hczbę

relacji

więk­

szości

i

mniejszości określoną

dla obiektu i, czynnik drugi

zaś hczbę

relacji

więk­

szości

i

mniejszości określoną

dla ob1ektu k.

Zasób infonnacji skali nominalneJ zezwala na zliczanie

zdarzeń.

tzn. wyzna- czanie liczby relacji

równości

i

różności.

W

związku

z tym w konstrukcJi miernika

odległości

mus1

być

wykorzystana tego typu infonnacja. W mianowniku wzoru

(l)

czynniki iloczynu

oznaczają liczbę

relacji

równości

i

różności określoną

dla obiek-

m n "' n

tu i oraz k, zatem l: L w

1

a! =L: L: w 1 b~

=

m(n l) .

i l l l i-1 l ·l

Dla zmiennych mierzonych na skal i nominalnej w fonnule (l) stosuje

się

pod- stawienia (zob. fWalesiak 2003]):

a) dla porównywanych obiektów

i,

k

[

l

dla x" =xą

a ·b -

•IQ tv - -

l dla

XiJ -.e XAI '

b) dla

pozostałych

obiektów

(l=

I, ... ,n;l = i,k) l dla

(4)

(5)

(3)

Jeśli

w zbiorze

znajdują się

tylko zmienne nomina lne wielostanowe,

formuła

(l) z podstawienirum (4) i (5) przyjmuje

postać:

~.,

w.d

111 ~"'

w d

111 LJ j -J J

=

LJ j l j

L:7

1wJ

m

(6) gdzie: dJj

1 określone

wzorem:

d

C/ l --

gdy

między

obiektami dla wyników pomiaru O na zmiennejj-tej zachodzi relacja równości

gdy

między

obiektami dla wyników pomiaru na zmiennej j-tej zachodzi relacja

różności

2. Miara

odległości GDM

dla obiektów opisanych zmiennymi z

różnych skał

pomiaru

(7)

Konstrukcja miary

odległości dił.,

która

umożliwia uwzględmenie

w badaniach zmiennych mierzonych na skalach ilorazowej

(R). przedziałowej (!), porządkowej

(0) oraz nominalnej (N), bazuje na propozycji zawanej w pracy [Bock, Diday i in.

2000, s. 152]:

w

1

diJ.v + w 2 d~ + K)d~ + w .A~

d

11

(8)

"'J + w

2

+ w

3

+

w~

gdzie: N (0, l, R) - podzbiór zmiennych nominalnych

(porządkowych. przedziało­

wych, ilorazowych),

d:. d~ -

miara

odległości

(l) z podstawieniem (2),

d,~

-miara

odległości (l)

z podstawieniem (3), d: - miara

odległości (l)

z podstaw ieniami (4) i (5).

w

1

(w

2,

wJt w

4 )

-wagi przypisane

odległościom

wyznaczonym na podstawie zmiennych nominalnych

(porządkowych, przedziałowych,

ilorazowych),

w

1•

w

2 ,

w

1,

w

4

E (O, m); w, +

w2

+ w

3

+ w

4

= m (liczba zmiennych).

Wagi w"

w2

w

3,

w

4 mogą oznaczać liczbę

zmiennych w poszczególnych pod- zbiorach lub

merytoryczną ważność

poszczególnych podzb1 orów zmiennych w wyznaczeniu miary

odległości

d,t: o postaci (8).

Formuła

o postaci (8)

uśrednia odległości cząstkowe

wyznaczone na podstawie poszczególnych podzbiorów zmiennych (nominalnych,

porządkowych. interwało­

wych i ilorazowych). Miara

odległości

diic o postaci (8):

-może być

stosowana w sytuacji. gdy obiekty opisane

zmiennymi mierzo-

nymi na skali ilorazowej.

interwałowej, porządkoweJ

oraz nominalnej,

(4)

.. ·-··· ---·- -

.

-przybiera

wanośc1

z

przedziału

[0; lJ.

Waność

O oznacza.

że

dla porównywa- nych obiektów i, k

między odpowiadającymi

sobie obserwacJami na zmiennych

zachodzą

tylko relacje

równoścL

-spełnia

warunki:

nieujemności, zwrotności. symetryczności

(d la wszystkich i,k = l, ...

,n).

- IstnieJe przynajmniej jedna para obiektów w zbiorze badanych obiektów

A,

dla której obserwacje na zmiennych nie

identyczne (dla

uniknięcia

zera w mia- nowniku d,~, d,~. d:),

-nie zmienia

wartości

w wyniku transformacji

wartości

zmiennych za

pomocą

dozwolonego na danej skali

przekształcenia

matematycznego (na skali nominalnej:

funkcja wzajemnie jednoznaczna: na skali

porządkowej:

dowolna

ściśle

monoto- nicznie

rosnąca

funkcja; na skali

interwałowej:

funkcja liniowa; na skali ilorazo- weJ: funkcJa liniowa jednorodna).

3. Charakterystyka programu komputerowego dla uogólnionej miary

odległości GDM

Program komputerowy

GDM2

dla uogólnionej miary

odległości.

napisany w

ję­

zyku C++, pracuje

w

systemie operacyjnym Windows 95/98/ME/2000/XP. Do-

stępna

jest polska oraz angielska wersja

językowa

programu

GDM.

W wersji 2.0 program

GDM umoż.liwia realizację następujących zadań

obliczeniowych;

-obliczenie macierzy

odległości między

obiektami opisanymi zmiennymi tylko z jednej skali pomiaru lub z

różnych

skal pomiaru (rezultatem jest symetryczna macierz

odległości),

-obliczenie macierzy

odległości między

obiektami ze specjalnymi polami wy- maganymi w programie SPSS oraz obliczenie macierzy

odległości między

obiek- tami w formacie programu S-PLUS (program

GDM umożliwia więc współpracę,

w trybie off-line, z pakietem statystycznym SPSS i S-PLUS),

- liniowe

uporządkowanie

obiektów (rezultatem jest wektor

odległości

obiek- tów od wzorca).

-

uwzględnienie

skal pomiaru zmiennych (nominalna,

porządkowa,

przedzia-

łowa,

ilorazowa),

-normalizację

zmiennych dla skali

prLedziałowej

oraz ilorazowej.

-definiowanie wag zmiennych (jednakowych i

zróżnicowanych).

- definiowanie

współrzędnych

wzorca (z

uwzględnieniem

zmiennych o charak- terze stymulant,

destymułant

i nominant) w przypadku liniowego

porządkowania

obiektów.

: Koncepcja programu GDM została opracowana przel M. Walesiaka i A. Bąka. Autorem podsta-

wowego kodu programu w języku

c-

jest A. Bąk.

(5)

Program korzysta z danych zapisanych w plikach (tabelach) baz danych standardu

DBF

(dBase, FoxPro)

łub DB

(Paradox). Dane do

obliczeń mogą być

czytane z plików

DBF

lub

DB,

natomiast wszystkie wyniki

obliczeń

oraz nowo tworzone tabele danych

zapisywane w fonnacie

DBF

5 . W celu przeniesienia wyników

obliczeń

z programu

GDM

do innych programów (np. Microsoft® Word 97/ 2000/2002; Microsoft®

Exceł

97/2000/2002)

należy zastosować następujące postępowanie:

l) plild zapisane w programie

GDM naJeży otworzyć

w programie Microsoft®

Access 2000/2002,

2) w programie Microsoft® Access 2000/2002 z listy

poleceń

Plik

należy

wy-

brać

Pobierz dane

zewnętrzne.

a

następnie

Importuj,

3) zaimportowany plik z programu

GDM można

w programie Microsoft® Ac- cess 2000/2002

wyeksportować

(Piik l Eksportuj ... ) w jednym z oferowanych formatów, a

następnie odczytać

w odpowiednim programie. Istnieje

też możliwość

przeniesienia (skopiowania)

zawartości

pliku z programu Microsoft® Access 2000/2002 do innego programu za

pomocą

Schowka Windows.

Po uruchomieniu programu

GDM wyświetJane

jest okno

główne,

w k1órym do-

stępne są

listy

poleceń:

Plik, Edycja,

Odległości,

Okno i Pomoc. W celu

rozpoczę­

cia pracy z programem

należy otworzyć

plik

zawierający

dane lub

utworzyć nową tabelę,

do której dane

zostaną

wprowadzone. Gdy obiekty opisane

zmiennymi mierzonymi na

różnych skałach

pomiaru,

naJeży

z listy

poleceń Odległości wybrać moduł

obliczeniowy

Między

obiektami l Zmienne z

różnych

skal (zob. rys. l).

Rys. l. Olcno dialogowe Odległości między obiektami- zmienne z różnych skal

(6)

W oknie tym

dostępne są następujące

zestawy opcji

słu1.ące

do skonfigurowania sposobu obliczania macierzy

odległości według

wzoru

(8):

• Skale pomiaru zmiennych. Zestaw ten

umożliwia

zaklasyftkowanie zmiennych do odpowiednich skal pomiaru;

• Wagi zmiennych. Zestaw ten

umożliwia

wybór sposobu

ważenia

zmien- nych. Istnieje

możliwość

zdefiniowania wag jednakowych i zrótnicowanych dla poszczególnych zmiennych;

• Normalizacja zmiennych. Zestaw ten

umożliwia

przeprowadzenie norma- lizacji

wartości

zmiennych w celu sprowadzenia ich do

porównywalności.

Trans-

formację normalizacyjną

stosuje

się

wówczas. gdy zmienne mierzone

na skali

przedziałowej

i ilorazowej. W odniesieniu do skali nominalnej i

porządkowej

nie zachodzi potrzeba normalizacji. na ich

wartościach

bowiem nie wyznacza

się

ani relacji

równości różnic

i

przedziałów.

ani stosunków;

• Wagi

odległości.

Zestaw ten

umożliwia

wybór sposobu

ważenia odległości

wyznaczonych na podstawie poszczególnych podzbiorów zmiennych z

różnych

skal pomiaru (zob.

wyjaśnienia

do wzoru (8));

• Macierz

odległości

zapisz w pliku - pole wyboru

umożliwiające

zapisanie w pliku macierz}

odległości

wyznaczonej za

pomocą

miary

GDM

o postaci (8).

4 . Uwagi

końcowe

W artykule scharakteryzowano

uogólnioną miarę odległości GDM

(The Genera- lised Disrance Measure), która

umożliwia uwzględnienie

w badaniach zmiennych mierzonych na skalach ilorazowej, przedziaJowej,

porządkowej 1

nominalnej. Na-

stępnie

zaprezentowano

wersję

miary

GDM umotliwiającą

pomiar

podobieństwa

obiektów opisanych zmiennymi mierzonymi na

różnych

skalach pomiaru. Dodat- kowo w prezentowanym opracowaniu scharakteryzowano

możliwości

programu komputerowego

GDM

w wersji 2.0 oraz zaprezentowano opis tej

części

programu komputerowego, który pozwala

obliczać

macierz

odległości między

obiektami opi- sanymi zmiennymi z rótnych skal pomiaru

według

wzoru (8). Program

dostępny

jest na stronie: http: l /www. a.e. jgora.. pllkei i/ forml. htrnl.

Literatura

Bock H.H .. Diday E. (Eds.), Analysis of Symbolic DaJ a, Springer-Verlag, Berlin, Heidelberg 2000.

Jajuga, K .• Walesiak, M.,

Bąk.

A.,

On

rhe

Generał

Disrance Measure,

[In:]

M. Schwaiger, O. Opitz (Eds.), Exploratory Data Analysis in Empirical Re-

search, Springer-Verlag, Berlin, Heidelberg 2003. s. 104-109.

(7)

Kendall M.G., Rank Correlation Methods,

Gńffin,

London 1955.

Kenelali M.G .. Buckland W.R.,

Słownik

terminów

statystycZJ~ych,

PWE, Warszawa 1986.

Walesiak M .• StatystycVta

anali~a

wielowymiarowa w badaniach marketingowych.

Prace Naukowe Akademit Ekonomicznej nr 654, Sena: Monografie i Opraco- wania

nr

101, AE,

Wrocław

1993.

Walesiak M .• Propozycja uogólnionej miary

odległości

w statystycznej analizie wie- lowymiarowej, (w:] Statystyka regionalna w

służbie samorządu

Lokalnego i bizne- su, red. J. Paradysz, Internetowa Oficyna Wydawnicza, CenLrum Statystyki Re- gionalnej, Akademia Ekonomiczna,

Poznań

2002(a), s. 115-121.

Walesiak M., Uogólniona miara

odległości

w statystycznej analizie wielowymia- rowej. Akademia Ekonomiczna,

Wrocław

2002(b).

Walesiak M .. Miara

odległości

obiektów opisanych vniemtymi mierzonymi na

róż­

nych skalach pomiaru, XXXIX Konferencja Ekonometryków, Statystyków i Matematyków Akademii Ekonomicznych

Wrocławia,

Krakowa i Katowic.

Lą­

dek Zdrój, 2-5 marca 2003. Akademia Ekonomiczna,

Wrocław

2003.

Walesiak M.,

Bąk

A., ODMfor Windows. Version 2.0, 2003.

Walesiak M.,

Bąk

A., Jajuga K., Uogólniona miara

odległosci

- badania symula-

C)~ne.

Prace Naukowe Akademii Ekonomicznej nr 942, AE,

Wrocław

2002.

s. 116-127.

A GENERAL DISSIMILARITY MEASURE OF OBJECTS BASED ON DIFFERENT MEASUREMENT SCALES OF V ARIABLES

- THE CHARACTERISTICS OF COMPUTER PROGRAM

Summary

In lhe paper of Walesiak [2002] the proposal of the generalised distance meas-

ure

GDM

is given. This measure can be used for data measured on ratio, interval,

and ordinal scale. In the paper of Walesiak [2003] the widen version of

GDM,

con-

tains possibilily of application of data measured on nominal scale, and lhe con-

struction of

generał

dissimilarity measure of objecLS based on different measure-

ment scales of variables, is discussed. In article new extensions of

GDM

for Win-

dows compuler program are discussed.

Cytaty

Powiązane dokumenty

W klasycznym modelu zakłada się, że zmienne objaśnia- jące są kontrolowane, czyli deterministyczne, a zmienna y jest obserwowana z pewnym błędem, czyli jej obserwacja jest

- obliczeni e macierzy odl egłości między obiektami opisanymi zmien- nymi tylko z jednej skali pomiaru łub z różnych skal pomiaru (rezultate m jest symetryczna macierz

Kodowanie kategorii (metody: zastąpienie kategorii rangami, kodowanie liniowe lub nieliniowe), potraktowanie zmiennych porządkowych jako zmienne mierzone na skali

impuls, który rozprzestrzenia się na przedsionki serca, jednak nie dociera do mięśnia komór. Rytm zastępczy - powstaje w innym ośrodku niż główny rytm serca - wówczas,

Emisyjna tomografia komputerowa pojedynczych fotonów - SPECT (Single Photon Emission Computed Tomography). Pozytonowa tomografia emisyjna - PET (Positron

Zastosowanie skali opracowanej w jednym kraju do pomiaru wskaźnika w innym kraju powinno być poprzedzone badaniem równoważności pomiaru instrumentu badawczego, na

It is also aimed to assess the usefulness of pH -based indices used in various national and international soil classification systems th at can be applied to classify the soils o

Pozwala ocenić w jakim stopniu wykres punktów indywidualnych jest bliski pewnej prostej lub czy zmiana jednej cechy powoduje proporcjonalną zmianę wartości drugiej