• Nie Znaleziono Wyników

4.4. Parowanie statystyczne

4.4.1. Wybór zmiennych parujących

Duża liczba cech parujących nie zawsze pozwala na konstrukcję najlepszego mode-lu w sensie predykcji dołączanej zmiennej [D’Orazio 2012]. Wybór zmiennych parujących ze zbioru wektora zmiennych wspólnych może zostać dokonany dwojako:

 w sposób ekspercki;

 za pomocą metod statystycznych.

Jednym z najprostszych podejść jest wyłączenie ze zbioru zmiennych wspólnych tych cech, które nie wyjaśniają zmienności zmiennych dołączanych w sposób istotny, a pozostawienie tych cech, których moc predykcyjna dla zmiennych dołączanych jest dostatecznie wyso-ka. W praktyce przeprowadza się analizę współzależności między cechami w zbiorze A oraz w zbiorze B. Jako zmienne parujące wyznacza się podzbiór cech istotnie korelujący zarówno z cechami , jak i [Singh et al. 1988; Cohen 1991]. Współzależność między cechami wspólnymi i dołączanymi można rozpatrywać jedno-, jak i wielowymiarowo. Najprostszą metodą jest analiza współzależności między parami zmiennych lub . W zależności od poziomu pomiaru badanych par zmiennych, zasto-sować należy różne miary współzależności [Agresti 1990].

W przypadku, gdy każda z analizowanych zmiennych mierzona jest na poziomie nominal-nym, najczęściej stosowaną miarą współzależności jest test niezależności . Statystyka testowa ma postać ∑ ∑ ( ̂ )

̂

, gdzie oraz ̂ oznaczają, odpowiednio, liczebności empiryczne i teoretyczne w tabeli kontyngencji cech ( ) [Witkowski 2009]. Siłę zależności mierzy się najczęściej za pomocą współczynnika kontyngencji C-Pearsona wyrażonego wzorem √ . Współczynnik ten jest unormowa-ny w przedziale 〈 〉, gdzie 0 oznacza brak zależności, zaś 1 zależność doskonałą [Paradysz 2004].

W przypadku, gdy obie analizowane cechy mierzone są na poziomie porządkowym, zasto-sować można miary współzależności przeznaczone dla tego rodzaju cech. Do najczęściej używanych zaliczyć można współczynnik Goodmana i Kruskala, d-Somersa (asymetrycz-ne), d-Somersa (symetrycz(asymetrycz-ne), – Kendalla, – Kendalla oraz współczynnik korelacji rang Spearmana [Górniak, Wachnicki 2010]. Wszystkie te miary oparte są na porównaniu rang dla wartości poszczególnych obserwacji. We wzorach wykorzystuje się różne rodzaje par:

154

 pary niezgodne (o różnej wartości rangi dla ) - ;

 pary wiązane (o tej samej wartości rangi) dla cechy , ale o różnej wartości dla - ;

 pary wiązane (o tej samej wartości rangi) dla cechy , ale o różnej wartości dla - ;

 pary wiązane ze względu na obie zmienne - .

Miary współzależności dla cech porządkowych wyrażają się następującymi wzorami:

 Goodmana i Kruskala: – ignoruje rangi powiązane i przyjmuje warto-ści z przedziału 〈 〉. Wartość 1 osiąga, gdy wszystkie przypadki skoncentrowane są na przekątnej tabeli kontyngencji. Wartość 0 nie oznacza niezależności cech.

 d-Somersa :

asymetryczne, dla jako zmiennej zależnej: ;symetryczne:

( );

Obie miary uwzględniają wiązania, a ich interpretacja jest analogiczna jak w przypadku Goodmana i Kruskala.

 Kendalla:

√( )( ) – przybiera wartości zbliżone do współ-czynnika korelacji liniowej Pearsona (zwłaszcza, gdy liczba kategorii każ-dej z analizowanych zmiennych jest większa od 5); jest unormowany w przedziale 〈 〉.

 Kendalla:

( ), gdzie N oznacza liczbę jednostek, zaś m mniej-szą z liczby wierszy lub kolumn w tabeli kontyngencji; jest unormowa-ny w przedziale 〈 〉. Jest trudno interpretowalunormowa-ny ze względu na silną zależność wartości od wielkości analizowanej tabeli.

 Współczynnik korelacji rang Spearmana jest wariantem współczynnika korelacji li-niowej Pearsona. W swojej najprostszej formie jest to współczynnik korelacji Pear-sona obliczony dla rang obserwacji. Unormowany jest w przedziale 〈 〉, gdzie 0 oznacza brak zależności.

W przypadku, gdy jedna z cech jest mierzona na poziomie porządkowym (np. X), a druga co najmniej interwałowym (np. Y), jako miarę ich współzależności wykorzystuje się najczę-ściej współczynnik Pearsona: ( ̅ ̅) , gdzie n to liczebność próby, to

licz-155 ba jednostek, dla których , , ̅ to średnia dla cechy Y, a ̅ to średnia warun-kowa dla cechy Y dla . Miarę tę interpretuje się jako część wariancji zmiennej ilo-ściowej wyjaśnionej przez przynależność do danej kategorii zmiennej porządko-wej. W przypadku, gdy zmienną zależną jest zmienna jakościowa, wartość współczynnika

pozwala ocenić skuteczność przewidywania przynależności obserwacji do kategorii tej zmiennej na podstawie wartości jakie przyjmuje zmienna ilościowa. Jest unormowa-na w przedziale 〈 〉. Stosowaunormowa-na jest także dla dwóch zmiennych ilościowych, jeżeli cha-rakter związku między nimi nie jest liniowy.

Jeżeli obie analizowane cechy mierzone są na poziomie co najmniej interwało-wym, a związek pomiędzy nimi jest liniowy100, do analizy współzależności zastosować można współczynnik korelacji liniowej Pearsona. Wyrażony jest on wzorem

̅ ̅

i unormowany jest w przedziale 〈 〉.

Tabela 4.5. Wybrane miary związku między dwiema zmiennymi

Współczynnik Poziom pomiaru Zakres Uwagi

Chi-kwadrat N,N Stosowany do testowania hipote-zy o niezależności zmiennych Phi-Yule’a N,N Unormowany tylko dla tabel 2x2

C-Pearsona N,N

V-Kramera N,N

Goodmana i Kruskala N,N 0 nie wyklucza zależności

– Somersa P,P Uwzględnia pary wiązane

– Kendalla P,P Może osiągnąć -1 lub 1 tyl-ko w tabelach kwadratowych – Kendalla P,P – Pearsona I,I – Spearmana P,P Pearsona I,N Uwaga:

N – zmienna mierzona na skali nominalnej, P – na skali porządkowej, I – na skali co najmniej interwałowej

Źródło: na podstawie [Górniak, Wachnicki 2010]

Zależność między cechami wspólnymi a dołączanymi zwykle nie jest jednowymiarowa. Wartości zmiennych dołączanych zależą zwykle od łącznego wpływu różnych zmiennych wspólnych. Bardziej złożone metody wyboru zmiennych parujących wymagają więc zasto-sowania metod wielowymiarowej analizy statystycznej. Służą one do redukcji liczby

100 Hipotezę o liniowości związku między analizowanymi zmiennymi zweryfikować można np. za pomocą testu na liniowość funkcji regresji dwóch zmiennych [Witkowski 2009].

156 nych parujących bez utraty informacji. Do najczęściej wykorzystywanych metod wielowy-miarowych w wyborze zmiennych parujących należą regresja krokowa, metody hierarchicz-nej analizy skupień, drzewa regresyjne i klasyfikacyjne [D’Orazio et al. 2006].

W przypadku, gdy zmienne są mierzone na poziomie co najmniej interwałowym, do wyboru zmiennych parujących można zastosować metody regresji krokowej ze zmiennymi jako zmiennymi niezależnymi. Tworzy się w takim przypadku modele regresji ̂( ) oraz ̂( ) stosując dowolne metody redukcji liczby zmiennych niezależnych (np. metoda kroko-wa wprzód i wstecz, metoda Hellwiga itp.).

Z zagadnieniem regresji związane jest zjawisko współliniowości cech. Wynika ono z silnej korelacji między zmiennymi niezależnymi i niesie za sobą wiele niekorzystnych konse-kwencji [Gatnar, Walesiak 2009]:

 niemożliwy staje właściwy pomiar siły oddziaływania zmiennych objaśniających na zmienną objaśnianą,

 oceny wariancji estymatorów są zawyżone,

 wartości statystyk testowych t testu istotności parametrów równania regresji dla zmiennych skorelowanych są małe, podczas gdy statystyka F testu istotności całego wektora parametrów regresji wskazuje na „istotność” modelu jako całości,

 oszacowania są wrażliwe na niewielkie zmiany liczby obserwacji. Skutki występowania współliniowości101

mogą powodować błędne wyniki analizy regresji krokowej. W takich przypadkach najczęściej stosuje się metody hierarchicznej analizy sku-pień wykorzystującej miary odległości między zmiennymi [D’Orazio et al. 2006].

Jeżeli zmienna dołączana jest cechą jakościową lub istnieje nieliniowy związek między ce-chą dołączaną, a zmiennymi wspólnymi, dobrym narzędziem wyboru zmiennych parujących są drzewa klasyfikacyjne i regresyjne (Classification And Regression Trees, CART, por. Gatnar, Walesiak [2004] oraz [2009]; Rószkiewicz [2002] oraz [2012]). Metody te służą do podziału próby na klasy obserwacji o homogenicznych wartościach zmiennej objaśnianej. Wynik końcowy przedstawiony jest w formie drzewa składającego się z „korzenia” (przed-stawianego u góry wykresu) oraz „gałęzi” prowadzących do kolejnych węzłów. Im wyżej na wykresie pojawia się dana zmienna, tym większy ma ona wpływa na zmienną objaśnianą.

101 Do badania występowania współliniowości najczęściej wykorzystuje się współczynnik VIF (variance

infla-tion factor, współczynnik inflacji wariancji) wyrażony wzorem , gdzie to współczynnik deter-minacji liniowej w modelu, w którym zmienną objaśnianą jest , a zmiennymi objaśniającymi wszystkie po-zostałe zmiennych [Gruszczyński et al. 2012].

157 Dodatkową zaletą metod CART jest ich nieparametryczność – nie istnieją żadne założenia co do rozkładu analizowanych cech.

Wielość sytuacji, z którymi spotykają się badacze, różne rodzaje rozważanych zmiennych oraz celów dokonywania integracji danych powoduje, że wybór odpowiedniej metody po-winien zostać przeprowadzany bardzo starannie, z uwzględnieniem ich za-let i ograniczeń. W dalszej części rozdziału opisane zostaną szczegółowo poszczególne po-dejścia metodologiczne.