• Nie Znaleziono Wyników

Wymuszanie wyższej wartości korelacji odległościowej

4. Nowa metoda selekcji zmiennych w analizie skupień

4.2. Wymuszanie wyższej wartości korelacji odległościowej

Wartości WKO pomiędzy parami zmiennych tracą swoją zdolność dyskryminacyjną w sensie wykrywania zmiennych istotnych dla struktury skupień wraz ze wzrostem liczby wszystkich zmiennych. Ten fakt wynika w prosty sposób z wartości różnic pomiędzy centrami sąsiednich skupień przedstawionymi w tablicy 1.3. Jak zauważono w tamtym paragrafie struktury skupień na małej liczbie wymiarów istotnych dla struktury stają się nierozróżnialne. Nawet w przypadku zbioru z np. 6 zmiennymi może zdarzyć się, że WKO dla niektórych par zmiennych jest bliskie zeru i nic z takiej wartości nie można wywnioskować. Gorsza jest również zdolność dyskryminacyjna korelacji odległościowej w przypadku najmniejszej tj. równej 2, liczby skupień. Możemy jednak znacznie poprawić zdolność dyskryminacyjną WKO, na przykład, ograniczając się do obliczania jego wartości tylko dla par zmiennych z obszarów większego zagęszczenia zbioru. Kierujemy się następującym rozumowaniem: jeżeli wartość WKO będzie obliczana w oparciu o pary obserwacji z obszarów o większym zagęszczeniu, to w przypadku istnienia struktury skupień te obszary określają skupienia w związku z czym przynależność obserwacji do różnych skupień może dać efekt wyższej wartości

WKO. W ten sposób próbujemy wymuszać wyższą wartość WKO. Takie

podejście będzie bardzo pomocne jeśli będziemy mogli dzięki niemu odróżnić czy dodatnia wartość WKO obliczona dla wszystkich obserwacji była konsekwencją skorelowania zmiennych czy istnienia struktury skupień. Jeśli dodatnia wartość WKO była konsekwencją skorelowania zmiennych, to ponowne obliczenie WKO na zagęszczonym „centrum” zbioru nie powinno w znacznym stopniu zmienić wartości WKO.

Technik powierzchniowo-gęstościowych wyszukiwania obszarów zbioru o większym zagęszczeniu można znaleźć w literaturze wiele. Przykładem może być metoda zamieszczona w książce Gordona (1999). Metoda ta ma charakter sekwencyjny. Polega na kolejnym wybieraniu obserwacji, które mają najmniejszą sumę odległości do np. piątego najbliższego sąsiada. Obserwacje wybierane są sekwencyjnie spośród tych, które jeszcze nie zostały wybrane. A zatem, w miarę wybierania kolejnych obserwacji rozrzedzają się obszary gęste i zaczynają być wybierane obserwacje z obszarów, które na początku miały

mniejsze zagęszczenie. Parametrem determinującym rezultat tej metody jest numer najbliższego sąsiada. Tym parametrem można łatwo sterować w zależności od liczebności zbioru danych. Dla zbiorów składających się z kilkuset obiektów z pewnością dobra wartością jest numer 5. Dla zbiorów składających się z kilku tysięcy obiektów można tę liczbę zwiększyć do np. 20 (powinno to wystarczyć dla wykrycia zarówno kilku lub nawet kilkunastu skupień zarówno mniejszych jak i większych). Drugim parametrem jest odsetek liczby obiektów, które zostaną wybrane. Metodę tę oznaczmy symbolem

Sk,

gdzie k oznacza liczbę najbliższych sąsiadów każdego obiektu (w wspomnianych rozważaniach Gordona 5), zaś

oznacza odsetek liczby obiektów, które zostały wybrane w tej metodzie o charakterze sekwencyjnym (np. połowa).

Zaproponujmy inną metodę wybierania obszarów zbioru o większym zagęszczeniu obserwacji. Rozważmy np. 5% najmniejszych odległości pomiędzy parami obserwacji. Zanotujmy dla każdej obserwacji i ze zbioru liczbę

 i

lb

mówiącą o tym ile razy ta obserwacja występowała wśród wszystkich rozważanych par. Uporządkujmy obserwacje malejąco według liczby

lb i

. Chcąc uwzględnić, na przykład, najbardziej zagęszczoną połowę zbioru uwzględniamy tylko pierwszą połowę obserwacji w uporządkowanym ciągu

 i

lb

. Ta technika różni się tym od techniki Gordona, że wybór obszaru jest zdeterminowany przez część najmniejszych odległości (5%) nie zaś przez wskazanie liczby najbliższych sąsiadów. Metodę tę oznaczmy symbolem

 ,

G

gdzie

oznacza odsetek par z najmniejszymi odległościami (w powyższych rozważaniach 5%),

oznacza odsetek liczby obiektów o najwyższych wartościach

lb i

(w powyższych rozważaniach połowa).

Zupełnie innym w charakterze sposobem wymuszania większej (ogólniej – o zadanej wartości) korelacji odległościowej jest badanie jej wartości przez ograniczenie się tylko do tych wartości, które zostały obliczone dla wskazanych ciągów l par obserwacji (por. def. 4.1). Możemy narzucić warunek by, na przykład, ograniczyć się do wyznaczenia wartości WKO jako średniej arytmetycznej tylko tych spośród kilkuset (lub n) powtórzeń, dla których wartość była dodatnia. Takie postępowanie ma na celu zbadanie stabilności wartości WKO i jest wariantem badania zróżnicowania wartości WKO , z których obliczana jest średnia. Techniką tę również możemy zastosować w celu rozstrzygnięcia czy dodatnia wartość WKO obliczona dla wszystkich obserwacji była konsekwencją skorelowania zmiennych czy istnienia struktury skupień. Kierujemy się następującym rozumowaniem. Jeżeli wartość WKO wyraźnie większa od zera jest konsekwencją skorelowania zmiennych, to uśrednianie

Tabela 4.9 Wartości WKO przy różnych rodzajach wymuszeń gęstościowych wyższej wartości WKO. . Cztery pierwsze zmienne tworzą strukturę skupień, cztery ostatnie

są parami silnie skorelowane WKL=0,75.

Pary zmiennych WKO dla całego zbioru danych 1, 2 0,34 0,30 0,59 0,44 0,39 0,36 1, 3 0,12 0,11 0,08 0,17 0,05 0,12 1, 4 0,42 0,42 0,42 0,42 0,52 0,38 2, 3 0,39 0,42 0,43 0,37 0,49 0,38 2, 4 0,27 0,25 0,32 0,27 0,22 0,29 3, 4 0,21 0,28 0,19 0,28 0,26 0,22 5, 6 0,50 0,51 0,44 0,46 0,53 0,51 5, 7 0,42 0,41 0,40 0,44 0,44 0,40 5, 8 0,39 0,37 0,44 0,44 0,45 0,39 6, 7 0,56 0,60 0,49 0,51 0,50 0,53 6, 8 0,49 0,48 0,53 0,55 0,51 0,49 7, 8 0,52 0,55 0,49 0,48 0,59 0,50

Pominięte pary zmiennych miały wartości w całym wierszu mniejsze od 0,15. Źródło: obliczenia własne.

tylko dodatnich wartości nie zmieni znacząco końcowej wartości, bo tylko nieliczne spośród kilkuset ciągów dawały ujemną wartość WKO. Jeżeli zaś wartość WKO wyraźnie większa od zera jest konsekwencją istnienia struktury skupień, to szereg kilkuset wartości WKO jest, na ogół, o wiele bardziej zróżnicowany i uśrednienie tylko wartości dodatnich może wyraźnie zwiększyć wartość końcową. Rozumując podobnie możemy narzucić warunek obliczania

WKO przez uśrednienie tylko tych wartości, dla których współczynnik korelacji

liniowej spełnił określony warunek (np. był dodatni/ujemny). Postępując w ten sposób kierujemy się następującą logiką. Jeżeli dodatnia wartość WKO była konsekwencją skorelowania zmiennych, to wartości WKO będą podążały dokładnie śladem wartości WKL i obliczanie WKO przez uśrednianie tylko tych wartości, którym odpowiadają dodatnie wartości WKL nie zmieni znacząco końcowej wartości WKO. Jeśli zaś dodatnia wartość WKO była konsekwencją istnienia struktury skupień, to dodatnie wartości WKL nie mają tak ścisłego związku z odpowiadającymi im wartościami WKO, w wobec czego te ostatnie mogą, po uśrednieniu, dać inną wartość końcową.

G (5% ,50% ) G (5% ,75% ) G (10% ,50% G (10% ,75% S (5, 50% )

Tabela 4.10 Wartości WKO przy różnych rodzajach wymuszeń mechanicznych wyższej wartości WKO. Cztery pierwsze zmienne tworzą strukturę skupień, cztery ostatnie

są parami silnie skorelowane WKL=0,75.

Pary zmiennych WKO dla całego zbioru danych WKO dla 50% obiektów najbliższych jednemu z krańcowych obiektów WKO dla 50% obiektów najbliższych drugiemu z krańcowych obiektów WKO dla 50% obiektów mających najmniejsze wartości pierwszej zmiennej pary WKO dla 50% obiektów mających najmniejsze wartości pierwszej zmiennej pary 1, 2 ./. 0,32 0,18 0,40 ./. 1, 3 0,12 0,19 0,08 0,17 0,32 1, 4 ./. 0,47 0,21 ./. 0,22 2, 3 0,29 ./. 0,45 0,37 0,18 2, 4 0,27 0,25 0,32 0,17 0,25 3, 4 0,21 ./. 0,19 0,28 0,16 5, 6 0,53 0,51 0,44 0,46 0,29 5, 7 0,42 0,37 0,38 0,40 0,34 5, 8 0,37 0,37 0,29 0,44 0,28 6, 7 0,49 0,40 0,49 0,32 0,42 6, 8 0,45 0,41 0,33 0,35 0,38 7, 8 0,50 0,41 0,40 0,38 0,34

Symbol ./. oznacza wartość mniejszą od 0,15. Pominięte pary zmiennych miały wartości w całym wierszu mniejsze od 0,15.

Źródło: obliczenia własne.

Dla przykładu rozważmy zbiór n=200 obiektów opisanych przez 8 zmiennych. Cztery pierwsze zmienne tworzą dość wyraźną (overlap=0,1) strukturę 4 skupień o jednakowych liczebnościach, zaś cztery ostatnie zmienne są silnie skorelowanymi (WKL=0,75) parami zmiennymi o standaryzowanym rozkładzie normalnym.

Liczy zawarte w tabeli 4.9 pozwalają na wyciągnięcie następujących wniosków:

- wymuszenia metodą

Sk,

(ostatnia kolumna) dają bardzo stabilne wartości WKO niewiele wyższe od wartości podstawowej; wzrosty te mają jednak bardzo podobny charakter dla par zmiennych istotnych oraz dla nieistotnych ale skorelowanych;

- najbardziej wyraźne wzrosty wartości WKO daje technika

G ,

, ale niestety podobnie, wzrosty te mają jednak bardzo podobny charakter dla par

zmiennych istotnych oraz dla nieistotnych ale skorelowanych; dla par zmiennych istotnych wzrosty są znacznie bardziej niestabilne tzn. w niektórych wariantach są znaczne, a w niektórych nie są nawet wzrostami lecz spadkami.

Rys. 4.2 Zbiór punktów ze strukturą siedmiu skupień. Obszar zaznaczony wycinkiem koła, to połowa zbioru najbliższa jednemu z punktów krańcowych.

Źródło: Opracowanie własne.

Kolejną techniką wymuszania wyższej wartości korelacji odległościowej, bardzo pożyteczną w przypadku nieco większej liczby skupień może być technika wyboru podzbioru całego obszaru zmienności dwóch cech, na którym będzie obliczany WKO. Jak widać z liczb zawartych w tabeli 4.6 korelacja odległościowa traci swą zdolność dyskryminacyjną wraz ze wzrostem liczby skupień do stopnia, w którym trudno odróżnić strukturę skupień od rozkładu równomiernego. Można zaradzić tej wadzie wybierając obszar na którym będzie obliczany WKO ale nie w sensie obszaru o większym zagęszczeniu obserwacji. Obszar ten można wybrać mechanicznie, na przykład jedną połowę obserwacji określoną przez wartość średnią jednej ze zmiennych z rozważanej pary, lub obszar centralny zakresu zmienności cechy. W przypadku skali pomiarowej, na której nie ma dobrej średniej można posłużyć się łatwo kryterium połowy odległości od ustalonego (np. krańcowego obiektu) lub ¼ maksymalnej odległości od obiektu równooddalonego od dwóch krańcowych obiektów zbioru (w przypadku słabszych skal pomiarowych). Po wybraniu takiego obszaru liczba

skupień znacznie się zmniejszy czego konsekwencją powinny być znacznie wyższe wartości WKO. Ilustracją tej idei jest rysunek 4.2. Przez obiekty krańcowe rozumiemy dwa obiekty o największej odległości w zbiorze wszystkich odległości pomiędzy parami obiektów. Obliczanie WKO na zbiorze zaznaczonym przez wycinek koła może dać znaczny wzrost w przypadku w zbiorze istnieje struktura skupień, ponieważ na mniejszej liczbie skupień

Tabela 4.11 Techniki wymuszania wyższej/innej wartości WKO stosowane w dalszej części pracy. Oznaczenie

techniki Definicja techniki

1. G(5%,50%)

Ograniczenie zbioru, na którym obliczany jest WKO do zbioru 50% wszystkich obiektów występujących na początku ciągu wszystkich obiektów uporządkowanych malejąco względem częstości występowania obiektów wśród 5% par z najmniejszymi odległościami.

2. G(5%,75%)

Ograniczenie zbioru, na którym obliczany jest WKO do zbioru 75% wszystkich obiektów występujących na początku ciągu wszystkich obiektów uporządkowanych malejąco względem częstości występowania obiektów wśród 5% par z najmniejszymi odległościami.

3. G(10%,50%)

Ograniczenie zbioru, na którym obliczany jest WKO do zbioru 50% wszystkich obiektów występujących na początku ciągu wszystkich obiektów uporządkowanych malejąco względem częstości występowania obiektów wśród 10% par z najmniejszymi odległościami.

4. G(10%,75%)

Ograniczenie zbioru, na którym obliczany jest WKO do zbioru 75% wszystkich obiektów występujących na początku ciągu wszystkich obiektów uporządkowanych malejąco względem częstości występowania obiektów wśród 10% par z najmniejszymi odległościami.

5. S(5,50%)

Ograniczenie zbioru, na którym obliczany jest WKO do zbioru 50% wszystkich obiektów wybieranych sekwencyjnie. W każdym kroku wybierany jest obiekt, który ma najmniejszą sumę odległości do 5 najbliższych sąsiadów i obiekt ten usuwany jest ze zbioru przed wyborem obiektu w kroku następnym.

6. Pkr1

Ograniczenie zbioru, na którym obliczany jest WKO do zbioru połowy wszystkich obiektów, najbliższych jednemu z dwóch obiektów krańcowych zbioru.

7. Pkr2

Ograniczenie zbioru, na którym obliczany jest WKO do zbioru połowy wszystkich obiektów, najbliższych drugiemu z dwóch obiektów krańcowych zbioru.

korelacja odległościowa ma lepsze zdolności dyskryminacyjne. W przypadku gdy para zmiennych nie posiada struktury skupień wybór mechaniczny jakiegokolwiek spójnego, dużego obszaru z całego zakresu zmienności nie powinien wpłynąć na wartość WKO obliczaną na tym obszarze.

Tabela 4.10 zawiera przykładowe zmiany WKO otrzymane dla zbioru n=200 obiektów opisanych przez 8 zmiennych, dla czterech rodzajów wymuszeń mechanicznych. Cztery pierwsze zmienne tworzą dość wyraźną (overlap=0,1) strukturę 8 skupień o jednakowych liczebnościach, zaś cztery ostatnie zmienne są silnie skorelowanymi (WKL=0,75) parami zmiennymi o standaryzowanym rozkładzie normalnym. Z liczb zawartych w tej tablicy wynika, że metoda mechanicznego wybierania podzbioru zbioru danych może dać bardzo dobre efekty dla wzrostu wartości WKO w przypadku liczby skupień większej od kilku, struktury trudnej do rozróżnienia od rozkładu równomiernego.

W niektórych przypadkach, z wartości nieznaczącej (poniżej 0,15) WKO wzrasta do wartości rzędu 0,4. Mankamentem jest jednak to, że wartość WKO dla par zmiennych nieistotnych ale skorelowanych, również wzrasta choć w znacznie mniejszym stopniu. Ponadto wadą jest to, że wzrosty wartości WKO w przypadku par zmiennych istotnych występują dość rzadko. Przeprowadzono badanie na zestawie PROB zbiorów (por. 1.4.1) z wyraźnymi i prostymi strukturami skupień. Zbadano podział dwuwymiarowych (dla każdej pary zmiennych) obszarów zmienności na dwie połowy, określone przez zbiory obiektów najbliższych każdemu z punktów krańcowych (tak jak w 3 i 4 kolumnie tabeli 4.10). Ponad 30% wzrosty wartości WKO (dla całego zbioru mającego wartość wyższą od 0,3) zaobserwowano tylko w przypadku 17% zbiorów. Ten wynik jednak wystarcza do tego, by poprawić efektywność korelacji odległościowej, gdyż wzrosty miały miejsce głównie w przypadku dużej liczby (6) skupień.

Należy zaznaczyć, że ocenienie wielkości zmian wartości WKO przy pomocy przedstawionych technik jest łatwiejsze gdy wartość WKO dla całego zbioru jest umiarkowanie wysoka, tj. wyższa od 0,3 ale niezbyt bliska 1. Wówczas możemy posługiwać się kryterium względnego wzrostu. W przypadku małych wartości WKO ocenianie zmian i porównywanie zmian dla różnych par zmiennych jest bardziej kłopotliwe.

Wszystkie zbadane techniki wymuszania wyższej/innej wartości WKO są zdefiniowane w tabeli 4.11. Stosując korelację odległościową oraz techniki wymuszania innej/wyższej jej wartości można skonstruować bardzo efektywną dwustopniową metodę selekcji zmiennych. Zadaniem realizowanym w pierwszym stopniu jest pogrupowanie zmiennych na dwa rozłączne podzbiory na podstawie wartości WKO oraz WKL dla par zmiennych (bądź liczniejszych podzbiorów zmiennych). W drugim stopniu wystarczy rozstrzygnąć który z podzbiorów ma silniejsze cechy świadczące o istnieniu struktury skupień przy

pomocy kryterium większej zmiany wartości WKL. Taka metoda osiągnęła bardzo wysokie wskaźniki efektywności na zestawie PODST zbiorów danych generowanych – pamięć i precyzja były powyżej 95%. Problemem pozostaje jednak to czy duża zmiana wartości WKL na różnych podzbiorach zbioru danych

Rys. 4.3 Przykład dwuwymiarowego zbioru obiektów bez struktury skupień, z diametralnie różnymi wartościami WKL na obu częściach.

jest cechą wystarczającą do tego by stwierdzić istnienie struktury skupień w całym zbiorze. Przykład przedstawiony na rysunku 4.3 pokazuje, że odpowiedź na to pytanie jest raczej negatywna. Z drugiej jednak strony, w problemach empirycznych nie spotyka się zmiennych o tak wyszukanych postaciach rozkładów. Wymuszanie wyższej wartości WKO zostanie wykorzystane w pierwszym etapie algorytmu selekcji do grupowania zmiennych w homogeniczne podzbiory zmiennych. Przez WKO7

u,v

oznaczać będziemy najwyższą z siedmiu wartości WKO odpowiadających siedmiu technikom wymuszeń z tabeli 4.11.