• Nie Znaleziono Wyników

Metoda badawcza oraz procedura analizy skupień Warda

2. Identyfikacja ekonomicznych determinant produkcji mleka w makroregionach

1.2. Metoda badawcza oraz procedura analizy skupień Warda

Grupowanie obiektów jest zadaniem bardzo złożonym ze względu na mnogość czynników wpływających na uzyskane rozwiązanie, wśród których można wymienić liczbę grupowanych jednostek (konieczność stosowania innych metod grupowania zbiorów o kilkudziesięciu jednostkach i innych o setkach tysięcy), liczbę cech zmiennych opisujących daną jednostkę (problem wymiarowości), zastosowane skale pomiarowe wszystkich cech, strukturę przestrzenną jednostek, istnienie braków danych lub wartości skrajnych (outliers). Każdy z tych czynników powoduje konieczność indywidualnego podejścia do problemu

151 grupowania konkretnego przypadku. Wspomniana różnorodność jest także przyczyną istnienia wielu algorytmów grupowania, opartych na różnych pomysłach.

W celu odnalezienia podobieństw pomiędzy zróżnicowanymi gospodarstwami mlecznymi w regionach Unii Europejskiej zastosowano analizę skupień. Pojęcie analizy skupień (ang. cluster analysis) wprowadził R. C. Tryon w 1939 roku w książce o tym samym tytule [Tryon 1939]. Termin został wówczas przyjęty i zaakceptowany przez naukowców amerykańskich w naukach niebiologicznych. Analiza skupień obejmuje współcześnie różnego rodzaju techniki i algorytmy numeryczne (rodzinę statystycznych metod klasyfikacji), które pozwalają na odnajdywanie i ocenianie wyodrębnionych skupień, klasyfikację i eksplorację danych [Stanisz 2007, s. 114]. Innymi słowy, analiza skupień służy do eksploracyjnej analizy danych, której celem jest ułożenie obiektów w grupy zgodnie z zasadą podobieństwa wewnętrznego i niepodobieństwa zewnętrznego. Chodzi o to, aby stopień powiązania obiektów należących do tej samej grupy był jak największy, a z obiektami z pozostałych grup jak najmniejszy. Analizę skupień wykorzystuje się do wykrywania struktur w danych bez wyprowadzania interpretacji czy wyjaśnienia przyczyn powstałego podziału. Do głównych celów analizy skupień zalicza się:

• uzyskanie jednorodnych grup badanych obiektów, pozwalających na wyodrębnienie ich zasadniczych cech czy uzyskanie klasyfikacji obiektów typowych. Należy w tym miejscu odnotować, że to w gestii badacza znajduje się dobór kryteriów grupowania, którymi najczęściej są analizowane zmienne (można jednakże wykorzystywać tę metodę do grupowania zmiennych, choć do tego służy szereg innych metod, wśród których można wymienić analizę czynnikową czy skalowanie optymalne),

• odkrycie nieznanej struktury analizowanych danych, prowadzące do klasyfikacji obiektów typowych,

• redukcja dużej liczby danych pierwotnych do kilku podstawowych kategorii, służących do dalszej analizy,

• porównywanie obiektów wielocechowych poprzez wskazanie grupy najbardziej podobnej do danej.

Wybór konkretnej metody analizy skupień warunkowany jest charakterem zmiennych oraz oczekiwaną postacią rezultatów. Algorytmy analizy skupień dzieli się na cztery podstawowe kategorie, wśród których wyróżnia się: hierarchiczne, niehierarchiczne i rozmyte metody analizy skupień oraz biclustering. W przypadku metod hierarchicznych skupienia generują się na zasadzie, że na każdym poziomie skupienia tworzona jest grupa składająca się z grup otrzymanych w poprzednich krokach łączenia, poczynając od pojedynczych obserwacji

152 najbardziej podobnych do siebie do coraz większych grup lub na odwrót. Należą do nich procedury aglomeracyjne i deglomeracyjne. Te pierwsze tworzą na początku macierz podobieństwa klasyfikowanych obiektów, by w kolejnych krokach łączyć w skupienia obiekty (lub uprzednio utworzone grupy) najbardziej do siebie podobne. Z kolei w procedurach deglomeracyjnych analizę rozpoczyna się od jednego skupienia obejmującego wszystkie badane obiekty, które w kolejnych krokach zostaje podzielone na mniejsze i bardziej jednorodne skupienia aż do momentu, gdy każdy obiekt stanowi osobne skupienie. Wśród niehierarchicznych metod najczęściej używaną jest metoda k-średnich, w której na początku z góry określa się liczbę skupień, a algorytm przyporządkowuje poszczególne obserwacje do grup w celu zminimalizowania zmienności wewnątrz skupień i zmaksymalizowania jej między skupieniami. W ramach metod rozmytej analizy skupień – np. metody c-średnich – jeden element można przydzielać do więcej niż jednej kategorii z pewnym prawdopodobieństwem przynależności. Biclustering, inaczej zwany dwustopniową analizą skupień (ang. 2-way cluster analysis), działa natomiast równocześnie na obiekty i cechy obiektów. Metoda ta sama automatycznie proponuje najlepsze rozwiązanie, czyli liczbę skupień, pozwalającą na analizę zarówno zmiennych o charakterze ilościowym jak i nominalnym [Naukowiec 2014].

Ważnym krokiem w analizie skupień jest wybór metody pomiaru odległości, określającej stopień podobieństwa (lub niepodobieństwa) obiektów lub grup obiektów. W metodzie hierarchicznej w procedurze aglomeracji przy formowaniu skupień wykorzystywane są miary rozbieżności lub odległości pomiędzy obiektami. Najbardziej powszechnym sposobem obliczenia odległości pomiędzy obiektami w przestrzeni wielowymiarowej jest stosowanie odległości euklidesowej. W przestrzeni wielowymiarowej miara ta wyznacza rzeczywistą odległość geometryczną pomiędzy obiektami w przestrzeni. Oblicza się ją następująco:

'()*+ł'ść(%, /) = { (% − / )2 }½ (9)

Odległości euklidesowe (oraz kwadraty odległości euklidesowych) można wyliczyć w oparciu o dane surowe, a nie na podstawie danych standaryzowanych. Niemniej jednak w przypadku niestosowania standaryzacji duży wpływ na odległości mogą mieć różnice jednostek pomiędzy wymiarami, na podstawie których określane są odległości. Może to skutkować otrzymaniem zupełnie innych wyników analizy skupień. Dodanie do analizy nowych obiektów (mogących się okazać obiektami odstającymi) nie ma wpływu na odległość pomiędzy dwoma dowolnymi obiektami z pierwotnego zbioru. Odległość euklidesową można podnosić do kwadratu, aby przypisać większą wagę obiektom, które są bardziej oddalone.

153 Oprócz odległości euklidesowej można zastosować także szereg innych metod wyznaczania odległości, do których należą:

• odległość miejska (Manhattan, City block), stanowiąca sumę różnic mierzonych wzdłuż wymiarów. W większości przypadków daje ona podobne wyniki jak zwykła odległość euklidesowa, jednakże w przypadku tej miary wpływ pojedynczych dużych różnic (przypadków odstających) jest stłumiony,

• odległość Czebyszewa, stosowna w przypadkach, gdy chcemy zdefiniować dwa obiekty jako "inne"(różniące się od siebie w jednym dowolnym wymiarze),

• odległość potęgowa, służąca zwiększeniu lub zmniejszeniu wzrastającej wagi, przypisanej do wymiarów, w przypadku których odpowiednie obiekty bardzo się różnią. Jeśli zdefiniowane przez badacza parametry r i p są równe 2, to odległość ta jest równa odległości euklidesowej,

• niezgodność procentowa przydatna, gdy dane dla wymiarów objętych analizą są z natury dyskretne [Statsoft Electronic Statistic Textbook 2014].

Na pierwszym etapie, gdy każdy obiekt reprezentuje swoje własne skupienie, a odległości między tymi obiektami definiuje się przy pomocy wybranej miary odległości. Do określania odległości między nowymi skupieniami, które powstaną z powiązanych obiektów służą zasady wiązania lub aglomeracji, określające kiedy dwa skupienia są na tyle podobne, aby można było je połączyć. Wyróżnia się metody:

• pojedynczego wiązania (najbliższego sąsiedztwa), gdzie odległość między dwoma skupieniami określa się na podstawie odległości pomiędzy dwoma najbliższymi obiektami (najbliższymi sąsiadami) należącymi do różnych skupień. Zgodnie z tą zasadą obiekty tworzą skupienia łącząc się w ciągi, a wynikowe skupienia formują długie "łańcuchy",

• pełnego wiązania (najdalszego sąsiedztwa), w której odległość między skupieniami zależy od największej odległości między dwoma dowolnymi obiektami należącymi do różnych skupień (najdalszymi sąsiadami). Jest ona stosowana w przypadkach, kiedy obiekty formują naturalnie oddzielone "kępki". Nie nadaje się natomiast do sytuacji, kiedy skupienia są wydłużone lub mają naturę "łańcucha",

• średnich połączeń, gdzie odległość między dwoma skupieniami stanowi średnią odległość między wszystkimi parami obiektów należących do dwóch różnych skupień. Jest ona efektywna w przypadku, gdy obiekty formują naturalnie oddzielone "kępki", ale nadaje się także do skupień wydłużonych, mających charakter "łańcucha",

154 • średnich połączeń ważonych, różniącą się od metody średnich połączeń uwzględnieniem w obliczeniach wielkości odpowiednich skupień (tzn. liczbę zawartych w nich obiektów) jako wagę. Jest używana w przypadku uzasadnionych podejrzeń, że liczności skupień są wyraźnie nierówne,

• środków ciężkości, w której odległość między dwoma skupieniami jest określona jako różnica między środkami ciężkości skupień, czyli średnim punktom w przestrzeni wielowymiarowej zdefiniowanej przez te wymiary [Sneath i Sokal 1973],

• ważonych środków ciężkości (mediany), różniąca się od poprzedniej wprowadzeniem do obliczeń wag w celu uwzględnienia różnic między wielkościami skupień (tzn. liczbą zawartych w nich obiektów). Stosowana jest, gdy istnieją (są podejrzenia, że istnieją) znaczne różnice w rozmiarach skupień;

• Warda, w której do oszacowania odległości między skupieniami wykorzystuje się analizę wariancji. W ramach tej metody zmierza się do minimalizacji sumy kwadratów odchyleń dowolnych dwóch skupień, które mogą zostać uformowane na każdym etapie [Ward 1963]. Jest ona uznawana za bardzo efektywną, chociaż zmierza do tworzenia skupień o małej wielkości.

Ze względu na fakt, że zbiór obiektów można zwykle pogrupować na bardzo wiele sposobów, jedne z nich mogą być „lepsze” a inne „gorsze”. Ponieważ pojęcia te nie są jednoznaczne, konieczne jest stosowanie obiektywnych kryteriów oceny jakości wyróżnionych skupień (wyróżnia się kryteria zewnętrzne, wewnętrzne i względne). Każdorazowo po przeprowadzeniu analizy skupień należy więc sprawdzić, czy powstałe skupienia charakteryzują się rozłącznością pod względem wyróżnionych cech. W literaturze przedmiotu prezentowanych jest wiele rożnych metod pozwalających na zmierzenie dopasowania dendrogramu wyznaczonego dla procedury aglomeracyjnej grupowania hierarchicznego do macierzy odległości lub podobieństwa.

Ocena jakości grupowania może dotyczyć porównania uzyskanych wyników prezentowanych w formie wyjściowej macierzy odległości do macierzy odległości uzyskanej dla danej strategii grupowania, prezentującej poziomy łączenia, na których pary jednostek pojawiły się po raz pierwszy w tym samym skupieniu. Najbardziej znanym współczynnikiem pozwalającym na ocenę stopnia dopasowania macierzy odległości D i macierzy dendrogramu Cdendr jest współczynnik korelacji kofenetycznej (cophenetic correlation coefficient CPCC) wprowadzony w 1962 roku przez R. R Sokala i F. J. Rohlfa. [Sokal i Rohlf 1962]. Inny współczynnik pozwalający na ocenę stopnia dopasowania dendrogramu do macierzy odległości (współczynnik Goodmana-Kruskala – Goodman-Kruskal gamma coefficient, gamma index)

155 został zaproponowany w 1954 roku przez L.A. Goodmana i W.H. Kruskala [1954] do oceny zgodności uporządkowań cech wyrażonych na skali porządkowej. W obszernej literaturze tematu proponuje się także inne współczynniki zgodności dla cech wyrażonych na skali porządkowej. K. Migdał-Najman i K. Najman [2013] zauważają, że wielu autorów proponowało także wskaźniki oparte na różnicach odległości (podobieństwa) w dwóch porównywanych macierzach. Wymieniają oni wśród nich: J. B. Kruskala (1964), J. C. Gowera (1966, 1967, 1970), L. Guttmana (1968), J. A. Hartigana (1967), C. J. Jardinea, N. Jardine’a i R. Sibsona (1967, 1968), J. B. Kruskala wraz z J. D. Carroll (1969), J. W. Sammona (1969), A. J. B. Andersona (1971), P. H. A. Sneatha i R. R. Sokala (1973), B. Everitta (1978), A. Balickiego (2009) i S. T. Kalinowskiego (2009).

Do oceny rezultatów uzyskanej klasyfikacji w oparciu o informacje pochodzące z analizowanego zbioru może również służyć tzw. wskaźnik sylwetkowy (Silhouette index - SI, Silhouette coefficient, SIL index) zaproponowany przez P.J. Rousseeuw w 1987 roku [Rousseeuw 1987]. Wartość wskaźnika S(i) można zinterpretować jako wskaźnik jakości otrzymanej struktury grupowej. Wyraża się on wzorem:

2( ) =

(3( ) 4( ))

( 4 [4( );3( )]) (10)

gdzie:

a(i) – jest średnią odległością obiektu i od pozostałych obiektów wyróżnionej dla danego podziału klasy P,

b(i) – jest średnią odległością obiektu i od obiektów z klasy R położonej najbliżej tego obiektu, zgodnie z przyjętą klasyfikacją.

Wartość wskaźnika S(i) przyjmuje wartość z przedziału < 0,1 >, a za poziom krytyczny przyjęto wielkość 0,50 [Gatnar i Walesiak 2004].

Do celów rozprawy wykorzystano hierarchiczną analizę skupień. Spośród możliwych do zastosowania technik użyto procedury aglomeracyjnej, w której na początku analizy każdy obiekt stanowi odrębne skupienie, a następnie najbliższe sobie obiekty łączone są w nowe skupienia (tzw. grupy wyższego rzędu), aż do uzyskania jednego skupienia [Ostasiewicz 1999]. Odległości między skupieniami powstałymi z połączonych obiektów określone zostały przy wykorzystaniu metody Warda, która szacuje odległości między skupieniami na podstawie analizy wariancji. Uzyskane wyniki sprawdzono wskaźnikiem sylwetkowym Silhouette.

156

2. Zróżnicowanie produkcji mleka w makroregionach Unii Europejskiej w 2011 roku