• Nie Znaleziono Wyników

Analiza skupień jako metoda segmentacji zachowań przedsiębiorstw ze względu na wybór lokalizacji

Badania empiryczne klastra meblarskiego, kotlarskiego i motoryzacyjnego

6.10. Analiza skupień jako metoda segmentacji zachowań przedsiębiorstw ze względu na wybór lokalizacji

w regionie wielkopolskim

6.10.1. Założenia teoretyczne

Pojęcie analizy skupień (ang. cluster analysis)33 zostało po raz pierwszy wprowadzone w pracy Tryona, w roku 1939 [Vermunt, Magidson 2000]. Analiza skupień w swej istocie obejmuje kilka różniących się między sobą algorytmów klasyfikacji podobnych obiektów lub cech przy założeniu, że liczba i forma (po-stać) kształtowanych skupień jest nieznana. Formę danego skupienia (grupy) wyznacza się na podstawie parametrów skupienia, tj. wartości średnich, warian-cji i kowarianwarian-cji. Jednocześnie w analizie wykorzystuje się interpretację geome-tryczną danych [Kaufman, Rousseeuw 1990]. Celem analizy jest przede wszystkim uporządkowanie obserwowanych danych w sensowne struktury danych. Innymi słowy, analiza skupień jest narzędziem do eksploracyjnej analizy danych, przy której następuje ułożenie obiektów w grupy w taki sposób, że stopień powią-zania obiektów z obiektami należącymi do tej samej grupy jest największy, a z obiektami z pozostałych grup jest najmniejszy. Analiza skupień może być wykorzystywana do wykrywania struktur w danych bez wyprowadzania inter-pretacji/wyjaśnienia [Hill, Lewicki 2006].

W analizie w zakresie klasyfikacji podobnych obiektów i cech możemy wy-różnić następujące metody:

• aglomeracja,

• grupowanie obiektów i cech (grupowanie blokowe),

• grupowanie metodą k- średnich,

• grupowanie EM.

Pierwsza metoda bazuje na algorytmie grupowania obiektów w coraz to większe zbiory (skupienia), z zastosowaniem pewnej miary podobieństwa lub odległości. Typowym wynikiem tego typu grupowania jest hierarchiczne drzewo.

Druga metoda (oparta na grupowaniu obiektów i cech) przydaje się w stosunko-wo rzadkich okolicznościach, gdy oczekujemy, że zarówno przypadki, jak i zmienne jednocześnie przyczyniają się do odkrywania sensownych układów skupień. Z kolei metoda grupowania k – średnich różni się od metod aglomeracji i grupowania obiektów tym, że przy jej pomocy można utworzyć k – skupień, w możliwie największym stopniu różniących się od siebie. Należy wspomnieć, że optymalna liczba skupień nie jest znana z góry i powinna być wyliczana na podstawie danych. Klasyczny algorytm k-średnich został spopularyzowany

33 Choć w statystyce analiza skupień sprowadza się do wyznaczania pewnych klastrów na bazie badanych obiektów, przyjęto określenie analiza skupień, a nie analiza klastrowa.

przez Hartigana [Hartigan 1975]. Podstawa algorytmu jest stosunkowo prosta.

Przy ustalonej liczbie (pożądanej lub przyjętej hipotetycznie) k –skupień, obser-wacje przypisujemy do skupień tak, aby średnie w skupieniach (dla wszystkich zmiennych) były jak najbardziej od siebie różne. Ostatnia z wyróżnionych metod EM opiera się już na algorytmie, pozwalającym obliczyć prawdopodobieństwa przynależności do skupień, przy założeniu jednego lub wielu rozkładów prawdo-podobieństwa. Celem algorytmu jest maksymalizacja ogólnego prawdopodobień-stwa (wiarygodności danych), dla danego podziału na skupienia. W odróżnieniu od klasycznej implementacji k-średnich, algorytm EM może być stosowany zarówno do zmiennych ilościowych, jak i jakościowych. Wyniki analizy skupień obliczone metodą EM są na ogół inne niż obliczone metodą k-średnich. Ta ostat-nia wyznacza skupieostat-nia. Algorytm EM nie wyznacza przyporządkowaostat-nia obser-wacji do klas, lecz prawdopodobieństwa klasyfikacyjne. Inaczej mówiąc, każdą obserwację można zaliczyć do każdego ze skupień z określonym prawdopodo-bieństwem [Hill, Lewicki 2006]. Algorytm analizy skupień metodą EM został szczegółowo opisany w pracy przez Witten i Frank [2001].

Warto zaznaczyć, że analiza skupień nie jest testem statystycznym, ale „ko-lekcją” różnych algorytmów, które „grupują obiekty w skupienia”. Dlatego też w odróżnieniu od wielu innych procedur statystycznych, metody analizy skupień są stosowane przeważnie wtedy, gdy nie dysponujemy żadnymi hipotezami a priori, natomiast jesteśmy nadal w fazie eksploracyjnej naszych badań. Testo-wanie istotności statystycznej w tradycyjnym rozumieniu tego pojęcia nie znaj-duje tutaj zastosowania, nawet w przypadkach, gdy podawane są poziomy p (jak w grupowaniu metodą k-średnich) [Hill, Lewicki, 2006].

Zakres aplikacji ww. analizy jest szeroki. Na przykład, w dziedzinie medycyny grupowanie chorób, metod leczenia lub symptomów chorób może prowadzić do wielu użytecznych klasyfikacji. W psychiatrii poprawna diagnoza symptomów takich jak paranoja, schizofrenia itd. jest konieczna dla udanej terapii. W arche-ologii badacze, stosując techniki analizy skupień, usiłują pogrupować narzędzia kamienne, akcesoria pogrzebowe itd. Mówiąc ogólnie, zawsze wtedy, gdy nale-ży poklasyfikować „dunale-ży” zasób informacji w sensowne grupy, analiza skupień okazuje się wartościowym narzędziem.

6.10.2. Wyniki analizy

W przeprowadzonej analizie skupień, punktem wyjścia była wstępnie utwo-rzona macierz odległości wszystkich obserwacji. Podstawą do wyznaczenia tej macierzy był miernik tzw. odległości (odwrotności podobieństwa) pomiędzy obiektami. Na jej podstawie ustalono najmniejsze odległości pomiędzy poszcze-gólnymi badanymi jednostkami.

Badania empiryczne klastra meblarskiego, kotlarskiego i motoryzacyjnego 157

Na etapie pierwszym dokonano wyboru najmniejszej wartości w macierzy odległości pomiędzy badanymi jednostkami (przedsiębiorstwami). Jednostki te zostały połączone w pierwsze skupienie. Drugi etap obejmował wyznaczenie odległości dla zredukowanego zbioru jednostek, w którym jako odrębny obiekt występuje utworzone skupienie. Dla utworzonego skupienia w tym pozostałych jednostek konieczne było wyznaczenie nowych odległości – między powstałym skupieniem i poszczególnymi jednostkami w badanej zbiorowości. Następnie w nowej macierzy odległości, ponownie wskazano najmniejszą wartość. Jed-nostki, które charakteryzowały tę odległość, tworzyły kolejne skupienie. Kolejne etapy powtarzano dotąd, aż wszystkie jednostki (przedsiębiorstwa) połączono w jedno n – elementowe skupienie.

Dendogram drzewa z liczbą skupień, jaki wykorzystano w analizie, pozwolił ustalić odległości euklidesowe pomiędzy badanymi obiektami (przedsiębior-stwami) (por. rysunek 6.1).

Dendogram utworzono, wykorzystując metodę Warda, opartą na minimum zróżnicowania wartości cech stanowiących kryteria przeprowadzanej segmenta-cji, względem wartości średnich skupień tworzonych w kolejnych krokach34. Odległości, jakie zaobserwowano pomiędzy obiektami, wykazały, że wartością graniczną tych odległości (na poziomie, której powinno się wstrzymać dalszą fuzję jednostek) jest wartość 100. Ponad jej poziomem równym 100, odległość pomiędzy obiektami była już znacząca. Na tym też etapie analizy, przerwano proces wyodrębniania35 kolejnych skupień.

Dodatkowo w ramach wyodrębniania skupień wykorzystano fuzję, która pozwo-liła połączyć odległości stanowiące podstawę generowania kolejnych skupień.

W tym przypadku homogeniczne grupy otrzymano na podstawie obserwacji linii krzywej fuzji. Na rysunku 6.2 w miejscach, gdzie linia jest płaska, dodatkowy przyrost informacji (w wyniku przyłączenia kolejnych elementów do istniejącej grupy) jest niewielki.

Przeprowadzenie obliczeń metodą k – średnich wymagało określenia a priori liczby segmentów k. Liczbę segmentów wyznaczono częściowo na podstawie obserwacji z dendogramu drzewa, wykresu odległości wiązania oraz liczby usta-lonych w projekcie badawczym segmentów. Dalej obliczono już odległości każdej jednostki od wyznaczonych środków ciężkości k – skupień. Rozdzielenie jedno-stek na k – grup przebiegało poprzez porównanie jednojedno-stek położonych najbliżej siebie. Ostateczne wyznaczenie środków ciężkości dla utworzonych skupień polegało na obliczeniu wartości średnich zmiennych, które stanowiły podstawę grupowania.

34 Na rysunku 6.1, na osi OX zamieszczono numery kolejnych przedsiębiorstw partycypujących w badaniach. Ze względu na niekompletność danych, co po części przekłada się na niewiarygod-ność odpowiedzi, wyeliminowano firmy oznaczone numerami 20, 23, 27, 33, 51.

35 Wyodrębnienie homogenicznych grup uzyskano m.in. w wyniku obcięcia poszczególnych gałęzi dendogramu w miejscach o najmniejszej ilości połączeń.

Rysunek 6.1. Rysunek 6.2.

Źródło: Opracowanie własne na podstawie badań ankietowych.

Badania empiryczne klastra meblarskiego, kotlarskiego i motoryzacyjnego 159

Na podstawie rysunku 6.3 można wywnioskować, że skupienie z nr 2 osiąga wysokie poziomy wartości ze względu na zmienną 1 („dostęp do rynku zbytu w ogóle) i 2 („bliskość kluczowych klientów”). Najniższe wartości średnich, charakteryzuje skupienie 3. W tym też skupieniu znalazło się najwięcej przed-siębiorstw z klastra motoryzacyjnego. Poza tym wartości średnich skupień różnią się między sobą, w każdym badanych obszarze36. Prawidłowość tę zaobserwo-wano już na etapie konstrukcji testów statystycznych do pytania 6.

Ze względu na ograniczenia pojawiające się przy konstrukcji wykresu śred-nich skupień, podano na osi OX jedynie skrócone wersje każdej ocenianej kate-gorii (tj. przyczyny lokalizacji) (por. rysunek 6.3).

Rysunek 6.3.

Źródło: Opracowanie własne na podstawie badań ankietowych.

W celu sprawdzenia różnic pomiędzy zmiennymi w odniesieniu do wygene-rowanych skupień zastosowano test F. Pokazał on, w jaki sposób poszczególne zmienne silnie lub słabo różnicowały dane skupienia przy odpowiednim pozio-mie istotności p=0,05. Z tabeli nr 1 wynika, że w zakresie poszczególnych sku-pień (najsilniej różnicujących podmioty) pod względem czynników lokalizacji jest: 1 („dostęp do rynku w ogóle”), 2 („bliskość kluczowych klientów”).

Z kolei najsłabiej różnicującymi zmiennymi są: 8 („duże znaczenie lokalnego kontekstu/otoczenia – przechwytywanie lokalnej wiedzy, informacji z

36 Tytułem wyjaśnienia warto dodać, że wskazane skupienia nie są tożsame z badanymi kla-strami.

nia”), 6 („dostępność specyficznych zasobów – charakterystycznych dla danej lokalizacji”). Pozostałe czynniki (różnicujące badane przedsiębiorstwa) miesz-czą się w przedziale średnich wartości od 23,83 do 15,27.

W rezultacie można uznać, że rozpatrywane przyczyny lokalizacji przedsię-biorstw w Wielkopolsce (pyt. 6), w sposób istotny różnicują analizowaną zbio-rowość (por. tabela 6.32). Poziom istotności wszystkich zmiennych oraz wartość statystyki F jest wysoka w przypadku wszystkich czynników. Kolejny etap analizy polegał na zestawieniu średnich z poszczególnych skupień względem badanych zmiennych. Grancie testu F są określane dla dwóch stopni swobody – df = 2 oraz df = 50. W badaniu uczestniczyło w sumie 56 podmiotów, jednakże 5 z nich zostało odrzucone w toku obliczeń, ze względu na niekompletność odpowiedzi.

Tabela 6.32. Analiza wariancji

Zmienne badane Pomiędzy

skupieniami df Wewnątrz

skupień df Test F Poziom istotności 1. Dostęp do rynku zbytu w ogóle 71,66222 2 22,33778 50 80,20295 0,000000 2. Bliskość kluczowych klientów 62,71321 2 49,40000 50 31,73746 0,000000 3. Dostępność siły roboczej 38,45245 2 40,34000 50 23,83023 0,000000 4. Zaplecze edukacyjne – szkoły

oraz instytucje przygotowania

za-wodowego 34,89367 2 38,80444 50 22,48046 0,000000

5. Dostępność tanich zasobów – lokalni dostawcy mogą osiągać

korzy-ści skali 38,58075 2 34,74000 50 27,76393 0,000000 6. Dostępność specyficznych

zaso-bów – charakterystycznych dla danej

lokalizacji 24,83254 2 39,88445 50 15,56530 0,000006

7. Bliskość strategicznych rywali rynkowych – łatwiejsza obserwacja

i benchmarking 34,17543 2 55,93778 50 15,27386 0,000007 8. Duże znaczenie lokalnego

kon-tekstu/otoczenia – przechwytywanie lokalnej wiedzy, informacji z

oto-czenia 22,46034 2 41,23778 50 13,61636 0,000019

Źródło: Opracowanie własne na podstawie badań ankietowych.

Wyniki (zamieszczone w tabeli 6.33) wskazują, że w skupieniu pierwszym najwyższą wartość spośród wszystkich branych pod uwagę zmiennych uzyskała zmienna 3 („dostępność siły roboczej”). Równie ważna okazała się zmienna:

4 („zaplecze edukacyjne – szkoły oraz instytucje przygotowania zawodowego i 5 („dostępność tanich zasobów – lokalni dostawcy mogą osiągać korzyści

ska-Badania empiryczne klastra meblarskiego, kotlarskiego i motoryzacyjnego 161

li”) oraz 7 („bliskość strategicznych rywali rynkowych – łatwiejsza obserwacja i benchmarking”).

W skupieniu nr 2 najważniejsze powody to: 1 („dostęp do rynku zbytu w ogóle”), 2 („bliskość kluczowych klientów”). W skupieniu 3 (odznaczającym się najniższymi wartościami średnich): 3 („dostępność siły roboczej), 4 („zaple-cze edukacyjne – szkoły oraz instytucje przygotowania zawodowego”), 7 („bli-skość strategicznych rywali rynkowych – łatwiejsza obserwacja i benchmar-king”).

Tabela 6.33. Średnie skupień

Średnie poszczególnych skupień Zmienne badane

Skupienie nr 1 Skupienie nr 2 Skupienie nr 3

1. Dostęp do rynku zbytu w ogóle 2,11 4,20 1,04

2. Bliskość kluczowych klientów 2,50 4,10 1,20

3. Dostępność siły roboczej 3,33 1,70 1,48

4. Zaplecze edukacyjne – szkoły oraz instytucje

przygotowania zawodowego 3,06 1,30 1,36

5. Dostępność tanich zasobów – lokalni

dostaw-cy mogą osiągać korzyści skali 3,00 1,90 1,08

6. Dostępność specyficznych zasobów –

charak-terystycznych dla danej lokalizacji 2,56 2,20 1,08

7. Bliskość strategicznych rywali rynkowych –

łatwiejsza obserwacja i benchmarking 3,11 2,60 1,36 8. Duże znaczenie lokalnego kontekstu/otoczenia

– przechwytywanie lokalnej wiedzy, informacji

z otoczenia 2,61 2,40 1,24

Źródło: Opracowanie własne na podstawie badań ankietowych.

Tabela 6.34. Odległości euklidesowe skupień

Odległości euklidesowe skupień

Odległości pod przekątną/Kwadrat odległości nad przekątną Liczba skupień

Nr 1 Nr 2 Nr 3

Nr 1 0,00 1,79 2,49

Nr 2 1,34 0,00 2,91

Nr 3 1,58 1,71 0,00

Źródło: Opracowanie własne na podstawie badań ankietowych.

Pomocniczą formą opisu wyróżnionych skupień były odległości euklidesowe pomiędzy nimi (tabela 6.34). Skupienie pierwsze i trzecie charakteryzuje duża

odległość (odległość euklidesowa równa 2,49). Jeszcze większą odległość moż-na zaobserwować w przypadku skupienia nr 3 i nr 2 (odległość euklidesowa wyniosła 2,91). Skupienia te są od siebie najbardziej oddalone.

6.10.3. Podsumowanie analizy skupień

Na podstawie przeprowadzonej analizy skupień, skonstruowano tabelę z kla-syfikacją poszczególnych podmiotów w obrębie wygenerowanych trzech sku-pień. Szczegółową listę z wszystkimi przedsiębiorstwami i ich klasyfikacją w obrębie poszczególnych skupień prezentuje tabela 6.35. Z jej obserwacji wy-nika, że skupienie 3 obejmuje w większości, przedsiębiorstwa z sektora motory-zacyjnego i kotlarskiego. Skupienie to uzyskało najniższe wartości średnich spośród wszystkich analizowanych 8 kategorii w zestawieniu porównawczym z dwoma pozostałymi skupieniami 1 i 2. Z kolei skupienie 1 cechuje większość przedsiębiorstw z sektora meblarskiego. Sektor ten jest również częściowo zde-finiowany wartościami skupienia 2 i 3. Skupienie to zawiera takie przedsiębiorstwa, które są niejednorodne pod względem badanych kategorii. Sposób postrzegania tych kategorii nie jest jednoznaczny (różni się) praktycznie w każdym badanym przedsiębiorstwie

Tabela 6.35. Skupienia przedstawiające poszczególne typy przedsiębiorstw Numer

skupienia

Przedsiębiorstwa zaklasyfikowane według numerów poszczególnych przypadków i klastra

1

3 – przedsiębiorstwa w sektorze kotlarskim 14 – przedsiębiorstw w sektorze meblarskim

1 – przedsiębiorstwo w sektorze motoryzacyjnym

2

1 – przedsiębiorstwo w sektorze kotlarskim 8 – przedsiębiorstw w sektorze meblarskim 1 – przedsiębiorstwo w sektorze motoryzacyjnym

3

9 – przedsiębiorstw w sektorze kotlarskim 6 – przedsiębiorstw w sektorze meblarskim 10 – przedsiębiorstw w sektorze motoryzacyjnym Źródło: Opracowanie własne na podstawie badań ankietowych.