• Nie Znaleziono Wyników

Sieci neuronowe w segmentacji odbiorców usług komunalnych

N/A
N/A
Protected

Academic year: 2021

Share "Sieci neuronowe w segmentacji odbiorców usług komunalnych"

Copied!
18
0
0

Pełen tekst

(1)Zeszyty Naukowe nr. 770. Uniwersytetu Ekonomicznego w Krakowie. 2009. Janusz Stal Katedra Informatyki. Sieci neuronowe w segmentacji odbiorców usług komunalnych Streszczenie. Metody sztucznej inteligencji, do jakich zalicza się sieci neuronowe, mogą stanowić alternatywne narzędzie w procesie segmentacji rynku, w szczególności segmentacji post hoc – nabywców na rynku dóbr i usług konsumpcyjnych. Na przykładzie praktycznego zastosowania metod grupowania i wizualizacji opartych na samoorganizujących się mapach cech Kohonena (SOM) w segmentacji odbiorców usług komunalnych dokonano analizy i oceny wielu aspektów zastosowania sieci, zwracając szczególną uwagę na parametry uczenia, kryteria określania homogenicznych grup, czy też określanie ich profilu. Słowa kluczowe: sieci neuronowe, segmentacja rynku, klasyfikacja bezwzorcowa, samoorganizujące się mapy cech Kohonena (SOM), wizualizacja danych.. 1. Wstęp Segmentacja rynku (w ujęciu podmiotowym) jest jedną ze strategii marketingowych, która w wyniku podziału rynku według określonego kryterium ma na celu dostosowanie działań przedsiębiorstwa do cech i potrzeb wyróżnionych jednorodnych (homogenicznych) grup nabywców [Altkorn 1998]. Najczęściej źródło danych stanowią wyniki przeprowadzanych badań ankietowych, zatem klasyczny sposób wyodrębniania segmentu nabywców można skrótowo określić jako [Pociecha 1996]: – przygotowanie odpowiedniej ankiety, – wykonanie badań ankietowych, – opracowanie wyników badań, – sformułowanie odpowiednich wniosków. W pracy dokonana została kompleksowa ilustracja empirycznego zastosowania metod grupowania i wizualizacji opartych na wykorzystaniu sieci neuronowych..

(2) 204. Janusz Stal. Jako dane empiryczne wykorzystano wyniki badań ankietowych, których problematyka zawarta została w dwóch podstawowych blokach zagadnień: – udział wydatków na usługi komunalne w budżetach gospodarstw domowych, – ocena i preferencje mieszkańców w zakresie funkcjonowania przedsiębiorstw komunalnych. Zmiany ustrojowe, jakie miały miejsce w ostatniej dekadzie, przyczyniły się do odrodzenia samorządu terytorialnego – instytucji, której zadaniem jest świadczenie usług publicznych na rzecz wspólnoty samorządowej oraz innych odbiorców (zob. [Wojciechowski 1999]). Wymogi gospodarki rynkowej spowodowały, że sektor komunalny (publiczny), funkcjonując w konkretnym otoczeniu, zmuszony jest do prowadzenia działań dostosowawczych. Obserwowane w ostatnim okresie zmiany prowadzą do rozdziału odpowiedzialności organów za zapewnienie usług od ich świadczenia, gdzie ich realizacja zostaje przekazana coraz szerzej obecnemu sektorowi prywatnemu. Tendencje takie są bardzo często obserwowane w wypadku usług komunikacyjnych, gdzie polityka miasta – instytucji, na której ciąży obowiązek organizacji transportu na swoim terenie – sprowadza się coraz częściej do cedowania organizacji transportu na firmy prywatne. Zadaniem przeprowadzanych badań [Adamczyk, Idzik, Szubra 2000] było dostarczenie Zarządowi Miasta oraz Radzie Miasta Krakowa narzędzia wspomagającego proces podejmowania decyzji dotyczących polityki kształtowania oferowanych usług komunalnych mieszkańcom miasta Krakowa. Do analizy został wykorzystany zbiór danych ankietowych (Z01KOM) zawierający zmienne określające funkcjonowanie komunikacji miejskiej w Krakowie. Jako narzędzie grupowania wykorzystano mapę cech Kohonena (SOM), która, realizując zadanie klasyfikacji bezwzorcowej, stwarza przesłanki do wykorzystania jej w grupowaniu obiektów charakteryzujących poszczególnych konsumentów. Podczas procesu grupowania zwrócona zostanie uwaga na następujące aspekty: – wstępne określanie liczby grup przy wykorzystaniu wizualizacji rozkładu obiektów w przestrzeni cech poprzez dokonanie projekcji na dwuwymiarową siatkę neuronów celem wstępnego doboru wielkości SOM, – badanie „kryterium” określającego prawidłową liczebność uzyskanych homogenicznych grup, – określanie profilu utworzonych grup poprzez analizę profilową składowych wektorów wagowych neuronów stanowiących centroidy wyróżnionych jednorodnych skupisk..

(3) Sieci neuronowe w segmentacji odbiorców…. 205. 2. Charakterystyka materiału statystycznego wykorzystanego w badaniach empirycznych Celem badania jest wyodrębnienie segmentów gospodarstw domowych Krakowa na podstawie preferencji w zakresie użytkowania przez nich komunikacji miejskiej. Jako materiał statystyczny wykorzystano wyniki badań ankietowych, których problematyka obejmowała ocenę i preferencje mieszkańców w zakresie funkcjonowania przedsiębiorstw komunalnych1. Wykaz pytań zawartych w ankiecie (zbiór Z01KOM) został ujęty w tabeli 1. Symbolami P1… P21 oznaczono numer pytania występującego w kwestionariuszu, natomiast symbole X1… X25 reprezentują zmienne wchodzące w skład wektora obserwacji. Tabela 1. Charakterystyka zmiennych dla zbioru Z01KOM Pytanie. Treść pytania. P1. Płeć. P2. Wiek. P3. Wykształcenie. P4. Rodzaj aktywności zawodowej. P5. Liczba domowników. P7. Liczba dzieci. P6. Liczba pracujących domowników. Sposób kodowania. 1 – mężczyzna, 2 – kobieta. 1 – do 20 lat, 2 – 21–30 lat, 3 – 31–40 lat, 4 – 41–50 lat, 5 – 51–60 lat, 6 – 61–70 lat, 7 – 71–80 lat, 8 – powyżej 80 lat. 1 – podstawowe, 2 – zasadnicze zawodowe, 3 – średnie, 4 – wyższe. 1 – pracuje zawodowo, 2 – nie pracuje zawodowo N – liczba osób. Zmienna X1, X2 X3 X4 X5, X6 X7. N – liczba osób. X8. N – liczba dzieci. X9. 1   Badania zostały przeprowadzone przez Instytut Badań Marketingowych i Społecznych VGR STRATEGIA w Krakowie na zlecenie Krakowskiego Holdingu Komunalnego mieszczącego się przy ul. Brożka w Krakowie. Objęły łącznie 1014 losowo wybranych gospodarstw domowych z obszaru Krakowa. Losowanie przeprowadzono warstwowo dla każdej z dzielnic samorządowych, proporcjonalnie do liczby mieszkańców dzielnicy. Przy braku spisu gospodarstw domowych, dokonano losowania w terenie techniką random walking polegającą na odwiedzaniu co n–tego mieszkańca począwszy od uprzednio wylosowanych punktów geograficznych. Bezpośrednimi respondentami byli główni lokatorzy podejmujący decyzje finansowe ważne dla całego gospodarstwa domowego. Pobrana w ten sposób próba jest reprezentatywna dla gospodarstw domowych z terenu Krakowa. Badania realizowano techniką wywiadu kwestionariuszowego prowadzonego przez ankieterów w domach respondentów..

(4) Janusz Stal. 206. cd. tabeli 1 Pytanie. Treść pytania. P8. Sytuacja materialna rodziny. P9. Suma dochodów w rodzinie. P10. Typ budynku. P11. Częstotliwość korzystania z komunikacji miejskiej. P12. Częstotliwość kursowania. P13. Punktualność. P15. P14. Szybkość przemieszczania się. Sposób kodowania. 1 – bardzo dobra, 2 – dobra, 3 – raczej dobra, 4 – ani dobra, ani zła, 5 – raczej zła, 6 – zła, 7 – bardzo zła 1 – 400 zł lub mniej, 2 – 401–800 zł, 3 – 801–1200 zł, 4 – 1201–1600 zł, 5 – 1601–2000 zł, 6 – 2001–3000 zł, 7 – 3001–4000 zł, 8 – 4001–5000 zł, 9 – 5001–10 000 zł, 10 – ponad 10 000 zł. 1 – blok, 2 – kamienica, 3 – dom wolnostojący. 1 – codziennie, 2 – kilka razy w tygodniu, 3 – kilka razy w miesiącu, 4 – rzadziej niż raz w miesiącu, 5 – nie korzysta z autobusów i tramwajów. X11. X12, X13, X14 X15. X16. 0–10. X17. 0–10. X18. Częstotliwość kursowania. 0–10. X19. Szybkość przemieszczania się. 0–10 0–10. X20. Punktualność. P18. Wydatki na bilety jednorazowe. P19. Wydatki na bilety wielorazowe. P20. Opinia nt. zmiany cen 1 – obniżą się, 2 – pozostaną na obecnym poziobiletów w najbliższych mie, 3 – będą rosnąć wolniej, niż inflacja, latach 4 – będą rosnąć szybciej, niż inflacja. P21. X10. 0–10. P16 P17. Zmienna. Obciążenie wydatkami na komunikację budżetu domowego. 1 – do 20 zł, 2 – 21–40 zł, 3 – 41–60 zł, 4 – 61–80 zł, 5 – 81–100 zł, 6 – 101–120 zł, 7 – 121–140 zł, 8 – 141–160 zł, 9 – powyżej 160 zł 1 – do 20 zł, 2 – 21–40 zł, 3 – 41–60 zł, 4 – 61–80 zł, 5 – 81–100 zł, 6 – 101–120 zł, 7 – 121–140 zł, 8 – 141–160 zł, 9 – powyżej 160 zł. 1 – znikomy wydatek – niezauważalny w miesięcznym budżecie domowym, 2 – bardzo mały wydatek, prawie niezauważalny w miesięcznym budżecie domowym, 3 – mały wydatek, zauważalny, ale mało znaczący w miesięcznym budżecie domowym, 4 – przeciętny wydatek, w porównaniu z innymi, przeciętnie obciąża miesięczny budżet domowy, 5 – spory wydatek, znacząco obciążający miesięczny budżet domowy,. X21. X22 X23 X24 X25.

(5) Sieci neuronowe w segmentacji odbiorców… cd. tabeli 1 Pytanie. Treść pytania. 207. Sposób kodowania. 6 – duży wydatek, dotkliwie obciążający miesięczny budżet domowy, 7 – bardzo duży wydatek – należy do najbardziej obciążających miesięczny budżet domowy. Zmienna. * Pytania P12 …, P14 odnoszą się do oceny funkcjonowania środków transportu, jakimi są autobusy, natomiast pytania P15 …, P17 wyrażają opinie respondentów na temat funkcjonowania tramwajów.. Źródło: opracowanie własne.. Dla potrzeb analizy danych przy wykorzystaniu aplikacji SOM_PAK [Kohonen, Kangas, Laaksonen 1996] dokonano pewnej modyfikacji zbioru Z01KOM. Pytania, w których zmienne mierzone są na skali nominalnej (P1, P4 i P10) zostały zakodowane w postaci dwu– lub trzyelementowych wektorów zerojedynkowych (kodowanie „jeden z N”)2, gdzie 1 oznacza występowanie jakiegoś stanu, natomiast 0 oznacza, że stan ten nie występuje. Pytanie P1 (płeć) zostało zakodowane w postaci dwuelementowego wektora [X1, X2], gdzie wartości [1, 0] odpowiada występowanie stanu „mężczyzna” natomiast wartości [0, 1] stanu „kobieta”. W podobny sposób zostało zakodowane pytanie P4 (rodzaj aktywności zawodowej) opisane za pomocą zmiennych [X5, X6]. W tym wypadku stanowi „pracuje zawodowo” przypisano dwuelementowy wektor [1, 0], natomiast stan „nie pracuje zawodowo” został zakodowany przy użyciu wektora [0, 1]. Dla pytania P10 (typ budynku) zastosowano wektor o trzech składowych [X12, X13, X14], gdzie stanowi „blok” odpowiada wektor [1, 0, 0], stanowi „kamienica” przypisano wektor [0, 1, 0].   Wykorzystanie zmiennych niemetrycznych (nominalnych i porządkowych) w sieciach neuronowych wymaga przyporządkowania im wartości liczbowych. Najczęściej stosuje się jeden z dwóch sposobów kodowania: – każdej wartości zmiennej niemetrycznej zostaje przyporządkowana pojedyncza wartość liczbowa, np. wartościom zmiennej „Typ Budynku” = {blok, kamienica, dom} można przyporządkować wartości liczbowe blok = 1, kamienica = 2, dom = 3. Takie podejście powinno stosować się wyłącznie do zmiennych porządkowych (w wypadku zmiennych nominalnych występowałoby sztuczne uporządkowanie wartości zmiennej, co mogłoby fałszować rzeczywiste ich znaczenie). – kodowanie „jeden z N”, gdzie każdej wartości zmiennej niemetrycznej (o N stanach) zostaje przyporządkowany wektor N-elementowy, w którym wartość składowej równa 1 oznacza przyjęcie przez zmienną niemetryczną określonej wartości, a 0 oznacza, iż wartość zmiennej niemetrycznej nie występuje (przykładowo: zmienna niemetryczna „Typ budynku” o możliwych wartościach {blok, kamienica, dom} w wypadku kodowania „jeden z N” zostanie zakodowana (w zależności od wartości) za pomocą 3-elementowego wektora, gdzie blok = [1, 0, 0], kamienica = [0, 1, 0], dom = [0, 0, 1]). Należy pamiętać, że takie podejście powoduje wydłużenie wektora danych wejściowych, co nie pozostaje bez wpływu na proces uczenia sieci. 2.

(6) 208. Janusz Stal. natomiast dla stanu „dom wolnostojący” użyto do kodowania wektora [0, 0, 1]. Po uwzględnieniu powyższego kodowania wymiar wektora obserwacji uległ zwiększeniu, co spowodowało, iż obiekty są opisane teraz za pomocą 25 zmiennych (X1 … X25). 3. Wyodrębnianie jednorodnych grup nabywców Dla oszacowania liczby potencjalnych grup występujących w badanej zbiorowości możliwe jest w pierwszej kolejności dokonanie wizualizacji obiektów w przestrzeni cech. Należy zatem określić SOM o liczbie neuronów równej w przybliżeniu liczbie obserwacji N. Przy założeniu, że stosowana będzie SOM o równych bokach, wymiar boku mapy może być określony w przybliżeniu jako N . W badanym wypadku zastosowano zatem SOM o topologii prostokątnej i wymiarach 30 x 30 neuronów oraz gaussowską funkcję sąsiedztwa.. Rys. 1. Liczba przyporządkowanych obiektów dla zbioru Z01KOM dla SOM o wymiarach 30 x 30 i topologii prostokątnej Źródło: opracowanie własne..

(7) Sieci neuronowe w segmentacji odbiorców…. 209. Proces uczenia sieci zwykle dzielony jest na dwie fazy3, gdzie w pierwszej z nich (mającej na celu wstępne uporządkowanie neuronów na mapie) liczbę epok określono jako E = 1000, współczynnik uczenia na poziomie η = 0,6 oraz zakres funkcji sąsiedztwa hci = 30 równy wymiarowi boku mapy. W fazie drugiej (mającej na celu „dostrojenie” współczynników wagowych neuronów) przyjęto liczbę epok E = 10 000 oraz współczynnik uczenia E = 0,08, a zakres funkcji sąsiedztwa określono na poziomie 10% długości boku mapy hci = 3. Rys. 1 przedstawia SOM wraz z liczbą przypisanych obiektów do poszczególnych neuronów mapy, natomiast rys. 2 zawiera wizualizację obiektów w przestrzeni cech przy wykorzystaniu metody UMATRIX [Ultsch 1993]. Pola oznaczone kropką wskazują na neurony SOM, natomiast pola pomiędzy nimi określają dystans je dzielący, przy czym kolor ciemny oznacza dużą, a kolor jasny – małą odległość. Kolor pola oznaczonego kropką określa średni dystans od neuronów sąsiadujących.. Rys. 2. Wizualizacja zbioru Z01KOM metodą UMATRIX dla SOM o wymiarach 30 x 30 i topologii prostokątnej Źródło: opracowanie własne..   Metody doboru i określania parametrów uczenia sieci w poszczególnych fazach zostały opisane w pracy: [Stal 2001]. 3.

(8) Janusz Stal. 210. Dokonując analizy rozkładu obiektów w przestrzeni wejść (rys. 1 oraz rys. 2), można zauważyć w miarę równomierny rozkład obiektów w SOM, co nie pozwala w jednoznaczny sposób oszacować liczby grup występujących w badanej zbiorowości. Dla wstępnego określenia liczby potencjalnych grup (segmentów) pomocne może być wykorzystanie innych technik wizualizacyjnych opartych na wykorzystaniu sieci neuronowych, np. IGG (Incremental Grid Growing) [Blackmore, Mükkulainen 1993], czy GCS (Growing Cell Structures) [Fritzke 1992]. Ze względu na niemożność określenia liczby jednorodnych grup poprzez wizualizację przestrzeni wejść, badaniu poddano zatem 8 map (SOM5x5, SOM4x5, SOM4x4, SOM3x4, SOM3x3, SOM2x4, SOM2x3, SOM2x2) o malejącej liczbie neuronów4. Parametry uczenia, tj. liczba epok E, współczynnik uczenia η oraz zakres funkcji sąsiedztwa hci zostały określone osobno dla fazy pierwszej i drugiej: – faza 1 – E = 1000; η = 0,6; hci = wymiar krótszego boku mapy, – faza 2 – E = 10000; η = 0,08; hci = 1. Każdą z badanych map poddano wielokrotnemu procesowi uczenia5, wyznaczając błędy kwantyzacji (BK) oraz miary poprawności odwzorowania przestrzeni wejść w SOM (miarę topologii – MT)6. Aby umożliwić porównanie wartości BK i MT dla SOM o różnych formatach, dla każdej mapy wyznaczany jest średni błąd kwantyzacji (SBK) oraz średnia miara topologii (SMT), którą można wyrazić jako: n. SMT =. ∑ MTi i =1. n. ,. (1). . gdzie: MTi – miara topologii dla i-tego neuronu, n – całkowita liczba neuronów w SOM. SBK jest kryterium, które należy minimalizować w procesie iteracyjnego uczenia sieci neuronowej. Wraz ze zmniejszaniem się wymiaru mapy, rośnie wartość SBK, co wynika założeń kwantyzacji wektorowej. W wypadku SMT, małe wartości wskazują na większą poprawność odwzorowania przestrzeni wejść na 4   Wymiar mapy oraz związaną z tym liczbę neuronów SOM można określić jedynie heurystycznie [Reutterer, Natter 2000]..   Dla każdej z SOM proces uczenia powtórzono dziesięciokrotnie.. 5.   Miara topologii (MT) określa nieprawidłowość odwzorowania rozkładu obiektów w przestrzeni wejść na dwuwymiarowej siatce neuronów. Dla pojedynczego neuronu MT wyraża średnią 6. n. ∑ d(W ,W i. ki. ). , gdzie Wi oznan cza wektor wagowy i-tego neuronu, W ki jest wektorem wagowym neuronu sąsiadującego z i-tym neuronem, natomiast n określa liczbę najbliższych sąsiadów i-tego neuronu. odległość badanego neuronu od jego najbliższych sąsiadów, tj MTi =. k =1.

(9) MT. BK. 4x4 MT. BK. 3x4 MT. BK. 3x3 MT. BK. 2x4 MT. BK. 2x3 MT. BK. 2x2 MT. 5,212827 2,231772 7,302962 2,263729 5,465432 1,674399. 13. 7,006169 1,542966. 5,925813 1,589776. 21. 22. 4,978435 1,695963 5,651121 2,105666. 4,836903 1,589892 5,325742 1,650277. 19. 20. 4,951031 1,970024 5,453110 1,810200. 5,614639 1,893279 5,230553 2,227156. 17. 18. 6,370509 2,000294 5,490989 1,633006 6,231641 1,660704. 6,086568 2,386196 5,055885 1,950602 7,083102 2,063850 5,578606 1,997471. 12. 16. 5,452562 5,567031 5,419280 1,719060 5,436149 2,253566 6,025059 2,319087. 5,165327 2,015619 6,030217 2,115042 5,164557 2,003054. 4,991983 1,941585 5,475789 1,702031 5,248831 2,226323 7,203822 2,240864. 11. 5,045862 1,903377 6,291672 1,776360 5,291000 2,125096. 5,373724 2,043694 6,656919 2,038157 5,753868 1,988585 5,301758 1,876877 5,897523 1,808593. 10. 15. 5,072071 2,109557 5,337887 2,235631 6,295575 1,933280 5,634307 1,886250 5,218704 2,122252 5,768977 1,797501. 8. 9. 14. 5,479604 2,055994 5,045218 1,712937 5,348242 2,259557 5,272679 2,110213 6,143705 2,075037 5,609280 1,945117 5,835278 1,482342. 4,868036 2,044113 5,345989 1,954114 5,931053 2,165649 6,074192 2,224044 5,826883 2,203797 7,264426 2,045429. 7. 5. 6. 5,186323 1,873665 5,401577 1,949567 5,352205 1,686557 5,699811 1,800869 5,354652 2,062260 5,319222 1,503855 6,065578 2,037416 6,815276 1,808529. 5,344684 1,825540 5,592613 1,558637 5,076331 2,128820 5,516412 1,676138 5,466821 2,113899 6,224117 1,636920 5,962753 1,968269. 4. 5,276061 1,801620 5,175013 2,187106 5,647453 1,889613 5,615595 2,154761 6,123065 2,100522 5,919345 2,110548 5,579467 1,958980 6,127985 0,995287. 4x5. 4,999471 1,539043 5,240721 1,829230 5,695582 2,044177 5,274002 1,991811 6,642893 2,031583 5,747241 1,999630 6,459212 1,966966 5,872397 0,998506. BK. 2. MT. 3. 5x5. 5,325095 1,492138 5,351703 1,409306 5,254659 1,674487 5,501275 1,452596 5,920065 1,773869 5,574774 1,297639 6,272684 1,578678 6,180838 1,775656. BK. SOM. 1. Neuron. Tabela 2. Wielkości błędów kwantyzacji (BK) oraz miar topologii (MT) dla badanych SOM. Sieci neuronowe w segmentacji odbiorców… 211.

(10) 25. BK. Źródło: opracowanie własne.. 5,324761 1,524356. 5,420395 1,331436. 24. MT. 5,687844 1,659578. BK. 5x5. 23. Neuron. cd. tabeli 2. 4x5. MT. BK. 4x4 MT. BK. 3x4 MT. SOM BK. 3x3 MT. BK. 2x4 MT. BK. 2x3 MT. BK. 2x2 MT. 212. Janusz Stal.

(11) Sieci neuronowe w segmentacji odbiorców…. 213. dwuwymiarowej siatce neuronów, natomiast duże wartości świadczą o zmniejszaniu się poprawności zachowania topologii. Tabela 2 przedstawia wartości błędów kwantyzacji i miar topologii dla poszczególnych neuronów badanych SOM, natomiast rys. 3 prezentuje zmiany SBK i SMT w zależności od wielkości SOM. 9 8. Wartość błędu. 7 6 5 4 3 2 1 0. 5x5. 4x5. 4x4. 3x4 SMT. SOM. SBK. 3x3. 2x4. 2x3. 2x2. SBK + SMT. Rys. 3. Wartości średniego błędu kwantyzacji (SBK) i średniej miary topologii (SMT) dla badanych SOM Źródło: opracowanie własne.. Jak można zauważyć, zmniejszanie wymiaru mapy powoduje wzrost SBK, co wynika z faktu, że zwiększa się rozproszenie obiektów w przestrzeni wejść w stosunku do przyporządkowanych im wektorów wagowych neuronów. Powoduje to równocześnie zmniejszanie się SMT, co świadczy o zwiększaniu się poprawności odwzorowania rozkładu obiektów z przestrzeni wejść na siatce SOM. Celem przedstawionej analizy SBK i SMT jest oszacowanie potencjalnej liczby grup istniejących w badanej zbiorowości. Klasyczne podejście do problematyki klasyfikacji udostępnia wiele metod taksonomicznych umożliwiających podział badanej zbiorowości na jednorodne grupy. Stosowanie metod klasyfikacji wymaga rozwiązania problemu dotyczącego określenia liczby wyodrębnionych grup. Należy tu jednak zaznaczyć, że nie istnieje uniwersalne kryterium klasyfikacji – kwestia określenia optymalnego podziału taksonomicznego jest problemem trudnym i niemającym jednoznacznych rozwiązań..

(12) Janusz Stal. 214. Algorytm SOM ze względu na swe właściwości jest zbliżony w działaniu do metod iteracyjno-optymalizacyjnych, w których procedura sprowadza się do korygowania zadanego a priori podziału zbioru obiektów. W metodach tych niezbędne jest wstępne określenie zarówno liczby klas, jak i przyporządkowanie obiektów do tak wyróżnionych grup. Podział ten dokonywany jest najczęściej arbitralnie (na podstawie analizy znajomości przedmiotu badań), losowo, lub też wyznaczany przy wykorzystaniu dowolnej procedury taksonomicznej [Grabiński 1992]. Jedną z najczęściej wykorzystywanych w praktyce procedur optymalizacyjno-iteracyjnych jest metoda k-średnich [Hartigan 1979]. Stosując podejście neuronowe do klasyfikacji obiektów i wykorzystując do tego celu SOM można oszacować a priori liczbę potencjalnych grup. Poprzez wizualizację obiektów badanej zbiorowości na dwuwymiarowej siatce neuronów możliwe jest dokonanie oceny gęstości rozkładu obiektów i wstępne oszacowanie liczby klas. Ponadto wizualizacja obserwacji na płaszczyźnie umożliwia również detekcję obserwacji nietypowych (zdegenerowanych) [Grabowski 1997]. Dla wstępnego określenia liczby klas pomocne może okazać się zastosowanie na tym etapie innych sieci opartych na algorytmie Kohonena, np. CC (Cluster Connection) [Merkl, Rauber 1997], czy też sieci z dynamiczną zmianą struktury (sieci samorozwijających się – IGG, GCS). Sieci te są jednak słabo opracowane pod względem metodologicznym oraz brakuje ich implementacji (ogólnie dostępnych aplikacji). Tabela 3. Liczebność obiektów dla poszczególnych neuronów dla badanej SOM o wymiarach 3 x 3 Neuron 1. 2. Liczba obiektów 130 46. Liczba obiektów (w %). SBK dla neuronu. 4,54. 6,642893. 12,82. 5,920065. 3. 290. 28,60. 5. 21. 2,07. 5,466821. 7. 222. 21,89. 5,826883. 9. 83. 8,19. 5,897523. 4 6. 8. 86 52. 84. 8,48 5,13. 8,28. 6,123065 5,354652 6,143705. 5,218704. Źródło: opracowanie własne.. Najbardziej wartościowa wydaje się metoda oceny SMT i SBK (rys. 3) [Reutterer, Natter 2000]. Dokonując analizy zagregowanych wartości błędów (SBK+SMT), zaobserwować można rozpoczynającą się fazę stabilizacji dla SOM.

(13) Sieci neuronowe w segmentacji odbiorców…. 215. o wymiarach 3 x 3, co może stanowić przesłankę do wybrania mapy o tym wymiarze do dalszej analizy. Tabela 3 prezentuje charakterystykę SOM3 x 3 ze względu na liczbę obiektów przypisanych do poszczególnych neuronów oraz uzyskany dla nich SBK. Analizując liczebność obiektów przypisaną poszczególnym neuronom, można zauważyć, że dla neuronów o numerach 1, 3 i 7 liczba obiektów do nich przypisanych stanowi znaczny procent badanej zbiorowości. Do dalszej zatem analizy i wykorzystania marketingowego brane będą tylko te grupy, których liczebność jest wysoka (> 100), co wskazuje na neurony o wymienionych numerach. Zarówno wizualizacja przestrzeni wejść za pomocą SOM, a także badanie wartości SBK i SMT, czy też analiza liczebności obiektów przypisanych poszczególnym neuronom pozwalają na określanie liczby jednorodnych klas badanej zbiorowości. Metody te mogą więc stanowić alternatywę dla obecnie stosowanych sposobów wyznaczania liczby homogenicznych grup, stosowanych w podejściach klasycznych. 4. Określanie profilu wyodrębnionych grup Zakończenie procedury identyfikacji jednorodnych (z punktu widzenia przyjętych kryteriów) grup nabywców umożliwia przejście do ostatniego etapu segmentacji – profilowania. Jest to etap niezmiernie istotny z punktu widzenia dalszej strategii działania podejmowanej przez przedsiębiorstwo i polega na szczegółowym zbadaniu i opisaniu zidentyfikowanych homogenicznych grup konsumentów stanowiących potencjalne segmenty rynkowe. Wyodrębnione w procesie grupowania segmenty należy poddać procesowi opisu za pomocą cech charakteryzujących konsumentów. Dla tak opisanych segmentów konieczne jest oszacowanie ich wartości dla przedsiębiorstwa, czyli udzielenie odpowiedzi na pytanie, które segmenty mogą stanowić podstawę działań praktycznych – nie każdy bowiem wyodrębniony segment znajdzie się w obszarze zainteresowań przedsiębiorstwa. Dla wyróżnionych segmentów rynkowych istnieją pewne standardowe wymagania, których spełnienie warunkuje wykorzystanie segmentu w praktyce (każdy z segmentów, mogących mieć zastosowanie praktyczne powinien oznaczać się odpowiednimi cechami (dostępność, mierzalność, stabilność, rozmiar)). Bogata literatura z marketingu (np. [Altkorn 1998]) zawiera metody oceny atrakcyjności segmentów, co wiąże się następnie z przyjęciem przez przedsiębiorstwo określonych strategii działania. Określenie wyróżnionych na etapie grupowania klas (który to proces polega na ich opisie za pomocą zarówno cech geograficznych, demograficznych, czy socjoekonomicznych, jak również czynników określających postawy nabywców) prowadzić ma do poznania charakterystyk wyróżnionych segmentów. Możliwe.

(14) Janusz Stal. 216. jest wykorzystanie tu wielu technik profilowania, z których często używane w praktyce, to analiza korespondencji, analiza dyskryminacyjna (discriminant analysis) czy metoda detekcji interakcji (automatic interaction detection), (np. [Sagan 1998]). Skuteczną i przejrzystą metodą opisu powstałych w procesie grupowania segmentów może być dokonanie analizy utworzonej mapy cech. Proces uczenia sieci Kohonena polega zbliżaniu (w procesie iteracyjnym) wektorów wagowych neuronów mapy do wektorów reprezentujących obiekty w przestrzeni cech. Realizowany tu proces kwantyzacji wektorowej tworzy wektory będące środkami ciężkości istniejących podzbiorów obiektów w przestrzeni cech. Zatem wektory wagowe poszczególnych neuronów mogą być traktowane jako reprezentanci grup dla obiektów przypisanych do tych neuronów. Stąd analiza składowych wektorów umożliwia określenie profilu grup obiektów przyporządkowanych do badanego neuronu. Tabela 4. Wartości składowych wybranych wektorów wagowych dla badanej SOM o wymiarach 3 x 3 Zmienna X1. X2 X3 X4. X5 X6. X7 X8. X9. 1. 0,400732. 0,599268. 4,663900 2,929750. 0,726030. 1,042780. 1,078870. X14. 0,130887. X17. X18. X19. 4,313780. 2,991130. 3,203950. 0,684078. X16. 0,625147. 2,819140. X12. X15. 0,374853. 0,564132. 4,094000. X13. 3. 0,429621. 0,570379. X10 X11. Wektor wagowy badanego neuronu. 7. 0,426938. 0,573062. 4,446250 2,924210 0,519635. 0,435867. 0,480366. 1,380620. 1,358970. 3,882510. 3,128070 0,937676. 3,881700. 4,191290. 4,630160. 4,572450. 0,183608. 0,195606. 0,158383. 2,152470. 3,030480. 1,890910. 6,004210. 2,924370. 7,825990. 6,528880. 6,713950. 6,722310. 5,035440. 0,651076. 0,152262. 6,796280 3,471680. 0,688197 0,153223. 8,126350. 6,998320 7,710890.

(15) Sieci neuronowe w segmentacji odbiorców… cd. tabeli 4 Zmienna X20 X21. X22. X23. X24 X25. 1. 7,547180. 7,054540. 2,053290 1,871590. 3,502010. 4,213800. 217. Wektor wagowy badanego neuronu 3. 7. 7,451660. 8,336940. 1,594640. 1,806600. 3,532860. 3,483460. 7,369480. 2,098430. 4,248600. 7,906330. 2,359380 4,064110. Źródło: opracowanie własne.. Tabela 4 zawiera wartości składowych wektorów wagowych reprezentujących badane zmienne X1… X25, dla SOM o wymiarach 3 x 3 oraz wybranych neuronów 1, 3 i 7, natomiast rys. 4 prezentuje histogram profili respondentów wchodzących w skład wyodrębnionych jednorodnych grup. Dokonując analizy obrazu przestrzeni danych uzyskanego dzięki przetworzeniu SOM przy wykorzystaniu metody UMATRIX (zob. rys. 2), można stwierdzić, że rozkład gęstości obiektów w przestrzeni cech jest w miarę równomierny, co nie pozwala na jednoznaczne wyodrębnienie jednorodnych skupisk w badanej zbiorowości. Ma to swoje pokrycie również w analizie histogramów zamieszczonych na rys. 4, przedstawiających wartości cech nabywców przynależących do wyróżnionych grup. Wśród 21 cech opisujących nabywców usług komunalnych, kodowanych w postaci 25-elementowego wektora danych tylko nieliczne cechy mogą być uznane za istotne do opisania zidentyfikowanych w procesie grupowania segmentów. Dokonując określenia liczebności grup poprzez analizę zagregowanych średnich błędów kwantyzacji i topologii, wyróżniono 9 segmentów o różnej liczebności obiektów, przy czym klasy reprezentowane przez neurony 1, 3 i 7 charakteryzowały się największą liczebnością. Segment pierwszy (wskazywany przez neuron nr 1) o liczebności 130 obiektów grupuje w większości pracujących zawodowo konsumentów w wieku 41–50 lat, najczęściej korzystających ze środków komunikacji miejskiej (kilka razy w tygodniu), wśród których suma dochodów w rodzinie kształtuje się na poziomie 1601–2000 zł oraz wyrażają oni pozytywną opinię na temat jakości kursowania komunikacji miejskiej (zarówno autobusów jak i tramwajów – zmienne X16… X21). Segment drugi, reprezentowany przez trzeci neuron, będący reprezentantem najliczniejszej, 290-elementowej klasy grupuje konsumentów w wieku 41–50 lat, rzadziej korzystających z usług komunikacji miejskiej (kilka razy w miesiącu) o podobnej, jak w pierwszym segmencie, sumie dochodów w rodzinie) najbardziej negatywnie oceniających jakość usług komunikacyjnych..

(16) 0. 1. 2. 3 neuron 1. 4 neuron 3. 5 neuron 7. 6. 7. Źródło: opracowanie własne.. Rys. 4. Profil respondentów charakteryzowanych przez neurony 1,3 i 7 dla badanej SOM o wymiarach 3 x 3. X1. X3. X5. X7. X9. X11. X13. X15. X17. X19. X21. X23. X25. 8. 9. 218. Janusz Stal.

(17) Sieci neuronowe w segmentacji odbiorców…. 219. Ostatnia, z najliczniejszych klas, 222 elementowa, reprezentowana przez neuron siódmy tworzy trzeci segment z obiektów charakteryzujących konsumentów w większości niepracujących zawodowo, w największym przedziale wiekowym (51–60 lat) o najniższej sumie dochodów w rodzinie (1201–1600 zł), rzadko (kilka razy w miesiącu) korzystających z komunikacji miejskiej, oceniających najbardziej przeciętnie ze wszystkich grup respondentów jakość świadczonych usług. Analizując wyróżnione w wyniku grupowania segmenty, należy zauważyć, że zarówno rodzaj aktywności zawodowej, jak i wiek okazały się zmiennymi dyskryminującymi segmenty 1 i 3 oraz 2 i 3, a cechy charakteryzujące postawy wobec jakości świadczonych usług w pełni różnicują wszystkie powstałe segmenty. 5. Zakończenie Metody sztucznej inteligencji, jakimi są sieci neuronowe, a w szczególności samoorganizujące się mapy cech Kohonena (SOM), mogą stanowić skuteczne narzędzie w procesie segmentacji rynku (w szczególności klasycznej segmentacji post hoc – nabywców na rynku dóbr i usług konsumpcyjnych). Właściwości SOM, realizującej zarówno zadanie grupowania dowolnie długich ciągów danych przy wykorzystaniu kwantyzacji wektorowej, jak i możliwość wizualizacji danych wielowymiarowych, mogą stanowić korzystne uzupełnienie metod klasycznych. Należy tu przede wszystkim wyróżnić możliwość określania liczebności segmentów, grupowania danych, czy też profilowania zidentyfikowanych segmentów. Jednocześnie należy zwrócić uwagę, że wpływ parametrów uczenia sieci SOM na proces grupowania nie jest krytyczny – możliwe jest określanie wartości tych parametrów w szerokim przedziale, przy niewielkim wpływie na prowadzony proces grupowania. Pozwala to zmniejszyć koszty związane z prawidłowym doborem modelu sieci. Na koniec należy dodać, że wydaje się konieczne prowadzenie dalszych badań w dziedzinie wykorzystania sieci neuronowych w segmentacji rynku, które powinny obejmować zarówno studia metodologiczne, jak i aplikacyjne, oraz, co jest niezmiernie istotne ze względu na istnienie sporej grupy metod klasycznych, prace związane z walidacją uzyskanych rezultatów otrzymanych przy zastosowaniu różnych procedur segmentacyjnych, zarówno klasycznych, jak i neuronowych. Literatura Adamczyk K., Idzik S., Szubra M. [2000], Symulacyjny model koszyka usług komunalnych [w:] Symulacja systemów gospodarczych, Prace Szkoły Antałówka 2000, Wyższa Szkoła Przedsiębiorczości i Zarządzania im. Leona Koźmińskiego, Politechnika Wrocławska – Instytut Organizacji i Zarządzania..

(18) 220. Janusz Stal. Altkorn J. [1998], Segmentacja rynku [w:] Podstawy marketingu, red. J. Altkorn, Instytut Marketingu, Wydawnictwo oo. Franciszkanów, Kraków. Blackmore J., Mükkulainen R. [1993], Incremental Grid Growing: Encoding High-dimensional Structure into a Two-dimensional Feature Map, Proceedings of the IEEE Interantional Conferernce on Neural Networks (ICNN’93), San Francisco, USA. Fritzke B. [1992], Growing Cell Structures – A Self-organizing Network in k-Dimensions, Artificial Neural Networks II, I. ed. J. Taylor, North-Holland, Amsterdam. Grabiński T. [1992], Metody taksonometrii, Akademia Ekonomiczna w Krakowie, Kraków. Grabowski M. [1997], Sieci neuronowe w analizie danych społeczno-ekonomicznych, rozprawa doktorska, Akademia Ekonomiczna w Krakowie, Kraków. Hartigan J.A. [1979], K–Means Clustering Algorithm, Algorithms AS 136, „Applied Statistics”, vol. 28. Kohonen T., Kangas J., Laaksonen J. [1996], SOM_PAK: The Self-organizing Map Program Package, Report A31, Helsinki University of Technology, Laboratory of Computer and Information Science, Espoo, Finland. Merkl D., Rauber A. [1997], Alternative Ways for Cluster Visualization in Self-Organizing Maps, Proc of the Workshop on Self-Organizing Maps (WSOM97), Helsinki. Pociecha J. [1996], Metody statystyczne w badaniach marketingowych, Wydawnictwo Naukowe PWN, Warszawa. Reutterer T., Natter M. [2000], Segmentation Based Competitive Analysis with MULTICLUS and Topology Preserving Networks, Computers and Operations Research, 2000. Sagan A. [1998], Badania marketingowe – podstawowe kierunki, Akademia Ekonomiczna w Krakowie, Kraków. Stal J., [2001], Sieci neuronowe w segmentacji rynku, rozprawa doktorska, Akademia Ekonomiczna w Krakowie, Kraków. Ultsch A. [1993], Self-organizing Neural Networks for Visualization and Classification [w:] Information and Classification, eds O. Opitz, B. Lausen, R. Klar, Springer-Verlag, Berlin. Wojciechowski E. [1999], Sektor komunalny. Warunki i kierunki zmian [w:] Organizacja i zarządzanie gospodarką komunalną, materiały na konferencję organizowaną pod patronatem Prezydenta Miasta Krakowa, Krakowski Holding Komunalny, Kraków. Neural Networks in a Council Services Consumers Segmentation Artificial intelligence methods, including neural networks, can be alternative tools in a market segmentation process, particularly in post hoc segmentation of consumers in a market of goods and consumption services. Using an example of practical application of cluster analysis and visualisation, based on Kohonen self-organising feature maps (SOM), to segmentation of council services consumers, an analysis and an evaluation of a number of aspects concerning neural networks utilisation have been performed. Special attention has been paid to learning parameters, criteria of homogeneous groups identification and recognition of their profile. Key words: neural networks, market segmentation, cluster analysis, Kohonen self-organising feature maps (SOM), data visualisation..

(19)

Cytaty

Powiązane dokumenty

Podstawową cechą sieci neuronowej jest jej zdolność do uogólniania, a więc generowania właściwego rozwiązania dla danych, które nie pojawiły się w zestawie danych

 Każdy neuron z warstwy ukrytej albo przesyła sygnały do wartości wyjściowych, albo znajduje się w jednej z głębszych warstw, wówczas jego błąd można oszacować z

Podstawową cechą sieci neuronowej jest jej zdolność do uogólniania, a więc generowania właściwego rozwiązania dla danych, które nie pojawiły się w zestawie danych

Przy starcie uczenia z wartości losowych prawdopodobieństwo utknięcia procesu w minimum lokalnym jest większe niż w przypadku sieci. sigmoidalnych, ze względu na silną

Często współczynnik ten jest ustawiany na najwyższą wartość początkowo, a następnie jest redukowany przy zmianie wag sieci...

• dla wygenerowanych danych dwuwymiarowych dwóch klas z rozkładów normal- nych zaznacz na wykresie dane treningowe, klasyfikator sieciami neuronowymi, dla różnej liczby neuronów

Gdy mamy warstwę ukrytą problem jest taki, że nie znamy prawidłowej wartości na wyjściu neuronów z warstwy ukrytej, więc nie wiemy jak wyliczyć modyfikacje wag.. Algorytm

Modele koneksjonistyczne: sieci i rozproszone przetwarzanie równoległe, ale węzły nie działają jak neurony – sieci Bayesowskie, modele graficzne, uczenie się przez