• Nie Znaleziono Wyników

Metoda klasyfikacji klientw operatora telefonii komrkowej w analizie zjawiska rezygnacji

N/A
N/A
Protected

Academic year: 2021

Share "Metoda klasyfikacji klientw operatora telefonii komrkowej w analizie zjawiska rezygnacji"

Copied!
11
0
0

Pełen tekst

(1)

RYSZARD BUDZISKI Politechnika Szczeciska

Streszczenie

Rezygnacja klientów stanowi powany problem dla kadego operatora telefonii komórkowej. Wystarczajco wczesna identyfikacja potencjalnych rezygnujcych mo-głaby pozwoli utrzyma ich w sieci danego operatora. Proponuje si wieloetapow procedur badawcz, umoliwiajc identyfikacj czynników wpływajcych na odej-cia, a nastpnie opracowanie klasyfikacyjnego modelu badanego zjawiska osobno dla kadego segmentu klientów. Opisana metoda pozwala uwzgldnia zarówno zmienne liczbowe, jak i lingwistyczne, a take element czasu charakteryzujcy dane z rónych okresów z przeszłoci.

Słowa kluczowe: eksploracja danych, zbiory przyblione, churn, CRM, telefonia komórkowa 1. Wprowadzenie

Według GSM World Association, czyli organizacji, która zrzesza operatorów GSM [ang. Global System for Mobile communication] i regulatorów telekomunikacyjnych z całego wiata, pod koniec roku 2007 w technologii GSM aktywnych było niemal 2,9 miliarda kart SIM [ang. Subscriber Identity Module] w ponad 220 krajach i terytoriach. Stanowiło to ponad 86% cyfrowej komunikacji mobilnej na wiecie [1]. Z bada ankietowych, których wyniki podano w [2] wynika, e ok. 3/4 Polaków ma telefon komórkowy, przy czym 10-11% posiada wicej ni jedn komórk. Według Urzdu Komunikacji Elektronicznej na koniec 2007 roku w Polsce aktywnych było 34 mln kart SIM, a zatem wska nik penetracji kształtował si na poziomie ok. 90%. Telefonia mobilna to niezwykle konkurencyjny sektor rynku, gdy operatorzy usilnie zabiegaj o klientów – ich liczba bezporednio przekłada si przecie na wielko przychodów [3].

Odsetek klientów rezygnujcych z dotychczasowej sieci telefonii mobilnej w Europie i Stanach Zjednoczonych wynosi przecitnie 24-36% rocznie [4] i jego zmiany wykazuj tendencj wzrostow. Według danych Urzdu Komunikacji Elektronicznej polscy operatorzy znajduj si w cisłej „czołówce” – odsetek klientów odchodzcych w zalenoci od sieci wynosił od 32,5% do 37,2% w samym tylko roku 2007, w którym to odłczono w sumie a 13,5 mln (!) kart SIM.

Osoby, które przestaj by klientami danej firmy np. na rzecz jej bezporedniej konkurencji mog w istotny sposób decydowa o kształcie rynku. Jest to szczególnie widoczne w przypadku przedsiwzi, w których koszty pozyskania klienta s niewspółmiernie wysokie do kosztów jego

1 W artykule przedstawiono wybrane elementy pracy mgra in. Piotra Sulikowskiego napisanej pod kierunkiem promotora prof. dra hab. in. Ryszarda Budziskiego. Przygotowanie odnonej pracy moliwe było m.in. dziki uczestnictwu w midzynarodowym programie konkursowym SAS® Fellowship Program oraz współpracy z operatorami telefonii

(2)

utrzymania. Problem odej jest najbardziej dotkliwy, gdy dotyczy grupy najwaniejszych, najbardziej dochodowych klientów, tych o wysokiej wartoci yciowej LTV [ang. lifetime value].

Dogłbne poznanie problemu i wiedza o tym, kim s klienci, których nie udało si zatrzyma moe przyczyni si do przewagi konkurencyjnej danej firmy. Dopiero pod koniec ubiegłego wie-ku wiedz tak zaczto wykorzystywa, analizujc dane i tworzc modele, które z wikszym lub mniejszym powodzeniem pozwalały wskazywa rezygnujcych klientów [5]. Co istotne, kiedy po-tencjalnych odchodzcych uda si ju poprawnie zidentyfikowa, koszt działa zapobiegawczych wcale nie musi by wysoki – czsto wystarczy nawizanie bezporedniego kontaktu z klientem, np. przeprowadzenie ankiety czy zwykłej rozmowy telefonicznej, wypytanie klienta o poziom jego satysfakcji itp.

Powstaje jednak problem, w jaki sposób klasyfikowa klientów jako potencjalnie pozostaj-cych lub odchodzpozostaj-cych, aby móc przedsiwzi kroki zmierzajce do zmniejszenia odsetka rezy-gnacji. Rozwizanie mog przynie rónego rodzaju metody eksploracji danych i odkrywania wiedzy. Dziki wykorzystaniu danych, które s standardowo gromadzone w bazach operatora (tzn. nawet bez trudniej dostpnych danych o sytuacji na rynku czy satysfakcji klienta) mona próbowa opracowa wystarczajco dokładny klasyfikacyjny model odej, a nastpnie przenie odkryte reguły rzdzce zjawiskiem dla badanych klientów w przeszłoci na przyszło.

W toku bada wykorzystywano pakiet oprogramowania SAS®, pozwalajcy na zautomatyzo-wan realizacj pewnych standardowych zada analitycznych. Zastosowany jzyk programowania to SAS® 4GL [ang. 4th Generation Language]. Ponadto korzystano z programu ROSE2, udostp-nianego dla celów naukowych przez Zakład Inteligentnych Systemów Wspomagania Decyzji Insty-tutu Informatyki Politechniki Poznaskiej [6].

2. Utrzymanie i rezygnacja

Zagadnienia omawiane w niniejszym artykule naley umieci w kontekcie jednej z ogólnych filozofii działania przedsibiorstwa, jakim jest zarzdzanie relacjami z klientami – CRM [ang. Cu-stomer Relationship Management]. Mówi ona, e w kadej dziedzinie i na kadym etapie funkcjo-nowania firmy preferencje, wymagania i przyzwyczajenia klienta oraz umiejtne budowanie relacji z nim s najwaniejsze. Filozofia CRM-u uwzgldnia fakt, e kady klient jest indywidualn jed-nostk, wskazujc, i kadego trzeba traktowa nie w sposób masowy, ale taki, jakiego by sobie yczył [7]. W informatyce CRM-em nazywany jest system informatyczny, który w istotny sposób przyczynia si do realizacji zarysowanej powyej strategii.

Utrzymanie (retencja, zatrzymanie) klienta odnosi si do powtórnego zakupu produktów lub ponownego skorzystania z usług danego dostawcy przez danego klienta. Retencja jest oczywicie zjawiskiem pozytywnym dla firmy, chyba e dotyczy pewnej grupy osób przynoszcych firmie straty lub szkody. Zwykle jednak im wiksza baza wartociowych klientów, tym wiksze przycho-dy i zyski firmy. Ponadto osoby wielokrotnie korzystajce z oferty danego przedsibiorstwa (tzw. klienci stali) s zazwyczaj mniej wraliwi na wzrost cen; wiele osób skłonnych jest płaci wysz cen za produkty firmy, która jest ju im znana, i któr darz zaufaniem [8].

Pojciem przeciwstawianym utrzymaniu jest rezygnacja, lub inaczej odejcie, czsto okrelane te jako churn [czyt. czern]. Oznacza ono całkowite zaprzestanie nabywania pewnych produk-tów/usług lub tylko zmian dostawcy. Naleałoby si odnie do dwóch głównych typów churnu:

 przymusowego [ang. involuntary churn],  i dobrowolnego [ang. voluntary churn].

(3)

W literaturze nie ma zgodnoci co do interpretacji ww. typów odej; według autora mona powysze rozumie tak, e „rezygnacja pierwszego rodzaju spowodowana jest okolicznociami, zazwyczaj niespodziewanymi, na które dostawca nie ma bezporedniego wpływu, choby zmian miejsca zamieszkania konsumenta poza obszar wiadczenia usług, jego zł sytuacj finansow czy te wzgldami zdrowotnymi. Odejcie drugiego typu wynika [za] z przyczyn, na które dostawca ma wpływ lub na które moe skutecznie reagowa, np. braku satysfakcji z produktu, jego trudnej dostpnoci, dotychczasowych złych dowiadcze z nim, wzrostu opłat lub braku czytelnoci cennika, niskiej jakoci obsługi” [9].

Stosowanych jest co najmniej kilka rónych miar zjawiska. Najczciej stosowanym miernikiem jest tzw. wska nik rezygnacji CR [ang. churn rate], inaczej wska nik odej, wska nik utraty klienta lub wska nik churnu. Wyraa on „redni roczny odsetek utraconych klientów” [8]. Naley wyjani jednak, e wska nik utraty klienta moe dotyczy okresów innych ni rok kalendarzowy. Ogólnie zatem okrela wielko grupy klientów, która nie dokonuje kolejnego zakupu w danej firmie w cile okrelonym czasie (najczciej wynikajcym ze specyfiki przedsibiorstwa i cyklu zakupowego) wzgldem całej bazy klientów:

% 100 ⋅ = n n CR c ,

gdzie nc – liczba klientów, którzy nie dokonali powtórnego zakupu, n – liczba wszystkich klientów.

Wydaje si, e rzeczywist skal zjawiska opisuje wska nik, w którym liczba wszystkich klientów w mianowniku dotyczy pocztku analizowanego okresu. Warto doda, e menederowie firm dla uzyskania jak najlepszych wartoci wska nika czsto preferuj tzw. wska nik odej netto, w którym uwzgldniane s równie nowe osoby, zasilajce baz klientów firmy w analizowanym okresie.

Naley pamita, e zjawisko odchodzenia klientów w specyficznych przypadkach nie musi by niekorzystne, podobnie jak utrzymywanie klientów nie zawsze jest opłacalne. Oczywicie w zalenoci od polityki budowania lojalnoci w danej organizacji mona podejmowa działania zmierzajce do zmiany klienta, którego nie warto utrzymywa, w takiego, który stanie si klientem wartociowym i rentownym.

Mona zauway, i rezygnacja jest problemem niezwykle złoonym. Dlatego powszechne jest sformułowanie „zarzdzanie churnem”, okrelajce zestaw działa zwizanych z utrzymywaniem klientów i przeciwdziałaniem ich rezygnacjom. Przykładow struktur procesu zarzdzania rezygnacjami zaprezentowano na rys. 1. W bazie danych pokazanej na tym rysunku przechowywane s m.in. dane z biura obsługi klienta, dane dot. faktur i wykonanych operacji, dane benchmarkowe czy te dane z przeprowadzonych bada klientów dot. poziomu deklarowanej przez nich satysfakcji. Na ich podstawie nastpuje identyfikacja potencjalnych odchodzcych oraz obliczanie yciowej wartoci klientów, co z kolei wykorzystywane jest do ich klasyfikacji. Klienci nierentowni powinni by sprawdzani pod ktem moliwoci ich transformacji w klientów rentownych. Jeli okae si to niemoliwe, firma prawdopodobnie powinna rozway rezygnacj z nich i uzna za kandydatów do odejcia przymusowego. Klienci rentowni lub majcy chocia odpowiedni potencjał w tej kwestii zasługuj natomiast na wysiłki firmy zmierzajce do ich utrzymania. Efekty tych wysiłków, podobnie jak wyniki analiz bazy, wykorzystywane s do przewidywania moliwych zachowa klientów. To z kolei moe pozwoli na udoskonalenie całego procesu i prób eliminacji niektórych przyczyn rezygnacji. Warto prócz tego zauway, e

(4)

wspomniana wczeniej identyfikacja potencjalnych odchodzcych, której w głównej mierze dotyczy niniejszy artykuł, znajduje si w centralnym miejscu opisywanego procesu [4].

Rys. 1. Proces zarzdzania churnem ródło: opracowanie własne na podst. [4]

3. Problem identyfikacji rezygnujących

Mona zatem powiedzie, e kluczowym elementem zarzdzania churnem jest identyfikacja rezygnujcych. Cho przewanie trudno zbada, co dokładnie jest przyczyn odejcia konkretnego klienta, niezwykle wskazane byłoby, eby operator potrafił zidentyfikowa sytuacj wysokiego ryzyka, w której abonent zaczyna zastanawia si nad odejciem lub te jest wysokie prawdopodobiestwo, i przestanie wywizywa si z płatnoci, co bdzie skutkowa jego odłczeniem. W obu przypadkach, gdyby operator potrafił przewidzie takie sytuacje, mógłby spróbowa zapobiec odejciom i maksymalizowa swój zysk aktualny, jak i przyszły. Przykładowo moe zaproponowa specjaln ofert lojalnociow (w pierwszym przypadku) czy te zasugerowa przejcie z systemu abonamentowego na bezabonamentowy (w drugim przypadku).

Sygnałem wskazujcym na ryzyko rezygnacji klienta z usług moe by np. kontakt z działem obsługi klienta, gdzie uytkownik sieci dowiaduje si o skutki przedwczesnego zerwania umowy lojalnociowej. Innym niepokojcym sygnałem moe by zmiana zachowania uytkownika sieci

identyfikacja obliczanie potencjalnych LTV odchodzących klienta kandydaci do odejcia przymusowego klienci nierentowni klienci rentowni transformacja w klienta rentownego tworzenie i realizacja strategii utrzymania predykcja przyszłych zachowa eliminacja przyczyn churnu baza danych

(5)

dot. np. czasu trwania rozmów, wysokoci opłat za połczenia, docelowych numerów połcze czy odległoci pomidzy rozmówcami [10].

Dla celów identyfikacji potencjalnych rezygnujcych mona zatem bada cechy i zachowania klientów. Badanie takie słuy moe odkrywaniu reguł rzdzcych zjawiskiem odej – pomocne s tu metody eksploracji danych [ang. data mining] i odkrywania wiedzy w bazach danych KDD [ang. Knowledge Discovery in Databases]. Według definicji wiodcej agencji badawczo-konsultingowej Gartner eksploracja danych to „proces odkrywania znaczcych powiza, wzorców lub tendencji poprzez dokładne badanie duych iloci danych przechowywanych w repozytoriach. Data mining wykorzystuje techniki rozpoznawania wzorców, jak te metody statystyczne i matematyczne ” [11, tłum. własne]. Eksploracja jest nazywana take zgłbianiem, dreniem, ekstrakcj lub wydobywaniem danych2.

Jednym z moliwych podej do eksploracji danych i odkrywania wiedzy w analizie rezygnacji jest to wykorzystujce teori zbiorów przyblionych. Godn odnotowania ciekawostk jest, e sam twórca wspomnianej teorii, czyli Z. Pawlak, w [12] omawia metod jej wykorzystania na przykładzie włanie odej klientów w telekomunikacji, co mona w pewnym sensie uzna za fakt znamienny. W analizach opartych na tej teorii zazwyczaj uwzgldnia si dane za jeden wybrany okres lub te jednakowo traktuje si dane z rónych okresów. Ewentualnie te same czynniki dla rónych okresów traktuje si jako de facto róne czynniki. Pewn wad tych podej jest to, e albo w niewystarczajcy sposób uwzgldniaj uwarunkowania czasowe gromadzonych danych, albo te nie pozwalaj rónicowa danych pochodzcych z rónych okresów w czytelny sposób. Wydaje si, e czas, jak wiadomo ma bardzo istotne znaczenie dla postrzegania rzeczywistoci [13] i dobrze byłoby móc uwzgldnia jego znaczenie w prowadzonych analizach. 4. Procedura analityczna

Opisywana dalej procedura badawcza została wypracowana przez autora dla celu predykcji rezygnacji klientów, a take poznania reguł dot. cech i zachowa klientów w kontekcie tego zjawiska. Jej wstpny zarys przedstawiono wczeniej m.in. w [14]. Naley zaznaczy, e proponowana procedura, w zgodzie z załoeniami popularnej metodologii CRISP-DM [ang. Cross-Industry Standard Process for Data Mining], pozwala na interwencj analityka na kadym z etapów, a take powrót do faz wczeniejszych, tak aby uzyska jak najlepsze wyniki.

Co wane, w opisywanej procedurze autor zakłada wykorzystanie danych z n okresów ti

(i={-n+1,..., 0}): ostatniego okresu poddawanego analizie (t0), ale take – dodatkowo – okresów

wczeniejszych (t-1, t-2 itd.), rónicujc ich wpływ na tworzony regułowy model.

Etapy tej procedury prezentuj si nastpujco:

1. Okrelenie załoe i przygotowanie danych. 2. Przegldowa analiza danych.

3. Segmentacja klientów. 4. Analiza korelacji. 5. Badanie współliniowoci.

6. Regresja logistyczna z metod wyboru krokowego.

7. Odkrywanie reguł z uwzgldnieniem uwarunkowa czasowych.

2 Autorowi wydaje si, e dwa ostatnie okrelenia nie s jednak najbardziej trafne, gdy mog sugerowa zwykłe pobiera-nie danych z bazy, a pobiera-nie ich twórcz analiz.

(6)

Na pocztku pierwszego etapu naley przede wszystkim ustali, jaki dokładnie rodzaj rezygnacji podlega bdzie analizom i jak definiowane bdzie zdarzenie odejcia. Ponadto trzeba zdecydowa, co bdzie jednostk analiz – czy bdzie to pojedyncza karta SIM czy te kady klient, który to moe mie wicej aktywnych kart i telefonów. Mona na przykład przyj, e analizowane bd karty SIM aktywne na pocztku okresu i na podstawie statusu ich aktywnoci na koniec badanego okresu warto zmiennej zalenej przyjmowa bdzie warto 0 (gdy karta nie pozostaje aktywna, czyli klient rezygnuje) lub 1 (w przeciwnym wypadku).

Zakłada si, e badane s przynajmniej 2 kolejne równe co długoci okresy z przeszłoci (czyli t0, t-1), poprzedzajce pewien okrelony moment czasu. Ze wzgldu na charakter analizowanego

zjawiska wydaje si logiczne, e zachowania klientów w ostatnim okresie (t0) powinny by

najbardziej istotne dla odkrywania reguł, które rzdz churnem i wykrywania zmiennych z nim powizanych. W zwizku z tym przyjmuje si, e okres t0 ma zatem charakter priorytetowy i w

pewnym sensie nadrzdny w stosunku do wszystkich okresów wczeniejszych. Ze wzgldu m.in. na cykl zmian ofertowych w sieciach komórkowych, proponuje si rozpatrywanie okresów półrocznych lub trzymiesicznych.

W ramach kadego z analizowanych okresów ti uwzgldniana bdzie odpowiednia liczba

miesicznych okresów rozliczeniowych (billingowych). Jeden z nich uznawany jest za miesic bazowy, wzgldem którego prowadzone s pewne obliczenia dynamiki itp., i po którym dla danego klienta nie uwzgldnia si ju kolejnych miesicy. Dla klientów nierezygnujcych jako miesic bazowy mona przyjmowa ostatni z miesicy kadego z analizowanych okresów. Dla klientów rezygnujcych lepiej jednak przyjmowa miesic wczeniejszy, tzn. taki, w którym proces decyzyjny klienta dot. odejcia jeszcze si nie zakoczył. Naley uwzgldni take pewne uwarunkowania techniczne operatora, gdy czsto zdarza si, e po odejciu klienta przez pewien czas, np. 2 miesice, figuruje on jako obiekt aktywny w systemie billingowym. Tak sytuacj naleałoby zidentyfikowa, aby właciwie okreli bazowy miesic rozliczeniowy. Z drugiej strony oczywicie trzeba uwaa, aby nie siga zbyt daleko wstecz dla danego okresu ti, gdy mona

natrafi na czas kiedy klient nie mylał jeszcze o rezygnacji. Przydatna jest tu oczywicie pewna wiedza dziedzinowa.

Na tym etapie poza tym warto popracowa nad dobrym zrozumieniem danych ródłowych i ich reprezentacj docelow. Z tego wzgldu bardzo czsto jest to etap najbardziej praco- i czasochłonny; wymaga duej wiedzy dot. zarówno modelowania, jak i wiedzy dziedzinowej. W duej mierze od właciwego przygotowania danych zalee moe ostateczna uyteczno opracowywanego modelu.

Na kolejnym etapie procedury dokonuje si przegldowej analizy danych, zwłaszcza dla okresu uznawanego za priorytetowy, czyli t0. Dobrze jest np. dokładnie rozpozna typy cech,

okrelanych przez zmienne w badanym zbiorze. W ramach przegldowej analizy danych dobrze jest dokona syntetycznego opisu statystycznego badanej zbiorowoci, przeanalizowa rozkłady empiryczne zmiennych, czy te zwróci uwag na to, jakie ewentualne czynniki badanego zjawiska nie zostały uwzgldnione w posiadanym zbiorze danych.

W nastpnym kroku wskazana jest segmentacja klientów na tzw. grupy wzgldnie jednorodne. Trudno bowiem przyj, e identyczne reguły rzdz zachowaniami klientów np. abonamentowych i bezabonamentowych, czy te indywidualnych i biznesowych. Pewne wzgldnie homogeniczne grupy przez samych operatorów nawet traktowane s zazwyczaj w róny sposób, co wpisuje si

(7)

zreszt w popularn strategi tzw. działa zrónicowanych, okrelan jako „tworzenie odrbnych strategii marketingowych dostosowanych dla potrzeb i oczekiwa rónych grup klientów” [15]. Rónice midzy poszczególnymi grupami dotyczy mog take zakresu zmiennych, jakimi opisa mona klientów. Jeeli analityk uzna to za celowe, mona pokusi si o jeszcze dalej idc segmentacj, np. w oparciu o tzw. taksonomi rozmyt. Sugeruje si, aby nastpne etapy procedury realizowa osobno dla kadej z grup.

Analiza korelacji przeprowadzana jest w kolejnym etapie. Stosuje si rónego rodzaju miary korelacji. Naley jednak pamita, e nie kad miar da si zastosowa dla kadego typu zmiennych. Dobrze te, gdy wybrane współczynniki korelacji lub ich pochodne s midzy sob porównywalne, tak e mona próbowa uszeregowa potencjalne predyktory według ich wpływu na zmienn zalen. Warto stosowa tzw. grup miar typu PRE [ang. Proportion/Percentage Reduction in Error], które s na poziomie ilorazowym, co pozwala podejmowa próby wnioskowania nt. wzgldnej wanoci poszczególnych zmiennych objaniajcych.

Poniewa wstpny model badanego zjawiska tworzony bdzie przy pomocy regresji logistycznej, pewien problem stanowi współliniowo [ang. collinearity], która wystpuje, kiedy mona zaobserwowa silne zwizki liniowe pomidzy zmiennymi objaniajcymi. Jeli pewne zmienne s silnie współliniowe, trudno uzyska dobre oszacowanie ich wpływu na zmienn objanian. Jeeli pewna zmienna objaniajca bdzie mocno powizana z inn zmienn objaniajc, a nie bdzie mocno zwizana ze zmienn zalen, przyjmuje si, e wówczas jedna z pary zmiennych niezalenych bdzie wyłczona z analizy regresji. Gdy jednak nie para zmiennych jest silnie skorelowana, lecz w zalenoci midzy sob uwikłanych jest wiele zmiennych, opisane podejcie moe nie by wystarczajce. Warto wówczas skorzysta z odpowiednich statystyk diagnozujcych tzw. wielowspółliniowo [ang. multicollinearity]: tolerancji i czynnika inflacji wariancji VIF [ang. Variance Inflation Factor].

Do wstpnego modelowania badanego zjawiska na podstawie danych z okresu t0 proponuje si

zastosowa metod wielokrotnej binarnej regresji logistycznej, metody bardzo popularnej i chtnie stosowanej w badaniach marketingowych. Poniewa pod uwag brane s obserwacje nt. rónych klientów z tylko jednego okresu, mona przyj, e załoenie o niezalenoci obserwacji jest tu spełnione.

Na tym etapie procedury dokonuje si równie wyboru zmiennych do kocowego modelu. Mniejsza liczba zmiennych ułatwia badaczowi objcie umysłem zalenoci opisywanych przez model. Trzeba take pamita, e kada kolejna zmienna w równaniu regresji powodowa moe wzrost oczekiwanych błdów predykcji. Do wyboru zmiennych do modelu proponuje si wykorzystywa tzw. metod wyboru krokowego stepwise z poziomem istotnoci dla wejcia =0,16 [16] i poziomem istotnoci dla wyjcia =0,10. Ponadto wydaje si, e wskazane jest, aby analityk dysponował odpowiedni wiedz teoretyczn lub t wynikajc z wczeniejszych dowiadcze dot. analizowanego zjawiska. Dziki temu mógłby korygowa ewentualne wnioski wynikajce z samych danych, w tym list uwzgldnianych w kocowym modelu zmiennych.

W kocu generowany jest regułowy model badanego zjawiska uwzgldniajcy i rónicujcy dane pochodzce z rónych okresów z przeszłoci. Do odkrywania reguł metod zbiorów przyblionych proponuje si wykorzystywa prób zrównowaon, tj. o równej lub zblionej liczbie obiektów nalecych do kadej z dwóch klas zmiennej decyzyjnej, czyli klientów pozostajcych i rezygnujcych. Odpowiednio due próby losowe powinny zosta wygenerowane dla kadego z okresów ti.

(8)

Proponuje si uwzgldnia tylko te zmienne objaniajce, które dobrano w poprzednich etapach i bez koniecznoci dalszego redukowania zbioru atrybutów. Sugeruje si podział tabeli informacyjnej dla okresu t0 w stosunku 2:1 na cz uczc (2m obiektów) i cz testow (m

obiektów). Dodatkowo dla okresu t0 proponuje si sporód pozostałych obiektów w zbiorze

wylosowa m przykładów o proporcjach przynalenoci do poszczególnych konceptów decyzyjnych odpowiadajcych rzeczywistoci (próba nie zrównowaona). Dla wczeniejszych okresów ti losuje si zrównowaone próby po 2m obiektów kada.

Nastpnie zdyskretyzowa naley wartoci zmiennych, chyba e analizowany zbiór jest ju w pełni zdyskretyzowany, np. zawiera tylko zakodowane wartoci lingwistyczne. Przyjmuje si, e normy dyskretyzacji wyznaczane s na podstawie ostatniego okresu t0, a nastpnie aplikuje si je

dla okresów wczeniejszych. Mona zdecydowa si na wybór kilku metod dyskretyzacji i porówna, jakie efekty przynosz dla badanego zbioru danych.

Ze wzgldu na moliwe zmiany dzielce poszczególne okresy wydaje si, e naley rónicowa wpływ danych z poszczególnych okresów ti na odkrywan wiedz regułow.

Realizacja tego postulatu w proponowanej metodzie odbywa si poprzez porednie wpływanie na wsparcie odkrywanych reguł decyzyjnych. Przyjmuje si, e w analizowanym zbiorze obserwacje z okresu poprzedniego mog by łczone ze zwielokrotnionymi obserwacjami z okresów nastpnych. Proces zwielokrotnienia autor nazywa dalej równie klonowaniem. Kwesti istotn dla wnioskowania jest tutaj ustalenie, jakie zmiany dziel poszczególne okresy w stosunku do nadrzdnego okresu t0. Wprowadza si współczynnik klonowania cc [z ang. cloning coefficient].

Dla kadego z analizowanych okresów ti współczynnik cci ustalany jest przez eksperta

dziedzinowego na podstawie zmian dzielcych okresy. Niech cci∈ C (i={-n+1,..., 0}przy n

analizowanych okresów). W najprostszym przypadku, gdy analizie poddawane s tylko 2 okresy: t0

oraz t-1, ekspert okrelałby, o ile wikszy wpływ na generowane reguły miałyby mie zachowania

klientów z ostatniego okresu w stosunku do okresu poprzedniego. Przykładowo, jeeli cc0 = 2,

a cc-1 = 1, wówczas dane z ostatniego okresu uwaane s za dwa razy bardziej istotne ni te

z okresu poprzedniego. Dla wikszej liczby badanych okresów ti cig wartoci cci moe

odzwierciedla zarówno liniowy jak i nieliniowy charakter zalenoci midzy kolejnymi okresami. Warto zauway, e ekspert moe take wyłcza wybrane okresy z analiz (np. ze wzgldu na zbyt due zmiany, jakie je dziel w stosunku do t0). Wówczas dla tych okresów ti okreli

odpowiednie cci= 0. Po przygotowaniu kocowego zbioru dokonuje si indukcji reguł. Warto

nastpnie przeanalizowa powstałe reguły pod ktem miar je opisujcych, np. siły, pewnoci, pokrycia itp. Dla analityka zainteresowanego zrozumieniem badanego zjawiska szczególnie cenne mog by reguły o najwikszej sile. Warto te rozwaa reguły nie w kategoriach deterministycznych, lecz probabilistycznych, przyblionych, tzn. uwzgldnia reguły nie do koca pewne, ale pozwalajce przyporzdkowa analizowane obiekty z wikszym prawdopodobiestwem do jednej klasy ni innej.

5. Podsumowanie

Problem zjawiska rezygnacji jest niezwykle istotny dla funkcjonowania wielu firm. Szczególne miejsce zajmuj poród nich operatorzy telefonii komórkowej. Umiejtno wskazania, którzy klienci mog planowa np. przejcie ze swoim numerem do operatora konkurencyjnego, zadecydowa moe o przewadze konkurencyjnej operatora. Skuteczna klasyfikacja pozwala na przedsiwzicie rodków zaradczych, które mog doprowadzi do utrzymania klienta, a co za tym

(9)

idzie zapewni firmie trwałe zyski. Niewtpliwie jest to jedna z przyczyn, dla których zainteresowanie metodami eksploracji danych i odkrywaniem wiedzy w biznesie nieustannie ronie.

Zaproponowana procedura pozwala na zautomatyzowany wybór predyktorów i bogat moliw interpretacj zwizków midzy nimi a zmienn objanian. Uwzgldnianie czasu pozwala rónicowa dane pochodzce z rónych okresów i w lepszy sposób czerpa z nich wiedz ni gdyby traktowane były one identycznie. Proponowane podejcie uwzgldniajce dane z przeszłoci bardziej odległej ni okres t0 nabiera ponadto szczególnego znaczenia dla analiz, w których

dysponuje si przekrojowym zbiorem danych nt. pewnej stosunkowo niewielkiej liczby przykładów, ale z wielu okresów z przeszłoci. Wówczas ograniczanie si tylko do okresu ostatniego moe nawet uniemoliwia odkrycie reguł, zwłaszcza przy odpowiednio duej liczbie atrybutów. Z drugiej strony jednakowe traktowanie danych z rónych okresów moe zupełnie nie mie sensu, gdy ignorowałoby de facto pojcie czasu i zmian, jakie w nim zachodz. Co istotne, proponowana metoda pozwala take na interwencje eksperta i analityka niemal w kadym momencie.

Na zakoczenie warto doda, e metod zastosowano do opracowania klasyfikacyjnego modelu rezygnacji klientów abonamentowych dla jednego z operatorów komórkowych. Uzyskane wyniki okazały si bardzo zadowalajce. Ze wzgldu na ograniczenie miejsca zostan one szczegółowo zaprezentowane w nastpnych planowanych publikacjach.

Bibliografia

1. GSM World News – Statistics [online]. GSM World Association, 2008-02-06 [dostp 21 maja 2008]. Dostpny w Internecie: < http://www.gsmworld.com /news/statistics/index.shtml>.

2. T. widerek: Aktywnych kart SIM jest o 7,5 mln mniej ni według GUS. W: „Gazeta Prawna” [online]. 2008-04-07 [dostp 21 maja 2008]. Dostpny w Internecie: <http://biznes.gazetaprawna.pl/artykuly/12942,aktywnych_kart_sim_jest_o_7_5_mln_mni ej_niz_wedlug_gus.html>.

3. Sulikowski P., Budziski R.: Zastosowanie teorii zbiorów przyblionych do definiowania reguł zachowania si klientów operatora telefonii komórkowej. W: Drelichowski L. (red.): Studia i materiały Polskiego Stowarzyszenia Zarzdzania Wiedz, t. 4. Bydgoszcz: PSZW, 2005, s. 193- 204.

4. Strouse K.G.: Customer-Centered: Telecommunications Services Marketing. Norwood, MA: Artech House, 2004.

5. Dyché J.: CRM. Relacje z klientami. Gliwice: HELION, 2002.

6. Laboratory of Intelligent Decision Support Systems of the Poznan University of Technology: ROSE2 2.2 (build 25.02.2004) [online]. Pozna: Politechnika Poznaska, 2004 [dostp 10 lutego 2008]. Dostpny w Internecie: <http://www-idss.cs.put.poznan.pl/site/rose.html>.

7. Langford-Wood N., Salter B.: CRM in a week. London: Hodder & Stoughton, 2002. 8. Rudawska E.: Lojalno klientów. Warszawa: Polskie Wydawnictwo Ekonomiczne, 2005. 9. Sulikowski P.: Zastosowanie teorii zbiorów przyblionych w analizie lojalnoci jako element systemu zarzdzania relacjami z klientami (CRM). W: Kiełtyka L. (red.):

(10)

Multimedia w biznesie i edukacji. Białystok: Fundacja Współczesne Zarzdzanie, 2005, t.II, s. 60-66.

10. Todman Ch.: Projektowanie hurtowni danych. Zarzdzanie kontaktami z klientami (CRM). Warszawa: Wydawnictwa Naukowo-Techniczne, 2003.

11. The Gartner Glossary of Information Technology and Acronyms and Terms [online]. [Stamford, CT]: Gartner Inc., 2004 [dostp: 10 maja 2008]. Dostpny w Internecie: <http://www.gartner.com/6_help/glossary/Gartner_IT_Glossary.pdf>.

12. Pawlak Z.: Rough set theory and its applications. „Journal of Telecommunications and Information Technology” 2002, Nr 3, s. 7-10.

13. Budziski R.: Komputerowy system przetwarzania danych ekonomiczno-finansowych w przedsibiorstwie. Warszawa-Szczecin: Wydawnictwo Naukowe Uniwersytetu Szczeciskiego, 2000, Seria Badania Systemowe, t.24, Instytut Bada Systemowych PAN.

14. Sulikowski P.: Mobile Operator Customer Classification in Churn Analysis. In: Proceedings of the SAS® Global Forum 2008 Conference, 16-19.03.2008, San Antonio, Texas. SAS Institute Inc., Cary, NC, 2008, Paper 344-2008.

15. Drelichowski L.: Elementy teorii i praktyki zarzdzania z technikami informacyjnymi w przedsibiorstwie. Bydgoszcz: Wydawnictwa Uczelniane Akademii Techniczno-Rolniczej, 2000.

16. Shtatland E.S., Kleinman K., Cain E.M.: Stepwise Methods in Using SAS® PROC LOGISTIC and SAS® Enterprise Miner™ for Prediction. In: Proceedings of the 28th Annual SAS Users Group International Conference, Seattle, WA, March 30 – April 2, 2003. Cary, NC: SAS Institute Inc, 2003, Paper 258-28.

(11)

MOBILE OPERATOR CUSTOMER CLASSIFICATION METHOD IN CHURN ANALYSIS

Summary

Customer churn is a grave problem for all mobile operators. Early identifica-tion of potential churners could help retain them in the operator’s network. A multi-stage research procedure is proposed. It allows the identification of significant churn factors and then the establishing of a classification model of the phenomenon for each customer segment. The method outlined in the paper relies on both qualita-tive and quantitaqualita-tive data as well as takes into account the element of time, which characterises data from different periods.

Keywords: data mining, rough sets, churn, CRM, mobile telephony

Piotr Sulikowski

Katedra Systemów Informatycznych Zarzdzania Instytut Systemów Informatycznych

Ryszard Budziski

Dyrektor Instytutu Systemów Informatycznych Wydział Informatyki Politechniki Szczeciskiej Szczecin, ul. ołnierska 49

http://www.wi.ps.pl

e-mail: psulikowski@wi.ps.pl e-mail: rbudzinski@wi.ps.pl http://www.wi.ps.pl

Cytaty

Powiązane dokumenty

W nagłówku strony powinno się znaleźć nazwisko ucznia i numer zestawu (3.24).. Włącz listę numerowaną i kolejno

Jeśli Microsoft SQL Server 2008 zainstalowany jest na komputerze pracującym pod kontrolą systemu Microsoft Windows Server 2003, można wymusić odpowiednią politykę

Źródło: Opracowanie własne. Kolejno zbadano wpływ niektórych elementów działań operatora telefonii ko- mórkowej w Polsce na jego konkurencyjność. Oceny są zbliżone i nie

Pierwszy sezon badań osad ludności: kultury pucharów lejkowatych, kultury iwieńskiej, ludności z wczesnej epoki brązu charakteryzowanej przez inne para­ metry kulturowe

Pomimo tego, że operator logistyczny „GAMA” jest cenionym dostawcą na rynku, w myśl sentencji Willa Rogersa Nawet jeśli jesteś na dobrym szlaku, to jeżeli

Cel bada ´n — sprawdzenie mo ˙zliwo´sci przewidywania liczby komórek somatycznych w mleku (lub klasy liczby komórek: dobra / zła).. Nadmierny poziom liczby komórek somatycznych

ROBERT BRODERIP AND HIS PLAIN AND EASY INSTRUCTIONS FOR YOUNG PERFORMERS ON THE PIANO FORTE OR HARPSICHORD (1794).

Zważywszy, że analizowane bazy danych obejmują także publikacje z dzie- dziny nauk medycznych (Medline), zrozumiałym jest, iż większość publikacji ze słowem