Zastosowanie teorii zbiorów przybliżonych do oceny preferencji klientów marketingowej hurtowni danych

(1)

Politechnika Szczeciska Wydział Informatyki

Instytut Systemów Informatycznych

Streszczenie

W artykule zaprezentowano przykładowe zastosowania teorii zbiorów przyblionych w analizie preferencji nabywców produktów firmy i ocenie potencjalnego klienta. Zastosowania te obejmuj moliwoci przeprowadzenia klasyfikacji klientów gdy dane o nich s niespójne lub czciowo sprzeczne. W oparciu o peror zbiorów przyblionych moliwe jest generowanie reguł opisu zbioru przypadków.

1. Wprowadzenie

Jeszcze do niedawna działalno przedsibiorstw koncentrowała si na produkcie, nie dostrzegajc koniecznoci identyfikacji nabywcy, jego preferencji, oceny wartoci i korzyci płyncych z oferowanego przez firm produktu lub usługi. Rozwój konkurencji i gospodarki rynkowej sprawił jednak, e firmy, aby redukowa koszty i zwiksza udział w rynku zostały zmuszone do walki o klienta bowiem produkt czy usługa zaspakaja potrzeby klienta, gdy ma dla niego okrelon warto, przynosi klientowi odpowiednie dla niego szeroko rozumiane korzyci. Aby móc zabiega o klientów, firmy musiały najpierw ustali kim oni s i pozna ich potrzeby, preferencje, oceny. W tym celu by zdoby niezbdne dane czsto korzysta si z komputerowego wsparcia takimi narzdziami jak hurtownie i bazy danych, analityczne przetwarzanie danych OLAP (ang. On line analitical processing), metody odkrywania informacji (wiedzy) (ang. data mining) czy narzdzia KDD (ang. knowledge discovery decision), które umoliwiaj odkrywanie nieznanych wczeniej, a potencjalnie przydatnych prawidłowoci i relacji ukrytych w danych..

Do grupy wanych metod uywanych w procesie odkrywania wiedzy naley klasyfikacja i rozpoznawanie zjawisk i parametrów badanych preferencji lub zachowa klientów – badanie np. czy potencjalny klient bdzie chciał naby produkt okrelonej marki, jakimi cechami mona scharakteryzowa potencjalnego klienta firmy, kto nie bdzie potencjalnym klientem firmy, itp.

Metody klasyfikacji stosowane s zwykle w pierwszej fazie obróbki danych i odkrywania wiedzy z danych. Poniewa jednak dane, na których wykonuje si analizy zachowa klientów firm lub ich preferencji zawieraj dane niepełne lub oparte czciowo na sprzecznych przesłankach to wydaje si, e w tym przypadku naley posłuy si takimi metodami, które eliminuj sztywne zasady przynalenoci do zbiorów (klas) i wprowadzaj moliwo definiowania przynalenoci do zbioru w oparciu o tzw przyblienie dolne i górne. W takim bowiem przypadku logika oparta na teorii zbiorów przyblionych zyskuje nowe właciwoci do rozwizania wielu problemów wymagajcych inteligentnej analizy danych, poszukiwania zalenoci midzy danymi co w rezultacie umoliwia i wspomaga podejmowanie decyzji.

(2)

W artykule zaprezentowano przykładowe zastosowania teorii zbiorów przyblionych w analizie preferencji potencjalnych nabywców produktów firmy i ocenie potencjalnego klienta.

2. Charakterystyka danych o klientach firmy

Okrelenie relacji midzy postaw konsumenta (odpowied na pytanie w sprawie zakupu produktu firmy lub jego preferencji), a odpowiedzi na inne pytania pozwala na odkrycie, zbadanie, które z tych pyta ma wpływ, znaczenie na zakup i preferencje klienta. Zwykle głównym celem analizy i w efekcie celem podjcia decyzji marketingowej bywa uzyskanie odpowiedzi na proste pytanie„Jak wyglda i czym si charakteryzuje typowy nabywca oferowanego przez firm produktu ?”. Na to pytanie mona uzyska odpowied, analizujc dane pozyskane z ankiety, które dalej s ródłem do odkrywania wiedzy z tych danych.

Wobec istnienia wielu metod odkrywania wiedzy z danych, podstawowym problemem staje si wybór odpowiedniej do potrzeb metody lub metod odkrywania wiedzy. Jedn z czciej

stosowanych metod odkrywania wiedzy jest klasyfikacja.

W klasycznych metodach klasyfikacji, opartych na ogólnej teorii zbiorów podstaw klasyfikacji s silne współzalene owiadczenia (odpowiedzi potencjalnych klientów), które pomagaj w okreleniu profilu potencjalnego nabywcy oraz zasada, e element (odpowied) naley albo nie naley do danej klasy. Taka klasyfikacja wymaga jednak okrelenia tzw. błdu klasyfikacji (odstpstwa od sztywnych zasad). Zwykle do weryfikacji procesu klasyfikacji stosuje si na podstawie dostpnych danych tzw. macierz pomyłek, z której midzy innymi wynika błd procentowy klasyfikacji. Te błdy s wówczas podstaw do okrelenia wiarogodnoci klasyfikacji i wycignitych z tej klasyfikacji poprawnych wniosków.

Ale dane ankietowe mog zawiera sprzecznoci i niespójnoci. Pod pojciem danych niespójnych rozumie si takie dane (wyniki zamieszczone np. w ankietach), które posiadaj identyczne lub podobne opisy, lecz zaliczane s do rónych poj. Gdy do analizy takich danych zastosowano by klasyczne metody klasyfikacji to oznaczałoby, e wród tych danych znajd si takie, które nie zostan poprawnie zaklasyfikowane i w dalszej analizie zwykle si takie dane pomija. Takie rozwizania mog jednak prowadzi do utraty wielu cennych aspektów analizowanych własnoci i cech potencjalnych klientów. Jak zauwaa Stefanowski [1] niespójno danych nie powinna by traktowana wyłcznie jako wynik błdu czy szumu informacyjnego poniewa taka niespójno moe by wynikiem waha klienta, niestabilnoci jego preferencji, niezrozumieniem zapyta ankietowych czy niepoprawnym przygotowaniem i przeprowadzeniem ankiety (np. niewłaciwy dobór reprezentatywnej grupy osób ankietowanych. Dlatego do analizy danych ankietowych czsto powinna by zastosowana klasyfikacja uwzgldniajca te niespójnoci w danych oparta na tzw. zbiorach przyblionych.

3. Zastosowanie teorii zbiorów przyblionych do klasyfikacji klientów

Dane o klientach uzyskane np. w wyniku przeprowadzenia ankietyzacji w reprezentatywnej grupie respondentów mona scharakteryzowa wieloma atrybutami, które mog przyjmowa okrelone wartoci (najlepiej gdy s one wyraone liczbowo – np. w okrelonej skali ocen). Kada ankieta (zawierajca wartoci przypisane badanym atrybutom) jest rozumiana jako obiekt, który moe przynalee do atomów – klas. Z kad ankiet zwizana jest decyzja ankietowanego (np. ocena chci zakupu czy preferencji klienta). Dla zgromadzonych w wyniku ankietyzacji danych mona opracowa tzw. tablic systemu informacyjnego dla procesu klasyfikacji, okrelania reguł

(3)

decyzyjnych i odkrywania wiedzy z danych o potencjalnych klientach firmy. Przykładow tablic systemu informacyjnego zaprezentowano w tabeli 1. Ze wzgldu na pogldowy charakter tej tablicy umieszczono w niej tylko niektóre dane z rzeczywistego przykładu.

Tabela 1 Wartoci liczbowe atrybutów

Nr atomu (klasy) Nr obiektu (ankiety) A1 A2 A3 Decyzja ankietowanego 1 2 2 2 D2 2 2 2 2 D2 3 2 2 2 D2 4 2 2 2 D2 5 2 2 2 D2 6 2 2 2 D1 7 2 2 2 D2 8 2 2 2 D2 9 2 2 2 D3 1 10 2 2 2 D2 2 11 2 2 3 D1 12 2 1 3 D1 3 13 2 1 3 D2 4 14 3 1 3 D2 15 1 2 1 D3 16 1 2 1 D3 17 1 2 1 D3 18 1 2 1 D3 5 19 1 2 1 D3

Przykładowa tablica systemu informacyjnego o klientach firmy (ródło : opracowanie własne) W wyniku analizy danych ankietowych mona okreli decyzj jak mona by przypisa potencjalnemu klientowi firmy. Definiowanie przynalenoci elementów, obiektów, atomów czy atrybutów do zbioru przyblionego oparte jest na podejciu, w których odrzuca si wymóg istnienia cile okrelonych granic zbioru. Wykorzystuje si wówczas moliwo zdefiniowania zbioru przyblionego w oparciu o jego tzw. przyblienie dolne i górne. Pod pojciem przyblienia

(4)

dolnego zbioru obiektów Y rozumie si zbiór tych elementów tego zbioru, których wszystkie obiekty nale na pewno do zbioru Y natomiast pod pojciem dolnego przyblienia zbioru Y rozumie si taki zbiór elementów, których cho jeden obiekt naley do zbioru Y, czyli zbiór takich elementów, które „by moe” nale do tego zbioru [3].

Brzegiem zbioru obiektów nazywa si rónic mnogociow midzy górnym i dolnym przyblieniem tego zbioru obiektów.

Kade przyblienie wie si z koniecznoci okrelenia dokładnoci tego przyblienia. Najczciej tak dokładno okrela si jako stosunek licznoci dolnego przyblienia zbioru do jego górnego przyblienia.

W oparciu o zbiory przyblione opracowano algorytmy przy pomocy, których moliwa jest nie tylko klasyfikacja obiektów, ale równie moliwe jest automatyczne generowanie reguł decyzyjnych, bdcych podstaw odkrywania wiedzy z danych o klientach firmy.

W teorii zbiorów przyblionych przyjmuje si zwykle, e stopie precyzji atomu jest równy 1. Jest to przyczyn duych utrudnie w odkrywaniu wiedzy dla takich zbiorów poniewa atomy wyranie wikszociowe s odrzucane z dolnego przyblienia.

Ciekawe zastosowanie teorii zbiorów przyblionych zaproponował W.Ziarko [2], w którym rozmiar brzegu zbioru przyblionego został pomniejszony poprzez pozostawienie w nim tylko tych obiektów, co do których nie jest moliwa klasyfikacja z błdem mniejszym od pewnego wstpnie zdefiniowanego poziomu. Jest to podejcie szczególnie korzystne dla tych zbiorów danych, których brzeg zawiera atomy, których obiekty w duej mierze nale do wybranej klasy decyzyjnej.

Istniej równie takie algorytmy, które pozwalaj zmieni stopie precyzji atomu. Do nich naley algorytm LEM2 VPM zwany algorytmem zmiennej precyzji.

4. Prezentacja zastosowania algorytmów LEM2 i algorytmu zmiennej precyzji LEM2 VPM do klasyfikacji i generowania reguł decyzyjnych.

LEM2 to jedna z opcji zaproponowanego przez J. W. Grzymał-Busse’a systemu LERS. Jest to heurystyczny algorytm ukierunkowany na znalezienie minimalnego opisu dyskryminujcego w zbiorze przykładów.

Model tzw. zmiennej precyzji (ang. Variable Precision Model – VPM) charakteryzuje si zmienionymi zasadami

Zastosowanie algorytmu LEM2 do przykładowych danych zawartych w tablicy systemu informacyjnego o klientach firmy z tabeli 1 pozwala okreli tablic czstoci przykładów w obrbie atomów (klas), dla poszczególnych klas decyzji zgodn z tabel 2.

Tabela 2 Liczno przykładów nalecych do

klasy (atomu) Nr atomu (klasy) D1 D2 D3 1 1 8 1 2 1 0 0 3 1 1 0

(5)

4 0 1 0

5 1 0 4

Czstoci przykładów w obrbie atomów dla poszczególnych klas wyodrbnionych w przykładowej tablicy systemu informacyjnego (ródło : opracowanie własne)

Podejcie LEM2 VPM pozwala zmodyfikowa tabel 2 czstoci przykładów w obrbie powyej przytoczonych atomów do postaci zgodnej z tabel 3.

Tabela 3 Liczno przykładów nalecych do

klasy (atomu) Nr atomu (klasy) D1 D2 D3 1 0 10 0 2 1 0 0 3 1 1 0 4 0 1 0 5 1 0 5

Zmodyfikowane czstoci przykładów w obrbie atomów dla poszczególnych klas wyodrbnionych w przykładowej tablicy systemu informacyjnego (ródło : opracowanie własne)

Stosujc teori zbiorów przyblionych mona uzyska brzeg składajcy si z 17 obiektów. Przyjmujc, e stopie precyzji atomu wynosi 0,8 mona okreli atomy nalece do dolnego przyblienia VPM. S nimi {1,2,4,5}. Atomy te posiadaj stopie precyzji wikszy bd równy załoonemu. Atom {3} nie wchodzi do dolnego przyblienia, poniewa posiada zbyt wysoki stopie zaszumienia.

Oznacza to, e algorytm LEM2 VPM zmniejsz ilo obiektów zawartych w brzegu do dwóch dziki zmniejszeniu stopnia precyzji atomu z wartoci 1 na warto 0.8.

Jeli po tej modyfikacji wszystkie przykłady wchodzce w skład atomu nie nale do jednej klasy decyzyjnej to atom taki nie naley do przyblienia dolnego VPM. Naley wówczas wprowadzi tzw. klas zerow d0, która oznacza brak przynalenoci do dolnego przyblienia VPM a dla klas z dolnego przyblienia zostaj rozrónione sztucznie wprowadzonymi klasami decyzyjnymi zgodnymi z tabel 4.

Tabela 4 Nr obiektu Nr sztucznej decyzji

1 D2

2 D2

3 D2

(6)

5 D2 6 D2 7 D2 8 D2 9 D2 10 D2 11 D1 12 D0 13 D0 14 D2 15 D3 16 D3 17 D3 18 D3 19 D3

Sztuczna klasa decyzyjna dla przykładowej tablicy systemu informacyjnego (ródło : opracowanie własne)

Nastpnie w oparciu o tablic systemu informacyjnego oraz wprowadzone klasy (zerow i sztuczne) mona zbudowa tabel wsparcia dla warunków elementarnych zgodn tabel 5, zbudowan dla rozwaanego przykładu.

Tabela 5

Wsparcie dla klasy decyzyjnej Warunek elementarny w rachunku reguł d0 d1 d2 d3 A1=2 {12,13} {11} {1,2,3,…,10} A1=3 {14} A1=1 {15,16,…,19} A2=2 {11} {1,2,3,…,10} {15,16,…,19} A2=1 {12,13} {14}

(7)

A3=2 {1,2,3,…,10}

A3=3 {12,13} {11} {14}

A3=1 {15,16,…,19}

Wsparcie dla warunków elementarnych z podziałem na klasy decyzyjne obrbie atomów dla poszczególnych klas wyodrbnionych w przykładowej tablicy systemu informacyjnego (ródło :

opracowanie własne)

Kolejnym etapem zastosowania algorytmów LEM2 i LEM2 VPM jest budowa dolnego przyblienia VPM oraz proces tworzenia reguł. W wyniku zastosowania algorytmu LEM2 VPM uzyskuje si reguły zgodne z tabel 6.

Tabela 6 Reguły decyzyjne wyznaczone algorytmem

LEM2 VPM

Reguły decyzyjne wyznaczone w klasycznej teorii zbiorów przyblionych (LEM2) (A3=3)and(A2=2) D2

(A3=2) D2

(A3=3) and (a2=2) D1

(A1=3) D2 (A1=1) D3

(a1=3) D2

Reguły uzyskane algorytmem LEM2 VPM i w oparciu o klasyczn teori zbiorów przyblionych (ródło : opracowanie własne)

W oparciu o zbiory przyblione wygenerowano dwie reguły powodujc utrat dwóch silnych reguł, które uzyskano wykorzystujc algorytm ze zmienn decyzj. Dla pełnej analizy stosowalnoci algorytmów opartych na zbiorach przyblionych,LEM2 i zmiennej precyzji LEM2 VPM moliwe jest okrelenie dokładnoci klasyfikacji. W tabeli 7 zaprezentowano niektóre z nich.

Tabela 7 Wg algorytmu LEM2 Wg algorytmu LEM@

VPM Dolne przyblienie klasy

decyzyjnej D1

{11} {11}

Dolne przyblienie klasy decyzyjnej D2

{14} {1,2,3,4,5,6,7,8,9,10,14}

Dolne przyblienie klasy decyzyjnej D3

zbiór pusty {15,16,17,18,19}

Górne przyblienie klasy decyzyjnej D1

{1,2,3,4,5,6,7,8,9,10,11,12,13,15,16,17,18,19 }

{11,12,13}

(8)

decyzyjnej D2 3,14} Górne przyblienie klasy

decyzyjnej D3

{1,2,3,4,5,6,7,8,9,10,15,16,17,18,19} {15,16,17,18,19} Brzeg klasy D1 {1,2,3,4,5,6,7,8,9,10,12,13,15,16,17,18,19} {12,13}

Brzeg klasy D2 {1,2,3,4,5,6,7,8,9,10,12,13} {12,13} Brzeg klasy D3 {1,2,3,4,5,6,7,8,9,10,15,16,17,18,19} zbiór pusty Dokładno przyblienia klasy decyzyjnej D1 0,06 0,33 Dokładno przyblienia klasy decyzyjnej D2 0,08 0,85 Dokładno przyblienia klasy decyzyjnej D3 0 1 Dokładno przyblienia całego systemu informacyjnego 0,04 0,81 Jako przyblienia klasyfikacji 0,11 0,89

Porównanie dokładnoci klasyfikacji algorytmem LEM2 i LEM2 VPM dla przykładowej tablicy informacyjnej (ródło : opracowanie własne)

5. Podsumowanie

Teoria zbiorów przyblionych jest jedn z najszybciej rozwijajcych si dziedzin sztucznej inteligencji. S one uogólnieniem klasycznej teorii zbiorów, bdcej podstaw nauk

matematycznych. W teorii zbiorów przyblionych nie zakłada si, e zbiór jest cile okrelony przez swoje elementy. Przyjmuje si moliwo istnienia nieostrych granic zbiorów. Z tego powodu zbiory przyblione stanowi solidn podstaw do budowania metod zdolnych do pracy z danymi zawierajcymi szum i niekonsekwencje - nieodłczny atrybut "rzeczywistych" danych.

Bibliografia

1. Stefanowski J.: Dialogowe wspomaganie decyzji na podstawie wiedzy pozyskanej metod zbiorów przyblionych. Rozprawa doktorska, Pozna 1994

2. Ziarko W.: Analysis of Uncertain Information in The Framework of Variable Precision Rough Sets. Foundations of Computing and Decision Sciences. Vol 18, 1993

3. WWW: kpkm.mt.polsl.gliwice.pl

TOMASZ DUDEK e-mail:tdudek@wi.ps.pl Politechnika Szczeciska Wydział Informatyki