• Nie Znaleziono Wyników

Proces odkrywania wiedzy w bazach danych (Knowledge Discovery Process in Databases)

W dokumencie Marketing (Stron 152-156)

Proces odkrywania wiedzy w bazach danych składa się z kilku etapów5, do których należą:

1 U. Fayyad, G. Piatesky-Shapiro, P. Smyth, From Data Mining to Knowledge Discovery in

Databases, „Artificial Intelligence Magazine”, Fall 1996, s. 41.

2 M. L. Gargano, B. G. Raggad, Data Mining – a Powerful Information Creating Tool, „OCLC Systems & Services” 1999, Vol. 15, No. 2, s. 81.

3 D. J. Hand, Data Mining: Statistics and More?, „The American Statistician” 1998, No. 52, s. 112.

4 J. H. Friedman, Data Mining and Statistics: What’s the Connection?, Proceedings of the 29th Symposium on the Interface: Computing Science & Statistics, Houston, Texas, May 1997, s. 1. 5 H. Edelstein, Data Mining – Let’s Get Practical, „DB 2 Magazine online” 1998, www.db2mag.com.

1. Zidentyfikowanie problemu;

2. Przygotowanie danych (zebranie, ocena, konsolidacja i oczyszczenie, selek-cja, kodowanie);

3. Budowa modelu (ewaluacja i interpretacja, zewnętrzna walidacja) – data mining;

4. Wykorzystanie modelu; 5. Monitorowanie modelu.

Zidentyfikowanie problemu. Aby zmaksymalizować korzyści płynące z za-stosowania eksploracyjnych technik analizy danych, należy zidentyfikować pro-blem badawczy i jasno określić cel badań. Przełożenie propro-blemu decyzyjnego na kategorie badawcze jest zasadniczym elementem każdego projektu badań mar-ketingowych.

Przygotowanie danych. Przygotowanie zbioru danych jest najbardziej cza-sochłonnym etapem procesu odkrywania wiedzy. Zajmuje 50–85% czasu prze-znaczonego na analizę. Etap ten zaczyna się od zebrania danych i zweryfikowa-nia wiarygodności ich źródła. Następnie zbiór obserwacji poddany zostaje ocenie pod względem jego przydatności do rozwiązania problemu. Sprawdza się tutaj zakres czasowy i przestrzenny danych oraz warunki, w jakich powstała baza danych. Następnie dokonuje się konsolidacji i oczyszczania zbioru danych. Kon-solidacja może mieć miejsce w wypadku, gdy finalny zbiór obserwacji składa się z kilku – mających różnych autorów – baz danych. Oczyszczanie danych (cle-aning) to czynność wykonywana zazwyczaj równolegle z konsolidacją, a stoso-wana wtedy, gdy bazy te mają niekompatybilne formaty. Problem związany z konsolidacją i oczyszczaniem jest poniekąd samoczynnie rozwiązany w przed-siębiorstwach posiadających hurtownie danych. W hurtowniach danych tworzy się tzw. metadane, czyli dane o danych. Jest to abstrakcyjny instrument, którego zadaniem jest konsolidacja zmiennych zakodowanych w różny sposób. Narzędzie to zapewnia ujednolicony sposób widzenia wszystkich danych przedsiębiorstwa, bez względu na to, gdzie się znajdują i przez kogo zostały wprowadzone.

Kolejną fazą w tym etapie procesu odkrywania wiedzy, jest selekcja danych. Polega ona na wyborze zmiennej zależnej i zmiennych niezależnych oraz wyse-lekcjonowaniu przypadków, które znajdą się w zbiorze obserwacji poddanym ana-lizie. W tym miejscu należy zastanowić się, czy odrzucić przypadki odstające (outliers) oraz czy usunąć zmienne nieistotne z punktu widzenia przyjętego pro-blemu badawczego.

Kodowanie kończy etap przygotowania danych do analizy. Polega ono na zmianie zmiennych polichotomicznych w zmienne o mniejszej liczbie kategorii lub zgoła dychotomiczne. Zależy to od wybranej metody eksploracyjnej analizy da-nych, tj. sztucznych sieci neuronowych, drzew klasyfikacyjnych i regresyjda-nych, reguł indukcyjnych czy metod skojarzeniowych. Nawet jeśli zdecydowano się na

wybór jednej metody, np. drzew klasyfikacyjnych, to i tak należy pamiętać, że istnieje kilkanaście algorytmów podziału takich drzew, a każdy z nich ma nieco inne założenia metodologiczne. Jeśli wybór został zawężony do metody i algoryt-mu, to nadal można spodziewać się różnic w aplikacjach wykorzystujących ten sam algorytm.

Budowa modelu. Budowa modelu (data mining) to trzeci etap procesu od-krywania wiedzy, składający się z dwóch faz: ewaluacji i interpretacji oraz ze-wnętrznej walidacji6. Należy wziąć pod uwagę typ modelu, tzn. wybrać między rozpoznawaniem z nauczycielem (supervised learning) a rozpoznawaniem bez nauczyciela (unsupervised learning). Pojęcia te wywodzą się z teorii rozpozna-wania obrazów – rozpatrującej zagadnienia klasyfikacji i dyskryminacji. Metody z pierwszej grupy to m.in.: drzewa klasyfikacyjne, reguły indukcyjne, sztuczne sieci neuronowe. Istotą tych metod jest podział zbioru obserwacji na próbę uczącą (w oparciu, o którą tworzy się wzorce) oraz próbę testową (dzięki której moż-na dokomoż-nać oszacowania błędu klasyfikacji). Proste oszacowanie błędu klasy-fikacji można uzyskać poprzez obliczenie stosunku liczby przypadków błędnie sklasyfikowanych do całkowitej liczby przypadków. Współczynnik ten nosi na-zwę kosztu resubstytucji (resubstitution error). Jego przeciwieństwem jest współ-czynnik precyzji7 (accuracy), który w literaturze anglojęzycznej jest zazwyczaj oznaczony jako R(d). Oba te wskaźniki wyrażone są procentowo i sumują się do jedności. Do bardziej złożonych technik szacowania dokładności modelu służą: prosta walidacja (simple validation); wielokrotna walidacja krzyżowa (n-fold cross validation) i metody bootstrapowe.

Prosta walidacja (zwana też szacowaniem próby testowej – test sample es-timation) polega na podziale zbioru obserwacji na 2 podzbiory, przy czym liczeb-ność jednego z nich stanowi zazwyczaj od 5% do 33% wszystkich obserwacji8. Dobór przypadków do podzbiorów odbywa się w sposób losowy zależny (bez zwracania). Podzbiór o większej liczebności staje się próbą uczącą (na jej pod-stawie powstaje model), a podzbiór o mniejszej liczebności staje się próbą te-stową. Współczynnik precyzji Rts(d) obliczany jest identycznie jak R(d), przy czym wykorzystuje się tutaj przypadki z próby testowej.

Wielokrotna (n-krotna) walidacja krzyżowa polega na podziale zbioru obser-wacji na n rozłącznych podzbiorów („fałd”) o liczebnościach w przybliżeniu rów-6 Według innego schematu procesu odkrywania wiedzy (H. Mannila, Data Mining: Machine

Learning, Statistics, and Databases, Department of Computer Science; University of Helsinki,

www.cs.helsinki.fi) etap ten podzielono na dwa odrębne etapy, tj. odkrywanie wzorców (data

mining) oraz powtórne przetwarzanie uzyskanych wzorców.

7 Można go też nazwać współczynnikiem wiarygodności.

8 Jak podano w: L. Breiman i in., Classification and Regression Trees; Chapman and Hall 1993, s. 11 nie ma teoretycznego uzasadnienia takiego podziału.

nych. Dobór obserwacji do podzbiorów, podobnie jak w wypadku prostej walida-cji, jest losowy i zależny. Algorytm indukcyjny jest nauczany i testowany n razy. Każdorazowo tworzy się model na podstawie zbioru obserwacji pomniejszonego o jeden podzbiór („fałdę”), a następnie testuje się go na tym brakującym pod-zbiorze. Dzięki n-krotnej walidacji krzyżowej uzyskujemy n współczynników wia-rygodności Rts(d). Po ich uśrednieniu otrzymujemy współczynnik precyzji RCV(d). Bootstrap jest najbardziej zaawansowaną techniką szacowania współczynni-ka wiarygodności wykorzystywaną w niedużych zbiorach obserwacji. Nie spre-cyzowano, co rozumie się pod pojęciem „nieduży zbiór obserwacji”. Wiadomo jednak, że n-krotną walidację krzyżową stosuje się w przypadku zbiorów liczą-cych kilka tysięcy przypadków, a bootstrap w przypadku zbiorów jeszcze mniej-szych. Model, podobnie jak w poprzednich technikach, konstruowany jest na pod-stawie całego zbioru obserwacji. Jeśli chodzi o szacowanie współczynnika pre-cyzji (błędu), to tworzy się próby uczące, przy czym nie są one jak poprzednio rozłącznymi podzbiorami (subsets), ale podpróbami (subsamples).

Podpróby losowane są w sposób niezależny ze zbioru obserwacji, przy czym ich liczebność jest równa liczebności tego zbioru. Istotny jest tutaj sposób loso-wania. Skoro zwracamy przypadki, to oznacza, że w zbiorze uczącym może zna-leźć się kilka tych samych obserwacji lub, czego łatwo się domyślić, niektóre obserwacje zostaną pominięte. Ważna kwestią jest tutaj wybór liczby podprób. Przyjmuje się, że powinno ich być: 200–10 000 (Two Crows Corporation 1998), 200–1000 (Small, Edelstein 1998), minimum 50 (Efron, Tibshirani 1995), 100– –1000 (Freund, Schapire 1999), minimum 50 (Breiman 1998).

Po zbudowaniu modelu należy ocenić jego wyniki i zinterpretować ich zna-czenie. Częściową oceną modelu jest wcześniej omówiony współczynnik wiary-godności. Poza tym wykorzystuje się inne narzędzia. Może to być macierz błęd-nych klasyfikacji, ranking ważności predyktorów, wykres korzyści (gain chart), współczynnik LIFT czy współczynnik ROI.

Innym kryterium pozwalającym ocenić model jest jego zrozumiałość – łatwość graficznej interpretacji. Czasem warto zwiększyć współczynnik błędu, zmniejsza-jąc przy tym liczbę węzłów końcowych drzewa. Utrata dokładności modelu daje badaczowi mniejszą liczbę węzłów końcowych (terminals), a co się z tym wiąże – mniejszą liczbę reguł indukcyjnych, czyli łatwiejszą i bardziej przejrzystą in-terpretację.

Zewnętrzna walidacja to inaczej ocena modelu w empirii. Gdyby problem badawczy dotyczył skuteczności reklamy pocztowej, to przed realizacją wnio-sków z modelu (przed dokonaniem zmian w strategii tej formy komunikacji z rynkiem) należy sprawdzić, jak uzyskane wyniki odpowiadają rzeczywistości.

Wykorzystanie i monitorowanie modelu. Po skonstruowaniu modelu i doko-naniu jego oceny, wnioski z analizy można wykorzystać w praktyce. W

zależno-ści od przyjętego problemu badawczego mogą to być m.in.: strategia reklamy pocztowej, ocena wiarygodności kredytowej klientów banku czy segmentacja klien-tów przedsiębiorstwa ze wszystkimi jej następstwami. Warto również pamiętać, że wiarygodny i sprawdzony model nie jest rozwiązaniem długofalowym. Moni-torowanie modelu wymusza zmienna sytuacja ekonomiczna, zmieniające się wzor-ce konsumpcji, wzorwzor-ce zachowań przestępczych, zasobność portfela czy sposób komunikowania się z klientami

W dokumencie Marketing (Stron 152-156)