Rozwiązania komercyjne SEMMA i CRISP-DM

Akronim SEMMA powstał od pierwszych liter pięciu angielskich terminów:

sample, explore, modify, model, asess. Oznacza on pięcioetapową procedurę analityczną data mining (rys. 2).

Po pierwsze, należy pobrać próbę ze zbioru obserwacji (sample), której liczeb-ność będzie na tyle mała, aby można było wykonywać na niej szybkie operacje analityczne. Jest to oczywiście etap opcjonalny, uwarunkowany całkowitą liczeb-nością próby oraz posiadanymi zasobami sprzętowymi. W tym kroku powinno się również wylosować próbę uczącą do budowy modelu, próbę walidacyjną do oce-ny modelu oraz próbę testową do całościowej oceoce-ny wielu rozwiązań.

Kolejny etap procedury SEMMA to eksploracja zbioru obserwacji (explore). Podkreśla się tu konieczność zbadania trendów, anomalii, występowania obser-wacji nietypowych itp. Oprócz narzędzi do wizualizacji danych można się tutaj posługiwać klasycznymi narzędziami statystycznymi, takimi jak: analiza głównych składowych, analiza korespondencji czy analiza skupisk.

Trzeci krok procedury wiąże się z modyfikowaniem danych (modify). W tym miejscu badacz wybiera zmienne do modelu, przy czym część z nich zostaje usunięta, część poddana transformacjom lub innym przekształceniom. Możliwe jest tu wprowadzenie nowych zmiennych zawierających przykładowo informacje uzyskane w trakcie eksploracji zbioru obserwacji (np. przynależność przypadku do jednego ze zidentyfikowanych skupisk).

1 1 B. Liu, Web Data Mining. Exploring Hyperlinks, Contents, and Usage Data, Springer-Verlag, Berlin 2007, s. 6.

Czwarty etap SEMMA to budowa modelu opisowego lub prognostycznego (model). Można tutaj zastosować dowolny zestaw narzędzi analitycznych pocho-dzących ze statystyki np. modele logitowe, analizę głównych składowych, narzę-dzia do analizy szeregów czasowych, bądź też te wywodzące się z data mining np. sieci neuronowe, drzewa klasyfikacyjne czy metody oparte na doświadcze-niach z przeszłości (CBR).

Ostatni – piąty etap procedury to ocena rozwiązania (asess). Wykorzystuje się tutaj zazwyczaj zewnętrzny zbiór danych. Jest to zbiór zawierający całkowi-cie nowe obserwacje lub zbiór testowy wylosowany w drugim kroku SEMMA. Po zakończeniu oceny analiza zostaje zakończona bądź też badacz ponownie wraca do etapu drugiego i stara się znaleźć prawidłowości w strukturze danych, których nie odkrył za pierwszym razem.

Procedura analityczna CRISP-DM została opracowana w połowie lat 90.

ubiegłego stulecia przez europejsko-amerykańskie konsorcjum składające się m.in. Rysunek 2. Schemat procedury SEMMA

SAMPLE

losowanie próby (uczącej, walidacyjnej, testowej) EXPLORE eksploracja zbioru obserwacji MODIFY selekcje, modyfikowanie, usuwanie zmiennych MODEL budowa modelu za pomocą różnych narzędzi

ASESS

ocena rozwiązania na podsta-wie nowego zbioru danych

Źródło: opracowanie własne na podstawie materiałów pobranych ze strony internetowej SAS Institute.

z producenta oprogramowania SPSS i firmy Daimler-Chrysler. Akronim CRISP-DM wziął swą nazwę od pierwszych liter angielskiego terminu CRoss Industry

Standard Process for Data Mining.

Jak widać na rysunku 3, jest to procedura cykliczna rozpoczynająca się od zrozumienia badanej dziedziny/biznesu. W tym kroku badacz powinien zdefinio-wać cel badań, doprecyzozdefinio-wać wymagania klienta i zapoznać się ze specyfiką działalności firmy. Konieczna jest tutaj również ocena „stanu posiadania”, czyli osób zaangażowanych w realizację projektu, dostępnych danych, zasobów sprzę-towych oraz posiadanego oprogramowania do eksploracji danych. Niezbędne jest tutaj skonfrontowanie celów analitycznych z celami biznesowymi i sporządzenie planu całego projektu.

Rysunek 3. Schemat cyklicznej procedury CRISP-DM Zrozumienie badanej dziedziny/biznesu Wdrożenie modelu Poznanie struktury danych Przygotowanie danych Budowa modelu Ewaluacja wyników

Źródło: P. Chapman i in., CRISP-DM 1.0. Step-by-step data mining guide, opracowanie pobrane ze strony internetowej www.crisp.org (czerwiec 2008), s. 13.

W drugim kroku procedury CRISP-DM następuje rozpoznanie posiadanego zbioru obserwacji. Po zebraniu wymaganych danych (np. pobraniu z hurtowni danych) należy przystąpić do ich wstępnej eksploracji. Można tego dokonać po-przez użycie zapytań, wizualizację danych czy analizę rozkładów pojedynczych zmiennych. W tym kroku ocenie podlegają również braki danych.

Trzeci etap związany jest z przygotowaniem danych. Badacz wybiera zmien-ne do modelu oraz przypadki, które zamierza włączyć do analizy. Następnie

oczysz-cza zbiór obserwacji, zastępuje braki danych i tworzy nowe zmienne m.in. po-przez transformację i standaryzację.

W czwartym kroku CRISP-DM następuje budowa modelu data mining. Po wybraniu odpowiedniego narzędzia analitycznego np. drzew klasyfikacyjnych CART lub sieci neuronowych z algorytmem wstecznej propagacji błędów, dzieli się zbiór obserwacji na próbę uczącą i próbę testową. Po zbudowaniu kilku mo-deli następuje ich wstępna ocena z uwzględnieniem kryteriów biznesowych. Spo-rządza się tu często ranking rozwiązań, w którym o kolejności występowania decyduje ich jakość. Jakość traktowana jest tu w kategoriach dokładności i stop-nia ogólności modelu.

Piąty krok procedury wiąże się z biznesową ewaluacją rozwiązań. Sprawdza się, czy model spełnia oczekiwania decydentów i czy istnieje jakakolwiek bariera uniemożliwiająca jego wdrożenie. O ile nie ma poważnych ograniczeń czaso-wych i budżetoczaso-wych, można dodatkowo dokonać symulacji działania modelu na rzeczywistych danych. W tym miejscu podejmuje się również decyzję o kontynu-owani procedury. Jeśli rozwiązanie jest satysfakcjonujące, to następuje wdroże-nie modelu, jeśli natomiast rozwiązawdroże-nie wdroże-nie jest zadowalające, projektuje się ba-dania od początku.

Ostatni etap CRISP-DM to wdrożenie modelu. Należy wcześniej sporządzić plan wdrożenia oraz zwrócić uwagę na utrzymanie i monitorowanie całego pro-cesu. Ostatnia faza całej procedury to sporządzenie finalnego raportu zawierają-cego wskazówki przydatne do realizacji kolejnych tego typu projektów.

Literatura

[1] Chapman P. i in., CRISP-DM 1.0. Step-by-step data mining guide, opra-cowanie pobrane ze strony internetowej www.crisp.org (czerwiec 2008). [2] Edelstein H.; Data Mining – Let’s Get Practical, „DB 2 Magazine

onli-ne”, plik pobrano z witryny internetowej www.db2mag.com (wiosna 2000). [3] Berry M. J. A., Linoff G. S., Mastering Data Mining, John Wiley & Sons,

New York 2000.

[4] Giudici P., Applied Data Mining. Statistical Methods for Business and Industry, John Wiley & Sons, New York 2003.

[5] Kudyba S., Hoptroff R., Data Mining and Business Intelligence: A Gu-ide to Productivity, Idea Group Publishing, Toronto 2001.

[6] Liu B., Web Data Mining. Exploring Hyperlinks, Contents, and Usage Data, Springer-Verlag, Berlin 2007.

Summary

The aim of the article is to present concepts concerning the analytic data mining procedure. The author compares the stages of knowledge discovery pro-cess in databases to the stages of data mining propro-cess mentioned in the literature connected with the subject. The article is supplemented with a characteristics of ‘commercial’ procedures promoted by the producers of SPSS and SAS software – the popular CRISP-DM and SEMMA.

mgr Tomasz Bober