• Nie Znaleziono Wyników

Wizualizacja modeli drzew klasyfikacyjnych

W dokumencie Marketing (Stron 190-199)

Istnieje wiele sposobów wizualizacji modeli drzew klasyfikacyjnych i regre-syjnych. W niniejszym podrozdziale zostaną przedstawione struktury otrzy-mane w kilku różnych programach komputerowych (CART®, KLIMT, SIPINA, STATISTICA 5 i STATISTICA Data Miner 7.1). Dla ułatwienia każdorazowo wykorzystano plik z danymi o kwiatach irysa. Zmienna zależna w tym zbio-rze to odmiana kwiatu (setosa, virginica i versicolor), zaś zmiennymi niezależ-nymi są dane o długości i szerokości płatka oraz o długości i szerokości działki (wszystkie metryczne). To pobieżne zestawienie pokaże, w jaki sposób produ-cenci oprogramowania radzą sobie z wizualizacją modeli drzewkowych, które niejednokrotnie mają kilkadziesiąt liści i których wydruk na papierze o racjo-nalnymformacie staje się niemożliwy.

Ciekawe rozwiązanie zaproponowała firma Salford Systems – producent oprogramowania CART®.

Rysunek 4. Schemat drzewa klasyfikacyjnego z wyróżnionymi wariantami zmiennej zależnej

Sposoby wizualizacji modeli drzew klasyfikacyjnych

11 Jak przedstawiono na rysunku 4, badacz może wybrać interesujący go wa-riant zmiennej zależnej (tu klasa 1, 2 lub 3) i automatycznie wszystkie liście drzewa zmienią kolor, w zależności od tego, jaki procent danej klasy zawierają. Odcienie czerwieni1 oznaczają wysoki odsetek danej klasy, odcienie niebie-skie – sytuację odwrotną. Dodatkowe narzędzia pozwalają sprawdzić zawartość konkretnego liścia (rysunek 5) lub umożliwiają mniej szczegółowy przegląd za-wartości wszystkich liści (rysunek 6).

Rysunek 5. Wizualizacja zawartości liścia drzewa w programie CART®

Źródło: opracowanie własne z wykorzystaniem programu CART®.

1 Wydruk w odcieniach szarości nie pozwala niestety na pełną prezentację różnych sposobów wizualizacji drzew klasyfikacyjnych. Zainteresowanych Czytelników odsyłam do wersji demonstracyjnych opisywanych tu progra-mów komputerowych.

Mariusz Łapczyński Sposoby wizualizacji modeli drzew klasyfikacyjnych

Rysunek 6. Pobieżny przegląd wszystkich liści drzewa w programie CART®

Źródło: opracowanie własne z wykorzystaniem programu CART®.

Nowatorski sposób wizualizacji modeli drzewkowych zastosowano w programie KLIMT2. Drzewo może tam przybrać kilka postaci, z których na uwagę zasługuje mo-del z węzłami o wielkości proporcjonalnej do liczby zawartych w nich przypadków (rysunek 7) oraz model umieszczony w płaszczyźnie poziomej (rysunek 8).

Rysunek 7. Przykład modelu drzewa z programu KLIMT

Źródło: opracowanie własne z wykorzystaniem programu KLIMT.

Sposoby wizualizacji modeli drzew klasyfikacyjnych

13 W pierwszym modelu wielkość węzła jest uzależniona od liczby znajdują-cych się w nim przypadków. Dlatego też węzeł na początku drzewa jest najwięk-szy, a kolejne węzły, wraz z kolejnymi etapami podziału, stają się coraz mniej-sze. Zaznaczając prawym przyciskiem myszy dowolny węzeł drzewa, uzyskuje się informację o jego zawartości (tu wyróżniono elipsą).

Rysunek 8. Przykład „poziomego” modelu drzewa z programu KLIMT

Źródło: opracowanie własne z wykorzystaniem programu KLIMT.

Inne udogodnienie programu KLIMT dotyczy położenia drzewa. Czasem bowiem może być potrzebny wydruk poziomy, na którym mieści się większa ilość informacji. W niniejszym przykładzie (rysunek 8) opcjonalnie wybrano węzły tej samej wielkości (niezależne od liczby przypadków) oraz wyróżniono jeden z węzłów końcowych (tu: odmianę setosa). Po zaznaczeniu przyciskiem myszy odpowiedniego liścia można zobaczyć, jaki w przybliżeniu odsetek po-przednich węzłów stanowiła dana klasa.

Alternatywnym sposobem wizualizacji poszczególnych węzłów jest tzw. mapa drzewa (treemap)3, przedstawiona na rysunku 9. Po lewej stronie umiesz-czono fragment drzewa z zaznaczonym liściem (tu wyróżniono elipsą), po

pra-3 S. Urbanek, Many Faces of a Tree, Department of Computer Oriented Statistics and Data Analysis, University of Augsburg, Germany 2003, plik pobrano ze strony: http://www.klimt-project.com w marcu 2005 r.

Mariusz Łapczyński Sposoby wizualizacji modeli drzew klasyfikacyjnych

wej zaś – mapę drzewa odpowiadającą temu liściowi. Mapa drzewa to wykres mozaikowy, na którym każdy prostokąt oznacza jeden liść drzewa. Intensyw-ność koloru wypełniającego dany prostokąt świadczy o homogeniczności liś-cia, a jego wielkość – o liczbie znajdujących się w nim obiektów. W podanym tu przykładzie wybrany liść ma jeden przypadek z klasy nr 2 oraz pięć przypadków z klasy nr 3 (można to odczytać z fragmentu drzewa po lewej stronie), co świad-czy o wysokiej jednorodności węzła.

Rysunek 9. Fragment drzewa z zaznaczonym liściem oraz mapa drzewa

Źródło: opracowanie własne z wykorzystaniem programu KLIMT.

Nieco inny model drzewa powstaje w programie SIPINA (rysunek 10). W każdym węźle końcowym znajduje się informacja o liczbie i odsetku przy-padków z danej klasy. Jest to względnie czytelne, o ile wielkość drzewa nie jest zbyt duża. Ogólnie rzecz ujmując, SIPINA nie oferuje nowatorskich rozwiązań w zakresie wizualizacji obszernych modeli.

Ostatni z omawianych tutaj programów – pakiet STATISTICA – również daje kilka interesujących rozwiązań. W każdym węźle drzewa (rysunek 11) znajduje się wykres słupkowy. Liczba słupków oznacza liczbę wariantów zmiennej zależ-nej. Nad każdym z węzłów umieszczona jest informacja o jego liczebności.

Sposoby wizualizacji modeli drzew klasyfikacyjnych

1 Rysunek 10. Przykład modelu drzewa z programu SIPINA

Źródło: opracowanie własne w programie SIPINA.

Rysunek 11. Model drzewa wykonany w programie STATISTICA

Mariusz Łapczyński Sposoby wizualizacji modeli drzew klasyfikacyjnych

Ciekawy i oryginalny jest także wykres zawartości węzłów końcowych (rysu-nek 12). Na osi poziomej znajdują się liście drzewa (tutaj oznaczone cyframi 2, 4 i 5), natomiast na pionowej – warianty zmiennej zależnej (tutaj odmiany kwia-tów irysa). Dzięki takiemu zestawieniu tworzy się swego rodzaju szachownica o różnych barwach: od zieleni do czerwieni4. Kolory intensywnie czerwone (bordowe) świadczą o tym, że dana klasa (dany wariant zmiennej zależnej) wy-stępuje w danym węźle najliczniej.

Rysunek 12. Wizualizacja trafności predykcji węzłów końcowych w programie STATISTICA 5

Źródło: opracowanie własne z wykorzystaniem programu STATISTICA 5.

W najnowszej wersji pakietu STATISTICA Data Miner 7.1 możliwe jest po-nadto przedstawienie konstrukcji drzewa w postaci zbliżonej do powszechnie znanej struktury katalogów (rysunek 13). Każdy z węzłów można dodatkowo przedstawić w postaci wykresu słupkowego, na którym znajdują się również in-formacje o jego ewentualnym dalszym podziale.

4 Wydruk w odcieniach szarości nie pozwala niestety na pełną prezentację różnych sposobów wizualizacji drzew klasyfikacyjnych. Zainteresowanych Czytelników odsyłam do wersji demonstracyjnych opisywanych tu progra-mów komputerowych.

Sposoby wizualizacji modeli drzew klasyfikacyjnych

1 Rysunek 13. Alternatywny sposób prezentacji struktury drzewa w programie STATISTICA Data Miner

Źródło: opracowanie własne z wykorzystaniem programu STATISTICA Data Miner 7.1.

Podsumowanie

Drzewa klasyfikacyjne i regresyjne są popularnym narzędziem data mining wykorzystywanym nie tylko na potrzeby analitycznego CRM, ale także w ana-lizie danych ankietowych. Przewagą drzew nad innymi narzędziami analitycz-nymi, np. sieciami neuronowymi czy regresją logistyczną, jest czytelna gra-ficzna prezentacja modelu. Zaleta ta zanika jednak w sytuacji, kiedy wynikiem analizy jest drzewo o dużej głębokości i wielkości, bowiem jego wydruk na pa-pierze o rozsądnym formacie staje się niemożliwy. Pomocne okazują się tutaj rozwiązania zaproponowane przez producentów oprogramowania do analizy danych. Programy omówione w niniejszym artykule to zaledwie kilka z wielu dostępnych na rynku produktów, takich jak chociażby SPSS Clementine, IMB Intelligent Miner czy SAS Enterprise Miner. Spośród wymienionych powyżej na uwagę zasługują CART, KLIMT i Statistica Data Miner, jako te dysponujące względnie nowatorskimi sposobami wizualizacji drzewa.

Mariusz Łapczyński

Literatura

[1] L. Breiman, J. Friedman, Ch.J. Stone, R.A. Olshen, Classification and

Regres-sion Trees, Chapman and Hall, New York 1993.

[2] E. Gatnar, Nieparametryczna metoda dyskryminacji i regresji, PWN, War-szawa 2001

[3] M. Łapczyński, Drzewa klasyfikacyjne CART jako alternatywa dla

klasycz-nych metod analizy daklasycz-nych marketingowych, [w:] Marketing, red. D.

Su-rówka-Marszałek, Zeszyty Naukowe Krakowskiej Szkoły Wyższej im. An-drzeja Frycza Modrzewskiego, Kraków 2005.

[4] S. Urbanek, Many Faces of a Tree, Department of Computer Oriented Statis-tics and Data Analysis, University of Augsburg, Germany 2003, http://www. klimt-project.com, marzec 2005.

Summary

Classification and regression trees are popular analytic tools originating from the sphere of ‘data mining’ which are used to build predictive patterns for the purpose of analytic CRM. The advantage of this method is an easiness of interpreting gen-erated rules such as ‘if…’, ‘therefore…’ as well as clarity of the graphic model which is a result of an analysis. It is reminiscent of a commonly known decision tree which makes it a competitive tool with other methods such as the neuron net-work or logistic regression and completes them. The aim of this article is to pres-ent the ways of visualising the patterns of classification trees. The author of the article characterizes the solutions available in the chosen programmes: CART®, KLIMT, SIPINA, STATISTICA 5 i STATISTICA Data Miner 7.1.

1

W dokumencie Marketing (Stron 190-199)