Porównanie metody APS z innymi pracami - Metoda APS inkrementacyjnego pozyskiwania reguł

3. Metoda APS inkrementacyjnego pozyskiwania reguł

3.7. Porównanie metody APS z innymi pracami

Zaproponowana w niniejszej pracy metoda APS może być odniesiona do innych prac na dwóch płaszczyznach, które obejmują: (i) inkrementacyjne metody znajdowania reguł związ-ku oraz (ii) zastosowanie reguł związzwiąz-ku do pozyskiwania wiedzy w systemie agenckim.

3.7.1 Inne metody inkrementacyjne znajdowania reguł związku

Większość metod inkrementacyjnych, omawianych w Rozdziale 1., to metody dokładne, które zwracają precyzyjny zbiór reguł (w pełni porównywalny z metodą wsadową). Zakładają one przechowywanie całej aktualizowanej bazy transakcji i wymagają powrotów do przeanali-zowanych faktów, co gwarantuje wysoką dokładność zbioru reguł pozyskiwanych inkremen-tacyjnie. Oczywiście, w metodach tych dąży się do minimalizacji powtórnych przebiegów. Do nielicznych rozwiązań całkowicie eliminujących takie powroty należy algorytm grafowy DB-Tree [Eze2002], który zapisuje w formie drzewa FP-tree częstości wszystkich atrybutów w zbiorze testowym. Ceną za to jest jednak potencjalnie bardzo duży rozmiar drzewa. Z kolei metoda APS całkowicie eliminuje ponowne przetwarzanie danych, kosztem dokładności wynikowego zbioru reguł (przede wszystkim pewności).

Jeśli chodzi o metodę aktualizacji bazy reguł zgodnie z modyfikacjami w bazie transakcji, zbliżone do metody APS są na przykład algorytmy FUP2 [Che1997] i [Tsa1999], które wy-korzystują wyniki poprzedniego przebiegu odkrywania reguł. Rozpatrywane są w nich różne przypadki, kiedy dany zbiór atrybutów: (i) jest częsty zarówno w bazie poprzednio analizowa-nej jak i zmienioanalizowa-nej (natychmiastowa aktualizacja); (ii) jest częsty w części przeanalizowaanalizowa-nej, ale nie jest częsty w zmienionej (wystarczy przeanalizować tylko część zmienioną); (iii) jest częsty tylko w części zmienionej, ale nie był częsty w części przeanalizowanej poprzednio (jest to przypadek potencjalnie najbardziej kosztowny obliczeniowo, gdyż może wymagać powtórnej analizy poprzedniego zbioru); (iv) nie jest częsty w żadnym fragmencie bazy (jest odrzucany). Podobne warianty rozważane są także w algorytmie RMAIN, należącym do cyklu metody APS. Tam jednak przypadki (ii) i (iii) rozwiązywane są przez aproksymację nieznanych wartości poparcia i pewności reguł za pomocą odpowiednich estymatorów, nie zaś przez dodatkowe przetwarzanie bazy transakcji.

Algorytmy takie, jak FUP2 [Che1997], DELI [LeS1998], DLG* i DUP [LeG2001], wymagają rejestrowania, które transakcje w bazie zostały dodane, usunięte i pozostały bez zmian. Dzięki temu możliwe jest uwzględnienie modyfikacji w zbiorze, który był już wcześniej analizowany. Śledzenie zmian może być jednak pewnym obciążeniem dla systemu. Z kolei metoda APS w ogóle nie rejestruje zmian w danych już przetworzonych, ponieważ uwzględnia ona wyłącznie nowo dodawane fakty. Jest to jednak uzasadnione z punktu widzenia przeznaczenia metody, ponieważ historia agenta (a także innego systemu opartego na wiedzy) nie funkcjonuje na tych samych zasadach, co baza transakcyjna (ang. On-Line Transactional Processing, OLTP), gdzie ciągle są dokonywane zmiany danych. Baza obser-wacji agenta (np. pochodzących z percepcji) praktycznie nie ulega modyfikacji, z wyjątkiem ustawicznego rejestrowania i dodawania nowych faktów. A zatem obserwacje raz zapisane w historii z założenia są zmieniane bardzo rzadko. Zauważmy, że ewentualna zmiana obser-wacji (faktów) w historii oznaczałaby w istocie weryfikację mechanizmu percepcyjnego agenta, to znaczy np. uznanie, że to, co zarejestrował on z otoczenia nie jest zgodne ze stanem

3.7. Porównanie metody APS z innymi pracami 125 faktycznym i wymaga modyfikacji. Tego typu rewizja obserwacji przez agenta jest czynnością rzadką i nieopłacalną zwłaszcza w sytuacji, gdy historia ma duży rozmiar, a pojedyncze obserwacje nie mają dużej wagi (w przeciwieństwie do odpowiednio dużego ich zbioru, który posiada wymaganą wiarygodność statystyczną).

Algorytm DELI [LeS1998] dopuszcza pewne przybliżenie zbioru reguł w stosunku do zbioru rzeczywiście uzyskanego na całej zmienionej bazie, które stanowi tolerancję dla zmian, aby nie było konieczne uruchamianie analizy danych, jeśli zmiany są niewielkie. Jest to po-dobne podejście do APS, gdzie nowe fakty są również kumulowane i analizowane po zgromadzeniu określonej ich liczby (porcji). Jednakże w odróżnieniu od APS, po zajściu zmian w bazie transakcji algorytm DELI szacuje, czy aktualizacja reguł jest konieczna. Tym-czasem APS dokonuje aktualizacji bezwarunkowo po zgromadzeniu dostatecznie dużej liczby nowych faktów i uzyskaniu wolnych zasobów systemowych.

Wiele z omówionych wcześniej algorytmów inkrementacyjnych wykorzystuje reprezenta-cję pośrednią, to znaczy struktury danych (np. grafy), w których przechowywanie są infor-macje o częstościach zbiorów atrybutów. Choć jest to wydajne podejście przetwarzania zbiorów częstych, struktury te muszą być odpowiednio przetworzone w celu uzyskania doce-lowych reguł związku. Tymczasem APS operuje na gotowych regułach, czyli takiej reprezen-tacji, która jest możliwa do przechowywania i bezpośredniego wykorzystania przez agenta w jego procesie decyzyjnym (bez poważnych opóźnień).

Żadna z przeanalizowanych metod inkrementacyjnych nie uwzględnia wpływu czasu zare-jestrowania faktów na miary wiarygodności reguł związku, które na ich podstawie są odkry-wane. W metodzie APS wprowadzona została funkcja wpływu czasowego fT, pozwalająca na nadawanie największej istotności faktom najnowszym. Może to mieć szczególnie duże znaczenie, jeśli agent pozyskuje reguły na podstawie obserwacji silnie zmieniającego się środowiska.

W końcu zwróćmy uwagę, że w innych rozwiązaniach inkrementacyjnych zdolność przy-rostowej aktualizacji bazy reguł jest własnością samego algorytmu znajdowania reguł. Tym-czasem APS jest metodą wysoce niezależną od algorytmu odkrywania reguł związku, dzięki czemu z założenia można w niej zastosować różne algorytmy, o ile mogą one być dopasowane do cyklu metody pod względem struktur danych i parametrów wejściowych oraz wyjściowych6. Jako algorytm znajdowania reguł mogą być użyte algorytmy wsadowe (zarów-no sekwencyjne, jak i rów(zarów-noległe, zob. [Zak1999]). Natomiast nie można raczej zastosować innych algorytmów inkrementacyjnych, ponieważ wymagają one innych struktur danych i mają często sprzeczne założenia w stosunku do metody APS.

3.7.2 Zastosowanie reguł związku w architekturach agenckich

Korzystamy tutaj częściowo z przeglądu metod uczenia się agentów, omówionego szczegółowo w Rozdziale 2.

Yao, Hamilton i Wang [Yao2002] zastosowali reguły związku odkrywane algorytmem Apriori do realizacji uczenia się rekomendującego agenta PagePrompter, który wspomaga

6 W cyklu APS służy do tego algorytm ARM, który stanowi „obudowę” algorytmu odkrywania reguł związku.

Algorytm ARM może być modyfikowany stosownie do różnych algorytmów DM, pod warunkiem, że nie naruszy to jego współpracy z innymi algorytmami cyklu.

obsługę serwisu internetowego. Dane wejściowe dla algorytmu pobierane są z rejestru zdarzeń w serwisie (ang. web log). Symeonidis, Mitkas i Kechagias [Sym2002] wykorzystali algoryt-my eksploracji danych (w tym ID3, C4.5, Apriori) w systemie Agent Acadealgoryt-my, realizującym trenowanie agentów na podstawie informacji zgromadzonej we wspólnym repozytorium wiedzy. Omawiane rozwiązania nie mają jednak charakteru ogólnych teorii, lecz prac apli-kacyjnych. Natomiast metoda APS ma charakter ogólny i nie jest zawężona do algorytmu Apriori, ani żadnego konkretnego zastosowania.

W ostatnim czasie Kaya i Alhajj [Kay2005b], [Kay2005c] opracowali, przeznaczony dla systemu wieloagenckiego, model uczenia się ze wzmocnieniem (wykorzystujący algorytmy Q-learning), który opiera się na rozmytej strukturze wielowymiarowej OLAP (ang. on-line analytical processing) [Koh1998], przetwarzanej przez algorytmy znajdowania rozmytych reguł związku. Praca ta różni się pod wieloma względami od metody APS, w której wykorzy-stywane są zarówno inne struktury danych (tabele relacyjne), jak i inny model reguł związku (model Agrawala, Imielinskiego, Swamiego i Srikanta [Agr1993], [Agr1994], odpowiednio rozszerzony zgodnie z wymogami algorytmów cyklu APS).

W dokumencie Pozyskiwanie wiedzy w systemie agenckim z wykorzystaniem metod eksploracji danych (Stron 124-127)