Utrzymanie bazy reguł - Przegląd metody APS

3. Metoda APS inkrementacyjnego pozyskiwania reguł

3.1. Przegląd metody APS

3.1.6 Utrzymanie bazy reguł

Niezwykle newralgiczną częścią procesu APS jest etap 5., w którym baza reguł KBR jest modyfikowana na podstawie reguł odkrytych w ostatnim przebiegu oraz danych opisujących ten przebieg. Stosowany tutaj algorytm utrzymania bazy reguł KBR jest najważniejszą częścią metody APS, ponieważ decyduje on o tym, jak zbliżony będzie wynik inkrementacyjnego po-zyskiwania reguł do wyniku przetwarzania wsadowego (na całym zbiorze) (zob. Rys. 3.1), który jest ostatecznym punktem odniesienia dla dokładności metod przyrostowych. Algorytm

3.1. Przegląd metody APS 73 ten opiera się na obserwacji, że przy odkrywaniu reguł związku przetwarzane fakty mogą być traktowane jako zbiór, a nie ciąg o ściśle ustalonej sekwencji czasowej. Własność ta jest spełniona także po zastąpieniu faktów z nieznanymi wartościami wszystkimi możliwościami, zgodnie ze wspomnianym wyżej założeniem światów dowolnych. W tej sytuacji inkrementa-cyjne dodawanie reguł może być uproszczone do obliczania statystycznych miar wiarygodno-ści reguł (poparcia i pewnowiarygodno-ści) w oparciu o wzory proporcji częstowiarygodno-ściowych. Przypuśćmy, że do pewnego momentu proces APS, po przeanalizowaniu b1 faktów z porcji h1 (tzn. z części historii), odkrył regułę r z wartością poparcia i pewności odpowiednio sup1(r) oraz con1(r). Po kolejnym przebiegu, w którym przetworzone zostało b2 faktów, znaleziona została ta sama reguła r, ale z nowymi wartościami sup2(r) oraz con2(r). Można wykazać, że wartości poparcia i pewności reguły r w połączonym zbiorze faktów h1 i h2 są dane wzorami (odpowiednie do-wody są zawarte w dalszej części rozdziału):

(3.1) (3.2)

Powyższe wzory gwarantują, że baza reguł uzyskana inkrementacyjnie jest identyczna z bazą pochodzącą z przetwarzania wsadowego, o ile wszystkie reguły występują zarówno w h1 jak i h2. Tymczasem założenie to jest mocno wyidealizowane i może nie być spełnione w rzeczywistych aplikacjach. Przede wszystkim nie są tutaj wzięte pod uwagę ograniczenia, np. progi minimalnego poparcia i pewności, które są powszechnie stosowane w algorytmach eksploracji danych. Zastosowanie ograniczeń komplikuje inkrementacyjne dodawanie reguł z wykorzystaniem powyższych wzorów proporcji częstościowych. Rozważmy następujący przykład. Przypuśćmy, że przed rozpoczęciem odkrywania reguł ustalone zostały progi minimalnego poparcia i pewności, odpowiednio σ i γ. Następnie, tak jak poprzednio, urucha-miane są dwa kolejne przebiegi odkrywania reguł: najpierw na porcji faktów h1, a następnie na porcji h2. Reguła r jest odkrywana w obu przebiegach, ale w drugim przebiegu jest ona od-rzucana z powodu nie osiągnięcia wymaganych progów σ lub γ. Wówczas wzór (3.1) zwraca nieprawidłowy wynik, ponieważ wartość sup2 jest przyjmowana jako 0 (zero), podczas gdy w rzeczywistości musiała ona się mieścić w przedziale obustronnie otwartym (0; σ), skoro reguła r została znaleziona w tym przebiegu. Z kolei wyrażenie (3.2) w ogóle przyjmuje war-tość nieokreśloną (kwestia ta jest poruszana w dalszej części rozdziału), nie pozwalając na ob-liczenie pewności. W celu wyeliminowania tych anomalii w metodzie APS zastosowano dwa estymatory  oraz  , które reprezentują odpowiednio oczekiwane poparcie i pewność losowo wybranej reguły, która jest odrzucana. A zatem, w opisanej wyżej sytuacji (gdy reguła r nie występuje w zbiorze reguł odkrytych w porcji h2), zamiast zerowych wartości sup2(r) i con2(r), do wzorów podstawiane są odpowiednio wartości estymatorów, które mogą być ustalone arbitralnie przez projektanta, albo przyjęte domyślnie jako środek przedziału, to znaczy: =^

2 , =^

2 . Istnieje także możliwość dokładnego obliczenia  oraz  jako średnich wartości poparcia i pewności reguł rzeczywiście odrzucanych. To rozwiązanie wymagałoby jednak modyfikacji algorytmów metody APS, polegającej albo na ingerencji w algorytm odkrywania reguł (przez co w konsekwencji utracona byłaby niezależność metody

supr , h1 ∪h2 :=^b1 sup₁rb₂sup₂r b1 b2 ^,

conr , h1 ∪h2:=^con¹^rcon2^r



b₁sup₁rb2 sup₂r



b₁sup₁rcon2rb2 sup₂rcon1r ^.

od algorytmu eksploracji danych), albo na dodaniu algorytmu filtrowania reguł na podstawie progów σ i γ, zewnętrznego w stosunku do algorytmu odkrywania reguł związku. W tym dru-gim przypadku proces znajdowania reguł uruchamiany byłby przy zerowych progach minimalnego poparcia i pewności, co miałoby niekorzystny wpływ na jego wydajność, z wodu potencjalnie bardzo dużej liczby zwracanych reguł (których duża część i tak byłaby po-tem odrzucana).

Przy inkrementacyjnym odkrywaniu i dodawaniu reguł do bazy KBR, w oparciu o opisane wyżej wzory częstościowe, może się pojawić pewne niekorzystne zjawisko, które można określić mianem oporności bazy reguł na zmiany. Otóż skoro poparcie i pewność reguł są ustalane proporcjonalnie do liczby faktów, na podstawie których reguły te zostały odkryte, po długim czasie działania metody APS zbiór reguł KBR jest coraz mniej podatny na jakiekolwiek zmiany na podstawie wyników kolejnych przebiegów analizy. Dzieje się tak dlatego, że bazo-wa liczba faktów dotychczasowych reguł w KBR jest niewspółmiernie duża w stosunku do liczby faktów przetwarzanych w pojedynczym przebiegu (czyli pojedynczej porcji faktów z historii). W tej sytuacji, po upływie pewnego czasu baza KBR będzie praktycznie niezmien-na, nawet jeśli w rzeczywistości, w obserwacjach rejestrowanych przez agenta zachodzą zmiany, które powinny być uwzględnione. W celu wyeliminowania tego efektu, do wzorów częstościowych została wprowadzona funkcja wpływu czasowego fT, która zmniejsza znaczenie reguł wraz ze zwiększającym się upływem czasu od ich odkrycia. Zakładamy, że kształt funkcji zależy od konkretnej dziedziny zastosowania i jest ustalany przez projektanta systemu. W metodzie APS definiowane są jedynie ogóle wymogi względem tej funkcji, które mówią, że ma to być funkcja nierosnąca, określona na przedziale [0; +∞), z wartościami na-leżącymi do przedziału [0; 1], przy czym wartość dla 0 (zera) musi być równa 1 (jeden). Przykłady funkcji, spełniających te postulaty, są przedstawione na Rys. 3.3.

Zastosowanie funkcji wpływu czasowego w, przytoczonych wyżej, wzorach częstościowych (3.1) i (3.2), polega na mnożeniu poparcia reguły przez wartość fT dla różnicy czasu teraźniejszego tnow i średniego czasu tej reguły. W ten sposób reguły nowe zyskują swo-istą przewagę nad regułami starymi o tych samych początkowych miarach poparcia i pewno-ści, gdyż miary te są odpowiednio zmniejszane wraz z upływem czasu. Własności wzorów proporcji częstościowych z funkcją fT są przedstawione i dowodzone formalnie w dalszej części rozdziału. W danym przebiegu analizy faktów funkcja fT nie jest stosowana indywidual-nie do czasu każdego faktu, ale jednorazowo do średindywidual-niego czasu wszystkich faktów w prze-twarzanej porcji danych. Choć rozwiązanie to czyni obliczenia przybliżonymi, jest ono uza-sadnione względami wydajności przetwarzania (średni czas wszystkich faktów można szybko obliczyć już podczas ich wyboru w etapie 2.) oraz utrzymaniem niezależności metody APS od algorytmu odkrywania reguł związku.

f_T x=expax2

 , a0 f_T x=1

f_T x=ax1, a0

Rys. 3.3. Przykłady funkcji wpływu czasowego f_T. Argumentem x jest czas,

który upłynął od danego momentu w przeszłości do chwili obecnej.

0 f_T(x)

x 0

3.1. Przegląd metody APS 75 Przytoczony powyżej, ogólny i nieformalny opis metody APS, jest precyzowany w kolej-nych podrozdziałach.

W dokumencie Pozyskiwanie wiedzy w systemie agenckim z wykorzystaniem metod eksploracji danych (Stron 72-75)