Plan eksperymentu - Weryfikacja eksperymentalna metody APS

3. Metoda APS inkrementacyjnego pozyskiwania reguł

3.6. Weryfikacja eksperymentalna metody APS

3.6.1 Plan eksperymentu

Celem opisanej tutaj weryfikacji technicznej było sprawdzenie, czy metoda APS jest wła-ściwym rozwiązaniem problemu naukowego, zdefiniowanego we Wprowadzeniu do pracy, a przytoczonego dokładniej na początku tego rozdziału. Główne postulaty, dotyczące rozwiązania tego problemu, wyrażone w celu pracy, można podsumować następująco.

(P1) Przetwarzana może być duża liczba obserwacji, przy zachowaniu ograniczonego roz-miaru przechowywanych danych historycznych, który jest mniejszy, niż w przypadku metody wsadowej.

(P2) Zbiór reguł, uzyskanych w sposób inkrementacyjny, powinien być porównywalny ze zbiorem reguł otrzymanych przez wsadowe przetwarzanie całego zbioru danych.

Dodatkowy postulat, który co prawda nie wynika bezpośrednio z celu pracy, ale jest pożądany z punktu widzenia wykorzystania metody APS w rozwiązaniach technicznych, dotyczy aspektu wydajności.

(P3) Czas przetwarzania faktów przy odkrywaniu reguł powinien być mniejszy dla metody inkrementacyjnej, niż dla metody wsadowej.

Postulat (P1) jest w oczywisty sposób spełniony przez to, że w cyklu metody APS wszystkie fakty, po przetworzeniu w danym przebiegu, są bezpowrotnie usuwane z historii. Tak więc rozmiar historii jest mniejszy, niż dla metody wsadowej, w której przechowywane są wszystkie fakty od początku ich rejestrowania.

3.6. Weryfikacja eksperymentalna metody APS 107 Spełnianie postulatu (P2) zostało częściowo udowodnione formalnie w poprzednim pod-rozdziale, przez zestawione tam własności algorytmu aktualizacji bazy reguł RMAIN.

Przedstawiona niżej, weryfikacja eksperymentalna metody APS, miała na celu dodatkowe wykazanie spełniania postulatu (P2) oraz zbadanie, czy i w jakich warunkach spełniany jest postulat (P3).

Miary oceny zbioru reguł

Poniżej zdefiniowane są miary oceny i porównywania zbiorów reguł, które do tej pory były opisywane na poziomie intuicyjnym, w sposób niezobiektywizowany.

Oznaczenia

Przez KBB

R (h) oznaczamy zbiór reguł odkrytych wsadowo w zbiorze faktów h, to znaczy w pojedynczym przebiegu analizy przez cały badany zbiór h.

Przez KBI

R (h) oznaczamy zbiór reguł odkrytych inkrementacyjnie w zbiorze faktów h, to znaczy w przynajmniej dwóch przebiegach, na dwóch różnych porcjach faktów h1 i h2, takich, że h1 ∩ h2 ≡ ∅ ∧ h1 ∪ h2 ≡ h.

Definicja 12 Przecięcie semantyczne zbioru reguł

Przecięciem semantycznym dwóch zbiorów reguł R1 i R2 nazywamy zbiór:

Definicja 13 Współczynnik zgodności semantycznej

Współczynnikiem zgodności semantycznej dwóch zbiorów reguł R1 i R2, oznaczanym przez ruleoverlap (R1, R2), nazywamy ułamek:

Definicja 14 Współczynnik zgodności poparcia

Współczynnikiem zgodności poparcia dwóch zbiorów reguł R1 i R2, oznaczanym przez supoverlap (R1, R2), nazywamy wyrażenie:

gdzie: n = card KBO

R (R1, R2) ∧ ri≡ pi ∧ pi ∈ KBO

R (R1, R2) ∧ pi∈ R1 ∧ ri∈ R2 ∧ i = {1, ..., n}.

card R₁ card R2− card KBR

gdzie: n = card KBO

R (R1, R2) ∧ ri≡ pi ∧ pi ∈ KBO

R (R1, R2) ∧ pi∈ R1 ∧ ri∈ R2 ∧ i = {1, ..., n}.

Definicja 15 Średnie odchylenie czasowe

Średnim odchyleniem czasowym dwóch zbiorów reguł R1 i R2, oznaczanym przez timedev (R1, R2), nazywamy wyrażenie:

gdzie: n = card KBO

R (R1, R2) ∧ ri≡ pi ∧ pi ∈ KBO

R (R1, R2) ∧ pi∈ R1 ∧ ri∈ R2 ∧ i = {1, ..., n} ∧ Tref∈ DT nazywamy jednostką odniesienia, przy czym DT jest omawianym wcześniej, prze-liczalnym zbiorem punktów czasowych, który jest uporządkowany przez relację silnego po-rządku liniowego < .

Komentarz

Wprowadzone wyżej miary (z wyjątkiem timedev) pozwalają na procentowe porównywanie dwóch zbiorów reguł. I tak, współczynnik zgodności semantycznej wskazuje odsetek reguł, które są jednakowe semantycznie (bez badania innych parametrów) w obu zbiorach. Z kolei współczynniki zgodności poparcia i pewności pozwalają na obliczenie średniej, procentowej zgodności reguł, które występują w obu porównywanych zbiorach reguł i są sobie równe semantycznie. Każdy z trzech omówionych tutaj współczynników przyjmuje wartości z prze-działu [0; 1], przy czym wartości 0 (zero) i 1 (jeden) oznaczają odpowiednio najmniejszą i największą zgodność badanych zbiorów. Nieco inaczej zdefiniowana jest miara średniego odchylenia czasowego, która umożliwia sprawdzanie zgodności czasu reguł równych seman-tycznie w dwóch zbiorach. Ponieważ w metodzie APS czas jest reprezentowany za pomocą struktury punktowej (DT, <), zgodność porównywanych zbiorów reguł jest mierzona w po-danych jednostkach odniesienia Tref (np. mogą to być minuty, godziny, doby – w zależności od dziedziny zastosowania i reprezentacji czasu w danym systemie informatycznym). Tutaj zatem największej zgodności zbiorów odpowiada wartość 0 (zero), a wartość najmniejszej zgodności nie jest określona.

3.6. Weryfikacja eksperymentalna metody APS 109 Strategia eksperymentu jest następująca.

1. Na początku baza reguł KBR jest pusta, a historia KBH jest zbiorem n faktów (rzędu kilkunastu – kilkudziesięciu tysięcy), wygenerowanych tak, iż fakty spełniające wygene-rowane reguły są losowo rozłożone w całym zbiorze.

2. Aż do wyczerpania faktów z historii KBH kolejno uruchamiane jest na niej m inkrementa-cyjnych przebiegów metody APS. W każdym przebiegu pobierana, przetwarzana i kasowa-na jest porcja k faktów (od kilkuset do jednego tysiąca), dając w wyniku zaktualizowaną bazę reguł KBR (zob. Rys. 3.5.).

3. W każdym przebiegu jest mierzony i trwale zapisywany (w pliku) sumaryczny czas jego wykonania, a także czasy trwania poszczególnych etapów (w nawiasach podane są od-powiednie procedury cyklu APS):

a) tsum – całkowity czas trwania przebiegu;

b) tselect – czas wybierania faktów z historii (procedura Wybierz_Fakty);

c) tconvert – czas przekształcania schematu historii (procedura Przekształć_Schemat); d) tfill – czas wypełniania faktami przekształconego schematu historii

(procedura Wypełnij_Nowy_Schemat);

e) telim – czas eliminowania wartości N (procedura Usuń_Wartości_N); f) tmine – czas odkrywania reguł związku przez algorytm eksploracji danych

(procedura Znajdź_Reguły);

g) tadd – czas aktualizacji bazy reguł KBR (procedura Aktualizuj_Bazę_Reguł); h) tdel – czas usuwania faktów z historii KBH (procedura Usuń_Fakty).

4. Po każdym i-tym przebiegu wynikowa baza reguł KBI

R (KB(i)

H) jest trwale zapisywana w oddzielnym pliku.

5. Wszystkie reguły z bazy KBR są usuwane.

6. Wykonywanych jest kolejno m wsadowych przebiegów odkrywania reguł. W każdym przebiegu analizowane jest pierwszych k, 2k, ..., n faktów z historii KBH (zob. Rys. 3.5), której zawartość jest za każdym razem identyczna z zawartością bazy faktów, opisanej w punkcie 1.

7. W każdym przebiegu jest mierzony i trwale zapisywany (w pliku) sumaryczny czas jego wykonania, a także czasy trwania poszczególnych etapów – identycznie, jak w punkcie 3. 8. Po każdym przebiegu na pierwszych i k faktach z historii KBH, baza reguł KBB

R (KB(i)

H) jest trwale zapisywana w oddzielnym pliku i porównywana z odpowiednim zbiorem reguł KBI

(KB(i)

H), na podstawie poniższych miar (wyniki porównania są zapisywane): a) ruleoverlap – współczynnik zgodności semantycznej;

b) supoverlap – współczynnik zgodności poparcia; c) conoverlap – współczynnik zgodności pewności; d) timedev – średnie odchylenie czasowe.

9. Wyniki pomiarów (czasu i miar porównania), przeprowadzonych dla poszczególnych przebiegów inkrementacyjnych i wsadowych, są porównywane ze sobą.

10. Dla poszczególnych przebiegów inkrementacyjnych i wsadowych obliczany jest procen-towy udział czasu trwania poszczególnych etapów (zgodnie z listą w punkcie 3.).

Badania przy niejednorodnym rozkładzie reguł

Przy jednorodnym rozkładzie w historii KBH faktów spełniających reguły, w każdym biegu cyklu APS zbiór odkrywanych reguł R powinien się znacznie różnić od zbioru w prze-biegu poprzednim, albo następnym. Oczekujemy, że będzie to dla metody APS gorsza sytuacja, niż przy rozkładzie jednorodnym, gdyż w algorytmie aktualizacji bazy reguł RMAIN często wykorzystywane będą estymatory oczekiwanego poparcia i pewności (dla brakujących reguł w jednym lub drugim zbiorze). Powinno to powodować pogorszenie jakości zbioru reguł, uzyskiwanych inkrementacyjnie, wyrażanej opisanymi wcześniej miarami.

Sam przebieg eksperymentu jest niemal identyczny, jak dla jednorodnego rozkładu reguł, z tą różnicą, że historia KBH, choć o takim samym rozmiarze, jak poprzednio (rzędu kilkunastu – kilkudziesięciu tysięcy faktów), zawiera tym razem fakty nie rozłożone losowo, ale grupowane w gęste regiony z poparciem dla wybranego podzbioru reguł.

b

₁

b

₂

b

₃

b

czas

k

2k

3k

k

X ...

t

₀

Rys. 3.5. Porównanie porcji danych przetwarzanych w przebiegach inkrementacyjnych (i₁, i₂, ...,i_m)

oraz w przebiegach wsadowych (b₁, b₂, ...,b_m). W trybie inkrementacyjnym przeanalizowane porcje

3.6. Weryfikacja eksperymentalna metody APS 111

W dokumencie Pozyskiwanie wiedzy w systemie agenckim z wykorzystaniem metod eksploracji danych (Stron 106-111)