Charakterystyka danych testowych - Weryfikacja eksperymentalna metody APS

3. Metoda APS inkrementacyjnego pozyskiwania reguł

3.6. Weryfikacja eksperymentalna metody APS

3.6.3 Charakterystyka danych testowych

Do eksperymentów zostały wykorzystane dane syntetyczne, wygenerowane w programie DataGen (zob. Rys. 3.9.), który został zaimplementowany w języku MS Visual C# .NET, w narzędziu programistycznym MS Visual Studio .NET [Dud2005b]. Program korzysta z rela-cyjnej bazy danych w systemie MS SQL Server 2000 Enterprise Edition wersja 8.00.760 (Service Pack 3). Dostęp do bazy danych z aplikacji jest realizowany za pomocą obiektów biblioteki ADO.NET (np. sqlConnection, sqlDataAdapter), optymalizowanych dla produktu MS SQL Server.

Dane testowe zostały przygotowane dla dziedziny wspomagania wyszukiwania informacji w sieci WWW. Zakładamy następujący scenariusz ich powstawania. Podczas przeglądania stron sieci Internet, użytkownik korzysta z pomocy osobistego agenta rekomendującego, który rejestruje dane wyświetlanych dokumentów, ich jawną ocenę przez użytkownika i zdarzenia zapisu strony lokalnie na dysk, sugerujące zainteresowanie nią użytkownika. Agent analizuje witrynę, która jest oceniana lub zapisywana przez użytkownika, i zapamiętuje dla niej (oprócz oceny i faktu zapisu) n terminów indeksowych, które najczęściej na niej występują. Celem po-zyskiwania reguł związku przez agenta jest zdobycie wiedzy, od jakich terminów na stronie zależy to, że jest ona zapisywana lub pozytywnie oceniana przez użytkownika. Reguły mogą być wykorzystywane przez agenta do przewidywania (predykcji) zainteresowania użytkow-nika kolejnymi stronami, na podstawie ich zawartości. Zastosowanie reguł związku do modelowania intencji i zainteresowań użytkownika sieci Internet (np. w systemach

Rys. 3.8. Widok ekranu ustawień parametrów globalnych wektora vg

rekomendujących) zostało przedstawione między innymi w pracach [ChL2002], [Fac2005], [WgS2004], [Yan2004].

Fakty, wchodzące w skład danych testowych, mają następujące atrybuty:

• HKey – unikalny klucz (odpowiednik atrybutu specjalnego K w modelu formalnym); dziedzina: typ całkowitoliczbowy bigint;

• HTime – czas zarejestrowania faktu (odpowiednik atrybutu specjalnego T); dziedzina: typ daty i czasu datetime;

• Term – kolekcja terminów indeksowych, opisujących stronę (atrybut wielowartościowy); dziedzina: zbiór 303 słów języka angielskiego (słownictwo ogólne i informatyczne); zakładamy binarny sposób indeksowania (system Boolowski): dana strona albo zawiera określony termin, albo go nie zawiera (bez wag, wartości rozmytych itp.);

• Eval – ocena strony przez użytkownika; dziedzina: ciąg znaków varchar, dopuszczalne wartości relevant, irrelevant (atrybut jednowartościowy);

• Stored – zdarzenie zapisu strony na dysk; dziedzina: ciąg znaków varchar, dopuszczalne wartości yes, no (atrybut jednowartościowy).

Fakty z jednorodnym rozkładem reguł

W programie DataGen zostało wygenerowanych 20 000 faktów, z których każdy zawiera średnio 9 różnych wartości atrybutów Term, Eval i Stored. Fakty te odzwierciedlają losową (a więc w przybliżeniu jednorodną) dystrybucję poniższych, predefiniowanych reguł związku.

r1: _action∧ primitive ∧ selection ⇒ stored_yes sup(r1) = 0,10; con(r1) = 0,50

r2: _builders∧ model ∧ probabilistic ⇒ relevant ∧ stored_yes sup(r2) = 0,10; con(r2) = 0,70

r3: _agent∧ experience ∧ goals ⇒ relevant sup(r3) = 0,15; con(r3) = 0,60

3.6. Weryfikacja eksperymentalna metody APS 115

r4: _fact∧ learn ∧ rule ⇒ relevant ∧ stored_yes sup(r4) = 0,10; con(r4) = 0,50

r5: _classifies∧ evaluating ∧ hypothesis ⇒ relevant sup(r5) = 0,20; con(r5) = 0,80

r6: _exploration∧ levels ∧ mapping ⇒ stored_yes sup(r6) = 0,15; con(r6) = 0,70

r7: _change∧ condition ∧ random ⇒ relevant ∧ stored_yes sup(r7) = 0,10; con(r7) = 0,60

r8: _decide∧ multiple ∧ process ⇒ relevant sup(r8) = 0,20; con(r8) = 0,70

r9: _algorithm∧ class ∧ external ⇒ stored_yes sup(r9) = 0,10; con(r9) = 0,50

r10: _idea∧ limitations ∧ sample ⇒ relevant ∧ stored_yes sup(r10) = 0,15; con(r10) = 0,80

Wszystkie fakty są równomiernie rozłożone w czasie od „2004-01-01 00:09:45.000” do „2005-04-10 23:25:23.000”. Można je zatem traktować jako hipotetyczny zapis aktywności użytkownika Internetu, który przez 465 dni (około 1 rok i 3 miesiące) przejrzał 20 000 stron WWW (czyli średnio 43 strony dziennie).

Posługując się tradycyjnym językiem, stosowanym do opisu reguł związku [Agr1993], [Agr1994], [Has2001], można odnieść te dane do 20 000 koszyków (ang. shopping carts), z których każdy zawiera średnio 9 produktów (ang. items). Średni rozmiar częstego zbioru atrybutów (ang. frequent itemset, large itemset) wynosi 4. W literaturze spotykane są poniższe oznaczenia parametrów zbiorów testowych [Agr1994]:

• | D | – liczba transakcji (faktów); • | T | – średni rozmiar transakcji (faktu);

• | I | – średni rozmiar maksymalnych, potencjalnie częstych zbiorów atrybutów; • | L | – liczba maksymalnych, potencjalnie częstych zbiorów atrybutów;

• N – liczba atrybutów (binarnych).

Dla wygenerowanego zbioru faktów określone są następujące wartości parametrów: | D | = 20 000; | T | = 9; | I | = 4; N = 307. Stąd też, przyjmując konwencję stosowaną w wielu pracach z dziedziny eksploracji danych, można przypisać temu zbiorowi zakodowaną nazwę:

T9.I4.D20K. Przykładowe fakty z tego zbioru zostały przedstawione na Rys. 3.10.

Wygenerowane dane nie zawierają wartości nieznanych N. Są dwa powody podjęcia takiej decyzji: (i) w opisywanej dziedzinie zastosowania wartości nieznane nie mają większego sen-su (to znaczy mogłyby one występować jedynie dla atrybutu predykcyjnego Eval, ponieważ kolekcje terminów indeksowych w polu Term oraz opisy zdarzenia zapisu strony Stored są zawsze jednoznacznie określone); (ii) wykładnicza złożoność obliczeniowa algorytmu ENV do eliminacji wartości N (zgodnie z przytoczonym wcześniej oszacowaniem formalnym), podczas eksperymentów objawia się bardzo dużą zmiennością liczby przetwarzanych faktów w porcji; efekt ten może bardzo komplikować badanie głównych własności metody APS (w konsekwencji może to utrudniać weryfikację podstawowych postulatów). Stąd też podjęta została decyzja o przeniesieniu testów działania metody APS dla danych z wartościami N do propozycji dalszych badań.

W analogiczny sposób, jak wyżej, przygotowany został drugi zestaw faktów z jednorod-nym rozkładem reguł, o wartościach parametrów: | D | = 20 000; | T | = 10; | I | = 5; N = 307. Tak więc zestawowi temu nadana została zakodowana nazwa: T10.I5.D20K, zgodnie z opisa-ną wcześniej konwencją. Fakty odzwierciedlają losową dystrybucję poniższych reguł.

r11: abstract ∧ complete ∧ include ∧ results ⇒ stored_yes sup(r11) = 0,15; con(r11) = 0,84

r12: _active∧ map ∧ use ⇒ relevant ∧ stored_yes sup(r12) = 0,10; con(r12) = 0,53

r13: behavior ∧ necessary ∧ piagets ∧ theories ⇒ relevant sup(r13) = 0,20; con(r13) = 0,68 r14: _architecture∧ development ∧ schema ⇒ relevant ∧ stored_yes sup(r14) = 0,10; con(r14) = 0,63 r15: _category∧ example ∧ matching ∧ possible ⇒ relevant sup(r15) = 0,12; con(r15) = 0,72

r16: defined ∧ method ∧ optimize ∧ system ⇒ stored_yes sup(r16) = 0,18; con(r16) = 0,80

r17: _adaptive∧ autonomous ∧ learning ⇒ relevant ∧ stored_yes sup(r17) = 0,11; con(r17) = 0,51 r18: _component∧ mechanism ∧ parallel ∧ share ⇒ relevant sup(r18) = 0,16; con(r18) = 0,64

r19: increase ∧ space ∧ symbol ∧ time ⇒ stored_yes sup(r19) = 0,13; con(r19) = 0,70

r20: _data∧ generalization ∧ suggested ⇒ relevant ∧ stored_yes sup(r20) = 0,11; con(r20) = 0,59

Wszystkie fakty są równomiernie rozłożone w czasie od „2004-01-01 00:27:45.000” do „2005-04-10 23:32:57.000”. Jest to zatem, podobnie jak w przypadku zbioru T9.I4.D20K, hipotetyczny zapis aktywności użytkownika Internetu, który przez 465 dni (około 1 rok i 3 miesiące) przejrzał 20 000 stron WWW (średnio 43 strony dziennie). Zauważmy jednak, że zbiory reguł, będących podstawą wygenerowania obu zestawów (T9.I4.D20K i T10.I5.D20K), są całkowicie różne. Zwróćmy także uwagę, że w zbiorze T10.I5.D20K średni rozmiar częste-go zbioru atrybutów (ang. frequent itemset) jest o jeden większy, niż w zbiorze T9.I4.D20K.

Rys. 3.10. Fragment zbioru faktów T9.I4.D20K, zaimportowanego jako historia

3.6. Weryfikacja eksperymentalna metody APS 117 Podczas przetwarzania zbioru T10.I5.D20K przez algorytmy typu Apriori, powinna być zatem zwracana większa liczba reguł, niż dla drugiego zbioru (reguły podstawowe wraz z regułami pochodnymi – zawierającymi się semantycznie w regułach podstawowych).

Fakty z niejednorodnym rozkładem reguł

Jako dane źródłowe dla eksperymentu przy niejednorodnym rozkładzie reguł, przygotowa-ny został zbiór T9.I4.D20K + T10.I5.D20K, który powstał w wyniku połączenia omówioprzygotowa-nych wcześniej zestawów jednorodnych. Każdy z tych zestawów został podzielony na 8 porcji po 2500 faktów. Następnie porcje z obu zestawów zostały ze sobą połączone naprzemiennie, dając wyniku zbiór, który przypomina wynik skrzyżowania (ang. cross-over) zbiorów T9.I4.D20K i T10.I5.D20K (zob. Rys. 3.11.). Wartości pola HTime (czas zarejestrowania fak-tu) w całym połączonym zbiorze zostały przepisane ze zbioru T10.I5.D20K, aby zachować jednolity ciąg chronologiczny wszystkich faktów. W ten sposób uzyskany został zestaw danych testowych, zawierający naprzemiennie rozmieszczone podzbiory faktów, które zostały wygenerowane na podstawie całkowicie rozłącznych zbiorów reguł.

W dokumencie Pozyskiwanie wiedzy w systemie agenckim z wykorzystaniem metod eksploracji danych (Stron 113-117)