• Nie Znaleziono Wyników

Generowanie zbioru reguł asocjacyjnych i de- cyzyjnych ze statystycznie reprezentatywnym

N/A
N/A
Protected

Academic year: 2021

Share "Generowanie zbioru reguł asocjacyjnych i de- cyzyjnych ze statystycznie reprezentatywnym"

Copied!
43
0
0

Pełen tekst

(1)

Generowanie zbioru reguł asocjacyjnych i de- cyzyjnych ze statystycznie reprezentatywnym

wsparciem i anty-wsparciem

Aleksander Wieczorek

Opiekun naukowy: prof. dr hab. inż. Roman Słowiński

Poznań, 30 października 2012

(2)

Wprowadzenie — reguły i ich ewaluacja Proponowane podejście Eksperymenty Podsumowanie

Spis treści

1 Wprowadzenie — reguły i ich ewaluacja

2 Proponowane podejście Dziedzina

Analiza wrażliwości

Statystyczna reprezentatywność — wsparcie Statystyczna reprezentatywność — anty-wsparcie

3 Eksperymenty

4 Podsumowanie

(3)

Plan prezentacji

1 Wprowadzenie — reguły i ich ewaluacja

2 Proponowane podejście Dziedzina

Analiza wrażliwości

Statystyczna reprezentatywność — wsparcie Statystyczna reprezentatywność — anty-wsparcie

3 Eksperymenty

4 Podsumowanie

(4)

Wprowadzenie — reguły i ich ewaluacja Proponowane podejście Eksperymenty Podsumowanie

Podstawowe definicje

Zbiór danych S = (U, A)

Reguła asocjacyjna

Para formuł (φ, ψ) połączonych relacją konsekwencji „→”: φ → ψ [Pieluszki = tak i Czas = popołudnie] → [Piwo > 2]

Reguła decyzyjna

Reguła asocjacyjna, gdzie ψ = const.

(5)

Podstawowe definicje

Miara atrakcyjności

Funkcja F określona na zbiorze RSreguł φ → ψ wyindukowanych z S:

F : RS7→ R Przykłady:

sup(φ → ψ), anti-sup(φ → ψ),

conf(φ → ψ) = sup(φ→ψ)

sup(φ) ,

f(φ → ψ) = conf(ψ→φ)−conf(¬ψ→φ)

conf(ψ→φ)+conf(¬ψ→φ).

(6)

Wprowadzenie — reguły i ich ewaluacja Proponowane podejście Eksperymenty Podsumowanie

Podstawowe definicje

Notacja

Większość miar atrakcyjności może być wyrażona za pomocą:

a = sup(φ → ψ), b = sup(¬φ → ψ),

c = sup(φ → ¬ψ) = anti-sup(φ → ψ), d = sup(¬φ → ¬ψ).

Przykłady

sup(φ → ψ) = a, anti-sup(φ → ψ) = c,

(7)

Własność miary atrakcyjności

Warunki nałożone na funkcję F (miarę atrakcyjności).

Własność konfirmacji Bayesa

F(φ → ψ)





> 0 dla conf(φ → ψ) >sup(ψ)

|U| (P(ψ|φ) > P(ψ)),

= 0 dla conf(φ → ψ) =sup(ψ)

|U| (P(ψ|φ) = P(ψ)),

< 0 dla conf(φ → ψ) <sup(ψ)

|U| (P(ψ|φ) < P(ψ)).

Własności symetrii

evidence symmetry (ES): F(φ → ψ) = −F(¬φ → ψ), commutativity symmetry (CS): F(φ → ψ) = F(ψ → φ), hypothesis symmetry (HS): F(φ → ψ) = −F(φ → ¬ψ), total symmetry (TS): F(φ → ψ) = −F(¬φ → ¬ψ).

(8)

Wprowadzenie — reguły i ich ewaluacja Proponowane podejście Eksperymenty Podsumowanie

Podstawowe definicje

Własność M

Miary o charakterze zysku:

niemalejąca ze wzgl. na a = sup(φ → ψ), nierosnąca ze wzgl. na b = sup(¬φ → ψ), nierosnąca ze wzgl. na c = sup(φ → ¬ψ), niemalejąca ze wzgl. na d = sup(¬φ → ¬ψ).

Miary o charakterze kosztu:

nierosnąca ze wzgl. na a = sup(φ → ψ), niemalejąca ze wzgl. na b = sup(¬φ → ψ),

(9)

Płaszczyzny ewaluacji

Wsparcie — pewność [AIS93]

Zbiór Pareto-optymalny zawiera reguły optymalne ze względu na wiele innych miar.

Wsparcie — f [Szc09]

Zbiór Pareto-optymalny zawiera te same reguły co zbiór Pareto-optymalny w poprzednim przypadku.

Wsparcie — anty-wsparcie [BGS07]

Zbiór Pareto-optymalny zawiera wszystkie reguły ze zbioru Pareto-optymalnego w przypadku pierwszym oraz reguły optymalizujące dowolną miarę z własnością M.

(10)

Wprowadzenie — reguły i ich ewaluacja Proponowane podejście Eksperymenty Podsumowanie

Statystyczna reprezentatywność

Testowanie wielokrotne

κ — poziom istotności pojedynczego testu, n — liczba testów

1 − (1 − κ)n — prawdopodobieństwo popełnienia błędu typu I

Pojedyncze test statystyczne

korelacja (niezależność χ2, test Fishera), minimalne wsparcie (test dwumianowy).

(11)

Plan prezentacji

1 Wprowadzenie — reguły i ich ewaluacja

2 Proponowane podejście Dziedzina

Analiza wrażliwości

Statystyczna reprezentatywność — wsparcie Statystyczna reprezentatywność — anty-wsparcie

3 Eksperymenty

4 Podsumowanie

(12)

Wprowadzenie — reguły i ich ewaluacja Proponowane podejście Eksperymenty Podsumowanie

Dziedzina Analiza wrażliwości

Statystyczna reprezentatywność — wsparcie Statystyczna reprezentatywność — anty-wsparcie

Założenia i cele

1 Płaszczyzna wsparcie — anty-wsparcie.

2 Statystyczna ocena parametrów.

3 Automatyczne dobieranie progów.

(13)

Wsparcie — anty-wsparcie i dziedzina Q

0 0.2 0.4 0.6 0.8 1

0 0.2 0.4 0.6 0.8 1

Anti-support related to the universe U

Support related to the universe U Minimum support threshold

Maximum anti-support threshold Pareto-optimal border

Positive confirmation values

Q

0 0.2 0.4 0.6 0.8 1

0 0.2 0.4 0.6 0.8 1

Anti-support related to the universe U

Support related to the universe U Minimum support threshold

Maximum anti-support threshold Pareto-optimal border

Positive confirmation values

Q

0 0.2 0.4 0.6 0.8 1

0 0.2 0.4 0.6 0.8 1

Anti-support related to the universe U

Support related to the universe U Minimum support threshold

Maximum anti-support threshold Pareto-optimal border

Positive confirmation values

Q

0 0.2 0.4 0.6 0.8 1

0 0.2 0.4 0.6 0.8 1

Anti-support related to the universe U

Support related to the universe U Minimum support threshold

Maximum anti-support threshold Pareto-optimal border

Positive confirmation values

Q

0 0.2 0.4 0.6 0.8 1

0 0.2 0.4 0.6 0.8 1

Anti-support related to the universe U

Support related to the universe U Minimum support threshold

Maximum anti-support threshold Pareto-optimal border

Positive confirmation values

Q

0 0.2 0.4 0.6 0.8 1

0 0.2 0.4 0.6 0.8 1

Anti-support related to the universe U

Support related to the universe U Minimum support threshold

Maximum anti-support threshold Pareto-optimal border

Positive confirmation values

Q

0 0.2 0.4 0.6 0.8 1

0 0.2 0.4 0.6 0.8 1

Anti-support related to the universe U

Support related to the universe U Minimum support threshold

Maximum anti-support threshold Pareto-optimal border

Positive confirmation values

Q

(14)

Wprowadzenie — reguły i ich ewaluacja Proponowane podejście Eksperymenty Podsumowanie

Dziedzina Analiza wrażliwości

Statystyczna reprezentatywność — wsparcie Statystyczna reprezentatywność — anty-wsparcie

Postać dziedziny

Na pojedynczej płaszczyźnie wsparcie — anty-wsparcie rozpatrywane są reguły o stałym następniku (ψ = const.).

Ograniczenia:

sup(φ → ψ) + sup(¬φ → ψ) + sup(φ → ¬ψ) + sup(¬φ → ¬ψ) =

|U| = const.

sup(ψ) = sup(φ → ψ) + sup(¬φ → ψ) = const.

Parametr q opisujący klasę decyzyjną q =|U|−sup(ψ)

sup(ψ)

(15)

Dziedziny dla różnych wartości parametru q

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Anti-supportrelatedtotheuniverseU:anti-supψ) |U|

Support related to the universe U:sup(φ→ψ)

|U|

sup(φ→ψ)

|U| +anti-sup(φ→ψ)

|U| = 1

No rules beyond this line q=4

q=1

q=0.25

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Anti-supportrelatedtotheuniverseU:anti-supψ) |U|

Support related to the universe U:sup(φ→ψ)

|U|

sup(φ→ψ)

|U| +anti-sup(φ→ψ)

|U| = 1

No rules beyond this line q=4

q=1

q=0.25

(16)

Wprowadzenie — reguły i ich ewaluacja Proponowane podejście Eksperymenty Podsumowanie

Dziedzina Analiza wrażliwości

Statystyczna reprezentatywność — wsparcie Statystyczna reprezentatywność — anty-wsparcie

Analiza wrażliwości

Motywacja

Jak zmiany w progach na wsparcie i anty-wsparcie wpływają na wartość miary f?

Obszary dużej wrażliwości f = 0,

duże klasy decyzyjne,

małe wartości wsparcia i anty-wsparcia.

(17)

Analiza wrażliwości

Isoquants of f 1 0.5 0 -0.5

0 0.2 0.4 0.6 0.8 1

sup(φ→ψ)

|U|

0 0.2 0.4 0.6 0.8 1

anti-supψ) |U|

-1 -0.5

0 0.5 1

Rysunek:q = |U|−sup(ψ)

sup(ψ) = 0.25

Isoquants of f 1 0.5 0 -0.5

0 0.2 0.4 0.6 0.8 1

sup(φ→ψ)

|U|

0 0.2 0.4 0.6 0.8 1

anti-supψ) |U|

-1 -0.5

0 0.5 1

Rysunek:q = |U|−sup(ψ)

sup(ψ) = 1

(18)

Wprowadzenie — reguły i ich ewaluacja Proponowane podejście Eksperymenty Podsumowanie

Dziedzina Analiza wrażliwości

Statystyczna reprezentatywność — wsparcie Statystyczna reprezentatywność — anty-wsparcie

Statystyczna reprezentatywność — wsparcie

Interpretacja statystyczna

Rozpatrzmy dowolną regułę asocjacyjną φ → ψ:

zbiór danych S = (U, A) stanowi próbę losową, każdy rekord w S zawiera formułę φ ∧ ψ lub nie,

każdy rekord w S to realizacja zero-jedynkowej zmiennej losowej z parametrem p (|U| prób Bernoulliego),

obserwowana wartość wsparcia sup(φ → ψ), to realizacja zmiennej o rozkładzie dwumianowym z parametrami |U| i p, parametr p, to prawdziwa (nieobserwowana) wartość wsparcia wynikająca z rozkładu, z którego S jest próbką.

(19)

Statystyczna reprezentatywność — wsparcie

Estymacja punktowa wsparcia ˆ

p = sup(φ → ψ)

|U|

Przedział ufności dla wsparcia p1= ˆp − Z

s ˆ p(1 − ˆp)

|U|

p2= ˆp + Z s

ˆ p(1 − ˆp)

|U|

P(p1¬ p ¬ p2) = 1 − α

(20)

Wprowadzenie — reguły i ich ewaluacja Proponowane podejście Eksperymenty Podsumowanie

Dziedzina Analiza wrażliwości

Statystyczna reprezentatywność — wsparcie Statystyczna reprezentatywność — anty-wsparcie

Przedział ufności

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Observed value of the parameter p (supmin/|U|) Lower bound of the confidence interval Upper bound of the confidence interval

Width W of the confidence interval p

p1 p2

(21)

Statystyczna reprezentatywność — wsparcie

Błąd względny

er= W ˆ

p = 2Z p|U|

s 1 − ˆp

ˆ p W — szerokość przedziału ufności (W = p2− p1)

Miara maksymalnego odchylenia prawdziwej wartości wsparcia od wartości obserwowanej.

(22)

Wprowadzenie — reguły i ich ewaluacja Proponowane podejście Eksperymenty Podsumowanie

Dziedzina Analiza wrażliwości

Statystyczna reprezentatywność — wsparcie Statystyczna reprezentatywność — anty-wsparcie

Statystyczna reprezentatywność — wsparcie

Maksymalny błąd względny emax

emax — maksymalny akceptowalny błąd względny er

er jest ściśle malejącą funkcją obserwowanego wsparcia sup(φ→ψ)

|U| = ˆp.

Minimalne wsparcie supmin=e2 4Z2

max|U|+4Z2

(23)

Błąd względny jako funkcja zaobserwowanego wsparcia

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8 0.85 0.9 0.95 1 Relative error: er

Minimal support: sup /|U|

|U|= 1000

|U|= 10000

|U|=100000

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8 0.85 0.9 0.95 1 Relative error: er

Minimal support: sup /|U|

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8 0.85 0.9 0.95 1 Relative error: er

Minimal support: sup /|U|

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8 0.85 0.9 0.95 1 Relative error: er

Minimal support: sup /|U|

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8 0.85 0.9 0.95 1 Relative error: er

Minimal support: sup /|U|

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8 0.85 0.9 0.95 1 Relative error: er

Minimal support: sup /|U|

Minimal support for er=0.1 and universe U of size 100000: 0.026*|U|

2594 objects

Minimal support for er=0.1 and universe U of size 10000: 0.21*|U|

2103 objects

Minimal support for er=0.1 and universe U of size 1000: 0.73*|U|

727 objects

Maximal relative error: er = 0.1

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8 0.85 0.9 0.95 1 Relative error: er

Minimal support: sup /|U|

Minimal support for er=0.1 and universe U of size 100000: 0.026*|U|

2594 objects

Minimal support for er=0.1 and universe U of size 10000: 0.21*|U|

2103 objects

Minimal support for er=0.1 and universe U of size 1000: 0.73*|U|

727 objects

Maximal relative error: er = 0.1

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8 0.85 0.9 0.95 1 Relative error: er

Minimal support: sup /|U|

Minimal support for er=0.1 and universe U of size 100000: 0.026*|U|

2594 objects

Minimal support for er=0.1 and universe U of size 10000: 0.21*|U|

2103 objects

Minimal support for er=0.1 and universe U of size 1000: 0.73*|U|

727 objects

Maximal relative error: er = 0.1

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8 0.85 0.9 0.95 1 Relative error: er

Minimal support: sup /|U|

Minimal support for er=0.1 and universe U of size 100000: 0.026*|U|

2594 objects

Minimal support for er=0.1 and universe U of size 10000: 0.21*|U|

2103 objects

Minimal support for er=0.1 and universe U of size 1000: 0.73*|U|

727 objects

Maximal relative error: er = 0.1

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8 0.85 0.9 0.95 1 Relative error: er

Minimal support: sup /|U|

Minimal support for er=0.1 and universe U of size 100000: 0.026*|U|

2594 objects

Minimal support for er=0.1 and universe U of size 10000: 0.21*|U|

2103 objects

Minimal support for er=0.1 and universe U of size 1000: 0.73*|U|

727 objects

Maximal relative error: er = 0.1

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8 0.85 0.9 0.95 1 Relative error: er

Minimal support: sup /|U|

Minimal support for er=0.1 and universe U of size 100000: 0.026*|U|

2594 objects

Minimal support for er=0.1 and universe U of size 10000: 0.21*|U|

2103 objects

Minimal support for er=0.1 and universe U of size 1000: 0.73*|U|

727 objects

Maximal relative error: er = 0.1

(24)

Wprowadzenie — reguły i ich ewaluacja Proponowane podejście Eksperymenty Podsumowanie

Dziedzina Analiza wrażliwości

Statystyczna reprezentatywność — wsparcie Statystyczna reprezentatywność — anty-wsparcie

Dolne i górne ograniczenia prawdziwej wartości parametru

0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

1, p2

|U|=104, lower

|U|=104, upper

|U|=105, lower

|U|=105, upper

|U|=106, lower

|U|=106, upper

(25)

Błąd względny

10 100 1000 10000 100000 1e+006 1e+007 1e+008 1e+009

0 0.5 1 1.5 2

Minimal universe size needed: |U|

Relative error: er

support/|U|= 1/3 support/|U|= 1/100 support/|U|=1/10000

Rysunek:Minimalny rozmiar zbioru danych potrzebny do sklasyfikowania reguły z danym wsparciem jako istotną.

(26)

Wprowadzenie — reguły i ich ewaluacja Proponowane podejście Eksperymenty Podsumowanie

Dziedzina Analiza wrażliwości

Statystyczna reprezentatywność — wsparcie Statystyczna reprezentatywność — anty-wsparcie

Statystyczna reprezentatywność — anty-wsparcie

Interpretacja statystyczna

Rozpatrzmy dowolną regułę asocjacyjną φ → ψ:

zbiór danych S = (U, A) stanowi próbę losową, każdy rekord w S zawiera formułę φ ∧ ¬ψ lub nie,

każdy rekord w S to realizacja zero-jedynkowej zmiennej losowej z parametrem p (|U| prób Bernoulliego),

obserwowana wartość wsparcia anti-sup(φ → ψ), to realizacja zmiennej o rozkładzie dwumianowym z parametrami |U| i p, parametr p, to prawdziwa (nieobserwowana) wartość

anty-wsparcia wynikająca z rozkładu, z którego S jest próbką.

(27)

Statystyczna reprezentatywność — anty-wsparcie

Estymacja punktowa anty-wsparcia ˆ

p = anti-sup(φ → ψ)

|U|

Przedział ufności dla anty-wsparcia p1= ˆp − Z

s ˆ p(1 − ˆp)

|U|

p2= ˆp + Z s

ˆ p(1 − ˆp)

|U|

P(p1¬ p ¬ p2) = 1 − α

(28)

Wprowadzenie — reguły i ich ewaluacja Proponowane podejście Eksperymenty Podsumowanie

Dziedzina Analiza wrażliwości

Statystyczna reprezentatywność — wsparcie Statystyczna reprezentatywność — anty-wsparcie

Statystyczna reprezentatywność — anty-wsparcie

Błąd względny

er= W

1 − ˆp = 2Z p|U|

s ˆ p 1 − ˆp W — szerokość przedziału ufności (W = p2− p1)

Miara maksymalnego odchylenia prawdziwej wartości 1 −anti-sup(φ→ψ)

|U| od wartości obserwowanej.

(29)

Statystyczna reprezentatywność — anty-wsparcie

Maksymalny błąd względny emax

emax — maksymalny akceptowalny błąd względny er

er jest ściśle rosnącą funkcją obserwowanego anty-wsparcia anti-sup(φ→ψ)

|U| = ˆp.

Maksymalne anty-wsparcie anti-supmax= e2e2max|U|

max|U|+4Z2

(30)

Wprowadzenie — reguły i ich ewaluacja Proponowane podejście Eksperymenty Podsumowanie

Dziedzina Analiza wrażliwości

Statystyczna reprezentatywność — wsparcie Statystyczna reprezentatywność — anty-wsparcie

Błąd względny jako funkcja obs. anty-wsparcia

0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8

Relative error: er

|U|= 1000

|U|= 10000

|U|=100000

0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8

Relative error: er

0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8

Relative error: er

0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8

Relative error: er

0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8

Relative error: er

0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8

Relative error: er

Maximal anti-support for er=0.1 and universe U of size 100000: 0.974*|U|

97406 objects

Maximal anti-support for er=0.1 and universe U of size 10000: 0.79*|U|

7897 objects

Maximal anti-support for er=0.1 and universe U of size 1000: 0.27*|U|

273 objects

0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8

Relative error: er

Maximal anti-support for er=0.1 and universe U of size 100000: 0.974*|U|

97406 objects

Maximal anti-support for er=0.1 and universe U of size 10000: 0.79*|U|

7897 objects

Maximal anti-support for er=0.1 and universe U of size 1000: 0.27*|U|

273 objects

0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8

Relative error: er

Maximal anti-support for er=0.1 and universe U of size 100000: 0.974*|U|

97406 objects

Maximal anti-support for er=0.1 and universe U of size 10000: 0.79*|U|

7897 objects

Maximal anti-support for er=0.1 and universe U of size 1000: 0.27*|U|

273 objects

0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8

Relative error: er

Maximal anti-support for er=0.1 and universe U of size 100000: 0.974*|U|

97406 objects

Maximal anti-support for er=0.1 and universe U of size 10000: 0.79*|U|

7897 objects

Maximal anti-support for er=0.1 and universe U of size 1000: 0.27*|U|

273 objects

0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8

Relative error: er

Maximal anti-support for er=0.1 and universe U of size 100000: 0.974*|U|

97406 objects

Maximal anti-support for er=0.1 and universe U of size 10000: 0.79*|U|

7897 objects

Maximal anti-support for er=0.1 and universe U of size 1000: 0.27*|U|

273 objects

0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8

Relative error: er

Maximal anti-support for er=0.1 and universe U of size 100000: 0.974*|U|

97406 objects

Maximal anti-support for er=0.1 and universe U of size 10000: 0.79*|U|

7897 objects Maximal anti-support for er=0.1 and universe U of size 1000: 0.27*|U|

273 objects

(31)

Zalety

1 Interpretacja er w porównaniu z progiem we wsparciu (anty-wsparciu).

2 Statystyczna reprezentatywność.

3 Monotoniczna zależność od wsparcia (anty-wsparcia).

(32)

Wprowadzenie — reguły i ich ewaluacja Proponowane podejście Eksperymenty Podsumowanie

Plan prezentacji

1 Wprowadzenie — reguły i ich ewaluacja

2 Proponowane podejście Dziedzina

Analiza wrażliwości

Statystyczna reprezentatywność — wsparcie Statystyczna reprezentatywność — anty-wsparcie

3 Eksperymenty

4 Podsumowanie

(33)

Cele

1 Czy statystyczna reprezentatywność zwiększa wartość predykcyjną?

2 Czy istnieje uniwersalna (domyślna) wartość błędu względnego?

(34)

Wprowadzenie — reguły i ich ewaluacja Proponowane podejście Eksperymenty Podsumowanie

Organizacja eksperymentu

generowanie zbiorów częstych i reguł asocjacyjnych (FP-growth), zbiory trenujący i testowy w stosunku 3 : 1,

10-krotny sub-sampling

Rysunek:Zbiory danych.

Zbiór Rozmiar (|U|) Rozmiar zbioru trenującego (23|U|)

Census 32561 21707

Chess 3196 2131

Mushroom 8124 5416

Retail 88162 58775

(35)

Organizacja eksperymentu

Średni błąd predykcyjny

err = 1

|Act|

X

(φ→ψ)∈Act

P(¬ψ|φ) = 1

|Act|

X

(φ→ψ)∈Act

sup(φ → ¬ψ) sup(φ)

Accuracy gain

gain =

1

|Act|

P

(φ→ψ)∈Act P(¬ψ)

1

|Act|

P

(φ→ψ)∈Act P(¬ψ|φ)

= P

(φ→ψ)∈Actsup(¬ψ)

|Utest|

P

(φ→ψ)∈Actsup(φ→¬ψ)

sup(φ)

(36)

Wprowadzenie — reguły i ich ewaluacja Proponowane podejście Eksperymenty Podsumowanie

Wyniki eksperymentu — błąd predykcyjny

Value of prediction error err (Census)

0.02[0.25] 0.025[0.33] 0.03[0.42] 0.035[0.5] 0.04[0.57] 0.045[0.62] 0.05[0.67] 0.055[0.71] 0.06[0.75] 0.065[0.78] 0.07[0.8] 0.075[0.82] 0.08[0.84] 0.085[0.86] 0.09[0.87]

emaxin anti-support[anti-supmax]

0.02[0.75]

0.025[0.66]

0.03[0.58]

0.035[0.50]

0.04[0.43]

0.045[0.37]

0.05[0.33]

0.055[0.29]

0.06[0.25]

0.065[0.22]

0.07[0.20]

0.075[0.18]

0.08[0.16]

0.085[0.14]

0.09[0.13]

emaxinsupport[supmax]

0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5

Value of prediction error err (Chess)

0.02[0.97]

0.025[0.95]

0.03[0.93]

0.035[0.91]

0.04[0.89]

0.045[0.86]

0.05[0.83]

ort[supmax]

0.02 0.03 0.04 0.05 0.06 0.07 0.08

Value of prediction error err (Retail)

0.01[0.18] 0.015[0.33] 0.02[0.47] 0.025[0.58] 0.03[0.67] 0.035[0.73] 0.04[0.78] 0.045[0.82] 0.05[0.85]

emaxin anti-support[anti-supmax]

0.04[0.21]

0.045[0.18]

0.05[0.15]

0.0550.06[0.13][0.11]

0.0650.07[0.10][0.08]

0.0750.08[0.07][0.07]

0.0850.09[0.06][0.05]

0.095[0.05]

0.1[0.04]

0.1050.11[0.04][0.04]

0.1150.12[0.03][0.03]

emaxinsupport[supmax]

0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65

Value of prediction error err (Mushroom)

0.0450.05[0.71][0.66]

0.0550.06[0.62][0.58]

0.0650.07[0.54][0.50]

0.0750.08[0.47][0.43]

0.0850.09[0.40][0.38]

0.0950.1[0.35][0.33]

0.1050.11[0.31][0.29]

ort[supmax]

0.1 0.15 0.2 0.25 0.3

(37)

Wyniki eksperymentu — Accuracy gain

Value of prediction accuracy gain gain (Census)

0.02[0.25] 0.025[0.33] 0.03[0.42] 0.035[0.5] 0.04[0.57] 0.045[0.62] 0.05[0.67] 0.055[0.71] 0.06[0.75] 0.065[0.78] 0.07[0.8] 0.075[0.82] 0.08[0.84] 0.085[0.86] 0.09[0.87]

emaxin anti-support[anti-supmax]

0.02[0.75]

0.025[0.66]

0.03[0.58]

0.035[0.50]

0.04[0.43]

0.045[0.37]

0.05[0.33]

0.055[0.29]

0.06[0.25]

0.065[0.22]

0.07[0.20]

0.075[0.18]

0.08[0.16]

0.085[0.14]

0.09[0.13]

emaxinsupport[supmax]

1 1.1 1.2 1.3 1.4 1.5 1.6 1.7

Value of prediction accuracy gain gain (Chess)

0.01[0.99] 0.015[0.98] 0.02[0.97] 0.025[0.95] 0.03[0.93] 0.035[0.91] 0.04[0.89] 0.045[0.86] 0.05[0.83]

emaxin anti-support[anti-supmax]

0.01[0.99]

0.015[0.98]

0.02[0.97]

0.025[0.95]

0.03[0.93]

0.035[0.91]

0.04[0.89]

0.045[0.86]

0.05[0.83]

emaxinsupport[supmax]

0.8 1 1.2 1.4 1.6 1.8 2 2.2 2.4

Value of prediction accuracy gain gain (Retail)

0.01[0.18] 0.015[0.33] 0.02[0.47] 0.025[0.58] 0.03[0.67] 0.035[0.73] 0.04[0.78] 0.045[0.82] 0.05[0.85]

emaxin anti-support[anti-supmax]

0.04[0.21]

0.045[0.18]

0.05[0.15]

0.0550.06[0.13][0.11]

0.0650.07[0.10][0.08]

0.0750.08[0.07][0.07]

0.0850.09[0.06][0.05]

0.095[0.05]

0.1[0.04]

0.1050.11[0.04][0.04]

0.1150.12[0.03][0.03]

emaxinsupport[supmax]

1.1 1.15 1.2 1.25 1.3 1.35 1.4 1.45 1.5

Value of prediction accuracy gain gain (Mushroom)

0.02[0.08] 0.025[0.11] 0.03[0.16] 0.035[0.2] 0.04[0.25] 0.045[0.29] 0.05[0.34] 0.055[0.38] 0.06[0.42] 0.065[0.46] 0.07[0.5] 0.075[0.53] 0.08[0.57] 0.085[0.6] 0.09[0.62] 0.095[0.65] 0.1[0.67] 0.105[0.69] 0.11[0.71]

emaxin anti-support[anti-supmax]

0.02[0.92]

0.0250.03[0.89][0.84]

0.0350.04[0.80][0.75]

0.0450.05[0.71][0.66]

0.0550.06[0.62][0.58]

0.0650.07[0.54][0.50]

0.0750.08[0.47][0.43]

0.0850.09[0.40][0.38]

0.0950.1[0.35][0.33]

0.1050.11[0.31][0.29]

emaxinsupport[supmax]

1 1.5 2 2.5 3 3.5 4 4.5 5

(38)

Wprowadzenie — reguły i ich ewaluacja Proponowane podejście Eksperymenty Podsumowanie

Wyniki eksperymentu

Value of average prediction error err

0.02 0.025 0.03 0.035 0.04 0.045 0.05

emaxin anti-support 0.02

0.025 0.03 0.035 0.04 0.045 0.05

emaxinsupport

0 0.2 0.4 0.6 0.8 1

Value of average prediction accuracy gain gain

0.02 0.025 0.03 0.035 0.04 0.045 0.05

emaxin anti-support 0.02

0.025 0.03 0.035 0.04 0.045 0.05

emaxinsupport

0 0.2 0.4 0.6 0.8 1

(39)

Plan prezentacji

1 Wprowadzenie — reguły i ich ewaluacja

2 Proponowane podejście Dziedzina

Analiza wrażliwości

Statystyczna reprezentatywność — wsparcie Statystyczna reprezentatywność — anty-wsparcie

3 Eksperymenty

4 Podsumowanie

(40)

Wprowadzenie — reguły i ich ewaluacja Proponowane podejście Eksperymenty Podsumowanie

Wnioski

1 Błąd względny jest kryterium kosztowym.

2 Wzrost statystycznej reprezentatywności skutkuje mniejszym błędem predykcyjnym.

3 Próg w błędzie względnym jest bardziej intuicyjny i uniwersalny niż we wsparciu (anty-wsparciu).

(41)

Co dalej?

1 Statystyczna istotność konfirmacji.

2 Odniesienie miar korelacji / statystycznej istotności konfirmacji do własności M / symetrii.

(42)

Wprowadzenie — reguły i ich ewaluacja Proponowane podejście Eksperymenty Podsumowanie

Dziękuję za uwagę.

(43)

Wybrana bibliografia

Rakesh Agrawal, Tomasz Imieliński, and Arun Swami.

Mining association rules between sets of items in large databases.

SIGMOD Rec., 22:207–216, June 1993.

Izabela Brzezińska, Salvatore Greco, and Roman Słowiński.

Mining pareto-optimal rules with respect to support and confirmation or support and anti-support.

Eng. Appl. Artif. Intell., 20:587–600, August 2007.

Izabela Szczęch.

Multicriteria attractiveness evaluation of decision and association rules.

T. Rough Sets, 10:197–274, 2009.

Cytaty

Powiązane dokumenty

84) na ośrodek przezroczysty o współczynniku załamania zależnym od zmiennej y, w punkcie y = 0, pod kątem prostym pada promień światła – rysunek 21.. Rozpatrzmy promień

Przyjmujemy, że wózek podczas ruchu po pochylni i po torze poziomym nie doznaje siły tarcia i że ruch wahadła na ruch wózka nie ma praktycznie żadnego wpływu (wózek

∗ Noc polarna i dzień polarny występują na czubkach Ziemi tych najbardziej zlodowaciałych, dlatego, że Słońce co pół roku zmienia tam miejsce.. ∗ 21 marca nasz

Zator lodowy wysadzono dynamitem; ktoś, znajdujący się na rzece w odległości 3·6 km, uczuje najpierw wstrząśnienie a potem usłyszy huk. W jakim odstępie czasu odbierze

Zadania proszę robić w zeszycie przedmiotowym, jak wrócimy do normalnych lekcji, to do tych zadań jak trzeba będzie to się cofniemy (nie przesyłajcie mi rozwiązań zadań ze

Oblicz stosunek pola powierzchni tej sfery do pola powierzchni sfery opisanej na graniastos

Zatem liczba mo˙zliwo´sci jest r´ owna liczbie n-elementowych wariacji z powt´ orzeniami ze zbioru [k] czyli k n.. Przypadek 2: cz¸ e´ sci rozr´ o ˙znialne, obiekty nierozr´

Na ile sposob´ow mo˙zna podzieli´c 5 kanapek na 3 nierozr´o˙znialne talerze przy czy na ka˙zdym talerzu mo˙ze by´c dowolna liczba kanapek (w l¸acznie z zerem) oraz a) kanapki