Generowanie zbioru reguł asocjacyjnych i de- cyzyjnych ze statystycznie reprezentatywnym
wsparciem i anty-wsparciem
Aleksander Wieczorek
Opiekun naukowy: prof. dr hab. inż. Roman Słowiński
Poznań, 30 października 2012
Wprowadzenie — reguły i ich ewaluacja Proponowane podejście Eksperymenty Podsumowanie
Spis treści
1 Wprowadzenie — reguły i ich ewaluacja
2 Proponowane podejście Dziedzina
Analiza wrażliwości
Statystyczna reprezentatywność — wsparcie Statystyczna reprezentatywność — anty-wsparcie
3 Eksperymenty
4 Podsumowanie
Plan prezentacji
1 Wprowadzenie — reguły i ich ewaluacja
2 Proponowane podejście Dziedzina
Analiza wrażliwości
Statystyczna reprezentatywność — wsparcie Statystyczna reprezentatywność — anty-wsparcie
3 Eksperymenty
4 Podsumowanie
Wprowadzenie — reguły i ich ewaluacja Proponowane podejście Eksperymenty Podsumowanie
Podstawowe definicje
Zbiór danych S = (U, A)
Reguła asocjacyjna
Para formuł (φ, ψ) połączonych relacją konsekwencji „→”: φ → ψ [Pieluszki = tak i Czas = popołudnie] → [Piwo > 2]
Reguła decyzyjna
Reguła asocjacyjna, gdzie ψ = const.
Podstawowe definicje
Miara atrakcyjności
Funkcja F określona na zbiorze RSreguł φ → ψ wyindukowanych z S:
F : RS7→ R Przykłady:
sup(φ → ψ), anti-sup(φ → ψ),
conf(φ → ψ) = sup(φ→ψ)
sup(φ) ,
f(φ → ψ) = conf(ψ→φ)−conf(¬ψ→φ)
conf(ψ→φ)+conf(¬ψ→φ).
Wprowadzenie — reguły i ich ewaluacja Proponowane podejście Eksperymenty Podsumowanie
Podstawowe definicje
Notacja
Większość miar atrakcyjności może być wyrażona za pomocą:
a = sup(φ → ψ), b = sup(¬φ → ψ),
c = sup(φ → ¬ψ) = anti-sup(φ → ψ), d = sup(¬φ → ¬ψ).
Przykłady
sup(φ → ψ) = a, anti-sup(φ → ψ) = c,
Własność miary atrakcyjności
Warunki nałożone na funkcję F (miarę atrakcyjności).
Własność konfirmacji Bayesa
F(φ → ψ)
> 0 dla conf(φ → ψ) >sup(ψ)
|U| (P(ψ|φ) > P(ψ)),
= 0 dla conf(φ → ψ) =sup(ψ)
|U| (P(ψ|φ) = P(ψ)),
< 0 dla conf(φ → ψ) <sup(ψ)
|U| (P(ψ|φ) < P(ψ)).
Własności symetrii
evidence symmetry (ES): F(φ → ψ) = −F(¬φ → ψ), commutativity symmetry (CS): F(φ → ψ) = F(ψ → φ), hypothesis symmetry (HS): F(φ → ψ) = −F(φ → ¬ψ), total symmetry (TS): F(φ → ψ) = −F(¬φ → ¬ψ).
Wprowadzenie — reguły i ich ewaluacja Proponowane podejście Eksperymenty Podsumowanie
Podstawowe definicje
Własność M
Miary o charakterze zysku:
niemalejąca ze wzgl. na a = sup(φ → ψ), nierosnąca ze wzgl. na b = sup(¬φ → ψ), nierosnąca ze wzgl. na c = sup(φ → ¬ψ), niemalejąca ze wzgl. na d = sup(¬φ → ¬ψ).
Miary o charakterze kosztu:
nierosnąca ze wzgl. na a = sup(φ → ψ), niemalejąca ze wzgl. na b = sup(¬φ → ψ),
Płaszczyzny ewaluacji
Wsparcie — pewność [AIS93]
Zbiór Pareto-optymalny zawiera reguły optymalne ze względu na wiele innych miar.
Wsparcie — f [Szc09]
Zbiór Pareto-optymalny zawiera te same reguły co zbiór Pareto-optymalny w poprzednim przypadku.
Wsparcie — anty-wsparcie [BGS07]
Zbiór Pareto-optymalny zawiera wszystkie reguły ze zbioru Pareto-optymalnego w przypadku pierwszym oraz reguły optymalizujące dowolną miarę z własnością M.
Wprowadzenie — reguły i ich ewaluacja Proponowane podejście Eksperymenty Podsumowanie
Statystyczna reprezentatywność
Testowanie wielokrotne
κ — poziom istotności pojedynczego testu, n — liczba testów
1 − (1 − κ)n — prawdopodobieństwo popełnienia błędu typu I
Pojedyncze test statystyczne
korelacja (niezależność χ2, test Fishera), minimalne wsparcie (test dwumianowy).
Plan prezentacji
1 Wprowadzenie — reguły i ich ewaluacja
2 Proponowane podejście Dziedzina
Analiza wrażliwości
Statystyczna reprezentatywność — wsparcie Statystyczna reprezentatywność — anty-wsparcie
3 Eksperymenty
4 Podsumowanie
Wprowadzenie — reguły i ich ewaluacja Proponowane podejście Eksperymenty Podsumowanie
Dziedzina Analiza wrażliwości
Statystyczna reprezentatywność — wsparcie Statystyczna reprezentatywność — anty-wsparcie
Założenia i cele
1 Płaszczyzna wsparcie — anty-wsparcie.
2 Statystyczna ocena parametrów.
3 Automatyczne dobieranie progów.
Wsparcie — anty-wsparcie i dziedzina Q
0 0.2 0.4 0.6 0.8 1
0 0.2 0.4 0.6 0.8 1
Anti-support related to the universe U
Support related to the universe U Minimum support threshold
Maximum anti-support threshold Pareto-optimal border
Positive confirmation values
Q
0 0.2 0.4 0.6 0.8 1
0 0.2 0.4 0.6 0.8 1
Anti-support related to the universe U
Support related to the universe U Minimum support threshold
Maximum anti-support threshold Pareto-optimal border
Positive confirmation values
Q
0 0.2 0.4 0.6 0.8 1
0 0.2 0.4 0.6 0.8 1
Anti-support related to the universe U
Support related to the universe U Minimum support threshold
Maximum anti-support threshold Pareto-optimal border
Positive confirmation values
Q
0 0.2 0.4 0.6 0.8 1
0 0.2 0.4 0.6 0.8 1
Anti-support related to the universe U
Support related to the universe U Minimum support threshold
Maximum anti-support threshold Pareto-optimal border
Positive confirmation values
Q
0 0.2 0.4 0.6 0.8 1
0 0.2 0.4 0.6 0.8 1
Anti-support related to the universe U
Support related to the universe U Minimum support threshold
Maximum anti-support threshold Pareto-optimal border
Positive confirmation values
Q
0 0.2 0.4 0.6 0.8 1
0 0.2 0.4 0.6 0.8 1
Anti-support related to the universe U
Support related to the universe U Minimum support threshold
Maximum anti-support threshold Pareto-optimal border
Positive confirmation values
Q
0 0.2 0.4 0.6 0.8 1
0 0.2 0.4 0.6 0.8 1
Anti-support related to the universe U
Support related to the universe U Minimum support threshold
Maximum anti-support threshold Pareto-optimal border
Positive confirmation values
Q
Wprowadzenie — reguły i ich ewaluacja Proponowane podejście Eksperymenty Podsumowanie
Dziedzina Analiza wrażliwości
Statystyczna reprezentatywność — wsparcie Statystyczna reprezentatywność — anty-wsparcie
Postać dziedziny
Na pojedynczej płaszczyźnie wsparcie — anty-wsparcie rozpatrywane są reguły o stałym następniku (ψ = const.).
Ograniczenia:
sup(φ → ψ) + sup(¬φ → ψ) + sup(φ → ¬ψ) + sup(¬φ → ¬ψ) =
|U| = const.
sup(ψ) = sup(φ → ψ) + sup(¬φ → ψ) = const.
Parametr q opisujący klasę decyzyjną q =|U|−sup(ψ)
sup(ψ)
Dziedziny dla różnych wartości parametru q
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Anti-supportrelatedtotheuniverseU:anti-sup(φ→ψ) |U|
Support related to the universe U:sup(φ→ψ)
|U|
sup(φ→ψ)
|U| +anti-sup(φ→ψ)
|U| = 1
No rules beyond this line q=4
q=1
q=0.25
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Anti-supportrelatedtotheuniverseU:anti-sup(φ→ψ) |U|
Support related to the universe U:sup(φ→ψ)
|U|
sup(φ→ψ)
|U| +anti-sup(φ→ψ)
|U| = 1
No rules beyond this line q=4
q=1
q=0.25
Wprowadzenie — reguły i ich ewaluacja Proponowane podejście Eksperymenty Podsumowanie
Dziedzina Analiza wrażliwości
Statystyczna reprezentatywność — wsparcie Statystyczna reprezentatywność — anty-wsparcie
Analiza wrażliwości
Motywacja
Jak zmiany w progach na wsparcie i anty-wsparcie wpływają na wartość miary f?
Obszary dużej wrażliwości f = 0,
duże klasy decyzyjne,
małe wartości wsparcia i anty-wsparcia.
Analiza wrażliwości
Isoquants of f 1 0.5 0 -0.5
0 0.2 0.4 0.6 0.8 1
sup(φ→ψ)
|U|
0 0.2 0.4 0.6 0.8 1
anti-sup(φ→ψ) |U|
-1 -0.5
0 0.5 1
Rysunek:q = |U|−sup(ψ)
sup(ψ) = 0.25
Isoquants of f 1 0.5 0 -0.5
0 0.2 0.4 0.6 0.8 1
sup(φ→ψ)
|U|
0 0.2 0.4 0.6 0.8 1
anti-sup(φ→ψ) |U|
-1 -0.5
0 0.5 1
Rysunek:q = |U|−sup(ψ)
sup(ψ) = 1
Wprowadzenie — reguły i ich ewaluacja Proponowane podejście Eksperymenty Podsumowanie
Dziedzina Analiza wrażliwości
Statystyczna reprezentatywność — wsparcie Statystyczna reprezentatywność — anty-wsparcie
Statystyczna reprezentatywność — wsparcie
Interpretacja statystyczna
Rozpatrzmy dowolną regułę asocjacyjną φ → ψ:
zbiór danych S = (U, A) stanowi próbę losową, każdy rekord w S zawiera formułę φ ∧ ψ lub nie,
każdy rekord w S to realizacja zero-jedynkowej zmiennej losowej z parametrem p (|U| prób Bernoulliego),
obserwowana wartość wsparcia sup(φ → ψ), to realizacja zmiennej o rozkładzie dwumianowym z parametrami |U| i p, parametr p, to prawdziwa (nieobserwowana) wartość wsparcia wynikająca z rozkładu, z którego S jest próbką.
Statystyczna reprezentatywność — wsparcie
Estymacja punktowa wsparcia ˆ
p = sup(φ → ψ)
|U|
Przedział ufności dla wsparcia p1= ˆp − Z
s ˆ p(1 − ˆp)
|U|
p2= ˆp + Z s
ˆ p(1 − ˆp)
|U|
P(p1¬ p ¬ p2) = 1 − α
Wprowadzenie — reguły i ich ewaluacja Proponowane podejście Eksperymenty Podsumowanie
Dziedzina Analiza wrażliwości
Statystyczna reprezentatywność — wsparcie Statystyczna reprezentatywność — anty-wsparcie
Przedział ufności
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Observed value of the parameter p (supmin/|U|) Lower bound of the confidence interval Upper bound of the confidence interval
Width W of the confidence interval p
p1 p2
Statystyczna reprezentatywność — wsparcie
Błąd względny
er= W ˆ
p = 2Z p|U|
s 1 − ˆp
ˆ p W — szerokość przedziału ufności (W = p2− p1)
Miara maksymalnego odchylenia prawdziwej wartości wsparcia od wartości obserwowanej.
Wprowadzenie — reguły i ich ewaluacja Proponowane podejście Eksperymenty Podsumowanie
Dziedzina Analiza wrażliwości
Statystyczna reprezentatywność — wsparcie Statystyczna reprezentatywność — anty-wsparcie
Statystyczna reprezentatywność — wsparcie
Maksymalny błąd względny emax
emax — maksymalny akceptowalny błąd względny er
er jest ściśle malejącą funkcją obserwowanego wsparcia sup(φ→ψ)
|U| = ˆp.
Minimalne wsparcie supmin=e2 4Z2
max|U|+4Z2
Błąd względny jako funkcja zaobserwowanego wsparcia
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8 0.85 0.9 0.95 1 Relative error: er
Minimal support: sup /|U|
|U|= 1000
|U|= 10000
|U|=100000
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8 0.85 0.9 0.95 1 Relative error: er
Minimal support: sup /|U|
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8 0.85 0.9 0.95 1 Relative error: er
Minimal support: sup /|U|
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8 0.85 0.9 0.95 1 Relative error: er
Minimal support: sup /|U|
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8 0.85 0.9 0.95 1 Relative error: er
Minimal support: sup /|U|
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8 0.85 0.9 0.95 1 Relative error: er
Minimal support: sup /|U|
Minimal support for er=0.1 and universe U of size 100000: 0.026*|U|
2594 objects
Minimal support for er=0.1 and universe U of size 10000: 0.21*|U|
2103 objects
Minimal support for er=0.1 and universe U of size 1000: 0.73*|U|
727 objects
Maximal relative error: er = 0.1
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8 0.85 0.9 0.95 1 Relative error: er
Minimal support: sup /|U|
Minimal support for er=0.1 and universe U of size 100000: 0.026*|U|
2594 objects
Minimal support for er=0.1 and universe U of size 10000: 0.21*|U|
2103 objects
Minimal support for er=0.1 and universe U of size 1000: 0.73*|U|
727 objects
Maximal relative error: er = 0.1
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8 0.85 0.9 0.95 1 Relative error: er
Minimal support: sup /|U|
Minimal support for er=0.1 and universe U of size 100000: 0.026*|U|
2594 objects
Minimal support for er=0.1 and universe U of size 10000: 0.21*|U|
2103 objects
Minimal support for er=0.1 and universe U of size 1000: 0.73*|U|
727 objects
Maximal relative error: er = 0.1
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8 0.85 0.9 0.95 1 Relative error: er
Minimal support: sup /|U|
Minimal support for er=0.1 and universe U of size 100000: 0.026*|U|
2594 objects
Minimal support for er=0.1 and universe U of size 10000: 0.21*|U|
2103 objects
Minimal support for er=0.1 and universe U of size 1000: 0.73*|U|
727 objects
Maximal relative error: er = 0.1
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8 0.85 0.9 0.95 1 Relative error: er
Minimal support: sup /|U|
Minimal support for er=0.1 and universe U of size 100000: 0.026*|U|
2594 objects
Minimal support for er=0.1 and universe U of size 10000: 0.21*|U|
2103 objects
Minimal support for er=0.1 and universe U of size 1000: 0.73*|U|
727 objects
Maximal relative error: er = 0.1
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8 0.85 0.9 0.95 1 Relative error: er
Minimal support: sup /|U|
Minimal support for er=0.1 and universe U of size 100000: 0.026*|U|
2594 objects
Minimal support for er=0.1 and universe U of size 10000: 0.21*|U|
2103 objects
Minimal support for er=0.1 and universe U of size 1000: 0.73*|U|
727 objects
Maximal relative error: er = 0.1
Wprowadzenie — reguły i ich ewaluacja Proponowane podejście Eksperymenty Podsumowanie
Dziedzina Analiza wrażliwości
Statystyczna reprezentatywność — wsparcie Statystyczna reprezentatywność — anty-wsparcie
Dolne i górne ograniczenia prawdziwej wartości parametru
0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
1, p2
|U|=104, lower
|U|=104, upper
|U|=105, lower
|U|=105, upper
|U|=106, lower
|U|=106, upper
Błąd względny
10 100 1000 10000 100000 1e+006 1e+007 1e+008 1e+009
0 0.5 1 1.5 2
Minimal universe size needed: |U|
Relative error: er
support/|U|= 1/3 support/|U|= 1/100 support/|U|=1/10000
Rysunek:Minimalny rozmiar zbioru danych potrzebny do sklasyfikowania reguły z danym wsparciem jako istotną.
Wprowadzenie — reguły i ich ewaluacja Proponowane podejście Eksperymenty Podsumowanie
Dziedzina Analiza wrażliwości
Statystyczna reprezentatywność — wsparcie Statystyczna reprezentatywność — anty-wsparcie
Statystyczna reprezentatywność — anty-wsparcie
Interpretacja statystyczna
Rozpatrzmy dowolną regułę asocjacyjną φ → ψ:
zbiór danych S = (U, A) stanowi próbę losową, każdy rekord w S zawiera formułę φ ∧ ¬ψ lub nie,
każdy rekord w S to realizacja zero-jedynkowej zmiennej losowej z parametrem p (|U| prób Bernoulliego),
obserwowana wartość wsparcia anti-sup(φ → ψ), to realizacja zmiennej o rozkładzie dwumianowym z parametrami |U| i p, parametr p, to prawdziwa (nieobserwowana) wartość
anty-wsparcia wynikająca z rozkładu, z którego S jest próbką.
Statystyczna reprezentatywność — anty-wsparcie
Estymacja punktowa anty-wsparcia ˆ
p = anti-sup(φ → ψ)
|U|
Przedział ufności dla anty-wsparcia p1= ˆp − Z
s ˆ p(1 − ˆp)
|U|
p2= ˆp + Z s
ˆ p(1 − ˆp)
|U|
P(p1¬ p ¬ p2) = 1 − α
Wprowadzenie — reguły i ich ewaluacja Proponowane podejście Eksperymenty Podsumowanie
Dziedzina Analiza wrażliwości
Statystyczna reprezentatywność — wsparcie Statystyczna reprezentatywność — anty-wsparcie
Statystyczna reprezentatywność — anty-wsparcie
Błąd względny
er= W
1 − ˆp = 2Z p|U|
s ˆ p 1 − ˆp W — szerokość przedziału ufności (W = p2− p1)
Miara maksymalnego odchylenia prawdziwej wartości 1 −anti-sup(φ→ψ)
|U| od wartości obserwowanej.
Statystyczna reprezentatywność — anty-wsparcie
Maksymalny błąd względny emax
emax — maksymalny akceptowalny błąd względny er
er jest ściśle rosnącą funkcją obserwowanego anty-wsparcia anti-sup(φ→ψ)
|U| = ˆp.
Maksymalne anty-wsparcie anti-supmax= e2e2max|U|
max|U|+4Z2
Wprowadzenie — reguły i ich ewaluacja Proponowane podejście Eksperymenty Podsumowanie
Dziedzina Analiza wrażliwości
Statystyczna reprezentatywność — wsparcie Statystyczna reprezentatywność — anty-wsparcie
Błąd względny jako funkcja obs. anty-wsparcia
0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8
Relative error: er
|U|= 1000
|U|= 10000
|U|=100000
0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8
Relative error: er
0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8
Relative error: er
0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8
Relative error: er
0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8
Relative error: er
0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8
Relative error: er
Maximal anti-support for er=0.1 and universe U of size 100000: 0.974*|U|
97406 objects
Maximal anti-support for er=0.1 and universe U of size 10000: 0.79*|U|
7897 objects
Maximal anti-support for er=0.1 and universe U of size 1000: 0.27*|U|
273 objects
0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8
Relative error: er
Maximal anti-support for er=0.1 and universe U of size 100000: 0.974*|U|
97406 objects
Maximal anti-support for er=0.1 and universe U of size 10000: 0.79*|U|
7897 objects
Maximal anti-support for er=0.1 and universe U of size 1000: 0.27*|U|
273 objects
0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8
Relative error: er
Maximal anti-support for er=0.1 and universe U of size 100000: 0.974*|U|
97406 objects
Maximal anti-support for er=0.1 and universe U of size 10000: 0.79*|U|
7897 objects
Maximal anti-support for er=0.1 and universe U of size 1000: 0.27*|U|
273 objects
0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8
Relative error: er
Maximal anti-support for er=0.1 and universe U of size 100000: 0.974*|U|
97406 objects
Maximal anti-support for er=0.1 and universe U of size 10000: 0.79*|U|
7897 objects
Maximal anti-support for er=0.1 and universe U of size 1000: 0.27*|U|
273 objects
0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8
Relative error: er
Maximal anti-support for er=0.1 and universe U of size 100000: 0.974*|U|
97406 objects
Maximal anti-support for er=0.1 and universe U of size 10000: 0.79*|U|
7897 objects
Maximal anti-support for er=0.1 and universe U of size 1000: 0.27*|U|
273 objects
0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8
Relative error: er
Maximal anti-support for er=0.1 and universe U of size 100000: 0.974*|U|
97406 objects
Maximal anti-support for er=0.1 and universe U of size 10000: 0.79*|U|
7897 objects Maximal anti-support for er=0.1 and universe U of size 1000: 0.27*|U|
273 objects
Zalety
1 Interpretacja er w porównaniu z progiem we wsparciu (anty-wsparciu).
2 Statystyczna reprezentatywność.
3 Monotoniczna zależność od wsparcia (anty-wsparcia).
Wprowadzenie — reguły i ich ewaluacja Proponowane podejście Eksperymenty Podsumowanie
Plan prezentacji
1 Wprowadzenie — reguły i ich ewaluacja
2 Proponowane podejście Dziedzina
Analiza wrażliwości
Statystyczna reprezentatywność — wsparcie Statystyczna reprezentatywność — anty-wsparcie
3 Eksperymenty
4 Podsumowanie
Cele
1 Czy statystyczna reprezentatywność zwiększa wartość predykcyjną?
2 Czy istnieje uniwersalna (domyślna) wartość błędu względnego?
Wprowadzenie — reguły i ich ewaluacja Proponowane podejście Eksperymenty Podsumowanie
Organizacja eksperymentu
generowanie zbiorów częstych i reguł asocjacyjnych (FP-growth), zbiory trenujący i testowy w stosunku 3 : 1,
10-krotny sub-sampling
Rysunek:Zbiory danych.
Zbiór Rozmiar (|U|) Rozmiar zbioru trenującego (23|U|)
Census 32561 21707
Chess 3196 2131
Mushroom 8124 5416
Retail 88162 58775
Organizacja eksperymentu
Średni błąd predykcyjny
err = 1
|Act|
X
(φ→ψ)∈Act
P(¬ψ|φ) = 1
|Act|
X
(φ→ψ)∈Act
sup(φ → ¬ψ) sup(φ)
Accuracy gain
gain =
1
|Act|
P
(φ→ψ)∈Act P(¬ψ)
1
|Act|
P
(φ→ψ)∈Act P(¬ψ|φ)
= P
(φ→ψ)∈Actsup(¬ψ)
|Utest|
P
(φ→ψ)∈Actsup(φ→¬ψ)
sup(φ)
Wprowadzenie — reguły i ich ewaluacja Proponowane podejście Eksperymenty Podsumowanie
Wyniki eksperymentu — błąd predykcyjny
Value of prediction error err (Census)
0.02[0.25] 0.025[0.33] 0.03[0.42] 0.035[0.5] 0.04[0.57] 0.045[0.62] 0.05[0.67] 0.055[0.71] 0.06[0.75] 0.065[0.78] 0.07[0.8] 0.075[0.82] 0.08[0.84] 0.085[0.86] 0.09[0.87]
emaxin anti-support[anti-supmax]
0.02[0.75]
0.025[0.66]
0.03[0.58]
0.035[0.50]
0.04[0.43]
0.045[0.37]
0.05[0.33]
0.055[0.29]
0.06[0.25]
0.065[0.22]
0.07[0.20]
0.075[0.18]
0.08[0.16]
0.085[0.14]
0.09[0.13]
emaxinsupport[supmax]
0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5
Value of prediction error err (Chess)
0.02[0.97]
0.025[0.95]
0.03[0.93]
0.035[0.91]
0.04[0.89]
0.045[0.86]
0.05[0.83]
ort[supmax]
0.02 0.03 0.04 0.05 0.06 0.07 0.08
Value of prediction error err (Retail)
0.01[0.18] 0.015[0.33] 0.02[0.47] 0.025[0.58] 0.03[0.67] 0.035[0.73] 0.04[0.78] 0.045[0.82] 0.05[0.85]
emaxin anti-support[anti-supmax]
0.04[0.21]
0.045[0.18]
0.05[0.15]
0.0550.06[0.13][0.11]
0.0650.07[0.10][0.08]
0.0750.08[0.07][0.07]
0.0850.09[0.06][0.05]
0.095[0.05]
0.1[0.04]
0.1050.11[0.04][0.04]
0.1150.12[0.03][0.03]
emaxinsupport[supmax]
0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65
Value of prediction error err (Mushroom)
0.0450.05[0.71][0.66]
0.0550.06[0.62][0.58]
0.0650.07[0.54][0.50]
0.0750.08[0.47][0.43]
0.0850.09[0.40][0.38]
0.0950.1[0.35][0.33]
0.1050.11[0.31][0.29]
ort[supmax]
0.1 0.15 0.2 0.25 0.3
Wyniki eksperymentu — Accuracy gain
Value of prediction accuracy gain gain (Census)
0.02[0.25] 0.025[0.33] 0.03[0.42] 0.035[0.5] 0.04[0.57] 0.045[0.62] 0.05[0.67] 0.055[0.71] 0.06[0.75] 0.065[0.78] 0.07[0.8] 0.075[0.82] 0.08[0.84] 0.085[0.86] 0.09[0.87]
emaxin anti-support[anti-supmax]
0.02[0.75]
0.025[0.66]
0.03[0.58]
0.035[0.50]
0.04[0.43]
0.045[0.37]
0.05[0.33]
0.055[0.29]
0.06[0.25]
0.065[0.22]
0.07[0.20]
0.075[0.18]
0.08[0.16]
0.085[0.14]
0.09[0.13]
emaxinsupport[supmax]
1 1.1 1.2 1.3 1.4 1.5 1.6 1.7
Value of prediction accuracy gain gain (Chess)
0.01[0.99] 0.015[0.98] 0.02[0.97] 0.025[0.95] 0.03[0.93] 0.035[0.91] 0.04[0.89] 0.045[0.86] 0.05[0.83]
emaxin anti-support[anti-supmax]
0.01[0.99]
0.015[0.98]
0.02[0.97]
0.025[0.95]
0.03[0.93]
0.035[0.91]
0.04[0.89]
0.045[0.86]
0.05[0.83]
emaxinsupport[supmax]
0.8 1 1.2 1.4 1.6 1.8 2 2.2 2.4
Value of prediction accuracy gain gain (Retail)
0.01[0.18] 0.015[0.33] 0.02[0.47] 0.025[0.58] 0.03[0.67] 0.035[0.73] 0.04[0.78] 0.045[0.82] 0.05[0.85]
emaxin anti-support[anti-supmax]
0.04[0.21]
0.045[0.18]
0.05[0.15]
0.0550.06[0.13][0.11]
0.0650.07[0.10][0.08]
0.0750.08[0.07][0.07]
0.0850.09[0.06][0.05]
0.095[0.05]
0.1[0.04]
0.1050.11[0.04][0.04]
0.1150.12[0.03][0.03]
emaxinsupport[supmax]
1.1 1.15 1.2 1.25 1.3 1.35 1.4 1.45 1.5
Value of prediction accuracy gain gain (Mushroom)
0.02[0.08] 0.025[0.11] 0.03[0.16] 0.035[0.2] 0.04[0.25] 0.045[0.29] 0.05[0.34] 0.055[0.38] 0.06[0.42] 0.065[0.46] 0.07[0.5] 0.075[0.53] 0.08[0.57] 0.085[0.6] 0.09[0.62] 0.095[0.65] 0.1[0.67] 0.105[0.69] 0.11[0.71]
emaxin anti-support[anti-supmax]
0.02[0.92]
0.0250.03[0.89][0.84]
0.0350.04[0.80][0.75]
0.0450.05[0.71][0.66]
0.0550.06[0.62][0.58]
0.0650.07[0.54][0.50]
0.0750.08[0.47][0.43]
0.0850.09[0.40][0.38]
0.0950.1[0.35][0.33]
0.1050.11[0.31][0.29]
emaxinsupport[supmax]
1 1.5 2 2.5 3 3.5 4 4.5 5
Wprowadzenie — reguły i ich ewaluacja Proponowane podejście Eksperymenty Podsumowanie
Wyniki eksperymentu
Value of average prediction error err
0.02 0.025 0.03 0.035 0.04 0.045 0.05
emaxin anti-support 0.02
0.025 0.03 0.035 0.04 0.045 0.05
emaxinsupport
0 0.2 0.4 0.6 0.8 1
Value of average prediction accuracy gain gain
0.02 0.025 0.03 0.035 0.04 0.045 0.05
emaxin anti-support 0.02
0.025 0.03 0.035 0.04 0.045 0.05
emaxinsupport
0 0.2 0.4 0.6 0.8 1
Plan prezentacji
1 Wprowadzenie — reguły i ich ewaluacja
2 Proponowane podejście Dziedzina
Analiza wrażliwości
Statystyczna reprezentatywność — wsparcie Statystyczna reprezentatywność — anty-wsparcie
3 Eksperymenty
4 Podsumowanie
Wprowadzenie — reguły i ich ewaluacja Proponowane podejście Eksperymenty Podsumowanie
Wnioski
1 Błąd względny jest kryterium kosztowym.
2 Wzrost statystycznej reprezentatywności skutkuje mniejszym błędem predykcyjnym.
3 Próg w błędzie względnym jest bardziej intuicyjny i uniwersalny niż we wsparciu (anty-wsparciu).
Co dalej?
1 Statystyczna istotność konfirmacji.
2 Odniesienie miar korelacji / statystycznej istotności konfirmacji do własności M / symetrii.
Wprowadzenie — reguły i ich ewaluacja Proponowane podejście Eksperymenty Podsumowanie
Dziękuję za uwagę.
Wybrana bibliografia
Rakesh Agrawal, Tomasz Imieliński, and Arun Swami.
Mining association rules between sets of items in large databases.
SIGMOD Rec., 22:207–216, June 1993.
Izabela Brzezińska, Salvatore Greco, and Roman Słowiński.
Mining pareto-optimal rules with respect to support and confirmation or support and anti-support.
Eng. Appl. Artif. Intell., 20:587–600, August 2007.
Izabela Szczęch.
Multicriteria attractiveness evaluation of decision and association rules.
T. Rough Sets, 10:197–274, 2009.