slajdy

(1)

Data mining

Nguyen Hung Son

Dane transakcyjne Regu ly asocjacyjne Szukanie Ulepszenie algorytmu Apriori FP-tree

REGU LY ASOCJACYJNE

Nguyen Hung Son

Wydzia l Matematyki, Informatyki i Mechaniki Uniwersytet Warszawski

(2)

Data mining

Nguyen Hung Son

Outline

1 _{Dane transakcyjne} 2 Regu ly asocjacyjne

3 Szukanie regu l asocjacyjnych

4 Ulepszenie algorytmu Apriori

(3)

Data mining

Nguyen Hung Son

Motywacje

Lista autor´ow (items)

A Jane Austen C Agatha Christie

D Sir Arthur Conan Doyle T Mark Twain

W G. Wodehouse

Transakcje

TID Kupione ksia˙zki_,

10 A C T W 20 C D W 30 A C T W 40 A C D W 50 A C D T W 60 C D T

Znajd´z wzorce zachowa´n klient´ow., np.

Co jest czesto kupopwane? (modne?, sezonowe?)_, Kt´ore tytu ly sa kupione razem?_,

Co robi´c, aby przyciaga´_, c klient´ow? ...

(4)

Data mining

Nguyen Hung Son

W jakiej formie wyrazi´

c wzorzec

zachowa´

n klient´

ow?

macierz kolokacji: A C D T W A 4 4 2 3 4 C 4 6 4 4 5 D 2 4 4 2 W T 3 4 2 4 W W 4 5 3 3 5 Regu ly A =⇒ C, C =⇒ W , AC =⇒ T , T =⇒ ACW .

(5)

Data mining

Nguyen Hung Son

Outline

1 Dane transakcyjne 2 _{Regu ly asocjacyjne}

(6)

Data mining

Nguyen Hung Son

Regu ly asocjacyjne

Podstawowe oznaczenia

Pozycje (ang. items) opisuja dost_, epne towary. Zak lada_, sie, ˙ze zbiorem wszystkich towar´_, ow jest

I = {i1, i2, ..., im} (items)

baza transakcji D = {(tid1, T1), (tid2, T2)...} zawiera

transakcje jako pary (tidj, Tj), gdzie:

- tidj : unikalny identyfikator

- Tj ⊂ I : zbi´or zakupionych towar´ow .

itemset: ka˙zdy podzbiór zbioru towarów I; k-itemset: podzbiór o k elementach.

(7)

Data mining

Nguyen Hung Son

Regu ly asocjacyjne

Definition

Regu la asocjacyjn_, a nazywamy ka˙zd_, a implikacj_, e typu_,

X =⇒ Y

gdzie X, Y sa itemsetami. Jako´s´_, c takiej regu ly mierzymy jest funkcjami: wsparcie (support) support(X =⇒ Y ) = s(X ∪ Y ) wiarygodno´s´c (confidence) conf idence(X =⇒ Y ) = s(X ∪ Y ) s(X)

(8)

Data mining

Nguyen Hung Son

Przyk lad

Lista autor´ow (items)

A Jane Austen C Agatha Christie

D Sir Arthur Conan Doyle T Mark Twain

W G. Wodehouse

Transakcje

10 A C T W 20 C D W 30 A C T W 40 A C D W 50 A C D T W 60 C D T

Regu ly wsparcie st. wiar.

A =⇒ C 4 100%

C =⇒ W 5 83,3%

AC =⇒ T 4 75%

(9)

Data mining

Nguyen Hung Son

Sformu lowanie problemu

Problem

Dane sa:_,

zbi´or pozycji I = {i1, i2, ..., im}

baza transakcji D = {(tid1, T1), (tid2, T2)...}

sta le sup min = minimalna warto´s´c wsparcia i conf min = minimalny stopie´n wiarygodno´sci

Problem: Znale´z´c wszystkie regu ly asocjacyjne o

- wsparciu ≥ sup min

(10)

Data mining

Nguyen Hung Son

Outline

1 Dane transakcyjne 2 Regu ly asocjacyjne

3 _{Szukanie regu l asocjacyjnych}

(11)

Data mining

Nguyen Hung Son

Problem obliczeniowy

Liczba wszystkich regu l asocjacyjnych wynosi 3n_,

gdzie n jest liczba item´_, ow.

Sprawdzanie wszystkich regu l jest nie wykonywalne! Proponowano ró˙zne metody szukania z u˙zyciem ró˙znych technik obliczeń: sekwencyjne, równoleg le.

(12)

Data mining

Nguyen Hung Son

Schemat wyszukiwania regu l

Wiekszo´s´_, c istniejacych algorytm´_, ow dzia la w dw´och krokach:

Znajd´z czeste zbiory:_, znajd´z itemsets o wsparciu wiekszym ni˙z min sup (frequent itemsets)._,

Podzia l czestych zbi´_, or´ow: dla ka˙zdego czestego_, zbioru, znajd´z podzia ly tego zbioru na 2 podzbiory w taki spos´ob, by powsta ly regu ly o st. wiarygodno´sci wiekszym ni˙z_,

(13)

Data mining

Nguyen Hung Son

Przyk lad

Transakcje

10 A C T W 20 C D W 30 A C T W 40 A C D W 50 A C D T W 60 C D T Czeste zbiory,

wsparcie Frequent itemsets 100% (6) C 83% (5) CW 67% (4) A, D, T, AC, AW, CD, CT, ACW 50% (3) AT, DW, TW, ACT, ATW, CDW, CTW, ACTW Min. wsparcie = 3 (50%) Min. wiarygodno´s´c = 75% Regu ly dlaAC: A =⇒ C (100% wiarygodno´sci) C =⇒ A (66% wiarygodno´s´c)

(14)

Data mining

Nguyen Hung Son

Wyznaczanie cz

estych zbior´

,

ow

Obserwacje:

Je´sli {A,B} jest czestym zbiorem, to {A} i {B} te˙z_, musza by´_, c czestymi zbiorami._,

Og´olniej: je´sli X czestym k-elementowym zbiorem, to_, wszystkie (k − 1)-elementowe podzbiory X te˙z sa_, czeste._,

Idea:

Znajd´z wszystkie 1-elementowe czeste zbiory_,

Generuj 2-elementowe czeste zbiory z 1-elementowych_, czestych zbior´_, ow

...

Generuj k-elementowe czeste zbiory poprzez l_, aczenie_, (k − 1)-elementowych czestych zbior´_, ow

(15)

Data mining

Nguyen Hung Son

(16)

Data mining

Nguyen Hung Son

Algorytm Apriori

1: C1:= I; F1 := rodzina 1-elem. zbior´ow czestych_,

2: for (k = 2; Fk−1 6= ∅; k + +) do

3: Ck:= AprioriGen(Fk−1);

4: //generowanie nowych kandydat´ow

5: Fk := {X ∈ Ck: support(X) ≥ min sup}

6: end for

(17)

Data mining

Nguyen Hung Son

Przyk lad

Transakcje

10 A C T W 20 C D W 30 A C T W 40 A C D W 50 A C D T W 60 C D T minimalne wsparcie = 3 ufno´s´c = 80% Czeste zbiory_, Frequent itemsets F1 A, C, D, T, W

C2 AC, AD, AT, AW ...

F2

AC, AT, AW, CD, CT, CW, DW, TW

C3 ACT, ACW, ATW, CDW, CTW

F3

ACT, ACW, ATW, CDW

(18)

Data mining

Nguyen Hung Son

Funkcja AprioriGen

Funkcja AprioriGen(Fk−1) posiada dwa g l´owne kroki:

Laczenie: do C_, k wstawiamy sumy takich par

X, Y ∈ Fk−1, kt´ore maja wsp´_, olne k − 2 poczatkowych_,

element´ow. Np. dla

Fk−1 = {AB, AC, AD, AE, BC, BD, BE}

mamy

Ck= {ABC, ABD, ABE, ACD, ACE,

ADE, BCD, BCE, BDE} Obcinanie: Usuwamy z Ck te zbiory, kt´orych nie

wszystkie podzbiory (k − 1)-elementowe sa w F_, k−1.

Np. mo˙zemy usuwa´c ACD, poniewa˙z CD nie znajduje sie w F_, k−1. Po obcinaniu otzrymujemy

(19)

Data mining

Nguyen Hung Son

Generowanie regu l

Problem: Niech X bedzie zbiorem cz_, estym. Znale´_, z´c Y ⊂ X taki, ˙ze

conf idence(X \ Y =⇒ Y ) > min conf Obserwacja:

”Je´sli AB =⇒ CD jest wiarygodna regu l_, a, to regu ly_,

ABC =⇒ D i ABD =⇒ C te˙z sa_,”

Strategie:

Przerzuca´c na prawa stron_, e po kolei pojedy´_, ncze elementy.

Stosowa´c funkcje AprioriGen() do generowania zbioru_, warunkowanego Y

(20)

Data mining

Nguyen Hung Son

Outline

4 _{Ulepszenie algorytmu Apriori}

(21)

Data mining

Nguyen Hung Son

Ulepszenie algorytmu Apriori

Algorytm Apriori musi przeglada´_, c ca la baz_, e danych w_, celu obliczenia wsparcia dla kandydat´ow

Ulepszenie: nowa struktura, kt´ora zawiera wy lacznie_, transakcje, kt´ore moga wspiera´_, c aktualnych

kandydat´ow.

1 counting base: nowa struktura danych, kt´ora jest uaktualniana dla ka˙zdego kroku k;

2 Algorytm AprioriT id: oblicza wsparcie dla kandydat´ow skanujac wy l_, acznie struktur_, e counting base;_,

(22)

Data mining

Nguyen Hung Son

Algorytm AprioriTid

AprioriTid

Wej´scie: zbi´or transakcji D, min sup - minimalne wsparcie

Wyj´scie: zbi´or wszystkich czestych itemset´_, ow F

//CBk- zbi´or counting base obliczony w k-tym kroku

1: C1:= I; F1 := rodzina 1-elem. zbior´ow czestych_,

2: for (k = 2; Fk−1 6= ∅; k + +) do

3: Ck:= AprioriGen(Fk−1);

4: //generowanie nowych kandydat´ow

5: CBk =Counting base generate (Ck, CBk−1);

6: Support count(Ck, CBk);

7: Fk := {X ∈ Ck: support(X) ≥ min sup}

8: end for

(23)

Data mining

Nguyen Hung Son

Generowanie struktur

e Counting base

,

CBk= skojarzy ka˙zda transakcj_, e t z list_, a kandydat´_, ow

wystepuj_, acych w t;_, Elementami CBk sa pary:_,

(t.T ID, {c ∈ Ck|c ⊂ t}) = (t.T ID, Sk(t.T ID))

Je´sli jaka´s transakcja nie zawiera kandydat´ow

k-elementowych, to zostanie ona usunieta z CBk i ze

wszystkich nastepnych zbior´_, ow counting base; Mo˙zna to wyznaczy´c metoda iteracyjn_, a:_,

CB1:= ca la baza transakcji

CBk := {(i, Sk(i))}, gdzie Sk(i) powstaje z Sk−1(i) w nastepuj_, acy spos´_, ob:

JE´SLI {u1...ui−2, a} i {u1...ui−2, b} ∈ Fi−1∩ CBk−1 TO {u1, ...ui−2, a, b} ∈ Sk(i)

(24)

Data mining

Nguyen Hung Son

Przyk lad

(25)

Data mining

Nguyen Hung Son

AprioriHybrid

AprioriTid przeszukuje tablice CBk zamiast skanowaia

ca la baz_, e transakcyjn_, a;_,

Jest efektywny wtedy, gdy CBk jest dostatecznie ma la wzgledem rozmiaru ca lej bazy._,

AprioriTid jest lepszy od Apriori wtedy, gdy

CBk mie´sci sie w pami_, eci;_,

Czeste zbiory maj_, a rozk lad z ”d lugim ogonkiem”!_,

AprioriHybrid

wykonuje Apriori w pierwszych iteracjach

prze laczy na AprioriTid wtedy, gdy spodziewmy, ˙ze_, CBk mie´sci sie w pami, eci.,

W praktyce, AprioriHybrid mo˙ze by´c do 30% szybszy od Apriori i do 60% szybszy ni˙z AprioriTid

(26)

Data mining

Nguyen Hung Son

Outline

(27)

Data mining

Nguyen Hung Son

G l´

owne idee

Baza danych jest zapamietana w oszcz_, ednej strukturze_, zwanej FP-tree.

Czeste zbiory s_, a obliczone z tego dzrewa;_, Jest to metoda “Dziel i rzad´_, z”;

Baza danych jest przeskanowana dok ladnie 2 razy; - piewszy raz: czesto´s´_, c wystapienia ka˙zdego przedmiotu_, (item);

- drugi raz: Konstrukcja drzewa FP-tree O rzad wielko´sci szybszy ni˙z Apriori._,

(28)

Data mining

Nguyen Hung Son

Ilustracja

Baza transakcji (min sup = 3):

TID Items 1 f, a, c, d, g, i, m, p 2 a, b, c, f, l, m, o 3 b, f, h, j, o 4 b, c, k, s, p 5 a, f, c, e, l, p, m, n

Po usunieciu przedmiot´_, ow o wsparciu < 3 mamy posortowana list_, e cz_, estych przemiot´_, ow (item):

Item f c a b m p

(29)

Data mining

Nguyen Hung Son

Ilustracja

Baza transakcji (min sup = 3):

TID Items 1 f, a, c, d, g, i, m, p 2 a, b, c, f, l, m, o 3 b, f, h, j, o 4 b, c, k, s, p 5 a, f, c, e, l, p, m, n

Po pierwszym skanowaniu ca lej bazy:

f c a b m p l o d e g h i j k n s 4 4 3 3 3 3 2 2 1 1 1 1 1 1 1 1 1

Po usunieciu przedmiot´_, ow o wsparciu < 3 mamy

posortowana list_, e cz_, estych przemiot´_, ow (item):

Item f c a b m p

(30)

Data mining

Nguyen Hung Son

Ponownie skanuje baze. Dla ka˙zdej transakcji:_,

1 usuwamy nieczeste items,_, 2 sortujmy items, i 3 dodajemy j , a do FP-tree przyk lad 1 f, c, a, m, p 2 f, c, a, b, m 3 f, b 4 c, b, p 5 f, c, a, m, p

(31)

Data mining

Nguyen Hung Son

1 usuwamy nieczeste items,_,

2 sortujmy items, i 3 dodajemy j , a do FP-tree przyk lad 1 f, c, a, m, p 2 f, c, a, b, m 3 f, b 4 c, b, p 5 f, c, a, m, p

(32)

Data mining

Nguyen Hung Son

(33)

Data mining

Nguyen Hung Son

(34)

Data mining

Nguyen Hung Son

(35)

Data mining

Nguyen Hung Son

(36)

Data mining

Nguyen Hung Son

(37)

Data mining

Nguyen Hung Son

(38)

Data mining

Nguyen Hung Son

(39)

Data mining

Nguyen Hung Son

Szukanie cz

estych zbior´

,

ow z drzewa

FP-tree

Proces przeszukiwania sprawdza pojedy´ncze przedmioty w tablicy “header table” (od do lu do g´ory);

Dla ka˙zdego przedmiotu x:

Skonstruowa´c baze warunkowych wzorc´_, ow;

“´Scie˙zka prefiksowa” (prefix path) = ´scie˙zka prowadzaca od korzenia do wierzcho lka x;_,

Np. ´scie˙zki prefiksowe dla p: [f : 2, c : 2, a : 2, m : 2] i [c : 1, b : 1];

Skonstruowa´c warunkowe drzewo FP-tree

Traktujemy baze warunkowych wzorc´_, ow dla x jako ma la baz_, e transakcji D(x);_,

Mo˙zemy skonstruowa´c FP-tree dla D(x); Je´sli drzewo posiada tylko jedna ´_,scie˙zke, to_, zatrzymujemy i wypisujemy czeste zbiory;_,

(40)

Data mining

Nguyen Hung Son

Przyk lad

1 Dla p:

Baza warunkowych wzorc´ow dla p: [f:2, c:2, a:2, m:2], [c:1, b:1]

c jest jedynym czestym przedmiotem i warunkowe_, FP-tree ma 1 wierzcho lek (c:3).

Wiec {p,c} jest jedynym cz_, estym zbiorem._,

2 Dla m:

Baza warunkowych wzorc´ow dla p: [f:2, c:2, a:2], [f:1, c:1, a:1, b:1]

f, c, a sa cz_, estymi przedmiotami_,

warunkowe FP-tree:

Odczytujemy czeste zbiory: {f,m}, {c,m}, {a,m},_, {f,c,m}, {f,a,m}, {c,a,m}, {f,c,a,m}.

(41)

Data mining

Nguyen Hung Son

Algorytm FP-Growth

FP-Growth(Tree, α)

1: if T ree contains a single path P then

2: for each combination γ of the nodes in P do

3: generate pattern γ ∪ α with

support = minimum support of nodes in γ.

4: end for

5: else

6: for each ai in the header table of Tree do

7: generate pattern β = ai∪ α with

support = ai.support

8: construct conditional pattern base for β and

conditional FP-tree T reeβ

9: if T reeβ 6= ∅ then

10: _{call FP-growth(T ree}_β, β)

11: end if

12: end for