• Nie Znaleziono Wyników

Metody eksploracji danych

N/A
N/A
Protected

Academic year: 2021

Share "Metody eksploracji danych"

Copied!
24
0
0

Pełen tekst

(1)

Metody eksploracji danych

Reguły asocjacyjne

(2)

Analiza podobieństw i koszyka sklepowego

Analiza podobieństw jest badaniem atrybutów lub cech, które są

„powiązane ze sobą”.

Metody analizy podobieństw , znane również jako analiza koszyka sklepowego, szukają nieodkrytych powiązań pomiędzy tymi atrybutami, to znaczy szukają nieodkrytych reguł do ilościowego

określania relacji pomiędzy dwoma lub więcej atrybutami

Reguły asocjacyjne przyjmują postać:

Jeżeli poprzednik, to następnik razem z miarą wsparcia i dokładności (ufności) reguły

(3)

Analiza podobieństw i koszyka sklepowego - przykład

W supermarkecie sporządzono raport sprzedaży, z którego m.in. wynika, że w ostatni czwartek w nocy z 1000 klientów robiących zakupy 200 kupiło chleb, a z tych 200, którzy kupili chleb, 50 kupiło masło

Reguła asocjacyjna:

Jeżeli kupuje chleb, to kupuje masło

miarą wsparcia 5%

miara dokładności 25%

1000 50

200 50

(4)

Wsparcie i ufność reguły

Niech D oznacza zbiór transakcji, gdzie każda transakcja T z D reprezentuje zbiór artykułów z I.

Wsparcie (ang. support) s dla danej reguły asocjacyjnej A => B jest procentem transakcji w D, które zawierają A i B, tzn.

Ufność (ang. confidence) c dla danej reguły asocjacyjnej A => B jest miarą dokładności reguły, określoną jako procent transakcji zawierających A, które również zawierają B, tzn.

transakcji liczba

calkowita

B i A ych zawierajac transakcji

liczba B

A P

s

 A liczbaliczbatransakcjitransakcjizawierajaczawierajacychychAAi B

P B A A P

B P

c |

Mocna reguła – reguła, dla której s i c są >= od pewnych, określonych wartości minimalnych.

(5)

Zbiory zdarzeń i zbiory częste

Zbiór zdarzeń jest zbiorem zawartym w I (np. {fasola, kabaczki} to 2-

elementowy zbiór zdarzeń, {brokuły, kukurydza, pomidory} to 3-elementowy zbiór zdarzeń).

Częstość zbioru zdarzeń jest liczbą transakcji zawierającym dany zbiór zdarzeń.

Zbiór częsty to zbiór zdarzeń, który występuje przynajmniej pewną minimalną liczbę razy, czyli z częstością ≥ Φ.

Zbiór częstych zbiorów zdarzeń o k elementach będziemy oznaczać przez Fk

(6)

• Mówimy, że transakcja t wspiera (ang.

supports) zbiór X wtedy i tylko wtedy gdy dla wszystkich elementów I k ∈X, I k ∈t (t zawiera co najmniej wszystkie elementy zbioru X).

• Wsparciem zbioru X nazywamy iloraz liczby

transakcji w T, które wspierają X do liczby

wszystkich transakcji w T.

(7)

Reguła asocjacyjna

• Regułą asocjacyjną nazywamy implikację postaci X⇒Y, gdzie X i Y są dowolnymi zbiorami elementów z ℑ i zachodzi X⊂ℑ, Y⊂ℑ i X∩Y=∅.

• Zbiór X nazywamy poprzednikiem reguły (ang.

body, antecedent), a zbiór Y następnikiem

reguły (ang. head, consequent).

(8)

• Z każdą regułą asocjacyjną są związane dwie wartości liczbowe opisujące jej „siłę” i

„dokładność”.

• Mówimy, że reguła X⇒Y ma wsparcie s (ang.

support), 0≤s≤1, jeżeli dokładnie s% transakcji w T wspiera X∪Y.

• Mówimy, że reguła X⇒Y ma ufność c (ang.

confidence), 0≤c≤1, jeżeli dokładnie c% transakcji

w T, które wspierają X, wspiera również Y.

(9)
(10)

Ogólny algorytm generowania reguł asocjacyjnych

• Ogólny algorytm generowania reguł asocjacyjnych, dla zadanej bazy danych transakcji T, ma następującą postać:

• Krok 1: Ogólny algorytm generowania reguł Asocjacyjnych

• Krok 2: Generowanie reguł ze zbiorów częstych

(11)

Krok 1: Ogólny algorytm generowania reguł asocjacyjnych

• 1. Utworzyć zbiory elementów Li={Ii1, Ii2, ..., Iim}, takie, że Li⊆ℑ, posiadające wsparcie support(Li)≥minsup.

• Zbiory Li są nazywane zbiorami częstymi (ang. large, frequent itemsets).

• 2. Na podstawie zbiorów częstych

znalezionych w kroku (1) wygenerować

wszystkie reguły asocjacyjne dla elementów

zbiorów częstych - zastosuj algorytm (krok 2->)

(12)

Krok 2: Generowanie reguł ze zbiorów częstych.

• 1. Dla każdego zbioru częstego Li znajdź wszystkie niepuste podzbiory subLi.

• 2. Dla każdego podzbioru subLi wygeneruj regułę postaci:

• subLi⇒(Li-subLi) jeżeli

support(Li)/support(subLi)≥minconf.

(13)

Ogólny algorytm generowania reguł asocjacyjnych

Algorytm (krok 1) składa się z dwóch kroków.

W pierwszym kroku znajdowane są zbiory częste, które reprezentują zbiory elementów występujących wspólnie w transakcjach.

Zakłada się przy tym, że interesujące są tylko te zbiory częste, których wsparcie w bazie danych jest większe, niż zadany próg wsparcia minsup.

W kroku drugim, na podstawie znalezionych

zbiorów częstych są generowane wszystkie reguły

asocjacyjne, których ufność jest większa niż

zadany próg ufności minconf.

(14)

przykład

• Załóżmy, że:

• minimalne wsparcie wynosi 30% (0.3), natomiast

• minimalna ufność 70%

(0.7).

(15)

W pierwszym kroku są znajdowane

zbiory częste 1-elementowe:

(16)

Funkcja apriori-gen generuje zbiory kandydujące 2-elementowe:

• Zbiór częsty 2-elementowy składa się z tych zbiorów częstych 2-

• elementowych, których wsparcie jest

większe niż 0.30

(17)

Funkcja apriori-gen generuje zbiory

kandydujące 3-elementowe

(18)

Na podstawie otrzymanych zbiorów częstych wygenerowano następujące reguły asocjacyjne

Zauważmy, że tylko cześć otrzymanych reguł spełnia warunki na minimalne wsparcie i minimalną ufność.

(19)

Stąd, końcowy wynik

działania algorytmu Apriori jest następujący:

(20)

Stąd, końcowy wynik

działania algorytmu Apriori jest następujący:

(21)
(22)

Rzut ekranu z WEKA

(23)

Rzut ekranu z Rattle

(24)

Rzut ekranu z Rattle

Cytaty

Powiązane dokumenty

STRUKTURY ASOCJACYJNE ORAZ ASOCJACYJNE GRAFY NEURONOWE DO EKSPLORACJI WIEDZY Z DANYCH?.

 Zintegrowane uczenie – integracja fazy przetwarzania danych z fazą uczenia (indukcji klasyfikatora).. Redukcja atrybutów. 

Scharakteryzowano rodzaje informacji i podejmowanych decyzji, przedstawiono schematy ilustrujące obieg informacji i decyzji w skali systemu użytkowania, systemu

Są to: współczynnik GPM ogólnej wiarygodności reguły, wyznaczający jej priorytet względem pozostałych reguł w bazie wiedzy medycz- nego systemu ekspertowego, oraz współczynnik

keySet().toArray() — zwraca zbiór kluczy jako tablic˛e (umo ˙zliwia przeiterowanie si˛e po niej w MATLABowe p˛etli for). valueSet().toArray() — zwraca zbiór warto´sci

Na podstawie danych dotyczących preferowanej lokalizacji stacji benzynowej (znajdują się w pliku petrol) stwierdzić, czy odsetek osób, które opowiedziały się za usytuowaniem

Tutaj kawaler de Méré napotkał trudności, gdyż był zdania, że stosunek szukanej „wartości granicznej” do liczby wszystkich możliwości powinien być stały, zatem skoro

Krawędzi, które łączą wierzchołki należące do różnych kawałków, jest dokładnie n k − 1, a ponieważ poddrzewa połączone takimi krawędziami składają się z