Data mining

(1)

Data mining – Carrot

²

(2)

 Definicja 1:

„Nie trywialne wydobywanie ukrytej,

poprzednio nieznanej i potencjalnie użytecznej informacji o danych”

(W. Frawley, G. Piatetsky-Shapiro, C Matheus Knowledge in Databases: An Overview, 1992)

 Definiacja 2:

„Nauka zajmująca się wydobywaniem informacji z dużych zbiorów danych lub baz danych”

(D. Hand, H. Mannila, P. Smyt Principles of Data Maining, 2001)

(3)

Odkrywanie wiedzy

 Czyszczenie danych -

usuwanie szumu, niespójnych danych

 Integracja danych – łączenie danych z różnych źródeł

 Selekcja danych – wybór ważnych danych

 Transformacja danych – do postaci odpowiedniej do DM

 Data Mining – zastosowanie odpowiednich metod

 Ocena

 Prezentacja wiedzy

(4)

Data mining - metody

Streszczanie

Poszukiwanie asocjacji

Klasyfikacja

Grupowanie (klastrowanie)

(5)

Carrot

²

 System służący do grupowania wyników z wyszukiwarek internetowych,

 Stworzony przez Polaków: Stanisława Osińskiego i Dawida Weissa,

 System open-source.

(6)

(7)

Carrot

²

- działanie

1. Przekierowuje żądania do wyszukiwarki

2. Pobiera kilkaset początkowych wyników

3. Analizuje wyniki poszukując wspólnych, opisowych fraz

4. Frazy te są traktowane jako reprezentanci grup tematycznych.

(8)

Opcje wyszukiwania

(9)

Carrot

²

- grupowanie

 Lista rankingowa

(10)

Carrot

²

- grupowanie

 Grupowanie wyników

(11)

Carrot

²

- grupowanie

 Grupowanie na podstawie fragmentu dokumentów (snippet)

+ szybki czas wyszukiwania

- jakość grupowania zależy od snipetów

(12)

Carrot

²

– działanie algorytmów grupujących

1. Wyszukiwanie w snippetach powtarzających się fraz

2. Tworzenie grup kandydujących

3. Porównanie tych grup i usunięcie grup identycznych

(13)

Grupowanie - algorytmy

 Możliwość wyboru spośród 5 algorytmów

• Lingo,

• STC (Suffix Tree Clustering),

• K-means,

• by URL,

• by source

(14)

STC

1. Czyszczenie danych

◦ Identyfikacja fraz i zdań w snippetach

◦ Eliminacja znaków interpunkcyjncyh

◦ Eliminacja słów niedozwolonych (tzw.

stopwords)

(15)

STC

2. Tworzenie drzewa sufiksowego

(16)

STC

3. Identyfikacja grup bazowych

(17)

STC

4. Łączenie grup bazowych

◦ Podobieństwo między grupami:

Dwie grupy ( B_n , B_m ) są podobne gdy:

Dla a i b:

oraz

◦ Łączenie grup metodą przyrostową

2 2 3

, 1

3 , 2 , 1 3

,

1  

3 2 3

, 2 , 1

3 , 2 , 1 3

,

1  

(18)

Lingo

 Stworzony przez Stanisława Osińskiego

 Odwrotny proces grupowania – najpierw opisy, później dokumenty

(19)

Lingo

• Eliminacja znaków interpunkcyjnych

• Identyfikacja języka

• Eliminacja stopwords

Czyszczenie tekstu

• Drzewo sufiksowe

Identyfikacja fraz częstych

• Stworzenie macierzy termin – dokument

• Dekompozycja SVD

Znalezienie grup tematycznych

Dopisanie frazy opisowej do każdej grup

• Eliminacja powtórzeń

Dopasowanie dokumentów do grup

• Sortowanie

• Wyświetlenie grup

Prezentacja wyników

(20)

Lingo vs STC vs k-means

LINGO STC K-means

Różnorodność grup

Wysoka, wyróżniane są

małe grupy

Niska, rzadko wyróżniane małe

grupy

Niska, małe grupy rzadko

wyróżniane Opis grup Długi, bardziej

opisowy

Krótszy, ale wystarczający

Najczęściej jedno słowo,

Wydajność

Niska, przy ponad 1000 dokumentach

duży czas wyszukiwania i

duża zajętość pamięci

Wysoka, szybkie wyszukiwanie w czasie liniowym

Niska

(21)

Lingo STC k-means

(22)

Kiedy stosować?

• Różnorodność grup

• Wyróżnienie małych grup

• Dobre opisy grup

Lingo

• Szybkość

• Duża liczba dokumentów

STC

• Nie nakładające się grupy

k-means

(23)

Carrot

²

- narzędzia

Carrot² Java Api Carrot² C# Api

Carrot² Web Application

Carrot² Command Line Interface Carrot² Document Clustering

Workbench