Grupowanie grafu - Metody analizy spójności i zgodności kolekcji dokumentów WWW

Typowe grupowanie najczęściej odbywa się dla zbiorów. Zbiór w odróżnieniu od grafu nie posiada żadnej informacji strukturalnej czy nawet informacji na temat kolejności – wszystkie elementu zbioru są „równe”. Grupowanie odbywa się na podstawie pewnej funkcji odległości (bądź jej odwrotności, czyli podobieństwa), która jest zdefiniowana dla dowolnych dwóch elementów zbioru. Taką sytuację można odnieść do grafu pełnego, gdzie dla każdej pary węzłów określona jest waga krawędzi z nimi incydentnych. W zasadzie gdyby udało się określi jednolitą funkcję, która

opisywałaby wagi krawędzi dla każdej pary węzłów, wtedy graf można by sprowadzić do zbioru i grupować węzły typowymi algorytmami grupowania.

Rysunek 4.3. Ilustracja działania algorytmu MCL źródło: (Dongen 2009)

Jednak graf ważony jest szczególnym przypadkiem zbioru obiektów (węzłów), w którym zamiast funkcji odległości mamy określoną strukturę i wagi krawędzi. Ta specyfika powoduje, że zastosowanie dla grafu ważonego typowych algorytmów grupowania jest co najmniej nieefektywne, jeśli w ogóle możliwe. Problem grupowania grafów był głównym problemem rozprawy doktorskiej (Dongen 2000). W wyniku pracy opracowany został algorytm grupowania grafu MCL (ang. Markov Cluster). Grupowanie grafu w MCL oparte jest na symulacji stochastycznego przepływu (łańcuch Markova) opisanego przez macierze Markova. Sam algorytm polega na przekształcaniu tych macierzy za pomocą dwóch operatorów expand i inflate.

Jak widać na rysunku 4.3 naprzemienne stosowanie tych operatorów, nazwane procesem MCL, na macierzy reprezentującej graf prowadzi do tego, że przepływ rozdzielany jest w osobne regiony, które interpretowane są jako grupy, czyli podgrafu pierwotnego grafu. Operacja expand to po prostu

podnoszenie do macierzy kwadratu. Operacja inflate ma na celu przeskalowanie macierzy stochastycznej, aby po potęgowaniu pozostała stochastyczną. Czyli macierz jest normalizowana i odrzucane są wartości poniżej założonego progu istotności. Proces MCL najczęściej kontynuowany jest, podobnie jak w innych algorytmach grupujących, do momentu osiągnięcia zbieżności lub spełnienia innego kryterium, np.: docelowa ziarnistość (liczba grup), liczba iteracji operatorów, itp.

W (Brandes, Gaertler, i Wagner 2003) został przedstawiony alternatywny dla MCL algorytm grupujący dla grafów: Geometric MST Clustering (GMC). Algorytm GMC łączy partycjonowanie spektralne z grupowaniem geometrycznym. W pracy porównywany jest on z MCL i z Iterative Conductance Cutting (ICC) wprowadzonym w Kannan, Vempala, i Vetta 2004). ICC to algorytm grupowania deglomeracyjnego używający cięć minimalnego przewodnictwa.

Grupowanie grafów polega na wyznaczeniu podgrafów. Najczęściej podgrafu interpretowane są jako grupy węzłów, ponieważ informacja strukturalna (krawędzie) najczęściej potrzebna jest tylko w celu zastosowania algorytmu grupującego. Można powiedzieć, że węzły w grupie łączy pewien związek – przynależność do danego podgrafu w wyniku grupowania. Przyjmując taką interpretację można wyniki grupowania przedstawić w postaci hipergrafu. Węzły w takim hipergrafie to węzły pierwotnego grafu, dla którego przeprowadzono grupowanie. Krawędzie tego hipergrafu to grupy wynikowe algorytmu grupującego. W związku z tym, robiąc formalną analogię można powiedzieć, że tak jak algorytm grupowania zbioru dotyczy przekształcenia jednorodnego zbioru w zbiór podzbiorów, tak algorytm grupowania grafu najczęściej ma na celu przekształcenie grafu w hipergraf.

5 Metody analizy spójności i zgodności

Spójność i zgodność są aspektami analizy kolekcji dokumentów WWW. Jednak, aby oszacować miary spójności i zgodności kolekcji, nie wystarczą same dokumenty. Niezbędna jest również informacja o związkach, jakie występują pomiędzy tymi dokumentami oraz między dokumentami i innymi obiektami infrastruktury WWW. W niniejszej pracy wśród pozostałych obiektów wchodzących w związki z dokumentami wybrano użytkowników i pojęcia. Użytkownicy to najczęściej autorzy dokumentów, ale nie tylko. Związek pomiędzy użytkownikiem i dokumentem może zostać stworzony na przykład: gdy dokument (w zasadzie autor) powoła się (zacytuje) na użytkownika lub z drugiej strony: gdy użytkownik oceni dokument czy doda go do ulubionych. Podobnie ma się sprawa ze związkami dokument – pojęcie. Dokument może mieć przypisany tag, czyli słowo kluczowe, według którego można grupować czy filtrować dokumenty. Z drugiej strony słowo kluczowe może zostać wydobyte z treści dokumentu poprzez analizę leksykalną czy ważenie terminów. Oczywiście równie istotne są związki między obiektami jednego typu, czyli np. autor – autor.

Aby modelować kolekcję dokumentów na potrzeby konkretnej metody należy w tym miejscu uściślić pojęcia „dokument” i „kolekcja”. Z kilkunastu definicji dokumentu przytoczonych w podrozdziale 2.1 Dokument WWW s. 22 najbardziej odpowiednią dla opracowanej metody wydaje się definicja 2.1.7. Zakłada ona rekurencyjność zgodną z definicjami 2.1.11 i 2.1.12 oraz wskazuje źródło pochodzenia dokumentu jako odpowiedź na pytanie. Z kolei żadna z wcześniej przytoczonych definicji kolekcji nie pasuje w pełni do obiektu modelowanego w metodzie. Dlatego na potrzeby metody została wprowadzona autorska definicja 5.1

Definicja 5.1. Kolekcja dokumentów WWW

„Kolekcją dokumentów WWW nazwiemy zbiór (może być uporządkowany) dokumentów umieszczonych w WWW i występujący w pewnym związku. Związek ten może być tak jawny i bezpośredni jak hiperłącze z jednego dokumentu do drugiego. Może też być tak ukryty i pośredni jak wzajemny związek autorów obu dokumentów czy jednakowa klasyfikacja obu dokumentów przez wyszukiwarkę jako relewantnych dla określonego zapytania.”

Najbliższe definicji 5.1 są definicje 2.3.2 i 2.3.3, jednak żadna z nich nie mówi wprost o związkack, które mają wpływ na istnienie kolekcji oraz nie kładzie nacisku na umiejscowienie dokumentów w WWW.

Jeśli chodzi o uściślenie terminu „link”, to niestety jego popularność i elastyczność uniemożliwiają przyjęcie jednej definicji. Stąd podobnie jak w przypadku wcześniej przytoczonych definicji linka, konkretne znaczenie determinowane będzie przez bezpośredni kontekst użycia tego terminu.

Przyjmując definicję kolekcji i dokumentu WWW można zdefiniować czym jest spójność i zgodność.

Definicja 5.2. Spójność kolekcji dokumentów

„Spójnością kolekcją dokumentów WWW nazwiemy własność kolekcji wynikającą ze związków między dokumentami i ich autorami.”

Definicja 5.2 wskazuje, że spójność zależy wprost od siły związku między obiektami WWW. Intuicyjnie: im silniejsze wzajemne związki zachodzą pomiędzy dokumentami kolekcji, pomiędzy autorami tych dokumentów oraz pomiędzy autorami i dokumentami, tym większa jest spójność kolekcji.

Definicja 5.3. Zgodność kolekcji dokumentów

„Zgodnością kolekcją dokumentów WWW nazwiemy własność kolekcji wynikającą ze związków między dokumentami i pojęciami użytymi do opisania tych dokumentów.” Definicja 5.3, dotycząca zgodności, jest analogiczna do definicji spójności 5.2. Tak jak spójność dotyczy autorów dokumentów, tak zgodność skupia się na sile związku dokumentów z pojęciami, czyli słowami kluczowymi, tagami. Podobnie też zgodność będziemy nazywać tym większą, im silniejsze związki wystąpią pomiędzy obiektami dokumentów i pojęć.

Aby zmierzyć spójność i zgodność kolekcji należy przyjąć konkretne miary. Z kolei na miary będą miały wpływ przyjęte wagi reprezentujące siłę związków między obiektami.

W dokumencie Metody analizy spójności i zgodności kolekcji dokumentów WWW (Stron 67-71)