Podstawy eksploracji sieci WWW
Piotr Lulewicz
Czym jest eksploracja sieci WWW?
Odkrywanie interesującej, potencjalnie
użytecznej, dotychczas nieznanej wiedzy (reguł, wzorców, zależności) ukrytej w zawartości sieci
Web i sposobie korzystania z niej.
Podstawowe metody eksploracji sieci Web
● Eksploracja zawartości sieci (Web content mining)
● Eksploracja połączeń sieci (Web linkage mining)
● Eksploracja korzystania z sieci (Web usage mining)
Eksploracja zawartości
● Wyszukiwanie stron WWW (języki zapytań do sieci Web - WebSQL, WebOQL, WebML, WebLog, W3QL),
● Grupowanie stron WWW (algorytmy grupowania dokumentów XML),
● Klasyfikacja stron WWW (algorytmy klasyfikacji dokumentów XML),
● Dwie ostatnie grupy metod wymagają zdefiniowania specyficznych
miar podobieństwa (odległości) pomiędzy dokumentami XML (XML =
struktura grafowa).
Eksploracja połączeń
● Celem eksploracji połączeń sieci Web:
○ Ranking wyników stron WWW
○ Znajdowanie lustrzanych serwerów Web
● Problem rankingu - (1970) w ramach systemów IR (Information Retrieval) zaproponowano metody oceny (rankingu) artykułów naukowych w oparciu o cytowania,
● Ranking produktów - ocena jakości produktu w oparciu o opinie innych klientów (zamiast ocen dokonywanych przez producentów).
Eksploracja korzystania z sieci
● Celem eksploracji danych opisujących korzystanie z zasobów sieci Web, jest odkrywanie ogólnych wzorców zachowań użytkowników sieci Web, w szczególności wzorców dostępu do stron.
● Odkryta wiedza pozwala na:
○ Budowę adaptatywnych serwerów WWW (personalizacja usług serwerów WWW),
○ Optymalizację struktury serwera i poprawę nawigacji,
○ Znajdowanie potencjalnie najlepszych miejsc reklamowych.
● Polega głównie na eksploracji logów serwera.