• Nie Znaleziono Wyników

Omówić podstawy eksploracji sieci WWW.  P38-PiotrLulewicz

N/A
N/A
Protected

Academic year: 2021

Share "Omówić podstawy eksploracji sieci WWW.  P38-PiotrLulewicz"

Copied!
7
0
0

Pełen tekst

(1)

Podstawy eksploracji sieci WWW

Piotr Lulewicz

(2)

Czym jest eksploracja sieci WWW?

Odkrywanie interesującej, potencjalnie

użytecznej, dotychczas nieznanej wiedzy (reguł, wzorców, zależności) ukrytej w zawartości sieci

Web i sposobie korzystania z niej.

(3)

Podstawowe metody eksploracji sieci Web

● Eksploracja zawartości sieci (Web content mining)

● Eksploracja połączeń sieci (Web linkage mining)

● Eksploracja korzystania z sieci (Web usage mining)

(4)

Eksploracja zawartości

● Wyszukiwanie stron WWW (języki zapytań do sieci Web - WebSQL, WebOQL, WebML, WebLog, W3QL),

● Grupowanie stron WWW (algorytmy grupowania dokumentów XML),

● Klasyfikacja stron WWW (algorytmy klasyfikacji dokumentów XML),

● Dwie ostatnie grupy metod wymagają zdefiniowania specyficznych

miar podobieństwa (odległości) pomiędzy dokumentami XML (XML =

struktura grafowa).

(5)

Eksploracja połączeń

● Celem eksploracji połączeń sieci Web:

Ranking wyników stron WWW

Znajdowanie lustrzanych serwerów Web

● Problem rankingu - (1970) w ramach systemów IR (Information Retrieval) zaproponowano metody oceny (rankingu) artykułów naukowych w oparciu o cytowania,

● Ranking produktów - ocena jakości produktu w oparciu o opinie innych klientów (zamiast ocen dokonywanych przez producentów).

(6)

Eksploracja korzystania z sieci

● Celem eksploracji danych opisujących korzystanie z zasobów sieci Web, jest odkrywanie ogólnych wzorców zachowań użytkowników sieci Web, w szczególności wzorców dostępu do stron.

● Odkryta wiedza pozwala na:

Budowę adaptatywnych serwerów WWW (personalizacja usług serwerów WWW),

Optymalizację struktury serwera i poprawę nawigacji,

Znajdowanie potencjalnie najlepszych miejsc reklamowych.

● Polega głównie na eksploracji logów serwera.

(7)

Klasyfikacja wszystkich metod stosowanych do

eksploracji sieci Web jest bardzo trudna. Przedstawione

metody są najczęściej stosowanymi metodami.

Cytaty

Powiązane dokumenty

Konfiguracja prostej sieci lokalnej z zastosowaniem Windows Server 2008 jako serwera DHCP, FTP i HTTP..

• korelacja dodatnia (wartość współczynnika korelacji od 0 do 1) –informuje, że wzrostowi wartości jednej cechy towarzyszy wzrost średnich wartości drugiej

W kroku drugim, na podstawie znalezionych zbiorów częstych są generowane wszystkie reguły asocjacyjne, których ufność jest większa niż zadany próg ufności minconf..

Zajęcia nr 2 Przegląd zbiorów danych z 2 źródeł: MLRepository oraz ArrayExpress Wybór po jednym przykładowym zbiorze do późniejszych analiz z obu zbiorów. Zajęcia nr

Dla danych z zadania 3 znormalizuj metodą min-max dane z kolumny 3, tak by zamiast zakresu 50- 200 dane miały zakres 0-10. Narzędzie: dowolne: R albo Excel,

Pamiętnik Literacki : czasopismo kwartalne poświęcone historii i krytyce literatury polskiej 76/2,

PHISHING - podawanie się za inną osobą w celu wyłudzenia danych osobowych. Nie udostępniaj

W podobnym duchu założone zostało dodatkowe utrudnienie - pominięcie w klasyfikacji informacji z licznika drogi. Innymi słowy, w danych trenujących pomijana jest