• Nie Znaleziono Wyników

PageRank i HITS

N/A
N/A
Protected

Academic year: 2021

Share "PageRank i HITS"

Copied!
21
0
0

Pełen tekst

(1)

PageRank i HITS

Mikołajczyk Grzegorz

(2)

PageRank

Metoda nadawania indeksowanym stronom internetowym określonej wartości liczbowej, oznaczającej jej jakość.

Algorytm PageRank jest wykorzystywany przez popularną wyszukiwarkę internetową Google. Został opracowany przez założycieli firmy Google Larry'ego Page'a i Sergeya Brina podczas ich studiów na Uniwersytecie Stanforda w 1998 roku. Nazwa algorytmu pochodzi nie od angielskiego wyrazu określającego stronę (ang.

page), lecz od nazwiska twórcy, czyli Larry'ego Page'a.

(3)

Pochodzenie

PageRank jest rozwinięciem znanej od dawna heurystyki, wedle której jakość tekstu jest

proporcjonalna do liczby tekstów na niego się

powołujących. Ulepszenie zaproponowane przez autorów Google polegało na ważeniu jakości

odnośników wskazujących na rozpatrywany tekst ich własną wartością PageRank. Innymi słowy: jeśli na dany tekst powołuje się artykuł, który sam ma wysoką ocenę, ma to większe znaczenie, niż gdy na ten sam tekst powołuje się mało popularna

strona.

(4)

Algorytm

Szczegóły właściwego algorytmu nigdy nie zostały upublicznione i są jednymi ze ściśle strzeżonych tajemnic Google. Do tego są najprawdopodobniej

sukcesywnie poprawiane, aby zwiększać efektywność mechanizmu. Wszystkie informacje dostępne jawnie przedstawiają jedynie wzorcową wersję algorytmu stosowanego w wyszukiwarce Google

(5)

Składowe wzoru algorytmu

PR - PageRank danej strony

d - współczynnik tłumienia, liczba pomiędzy 0 i 1. Dla obliczeń przyjmuje się zazwyczaj wartość 0.85

N - liczba stron internetowych

L - liczba linków do których odsyła dana strona internetowa

Algorytm ten można interpretować jako znajdowanie stanu ustalonego w łańcuchu Markowa, albo jako

problem diagonalizacji macierzy. Nietrywialną kwestią techniczną pozostaje implementacja tego algorytmu, aby nadawał się do przetwarzania danych opisujących sieć WWW.

(6)

Przykład

Problem mamy taki jak na

rysunki czyli mamy 4 strony które wzajemnie na siebie linkują zgodnie z rysunkiem.

PageRank początkowe

każdej strony ustalamy na 1. A współczynnik d na 0,85

(7)

Rozwiązanie

0/10 0.15 0.9 1/10 0.9 5.4 2/10 5.4 32.4 3/10 32.4 194.4 4/10 194.4 1,166.4 5/10 1,166.4 6,998.4 6/10 6,998.4 41,990.4 7/10 41,990.4 251,942.4 8/10 251,942.4 1,511,654.4 9/10 1,511,654.4 9,069,926.4 10/10 9,069,926.4 0.85 ? N + 0.15

(8)

Google Toolbar

Istniej wiele sposobów na sprawdzanie notowania PageRank aktualnie przeglądanej strony lub dowolnej strony która została podana jako wynik wyszukiwania wyszukiwarki.

Jednym z sposobów są wtyczki do przeglądarek.

Google Toolbar to wtyczka do przeglądarek internetowych, oferowana bezpłatnie przez Google Inc., instalująca dodatkowy pasek narzędziowy.

UWAGA

Należy zwrócić uwagę, iż w zamian za darmowe oprogramowanie użytkownik zgadza się na śledzenie jego poczynań w sieci oraz wysyłanie danych ze swojego komputera.

(9)

open source

Istnieją też liczne wtyczki otwartego oprogramowania, spełniające analogiczne funkcje, m.in. googlebar

dla Firefoksa.

PageRank strony sprawdzać można również w wielu serwisach niezależnych np.:

http://www.page-rank.pl/

http://www.ranking.net.pl/pagerank.html

http://www.optymalizacja.com/pagerank.php

http://www.pageranktester.pl/sprawdz- pagerank.html

http://pagerank.kz1.pl/index.php

(10)

Serwisy niezależne

Serwisy różnią się między sobą kilkoma rzeczami np.:

możliwością wpisywania stron z parametrami

szybkością

wynikami

sposobem podawania adresu strony

szata graficzną

funkcjami dodatkowymi itp.

(11)
(12)
(13)

Poprawianie PageRank

Od czasu do czasu powstają i pojawiają się w internecie kolejne techniki oszukiwania Google. Ale istnieje

również wiele stałych i sprawdzonych sposobów podniesienia PR swojej strony np.:

Wymiana linków

Danie użytkownikom możliwość komentowania artykułów i dzielenia się nimi poprzez serwisy społecznościowe

Pisanie artykułów i umieszczanie pod nimi linków do swojej strony jako źródła informacji

Tworzenie dobrze opisanych banrów

(14)
(15)
(16)

HITS

HITS - algorytm opracowany przez Jona Kleinberga w 1998 z myślą o silniku przeszukującym pod

nazwą CLEVER, wykorzystywany do oceny relatywności tekstu względem termu.

Algorytm HITS zakłada, że dokumenty w zbiorze są ze sobą nawzajem połączone, tworząc pewnego rodzaju graf skierowany. W grafie tym węzłami są dokumenty, a krawędziami odnośniki. Krawędzie są skierowane w taki sposób, aby wskazywały na

element cytowany, a wychodziły z elementu

cytującego. Same założenia modelu wskazują na

naturalne wykorzystanie go odnośnie dokumentów

hipertekstowych jako zawierających odnośniki

(17)

Idee algorytmu

Algorytm HITS opiera się na dwóch ideach:

autorytetu (ang. authority) i koncentratora (ang.

hub). Dokumentem autorytatywnym (autorytetem) jest dokument cytowany wskazywany, taki, na który wskazuje wiele dokumentów (wiele dokumentów

cytuje ten dokument). Koncentratorem jest

dokument cytujący, który wskazuje na dokumenty autorytarne (dokument cytuje wiele ważnych

dokumentów).

(18)

Ulepszenia

W trakcie obserwacji zauważono, że autorytatywne strony relewantne do początkowego zapytania

powinny mieć nie tylko dużą liczbę odnośników, ale będąc autorytetami we wspólnym temacie, powinno istnieć znaczne pokrycie w zbiorze stron, które do nich odsyłają. Dlatego oprócz wyszukania wysoce autorytatywnych stron, spodziewano się znaleźć

koncentratory, czyli strony, które mają odnośniki do wielu autorytatywnych stron. To właśnie

koncentratory trzymają razem autorytety we wspólnym temacie i pozwalają pozbyć się

niepowiązanych stron z dużą liczbą odnośników.

(19)

Podgraf

Koncentratory i autorytety wykazują wzajemny, obopólnie wzmacniający związek (ang. mutually reinforcing

relationship). Dobry koncentrator to strona, która wskazuje do wielu dobrych autorytetów. Dobry

autorytet to strona, która jest wskazywana przez wiele dobrych koncentratorów. Autor zauważył, że rezultaty uzyskane poprzez czystą analizę struktury odsyłaczy dają o wiele lepsze rezultaty, niż wyszukiwarki oparte na przeszukiwaniu tekstu. W tym przypadku zastąpiono globalną analizę całej struktury odsyłaczy w WWW

bardziej lokalną metodą analizy małego skupionego podgrafu.

(20)

Technika konstruowania podgrafu jest zaprojektowana do uzyskania małego zbioru stron, który

najprawdopodobniej zawiera najbardziej autorytatywne strony dla danego tematu.

Ostatecznym wynikiem działania algorytmu jest lista

węzłów i autorytetów z największymi współczynnikami poprawności.

(21)

KONIEC

Przydatne linki:

http://pl.wikipedia.org/wiki/%C5%81a%C5%84cuch_Markow a

http://pl.wikipedia.org/wiki/Diagonalizacja

http://pl.wikipedia.org/wiki/Google_Toolbar

http://en.wikipedia.org/wiki/Jon_Kleinberg

http://pl.wikipedia.org/wiki/Graf_%28matematyka%29

https://addons.mozilla.org/pl/firefox/addon/googlebar/

Cytaty

Powiązane dokumenty

- W nabłonku wy ciełaj cym drogi oddechowe wyst puj gruczoły wydzielaj ce luz, do którego przyklejaj si szkodliwe drobnoustroje, co zapobiega ich wnikaniu do dalszych cz ci układu

Przyk áad odpowiedzi: rozmnaĪanie wegetatywne nie prowadzi do zmiany informacji gene- tycznej u osobników potomnych, poniewa Ī powstają one z fragmentów jednej roĞliny/ przez

x Za zadania otwarte, za które moĪna przyznaü wiĊcej niĪ jeden punkt, przyznaje siĊ tyle punktów, ile prawidáowych elementów odpowiedzi, zgodnie z wyszczególnieniem w

- Stykaj ąc siĊ z organizmami róĪnych gospodarzy wirusy mają wiĊksze szanse zdobycie przystosowaĔ na drodze mutacji (doboru naturalnego, selekcji). ʛ Wáączanie

- Je Īeli podano wiĊcej odpowiedzi (argumentów, cech itp.) niĪ wynika to z polecenia w zadaniu, ocenie podlega tyle kolejnych odpowiedzi (liczonych od pierwszej), ile jest

Je Īeli polecenie brzmi: Napisz schemat ciągu przemian...,to zdający powinien napisaü schemat ciągu przemian, a nie równania kolejnych reakcji.. x NiewáaĞciwy

Zdaj ący moĪe od razu

ĝrodki jĊzykowe dobrane są trafnie (nie pojawiają siĊ: nieuzasadnione kolokwializmy, wielosáowie, wieloznaczno Ğü, nieuzasadnione powtarzanie wyrazów, naduĪywanie wyrazów