PageRank i HITS
Mikołajczyk Grzegorz
PageRank
Metoda nadawania indeksowanym stronom internetowym określonej wartości liczbowej, oznaczającej jej jakość.
Algorytm PageRank jest wykorzystywany przez popularną wyszukiwarkę internetową Google. Został opracowany przez założycieli firmy Google Larry'ego Page'a i Sergeya Brina podczas ich studiów na Uniwersytecie Stanforda w 1998 roku. Nazwa algorytmu pochodzi nie od angielskiego wyrazu określającego stronę (ang.
page), lecz od nazwiska twórcy, czyli Larry'ego Page'a.
Pochodzenie
PageRank jest rozwinięciem znanej od dawna heurystyki, wedle której jakość tekstu jest
proporcjonalna do liczby tekstów na niego się
powołujących. Ulepszenie zaproponowane przez autorów Google polegało na ważeniu jakości
odnośników wskazujących na rozpatrywany tekst ich własną wartością PageRank. Innymi słowy: jeśli na dany tekst powołuje się artykuł, który sam ma wysoką ocenę, ma to większe znaczenie, niż gdy na ten sam tekst powołuje się mało popularna
strona.
Algorytm
Szczegóły właściwego algorytmu nigdy nie zostały upublicznione i są jednymi ze ściśle strzeżonych tajemnic Google. Do tego są najprawdopodobniej
sukcesywnie poprawiane, aby zwiększać efektywność mechanizmu. Wszystkie informacje dostępne jawnie przedstawiają jedynie wzorcową wersję algorytmu stosowanego w wyszukiwarce Google
Składowe wzoru algorytmu
● PR - PageRank danej strony
● d - współczynnik tłumienia, liczba pomiędzy 0 i 1. Dla obliczeń przyjmuje się zazwyczaj wartość 0.85
● N - liczba stron internetowych
● L - liczba linków do których odsyła dana strona internetowa
Algorytm ten można interpretować jako znajdowanie stanu ustalonego w łańcuchu Markowa, albo jako
problem diagonalizacji macierzy. Nietrywialną kwestią techniczną pozostaje implementacja tego algorytmu, aby nadawał się do przetwarzania danych opisujących sieć WWW.
Przykład
Problem mamy taki jak na
rysunki czyli mamy 4 strony które wzajemnie na siebie linkują zgodnie z rysunkiem.
PageRank początkowe
każdej strony ustalamy na 1. A współczynnik d na 0,85
Rozwiązanie
0/10 0.15 0.9 1/10 0.9 5.4 2/10 5.4 32.4 3/10 32.4 194.4 4/10 194.4 1,166.4 5/10 1,166.4 6,998.4 6/10 6,998.4 41,990.4 7/10 41,990.4 251,942.4 8/10 251,942.4 1,511,654.4 9/10 1,511,654.4 9,069,926.4 10/10 9,069,926.4 0.85 ? N + 0.15
Google Toolbar
Istniej wiele sposobów na sprawdzanie notowania PageRank aktualnie przeglądanej strony lub dowolnej strony która została podana jako wynik wyszukiwania wyszukiwarki.
Jednym z sposobów są wtyczki do przeglądarek.
Google Toolbar to wtyczka do przeglądarek internetowych, oferowana bezpłatnie przez Google Inc., instalująca dodatkowy pasek narzędziowy.
UWAGA
Należy zwrócić uwagę, iż w zamian za darmowe oprogramowanie użytkownik zgadza się na śledzenie jego poczynań w sieci oraz wysyłanie danych ze swojego komputera.
open source
Istnieją też liczne wtyczki otwartego oprogramowania, spełniające analogiczne funkcje, m.in. googlebar
dla Firefoksa.
PageRank strony sprawdzać można również w wielu serwisach niezależnych np.:
●
http://www.page-rank.pl/
●
http://www.ranking.net.pl/pagerank.html
●
http://www.optymalizacja.com/pagerank.php
●
http://www.pageranktester.pl/sprawdz- pagerank.html
●
http://pagerank.kz1.pl/index.php
Serwisy niezależne
Serwisy różnią się między sobą kilkoma rzeczami np.:
●
możliwością wpisywania stron z parametrami
●
szybkością
●
wynikami
●
sposobem podawania adresu strony
●
szata graficzną
●
funkcjami dodatkowymi itp.
Poprawianie PageRank
Od czasu do czasu powstają i pojawiają się w internecie kolejne techniki oszukiwania Google. Ale istnieje
również wiele stałych i sprawdzonych sposobów podniesienia PR swojej strony np.:
● Wymiana linków
● Danie użytkownikom możliwość komentowania artykułów i dzielenia się nimi poprzez serwisy społecznościowe
● Pisanie artykułów i umieszczanie pod nimi linków do swojej strony jako źródła informacji
● Tworzenie dobrze opisanych banrów
HITS
HITS - algorytm opracowany przez Jona Kleinberga w 1998 z myślą o silniku przeszukującym pod
nazwą CLEVER, wykorzystywany do oceny relatywności tekstu względem termu.
Algorytm HITS zakłada, że dokumenty w zbiorze są ze sobą nawzajem połączone, tworząc pewnego rodzaju graf skierowany. W grafie tym węzłami są dokumenty, a krawędziami odnośniki. Krawędzie są skierowane w taki sposób, aby wskazywały na
element cytowany, a wychodziły z elementu
cytującego. Same założenia modelu wskazują na
naturalne wykorzystanie go odnośnie dokumentów
hipertekstowych jako zawierających odnośniki
Idee algorytmu
Algorytm HITS opiera się na dwóch ideach:
autorytetu (ang. authority) i koncentratora (ang.
hub). Dokumentem autorytatywnym (autorytetem) jest dokument cytowany wskazywany, taki, na który wskazuje wiele dokumentów (wiele dokumentów
cytuje ten dokument). Koncentratorem jest
dokument cytujący, który wskazuje na dokumenty autorytarne (dokument cytuje wiele ważnych
dokumentów).
Ulepszenia
W trakcie obserwacji zauważono, że autorytatywne strony relewantne do początkowego zapytania
powinny mieć nie tylko dużą liczbę odnośników, ale będąc autorytetami we wspólnym temacie, powinno istnieć znaczne pokrycie w zbiorze stron, które do nich odsyłają. Dlatego oprócz wyszukania wysoce autorytatywnych stron, spodziewano się znaleźć
koncentratory, czyli strony, które mają odnośniki do wielu autorytatywnych stron. To właśnie
koncentratory trzymają razem autorytety we wspólnym temacie i pozwalają pozbyć się
niepowiązanych stron z dużą liczbą odnośników.
Podgraf
Koncentratory i autorytety wykazują wzajemny, obopólnie wzmacniający związek (ang. mutually reinforcing
relationship). Dobry koncentrator to strona, która wskazuje do wielu dobrych autorytetów. Dobry
autorytet to strona, która jest wskazywana przez wiele dobrych koncentratorów. Autor zauważył, że rezultaty uzyskane poprzez czystą analizę struktury odsyłaczy dają o wiele lepsze rezultaty, niż wyszukiwarki oparte na przeszukiwaniu tekstu. W tym przypadku zastąpiono globalną analizę całej struktury odsyłaczy w WWW
bardziej lokalną metodą analizy małego skupionego podgrafu.
Technika konstruowania podgrafu jest zaprojektowana do uzyskania małego zbioru stron, który
najprawdopodobniej zawiera najbardziej autorytatywne strony dla danego tematu.
Ostatecznym wynikiem działania algorytmu jest lista
węzłów i autorytetów z największymi współczynnikami poprawności.
KONIEC
Przydatne linki:
● http://pl.wikipedia.org/wiki/%C5%81a%C5%84cuch_Markow a
● http://pl.wikipedia.org/wiki/Diagonalizacja
● http://pl.wikipedia.org/wiki/Google_Toolbar
● http://en.wikipedia.org/wiki/Jon_Kleinberg
● http://pl.wikipedia.org/wiki/Graf_%28matematyka%29
● https://addons.mozilla.org/pl/firefox/addon/googlebar/