Wyszukiwanie internetowe
Dr Agnieszka Nowak-Brzezioska
Tagi HTML
-czyli poprawny opis stronyWWW -(Informacje nagłówkowe,
Informacje opisujące dokument, Tytuł strony, Tagi właczające dodatkowe
pliki do dokumentu, Style, Skrypty)
Wyszukiwarki: wszystko co o nich powinniśmy wiedzied:
•Polski rynek wyszukiwarek, udział wyszukiwarek w
rynku,
Jak działaja wyszukiwarki? (4 elementy wyszukiwarki: pajaczek,
indeks, baza danych, program wyszukujacy), Co czytaja pajaczki?,
Link
Popularity,
Jak tworzony jest ranking?
Metody wyszukiwania informacji:
• wyszukiwanie boolowskie (omówienie podstawowych operacji + analiza
wyników dla Google i innej wyszukiwarki)
•wyszukiwanie wg frazy,
• wyszukiwanie strukturalne (V SM - Vector Space Model),
•webring
•oraz wyszukiwanie wg słów kluczowych,
•Wyszukiwanie rozmyte
1 google.com 86.0% 86.0% 85.3%
2 onet.pl 6.1% 5.8% 6.0%
3 wp.pl 4.5% 4.0% 4.8%
4 msn.com 0.9% 1.0% 1.4%
5 interia.pl 0.9% 1.2% 1.0%
6 szukacz.pl 0.6% 0.7% 0.5%
7 yahoo.com 0.4% 0.3% 0.3%
Historia Google + statystyki
PageRank - założenia
Działanie
● Wyobraźmy sobie internautę klikającego losowo w odnośniki w nieskończoność
● Internauta zaczyna z losowo wybranej strony u z pewnym prawdopodobieństwem , gdzie
● Z pewnym prawdopodobieństwem internauta znajdzie się na stronie v
] [u
po
p0[u] 1 ] u1[v p
Wyszukiwanie w Google: advanced operators reference, Google Calculator
Składnia specjalna daje nam możliwośd lepszego wyszukiwania po elementach stron:
Intitle:, allintitle:, inurl:,allinurl: ,intext
inanchor: ,site: ,link:,daterange:, filetype: ,related: , info: ,phonebook: ,
zawężenie do Google grups:
Author:group:insubject Location:
source
Google Labs
Google Video (http://video.google.pl/) Froggle
Page Creator Google Reader Google Toolbar Google Desktop Google Maps
Google Mars Gmail
Kalendarz Google GDrive – dysk online Google Analytics
Google Alerts -Połączone z serwisem Google News, Picasa to menedżer plików graficznych
Google Earth Google Code SketchUp
Google API
API (Application Programming Interface) – oznacza możliwośd programowego dostępu do określonych aplikacji.
Wiosną 2002 r. Google wprowadziło Google Web API (http://api.google.com/)
Pozwoliło to użytkownikom wykorzystad wyniki wyszukiwania Google wg swoich potrzeb.
Należy jednak zaznaczyd, że Google Web API nie pozwala na wykonywanie wszystkich zapytao (np. phonebook).
Data Mining - wprowadzenie do metod eksploracji wiedzy
• odkrywanie asocjacji (associations) znajdowanie reguł typu:
piwo -> orzeszki
• wzorce sekwencji (sequential patterns) znajdowanie sekwencji dot. np. zakupów klienta:
(TV, video, kamera)
• klasyfikacja (classifications) klasyfikacja danych do grup ze względu na atrybut
decyzyjny, np.: klasyfikacja klientów przez bank do grup: dad kredyt / nie dad kredytu
• analiza skupień (clustering) grupowanie danych na wcześniej nieznae klasy, znajdowanie wspólnych cech, np.:
wyodrębnienie różnych rodzajów klientów – różnych taryf – przez sied telefonii komórkowej
Na czym polega grupowanie ?
Obiekt jest przydzielony do skupienia, którego środek ciężkości leży najbliżej w sensie odległości euklidesowej.
Carrot2 a Google
Samoorganizujące się mapy dokumentów SOM
SOM i WebSOM
Reguły asocjacyjne - sklepy internetowe - analiza koszykowa
personalizacja stron WWW - Web Mining
iGoogle
Text Mining a inteligentne wyszukiwarki internetowe (hakia, start, answerBus)
Bibliografia
http://project.carrot2.org/publications.html - publikacje odnośnie samego systemu, zaimplementowanych w nim algorytmach, clusteringu itp.