Szperacze
„Potrzebne są szalupy przed zalaniem wiedzą”
Sławian Trocki
szperacze
Postać cyfrowa
Dane o 0,1% zasobów w szperaczach
Szperacze, wyszukiwarki – search engines
• Pierwszą wyszukiwarką informacji w Sieci była stworzona w 1990 roku przez Alana Emtage’a „Archie”. Była to baza danych, której zawartość porównywano z zapytaniami zainteresowanego.
• Katalogi zbiorów w publicznych anonimowych serwerach FTP:
„Gopher”, zbudowany w 1991 r., „Veronica” (Very Easy Rodent-Oriented Net-wide Index to Computerized Archives) i
„Jughead” (Jonzy’s Universal Gopher Hierarchy Excavation And Display), które przeszukiwały zbiory zaindeksowane przez Gophera.
Pierwszy serwer – Web-crawler
• 1994 r. – gromadził informacje o zasobach Sieci w postaci tzw. Indeksów;
• Pierwszy indeks, w Carnegie Mellon University’s Lycos, zawierał dane o pięćdziesięciu czterech tysiącach dokumentów;
• 2004r. – dane o ponad czterech miliardach dokumentów.
Matt Naeger, The Growing Battle Between Content & Commerce, http://www.mediapost.com/ Thursday [Feb. 10, 2005].
Search Engine Market Share Worldwide
Zasada pracy szperacza
• Wyniki szperaczy – linki do wyszukanych zasobów – są wyświetlane w postaci stronicy search engine results page – SERP.
• Główne szperacze wyświetlają zazwyczaj trzy rodzaje list SERP:
– wynikające z indeksacji dokonywanej przez automaty, – przez ludzi,
– różnych form opłat za umieszczanie adresów stron na tej liście – tak zwany sponsoring.
• Interesującym źródłem informacji o bieżącej kolejności (aktualizacja co 12 sekund) pierwszych dziesięciu słów kluczowych w 17 kategoriach jest: http://hot.aol.com/hot/hot.
Indeks
• Zasób informacyjny o zawartości poszczególnych stron w całej lub wyróżnionej części Sieci.
• W indeksie do poszczególnych słów kluczowych/haseł są dołączone adresy stron, w których hasła te występują (podobnie jak w książce telefonicznej numery telefonów są przyporządkowane do nazwisk).
Indeksacja
• W zdecydowanej większości wykonują ją automaty – specjalne programy: pająki, roboty („spidery”, „crawlery”).
• Szperacz udziela odpowiedzi na zadawane pytania o adresy stron, zawierających określone słowa–klucze, nie wyszukując ich w Sieci, a przeglądając gotowy indeks.
• Fundamentem każdego indeksu są metadane, stanowiące sumę informacji o informacjach, np. dotyczące struktury opisu określonego materiału: nazwa strony, jej adres, tytuł, pierwszy akapit.
Ilustracja działania procesu
indeksacji
URL: http://webreference.com/authoring/robots/1
Jak robot pracuje?
URL: http://webreference.com/authoring/robots/1
Jak robot pracuje?
Indeksacja strony
podstawowe źródła indeksowanej strony
• Tytuł strony + opis
• Treści
• Wyróżnione słowa
• Treści w nagłówkach
• Odnośniki i opisy
• Atrybuty (alt i title)
• Wiek domeny
• Linki wewnętrzne
Indeksacja – utrudnienia
• Ograniczone możliwości rozpoznawania niektórych form zawartości stron. Chodzi tu o zasoby multimedialne (obrazy, muzyka) i o skomplikowane składowe stron, których szperacze „nie widzą”, są to m.in.: JavaScripty, ramki, flashe.
• Rozwiązanie – tzw. doorway pages.
Mapa strony
• Sposób na poprawę indeksacji strony i przewodnik dla odwiedzających.
• Tworzenie map witryn: Google akceptuje mapy witryn internetowych w wielu formatach ale zaleca stosowanie takich, które są zgodne z protokołem Sitemap. Mapy witryn w tym formacie można przesyłać także do innych wyszukiwarek, których właściciele należą do zrzeszenia sitemaps.org, takich jak Yahoo!
czy Bing.
• Narzędzia Google’a: www.google.com/webmaster/sitemaps.
Doorway pages (DP)
• Nazywane także: mirror sites, jump page, entry page, bridge page – to strony, których zadaniem jest zdobywanie jak najwyższych notowań w szperaczach.
• Są to specjalnie spreparowane kopie oryginalnych stron – łatwe do indeksowania i uwzględniające stosowane przez szperacze kryteria ocen.
• Celem ich uruchamiania jest m.in. zamieszczanie odpowiednio dobranych słów kluczowych, które zwracają uwagę „pająków” szperaczy.
• Mają różne rozmiary i formy. Dołączane są do nich wersje obcojęzyczne (jedno z kryterium oceny stron przez szperacze). DP są często generowane automatycznie przez komputer. Ich forma jest mało atrakcyjna wizualnie, z założenia prosta – tekstowa.
Roboty szpiegujące (spambots)
EmailSiphon i Cherry Picker
Wyszukują adresy mailowe ofiar
do listy spamowej. Wyszukują dwa rodzaje informacji:
• E-mail adresy, dla rozsyłania spamu;
• Hyperlinks, wykorzystywane przez robota do dalszych poszukiwań. URL: http://webreference.com/authoring/robots/1
Automaty – Crawler-based search engines
• Korzystają ze specjalnych programowych robotów (spiders, crawlers) do pozyskiwania informacji ze Stron np.: Google, Teoma, Inktomi i FAST.
• Podstawowe 3 zadania automatów:
– „znajdź i przynieś” – budowanie listy słów i fraz znalezionych na Stronach;
– Twórz indeks lub bazę danych słów lub fraz;
– Pozwól internautom korzystać z indeksów – wyszukiwać adresy stron najbardziej pasujące do pytań.
Silniki wyszukiwarek
• Google’a – Onet.pl;
Interia.pl
• NetSprint – WP.pl
Search Engine Results Page -
SERP
Stronica, której treść stanowią wyniki pracy szperacza. Zazwyczaj główne szperacze wyświetlają trzy rodzaje list SERP: listy wynikające z indeksacji dokonywanej przez automaty, przez ludzi i wynikające z opłat za umieszczanie adresów stron na tej liście.
WEB 2.0. – społeczne media
• Uzupełnieniem procedur gromadzenia informacji o zasobach w Sieci jest inicjatywa, podobna do Wikipedii, kategoryzowania zasobów przez samych internautów (np.
del.icio.us, Flickr, Furl czy Technorati).
• Zasoby te – „społeczne media” – zdobywają szybko rosnącą popularność i stanowią element drugiego etapu rozwoju Internetu.
• Wykorzystane do tego tagi/znaczniki umożliwiają tworzenie własnych kategorii informacji i łatwiejsze ich lokalizowanie.
Tagi
• Informacje zostają „otagowane” – przyporządkowane odpowiedniej kategorii, sygnalizuje to ich popularność.
• 1/3 internautów korzysta z tagów.
• Np. del.icio.us
BrightPlanet – Deep Content
Search Engines: Dragging a Net Across the Web's Surface
Zasoby ukryte w Sieci (Dark Net)
• Deep Web i pNet zbudowane na bazie P2P – nazywane – F2F (przyjaciel do przyjaciela), np.
Freenet.
• Zasoby te są tysiąc razy większe od dostępnych w tradycyjnej, indeksowanej przez wyszukiwarki sieci WWW.
Wyszukiwarka głębokiej sieci
Wyszukiwarka głębokiej sieci
Wyszukiwarka głębokiej sieci
Więcej na „4. Usługi w Internecie”
Zwiększanie popularności określonej witryny
• Wykorzystanie mechanizmów modułu szperacza, który odpowiada za automatyczne nadawanie oceny, rangi strony - PageRank. Dzięki niemu określona witryna uzyskuje popularność (wysoka pozycja SERP) proporcjonalną do liczby wskazujących ją linków na innych stronach.
• W zabiegu, niekontrolowanego przez szperacza, zwiększania oceny strony
wykorzystano efekt uboczny PageRank. Polega on
na wiązaniu pozycjonowanego linku, na liście SERP, ze słowami kluczowymi na stronach, zawierających link do sztucznie eksponowanej strony.
• Innymi słowy wystarczy przekonać stosowną liczbę właścicieli stron do zamieszczenia na ich stronach linków do strony ABC w otoczeniu słowa kluczowego „polityk”, by wpisując słowo „polityk” szperacz wyświetlił link do strony ABC na wysokiej pozycji SERP.
Pozycjonowanie
• Słowa kluczowe, lepiej frazy (długi ogon),
• Podpowiedzi Google Adwords,
• Linki z innych stron.
Google bombing
• Wpływ na PageRank. Opis odnośnika:< a
„href=http://www.stronapolecana.pl”>opis odnośnika</a>
• Opis odnośnika, np.: dobry, zły, komputer,
kłamca, wpływa na pozycjonowanie
wyszukiwania wg tych słów-opisów.
Najważniejsze problemy troski o popularność Strony
• Rozpoznanie (indeksowanie) przez szperacze nowoczesnych, wyrafinowanych składowych konstrukcyjnych.
• Idzie tu o takie elementy jak: ramki,
dynamiczne URLe, flashe, obrazy i elementy
Javascriptu.
Waga słów kluczowych
Słowa – hasła lub całe frazy, opisujące
treść Witryny. Są one umieszczane w
określonym, widocznym dla indeksującego
szperacza, a niewidocznym dla Internauty,
miejscu Witryny
Najważniejsze słowa kluczowe
• Google's Webmaster Tools – informacje o wyświetlaniu słów kluczowych i poprawnej segmentacji informacji;
• Google Keyword Tool: dobór słów kluczowych, na jakie urządzenia (PC, mobilne), analiza strony – sugestie słów;
• Google Analytics do identyfikacji najskuteczniejszych słów kluczowych.
Najpopularniejsze długoogonowe zapytania w 2019 r. to:
•
1. Co to jest escape room - 6 600•
2. Co to jest apostazja - 590•
3. Co to jest większość konstytucyjna - 50•
4. Co to jest PPK - 390•
5. Co to jest SPA - 1 300•
6. Co to jest LGBT - 5 400•
7. Co to jest nutrikosmetyk - 590•
8. Co to jest pistol - brak danych•
9. Co to jest kerozyna - brak danych 10. Co to jest mirra - brak danychhttps://www.artefakt.pl/blog/seo/najpopularniejsze-dlugoogonowe-wyszukiwania-w- google#Najczesciej_wyszukiwane_slowa_kluczowe_w_Google
Pozyskiwanie linków
• E-WebLink – rotacyjny system wymiany linków;
• Statlink – statyczny system wymiany linków;
• Inne systemy wymiany linków: linkuj.pl;
linkme.pl; livelink.pl; elitelink.
Waga fraz
• Stosowanie pojedynczych, bardzo ogólnych słów kluczowych opisujących ofertę na potraktowanie jej przez szperacza jako jednej z wielu podobnych do konkurencyjnych.
• Celowe jest zatem stosowanie fraz, które zwiększają prawdopodobieństwo wybrania naszej Strony przez poszukującego określonej informacji.
Waga tytułu Strony
• Większość szperaczy właśnie ten element zaznacza jako najważniejszy w klasyfikowaniu/range’owaniu Stron.
• Duże znaczenie tytułu Strony zachęca do powielenia przez konstruktorów, w miejscu tytułu, słów kluczowych, grozi to jednak potraktowaniem przez szperacze, tego zabiegu, jako spam (niechciane informacje, o których będzie jeszcze mowa dalej).
Waga liczby słów
• Kolejnym ważnym elementem Strony jest tekst każdej Stronicy. Powinien być on logiczny, merytoryczny i związany z deklarowanymi słowami kluczowymi Strony.
• Doświadczenia wskazują, iż Stronica, ze względu na oczekiwania szperaczy, powinna zawierać około 200 słów.
• O znaczeniu tekstu Stronic decyduje duża waga, jaką przywiązują szperacze do tekstów.
Waga Meta-Tags
• Początkowo (kilka lat temu) ten element Witryny był podstawowym źródłem danych dla szperacza o jej treści.
• Aktualnie Meta Tags są jednym z wielu elementów mających wpływ na wyróżnianie przez szperacze Stron w Sieci.
• W tym miejscu sugerowane jest wprowadzanie opisów Strony w liczbie mnogiej, słów kluczowych z błędami (także ortograficznymi!) oraz określenia geograficznej lokalizacji, której dotyczy treść Strony.
Pierwszy akapit
• Najczęściej Internauci poszukujący informacji decydują o przydatności określonej Strony na podstawie treści jej pierwszego akapitu.
• Decyduje on o pierwszym, a bywa, że i
ostatnim, wrażeniu odwiedzającego Stronę.
Wiek strony
• Whois onet.pl,
• http://archive.org/web/web.php,
• Należy kupować stare domeny –
wyższa pozycja w PageRank
(dropped.pl, aftermarket.pl, az.pl).
310 miliardów stron
(styczeń 2018)
Liczba kryteriów
• Czym lepszy szperacz, tym większa liczba kryteriów rangowania Stron.
• Na przykład Google stosuje ponad
100 kryteriów w procesie oceniania
Witryny.
Range’owanie
• Lokalizacja (w którym miejscu Strony) /częstotliwość występowania słów;
• Powiązania słów kluczowych z innymi, często występującymi w ich sąsiedztwie;
• „Sympatia” do Stron. Strony o dużej liczbie wskazujących je linków; stosowanie opłacania linków i zautomatyzowane metody, np. SWL;
• Zbyt częste powtarzanie słowa kluczowego na Stronie traktowane jest jako spam.
Technologie pozyskiwania
informacji o zawartości WWW
• Indywidualne zgłoszenia stron szperaczom, m.in.: Searchenginewatch; com/webmasters;
AddPro; AddMe.com; SubmitExpress.
• Zgłoszenia kieruje się do: Alexa; ScrubTheWeb;
AllTheWeb; LookSeek/ ExactSeek; Jayde;
Lycos; Dogpile; Metacrawler i VivisimoVivisimo.
Obrazy
• Sugerowane jest wprowadzanie tekstowej informacji o zamieszczonych na Stronie obrazach.
• Opis ilustracji powinien być zawarty w tekście przeznaczonym do czytania, w tytule lub w innych miejscach informujących o zawartości Strony.
• Podobnie jest z pozostałymi elementami multimedialnych Witryn – z grafiką, dźwiękiem i video.
Sześć kroków optymalizacji obrazów dla SEO
1. Zapewnienie kontekstu obrazu do tekstu słów kluczowych.
2. Nadanie poprawnej nazwy obrazom.
3. Dobranie stosownej wielkości obrazu.
4. Optymalizacja wagi (wielkość, kompresja).
5. Korzystanie z deskryptorów atrybutów ALT i TITLE.
6. Załączać opis obrazka.
http://www.clickz.com/print_article/clickz/column/2039234/steps-optimizing-images-seo
Ocena stron przez szperacze
• Na poprawną konstrukcję strony składają się co najmniej dwa elementy:
• spełnienie oczekiwań jej adresatów (treść i forma);
• wysokie notowania wobec kryteriów ocen stron stosowanych przez szperacze.
• Celem jest uzyskanie jak najwyższej pozycji adresu strony na liście SERP.
Troska o atrakcyjność strony
• wykluczyć spam (zbyt częste zgłaszanie strony do szperacza); karą za spam jest ignorowanie przez szperacze spamującej witryny,
• unikać wstawiania słów kluczowych w innych, od przeznaczonych do tego celu, miejscach na stronie,
• nie wpisywać fragmentów tekstów czcionką o tym samym kolorze jak tło,
• unikać stosowania wielu tytułów dla jednej strony,
• unikać zgłaszania kopii tej samej strony pod innymi nazwami,
• nie zgłaszać tej samej strony częściej niż raz na 24 godziny,
• nie stosować jako identyfikatorów (słowa klucze, meta tags) słów, które nie są merytorycznie związane z treścią strony.
• Bardzo pomocne w procesie konstruowania strony jest korzystanie z analitycznego oprogramowania służącego do oceny stron, np. WebTrends, ClickTracks, HitBox.
Monitorowanie skuteczności SEO
• Statystyki odwiedzin w Google Analytics.
• Dane prezentowane w panelu Google Webmaster Tools.
• Koszt analizy serwisu pod kątem błędów zależy od stopnia skomplikowania strony. Cena audytu jest niższa od przygotowania dokumentacji optymalizacyjnej serwisu pod kątem SEO.
http://searchengineland.com/seotable
Liczby stronic i procenty oglądających je internautów
Liczba oglądanych Stronic Procent Internautów
1 9,52
1-2 54,60
2-3 16,56
3-4 8,75
4-5 4,43
6-7 1,41
7-8 0,85
8-9 0,68
9-10 0,51
Ponad 10 2,69
Spam szperaczy
• niezwiązane z treścią strony słowa kluczowe,
• przekierowywanie pod inny adres,
• zbyt duża liczba słów kluczowych,
• wielokrotne powielanie tych samych treści na tej samej stronie,
• niewidoczny tekst (małe znaki),
• doorway pages,
• linki ze stron stworzonych tylko dla linków,
• ukrywanie, maskowanie rzeczywistych treści,
• stosowanie nieodpowiednich do treści strony słów kluczowych,
• publikowanie nonsensów,
• ukrywanie tekstu (np. wyświetlanie w tym samym kolorze co tło),
• spam domenowy (tworzenie stron wyłącznie w celu promowania określonego portalu),
• ukryte linki,
• mini/mikro-strony,
• przełączanie stronic (bait &switch),
• podszywanie się pod adres, np. www.onett.pl.
Zmiany w algorytmach range’owania
• Pingwin 2.1 (X.2013)
• Cel: ograniczanie sztucznego pozycjonowania. Dopuszczalne
tylko „white-hat-seo”.
Szperacze tematyczne – grafika
• Strona Gooru.pl, ułatwiająca wyszukiwanie grafiki, logo, dzwonków, SMS-ów graficznych, tapet, ikonek, banerów.
• Wśród globalnych szperaczy w tym zakresie wyróżnia się:
• Google.com/images;
• Altavista.com/images;
• multimedia.altheweb.com;
• ditto.com;
• multimedia.lycos.com;
• artresources.com.
Media
• www.newslink.org – udostępniono w niej rozbudowane funkcje wyszukiwania wiadomości w różnych kategoriach, np.: prasa codzienna, periodyki, radio i telewizja. Najbogatsza część tych zasobów dotyczy USA.
• Podobny charakter ma portal www.worldinfozone.com.
• Przykładami polskich portali, które dotyczą mediów, są: Wirtualnemedia.pl; Mediarun.pl; Press.pl.
Lista e-czasopism (Full Text Finder)
• Narzędzie to umożliwia wyszukiwanie tytułów czasopism pełnotekstowych ze
wszystkich prenumerowanych na UW baz i czasopism elektronicznych.
• Pełni funkcję katalogu pełnotekstowych czasopism elektronicznych
udostępnianych w sieci UW.
Dzięki Full Text Finder
• nie trzeba poszukiwać interesującego
tytułu czasopisma w każdej z baz po kolei.
• Po znalezieniu tytułu na liście e-
czasopism, przez aktywny link, można dotrzeć do zasobu czasopisma i tekstu artykułu.
• Wyszukiwanie może odbywać się przez tytuł czasopisma lub przez dziedzinę.
Dodatkowo nowa lista indeksuje również książki elektroniczne z eBook Academic Collection.
• Więcej informacji o Text Full Finder
Nauka. Biblioteka UW
– https://www.buw.uw.edu.pl/
– https://www.buw.uw.edu.pl/zasoby-online/
– http://katalog.nukat.edu.pl/search/query?theme=
nukat
https://www.buw.uw.edu.pl/zasoby- online/narzedzia-wyszukiwania/
• Multiwyszukiwarka naukowa EDS (EBSCO Discovery Service)
• Multiwyszukiwarka umożliwia zintegrowane
przeszukiwanie zasobów elektronicznych oraz Katalogu Bibliotek UW. Pozwala na wyszukanie np. artykułu z
czasopisma lub rozdziału z książki.
• Kryteriami wyszukiwania mogą być m. in.: nazwiska autora, tytuły publikacji, słowa kluczowe oraz wiele innych parametrów.
• Więcej informacji o multiwyszukiwarce EDS
• Multiwyszukiwarka – przewodniki wideo
Nauka świat
• CORE provides access to 77,704,956 free to read full text research papers with 26,177,908 full texts hosted directly by CORE
• It's the biggest collection of open access full texts, making it an unparalleled research tool. It's over 45 terabytes (TB) of textual data.
Nauka - świat
•https://doi.org/
•https://ascelibrary.org/
•https://www.base-search.net/
•https://www.semanticscholar.org/
•https://citeseerx.ist.psu.edu/index
•https://cedb.asce.org/CEDBsearch/
•https://core.ac.uk/
•https://www.deepdyve.com/
•https://dblp.org/
•https://www.econbiz.de/
•https://www.mysciencework.com/
•https://www.science.gov/
•https://www.scienceopen.com/
•https://www.mdpi.com/
•https://www.springer.com/gp
•https://worldwidescience.org/index.html
•http://yadda.icm.edu.pl/
•https://unesdoc.unesco.org/library
•https://app.dimensions.ai/discover/publication
•https://www.tib.eu/en/
•https://doaj.org/
•https://www.researchgate.net/
• https://academic.microsoft.com/
•https://scielo.org/en/
http://logistykamediow.pl/site/bazy-i-wyszukiwarki-naukowe/
Katalogi online
• Katalogi UW
• NUKAT – Katalog Zbiorów Polskich Bibliotek Naukowych
• Katalogi Biblioteki Narodowej
• FIDKAR – multiwyszukiwarka dla komputerowych baz bibliotecznych
• KaRo – Katalog Rozproszony Bibliotek Polskich
• Biblioteki Warszawy – zintegrowana wyszukiwarka zbiorów bibliotek publicznych stolicy
• POLANKA – Katalogi Bibliotek Anglistycznych
• The British Library
• The Library of Congress
• KVK – Karlsruhe Virtual Catalog
• WorldCat
• The National Library of Russia
• Bibliotèque nationale de France
• Virtual International Authority File (VIAF)
Omnibusy – pytania do Sieci
• Google Answers,
• GoAsk Alice! (serwis obejmujący tematykę zdrowia),
• Google Q&A Service, Ask Jeeves, Answers.com (jeden z najlepszych),
• Brainboost.com,
• Ask Jeeves,
• Inne adresy serwisów udzielających odpowiedzi:
– http://google.com/search?q=%22ask+an+expert%22 – aktualna lista stron świadczących usługi udzielania odpowiedzi z pomocą ekspertów;
– http://www.microsoft.com/windowsxp/expertzone;
– http://www.ask.com/ – udzielanie odpowiedzi związanych z produktami Microsoftu;
scholar.google.com – teksty naukowych cytatów, informacje o zasobach bibliotecznych, które nie są dostępne online.
Szperacze multimedialne
• Szperacze wideo (m.in. Google, Yahoo!, MSN) umożliwiają wyszukiwanie, przeglądanie (na zasadzie podglądu), odtwarzanie i ściąganie plików wideo. Są to wiadomości (często uszeregowane w kolejności od najczęściej oglądanych), reklamy filmów, a także tradycyjne reklamy towarów i usług.
• Wyszukiwanie obrazów na podstawie opisów ich treści. Zapowiedzią takiego rodzaju szperacza jest system Diamond, który udostępnia funkcje np.
wyszukiwanie obrazów postaci ubranych w określony sposób – np. mają ubranie koloru czerwonego. Prowadzone w tym kierunku prace przez MIT, Carnegie Mellon i Yahoo! koncentrują się na automatycznym indeksowaniu kształtów, wyglądu twarzy, a także form ruchu. Dane te uzupełniane są informacjami o logo i tekstowymi wstawkami materiałów filmowych
Szperacze multimedialne
• ditto.com
• gallery.Yahoo!.com
• altavista.com/sites/search/simage
• multimedia.alltheweb.com
• multimedia.lycos.com
• streamsearch.com
• music-robot.com
• photoseek.net
• audioFind.net
• music.Cnet.com
• dgolpe.com
• getsongs.com (multiszperacz)
• music.lycos.com
• Napster, Gnutella
Szperacze desktopowe
• Istota ich funkcjonowania polega na przeszukiwaniu zasobów informacyjnych komputera, w tym każdego słowa i fraz, które stanowią treść poczty elektronicznej, załączników, folderów, kontaktów zapisanych w Outlooku oraz plików zapisanych w innych formatach, np. pdf.
• Czas wyszukiwania informacji jest praktycznie niezauważalny: zazwyczaj rezultaty pokazują się w trakcie pisania zapytania – odpowiednio do liczby wprowadzanych znaków pytania-klucza. Bardzo użyteczna jest możliwość podglądu, w sąsiednim oknie, zawartości wyszukanych plików.
Ważną funkcją desktopowych szperaczy jest bieżący i jak najmniej przeszkadzający proces indeksacji zasobów peceta.
Formy desktopowych szperaczy
• Dostarczane wraz z systemem operacyjnym, np. Product Apple w OS X Tiger lub szperacz Windowsów i bardziej zaawansowany, w nowej wersji Longhorn/Vista.
• Komercyjne produkty szperaczy: dtSearch, Enfish Software, ISYS Search Software oraz bezpłatne produkty Copernic Technologies.
• Sieciowe/Webowe szperacze: Ask Jeeves, Google, MSN, Yahoo i inne podobne narzędzia w postaci dedykowanego paska zadań.
• Rozszerzenie szperacza Exaled – one: desktop 4.5.
Oceny (w skali 1 – 5)
desktopowych szperaczy
1 2 3 4 5
Copernic Destop Search/1.5 Beta Yahoo! Desktop Search/1.1 Beta W zetech Archivarius 3000/3.14 MSN Toolbar Suite/2.0 Beta Google Desktop/1.0 Ask Jeeves/1.0 Beta Enfish Professional/6.1 ISYS Desktop/6.0 dtSearch Dstop/6.5 diskMETA Pro/1.0.1 Blinkx/3.0 HotBot Desktop/Beta
Najlepsze desktopwe
http://lifehacker.com/5988004/five-best-desktop-search-applications
Dla OS Windows
Szperacze dołączane do przeglądarek
• Wiele szperaczy oferuje narzędzia – wtyczki, które po dołączeniu do przeglądarek tworzą zintegrowany ze szperaczem program umożliwiający jednoczesne wyszukiwanie i przeglądanie stron – toolbar – miejsce do wpisywania słów kluczowych oraz bardziej złożonych pytań dotyczących np. wiadomości, notowań giełdowych, a także uruchamiania dodatkowych funkcji, takich jak poczta elektroniczna, blokowanie niektórych form reklam (pop-up).
• Np. A9 – Google Toolbar, umożliwia – poza wspomnianymi funkcjami – korzystanie z wielu użytecznych funkcji, między innymi rejestrowanie wszystkich odwiedzanych stron i informowanie internauty o stronach, które już były odwiedzane, a także ich uporządkowane rejestrowanie.
Projekt
Wizualizacja SERP 1/3
Twórcami Carrot Search są Polacy.
Wyszukiwarka jest angielskojęzycznym projektem.
Korzystanie z niej wymaga uiszczenia opłaty, przedtem można jednak wypróbować jej możliwości, używając wersji demonstracyjnej.
https://carrotsearch.com/
Projekt
Wizualizacja SERP 2/3
PCWorld, III/2013
Wizualizacja SERP 3/3
PCWorld, III/2013
Megaszperacze/multiwyszukiwarki
• Łączenie świadczonych usług w ramach jednego bardziej wszechstronnego szperacza – megaszperacza, hybrydy, metawyszukiwarki np.: http://www.dmoz.com/about.hml, jeden z największych otwartych projektów tworzonych przez entuzjastów na całym świecie.
• Systemy te gromadzą wyniki poszukiwań (adresy stron) z różnych źródeł, a ich najważniejszym zadaniem jest eliminowanie powtórzeń (adresów tych samych stron odszukanych przez „podwykonawców” hybrydy) w finalnym wyniku poszukiwania.
Megaszperacze – hybrydy
metawyszukiwarki, searchboty
• www.metacrawler.com,
• www.all4one,
• www.dogpile.com,
• ixQuick
• www.debriefing.com,
• www.help4web.net/search/Book/SuperS eek.html
• www.copernic.com (gratis)
• Google, Yahoo, Yandex
• Podział ze względu na rodzaj poszukiwanego pliku
• Poprawa pisowni
• Gigablast, Lycos, Looksmark, Overture, Wikipedia
• Podział wyników ze względu na źródła, czas pojawienia się
• Polityka „Family-friendly” – wyniki odpowiednie dla wszystkich grup wiekowych.
• Zawężanie wyszukiwania, zakładka
„Wiki”
• Duża ilość linków sponsorowanych
Przykłady
• http://www.1blink.com/
• http://www.37.com/
• http://www.aussieseek.com/
• http://www.debriefing.com/
• http://www.dogpile.com/
• http://www.gohip.com/
• http://www.infozoid.com/
• http://www.ixquick.com/
• http://www.mamma.com/
• http://www.themegaweb.com/
• http://www.metacrawler.com/
• http://www.metaeureka.com/
• http://www.metagopher.com/
• http://www.monstercrawler.com/
• http://www.mochanni.com/
• http://www.multimeta.com/
• http://www.mochanni.com/
• http://www.mygo.com/
• http://www.onesearch.com/
• http://www.profusion.com/
• http://www.questfinder.com/
• http://www.savvysearch.com/
• http://www.searchport.org/
• http://www.supercrawler.com/
• http://www.tsunamisearch.com/
• http://www.he.net/~kamus/use2en.htm
• http://www.whatsnu.com/
Korzysta m.in. z Google, Yahoo, Bing, Ask.com, About.com i innych wyszukiwarek;
Kategorie: sieć, obrazy, wideo, newsy, żółte strony, białe strony;
Dużo wyników na jedno zapytanie.
Megaszperacze
• www.dogpile.com
• Przykładami polskich multiwyszukiwarek są: RazDwaTrzy.com i www.emulti.pl.
• www.dogpile.com
• Przykładami polskich multiwyszukiwarek są: RazDwaTrzy.com i www.emulti.pl.
• Obserwowany kierunek rozwoju megaszperaczy, który polega na integracji danych o zasobach informacyjnych Internetu – stanowi docelowy model uniwersalnego narzędzia służącego do lokalizacji zasobów Sieci. Będzie to efektem istoty Internetu, który umożliwia, niepodobne do tradycyjnych, drukowanych, wszelkiego rodzaju spisów i katalogów – stworzenie ogólnodostępnego megakatalogu o cyfrowych zasobach informacyjnych świata. Poza korzyściami rodzi to, w następstwie centralizacji informacji, także zagrożenie – możliwość manipulowania strumieniem informacyjnym kierowanym do różnych grup społecznych, a nawet poszczególnych osób (personalizacja).
Multiwyszukiwarki
• www.emulti.pl (pl: netoskop, netsprint, szukacz, WP, Yandex (Rosja, 62% rynku); świat: Altavista, Excite, HotBot, Infoseek, WebCrawler)
• www.multimeta
• www.ixquick.com
• www.useit.com
• www.vivisimo.com
• www.metaeureka.com
• www.turbo10.com
Misją Google'a jest uporządkowanie światowych zasobów informacji tak, by stały się powszechnie dostępne i użyteczne
Larry Page
Potencjał Google’a
http://www.worldwidewebsize.com/
Niektóre usługi Google
• Gmail,
• Google Desktop,
• Froogle (usługa polegająca na porównywaniu cen w sklepach),
• Google Earth,
• Picasa (fotografie),
• Google Talk (otwarta platforma dla VoIP),
• + YouTube + DobleClick.
Nowe Google
• Wykupienie YouTube (1.65 mld USD);
• Zdalny arkusz kalkulacyjny (googlespreadsheets);
• Google notebook – kolekcjonowanie treści przeglądanych stron (sieciowy notes);
• Page creator – własna witryna przy pomocy Google;
• Related links – ciekawe linki na twojej stronie.
Inne zasoby
• Google EbookStore - udostępniono ponad 3 mln książek.
Korzystanie bezpośrednio z przeglądarki – pobieranie pliku nie jest konieczne.
• Google Music
• Emerald Sea – usługa społecznościowa.
• Google Health – m.in., po wprowadzeniu danych, informacje o najkorzystniejszych dla siebie dyscyplinach sportu, przypomnienie o najbliższej szczepionce.
Szukanie z Google’em 1/2
• WYSZUKIWANIE WEDŁUG KATEGORII: Po wpisaniu słowa kluczowego możemy zawęzić wyszukiwanie do zadanej kategorii treści, np. »Grafika«, »Miejsca«, »Książki« czy »Dyskusje«.
• OPCJE WYSZUKIWANIA GRAFIKI: Znalezione obrazy można filtrować według daty utworzenia, wielkości, a nawet koloru.
Można też ograniczyć wyszukiwanie do zdjęć twarzy, obrazów typu clip- art czy grafik wektorowych.
• HISTORIA WYSZUKIWANIA: Po zalogowaniu się na koncie Google kliknijmy ikonę ustawień, a następnie wybierzmy opcję »Historia online«. Google pamięta, czego szukaliśmy do tej pory.
Szukanie z Googlem 2/2
• GRAFIKA JAKO SŁOWO KLUCZOWE: Aby wyszukać w
Sieci obiekt przedstawiony w pliku graficznym, otwórzmy na stronie Google kategorię »Grafika«, a następnie kliknijmy ikonę aparatu w polu wyszukiwania i podajmy adres URL tego pliku lub załadujmy go bezpośrednio z dysku. W wynikach wyszukiwania znajdziemy zarówno strony, na których pojawia się ta grafika, jak i wizualnie podobne obrazy.
• ZAAWANSOWANE WYSZUKIWANIE: Kliknijmy ikonę
ustawień i wybierzmy opcję »Szukanie zaawansowane«. Wypełniając formularz zdefiniujmy dodatkowe kryteria i ograniczenia wyszukiwania. Podpowiedzi widoczne po prawej stronie wprowadzą nas w składnię pola wyszukiwania.
Study Suggests That Google Has Its Thumb on Scale in Search
DINO GRANDONI, NYT JUNE 29, 2015
• In the study, researchers from Harvard and Columbia presented 2,690 web users with two versions of Google. One version showed search results for local businesses as users usually see them, with links to the businesses along with ratings as posted to a Google site. The other version showed links to businesses along with ratings from rival sites like Yelp, the online review website, which paid for the study.
• The people studied were 45 percent more likely to click on links if Yelp and other competitors were included — a sign, researchers say, that users prefer more diverse search results.
Google – inwigilacja 1/4
• Google Search: gromadzi wiele różnych typów informacji o aktywności online.
• Przyszłe produkty będą zawierały gromadzenie danych i
„targetowanie” jako podstawowe cele.
• Wszystkie usługi Google (Google Search, Gmail, Orkut i Google Desktop) mają podlinkowane cookies, o czasie działania – 2038 r. Każdy z cookies ma globalny unikalny identyfikator (GuID) i może rejestrować wszystkie zadawane przez użytkownika pytania. Google nie kasuje żadnych informacji z cookies.
UNDERSCORING CLOUD SECURITY ISSUES (materiały)
Google – inwigilacja 2/4
• Orkut: Google’owy socialnetworking zawiera poufne informacje (nazwisko, adres mailowy, nr tel., wiek, adres pocztowy, status relacji, liczba dzieci, region i hobby).
• Gmail Patents: Patent #20040059712: “serving advertisements using information associated with email.”
(usługi reklamowe powiązane z mailami).
• Google Desktop: tekstowe informacje, arkusze kalkulacyjne, maile i obrazy. Indeks jest zapisany na lokalnym komputerze.
Google – inwigilacja 3/4
Chrome (przeglądarka) - ryzyko: każde
słowo, jego część wpisane do „belki”, nawet
bez kliknięcia w Enter/Return, jest
pobierane przez Google. Chrome
automatycznie wysyła te informacje
do centrali przy każdym wyszukiwaniu.
Google – inwigilacja 4/4
• Android (SO dla komórek): gromadzi informacje o wybieranych numerach, numery otrzymanych telefonów, przebieg poszukiwań w sieci, maile, lokalizacje geograficzne, w których telefon był używany.
• Google Health: produkt rejestrujący dane o zdrowiu (pracowników, indywidualnych osób). Wiele firm medycznych i farmaceutycznych (CVS Caremark, Walgreens, Longs Drugs) w USA zgodziło się na import ich baz danych.
Filtrowanie konkurencyjnych reklam
• Zauważono we Francji – dotyczy fotoradarów.
• Usługa firmy Navx jest ignorowana w Google.
• Google Product Search, wyżej pozycjonowany od Nokaut, Ceneo [PCWorld IV/2012].
October 28, 2010, Google, in Settlement, Changes Ad Rules in France By ERIC PFANNER, PARIS
Europeans Reach Deal With Google on Searches
• Google po raz pierwszy zgodził się na żądanie Europy na ograniczenie swojej dominacji wśród wyszukiwarek online.
• Nie zmieni algorytmów wyszukiwania, będzie zaznaczał źródła (Google Plus Local lub Google News) i pokazywał linki z konkurencyjnych wyszukiwarek.
By CLAIRE CAIN MILLER, NYT. Published: April 14, 2013
An Australia With No Google? The Bitter Fight Behind a Drastic Threat
• Jan. 22, 2021
• SYDNEY, Australia — In a major escalation, Google threatened on Friday to make its search engine unavailable in Australia if the government
approved legislation that would force tech companies to pay for journalism shared on their platforms.
• Facebook, which appeared with Google at an Australian Senate hearing, reaffirmed a threat of its own, vowing to block users in Australia from posting or sharing links to news if the bill passed.
• In both cases, the dire warnings — which one senator called blackmail — revealed the apparent willingness of Facebook and Google to hide or erase reliable sources of information for millions of people at a time when social media platforms are under fire for helping misinformation spread worldwide.
https://www.nytimes.com/2021/01/22/business/australia-google-facebook-news-
media.html?campaign_id=2&emc=edit_th_20210123&instance_id=26335&nl=todaysheadlines®i_id=4706125&segment_i d=50060&user_id=23d2bc947cb727be868a6d2665f7e191
https://www.statista.com/chart/1263 4/where-trust-in-government-is- highest-and-
lowest/?utm_source=Statista+Glob al&utm_campaign=951bf9ff81- All_InfographTicker_daily_COM_A M_KW03_2021_Tu_COPY&utm_m edium=email&utm_term=0_afecd21 9f5-951bf9ff81-306387617
Czy jesteś świadomy/ma (n>1000) ze wyszukiwarki takie jak np. „Google” pokazują tylko małą część
dostępnych informacji w internecie?
Robert Nałęcz, Problem bezpieczeństwa, zasobów ukrytej sieci, Praca dyplomowa, 2016.
Czy uważasz że treści zamieszczone w wyszukiwarkach sieciowych są
manipulowane?
Robert Nałęcz, Problem bezpieczeństwa, zasobów ukrytej sieci, Praca dyplomowa, 2016.
Google - Kara $189,225
• Niemcy ukarali Google’a za Street View = zarobek za 2 minuty pracy G.
• UE pracuje nad regulacją – kara do 2%
sprzedaży, dla G. = 1 mld. USD.
• W USA zapłacił 25 000 USD, Francuzom 100 000 (2011).
CLAIRE CAIN MILLER April 22, 2013 Stern Words, and a Pea-Size Punishment, for Googlen ytimes.com
Do Mountain View trafiło oficjalne zawiadomienie, w którym Bruksela zarzuca Google’owi nadużycie
monopolistycznej pozycji na rynku wyszukiwarek internetowych.
Google pod lupą UE
Google’owskie centra baz danych
http://www.google.com/about/datacenters/gallery/#/tech/2
http://www.google.com/about/datacenters/gallery/#/tech/2
BING
“But It’s Not Google”
• http://bing-vs-google.com/
• Szybciej odpowiedź – mniej
klikania, pytań
Why should you use Bing?
• Its video search is significantly better than Google’s, giving you a grid of large thumbnails that you can click on to play or preview if you hover over them.
• Bing often gives twice as many autocomplete suggestions than Google does.
• It can predict when airfares are about to go up or down on flight searches
• It has a feature where if you type linkfromdomain:[site name] it will highlight the best ranked outgoing links from that site, helping you figure out which other sites your chosen site links to the most.
https://www.clickz.com/2016/06/22/bored-of-google-heres-10-other-search-engines-to-try?utm_source=ClickZ+Global&utm_campaign=061dcac10e- 23_06_2016_NL&utm_medium=email&utm_term=0_33e702b796-061dcac10e-16613729
https://startpage.com/
Wyszukiwarka Startpage oferuje wyniki wyszukiwania stron internetowych
generowane przez Google z zachowaniem
pełnej prywatności!
https://duckduckgo.com/about
• Dostarczanie wyników wyszukiwania z gwarancją braku śledzenia.
• „Czyste wyszukiwanie” bez promocji
innych serwisów, np. społecznościowych
DuckDuckGo
A key feature of DuckDuckGo is that it doesn’t retain users data, so it won’t track you or
manipulate results based on your behaviour.
https://www.clickz.com/2016/06/22/bored-of-google-heres-10-other-search-engines-to-try?utm_source=ClickZ+Global&utm_campaign=061dcac10e- 23_06_2016_NL&utm_medium=email&utm_term=0_33e702b796-061dcac10e-16613729
Dogpile
Dogpile pulls in and ‘curates’ results from various different engines including Google, Yandex and Yahoo, but removes all the ads.
https://www.clickz.com/2016/06/22/bored-of-google-heres-10-other-search-engines-to-try?utm_source=ClickZ+Global&utm_campaign=061dcac10e- 23_06_2016_NL&utm_medium=email&utm_term=0_33e702b796-061dcac10e-16613729
Yandex
• This is the dominant search engine in Russia, and offers much the same features as the big G.
• As you can see it offers results in a nice logical format, replete with favicons so you can clearly see the various channels for your branded queries.
https://www.clickz.com/2016/06/22/bored-of-google-heres-10-other-search-engines-to-try?utm_source=ClickZ+Global&utm_campaign=061dcac10e- 23_06_2016_NL&utm_medium=email&utm_term=0_33e702b796-061dcac10e-16613729
Boardreader
If you want to get into the nitty-gritty of a subject with a variety of different points of view away from the major publications, Boardreader surfaces results purely from forums, message boards and, of course, Reddit.
https://www.clickz.com/2016/06/22/bored-of-google-heres-10-other-search-engines-to-try?utm_source=ClickZ+Global&utm_campaign=061dcac10e- 23_06_2016_NL&utm_medium=email&utm_term=0_33e702b796-061dcac10e-16613729
WolframAlpha
• This is a ‘computational knowledge engine’.
Ask WolframAlpha to calculate any data or ask it about any fact and it will give you the answer
• It also does this awesome ‘computing’ thing while it has a think about your answer (which can take a while.)
https://www.clickz.com/2016/06/22/bored-of-google-heres-10-other-search-engines-to-try?utm_source=ClickZ+Global&utm_campaign=061dcac10e- 23_06_2016_NL&utm_medium=email&utm_term=0_33e702b796-061dcac10e-16613729
IxQuick
• Another search engine which focuses on user privacy. With IxQuick none of your details are stored and no cookies are used.
• A user can set preferences, but those will be deleted after 90 days of inactivity.
https://www.clickz.com/2016/06/22/bored-of-google-heres-10-other-search-engines-to-try?utm_source=ClickZ+Global&utm_campaign=061dcac10e- 23_06_2016_NL&utm_medium=email&utm_term=0_33e702b796-061dcac10e-16613729
Ask.com
Yes, Ask Jeeves is still around. Also he’s no longer a butler figure a la P.G. Wodehouse
butler, but a computer generated bank manager. Weird.
https://www.clickz.com/2016/06/22/bored-of-google-heres-10-other-search-engines-to-try?utm_source=ClickZ+Global&utm_campaign=061dcac10e- 23_06_2016_NL&utm_medium=email&utm_term=0_33e702b796-061dcac10e-16613729
Addict-o-matic
• “Inhale the web” with the friendly looking hoover guy by creating your own topic page.
• You can bookmark and see results from a huge number of channels in that one page (including
Google, Twitter, YouTube, Bing News).
https://www.clickz.com/2016/06/22/bored-of-google-heres-10-other-search-engines-to-try?utm_source=ClickZ+Global&utm_campaign=061dcac10e- 23_06_2016_NL&utm_medium=email&utm_term=0_33e702b796-061dcac10e-16613729
Giphy
Because really, when it comes down to it, we could imagine a worse dystopian
future than one in which we all communicate entirely in Gifs.
https://www.clickz.com/2016/06/22/bored-of-google-heres-10-other-search-engines-to-try?utm_source=ClickZ+Global&utm_campaign=061dcac10e- 23_06_2016_NL&utm_medium=email&utm_term=0_33e702b796-061dcac10e-16613729
http://www.etools.ch/
• Transparentny Metasearch Engine from Switzerland
• eTools.ch korzysta z głównych i międzynarodowych wyszukiwarek
• Zapewnia prywatność.
http://www.etools.ch c.d.
• Bing
• Blekko
• Blippex
• Domengo
• DuckDuckGo
• Exalead
• Faroo
• Fastbot
• Moose
• Scholar
• Search
• Webliste
• Wikipedia
• Yahoo
http://yacy.net/en/index.html
• Wyszukiwarka do samodzielnej budowy portali wyszukiwawczych dla intranetu i
pomocy korzystania z internetu.
• Pełna decentralizacja, prywatność, bez
cenzury
http://yacy.net/en/index.html
Factiva
• Ponad 28,000 źródeł z 200 krajów w 23 językach,
• 600 aktualizowanych na bieżąco
serwisów informacyjnych.
QDA Miner 3.2
• Zaawansowane narzędzie programowe
do analizy, kodowania, zarządzania danymi/dokumentami.
• Identyfikuje i szuka relacji pomiędzy
dokumentami.
Buzz (do Gmail)
• Odpowiedź na Facebooka i Twittera
• Gotowa sieć (bez pytania o zgodę do jej tworzenia) znajomych automatycznie wyselekcjonowana wg: firma, najczęściej wysyłane maile, czatowanie.
• Łatwo sprawdzić powiązania.
• Google wycofuje się z tej wersji.
Linguboty
• Są to programowe narzędzia, najczęściej stosowane w formie usług dostępnych w Sieci, które usiłują symulować naturalną rozmowę z zadającym pytania.
• Najczęściej usługa ta wykorzystywana jest w celach marketingowych – służy do udzielania informacji na temat firmy (www.spsa.pl, ww.hestia.pl). Wśród najsłynniejszych na świecie lingubotów wyróżniane są:
ELIZA i ALICE.
Quaero i Theseus. Fiasko
• Francja (budżet i 23 przedsiębiorstwa, wśród nich Thomson i France Telecom) i Niemcy (budżet) dofinansowują wyszukiwarki – ograniczenie dominacji Google’a, kultury anglosaskiej.
• Quaero, multimedia - 99 milionów €.
• Niemcy – Theseus, bardziej tekstowa.
„Curation"
• Dopasowywanie
wyników wyszukiwania w internecie do preferencji użytkownika.
• Curatorem jest ktoś kto ciągle szuka, grupuje, organizuje i udostępnia najlepszą, najbardziej odpowiednie treści dla specyficznych potrzeb online.
WYSZUKIWARKI W CZASIE
RZECZYWISTYM –
REAL TIME SEARCH
Istota
SERP aktualizowany na bieżąco
Źródła – głównie sieci społecznościowe:
– Facebook, – MySpace, – Twitter,
– Google Buzz, – FriendFeed,
– nagłówki artykułów, – posty z blogów.
Ocena – użytkownicy, sieć.