Inteligentne wyszukiwarki internetowe
dr Agnieszka Nowak-Brzezioska
agnieszka.nowak@us.edu.pl
Agnieszka Nowak-Brzezioska
WPROWADZENIEDOWYSZUKIWAREK AGNIESZKANOWAK-BRZEZIŃSKA
Przedmiot prowadzony w zakresie Projektu UPGOW współfinansowanego
Przez Unię Europejską w ramach Europejskiego Funduszu Społecznego
Idea wyszukiwania informacji:
„Wyszukiwanie informacji to proces wyszukiwania w
pewnym zbiorze tych wszystkich dokumentów,
które poświęcone są
wskazanemu w kwerendzie tematowi (przedmiotowi)
lub zawierają niezbędne dla użytkownika fakty i
informacje.”
WPROWADZENIEDOWYSZUKIWAREK AGNIESZKANOWAK-BRZEZIŃSKA
Przedmiot prowadzony w zakresie Projektu UPGOW współfinansowanego
Przez Unię Europejską w ramach Europejskiego Funduszu Społecznego
WPROWADZENIEDOWYSZUKIWAREK AGNIESZKANOWAK-BRZEZIŃSKA
Przedmiot prowadzony w zakresie Projektu UPGOW współfinansowanego
Przez Unię Europejską w ramach Europejskiego Funduszu Społecznego
Co to inteligencja ?
• Inteligencja jest umiejętnością przystosowywania się do nowych zadań i warunków życia albo sposobem, w jaki człowiek przetwarza informacje i rozwiązuje problemy. Inteligencja to także umiejętność kojarzenia oraz rozumienia.
WPROWADZENIEDOWYSZUKIWAREK AGNIESZKANOWAK-BRZEZIŃSKA
Przedmiot prowadzony w zakresie Projektu UPGOW współfinansowanego
Przez Unię Europejską w ramach Europejskiego Funduszu Społecznego
Inne definicje AI:
• „AI to nauka mająca za zadanie nauczyć
maszyny zachowań podobnych do ludzkich”.
• „AI to nauka o tym, jak nauczyć maszyny robić rzeczy które obecnie ludzie robią lepiej”.
• „AI to nauka o komputerowych modelach wiedzy umożliwiających rozumienie,
wnioskowanie i działanie”.
WPROWADZENIEDOWYSZUKIWAREK AGNIESZKANOWAK-BRZEZIŃSKA
Przedmiot prowadzony w zakresie Projektu UPGOW współfinansowanego
Przez Unię Europejską w ramach Europejskiego Funduszu Społecznego
Kiedy program lub maszyna jest inteligentna ?
• Na to pytanie w 1950 roku próbował odpowiedzied Alan Turing.
• Idea „Testu Turinga” polegała na tym, że człowiek za pomocą klawiatury i monitora zadaje te same pytania komputerowi i innej osobie. Jeśli zadający pytania nie potrafi rozróżnid odpowiedzi komputera i człowieka, tzn. że program (maszyna) jest inteligentny.
WPROWADZENIEDOWYSZUKIWAREK AGNIESZKANOWAK-BRZEZIŃSKA
Przedmiot prowadzony w zakresie Projektu UPGOW współfinansowanego
Przez Unię Europejską w ramach Europejskiego Funduszu Społecznego
Liderzy
• Google (http://google.com)
• Yahoo! Search (kiedyś tylko katalog, dziś cały portal) http://search.yahoo.com/
• Ask (http://www.ask.com) (dawny Ask Jeeves)
WPROWADZENIEDOWYSZUKIWAREK AGNIESZKANOWAK-BRZEZIŃSKA
Przedmiot prowadzony w zakresie Projektu UPGOW współfinansowanego
Przez Unię Europejską w ramach Europejskiego Funduszu Społecznego
Zaletą Yahoo! jest funkcja Search Assist. Znajduje ona podobieństwa między wynikami wyszukiwania a innymi, pokrewnymi stronami.
WPROWADZENIEDOWYSZUKIWAREK AGNIESZKANOWAK-BRZEZIŃSKA
Przedmiot prowadzony w zakresie Projektu UPGOW współfinansowanego
Przez Unię Europejską w ramach Europejskiego Funduszu Społecznego
Internet stał się ogromnym zasobnikiem informacji (artykułów naukowych, popularno-naukowych, książek adresowych, telefonicznych, map geograficznych, wykazów usług sprzedaży, informacji o osobach, firmach, produktach itd..) oraz wszelkiego rodzaju usług (sprzedaży towarów, zbierania informacji, rezerwacji i sprzedaży biletów lotniczych, kolejowych, prezentacji filmów na zamówienie).
Minął okres rozwoju wyszukiwarek ogólnego przeznaczenia, które indeksowały wszelkie możliwe strony WWW. Niewątpliwą wadą jest powierzchowniowość dokonywanego przez nie przetwarzania danych, wynikająca z ograniczeń na czas przetwarzania.
Dzisiaj spore szanse rozwojowe mają wyszukiwarki specjalizujące się w określonych dziedzinach zastosowań - wyszukiwarki dedykowane. Dają one o wiele lepsze, pełniejsze i trafniejsze wyniki niż wyszukiwarki i katalogi ogólne.
Internet a systemy wyszukiwawcze
•Oświecone zgadywanie,
•Katalogi stron (directories, indexes),
•Przewodniki i specjalizowane katalogi przedmiotowe, bazy wiedzy. Itp.
•Portale, wortale, „strony startowe”,
•Wyszukiwarki (szperacze) indeksujące,
•Metawyszukiwarki .
Metody przeszukiwania WWW
WPROWADZENIEDOWYSZUKIWAREK AGNIESZKANOWAK-BRZEZIŃSKA
Przedmiot prowadzony w zakresie Projektu UPGOW współfinansowanego
Przez Unię Europejską w ramach Europejskiego Funduszu Społecznego
Katalogi stron
•Katalog jest systemem klasyfikowania stron przeznaczonym do dokumentowania adresów internetowych.
•Katalogi tworzone są przez ludzi i w oparciu o informacje dostarczane przez internautów.
•Katalogi same się nie uaktualniają. Jeśli chce się zmienić opis w katalogu należy to zgłosić do redaktorów katalogu.
Najpopularniejsze wyszukiwarki i katalogi
AltaVista Wyszukiwarka
AOL Search Katalog
Excite Wyszukiwarka
HotBot Wyszukiwarka
Go.com Wyszukiwarka
Google Wyszukiwarka/ katalog
Infoseek Wyszukiwarka
Lycos Katalog
MSN.com Katalog
Open Directory Katalog
Snap.com Katalog
Web Crawler Wyszukiwarka
Yahoo Katalog
Katalog jest drzewiastą strukturą, witryny przypisane są do poszczególnych kategorii.
WPROWADZENIEDOWYSZUKIWAREK AGNIESZKANOWAK-BRZEZIŃSKA
Przedmiot prowadzony w zakresie Projektu UPGOW współfinansowanego
Przez Unię Europejską w ramach Europejskiego Funduszu Społecznego
Redaktorzy katalogów
•„Humans Do it Better” - oczywiście w porównaniu z robotami.
•Zgłoszenie w katalogu Internetowym, wybór kategorii, która najbardziej odpowiada treści strony. Należy podać adres strony, z jej krótkim opisem, czasem także kilka słów kluczowych dla strony.
•Redaktorzy katalogu odwiedzają zgłoszoną stronę, aby zbadać, czy jest warta umieszczenia w katalogu, badane jest zgodność opisu i słów kluczowych z treścią strony i w przypadku braku uwag strona dodawana jest do sugerowanej przez właściciela kategorii. Jeśli redaktor uzna, że strona nie jest warta umieszczenia w katalogu - nic nie można na to poradzić.
•Proces recenzowania stron trwa od kilku do kilkunastu dni - przy dalszym burzliwym rozwoju Internetu będzie się wydłużał.
•Wyniki wyszukiwania, które pokazuje katalog są oparte na krótkim opisie zamieszczonym w katalogu - meta tagi stron WWW nie mają znaczenia.
WPROWADZENIEDOWYSZUKIWAREK AGNIESZKANOWAK-BRZEZIŃSKA
Przedmiot prowadzony w zakresie Projektu UPGOW współfinansowanego
Przez Unię Europejską w ramach Europejskiego Funduszu Społecznego
WPROWADZENIEDOWYSZUKIWAREK AGNIESZKANOWAK-BRZEZIŃSKA
Przedmiot prowadzony w zakresie Projektu UPGOW współfinansowanego
Przez Unię Europejską w ramach Europejskiego Funduszu Społecznego
Wady i zalety
Wady:
• mała liczba zawartych w nich stron w porównaniu z innymi narzędziami.
Powodem są ludzkie możliwości - dokładne przejrzenie witryny i zakwalifikowanie jej do odpowiedniej kategorii.
• aktualizacja katalogu. Strony internetowe „żyją” ! a weryfikacja ich zawartości wymaga ponownego odwiedzenia ich przez redaktora.
• różna interpretacja świata przez ludzi. Tą samą stronę dwie osoby mogą umieścić w różnych kategoriach.
Zalety:
• opracowują je ludzie, którym zależy na wiarygodności umieszczonych w nich danych. Możemy więc mieć pewność, że ktoś za nie odpowiada.
WPROWADZENIEDOWYSZUKIWAREK AGNIESZKANOWAK-BRZEZIŃSKA
Przedmiot prowadzony w zakresie Projektu UPGOW współfinansowanego
Przez Unię Europejską w ramach Europejskiego Funduszu Społecznego
specjalizowane katalogi przedmiotowe
W internecie możemy spotkać szereg wyszukiwarek dziedzinowych dedykowanych tj:
• CNET.com – specjalizująca się w dziedzinie komputerów,
•Wyszukiwarka University of pennsylwania (http://www/upenn.edu/)
•Lycos wspomagająca wyszukiwanie plików typu mp3 (http://mp3.lycos.com)
•wyszukiwarka YASE dla publikacji nt. bd (http://mykerinos.cis.upenn.edu)
•Wyszukiwarka zdjęć http://image.altavista.com
• http://www.technorati.com (świat blogów: prawie 100 mln)
• wyszukiwarki aktualności: http://www.newslookup.com (kilka tysięcy źródeł wiadomości z całego świata. Pozwala na zawężenie wyników do gazet, telewizji, radia lub sieci. Istnieje także możliwość określenia geograficznego obszaru, z którego pochodzi wiadomość)
• http://www.picsearch.com (grafika, pliki audio i wideo). Picsearch powstał w 2000 roku i obecnie indeksuje 2 mld obrazków - więcej niż Yahoo! Search (1,6 mld) i niewiele mniej niż Google (2,2 mld).
specjalizowane katalogi przedmiotowe
Wyszukiwarki specjalizowane
Blinkx (wideo) http://www.blinkx.com
Blogscope (blogi) http://www.blogscope.net Business.com(firmy) http://www.business.com Ex.pl/ode.us (ludzie) http://ex.pl, ode.us
FileSearch (pliki) http://www.filesearching.com IceRocket (blogi) http://www.icerocket.com
InfoSpace (firmy, ludzie) http://www.infospace.com Kelkoo (ceny) http://www.kelkoo.com
Lexis Nexis (prawo) http://www.lexisnexis.com MagPortal (newsy) http://www.magportal.com Newslookup (newsy) http://www.newslookup.com Omgili (fora) http://www.omgili.com
Picsearch (grafika) http://www.picsearch.com PriceRunner (ceny) http://www.pricerunner.com Rollyo (wysz. spersonalizowana) http://rollyo.com Sphere (blogi) http://sphere.com
Spock (ludzie) http://www.spock.com
Technorati (blogi) http://www.technorati.com ThomasNet (firmy) http://www.thomasnet.com Topix (newsy) http://www.topix.com
Wink (ludzie) http://wink.com
Portale, wortale
Portal internetowy – internetowy serwis informacyjny poszerzony o różnorodne funkcje internetowe, dostępny z jednego adresu internetowego.
W intencji twórców, ma to zachęcać użytkowników do ustawienia adresu portalu jako strony startowej w przeglądarce WWW i traktowania go jako bramy do Internetu.
Zazwyczaj portal zawiera informacje będące przedmiotem zainteresowania szerokiego grona odbiorców. Jako przykładową treść portalu można podać:
dział aktualnych wiadomości, prognoza pogody, katalog stron WWW, czat, forum dyskusyjne oraz mechanizmy wyszukiwania informacji w nim samym lub w zewnętrznych zasobach Internetu (wyszukiwarki internetowe).
W celu przyciągnięcia większej ilości użytkowników portale mogą oferować darmowe konta poczty elektronicznej, miejsce na strony WWW i dostęp do innych usług (np. multimedia, pobieranie plików, grupy dyskusyjne).
Polskie portale Onet.pl
Wirtualna Polska Interia.pl
O2.pl
Portale na świecie Yahoo
Seznam.cz AOL
Wortal, portal wertykalny (ang. vertical portal) – portal wyspecjalizowany, publikujący informacje z jednej dziedziny, tematycznie do siebie zbliżone, np. dotyczące muzyki, filmu, programów komputerowych.
Nazwa ma stanowić przeciwstawienie do zwykłego portalu, obejmującego szeroki zakres tematyczny (horyzontalnego), a przy okazji podkreślać wyższą jakość udostępnianych zasobów, jednak nie przyjęła się szeroko.
Wortal jest odpowiednikiem portalu, tyle, że poświęconemu konkretnej tematyce.
Przykłady wortali:
pclab.pl
benchmark.pl
Portale, wortale
WPROWADZENIEDOWYSZUKIWAREK AGNIESZKANOWAK-BRZEZIŃSKA
Przedmiot prowadzony w zakresie Projektu UPGOW współfinansowanego
Przez Unię Europejską w ramach Europejskiego Funduszu Społecznego
Wyszukiwarki (szperacze) indeksujące
•Bardziej wydajne niż katalogi.
•Tworzą automatycznie swoje bazy danych o witrynach.
•Oprogramowanie wyszukiwarki składa się z dwóch oddzielnych modułów:
1. pierwszy odwiedza witryny internetowe, analizując umieszczone na nich teksty, oraz podąża za odsyłaczami hipertekstowymi do kolejnych stron.
2. Indeks - obsługuje powstającą w ten sposób bazę danych.
Korzystanie z bazy polega na wpisywaniu poszukiwanych słów i obejrzeniu wyświetlonych wyników w postaci hipertekstowych odsyłaczy do stron, które zawierają wpisane wyrażenie. Jako pierwsze wyświetlane są adresy witryn, które bardziej odpowiadają zadanemu pytaniu.
WPROWADZENIEDOWYSZUKIWAREK AGNIESZKANOWAK-BRZEZIŃSKA
Przedmiot prowadzony w zakresie Projektu UPGOW współfinansowanego
Przez Unię Europejską w ramach Europejskiego Funduszu Społecznego
Metawyszukiwarki
To serwisy internetowe, które nie posiadają własnej bazy danych, ale potrafią wysłać nasze zapytanie do kilku lub kilkunastu samodzielnych szperaczy, odebrać je od nich i przedstawić w przejrzystej formie.
Wadą metawyszukiwarek jest brak dostępu do specyficznych zapytań złożonych jakie dają pojedyncze szperacze.
Zaletą jest to, że można zadać jedno pytanie do kilku szperaczy przy odwiedzeniu tylko jednego serwisu. Zaoszczędza to czas i daje możliwość przeszukania większej części zasobów Internetu. Niektóre metawyszukiwarki dodatkowo opracowują otrzymaną listę wyników: Usuwają powtarzające się adresy i te, które już nie istnieją w Internecie, a są jeszcze zapisane w bazie wyszukiwarki.
Dodatkowo mogą sortować na różne sposoby wyświetloną listę.
Firma Browsys proponuje wszystkim maniakom surfowania narzędzia o nazwie Twoogle oraz Twofind, które pozwalają na sprawdzanie wyników wyszukiwania jednocześnie w kilku najpopularniejszych wyszukiwarkach internetowych.
WPROWADZENIEDOWYSZUKIWAREK AGNIESZKANOWAK-BRZEZIŃSKA
Przedmiot prowadzony w zakresie Projektu UPGOW współfinansowanego
Przez Unię Europejską w ramach Europejskiego Funduszu Społecznego
Twofind pozwala natomiast na konfrontację między Google, a niedawno zaprezentowaną wyszukiwarką Microsoftu, czyli Bing. Podobnie, jak Twoogle, wyniki wyszukiwania prezentowane są w dwóch osobnych oknach obok siebie, dzięki czemu możemy szybko porównać je ze sobą.
Nowe trendy
•wyszukiwarki dedykowane,
•specjalizowane inteligentne wyszukiwarki (wspomagające wykrywanie przestępstw w Internecie (poszukiwanie ofert pornografii dziecięcej, nielegalnej sprzedaży towarów, przygotowania zamachów i blokad ulicznych, identyfikacja handlu żywym towarem)),
• wyszukiwarki z technikami analizy morfologicznej, składniowej, rozumienia tekstu, tłumaczenia tekstu,
•przetwarzanie informacji multimedialnej: odnajdywania podobieństw i indeksacji obrazów, również filmów, dokumentów audio.
Nowe trendy
Nowe trendy
Hakia jest wyszukiwarką, która opiera się na języku naturalnym. W założeniu, ma rozumied semantykę wpisywanych zapytao.
Ask.com
Ask.com
Przegląd innych wyszukiwarek
Na podobnej zasadzie działają min.
Wyszukiwarki Ask.com oraz AnswerBus.com ( www.AnswerBus.com ) jednak mają one
jedną zasadniczą wadę. Często w ramach odpowiedzi na postawione pytanie
otrzymujemy zbiór luźno powiązanych z
tematem stron.
Text Mining a inteligentne wyszukiwarki
internetowe (hakia, start, answerBus)
Systemy odpowiadające na pytania
[system START, system AnswerBus]
Przegląd innych wyszukiwarek
Mechanizm NetSprinta podobnie jak Google korzysta m.in. z Wikipedii oraz serwisów
informacyjnych, dając użytkownikowi możliwośd zapoznania się z najnowszymi
wiadomościami na dany temat. Wyszukiwarka nie zawsze radzi sobie dobrze też m.in. z
podpowiedziami po błędnym wpisaniu
zapytania.
Przegląd innych wyszukiwarek
• Innym trendem w wyszukiwaniu są
rozwiązania dedykowane przeszukujące
specyficzne bazy danych. Przykładem takiej wyszukiwarki jest http://www.gopubmed.org/
• mechanizm pomagający precyzyjnie
wyszukiwad dokumenty związane z dziedziną
biomedycyny.
Test wyszukiwarki Wolfram Alpha
• Wolfram Alpha tak naprawdę niewiele ma wspólnego z tym, co znamy jako wyszukiwarki.
To raczej wielka baza wiedzy, której możemy używać w dowolny sposób.
• System komputerowy wyposażony w 4608 procesorów wspomaga działanie nowej wyszukiwarki.
• unikalną cechą Wolfram Aplha jest algorytm, który zamiast wyświetlać spis witryn
internetowych stara się podać gotową odpowiedź na zadane przez użytkownika pytanie.
• Wada: Zdarza jej się źle wyszukać informację, ale częściej po prostu jej nie znajduje, niż znajduje błędy.
• Zaleta: jeśli wpiszemy nazwę jakiegoś polskiego miasta, wyszukiwarka wyświetli je na mapie (z możliwością przejścia do widoku satelitarnego Google Maps), poinformuje o lokalnym czasie czy aktualnej pogodzie. To już nam bardziej przypadło do gustu.
• Wolfram wykona dla nas skomplikowane obliczenia (z zakresu matematyki czy fizyki), dokona ciekawych porównań (na przykład PKB państw), a nawet sprawdzi ile kalorii ma posiłek, który mamy zamiar dziś zjeść. Wszystko przedstawi na wykresach.
• Wyszukiwarka ze sztuczną inteligencją (dzięki mechanizmom sztucznej inteligencji, wyszukiwarka próbuje interpretować pytanie i udziela odpowiedzi.)
• Wystartowała 18 maja 2009 roku.
Co się kryje pod polem wprowadzania zapytao?
Według zespołu projektantów są to dwa superkomputery z 10 000 rdzeni. Ich pamięć operacyjną szacuje się na setki terabajtów, a wszystko to jest chłodzone układem wystarczającym na stworzenie kurortu narciarskiego... na Saharze. Komputer ten stworzyła firma R Systems, która ma na sumieniu 44 superkomputery według czerwcowej listy TOP500 z 2008 roku. Drugi z partnerów Dell dostarczył serwer, zaprojektowany specjalnie do centrum obliczeniowego.
Czy to wystarczy do obsługi zapytań szacowanych na 175
milionów dziennie i 5 miliardów miesięcznie? Według
twórców... powinno :)
Idea wyszukiwarki…
• odpowiadanie na konkretne pytania zadawane w
naturalnym dla użytkownika języku. Przy analizie pytania i wyszukiwaniu pasującej odpowiedzi narzędzie opiera się na rozwiązaniach ze sztucznej inteligencji, takich jak sieci
semantyczne.
• odpowiedź "tworzona" jest w locie, dedukowana na podstawie posiadanej przez aplikację bazy wiedzy.
• Wolfram Alpha nie jest pierwszą wyszukiwarką korzystającą z wiedzy z dziedziny sztucznej inteligencji. Ask czy Hakia
również wykorzystują tego typu rozwiązania, jednak
Wolfram Alpha prezentuje zupełnie nową jakośd i algorytmy
dotąd nie spotykane na rynku wyszukiwarek.
Jak rozrasta się ….?
Pracownicy projektu pracują dzień po dniu z iście
benedyktyńską cierpliwością, podobnie jak
niegdyś mnisi przy pulpitach w swoich
klasztorach. Celem całego przedsięwzięcia jest
stworzenie skarbnicy światowej wiedzy, a w
każdym razie jej bezspornej części: faktów,
liczb, wzorów, modeli. (...) Dotychczas zebrane
zasoby autor projektu ocenia na dziesięć bilionów
jednostek danych. Doliczyć trzeba jeszcze
napływające w czasie rzeczywistym informacje o
pogodzie czy kursach giełdowych.
Cechy charakterystyczne…
• Dowolnośd formułowania zapytania w języku naturalnym
• Generowanie wyników dynamicznie
• Dodatkowe informacje na żądanie
• Wskazanie źródła informacji
• Dodatkowe formaty danych wyjściowych (pdf)
Uproszczony test Turinga
CAPTCHA (Completely Automated Public Turing test to
tell Computers and Humans Apart) - rodzaj techniki
stosowanej jako zabezpieczenie w formularzach na
stronach WWW. Dla przesłania danych konieczne
jest przepisanie treści z obrazka (zazwyczaj losowo
dobranych znaków bądź krótkiego wyrazu). Obrazek
ten jest prosty do odczytania przez człowieka,
jednakże odczytanie go przez komputer jest,
przynajmniej w założeniu, bardzo trudne.
Jak Wolfram działa w praktyce
jaki był produkt krajowy brutto (PKB) na osobę w Polsce w 1998 roku?
Jak Wolfram działa w praktyce
Jaka była pogoda w styczniu tego roku w Poznaniu?
Jak Wolfram działa w praktyce
Jak Wolfram działa w praktyce
Superkomputery Wolframa, jeśli nie będą akurat przeciążone, pokażą nam wzór chemiczny np. H2SO4. Wykonają też skomplikowanie obliczenia matematyczne czy fizyczne.
Wolfram przedstawia również dane dotyczące stron internetowych - liczbę odwiedzin na witrynie. Należy wpisad po prostu adres strony i otrzymamy wynik.
Jak Wolfram działa w praktyce
Google Squared - wyniki wyszukiwania w tabeli
Samoorganizujące się mapy dokumentów– SOM,
WebSOM
Reguły asocjacyjne - sklepy internetowe - analiza
koszykowa
Data Mining - wprowadzenie do metod eksploracji wiedzy
• odkrywanie asocjacji (associations) znajdowanie reguł typu:
piwo -> orzeszki
• wzorce sekwencji (sequential patterns) znajdowanie sekwencji dot. np. zakupów klienta:
(TV, video, kamera)
• klasyfikacja (classifications) klasyfikacja danych do grup ze względu na atrybut
decyzyjny, np.: klasyfikacja klientów przez bank do grup: dad kredyt / nie dad kredytu
• analiza skupień (clustering) grupowanie danych na wcześniej nieznae klasy, znajdowanie wspólnych cech, np.:
wyodrębnienie różnych rodzajów klientów – różnych taryf –
przez sied telefonii komórkowej
Na czym polega grupowanie ?
Obiekt jest przydzielony do skupienia, którego środek
ciężkości leży najbliżej w sensie odległości euklidesowej.
Carrot2 a Google
System Carrot2 ( Podstawy )
Carrot operuje jedynie na snippetach, bez odczytywania
dokumentów źródłowych. Wynika z tego fakt, iż jakość
grupowania będzie silnie zależeć od siły opisowej
snippetów – krótkich fragmentów tekstu zwróconych
przez wyszukiwarkę. W tym aspekcie systemy typu
Carrot, będą znacznie ograniczone przez
zaimplementowane algorytmy samych wyszukiwarek
(Google, Yahoo!, itp.) służące odnalezieniu zdań,
które w sposób właściwy opisują temat strony. Daje to
jednak pewne korzyści, w postaci krótkiego czasu
wyszukiwania (wynikającego z faktu braku
konieczności analizowania całych dokumentów).
• Carrot daje olbrzymie możliwości analizy wyników zapytania względem tradycyjnych wyszukiwarek.
Poprzez ekstrakcję fraz z pierwszych paruset odnośników i ich prezentację w skumulowanej formie uzyskujemy możliwość pobieżnego przeglądu o parę rzędów wielkości większej liczby dokumentów niż miałoby to miejsce przy klasycznym listowym widoku.
• System przekierowuje zapytanie do wyszukiwarki (Google, Yahoo!, itp.), pobiera od niej kilkaset początkowych odnośników, a następnie analizuje je poszukując wspólnych, opisowych fraz. Frazy te, o ile są wystarczająco częste, są traktowane jako reprezentanci grup tematycznych.
System Carrot2 ( Podstawy )
• Carrot nie był pierwszym systemem grupującym wyniki z wyszukiwarek – wcześniej powstały systemy Grouper, Vivisimo oraz inne, których funkcjonalność jednak nigdy nie wysunęła się poza obszar eksperymentu obliczeniowego. Grouper, jako projekt również typowo badawczy, został usunięty z sieci w roku 2001 (po zakończeniu badań).
• Co warte podkreślenia, Carrot jest jedynym systemem grupującym, działającym dla języków innych niż język angielski.
• Nazwa systemu odnosi się do wcześniejszych owocowych systemów wspomagających odkrywanie wiedzy z danych tekstowych (Lemon, Grape, Orange).
System Carrot2 ( Podstawy )
Idealny system wyszukiwania informacji:
• To taki który potrafi odpowiedzieć na każde pytanie poprawnie.
• Czy taki system ma szanse powstać ?
• Wiedza płynąca z internetu jest dość niepewnym źródłem informacji, i faktów, o czym warto pamiętać, - bo każdy może umieścić w sieci informacje...nie do końca precyzyjne ale i często błędne.
• Pojawiające się nowe pomysły mające na celu ułatwianie użytkownikom korzystanie z wyszukiwarek, to z pewnością krok by uczynić tę czynność przyjemniejszą i bardziej intuicyjną.
• Nie można jednak liczyć na to, ze wyszukiwarki w przyszłości
będą w stanie wyręczyć nas z umiejętności logicznego
myślenia i odrobiny dociekliwości w szukaniu tego co nas
interesuje.
Dziękuję za uwagę…
WPROWADZENIEDOWYSZUKIWAREK AGNIESZKANOWAK-BRZEZIŃSKA
Przedmiot prowadzony w zakresie Projektu UPGOW współfinansowanego
Przez Unię Europejską w ramach Europejskiego Funduszu Społecznego