• Nie Znaleziono Wyników

Inteligentne wyszukiwarki

N/A
N/A
Protected

Academic year: 2021

Share "Inteligentne wyszukiwarki"

Copied!
120
0
0

Pełen tekst

(1)

Inteligentne wyszukiwarki internetowe

dr Agnieszka Nowak-Brzezioska

agnieszka.nowak@us.edu.pl

Agnieszka Nowak-Brzezioska

WPRO

WADZENIEDOWYSZUKIWAREK AGNIESZKANOWAK-BRZEZIŃSKA

Przedmiot prowadzony w zakresie Projektu UPGOW współfinansowanego

Przez Unię Europejską w ramach Europejskiego Funduszu Społecznego

(2)

Idea wyszukiwania informacji:

„Wyszukiwanie informacji to proces wyszukiwania w

pewnym zbiorze tych wszystkich dokumentów,

które poświęcone są

wskazanemu w kwerendzie tematowi (przedmiotowi)

lub zawierają niezbędne dla użytkownika fakty i

informacje.”

W

PROWADZENIEDOWYSZUKIWAREK AGNIESZKANOWAK-BRZEZIŃSKA

Przedmiot prowadzony w zakresie Projektu UPGOW współfinansowanego

Przez Unię Europejską w ramach Europejskiego Funduszu Społecznego

(3)

WPROWADZENIEDOWYSZUKIWAREK AGNIESZKANOWAK-BRZEZIŃSKA

Przedmiot prowadzony w zakresie Projektu UPGOW współfinansowanego

Przez Unię Europejską w ramach Europejskiego Funduszu Społecznego

(4)

Co to inteligencja ?

• Inteligencja jest umiejętnością przystosowywania się do nowych zadań i warunków życia albo sposobem, w jaki człowiek przetwarza informacje i rozwiązuje problemy. Inteligencja to także umiejętność kojarzenia oraz rozumienia.

WPROWADZENIEDOWYSZUKIWAREK AGNIESZKANOWAK-BRZEZIŃSKA

Przedmiot prowadzony w zakresie Projektu UPGOW współfinansowanego

Przez Unię Europejską w ramach Europejskiego Funduszu Społecznego

(5)

Inne definicje AI:

• „AI to nauka mająca za zadanie nauczyć

maszyny zachowań podobnych do ludzkich”.

• „AI to nauka o tym, jak nauczyć maszyny robić rzeczy które obecnie ludzie robią lepiej”.

• „AI to nauka o komputerowych modelach wiedzy umożliwiających rozumienie,

wnioskowanie i działanie”.

WPROWADZENIEDOWYSZUKIWAREK AGNIESZKANOWAK-BRZEZIŃSKA

Przedmiot prowadzony w zakresie Projektu UPGOW współfinansowanego

Przez Unię Europejską w ramach Europejskiego Funduszu Społecznego

(6)

Kiedy program lub maszyna jest inteligentna ?

• Na to pytanie w 1950 roku próbował odpowiedzied Alan Turing.

• Idea „Testu Turinga” polegała na tym, że człowiek za pomocą klawiatury i monitora zadaje te same pytania komputerowi i innej osobie. Jeśli zadający pytania nie potrafi rozróżnid odpowiedzi komputera i człowieka, tzn. że program (maszyna) jest inteligentny.

WPRO

WADZENIEDOWYSZUKIWAREK AGNIESZKANOWAK-BRZEZIŃSKA

Przedmiot prowadzony w zakresie Projektu UPGOW współfinansowanego

Przez Unię Europejską w ramach Europejskiego Funduszu Społecznego

(7)

Liderzy

• Google (http://google.com)

• Yahoo! Search (kiedyś tylko katalog, dziś cały portal) http://search.yahoo.com/

• Ask (http://www.ask.com) (dawny Ask Jeeves)

WPROWADZENIEDOWYSZUKIWAREK AGNIESZKANOWAK-BRZEZIŃSKA

Przedmiot prowadzony w zakresie Projektu UPGOW współfinansowanego

Przez Unię Europejską w ramach Europejskiego Funduszu Społecznego

(8)

Zaletą Yahoo! jest funkcja Search Assist. Znajduje ona podobieństwa między wynikami wyszukiwania a innymi, pokrewnymi stronami.

WPROWADZENIEDOWYSZUKIWAREK AGNIESZKANOWAK-BRZEZIŃSKA

Przedmiot prowadzony w zakresie Projektu UPGOW współfinansowanego

Przez Unię Europejską w ramach Europejskiego Funduszu Społecznego

(9)
(10)

Internet stał się ogromnym zasobnikiem informacji (artykułów naukowych, popularno-naukowych, książek adresowych, telefonicznych, map geograficznych, wykazów usług sprzedaży, informacji o osobach, firmach, produktach itd..) oraz wszelkiego rodzaju usług (sprzedaży towarów, zbierania informacji, rezerwacji i sprzedaży biletów lotniczych, kolejowych, prezentacji filmów na zamówienie).

Minął okres rozwoju wyszukiwarek ogólnego przeznaczenia, które indeksowały wszelkie możliwe strony WWW. Niewątpliwą wadą jest powierzchowniowość dokonywanego przez nie przetwarzania danych, wynikająca z ograniczeń na czas przetwarzania.

Dzisiaj spore szanse rozwojowe mają wyszukiwarki specjalizujące się w określonych dziedzinach zastosowań - wyszukiwarki dedykowane. Dają one o wiele lepsze, pełniejsze i trafniejsze wyniki niż wyszukiwarki i katalogi ogólne.

Internet a systemy wyszukiwawcze

(11)

•Oświecone zgadywanie,

•Katalogi stron (directories, indexes),

•Przewodniki i specjalizowane katalogi przedmiotowe, bazy wiedzy. Itp.

•Portale, wortale, „strony startowe”,

•Wyszukiwarki (szperacze) indeksujące,

•Metawyszukiwarki .

Metody przeszukiwania WWW

WPROWADZENIEDOWYSZUKIWAREK AGNIESZKANOWAK-BRZEZIŃSKA

Przedmiot prowadzony w zakresie Projektu UPGOW współfinansowanego

Przez Unię Europejską w ramach Europejskiego Funduszu Społecznego

(12)
(13)

Katalogi stron

•Katalog jest systemem klasyfikowania stron przeznaczonym do dokumentowania adresów internetowych.

•Katalogi tworzone są przez ludzi i w oparciu o informacje dostarczane przez internautów.

•Katalogi same się nie uaktualniają. Jeśli chce się zmienić opis w katalogu należy to zgłosić do redaktorów katalogu.

Najpopularniejsze wyszukiwarki i katalogi

AltaVista Wyszukiwarka

AOL Search Katalog

Excite Wyszukiwarka

HotBot Wyszukiwarka

Go.com Wyszukiwarka

Google Wyszukiwarka/ katalog

Infoseek Wyszukiwarka

Lycos Katalog

MSN.com Katalog

Open Directory Katalog

Snap.com Katalog

Web Crawler Wyszukiwarka

Yahoo Katalog

Katalog jest drzewiastą strukturą, witryny przypisane są do poszczególnych kategorii.

WPROWADZENIEDOWYSZUKIWAREK AGNIESZKANOWAK-BRZEZIŃSKA

Przedmiot prowadzony w zakresie Projektu UPGOW współfinansowanego

Przez Unię Europejską w ramach Europejskiego Funduszu Społecznego

(14)

Redaktorzy katalogów

•„Humans Do it Better” - oczywiście w porównaniu z robotami.

•Zgłoszenie w katalogu Internetowym, wybór kategorii, która najbardziej odpowiada treści strony. Należy podać adres strony, z jej krótkim opisem, czasem także kilka słów kluczowych dla strony.

•Redaktorzy katalogu odwiedzają zgłoszoną stronę, aby zbadać, czy jest warta umieszczenia w katalogu, badane jest zgodność opisu i słów kluczowych z treścią strony i w przypadku braku uwag strona dodawana jest do sugerowanej przez właściciela kategorii. Jeśli redaktor uzna, że strona nie jest warta umieszczenia w katalogu - nic nie można na to poradzić.

•Proces recenzowania stron trwa od kilku do kilkunastu dni - przy dalszym burzliwym rozwoju Internetu będzie się wydłużał.

•Wyniki wyszukiwania, które pokazuje katalog są oparte na krótkim opisie zamieszczonym w katalogu - meta tagi stron WWW nie mają znaczenia.

(15)

WPROWADZENIEDOWYSZUKIWAREK AGNIESZKANOWAK-BRZEZIŃSKA

Przedmiot prowadzony w zakresie Projektu UPGOW współfinansowanego

Przez Unię Europejską w ramach Europejskiego Funduszu Społecznego

(16)

WPROWADZENIEDOWYSZUKIWAREK AGNIESZKANOWAK-BRZEZIŃSKA

Przedmiot prowadzony w zakresie Projektu UPGOW współfinansowanego

Przez Unię Europejską w ramach Europejskiego Funduszu Społecznego

(17)

Wady i zalety

Wady:

• mała liczba zawartych w nich stron w porównaniu z innymi narzędziami.

Powodem są ludzkie możliwości - dokładne przejrzenie witryny i zakwalifikowanie jej do odpowiedniej kategorii.

• aktualizacja katalogu. Strony internetowe „żyją” ! a weryfikacja ich zawartości wymaga ponownego odwiedzenia ich przez redaktora.

• różna interpretacja świata przez ludzi. Tą samą stronę dwie osoby mogą umieścić w różnych kategoriach.

Zalety:

• opracowują je ludzie, którym zależy na wiarygodności umieszczonych w nich danych. Możemy więc mieć pewność, że ktoś za nie odpowiada.

WPROWADZENIEDOWYSZUKIWAREK AGNIESZKANOWAK-BRZEZIŃSKA

Przedmiot prowadzony w zakresie Projektu UPGOW współfinansowanego

Przez Unię Europejską w ramach Europejskiego Funduszu Społecznego

(18)

specjalizowane katalogi przedmiotowe

(19)

W internecie możemy spotkać szereg wyszukiwarek dziedzinowych dedykowanych tj:

• CNET.com – specjalizująca się w dziedzinie komputerów,

•Wyszukiwarka University of pennsylwania (http://www/upenn.edu/)

•Lycos wspomagająca wyszukiwanie plików typu mp3 (http://mp3.lycos.com)

•wyszukiwarka YASE dla publikacji nt. bd (http://mykerinos.cis.upenn.edu)

•Wyszukiwarka zdjęć http://image.altavista.com

http://www.technorati.com (świat blogów: prawie 100 mln)

wyszukiwarki aktualności: http://www.newslookup.com (kilka tysięcy źródeł wiadomości z całego świata. Pozwala na zawężenie wyników do gazet, telewizji, radia lub sieci. Istnieje także możliwość określenia geograficznego obszaru, z którego pochodzi wiadomość)

http://www.picsearch.com (grafika, pliki audio i wideo). Picsearch powstał w 2000 roku i obecnie indeksuje 2 mld obrazków - więcej niż Yahoo! Search (1,6 mld) i niewiele mniej niż Google (2,2 mld).

specjalizowane katalogi przedmiotowe

(20)

Wyszukiwarki specjalizowane

Blinkx (wideo) http://www.blinkx.com

Blogscope (blogi) http://www.blogscope.net Business.com(firmy) http://www.business.com Ex.pl/ode.us (ludzie) http://ex.pl, ode.us

FileSearch (pliki) http://www.filesearching.com IceRocket (blogi) http://www.icerocket.com

InfoSpace (firmy, ludzie) http://www.infospace.com Kelkoo (ceny) http://www.kelkoo.com

Lexis Nexis (prawo) http://www.lexisnexis.com MagPortal (newsy) http://www.magportal.com Newslookup (newsy) http://www.newslookup.com Omgili (fora) http://www.omgili.com

Picsearch (grafika) http://www.picsearch.com PriceRunner (ceny) http://www.pricerunner.com Rollyo (wysz. spersonalizowana) http://rollyo.com Sphere (blogi) http://sphere.com

Spock (ludzie) http://www.spock.com

Technorati (blogi) http://www.technorati.com ThomasNet (firmy) http://www.thomasnet.com Topix (newsy) http://www.topix.com

Wink (ludzie) http://wink.com

(21)

Portale, wortale

Portal internetowy – internetowy serwis informacyjny poszerzony o różnorodne funkcje internetowe, dostępny z jednego adresu internetowego.

W intencji twórców, ma to zachęcać użytkowników do ustawienia adresu portalu jako strony startowej w przeglądarce WWW i traktowania go jako bramy do Internetu.

Zazwyczaj portal zawiera informacje będące przedmiotem zainteresowania szerokiego grona odbiorców. Jako przykładową treść portalu można podać:

dział aktualnych wiadomości, prognoza pogody, katalog stron WWW, czat, forum dyskusyjne oraz mechanizmy wyszukiwania informacji w nim samym lub w zewnętrznych zasobach Internetu (wyszukiwarki internetowe).

W celu przyciągnięcia większej ilości użytkowników portale mogą oferować darmowe konta poczty elektronicznej, miejsce na strony WWW i dostęp do innych usług (np. multimedia, pobieranie plików, grupy dyskusyjne).

Polskie portale Onet.pl

Wirtualna Polska Interia.pl

O2.pl

Portale na świecie Yahoo

Seznam.cz AOL

(22)

Wortal, portal wertykalny (ang. vertical portal) – portal wyspecjalizowany, publikujący informacje z jednej dziedziny, tematycznie do siebie zbliżone, np. dotyczące muzyki, filmu, programów komputerowych.

Nazwa ma stanowić przeciwstawienie do zwykłego portalu, obejmującego szeroki zakres tematyczny (horyzontalnego), a przy okazji podkreślać wyższą jakość udostępnianych zasobów, jednak nie przyjęła się szeroko.

Wortal jest odpowiednikiem portalu, tyle, że poświęconemu konkretnej tematyce.

Przykłady wortali:

pclab.pl

benchmark.pl

Portale, wortale

WPROWADZENIEDOWYSZUKIWAREK AGNIESZKANOWAK-BRZEZIŃSKA

Przedmiot prowadzony w zakresie Projektu UPGOW współfinansowanego

Przez Unię Europejską w ramach Europejskiego Funduszu Społecznego

(23)

Wyszukiwarki (szperacze) indeksujące

•Bardziej wydajne niż katalogi.

•Tworzą automatycznie swoje bazy danych o witrynach.

•Oprogramowanie wyszukiwarki składa się z dwóch oddzielnych modułów:

1. pierwszy odwiedza witryny internetowe, analizując umieszczone na nich teksty, oraz podąża za odsyłaczami hipertekstowymi do kolejnych stron.

2. Indeks - obsługuje powstającą w ten sposób bazę danych.

Korzystanie z bazy polega na wpisywaniu poszukiwanych słów i obejrzeniu wyświetlonych wyników w postaci hipertekstowych odsyłaczy do stron, które zawierają wpisane wyrażenie. Jako pierwsze wyświetlane są adresy witryn, które bardziej odpowiadają zadanemu pytaniu.

WPROWADZENIEDOWYSZUKIWAREK AGNIESZKANOWAK-BRZEZIŃSKA

Przedmiot prowadzony w zakresie Projektu UPGOW współfinansowanego

Przez Unię Europejską w ramach Europejskiego Funduszu Społecznego

(24)

Metawyszukiwarki

To serwisy internetowe, które nie posiadają własnej bazy danych, ale potrafią wysłać nasze zapytanie do kilku lub kilkunastu samodzielnych szperaczy, odebrać je od nich i przedstawić w przejrzystej formie.

Wadą metawyszukiwarek jest brak dostępu do specyficznych zapytań złożonych jakie dają pojedyncze szperacze.

Zaletą jest to, że można zadać jedno pytanie do kilku szperaczy przy odwiedzeniu tylko jednego serwisu. Zaoszczędza to czas i daje możliwość przeszukania większej części zasobów Internetu. Niektóre metawyszukiwarki dodatkowo opracowują otrzymaną listę wyników: Usuwają powtarzające się adresy i te, które już nie istnieją w Internecie, a są jeszcze zapisane w bazie wyszukiwarki.

Dodatkowo mogą sortować na różne sposoby wyświetloną listę.

(25)

Firma Browsys proponuje wszystkim maniakom surfowania narzędzia o nazwie Twoogle oraz Twofind, które pozwalają na sprawdzanie wyników wyszukiwania jednocześnie w kilku najpopularniejszych wyszukiwarkach internetowych.

WPROWADZENIEDOWYSZUKIWAREK AGNIESZKANOWAK-BRZEZIŃSKA

Przedmiot prowadzony w zakresie Projektu UPGOW współfinansowanego

Przez Unię Europejską w ramach Europejskiego Funduszu Społecznego

(26)
(27)

Twofind pozwala natomiast na konfrontację między Google, a niedawno zaprezentowaną wyszukiwarką Microsoftu, czyli Bing. Podobnie, jak Twoogle, wyniki wyszukiwania prezentowane są w dwóch osobnych oknach obok siebie, dzięki czemu możemy szybko porównać je ze sobą.

(28)
(29)

Nowe trendy

•wyszukiwarki dedykowane,

•specjalizowane inteligentne wyszukiwarki (wspomagające wykrywanie przestępstw w Internecie (poszukiwanie ofert pornografii dziecięcej, nielegalnej sprzedaży towarów, przygotowania zamachów i blokad ulicznych, identyfikacja handlu żywym towarem)),

• wyszukiwarki z technikami analizy morfologicznej, składniowej, rozumienia tekstu, tłumaczenia tekstu,

•przetwarzanie informacji multimedialnej: odnajdywania podobieństw i indeksacji obrazów, również filmów, dokumentów audio.

(30)

Nowe trendy

(31)

Nowe trendy

(32)

Hakia jest wyszukiwarką, która opiera się na języku naturalnym. W założeniu, ma rozumied semantykę wpisywanych zapytao.

(33)
(34)

Ask.com

(35)

Ask.com

(36)

Przegląd innych wyszukiwarek

Na podobnej zasadzie działają min.

Wyszukiwarki Ask.com oraz AnswerBus.com ( www.AnswerBus.com ) jednak mają one

jedną zasadniczą wadę. Często w ramach odpowiedzi na postawione pytanie

otrzymujemy zbiór luźno powiązanych z

tematem stron.

(37)

Text Mining a inteligentne wyszukiwarki

internetowe (hakia, start, answerBus)

(38)

Systemy odpowiadające na pytania

[system START, system AnswerBus]

(39)
(40)

Przegląd innych wyszukiwarek

Mechanizm NetSprinta podobnie jak Google korzysta m.in. z Wikipedii oraz serwisów

informacyjnych, dając użytkownikowi możliwośd zapoznania się z najnowszymi

wiadomościami na dany temat. Wyszukiwarka nie zawsze radzi sobie dobrze też m.in. z

podpowiedziami po błędnym wpisaniu

zapytania.

(41)
(42)

Przegląd innych wyszukiwarek

• Innym trendem w wyszukiwaniu są

rozwiązania dedykowane przeszukujące

specyficzne bazy danych. Przykładem takiej wyszukiwarki jest http://www.gopubmed.org/

• mechanizm pomagający precyzyjnie

wyszukiwad dokumenty związane z dziedziną

biomedycyny.

(43)
(44)
(45)

Test wyszukiwarki Wolfram Alpha

Wolfram Alpha tak naprawdę niewiele ma wspólnego z tym, co znamy jako wyszukiwarki.

To raczej wielka baza wiedzy, której możemy używać w dowolny sposób.

System komputerowy wyposażony w 4608 procesorów wspomaga działanie nowej wyszukiwarki.

unikalną cechą Wolfram Aplha jest algorytm, który zamiast wyświetlać spis witryn

internetowych stara się podać gotową odpowiedź na zadane przez użytkownika pytanie.

Wada: Zdarza jej się źle wyszukać informację, ale częściej po prostu jej nie znajduje, niż znajduje błędy.

Zaleta: jeśli wpiszemy nazwę jakiegoś polskiego miasta, wyszukiwarka wyświetli je na mapie (z możliwością przejścia do widoku satelitarnego Google Maps), poinformuje o lokalnym czasie czy aktualnej pogodzie. To już nam bardziej przypadło do gustu.

Wolfram wykona dla nas skomplikowane obliczenia (z zakresu matematyki czy fizyki), dokona ciekawych porównań (na przykład PKB państw), a nawet sprawdzi ile kalorii ma posiłek, który mamy zamiar dziś zjeść. Wszystko przedstawi na wykresach.

Wyszukiwarka ze sztuczną inteligencją (dzięki mechanizmom sztucznej inteligencji, wyszukiwarka próbuje interpretować pytanie i udziela odpowiedzi.)

Wystartowała 18 maja 2009 roku.

(46)

Co się kryje pod polem wprowadzania zapytao?

Według zespołu projektantów są to dwa superkomputery z 10 000 rdzeni. Ich pamięć operacyjną szacuje się na setki terabajtów, a wszystko to jest chłodzone układem wystarczającym na stworzenie kurortu narciarskiego... na Saharze. Komputer ten stworzyła firma R Systems, która ma na sumieniu 44 superkomputery według czerwcowej listy TOP500 z 2008 roku. Drugi z partnerów Dell dostarczył serwer, zaprojektowany specjalnie do centrum obliczeniowego.

Czy to wystarczy do obsługi zapytań szacowanych na 175

milionów dziennie i 5 miliardów miesięcznie? Według

twórców... powinno :)

(47)

Idea wyszukiwarki…

• odpowiadanie na konkretne pytania zadawane w

naturalnym dla użytkownika języku. Przy analizie pytania i wyszukiwaniu pasującej odpowiedzi narzędzie opiera się na rozwiązaniach ze sztucznej inteligencji, takich jak sieci

semantyczne.

• odpowiedź "tworzona" jest w locie, dedukowana na podstawie posiadanej przez aplikację bazy wiedzy.

• Wolfram Alpha nie jest pierwszą wyszukiwarką korzystającą z wiedzy z dziedziny sztucznej inteligencji. Ask czy Hakia

również wykorzystują tego typu rozwiązania, jednak

Wolfram Alpha prezentuje zupełnie nową jakośd i algorytmy

dotąd nie spotykane na rynku wyszukiwarek.

(48)

Jak rozrasta się ….?

Pracownicy projektu pracują dzień po dniu z iście

benedyktyńską cierpliwością, podobnie jak

niegdyś mnisi przy pulpitach w swoich

klasztorach. Celem całego przedsięwzięcia jest

stworzenie skarbnicy światowej wiedzy, a w

każdym razie jej bezspornej części: faktów,

liczb, wzorów, modeli. (...) Dotychczas zebrane

zasoby autor projektu ocenia na dziesięć bilionów

jednostek danych. Doliczyć trzeba jeszcze

napływające w czasie rzeczywistym informacje o

pogodzie czy kursach giełdowych.

(49)

Cechy charakterystyczne…

• Dowolnośd formułowania zapytania w języku naturalnym

• Generowanie wyników dynamicznie

• Dodatkowe informacje na żądanie

• Wskazanie źródła informacji

• Dodatkowe formaty danych wyjściowych (pdf)

(50)
(51)
(52)
(53)
(54)
(55)
(56)
(57)
(58)
(59)
(60)
(61)
(62)
(63)
(64)
(65)
(66)
(67)
(68)
(69)
(70)
(71)
(72)
(73)
(74)
(75)
(76)
(77)
(78)
(79)
(80)
(81)

Uproszczony test Turinga

CAPTCHA (Completely Automated Public Turing test to

tell Computers and Humans Apart) - rodzaj techniki

stosowanej jako zabezpieczenie w formularzach na

stronach WWW. Dla przesłania danych konieczne

jest przepisanie treści z obrazka (zazwyczaj losowo

dobranych znaków bądź krótkiego wyrazu). Obrazek

ten jest prosty do odczytania przez człowieka,

jednakże odczytanie go przez komputer jest,

przynajmniej w założeniu, bardzo trudne.

(82)
(83)
(84)
(85)
(86)
(87)
(88)
(89)
(90)
(91)
(92)
(93)
(94)
(95)
(96)
(97)
(98)
(99)

Jak Wolfram działa w praktyce

jaki był produkt krajowy brutto (PKB) na osobę w Polsce w 1998 roku?

(100)

Jak Wolfram działa w praktyce

Jaka była pogoda w styczniu tego roku w Poznaniu?

(101)

Jak Wolfram działa w praktyce

(102)

Jak Wolfram działa w praktyce

Superkomputery Wolframa, jeśli nie będą akurat przeciążone, pokażą nam wzór chemiczny np. H2SO4. Wykonają też skomplikowanie obliczenia matematyczne czy fizyczne.

(103)

Wolfram przedstawia również dane dotyczące stron internetowych - liczbę odwiedzin na witrynie. Należy wpisad po prostu adres strony i otrzymamy wynik.

(104)

Jak Wolfram działa w praktyce

(105)

Google Squared - wyniki wyszukiwania w tabeli

(106)
(107)
(108)
(109)

Samoorganizujące się mapy dokumentów– SOM,

WebSOM

(110)
(111)

Reguły asocjacyjne - sklepy internetowe - analiza

koszykowa

(112)
(113)

Data Mining - wprowadzenie do metod eksploracji wiedzy

• odkrywanie asocjacji (associations) znajdowanie reguł typu:

piwo -> orzeszki

• wzorce sekwencji (sequential patterns) znajdowanie sekwencji dot. np. zakupów klienta:

(TV, video, kamera)

• klasyfikacja (classifications) klasyfikacja danych do grup ze względu na atrybut

decyzyjny, np.: klasyfikacja klientów przez bank do grup: dad kredyt / nie dad kredytu

• analiza skupień (clustering) grupowanie danych na wcześniej nieznae klasy, znajdowanie wspólnych cech, np.:

wyodrębnienie różnych rodzajów klientów – różnych taryf –

przez sied telefonii komórkowej

(114)

Na czym polega grupowanie ?

Obiekt jest przydzielony do skupienia, którego środek

ciężkości leży najbliżej w sensie odległości euklidesowej.

(115)

Carrot2 a Google

(116)

System Carrot2 ( Podstawy )

Carrot operuje jedynie na snippetach, bez odczytywania

dokumentów źródłowych. Wynika z tego fakt, iż jakość

grupowania będzie silnie zależeć od siły opisowej

snippetów – krótkich fragmentów tekstu zwróconych

przez wyszukiwarkę. W tym aspekcie systemy typu

Carrot, będą znacznie ograniczone przez

zaimplementowane algorytmy samych wyszukiwarek

(Google, Yahoo!, itp.) służące odnalezieniu zdań,

które w sposób właściwy opisują temat strony. Daje to

jednak pewne korzyści, w postaci krótkiego czasu

wyszukiwania (wynikającego z faktu braku

konieczności analizowania całych dokumentów).

(117)

• Carrot daje olbrzymie możliwości analizy wyników zapytania względem tradycyjnych wyszukiwarek.

Poprzez ekstrakcję fraz z pierwszych paruset odnośników i ich prezentację w skumulowanej formie uzyskujemy możliwość pobieżnego przeglądu o parę rzędów wielkości większej liczby dokumentów niż miałoby to miejsce przy klasycznym listowym widoku.

• System przekierowuje zapytanie do wyszukiwarki (Google, Yahoo!, itp.), pobiera od niej kilkaset początkowych odnośników, a następnie analizuje je poszukując wspólnych, opisowych fraz. Frazy te, o ile są wystarczająco częste, są traktowane jako reprezentanci grup tematycznych.

System Carrot2 ( Podstawy )

(118)

• Carrot nie był pierwszym systemem grupującym wyniki z wyszukiwarek – wcześniej powstały systemy Grouper, Vivisimo oraz inne, których funkcjonalność jednak nigdy nie wysunęła się poza obszar eksperymentu obliczeniowego. Grouper, jako projekt również typowo badawczy, został usunięty z sieci w roku 2001 (po zakończeniu badań).

• Co warte podkreślenia, Carrot jest jedynym systemem grupującym, działającym dla języków innych niż język angielski.

• Nazwa systemu odnosi się do wcześniejszych owocowych systemów wspomagających odkrywanie wiedzy z danych tekstowych (Lemon, Grape, Orange).

System Carrot2 ( Podstawy )

(119)

Idealny system wyszukiwania informacji:

• To taki który potrafi odpowiedzieć na każde pytanie poprawnie.

• Czy taki system ma szanse powstać ?

• Wiedza płynąca z internetu jest dość niepewnym źródłem informacji, i faktów, o czym warto pamiętać, - bo każdy może umieścić w sieci informacje...nie do końca precyzyjne ale i często błędne.

• Pojawiające się nowe pomysły mające na celu ułatwianie użytkownikom korzystanie z wyszukiwarek, to z pewnością krok by uczynić tę czynność przyjemniejszą i bardziej intuicyjną.

• Nie można jednak liczyć na to, ze wyszukiwarki w przyszłości

będą w stanie wyręczyć nas z umiejętności logicznego

myślenia i odrobiny dociekliwości w szukaniu tego co nas

interesuje.

(120)

Dziękuję za uwagę…

WPROWADZENIEDOWYSZUKIWAREK AGNIESZKANOWAK-BRZEZIŃSKA

Przedmiot prowadzony w zakresie Projektu UPGOW współfinansowanego

Przez Unię Europejską w ramach Europejskiego Funduszu Społecznego

Cytaty

Powiązane dokumenty

Typ zasobu: scenariusz wraz z pomocami dydaktycznymi oraz materiałami multimedialnymi Przedmiot/kategoria: wychowanie przedszkolne. Autor:

Projekt finansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego3. Scenariusz zajęć dla 5-latków Autor:

Uwaga: Propozycje zawarte w scenariuszu zostały przygotowane w taki sposób, aby nauczyciel mógł dostosować czas realizacji zajęć do możliwości dzieci w grupie

Projekt finansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego3. Scenariusz zajęć dla 5-latków Autor:

Projekt finansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego.. Scenariusz zajęć dla 4-latków Autor:

duży pluszowy miś, materiał do uszycia pluszowego języka dla misia, miód w słoiku, serwetka dla każdego dziecka, bibuła/szminka do zrobienia języka misiowi,

prace dzieci z fotografiami rodziny, napisy do globalnego czytania, klej w miseczkach, płyta CD z nagraniem melodii Mało nas do pieczenia chleba, odtwarzacz płyt CD, mała piłka dla

 obdarza uwagą dzieci oraz dorosłych, aby rozumieć to, co mówią, a także czego oczekują; grzecznie zwraca się do innych osób w domu, w przedszkolu, na ulicy;.. 