• Nie Znaleziono Wyników

Wprowadzenie - eksploracja i wyszukiwanie w sieci WWW

N/A
N/A
Protected

Academic year: 2021

Share "Wprowadzenie - eksploracja i wyszukiwanie w sieci WWW"

Copied!
20
0
0

Pełen tekst

(1)

Wyszukiwanie i Przetwarzanie Informacji WWW

Wprowadzenie

Marcin Sydow

(2)

Organizacja

Prowadz¡cy

dr Marcin Sydow

Mi¦dzykatedralne Laboratorium Web Mining oraz

Katedra Systemów Inteligentnych PJWSTK

pokój: 311

e-mail: msyd@poljap.edu.pl tel.: +48 22 58 44 571

(3)

Organizacja Kursu

15 spotka« (wykªady bez ¢wicze«) kolokwium ze znajomo±ci wykªadów sprawdzana obecno±¢ na zaj¦ciach

Zaliczenie - system punktowy (razem max. 55 p.): pisemny sprawdzian (max. 30)

okoªo 10 kartkówek na pocz. zaj¦¢ (10 x 2 = 20) obecno±¢/aktywno±¢ (ok. 5)

(opcjonalnie - dla bardzo ch¦tnych) projekt (?) Ocena wynikowa dana jest wzorem: bscore10 c

(wersja dla purystów: min(5, max(2, bscore 10 c)))

(4)

Organizacja

Wymagania

Na pozytywne zaliczenie wymagana jest:

1 caªo±¢ materiaªu wykªadów: ogólna orientacja 2 wybrane 1-3 wykªady: dobra znajomo±¢

Wykªady b¦d¡ na bardzo ró»ne tematy i o zró»nicowanym charakterze: pogl¡dowe (wi¦kszo±¢)

techniczno-in»ynierskie techniczno-algorytmiczne

Nie ma obowi¡zku zgª¦biania wszystkich szczegóªów - pozostawiony jest wybór

(5)

Zaªo»enia

Przydatna znajomo±¢ nast¦puj¡cych zagadnie«: wzgl¦dne obycie z WWW

umiej¦tno±¢ korzystania z wyszukiwarek rozumienie podstaw html, http (TIN) elementarna wiedza z zakresu informatyki

(6)

Organizacja

Jakich dziedzin dotyczy ten kurs?

1 wyszukiwanie informacji w korpusach dokumentów tekstowych (ang.

Information Retrieval, IR)

2 wyszukiwarki internetowe (ang. search engines, rownie»: WIR od ang.

Web Information Retrieval)

3 eksploracja danych w sieci WWW (ang. Web Mining WM) 4 wybrane zagadnienia ekonomiczne i spoªeczne dotycz¡ce WWW

(7)

Co celowo pomini¦to

Niektóre zagadnienia zaliczaj¡ si¦ do tematyki Web Mining ale pomini¦to je ze wzgl¦du na ograniczenia czasowe i fakt, »e wymagaj¡ odr¦bnego kursu (lub taki kurs ju» istnieje)

Nale»¡ do nich m.in.

Przetwarzanie J¦zyka Naturalnego (ang. NLP) Uczenie Maszynowe i Analiza Danych

(8)

Organizacja

Czego kurs nie dotyczy bezpo±rednio?

tzw. technologii internetowych (html, PHP, JavaScript, Flash, CGI, CMS, Web Services, ...)

budowy portali internetowych

programowania (w tym sieciowego) i IO protokoªów (HTTP, TCP/IP)

zagadnie« zwi¡zanych z Internetem (DNS, etc.) technologii XML, RDF, XPath, ...

mechanizmów dziaªania sieci P2P pozycjonowania stron

(cho¢ wi¦kszo±¢ powy»szych zagadnie« ma du»y zwi¡zek z niniejszym kursem)

(9)

Plan Kursu

Wprowadzenie

Podstawy wyszukiwania informacji (ang. IR) (indeks, zapytania, interfejs) Globalne wªasno±ci WWW i specyka wyszukiwania w WWW (ang. WIR) Wyszukiwarki internetowe du»ej skali (z lotu ptaka)

Systemy zbierania dokumentów WWW (ang. crawler) Repozytoria

Przykªady konkretnych rozwi¡za« architektury wielkich wyszukiwarek Analiza struktury grafu hyperlinków WWW

Algorytm PageRank, jego wªa±ciwo±ci i warianty

HITS, inne algorytmy i zastosowania w sieciach spoªecznych Ekonomiczne podstawy wyszukiwarek: reklamy

(10)

Tematyka

Wyszukiwanie Informacji w uj¦ciu klasycznym

(ang. Information Retrieval)

wiedza - reprezentowana przez: korpus dokumentów potrzeba informacyjna - reprezentowana przez: zapytanie

system ma zwróci¢ dokumenty, które odpowiadaj¡ potrzebie informacyjnej Jest bardzo wiele wariantów tego systemu.

Dotyczy ±rodowisk o sªabej, zaszumionej lub niejednorodnej strukturze, takich jak WWW

Wyszukiwanie w bazach danych (gdzie jest dobrze zdeniowana struktura) nie zalicza si¦ do tego rodzaju.

(11)

Rola Wyszukiwarek

Zadanie wyszukiwania w WWW speªniaj¡ dzisiaj gªównie wyszukiwarki internetowe- nale»¡ce do najcz¦±ciej u»ywanych narz¦dzi przez ludzi

(81% gobalnej populacji Internetu u»yªo przynajmniej raz wyszukiwarki w grudniu 2006 w Wielkiej Brytanii, wg. Nielsen/NetRatings)

Wyszukiwarki WWW wywodz¡ si¦ z klasycznych systemów IR (rozwijanych od lat 60 XX. wieku) pracuj¡cych na kontrolowanych kolekcjach dokumentów tekstowych w korporacjach, etc.

Kurs m.in. wyja±nia podstawowe zasady dziaªania zarówno klasycznych systemów jak i nowoczesnych wyszukiwarek WWW.

Oprócz zagadnie« technicznych wspominane s¡ wa»ne aspekty socjologiczno-ekonomiczne wyszukiwania w WWW.

(12)

Tematyka

Eksploracja Danych WWW (ang. Web Mining)

Skrzy»owanie starszej dziedziny: Eksploracji Danych (Data Mining) i zagadnie« specycznych dla sieci WWW.

Dotyczy wyszukiwania wzorców i automatycznego odkrywania u»ytecznej wiedzy z sieci WWW poprzez zastosowanie technik typowych dla

klasycznej analizy danych wzbogaconych o techniki specyczne dla WWW.

Czyli w wielkim skrócie:

(13)

Web Mining

Cechy WWW:

ogromne bogactwo danych zawartych w WWW wyj¡tkowa dynamika (ci¡gªy wykªadniczy wzrost) wysoka ró»norodno±¢ i zaszumienie

uczestnictwo setek milionów wzajemnie powi¡zanych procesów (sterowanych zarówno przez ludzi jak i maszyny)

ogromne (i wci¡» rosn¡ce) zaanga»owanie ekonomiczne, polityczne i spoªeczne milionów agentów (o cz¦sto sprzecznych interesach)

1 Web nale»y do najciekawszych obecnie pól zastosowa« Data Mining 2 Web Mining ci¡gle stawia niezwykªe wyzwania koncepcyjne i

(14)

Tematyka

Web Mining

W Web Mining - tradycyjny podziaª na 3 gªówne dziaªy:

1 Eksploracja Zawarto±ci WWW (ang. Content Mining)

(dawniejszy text mining + eksploracja struktury + NLP + ...)

2 Eksploracja Struktury WWW (ang. Link Analysis)

(grafy, grafy losowe, algebra, procesy stochastyczne, kombinatoryka, ...)

3 Analiza U»ytkowników WWW (ang. Web Usage Mining)

(eksploracja danych, analiza logów, analiza danych temporalnych, modelowanie u»ytkowników, ...)

Mo»na uzna¢, »e WIR (Web Information Retrieval, czyli Wyszukiwanie Informacji w WWW) jest równie» poddziedzin¡ Web Mining

(15)

Przykªady

Ekstrakcja Informacji na zadany temat z WWW

Automatyczne porównywanie cen wybranych produktów

Identykacja Grup U»ytkowników o okre±lonych zainteresowaniach lub aktywno±ci

Systemy demaskowania plagiatów (np. plagiat.pl) Automatyczne generowanie wiedzy z zasobów WWW Odnajdywanie osób

Automatyczne ±ledzenie opinii publicznej na dany temat Wyszukiwarka multimediów (lmy, muzyka, etc.)

Wykrywanie i Zwalczanie Chªamu Wyszukiwarkowego (ang. Spam) Wykrywanie nadu»y¢ i przest¦pstw (nanse, terroryzm, etc.) Identykacja grup klientów

(16)

Tematyka

Dost¦p do informacji WWW

Obecne paradygmaty organizacji dost¦pu do informacji w WWW:

1 nawigacja r¦czna po dokumentach (pierwotny, obecnie w zaniku) 2 katalogi tematyczne dokumentów (w defensywie?)

3 wyszukiwarki boolowskie (obecnie dominuje)

Wyszukiwarki zmieniªy proces rozwoju WWW.

Co dalej?

QA (odpowiadarki na pytania) nawigacja inteligentna (semantyczna) ...

(17)

Dost¦p do informacji WWW

Obecne paradygmaty organizacji dost¦pu do informacji w WWW:

1 nawigacja r¦czna po dokumentach (pierwotny, obecnie w zaniku) 2 katalogi tematyczne dokumentów (w defensywie?)

3 wyszukiwarki boolowskie (obecnie dominuje)

Wyszukiwarki zmieniªy proces rozwoju WWW. Co dalej?

QA (odpowiadarki na pytania) nawigacja inteligentna (semantyczna) ...

(18)

Tematyka

(Pre)historia WIR w skrócie

1611: prototyp indeksu(Strong's Exhaustive Concordance of Bible)

1945: Memex - prototyp WWW (V.Bush As we may think) 1960: SMART Information Retrieval System (G.Salton, Cornell Univ.) 1965: Xanadu - hypertext (Ted Nelson)

1980: system do nawigacji po dokumentach (T.Berners-Lee) 1990: narodziny WWW (Tim Berners-Lee, CERN)

1993-95: pierwsze przegl¡darki (Mosaic/Netscape) 1994: Lycos - pierwsza wyszukiwarka

1994: WebCrawler, 4K hostów (Brian Pinkerton)

1994: Jerry's Guide to the World Wide Web (pó¹niej: Yahoo) 1995: AltaVista, Excite, InfoSeek, Inktomi

1996: Yahoo wchodzi na gieªd¦ 1996-1998: pocz¡tki Google

(19)

Co wypada wiedzie¢ po tym wykªadzie:

1 Jakie s¡ reguªy zaliczenia :)

2 Co to jest Web Information Retrieval 3 Czym zajmuje si¦ Web Mining 4 Dziaªy Web Mining (3-4) 5 Przykªady zastosowa« (ze 3)

6 Orientacyjne liczby dotycz¡ce WWW 7 Rola wyszukiwarek

(20)

Zadania

Cytaty

Powiązane dokumenty

Kolejne zadanie to dopasowanie ilustracji do wybranych i uszeregowanych grup (załącznik 3). Każda z grup przykleja wszystkie podane informacje na arkuszu szarego papieru. W ten

63 Claire Martinot, Quelle description linguistique peut entrainer un renouveau didactique dans. l’enseignement

Very short heating times during the welding process result in: (a) a very short time for heat to be transferred through the thermoplastic coating layer used to generate

Miejscowość i właściciel Wyposażenie Uwagi Franciszek Maciasz Józef Maciasz Male Ciche Bartłomiej Żegleń Maniowy Władysław Jandura Józef Jandura Józef Jandura

Z wyjątkiem publikacji prawniczych i politologicznych zoriento- wanych na formalnoprawne aspekty zmiany 5 rzadko pojawiają się pra- ce, które wykorzystywałyby do analizy

3 Kowalska Karolina, Historia a stan aktualny wybranych terenów zieleni miejskiej miasta Gniezno z dominantą Pomnika Historii, praca inżynierska, Poznań 2017, promotor dr

Stwierdzono, że podczas oczyszczania ścieków przy stężeniu osadu około 10 g/dm 3 stopień usunięcia ChZT wynosił 64,8% a wartość ChZT ścieków oczysz- czonych

c) Sformułuj warunki, jakie według ciebie, powinna spełnić wartość, re- prezentująca zbiór pomiarów2. Liczba wypadków samochodowych, gdy kierowcy używali telefonu