Wprowadzenie do Wyszukiwania Informacji WWW
Preludium
Marcin Sydow
Web Mining Lab PJWSTK
Intro
Co to jest wyszukiwanie informacji?
Meno zapytaª Sokratesa:
Jak zapyta¢ o to czego nie znamy? (Platon: Meno, 400 p.n.e.)
Intro
Wyszukiwanie Informacji
Podstawowa aktywno±¢ czªowieka dzisiaj.
Ostatnia dekada: rewolucja w podej±ciu czªowieka do zdobywania informacji na skutek eksplozji technologii informacyjnych
Intro
Niebezpieczne uproszczenia naszych czasów
Niektórzy ludzie s¡ (bª¦dnie) przekonani, »e sie¢ zawiera obecnie caª¡ istotn¡ ludzk¡ wiedz¦. Oto inne naiwne a popularne uproszczenia:
wszystko jest w sieci
istnieje tylko to co jest w sieci warto szuka¢ informacji tylko w sieci
to co zwróci wyszukiwarka jest prawd¡ tylko to istnieje, co zwróci wyszukiwarka istnieje tylko jedna dobra wyszukiwarka, etc.
To zadziwiaj¡ce, codzienna aktywno±¢ wi¦kszo±ci spoªecze«stwa zachodniego jest totalnie uzale»niona od usªug zaledwie okoªo trzech korporacji (!)(do tego, wszystkie maj¡ centrale w tym samym regionie ±wiata...)
Intro
Niebezpieczne uproszczenia naszych czasów
Niektórzy ludzie s¡ (bª¦dnie) przekonani, »e sie¢ zawiera obecnie caª¡ istotn¡ ludzk¡ wiedz¦. Oto inne naiwne a popularne uproszczenia:
wszystko jest w sieci
istnieje tylko to co jest w sieci warto szuka¢ informacji tylko w sieci to co zwróci wyszukiwarka jest prawd¡ tylko to istnieje, co zwróci wyszukiwarka istnieje tylko jedna dobra wyszukiwarka, etc.
To zadziwiaj¡ce, codzienna aktywno±¢ wi¦kszo±ci spoªecze«stwa zachodniego jest totalnie uzale»niona od usªug zaledwie okoªo trzech korporacji (!)(do tego, wszystkie maj¡ centrale w tym samym regionie ±wiata...)
Intro
Niebezpieczne uproszczenia naszych czasów
Niektórzy ludzie s¡ (bª¦dnie) przekonani, »e sie¢ zawiera obecnie caª¡ istotn¡ ludzk¡ wiedz¦. Oto inne naiwne a popularne uproszczenia:
wszystko jest w sieci
istnieje tylko to co jest w sieci warto szuka¢ informacji tylko w sieci to co zwróci wyszukiwarka jest prawd¡ tylko to istnieje, co zwróci wyszukiwarka istnieje tylko jedna dobra wyszukiwarka, etc.
To zadziwiaj¡ce, codzienna aktywno±¢ wi¦kszo±ci spoªecze«stwa zachodniego jest totalnie uzale»niona od usªug zaledwie okoªo trzech korporacji (!)(do tego, wszystkie maj¡ centrale w tym samym regionie ±wiata...)
Intro
Gdzie byªa i jest przechowywana wiedza ludzko±ci
Tradycja ustna
homo erectus: 2 000 000 lat temu homo sapiens sapiens: 250 000. lat temu
Biblioteki
(papirus conajmniej okoªo 4000 lat temu)
Biblioteka Aleksandryjska (ok. 300 p.n.e) ok. 2300 lat temu
Intro
Biblioteki
Rozwijane przez wieki. Sªusznie uwa»ane do niedawna za gªówn¡ skarbnic¦ summy ludzkiej wiedzy.
Historia:
biblioteka alexandryjska: najwieksza biblioteka ±wiata staro»ytnego zaªo»yª: Ptolemeusz I (ok. 350-283 p.n.e.), 200.000 woluminów spalona podczas inwazji Cezara na Egipt (ok. 48 p.n.e.)
Polska:
najstarsza: biblioteka jagiello«ska (kiedy zaªo»ona?
1364 - zaª. UJ): obecnie: 6.4 miliona jednostek
najwi¦ksza: biblioteka narodowa, 7.9 miliona jednostek najwi¦ksza uczelniana: BUW 4.18M
wiat: (obecnie najwi¦ksza) bibl. kongresu ameryka«skiego (zaª. 1800), ok 30M ksi¡»ek, 60M r¦kopisów i inne
Intro
Biblioteki
Rozwijane przez wieki. Sªusznie uwa»ane do niedawna za gªówn¡ skarbnic¦ summy ludzkiej wiedzy.
Historia:
biblioteka alexandryjska: najwieksza biblioteka ±wiata staro»ytnego zaªo»yª: Ptolemeusz I (ok. 350-283 p.n.e.), 200.000 woluminów spalona podczas inwazji Cezara na Egipt (ok. 48 p.n.e.)
Polska:
najstarsza: biblioteka jagiello«ska (kiedy zaªo»ona? 1364 - zaª. UJ):
obecnie: 6.4 miliona jednostek
najwi¦ksza: biblioteka narodowa, 7.9 miliona jednostek najwi¦ksza uczelniana: BUW 4.18M
wiat: (obecnie najwi¦ksza) bibl. kongresu ameryka«skiego (zaª. 1800), ok 30M ksi¡»ek, 60M r¦kopisów i inne
Intro
Biblioteki
Rozwijane przez wieki. Sªusznie uwa»ane do niedawna za gªówn¡ skarbnic¦ summy ludzkiej wiedzy.
Historia:
biblioteka alexandryjska: najwieksza biblioteka ±wiata staro»ytnego zaªo»yª: Ptolemeusz I (ok. 350-283 p.n.e.), 200.000 woluminów spalona podczas inwazji Cezara na Egipt (ok. 48 p.n.e.)
Polska:
najstarsza: biblioteka jagiello«ska (kiedy zaªo»ona? 1364 - zaª. UJ): obecnie: 6.4 miliona jednostek
najwi¦ksza: biblioteka narodowa, 7.9 miliona jednostek najwi¦ksza uczelniana: BUW 4.18M
wiat: (obecnie najwi¦ksza) bibl. kongresu ameryka«skiego (zaª. 1800), ok 30M ksi¡»ek, 60M r¦kopisów i inne
Intro
WWW
Zaledwie 19 lat, ale...
w 2005 roku: 11.5 miliarda sensownych stron: ok 40TB tekstu tymczasem ogromna Biblioteka Kongresu:
ok. 30TB tekstu (szacunkowo) nasza biblioteka PJWSTK spokojnie zmie±ci si¦ na iPodzie (je±li
Intro
WWW
Zaledwie 19 lat, ale...
w 2005 roku: 11.5 miliarda sensownych stron: ok 40TB tekstu
tymczasem ogromna Biblioteka Kongresu: ok. 30TB tekstu (szacunkowo)
nasza biblioteka PJWSTK spokojnie zmie±ci si¦ na iPodzie (je±li ograniczymy do tekstu).
Intro
WWW
Zaledwie 19 lat, ale...
w 2005 roku: 11.5 miliarda sensownych stron: ok 40TB tekstu
tymczasem ogromna Biblioteka Kongresu: ok. 30TB tekstu (szacunkowo) nasza biblioteka PJWSTK spokojnie zmie±ci si¦ na iPodzie (je±li
Intro
Digitalizacja naszego dziedzictwa kulturowego
Projekt Gutenberg(1971, M.Hart, cel: digitalizacja 10.000 tekstów z public domain w ci¡gu 30 lat. Uko«czony w 2003, nast¦pny cel: 1M. Pocz¡tkowo wpisywane przez ochotników, potem skanowane i sprawdzane przez ochotników)
Million Book Project(2001, Carnegie Mellon University (CMU). Wolny dost¦p, peªny indeks tekstowy. Technologia: OCR, etc. Ksi¡»ki s¡ pakowane i wysyªane do Indii i Chin, gdzie s¡ tanio skanowane. Sªaba jako±¢ w porównaniu do Gutenberga)
Internet Archive(1996 - cel: zapisywa¢ wi¦kszo±¢ WWW w kolejnych migawkach(obecnie okoªo 150.000.000.000 stron ! w tym wayback machine). Obecnie przechowuje tak»e Million Book. 2002: partnerstwo z Bibliotheca Alexandrina (odbudowywana). Ksi¡»ki niekomercyjne i osierocone pod wzgl¦dem praw autorskich)
Amazon(ograniczony dost¦p do du»ej ilo±ci dzieª (ponad 100.000) chronionych prawem autorskim. System wyszukiwania i rekomendacji warunkowany
Intro
Digitalizacja naszego dziedzictwa kulturowego, cd.
Google Books(2004 - pocz¡tkowo: wspóªpraca z 5 bibliotekami
uniwersyteckimi: Harvard, Michigan, NY, Oxford, Stanford. Cz¦±ciowo otwarty dost¦p. Skanowanie i przeszukiwanie du»ej liczby ksi¡»ek (masowa technologia: ok. 1000 stron/h), w tym chronionych prawem autorskim. Ostatnio inicjatywa wzbudziªa wielkie kontrowersje dotycz¡ce rozszerzenia oferty o bezpo±redni¡ sprzeda». Grudzie« 2009: Francja zatrzymaªa proces masowego skanowania francuskiej literatury (jako pogwaªcenie praw autorskich)
Open Content Alliance (2005 - w odpowiedzi na zamkni¦ty i (w sumie) komercyjny projekt Google. Otwarty, kooperacja wielu uniwesytetów i rm (np. MSN, Yahoo!, HP, Adobe, Internet Archive, etc.) z postanowieniem peªnego respektowania praw autorskich.
Nowy model dost¦pu do ksi¡»ek (e-book. Ksi¡»ki w wersji elektronicznej. Z jednej strony szansa na czytanie niedost¦pnych zycznie ksi¡»ek. Z drugiej liczne potencjalne zagro»enia: nowi wªa±ciciele mog¡ zastosowa¢ ±rodki prawne do manipulowania dost¦pem do dzieª. Np.: blokada tylko do okre±lonego urz¡dzenia (koniec z po»yczaniem ksi¡»ek od przyjacióª!), niemo»liwo±¢ odsprzeda»y (koniec z rynkiem drugiego obiegu!), czasowy limit istnienia zakupionej ksi¡»ki (koniec z trwaª¡ kolekcj¡ po upªywie terminu, ksi¡»ki po prostu znikn¡!)
Intro
Digitalizacja naszego dziedzictwa kulturowego, cd.
Google Books(2004 - pocz¡tkowo: wspóªpraca z 5 bibliotekami
uniwersyteckimi: Harvard, Michigan, NY, Oxford, Stanford. Cz¦±ciowo otwarty dost¦p. Skanowanie i przeszukiwanie du»ej liczby ksi¡»ek (masowa technologia: ok. 1000 stron/h), w tym chronionych prawem autorskim. Ostatnio inicjatywa wzbudziªa wielkie kontrowersje dotycz¡ce rozszerzenia oferty o bezpo±redni¡ sprzeda». Grudzie« 2009: Francja zatrzymaªa proces masowego skanowania francuskiej literatury (jako pogwaªcenie praw autorskich)
Open Content Alliance (2005 - w odpowiedzi na zamkni¦ty i (w sumie) komercyjny projekt Google. Otwarty, kooperacja wielu uniwesytetów i rm (np. MSN, Yahoo!, HP, Adobe, Internet Archive, etc.) z postanowieniem peªnego respektowania praw autorskich.
Nowy model dost¦pu do ksi¡»ek (e-book. Ksi¡»ki w wersji elektronicznej. Z jednej strony szansa na czytanie niedost¦pnych zycznie ksi¡»ek. Z drugiej liczne potencjalne zagro»enia: nowi wªa±ciciele mog¡ zastosowa¢ ±rodki prawne do manipulowania dost¦pem do dzieª. Np.: blokada tylko do okre±lonego urz¡dzenia (koniec z po»yczaniem ksi¡»ek od przyjacióª!), niemo»liwo±¢ odsprzeda»y (koniec z rynkiem drugiego obiegu!), czasowy limit istnienia zakupionej ksi¡»ki (koniec z trwaª¡ kolekcj¡ po upªywie terminu, ksi¡»ki po prostu znikn¡!)
Intro
Digitalizacja naszego dziedzictwa kulturowego, cd.
Google Books(2004 - pocz¡tkowo: wspóªpraca z 5 bibliotekami
uniwersyteckimi: Harvard, Michigan, NY, Oxford, Stanford. Cz¦±ciowo otwarty dost¦p. Skanowanie i przeszukiwanie du»ej liczby ksi¡»ek (masowa technologia: ok. 1000 stron/h), w tym chronionych prawem autorskim. Ostatnio inicjatywa wzbudziªa wielkie kontrowersje dotycz¡ce rozszerzenia oferty o bezpo±redni¡ sprzeda». Grudzie« 2009: Francja zatrzymaªa proces masowego skanowania francuskiej literatury (jako pogwaªcenie praw autorskich)
Open Content Alliance (2005 - w odpowiedzi na zamkni¦ty i (w sumie) komercyjny projekt Google. Otwarty, kooperacja wielu uniwesytetów i rm (np. MSN, Yahoo!, HP, Adobe, Internet Archive, etc.) z postanowieniem peªnego respektowania praw autorskich.
Nowy model dost¦pu do ksi¡»ek (e-book. Ksi¡»ki w wersji elektronicznej. Z jednej strony szansa na czytanie niedost¦pnych zycznie ksi¡»ek. Z drugiej liczne potencjalne zagro»enia: nowi wªa±ciciele mog¡ zastosowa¢ ±rodki prawne do manipulowania dost¦pem do dzieª. Np.: blokada tylko do okre±lonego urz¡dzenia
Intro
Pozytywne aspekty rewolucji informacyjnej
Du»y temat conajmniej na doktorat z lozoi nauki lub socjologii, etc. Niew¡tpliwie rewolucja informacyjna przynosi wiele pozytywnych aspektów. Zwykle to o nich si¦ mówi.
Intro
Ciemne strony rewolucji informacyjnej
Zróbmy wi¦c ¢wiczenie i poku±my si¦ o dostrze»enie równie» negatywnych aspektów:
np.
potencjalny oligopol kilku monstrualnych korporacji kontroluj¡cych prawie caªy dost¦p ludzko±ci do informacji i komunikacji
teoretyczne mo»liwo±ci manipulowania informacj¡ na skal¦ masow¡ niespotykane wcze±niej mo»liwo±ci kontrolowania my±li prawie caªego spoªecze«stwa (a'la Orwell 1984) (logi wyszukiwania i klikni¦cia zdradzaj¡ nasze aktualne my±li. Jest to w formie idealnej do automatycznej analizy na masow¡ skal¦)
(potencjalne) odci¦cie ludzko±ci od trwaªych no±ników kultury (digitalizacja) i mo»liwo±¢ pó¹niejszego kontrolowania dost¦pu (np. e-booki)
totalne uzale»nienie ludzi od technologii i elektronicznych gad»etów (nasza pami¦¢ staje si¦ coraz sªabsza...)
Intro
Ciemne strony rewolucji informacyjnej
Zróbmy wi¦c ¢wiczenie i poku±my si¦ o dostrze»enie równie» negatywnych aspektów:
np.
potencjalny oligopol kilku monstrualnych korporacji kontroluj¡cych prawie caªy dost¦p ludzko±ci do informacji i komunikacji
teoretyczne mo»liwo±ci manipulowania informacj¡ na skal¦ masow¡ niespotykane wcze±niej mo»liwo±ci kontrolowania my±li prawie caªego spoªecze«stwa (a'la Orwell 1984) (logi wyszukiwania i klikni¦cia zdradzaj¡ nasze aktualne my±li. Jest to w formie idealnej do automatycznej analizy na masow¡ skal¦)
(potencjalne) odci¦cie ludzko±ci od trwaªych no±ników kultury (digitalizacja) i mo»liwo±¢ pó¹niejszego kontrolowania dost¦pu (np. e-booki)
totalne uzale»nienie ludzi od technologii i elektronicznych gad»etów (nasza pami¦¢ staje si¦ coraz sªabsza...)
Intro
Ciemne strony rewolucji informacyjnej
Zróbmy wi¦c ¢wiczenie i poku±my si¦ o dostrze»enie równie» negatywnych aspektów:
np.
potencjalny oligopol kilku monstrualnych korporacji kontroluj¡cych prawie caªy dost¦p ludzko±ci do informacji i komunikacji
teoretyczne mo»liwo±ci manipulowania informacj¡ na skal¦ masow¡
niespotykane wcze±niej mo»liwo±ci kontrolowania my±li prawie caªego spoªecze«stwa (a'la Orwell 1984) (logi wyszukiwania i klikni¦cia zdradzaj¡ nasze aktualne my±li. Jest to w formie idealnej do automatycznej analizy na masow¡ skal¦)
(potencjalne) odci¦cie ludzko±ci od trwaªych no±ników kultury (digitalizacja) i mo»liwo±¢ pó¹niejszego kontrolowania dost¦pu (np. e-booki)
totalne uzale»nienie ludzi od technologii i elektronicznych gad»etów (nasza pami¦¢ staje si¦ coraz sªabsza...)
Intro
Ciemne strony rewolucji informacyjnej
Zróbmy wi¦c ¢wiczenie i poku±my si¦ o dostrze»enie równie» negatywnych aspektów:
np.
potencjalny oligopol kilku monstrualnych korporacji kontroluj¡cych prawie caªy dost¦p ludzko±ci do informacji i komunikacji
teoretyczne mo»liwo±ci manipulowania informacj¡ na skal¦ masow¡ niespotykane wcze±niej mo»liwo±ci kontrolowania my±li prawie caªego spoªecze«stwa (a'la Orwell 1984) (logi wyszukiwania i klikni¦cia zdradzaj¡ nasze aktualne my±li. Jest to w formie idealnej do automatycznej analizy na masow¡ skal¦)
(potencjalne) odci¦cie ludzko±ci od trwaªych no±ników kultury (digitalizacja) i mo»liwo±¢ pó¹niejszego kontrolowania dost¦pu (np. e-booki)
totalne uzale»nienie ludzi od technologii i elektronicznych gad»etów (nasza pami¦¢ staje si¦ coraz sªabsza...)
Intro
Ciemne strony rewolucji informacyjnej
Zróbmy wi¦c ¢wiczenie i poku±my si¦ o dostrze»enie równie» negatywnych aspektów:
np.
potencjalny oligopol kilku monstrualnych korporacji kontroluj¡cych prawie caªy dost¦p ludzko±ci do informacji i komunikacji
teoretyczne mo»liwo±ci manipulowania informacj¡ na skal¦ masow¡ niespotykane wcze±niej mo»liwo±ci kontrolowania my±li prawie caªego spoªecze«stwa (a'la Orwell 1984) (logi wyszukiwania i klikni¦cia zdradzaj¡ nasze aktualne my±li. Jest to w formie idealnej do automatycznej analizy na masow¡ skal¦)
(potencjalne) odci¦cie ludzko±ci od trwaªych no±ników kultury (digitalizacja) i mo»liwo±¢ pó¹niejszego kontrolowania dost¦pu (np. e-booki)
totalne uzale»nienie ludzi od technologii i elektronicznych gad»etów (nasza pami¦¢ staje si¦ coraz sªabsza...)
Intro
Ciemne strony rewolucji informacyjnej
Zróbmy wi¦c ¢wiczenie i poku±my si¦ o dostrze»enie równie» negatywnych aspektów:
np.
potencjalny oligopol kilku monstrualnych korporacji kontroluj¡cych prawie caªy dost¦p ludzko±ci do informacji i komunikacji
teoretyczne mo»liwo±ci manipulowania informacj¡ na skal¦ masow¡ niespotykane wcze±niej mo»liwo±ci kontrolowania my±li prawie caªego spoªecze«stwa (a'la Orwell 1984) (logi wyszukiwania i klikni¦cia zdradzaj¡ nasze aktualne my±li. Jest to w formie idealnej do automatycznej analizy na masow¡ skal¦)
(potencjalne) odci¦cie ludzko±ci od trwaªych no±ników kultury (digitalizacja) i mo»liwo±¢ pó¹niejszego kontrolowania dost¦pu (np. e-booki)
totalne uzale»nienie ludzi od technologii i elektronicznych gad»etów (nasza pami¦¢ staje si¦ coraz sªabsza...)
Zadania
Co wypada wiedzie¢ po tym wykªadzie:
1 Podstawowa wiedza historyczna (co? kiedy?)
2 Wymie« i krótko opisz co najmniej 3 z najwi¦kszych ostatnio
przedsi¦wzi¦¢ digitalizacji dziedzictwa kulturowego ludzko±ci
3 Wymie« co najmniej 3 (najlepiej dostrze» samodzielnie) zagro»enia
Zadania