• Nie Znaleziono Wyników

Era informacyjna

N/A
N/A
Protected

Academic year: 2021

Share "Era informacyjna"

Copied!
26
0
0

Pełen tekst

(1)

Wprowadzenie do Wyszukiwania Informacji WWW

Preludium

Marcin Sydow

Web Mining Lab PJWSTK

(2)

Intro

Co to jest wyszukiwanie informacji?

Meno zapytaª Sokratesa:

Jak zapyta¢ o to czego nie znamy? (Platon: Meno, 400 p.n.e.)

(3)

Intro

Wyszukiwanie Informacji

Podstawowa aktywno±¢ czªowieka dzisiaj.

Ostatnia dekada: rewolucja w podej±ciu czªowieka do zdobywania informacji na skutek eksplozji technologii informacyjnych

(4)

Intro

Niebezpieczne uproszczenia naszych czasów

Niektórzy ludzie s¡ (bª¦dnie) przekonani, »e sie¢ zawiera obecnie caª¡ istotn¡ ludzk¡ wiedz¦. Oto inne naiwne a popularne uproszczenia:

wszystko jest w sieci

istnieje tylko to co jest w sieci warto szuka¢ informacji tylko w sieci

to co zwróci wyszukiwarka jest prawd¡ tylko to istnieje, co zwróci wyszukiwarka istnieje tylko jedna dobra wyszukiwarka, etc.

To zadziwiaj¡ce, codzienna aktywno±¢ wi¦kszo±ci spoªecze«stwa zachodniego jest totalnie uzale»niona od usªug zaledwie okoªo trzech korporacji (!)(do tego, wszystkie maj¡ centrale w tym samym regionie ±wiata...)

(5)

Intro

Niebezpieczne uproszczenia naszych czasów

Niektórzy ludzie s¡ (bª¦dnie) przekonani, »e sie¢ zawiera obecnie caª¡ istotn¡ ludzk¡ wiedz¦. Oto inne naiwne a popularne uproszczenia:

wszystko jest w sieci

istnieje tylko to co jest w sieci warto szuka¢ informacji tylko w sieci to co zwróci wyszukiwarka jest prawd¡ tylko to istnieje, co zwróci wyszukiwarka istnieje tylko jedna dobra wyszukiwarka, etc.

To zadziwiaj¡ce, codzienna aktywno±¢ wi¦kszo±ci spoªecze«stwa zachodniego jest totalnie uzale»niona od usªug zaledwie okoªo trzech korporacji (!)(do tego, wszystkie maj¡ centrale w tym samym regionie ±wiata...)

(6)

Intro

Niebezpieczne uproszczenia naszych czasów

Niektórzy ludzie s¡ (bª¦dnie) przekonani, »e sie¢ zawiera obecnie caª¡ istotn¡ ludzk¡ wiedz¦. Oto inne naiwne a popularne uproszczenia:

wszystko jest w sieci

istnieje tylko to co jest w sieci warto szuka¢ informacji tylko w sieci to co zwróci wyszukiwarka jest prawd¡ tylko to istnieje, co zwróci wyszukiwarka istnieje tylko jedna dobra wyszukiwarka, etc.

To zadziwiaj¡ce, codzienna aktywno±¢ wi¦kszo±ci spoªecze«stwa zachodniego jest totalnie uzale»niona od usªug zaledwie okoªo trzech korporacji (!)(do tego, wszystkie maj¡ centrale w tym samym regionie ±wiata...)

(7)

Intro

Gdzie byªa i jest przechowywana wiedza ludzko±ci

Tradycja ustna

homo erectus: 2 000 000 lat temu homo sapiens sapiens: 250 000. lat temu

Biblioteki

(papirus conajmniej okoªo 4000 lat temu)

Biblioteka Aleksandryjska (ok. 300 p.n.e) ok. 2300 lat temu

(8)

Intro

Biblioteki

Rozwijane przez wieki. Sªusznie uwa»ane do niedawna za gªówn¡ skarbnic¦ summy ludzkiej wiedzy.

Historia:

biblioteka alexandryjska: najwieksza biblioteka ±wiata staro»ytnego zaªo»yª: Ptolemeusz I (ok. 350-283 p.n.e.), 200.000 woluminów spalona podczas inwazji Cezara na Egipt (ok. 48 p.n.e.)

Polska:

najstarsza: biblioteka jagiello«ska (kiedy zaªo»ona?

1364 - zaª. UJ): obecnie: 6.4 miliona jednostek

najwi¦ksza: biblioteka narodowa, 7.9 miliona jednostek najwi¦ksza uczelniana: BUW 4.18M

‘wiat: (obecnie najwi¦ksza) bibl. kongresu ameryka«skiego (zaª. 1800), ok 30M ksi¡»ek, 60M r¦kopisów i inne

(9)

Intro

Biblioteki

Rozwijane przez wieki. Sªusznie uwa»ane do niedawna za gªówn¡ skarbnic¦ summy ludzkiej wiedzy.

Historia:

biblioteka alexandryjska: najwieksza biblioteka ±wiata staro»ytnego zaªo»yª: Ptolemeusz I (ok. 350-283 p.n.e.), 200.000 woluminów spalona podczas inwazji Cezara na Egipt (ok. 48 p.n.e.)

Polska:

najstarsza: biblioteka jagiello«ska (kiedy zaªo»ona? 1364 - zaª. UJ):

obecnie: 6.4 miliona jednostek

najwi¦ksza: biblioteka narodowa, 7.9 miliona jednostek najwi¦ksza uczelniana: BUW 4.18M

‘wiat: (obecnie najwi¦ksza) bibl. kongresu ameryka«skiego (zaª. 1800), ok 30M ksi¡»ek, 60M r¦kopisów i inne

(10)

Intro

Biblioteki

Rozwijane przez wieki. Sªusznie uwa»ane do niedawna za gªówn¡ skarbnic¦ summy ludzkiej wiedzy.

Historia:

biblioteka alexandryjska: najwieksza biblioteka ±wiata staro»ytnego zaªo»yª: Ptolemeusz I (ok. 350-283 p.n.e.), 200.000 woluminów spalona podczas inwazji Cezara na Egipt (ok. 48 p.n.e.)

Polska:

najstarsza: biblioteka jagiello«ska (kiedy zaªo»ona? 1364 - zaª. UJ): obecnie: 6.4 miliona jednostek

najwi¦ksza: biblioteka narodowa, 7.9 miliona jednostek najwi¦ksza uczelniana: BUW 4.18M

‘wiat: (obecnie najwi¦ksza) bibl. kongresu ameryka«skiego (zaª. 1800), ok 30M ksi¡»ek, 60M r¦kopisów i inne

(11)

Intro

WWW

Zaledwie 19 lat, ale...

w 2005 roku: 11.5 miliarda sensownych stron: ok 40TB tekstu tymczasem ogromna Biblioteka Kongresu:

ok. 30TB tekstu (szacunkowo) nasza biblioteka PJWSTK spokojnie zmie±ci si¦ na iPodzie (je±li

(12)

Intro

WWW

Zaledwie 19 lat, ale...

w 2005 roku: 11.5 miliarda sensownych stron: ok 40TB tekstu

tymczasem ogromna Biblioteka Kongresu: ok. 30TB tekstu (szacunkowo)

nasza biblioteka PJWSTK spokojnie zmie±ci si¦ na iPodzie (je±li ograniczymy do tekstu).

(13)

Intro

WWW

Zaledwie 19 lat, ale...

w 2005 roku: 11.5 miliarda sensownych stron: ok 40TB tekstu

tymczasem ogromna Biblioteka Kongresu: ok. 30TB tekstu (szacunkowo) nasza biblioteka PJWSTK spokojnie zmie±ci si¦ na iPodzie (je±li

(14)

Intro

Digitalizacja naszego dziedzictwa kulturowego

Projekt Gutenberg(1971, M.Hart, cel: digitalizacja 10.000 tekstów z public domain w ci¡gu 30 lat. Uko«czony w 2003, nast¦pny cel: 1M. Pocz¡tkowo wpisywane przez ochotników, potem skanowane i sprawdzane przez ochotników)

Million Book Project(2001, Carnegie Mellon University (CMU). Wolny dost¦p, peªny indeks tekstowy. Technologia: OCR, etc. Ksi¡»ki s¡ pakowane i wysyªane do Indii i Chin, gdzie s¡ tanio skanowane. Sªaba jako±¢ w porównaniu do Gutenberga)

Internet Archive(1996 - cel: zapisywa¢ wi¦kszo±¢ WWW w kolejnych migawkach(obecnie okoªo 150.000.000.000 stron ! w tym wayback machine). Obecnie przechowuje tak»e Million Book. 2002: partnerstwo z Bibliotheca Alexandrina (odbudowywana). Ksi¡»ki niekomercyjne i osierocone pod wzgl¦dem praw autorskich)

Amazon(ograniczony dost¦p do du»ej ilo±ci dzieª (ponad 100.000) chronionych prawem autorskim. System wyszukiwania i rekomendacji warunkowany

(15)

Intro

Digitalizacja naszego dziedzictwa kulturowego, cd.

Google Books(2004 - pocz¡tkowo: wspóªpraca z 5 bibliotekami

uniwersyteckimi: Harvard, Michigan, NY, Oxford, Stanford. Cz¦±ciowo otwarty dost¦p. Skanowanie i przeszukiwanie du»ej liczby ksi¡»ek (masowa technologia: ok. 1000 stron/h), w tym chronionych prawem autorskim. Ostatnio inicjatywa wzbudziªa wielkie kontrowersje dotycz¡ce rozszerzenia oferty o bezpo±redni¡ sprzeda». Grudzie« 2009: Francja zatrzymaªa proces masowego skanowania francuskiej literatury (jako pogwaªcenie praw autorskich)

Open Content Alliance (2005 - w odpowiedzi na zamkni¦ty i (w sumie) komercyjny projekt Google. Otwarty, kooperacja wielu uniwesytetów i rm (np. MSN, Yahoo!, HP, Adobe, Internet Archive, etc.) z postanowieniem peªnego respektowania praw autorskich.

Nowy model dost¦pu do ksi¡»ek (e-book. Ksi¡»ki w wersji elektronicznej. Z jednej strony szansa na czytanie niedost¦pnych zycznie ksi¡»ek. Z drugiej liczne potencjalne zagro»enia: nowi wªa±ciciele mog¡ zastosowa¢ ±rodki prawne do manipulowania dost¦pem do dzieª. Np.: blokada tylko do okre±lonego urz¡dzenia (koniec z po»yczaniem ksi¡»ek od przyjacióª!), niemo»liwo±¢ odsprzeda»y (koniec z rynkiem drugiego obiegu!), czasowy limit istnienia zakupionej ksi¡»ki (koniec z trwaª¡ kolekcj¡  po upªywie terminu, ksi¡»ki po prostu znikn¡!)

(16)

Intro

Digitalizacja naszego dziedzictwa kulturowego, cd.

Google Books(2004 - pocz¡tkowo: wspóªpraca z 5 bibliotekami

uniwersyteckimi: Harvard, Michigan, NY, Oxford, Stanford. Cz¦±ciowo otwarty dost¦p. Skanowanie i przeszukiwanie du»ej liczby ksi¡»ek (masowa technologia: ok. 1000 stron/h), w tym chronionych prawem autorskim. Ostatnio inicjatywa wzbudziªa wielkie kontrowersje dotycz¡ce rozszerzenia oferty o bezpo±redni¡ sprzeda». Grudzie« 2009: Francja zatrzymaªa proces masowego skanowania francuskiej literatury (jako pogwaªcenie praw autorskich)

Open Content Alliance (2005 - w odpowiedzi na zamkni¦ty i (w sumie) komercyjny projekt Google. Otwarty, kooperacja wielu uniwesytetów i rm (np. MSN, Yahoo!, HP, Adobe, Internet Archive, etc.) z postanowieniem peªnego respektowania praw autorskich.

Nowy model dost¦pu do ksi¡»ek (e-book. Ksi¡»ki w wersji elektronicznej. Z jednej strony szansa na czytanie niedost¦pnych zycznie ksi¡»ek. Z drugiej liczne potencjalne zagro»enia: nowi wªa±ciciele mog¡ zastosowa¢ ±rodki prawne do manipulowania dost¦pem do dzieª. Np.: blokada tylko do okre±lonego urz¡dzenia (koniec z po»yczaniem ksi¡»ek od przyjacióª!), niemo»liwo±¢ odsprzeda»y (koniec z rynkiem drugiego obiegu!), czasowy limit istnienia zakupionej ksi¡»ki (koniec z trwaª¡ kolekcj¡  po upªywie terminu, ksi¡»ki po prostu znikn¡!)

(17)

Intro

Digitalizacja naszego dziedzictwa kulturowego, cd.

Google Books(2004 - pocz¡tkowo: wspóªpraca z 5 bibliotekami

uniwersyteckimi: Harvard, Michigan, NY, Oxford, Stanford. Cz¦±ciowo otwarty dost¦p. Skanowanie i przeszukiwanie du»ej liczby ksi¡»ek (masowa technologia: ok. 1000 stron/h), w tym chronionych prawem autorskim. Ostatnio inicjatywa wzbudziªa wielkie kontrowersje dotycz¡ce rozszerzenia oferty o bezpo±redni¡ sprzeda». Grudzie« 2009: Francja zatrzymaªa proces masowego skanowania francuskiej literatury (jako pogwaªcenie praw autorskich)

Open Content Alliance (2005 - w odpowiedzi na zamkni¦ty i (w sumie) komercyjny projekt Google. Otwarty, kooperacja wielu uniwesytetów i rm (np. MSN, Yahoo!, HP, Adobe, Internet Archive, etc.) z postanowieniem peªnego respektowania praw autorskich.

Nowy model dost¦pu do ksi¡»ek (e-book. Ksi¡»ki w wersji elektronicznej. Z jednej strony szansa na czytanie niedost¦pnych zycznie ksi¡»ek. Z drugiej liczne potencjalne zagro»enia: nowi wªa±ciciele mog¡ zastosowa¢ ±rodki prawne do manipulowania dost¦pem do dzieª. Np.: blokada tylko do okre±lonego urz¡dzenia

(18)

Intro

Pozytywne aspekty rewolucji informacyjnej

Du»y temat  conajmniej na doktorat z lozoi nauki lub socjologii, etc. Niew¡tpliwie rewolucja informacyjna przynosi wiele pozytywnych aspektów. Zwykle to o nich si¦ mówi.

(19)

Intro

Ciemne strony rewolucji informacyjnej

Zróbmy wi¦c ¢wiczenie i poku±my si¦ o dostrze»enie równie» negatywnych aspektów:

np.

potencjalny oligopol kilku monstrualnych korporacji kontroluj¡cych prawie caªy dost¦p ludzko±ci do informacji i komunikacji

teoretyczne mo»liwo±ci manipulowania informacj¡ na skal¦ masow¡ niespotykane wcze±niej mo»liwo±ci kontrolowania my±li prawie caªego spoªecze«stwa (a'la Orwell 1984) (logi wyszukiwania i klikni¦cia zdradzaj¡ nasze aktualne my±li. Jest to w formie idealnej do automatycznej analizy na masow¡ skal¦)

(potencjalne) odci¦cie ludzko±ci od trwaªych no±ników kultury (digitalizacja) i mo»liwo±¢ pó¹niejszego kontrolowania dost¦pu (np. e-booki)

totalne uzale»nienie ludzi od technologii i elektronicznych gad»etów (nasza pami¦¢ staje si¦ coraz sªabsza...)

(20)

Intro

Ciemne strony rewolucji informacyjnej

Zróbmy wi¦c ¢wiczenie i poku±my si¦ o dostrze»enie równie» negatywnych aspektów:

np.

potencjalny oligopol kilku monstrualnych korporacji kontroluj¡cych prawie caªy dost¦p ludzko±ci do informacji i komunikacji

teoretyczne mo»liwo±ci manipulowania informacj¡ na skal¦ masow¡ niespotykane wcze±niej mo»liwo±ci kontrolowania my±li prawie caªego spoªecze«stwa (a'la Orwell 1984) (logi wyszukiwania i klikni¦cia zdradzaj¡ nasze aktualne my±li. Jest to w formie idealnej do automatycznej analizy na masow¡ skal¦)

(potencjalne) odci¦cie ludzko±ci od trwaªych no±ników kultury (digitalizacja) i mo»liwo±¢ pó¹niejszego kontrolowania dost¦pu (np. e-booki)

totalne uzale»nienie ludzi od technologii i elektronicznych gad»etów (nasza pami¦¢ staje si¦ coraz sªabsza...)

(21)

Intro

Ciemne strony rewolucji informacyjnej

Zróbmy wi¦c ¢wiczenie i poku±my si¦ o dostrze»enie równie» negatywnych aspektów:

np.

potencjalny oligopol kilku monstrualnych korporacji kontroluj¡cych prawie caªy dost¦p ludzko±ci do informacji i komunikacji

teoretyczne mo»liwo±ci manipulowania informacj¡ na skal¦ masow¡

niespotykane wcze±niej mo»liwo±ci kontrolowania my±li prawie caªego spoªecze«stwa (a'la Orwell 1984) (logi wyszukiwania i klikni¦cia zdradzaj¡ nasze aktualne my±li. Jest to w formie idealnej do automatycznej analizy na masow¡ skal¦)

(potencjalne) odci¦cie ludzko±ci od trwaªych no±ników kultury (digitalizacja) i mo»liwo±¢ pó¹niejszego kontrolowania dost¦pu (np. e-booki)

totalne uzale»nienie ludzi od technologii i elektronicznych gad»etów (nasza pami¦¢ staje si¦ coraz sªabsza...)

(22)

Intro

Ciemne strony rewolucji informacyjnej

Zróbmy wi¦c ¢wiczenie i poku±my si¦ o dostrze»enie równie» negatywnych aspektów:

np.

potencjalny oligopol kilku monstrualnych korporacji kontroluj¡cych prawie caªy dost¦p ludzko±ci do informacji i komunikacji

teoretyczne mo»liwo±ci manipulowania informacj¡ na skal¦ masow¡ niespotykane wcze±niej mo»liwo±ci kontrolowania my±li prawie caªego spoªecze«stwa (a'la Orwell 1984) (logi wyszukiwania i klikni¦cia zdradzaj¡ nasze aktualne my±li. Jest to w formie idealnej do automatycznej analizy na masow¡ skal¦)

(potencjalne) odci¦cie ludzko±ci od trwaªych no±ników kultury (digitalizacja) i mo»liwo±¢ pó¹niejszego kontrolowania dost¦pu (np. e-booki)

totalne uzale»nienie ludzi od technologii i elektronicznych gad»etów (nasza pami¦¢ staje si¦ coraz sªabsza...)

(23)

Intro

Ciemne strony rewolucji informacyjnej

Zróbmy wi¦c ¢wiczenie i poku±my si¦ o dostrze»enie równie» negatywnych aspektów:

np.

potencjalny oligopol kilku monstrualnych korporacji kontroluj¡cych prawie caªy dost¦p ludzko±ci do informacji i komunikacji

teoretyczne mo»liwo±ci manipulowania informacj¡ na skal¦ masow¡ niespotykane wcze±niej mo»liwo±ci kontrolowania my±li prawie caªego spoªecze«stwa (a'la Orwell 1984) (logi wyszukiwania i klikni¦cia zdradzaj¡ nasze aktualne my±li. Jest to w formie idealnej do automatycznej analizy na masow¡ skal¦)

(potencjalne) odci¦cie ludzko±ci od trwaªych no±ników kultury (digitalizacja) i mo»liwo±¢ pó¹niejszego kontrolowania dost¦pu (np. e-booki)

totalne uzale»nienie ludzi od technologii i elektronicznych gad»etów (nasza pami¦¢ staje si¦ coraz sªabsza...)

(24)

Intro

Ciemne strony rewolucji informacyjnej

Zróbmy wi¦c ¢wiczenie i poku±my si¦ o dostrze»enie równie» negatywnych aspektów:

np.

potencjalny oligopol kilku monstrualnych korporacji kontroluj¡cych prawie caªy dost¦p ludzko±ci do informacji i komunikacji

teoretyczne mo»liwo±ci manipulowania informacj¡ na skal¦ masow¡ niespotykane wcze±niej mo»liwo±ci kontrolowania my±li prawie caªego spoªecze«stwa (a'la Orwell 1984) (logi wyszukiwania i klikni¦cia zdradzaj¡ nasze aktualne my±li. Jest to w formie idealnej do automatycznej analizy na masow¡ skal¦)

(potencjalne) odci¦cie ludzko±ci od trwaªych no±ników kultury (digitalizacja) i mo»liwo±¢ pó¹niejszego kontrolowania dost¦pu (np. e-booki)

totalne uzale»nienie ludzi od technologii i elektronicznych gad»etów (nasza pami¦¢ staje si¦ coraz sªabsza...)

(25)

Zadania

Co wypada wiedzie¢ po tym wykªadzie:

1 Podstawowa wiedza historyczna (co? kiedy?)

2 Wymie« i krótko opisz co najmniej 3 z najwi¦kszych ostatnio

przedsi¦wzi¦¢ digitalizacji dziedzictwa kulturowego ludzko±ci

3 Wymie« co najmniej 3 (najlepiej dostrze» samodzielnie) zagro»enia

(26)

Zadania

Cytaty

Powiązane dokumenty

Cel badań prezentowanych w niniejszej pracy stanowiła ocena moŜliwości wykorzystania obrazów satelitarnych ASTER do wyznaczenia granic lodowców uchodzących do morza

Coraz czêœciej do pomiarów wielkoœci geometrycznych s¹ stoso- wane metody cyfrowej analizy obrazu [1, 2, 6, 7]. Znane dotychczas metody optyczne takie jak mikroskopy pomiarowe

Stwierdzono, e ciasta sporz dzone z dodatkiem tłuszczów stałych S-1 i M charakteryzowały si wy szymi warto ciami maksymalnej siły ci cia ni te z dodatkiem margaryn

Pomimo tego, że THI jest powszechnie używanym wskaźnikiem stresu cieplnego, nie uwzględnia jednak natężenia promieniowania słonecznego oraz prędkości ru- chu

Niski poziom włókna w paszy powoduje gorszy wzrost królicząt w okresie pierwszych dwóch tygodni po odsadzeniu, co związane jest z zaburzeniami trawiennymi,

przychodów. Przeprowadzona analiza efektyw- ności ekonomicznej badanych gospodarstw wy- kazała, że ich dochody przyjmowały wartości dodatnie. Jednak, sama produkcja

Wartość opasowa i rzeźna jałówek mieszańców pochodzących z krzyżowania krów rasy polskiej czerwonej z buhajami rasy Charolaise, Piemontese, Limousine, Blonde

Świadomość wpływu, jaką mają, odpowiedzialność i zrównoważony roz- wój biznesu na wzrost gospodarczy oraz chęć identyfikowania danego podmiotu z podejmowaniem działań w