• Nie Znaleziono Wyników

Semantyczne wyszukiwarki internetowe

N/A
N/A
Protected

Academic year: 2021

Share "Semantyczne wyszukiwarki internetowe"

Copied!
15
0
0

Pełen tekst

(1)

FOLIA OECONOMICA 261, 2011

Beata Gontar , Joanna PapiĔska-Kacperek

SEMANTYCZNE WYSZUKIWARKI INTERNETOWE

1. WPROWADZENIE

Sednem formacji spoáeczeĔstwo informacyjne jest produktywne wykorzy-stywanie informacji, zatem jej znalezienie i ocena wartoĞci powinna byü istotną umiejĊtnoĞcią wszystkich obywateli. Sieü Internet uáatwiáa to, ale okazuje siĊ jednak, Īe nie do koĔca. Wspóáczesne wyszukiwarki internetowe nie znajdują efektywnie tego, czego ich uĪytkownicy rzeczywiĞcie szukają. Stąd powstaáa koncepcja budowania nowej struktury WWW, czyli sieci semantycznej, która stworzy takĪe nowy model relacji w Ğwiecie online. Celem autorek niniejszego artykuáu jest przedstawienie wyszukiwarek semantycznych, ich budowy oraz próba podsumowania bieĪącego etapu ich rozwoju.

2. INFORMACJA I JEJ ZNACZENIE

F. von Hayek jako pierwszy zwróciá uwagĊ na znaczenie informacji w Īyciu gospodarczym – traktowaá ją jako obiekt materialny, czyli towar, juĪ w pracach opublikowanych przed II wojną Ğwiatową. Dopiero po wojnie zaczĊto dostrze-gaü rolĊ informacji nie tylko w polityce, ale równieĪ w Īyciu spoáecznym i gospodarczym. M. Uri Porat w opublikowanej w 1977 r. rozprawie The

Information Economy: Definition and Measurement prognozowaá, Īe

groma-dzenie i dystrybucja informacji stworzą nową jakoĞü gospodarki, co na pewno bĊdzie miaáo wpáyw na Īycie spoáeczne1. Obecnie, w epoce spoáeczeĔstwa informacyjnego, doceniono jeszcze bardziej znaczenie informacji w naszym Īyciu. To dziĊki niej moĪemy pracowaü i kontaktowaü siĊ wzajemnie. Informa-cja jest pojĊciem definiowanym w wielu dyscyplinach naukowych2. W teorii

Dr, Katedra Informatyki, Wydzial Zarządzania Uniwersytetu àódzkiego. Dr inĪ., Katedra Informatyki, Wydzial Zarządzania Uniwersytetu àódzkiego. 1

J. PapiĔska-Kacperek, Nowa epoka – spoáeczeĔstwo informacyjne, [w:] J. PapiĔska- -Kacperek (red.), SpoáeczeĔstwo informacyjne, Wydawnictwo Naukowe PWN, Warszawa 2008, s. 13–46.

2 J. Zawiáa-NiedĨwiecki, K. Rostek, A. Gąsiorkiewicz, Informatyka gospodarcza, C.H. Beck,

(2)

systemów i cybernetyce wystĊpuje, obok materii i energii, jako jeden z trzech zasadniczych elementów wymiany pomiĊdzy ukáadami wzglĊdnie odosobnio-nymi a otoczeniem. W ujĊciu inĪynierskim, czyli klasycznej teorii informacji, informacja jest ĞciĞle związana z teoretyczną koncepcją „systemu komunikacyj-nego”. Podstawy iloĞciowej teorii informacji przedstawiá Claude Shannon w swojej pracy A Ma-thematical Theory of Cryptography w 1945 r. Teoria ta opisuje informacjĊ za pomocą modelu matematycznego oraz metody jej prze-twarzania, np. w celu transmisji i/lub kompresji3.

WyróĪniü moĪna równieĪ informacjĊ biznesową, czyli dane, fakty i staty-styki potrzebne przedsiĊbiorstwu do podejmowania decyzji i do budowania wiedzy.

Komunikowanie siĊ jest procesem przekazywania informacji od jednej oso-by do drugiej, jednak aoso-by odniosáo zamierzony efekt musi byü skuteczne, czyli zrozumiaáe dla odbiorcy. Na ten aspekt zwraca uwagĊ tzw. semantyczna teoria informacji, gdzie informacja to zbiór wiadomoĞci o faktach, zdarzeniach, cechach przedmiotów itp. ujĊty i podany w takiej formie, Īe pozwala odbiorcy (czáowiekowi lub algorytmowi) ustosunkowaü siĊ do zaistniaáej sytuacji i podjąü odpowiednie dziaáanie. Jest to przedmiot zainteresowania infologii, która zajmuje siĊ wyjaĞnianiem znaczenia informacji w aspekcie uĪytkowym, bada-niem jej wáasnoĞci, analizą oczekiwaĔ uĪytkownika, kierowanych pod adresem informacji oraz poszukiwaniem metod i sposobów ich zaspokojenia. Wiedza to ukáad opisany wyraĪeniem

w : = < I, C, D >,

gdzie: w oznacza wiedzĊ, I – informacjĊ, C – kontekst, D – doĞwiadczenie. ħródáem wiedzy odbiorcy jest informacja, na której odbiór ma wpáyw kon-tekst sytuacyjny oraz posiadane przez odbiorcĊ doĞwiadczenie4. MoĪna tu zaobserwowaü tzw. decyzyjnoĞü informacji, czyli jej wpáyw na podejmowane decyzje i dziaáania.

PowszechnymĨródáem informacji w dzisiejszych czasach jest Internet. Za-soby wiedzy zgromadzone w niej, czyli w formie elektronicznej, są ogromne, ale stosowane obecnie metody wyszukiwania nie pozwalają ich w peáni wykorzy-staü. Dlatego nie zawsze wyniki wyszukiwania informacji w Internecie są zadowalające.

3

M. Paweáczyk, Informacja a niepewnoĞü, materiaáy do zajĊü [2003] http://marpaw. elisa.pl/wsti/roznosci/pomiar_inform/inform.htm (odczyt 10.12.2011).

4

(3)

3. CHARAKTERYSTYKA I STRUKTURA SIECI SEMANTYCZNEJ

Pod koniec XX w. rozpoczĊto prace nad projektem T. Bernersa Lee: Se-mantic Web (sieü semantyczna nazywana teĪ Web 3.0), który ma przyczyniü siĊ do utworzenia i rozpowszechnienia standardów opisywania treĞci w Internecie, w sposób, który umoĪliwiáby maszynom i programom (np. robotom wyszukiwa-rek, autonomicznym agentom) przetwarzanie informacji w sposób odpowiedni do ich znaczenia. Czas sieci semantycznej wedáug prognoz N. Spivak miaá siĊ zacząü w 2010 r.5 Czy tak siĊ staáo? Istnieją juĪ strony stosujące standardy RDF

(Resource Description Framework) czy OWL (Ontology Web Language) (tab. 1), ale Web 3.0 naprawdĊ stanie siĊ rzeczywistoĞcią, gdy wszystkie strony dostosują siĊ do nowych norm, bowiem wtedy budowane obecnie aplikacje, jak np. wyszukiwarki semantyczne, bĊdą dziaáaü tak, jak tego oczekują zwolennicy nowej struktury sieci WWW.

Tabela 1. Liczba plików semantycznych w sieci WWW indeksowanych przez Google Wyszukiwany áaĔcuch Liczba stron

(maj 2004) Liczba stron (czerwiec 2011) Liczba stron (listopad 2011) Rdf 5 230 000 141 000 000 148 000 000 Filetype:rdf 246 000 9 800 000 21 600 000 Filetype:owl 1 310 15 400 309 000 Filetype: rdfs 304 628 197 000

ħródáo: opracowanie wáasne na podstawie Ding et al., Swoogle: A search and metadata en-gine for the semantic Web, CIKM 2004.

Wyszukiwarki semantyczne mają sprostaü potrzebom internautów lepiej niĪ stosowane teraz narzĊdzia, jak popularny obecnie Google. Celem wyszukiwania nie powinno byü tylko wyĞwietlanie linków, ale kompetentna odpowiedĨ na zapytanie uĪytkownika (jak robi to Wolfram Alpha). Wyniki powinny byü teĪ w czytelniejszy sposób wyĞwietlane, np. linki mogą byü pogrupowane (jak w Hakii), lub skategoryzowane graficznie (jak w KOoLTORCH). Kolejną cechą jest umoĪliwienie tworzenia zapytaĔ w jĊzyku naturalnym, czyli formuáowanie peánych zdaĔ – dziĞ w Google preferowane są równowaĪniki, a pewne wyrazy (np. przyimki) nie są w ogóle brane pod uwagĊ. Kolejne zadanie jest nadal poza zasiĊgiem tradycyjnych wyszukiwarek – to moĪliwoĞü szukania odpowiedzi w bazach danych. Google i kaĪda inna wyszukiwarka potrafi znaleĨü stronĊ np. z rozkáadem jazdy, ale nie da sobie rady z wypeánieniem formularza i zadaniem pytania o konkretne poáączenie. To wáaĞnie ma byü elementem nowego modelu przeszukiwania i wykorzystywania zasobów Internetu. Jedna z tworzonych wyszukiwarek Evri promowaáa hasáo search less, understand more.

5

N. Spivak How the WebOS Evolves? [2007], http://novaspivack.typepad.com/nova_ spivacks_weblog/2007/02/steps_towards_a.html (odczyt 10.12.2011).

(4)

W swoich zaáoĪeniach sieü semantyczna ma korzystaü z istniejącego juĪ protokoáu komunikacyjnego, na którym bazuje dzisiejszy Internet. RóĪnica ma polegaü na tym, Īe przesyáane dane mogą byü rozumiane takĪe przez algorytmy aplikacji. Dane przekazywane bĊdą w postaci, w której moĪna powiązaü ich znaczenia miĊdzy sobą, a takĪe w ramach kontekstu, w jakim wystĊpują. Informacje przekazywane w sieci wymagają takĪe informacji o nich samych tzw. metadanych, które uáatwiają dostrzeganie powiązaĔ miĊdzy obiektami. DziĊki temu moĪna áączyü informacje znajdujące siĊ w Internecie w obszarze jednakowych jednostek znaczeniowych (np. strony dotyczące historii sztuki, kuchni wáoskiej, wybranej dziedziny nauki), wáaĞciwie zinterpretowaü dane, które są w tej chwili nierozróĪnialne ze wzglĊdu na identyczny zapis tekstowy (np. zamek – element do zamykania drzwi; element do áączenia w ustalonym poáoĪeniu czĊĞci ubrania; budowla mieszkalno-obronna), uzyskaü nowe infor-macje, które nie są zawarte w sposób jawny, a otrzymywane są w wyniku wnioskowania, (czyli np. na podstawie zdania Leszek jest synem Beaty moĪemy teĪ dowiedzieü siĊ, Īe Beata jest kobietą, Leszek mĊĪczyzną, Beata jest mamą, Beata jest mamą Leszka).

Znaczenia zasobów informacyjnych okreĞla siĊ za pomocą ontologii – dzie-dziny powstaáej na gruncie filozofii i áączącej filozofiĊ, matematykĊ i nauki informacyjne. W celu zapewnienia dokáadnoĞci opisu wiedzy stosuje siĊ hierarchizacjĊ oraz kategoryzacjĊ pojĊü6. Hierarchizacja jest umiejscowieniem pojĊcia w strukturze, co umoĪliwia dziedziczenie cech po pojĊciach nadrzĊd-nych. Kategoryzacja jest przypisaniem pojĊcia do grupy pojĊü podobnych, mających cechy wspólne, wyróĪniające klasĊ pojĊü spoĞród innych. W informa-tyce ontologia oznacza formalny sposób reprezentacji wiedzy poprzez zdefinio-wanie pojĊü w pewnej dziedzinie, ich wáaĞciwoĞci oraz relacji pomiĊdzy nimi. Zajmuje siĊ opisywaniem pewnego fragmentu rzeczywistoĞci. W zaáoĪeniu ontologia powinna moĪliwie dokáadnie okreĞlaü i reprezentowaü wiedzĊ z definiowanej dziedziny i ĞciĞle okreĞlaü hierarchiĊ jej elementów oraz kryteria ich klasyfikacji za pomocą narzĊdzi logiki (aksjomatów, definicji, reguá). Praktyczna realizacja ontologii polega na zapisaniu wiedzy w postaci drzewa, gdzie w wierzchoákach zapisuje sie pojĊcia, a krawĊdzie opisują typ relacji. W korzeniu drzewa zapisuje sie pojecie najbardziej ogólne, wáaĞciwe dla opisywanej dziedziny wiedzy, a schodząc stopniowo w dóá pojĊcia o wiĊkszym poziomie szczegóáowoĞci, przy zachowaniu zasady, Īe wierzchoáek nadrzĊdny zawsze jest uogólnieniem podczepionych do niego wierzchoáków podrzĊdnych. W niektórych realizacjach dopuszcza sie równieĪ moĪliwoĞü posiadania dwóch lub wiĊcej wierzchoáków nadrzĊdnych (na przykáad pióro moĪe byü jednocze-Ğnie narzĊdziem do pisania oraz elementem upierzenia ptaków), co zamiast

6

W. GliĔski, Ontologie. Próba uporządkowania terminologicznego chaosu, [w:] B. SosiĔ-ska-Kalata i in. (red.), Od informacji naukowej do technologii spoáeczeĔstwa informacyjnego, Miscellanea Informatologica Varsoviensia, Wydawnictwo SBP, Warszawa 2005.

(5)

drzew wymusza wykorzystanie do zapisu struktury wiedzy acyklicznych grafów skierowanych. Wyszukiwanie informacji w ontologii odbywa siĊ poprzez zbieranie cech z wierzchoáków począwszy od pojĊcia wyjĞciowego, poprzez pojĊcia bardziej ogólne, aĪ do wierzchoáka drzewa. Ontologie wykorzystują teorie wywodzące siĊ z algebry, teorii zbiorów, sieci semantycznych oraz rachunków logicznych7.

Sieü semantyczna zbudowana ma byü na bazie juĪ istniejących, wykorzysty-wanych i sprawdzonych standardów internetowych, nadbudowykorzysty-wanych przez kilka kolejnych, co ilustruje rys. 1. KaĪdy standard nakáada siĊ na kolejny. Popularne ich okreĞlenie to semantyczny stos (semantic stack)8. Do elementów semantycz-nego stosu zaliczamy stosowane juĪ standardy, dedykowane i bĊdące na etapie badaĔ. Stos tworzą zatem Unicode, URI, XML i XML Schema, RDF i RDF Schema, OWL, mechanizmy wnioskowania i mechanizmy certyfikacji i zaufania.

Rysunek 1. Elementy semantycznego stosu

ħródáo: T. Segaran, C. Evans, J. Taylor, Programming the Semantic Web, O'Reilly Media 2009.

7

W. GliĔski, Ontologie. Próba uporządkowania…; idem, JĊzyki i narzĊdzia do tworzenia i wyszukiwania ontologii w kontekĞcie semantycznego Weba, [w:] B. SosiĔska-Kalata i in. (red.), Od informacji naukowej…

8

(6)

Unicode jest standardem pozwalającym na przedstawienie w jĊzyku maszyn dowolnego znaku pisanego. URI (Uniform Resource Identifier) zapewnia unikatowoĞü zasobów internetowych. Wszystkie dane przesyáane w sieci są zasobami internetowymi i wymagają okreĞlenia dla nich identy-fikatora (áaĔcucha znaków), który skáada siĊ wáaĞnie z zestawu znaków Unicode. Najbardziej popularnym URI jest URN (Uniform Resource Name) lub adres URL (Uniform Resource Locator) zasobu identyfikowanego przez dany URI.

XML to jĊzyk pozwalający na zapis danych. Schematy XML wprowadzają ograniczenia dotyczące typu i struktury danych. Zachowanie ich daje gwarancjĊ, Īe dane w XML są poprawne w sensie syntaktycznym (np. w polu, w którym oczekujemy wartoĞci liczbowej, wartoĞü taka siĊ pojawi).

RDF pozwala na zapis danych w postaci grafu skierowanego. W grafie tym dane zawarte są w wierzchoákach (podmiot i obiekt), a relacje pomiĊdzy nimi wskazuje predykat. Schematy RDF wprowadzają do grafów takie pojĊcia, jak klasy i podklasy, pozwalające na wspólne grupowanie danych mających cechy wspólne. Dowolna dana moĪe znajdowaü siĊ w wielu klasach. Strukturą kaĪdego wyraĪenia RDF jest zbiór trójek (podmiot-relacja-obiekt). OWL jest standardem pozwalającym na definiowanie klas na podstawie wáasnoĞci danych.

Mechanizm wnioskowania (reasoner) ma umoĪliwiaü przeprowadzenie wnioskowania na podstawie zdefiniowanych ontologii. Mechanizmy certyfikacji i zaufania pozwolą na okreĞlenie praw, na jakich zasoby internetowe mają byü przesyáane i mogą byü udostĊpniane.

Jak widaü na rys. 1 zarówno mechanizmy wnioskowania, jak i certyfi-kacji pozostają na razie standardami przyszáoĞci – future and fantasy

technologies.

Powinno siĊ pamiĊtaü, tworząc nowe dokumenty internetowe, by byáy wi-dziane przez oba typy wyszukiwarek: standardowe i semantyczne. W przypadku juĪ istniejących, duĪych baz danych, nie ma sensu ingerowania w ich strukturĊ, ale zasadne jest budowanie bazy ontologii. Przykáadem moĪe byü projekt DBpedii, którego celem jest wydobycie zaleĪnoĞci zapisanych w hasáach Wikipedii, czyli stworzenie bazy ontologii. Hasáo Wikipedii to w pewnym stopniu uporządkowana struktura, obok podzielonej na sekcje czĊĞci opisowej, zawiera zdjĊcia, informacje o kategoryzacji zdjĊü i linki do zewnĊtrznych Ĩródeá. Struktura ta jest wydobywana i zapisywana w bazie danych, którą moĪna juĪ przeszukiwaü, poniewaĪ jest udostĊpniona w sieci WWW na licencji free

software. DBpedia pozwala zadawaü zapytania o relacje i wáaĞciwoĞci zasobów

Wikipedii. Wydobywa odpowiedzi na pytania, które znajdują siĊ w wielu róĪnych artykuáach Wikipedii. SáuĪy do tego jĊzyk zapytaĔ SPARQL – czyli SQL dla plików RDF. Projekt rozpocząá siĊ na uniwersytetach w Berlinie i Lipsku, we wspóápracy z OpenLink Software. Jego pierwsze efekty zostaáy

(7)

upublicznione w 2007 r. W styczniu 2011 r. zestaw danych DBpedia zawieraá opis ponad 3,5 miliona obiektów, z czego 1 670 000 byáo sklasyfikowanych w spójnych ontologiach9.

4. WYSZUKIWARKI SEMANTYCZNE

Tworzenie sieci Web 3.0 nie jest sztuką dla sztuki czy pracą wyáącznie teo-retyczną, ale pomysáem na rozwiązanie problemów wszystkich uĪytkowników Internetu. Zatem nie tylko poprawiana powinna byü zawartoĞü dokumentów tworzących WWW, ale powstawaü powinny aplikacje wykorzystujące nową strukturĊ. Ich przykáadem są wyszukiwarki semantyczne, czyli narzĊdzia wyszukiwania informacji w Internecie, korzystające z nowej struktury sieci. Oczekuje siĊ, Īe to rozwiązanie, dziĊki analizie znaczenia, a nie znalezienia zadanej frazy, da lepsze rezultaty niĪ stosowane dzisiaj np. Google, którego wyniki wyszukania bardzo czĊsto nie speániają oczekiwaĔ uĪytkowników sieci.

Obecnie w Internecie funkcjonuje kilka rodzajów wyszukiwarek seman-tycznych. RóĪnią siĊ formą przyjmowanych zapytaĔ, algorytmem wyszukiwania oraz sposobem wyĞwietlania wyników. Nie wszystkie byáy od początku uniwer-salne, np. Kosmix zaczynaáa od wyszukiwania w dziedzinie medycyny, czyli byáa wertykalna, i po pewnym czasie, w 2008 r. staáa siĊ wyszukiwarką horyzon-talną, odpowiadającą na pytania z innych dziedzin. Pewne wyszukiwarki nie są nazywane semantycznymi, ale hybrydowymi, poniewaĪ áączą róĪne cechy nie zawsze przypisywane tylko semantycznym. I tak, niektóre zaliczane są do grup:

general (np. Bing), Natural Language Search Engines NLSE (np. True

Knowledge), visual search engines (KOoLTORCH), automatic answers (WolframAlpha).

WiĊkszoĞü wyszukiwarek semantycznych akceptuje pytania formuáowane w jĊzyku naturalnym, np. Wolfram Alfa, True Knowledge, Yebol, KtoCo, Hipisek, zatem naleĪą do grupy NLSE, do których zaliczane są teĪ serwisy

crowdsourcing – Q&A (Questions & Answers), czyli wyszukiwarki spo

áeczno-Ğciowe jak Yahoo Answers, Answerbag.com, Dig, Aardvark czy Pytamy.pl10 Te

jednak nie starają siĊ analizowaü zapytaĔ, ale jedynie je magazynują, oceniają, czasem stosują statystyczne metody przydziaáu pytaĔ. W Polsce powstaje ich szczególna odmiana: semantyczny serwis spoáecznoĞciowy „WĊzeáki”. Jego uĪytkownicy mają tworzyü wspólne repozytorium wiedzy, w którym moĪliwe

9

J. PapiĔska-Kacperek, Przykáady zastosowaĔ serwisów spoáecznoĞciowych, „Zeszyty Na-ukowe Uniwersytetu SzczeciĔskiego” 656/2011, Studia Informatica 28.

10

B. Gontar, J. PapiĔska-Kacperek, Wyszukiwarki semantyczne, [w:] M. PaĔkowska (red.), Wiedza i komunikacja w innowacyjnych organizacjach. Komunikacja elektroniczna, Wydawnic-two UE, Katowice 2011.

(8)

bĊdzie semantyczne wyszukiwanie, przeglądanie i wspóádzielenie. Projekt tworzy Knowledge Hives, jedyna polska firma, która wystąpiáa podczas SemTech 2011 – miĊdzynarodowej konferencji poĞwiĊconej technikom semantycznym.

Ze wzglĊdu na Ĩródáo szukania odpowiedzi, istnieją dwa typy wyszukiwa-rek semantycznych: wyszukiwarki analizujące znaczenie indeksowanych dokumentów (Hakia, Bing, Google Squared) oraz wyszukiwarki przeszukujące istniejące zasoby sieci semantycznej (np. Swoogle, Sindice, Falcons, Watson).

Wyszukiwarki analizujące znaczenie przeszukują zawartoĞü stron WWW i starają siĊ zinterpretowaü (zrozumieü) ich treĞü poprzez semantyczną i gra-matyczną analizĊ jĊzyka naturalnego dokumentów tworzących strony. Przetáu-maczenie jĊzyka naturalnego na jĊzyk zrozumiaáy dla algorytmu jest bardzo trudnym zadaniem, wymagającym zastosowania metod sztucznej inteligencji. Analiza jĊzyka naturalnego dokumentów, ale takĪe zapytaĔ do wyszukiwarki, musi obejmowaü wieloznacznoĞü, specyfikĊ jĊzyka itp.

Wyszukiwarki analizujące znaczenie, przeszukując strony WWW tworzą wáasną bazĊ ontologii. Uczą siĊ zatem nowych pojĊü i relacji miĊdzy nimi, czyli budują wiedzĊ, dziĊki czemu na kolejne zapytania dostarczane są bardziej relewantne i odpowiednie do zapytaĔ wyniki. KtoCo korzysta ze zbudowanej bazy ontologii, czyli bazy wiedzy zawierającej w momencie uruchomienia serwisu w 2009 r. ponad 800 tysiĊcy faktów i uwzglĊdniającej powiązania pomiĊdzy nimi11. Kngine obecnie posiada ponad miliard pojĊü.

Bardzo czĊsto Ĩródáem wiedzy dla wielu tego typu aplikacji jest róĪnie oce-niana, jeĞli chodzi o wiarygodnoĞü, Wikipedia. Gáównie na niej opierają siĊ wyniki Bing, Google Squared i Hakii. Wynika to z otwartoĞci zasobów Wikipe-dii i DbpeWikipe-dii, dziĊki czemu inne projekty mogą z nich korzystaü. WiĊkszoĞü wyszukiwarek zdobywa wiedzĊ z portali, z których jest to áatwe i legalne. Hippisek buduje bazĊ wiedzy gáównie w oparciu o serwisy TVN24 oraz Pude-lek, a ostatnio takĪe blogu mBanku, strony hacking.pl i kilku innych. W przy-száoĞci, gdy na takich Ĩródáach aplikacje zaczną dziaáaü poprawnie, doáączane bĊdą zapewne bardziej wiarygodne i uznane portale.

Wyszukiwarki przeszukujące zawartoĞü sieci semantycznej przeszukują opisy dokonane przez twórców dokumentów i odwoáania do ontologii wskaza-nych w nagáówkach plików RDF. Przeszukują zatem reprezentacjĊ semantyczną dokumentu i nie muszą táumaczyü sobie jego treĞci. Pozwolą wiĊc lepiej wyselekcjonowaü dokumenty zawierające odpowiedĨ na zapytanie, dziĊki czemu na liĞcie wyników uĪytkownik nie dostanie odnoĞników do plików, które bĊdą zupeánie bezwartoĞciowe. Jedną z przyczyn niezbyt poprawnego dziaáania wyszukiwarek przeszukujących sieü semantyczną jest ubóstwo jej zawartoĞci, choü jak pokazano w tab. 1, w sieci roĞnie liczba dokumentów zgodnych z nową

11

Zwiastun Web 3.0? Pierwsza polska wyszukiwarka semantyczna, http://webinside.pl/ news-5831-zwiastun-web-3-0--pierwsza-polska-wyszukiwarka-semantyczna.html

(9)

koncepcją. Najlepiej dziaáającymi są Sindice (12 miliardów ontologii)12, SWSE (miliard obiektów w maju 2010 r.), Falcon, Watson i Swoogle (10 tys. ontologii w 2007 r.). Wyniki, jakie z nich uzyskamy, są maáo czytelne dla ludzi, bo zawierają linki do dokumentów RDF lub OWL i dedykowane są dla algorytmów np. agentów. Projekt Watson13, nazywany przez jego twórców Semantic Web Gateway, wyróĪnia siĊ duĪą liczbą aplikacji wspóápracujących z podstawowym programem. Mają one czytelne interfejsy. Przykáadem moĪe byü system Scarlet (http://scarlet.open.ac.uk/) wskazujący relacje miĊdzy podanymi pojĊciami i ob-liczający, w ilu ontologiach razem wystĊpują.

Rysunek 2. Zrzut ekranowy wyszukiwarki Evri, 28.06.2011

WiĊkszoĞü wyszukiwarek semantycznych dokonuje kategoryzacji lub kla-stryzacji wyników wyszukania, czyli wyĞwietlają linki podzielone na roĪne kategorie. Hakia podaje posegregowane linki w grupach Web, News, Blogs, Credible Sources, Video oraz Images. Kategoryzacji wyników dokonuje takĪe wyszukiwarka Yebol, Kngine, Kosmix. Evri moĪe filtrowaü wyniki i pokazaü

12

E. Oren et al., Sindice. com: a document-oriented lookup index for open linked data, „International Journal of Metadata, Semantics and Ontologies” 2008, vol. 3, issue 1.

13

M. d’Aquin et al., What can be done with the Semantic Web? An Overview of Watson-based Applications [2008], http://people.kmi.open.ac.uk/mathieu/papers/swap.pdf (odczyt 10.12.2011).

(10)

tylko wybrane kategorie (Articles, Quotes, Images i Tweets), ponadto rysuje mapĊ pojĊü, np. w postaci drzewa, co widaü na rys. 2.

Pewne wyszukiwarki nie wyĞwietlają w odpowiedzi adresów stron powią-zanych z zapytaniem, a podają odpowiedĨ na zapytanie. Tak dziaáa Wolfram Alpha. UdostĊpnia tylko konkretne dane, które moĪna zapisaü w formacie PDF. Podobnie KtoCo udziela precyzyjnych odpowiedzi na zapytania poprzez wyszukiwanie cytatów ze stron – jednak nie ukrywa ich adresów. Inne wyszu-kiwarki semantyczne wyĞwietlają tabele (Google Squared) lub poklastrowane symbole graficzne (KOoLTORCH). Na rys. 3 pokazano przykáadowy efekt wyszukania, w którym dopiero po klikniĊciu w odpowiednim miejscu pojawiają siĊ linki do Ĩródeá informacji. Google Squared pokazuje wyniki (w tym zdjĊcia) w tabeli, którą moĪna wyeksportowaü do formatu CSV lub arkusza kalkulacyj-nego Google. Wskazując jej komórki moĪna zobaczyü Ĩródáa zdobytych danych. MoĪna teĪ podawaü swoje propozycje lepszych odpowiedzi.

Rysunek 3. Poklastrowane wyniki KoolTorch

ħródáo: Visual & Clustering Search Engines, http://www.lib.umich.edu/files/visualsearch.pdf

Wszystkie projekty budowania wyszukiwarek semantycznych są potencjal-nymi konkurentami tradycyjnych narzĊdzi, bardzo czĊsto ich premiery rekla-mowane byáy w taki wáaĞnie sposób, np. Bing Microsoft w maju 2009 r. KaĪda nowa aplikacja moĪe stanowiü zagroĪenie, w szczególnoĞci dla najpopularniej-szej na Ğwiecie wyszukiwarki Google. Zapewne dlatego Google juĪ w 2003 r. zaczĊáo indeksowaü dokumenty RDF, a w czerwcu 2009 r. wystartowaáa

(11)

semantyczna wyszukiwarka Google Squared. O semantycznych technikach myĞlą teĪ wyszukiwarki bardziej popularne lokalnie, np. Yandex w Rosji14

czy Baidu w Chinach.

Tabela 2. Projekty tworzenia wyszukiwarek semantycznych Nazwa Rok i kraj

powstania Autor Finansowanie

Stadium rozwoju projektu

1 2 3 4 5

TextWise 1994, USA Connie Kenneally Do 2005 rząd USA, od 2005 TextWise, LLC

rozwój

Hakia 2004, USA Riza Berkan, Professor Victor Raskin

Prywatne instytucje, anioáy biznesu (m.in. R. Krauze)

rozwój

Swoogle 2004, USA Li Ding, Professor Tim Finin,

DARPA, NSF skoĔczony, ale

strona aktywna

Powerset 2005, USA Steve Newcomb, Lorenzo Thione, Barney Pell W 2008 r. kupiona przez Microsoft kontynuowana jako Bing

Semantifi 2005, USA Shree Pragada, Vishy Dasari ExeCue beta True Knowledge sierpieĔ 2005, UK William Tunstall-Pedoe, True Knowledge Ltd., rozwój Evri lipiec 2007, USA

Will Hunsinger Vulcan Capital rozwój

Sindice 2007, Irlandia

Renaud Delbru, Giovanni Tummarel-lo, Eyal Oren

Sindice Ltd, na początku UE

rozwój

Watson 2007, UK Mathieu d'Aquin, Marta Sabou , Enrico Motta Open University w Milton Keynes. Komisja Europejska rozwój KO-oLTORCH

2007, USA Randy Smith KOoLTORCH LLC nieaktywny

Chai Labs 2007, USA Gokul Rajaram (dawniej Google) W VII 2010 r. kupiona przez Facebook wczesna faza rozwoju

Truevert 2008, USA Arnaud Viviers OrcaTec beta

DuckDuckGo 2008, USA Gabriel Weinberg, DuckDuckGo, Inc. rozwój

Yebol 2008, USA Dr Hongfeng Yin. anioá beta

Kngine 2008, USA Ashrafa i Haythama ElFadeel,.

poszukiwany inwestor

rozwój

Bing 2009, USA Stefan Weitz Microsoft rozwój

Google Squared

czerwiec 2009, USA

Marissa Mayer Google rozwój

Wolfram Alpha

maj 2009, USA

Stephen Wolfram Wolfram Research rozwój

14

S. O'Hear, Russian search engine Yandex gets a semantic injection [2010], http://eu.techcrunch.com/2010/12/15/russian-search-engine-yandex-gets-a-semantic-injection (odczyt 10.12.2011).

(12)

Tabela 2 (cd.)

1 2 3 4 5

Falcon 2009, Chiny prof. Yuzhong Qu, Wei Hu, Gong Cheng

Websoft Research Group, Nanjing University,

rozwój

KtoCo 2009, Polska Maciej Stanusch Stanusch Technolo-gies

beta

Hipisek 2011, Polska Marcin Walas POLENG sp. zoo rozwój

ħródáo: Strony WWW projektów, The Free Tech Company Database http://www.crunchbase.com (odczyt 10.12.2011).

Wiele projektów tworzenia wyszukiwarek semantycznych to czĊsto prace naukowe, np. Swoogle byáo przedmiotem rozprawy doktorskiej obronionej na Uniwersytecie Johnsa Hopkinsa w Baltimore, a Hipisek, jest rozwiniĊciem tematu pracy magisterskiej przygotowanej na Uniwersytecie im. Adama Mickiewicza w Poznaniu. Pierwsze prace badawcze byáy finansowane przez instytucje naukowo-badawcze, np. Swoogle przez DARPA (Defense Advanced

Research Projects Agency) i NSF (National Science Foundation), a wiele

europejskich projektów, jak Watson czy Sindance finansuje lub finansowaáa Unia Europejska. Z wielu inicjatyw akademickich powstaáy tzw. spóáki odpry-skowe (spinoff) jak TextWise, która w latach 1994–2005 dziaáaáa przy inkubato-rze Syracuse University i byáa finansowana przez rząd USA. Wiele projektów to jednak przedsiĊwziĊcia typu StartUp finansowane przez ich twórców, fundusze zaląĪkowe (seed capital) lub venture capital, czyli fundusze inwestujące w maáe i Ğrednie przedsiĊbiorstwa wchodzące na rynek, albo wspierane przez tzw. anioáy biznesu. Niektórzy inicjatorzy takich przedsiĊwziĊü sami stają siĊ sponsorami – jak Gabriel Weinberg, który po zaáoĪeniu DuckDuckGo zacząá inwestowaü w inne startujące projekty. Pewne inicjatywy StartUp, jak np. Kngine, finansowane byáy na początku przez ich twórców, ale obecnie szukają inwestora. Bywa, Īe máode przedsiĊbiorstwa są przejmowane przez gigantów na rynku, np. Powerset w 2008 r. zostaá kupiony przez Microsoft i kontynuowany jako nowy produkt Bing. Innym przykáadem jest Chai Labs kupiony w 2010 r. przez Facebook. Omówione powyĪej przykáady zebrano w tab. 2. Jak widaü, wiĊkszoĞü z nich powstaje w USA i jest w fazie rozwoju lub beta, co oznacza, Īe narzĊdzia te funkcjonują w wersji testowej lub jako prototypy projektów. Niestety wiĊkszoĞü nie dziaáa jeszcze poprawnie, co pokazaáo badanie przepro-wadzone w grudniu 2010 r.15 Powtórzono je w czerwcu 2011 r. i nadal rozwa Īa-ne wyszukiwarki nie daáy lepszych wyników. W tym przypadku lepsze oznacza brak lub mniejszą liczbĊ linków z Wikipedii lub ich dalszą pozycjĊ. W wielu

15

(13)

rankingach najlepiej oceniana jest wyszukiwarka Wolfram Alpha, co potwierdzi-áy oba badania.

WiĊkszoĞü przedsiĊwziĊü nie generuje jeszcze zysku, ale inwestorzy liczą, Īe nie bĊdzie tak zawsze i np. budowane obecnie Hakia czy Evri, kiedy zaistnieje Web 3.0, mogą okazaü siĊ bardzo dochodowe. Pewne wyszukiwarki, jak Bing, tworzone i finansowane przez znane firmy, potencjalnie najszybciej mogą zakáóciü ustalony rynku wyszukiwarek internetowych porządek. Wedáug badaĔ ComScore16, w marcu 2011 r. wyszukiwarka Bing miaáa juĪ 14% udziaáów w amerykaĔskim rynku wyszukiwania, na drugim miejscu byá Yahoo – 16%, a na pierwszym Google z odsetkiem 65%. W Polsce, w drugiej poáowie czerwca 2011 r. wedáug rankingu gemiusRanking PL – Bing takĪe zajmowaáa trzecie miejsce, ale z wynikiem 1,20%, Onet 1,32%, a Google na pierwszym miejscu z wynikiem 95%.

5. PODSUMOWANIE

Choü wzrasta liczba dokumentów zgodnych z zaproponowaną nową struk-turą sieci semantycznej i powstaje duĪo nowych wyszukiwarek semantycznych, to jednak nie są one na razie w stanie zagroziü obecnie uĪywanym popularnym narzĊdziom. Efekty ich dziaáania mogą obecnie nie satysfakcjonowaü, ale pamiĊtaü naleĪy, Īe wiĊkszoĞü testuje swoje moĪliwoĞci na Ĩródáach dostĊpnych dla maáych niezamoĪnych firm, które takie aplikacje tworzą. Z tego powodu wiĊkszoĞü wyszukiwarek semantycznych korzysta z otwartych zasobów, czĊsto z róĪnie ocenianej Wikipedii. Z roku na rok ich algorytmy budują kolejne ontologie i w ten sposób ich baza wiedzy staje siĊ bogatsza. Sieü ucząca siĊ, jaką staje siĊ wáaĞnie Internet, powinna przekonaü do swoich moĪliwoĞci wszystkich niezadowolonych wynikami wyszukaĔ popularnych obecnie narzĊdzi. Zatem wydaje siĊ pewne, Īe wkrótce aplikacje semantyczne mogą zainteresowaü wiĊkszą liczbĊ uĪytkowników, czego dowodem moĪe byü fakt, Īe silne na rynku Google nie tylko indeksuje dokumenty RDF czy OWL, ale inwestuje w swoje semantyczne aplikacje jak Google Squared.

BIBLIOGRAFIA

Boulton, C. Google Keeps 65% Search, Bing Tops 14%: comScore [2011], http://www.eweek.com /c/a/Search-Engines/Google-Keeps-65-Search-Bing-Tops-14-comScore-792394 (odczyt 10.12.2011).

Ding, L. et al., Swoogle: A Search and Metadata Engine for the Semantic Web, CIKM 2004.

16

C. Boulton, Google Keeps 65% Search, Bing Tops 14%: comScore [2011], http://www.eweek.com/c/a/Search-Engines/Google-Keeps-65-Search-Bing-Tops-14-comScore-792394 (odczyt 10.12.2011).

(14)

d’Aquin M. et al., What Can be Done with the Semantic Web? An Overview of Watson-based Applications [2008], http://people.kmi.open.ac.uk/mathieu/papers/swap.pdf (odczyt 10.12.2011). GliĔski, W., Ontologie. Próba uporządkowania terminologicznego chaosu, [w:] B.

SosiĔska-Kalata i in. (red.), Od informacji naukowej do technologii spoáeczeĔstwa informacyjnego, Miscellanea Informatologica Varsoviensia, Wydawnictwo SBP, Warszawa 2005.

GliĔski, W., JĊzyki i narzĊdzia do tworzenia i wyszukiwania ontologii w kontekĞcie semantycznego Weba, [w:] B. SosiĔska-Kalata i in. (red.), Od informacji naukowej do technologii spoáeczeĔ-stwa informacyjnego, Miscellanea Informatologica Varsoviensia, Wydawnictwo SBP, War-szawa 2005.

Gontar B., PapiĔska-Kacperek J., Wyszukiwarki semantyczne, [w:] M. PaĔkowska (red.), Wiedza i komunikacja w innowacyjnych organizacjach. Komunikacja elektroniczna, Wydawnictwo UE, Katowice 2011.

O'Hear S., Russian Search Engine Yandex Gets a Semantic Injection [2010], http://eu.techcrunch.com/2010/12/15/russian-search-engine-yandex-gets-a-semantic-injection (odczyt 10.12.2011).

Oren E. et al., Sindice.com: A Document-oriented Lookup Index for Open Linked Data, „Interna-tional Journal of Metadata, Semantics and Ontologies” 2008, vol. 3, issue 1.

PapiĔska-Kacperek J., Nowa epoka – spoáeczeĔstwo informacyjne, [w:] J. PapiĔska-Kacperek (red.), SpoáeczeĔstwo informacyjne, Wydawnictwo Naukowe PWN, Warszawa 2008. PapiĔska-Kacperek J., Przykáady zastosowaĔ serwisów spoáecznoĞciowych, „Zeszyty Naukowe

Uniwersytetu SzczeciĔskiego” 656/2011, Studia Informatica 28.

Paweáczyk M., Informacja a niepewnoĞü, materiaáy do zajĊü [2003], http://marpaw.elisa.pl/ wsti/roznosci/pomiar_inform/inform.htm (odczyt 10.12.2011]).

Spivak N. How the WebOS Evolves? [2007], http://novaspivack.typepad.com/nova_spivacks_ weblog/2007/02/steps_towards_a.html (odczyt 10.12.11).

Segaran T., Evans C., Taylor J., Programming the Semantic Web, O'Reilly Media 2009 Stefanowicz B., Informacja, Wydawnictwo SGH, Warszawa 2004.

Zawiáa-NiedĨwiecki J., Rostek K., Gąsiorkiewicz A., Informatyka gospodarcza, C.H. Beck, Warszawa 2010.

Strony wyszukiwarek semantycznych

Bing http://www.bing.com

DuckDuckGo http://duckduckgo.com Evri http://www.evri.com

Falcon http://ws.nju.edu.cn/falcons/objectsearch/index.jsp Google Squared http://www.google.com/squared Hakia http://www.hakia.com Hipisek http://mwalasvm.vm.wmi.amu.edu.pl/~walasiek/hipisek Kngine, http://www.kngine.com KtoCo http://www.ktoco.pl Semantifi http://www.semantifi.com Sindice http://sindice.com. Swoogle http://swoogle.umbc.edu, SWSE http://swse.deri.org TextWise http://textwise.com

True Knowledge http://www.trueknowledge.com Truevert http://www.truevert.com

Watson http://kmi-web05.open.ac.uk/WatsonWUI Wolfram Alpha http://www.wolframalpha.com, Yebol http://yebol.com

(15)

Beata Gontar, Joanna PapiĔska-Kacperek SEMANTIC SEARCH ENGINE

Paper presents some basic issues on Semantic Web and a semantic search engines market. It is presented growing popularity of Web 3.0 showing many projects, mainly in the U.S., of building and using Semantic web, but also present examples that Web 3.0 still does not work well. Ontology and languages (RDF, OWL) for building ontologies are important part of Web 3.0.The technologies and the tools are ready, the changes on the market – visible, but there is still much work to do with existing documents in the net.

Cytaty

Powiązane dokumenty

Jeśli jednak nie jest prawdą, że logika jest jedna, to może istnieć logika prawnicza jako odmienny rodzaj logiki.. Zatem albo logika jest jedna, albo nie jest prawdą, że nie

Kasy miałyby się pojawić tylko w gabinetach prywatnej służby zdrowia, co oznacza, że szara strefa powstaje właśnie tam i dziwnym trafem omija szpitale.. Ministrowi sen z oczu

Na tem at pracy m etodą projektów istnieje na polskim rynku wydawniczym szereg publikacji [1-10], w tym dwie rekom endow ane przez MEN. W sumie dają one szeroki

Wariacją n–elementową bez powtórzeń ze zbioru m–elementowego nazywamy uporząd- kowany zbiór (n–wyrazowy ciąg) składający się z n różnych elementów wybranych z

Przenoszenie zakażenia COVID-19 z matki na dziecko rzadkie Wieczna zmarzlina może zacząć uwalniać cieplarniane gazy Ćwiczenia fizyczne pomocne w leczeniu efektów długiego

W piątek 17 listopada 1989 roku odbyła się w Pradze pamiętna manifestacja na Albertowie i w alei Narodowej.. Wkrótce potem rozpoczął się strajk studentów i pracowników

Natural- na kolej rzeczy będzie taka, że gracze przystępujący do tego rynku będą poszukiwać efektu skali (efektywność biznesu, siła negocjacyjna, dostępność, standaryzacja),

(zmianę częstości; tempo upływu czasu na zegarach ruchomych jest wolniejsze; zegary będące w ruchu spóźniają się względem zegarów spoczywających). Efekt Sagnac’a —