Eksperyment 10 - Wyniki eksperymentów - Index of /rozprawy2/10469

5.6 Wyniki eksperymentów

5.6.5 Eksperyment 10

Eksperyment 10. przeprowadzono analogicznie do eksperymentu opisanego w rozdziale 3.4.5 z użyciem strategii semantycznych opisanych w rozdziale 5.3. Wyniki eksperymentu dla strategii semantycznych zostały zebrane wspólnie z poprzednimi wynikami analogicznego eksperymentu i zaprezentowane na rysunku 5.10. ' ' ' ' ' ' !' "' #' $' ' ! # ! #  !"   &$%(( #% ' Rysunek 5.10: Eksperyment 10: wykres ilości przetworzonych stron do procentu odkrycia stron interesujących na korpusie wiadomosci.onet.pl z wykorzystaniem skryptu „sukcesy naukowe.yml” uwzględniając strategie semantyczne.

Dodatkowo na rysunku 5.11 przedstawiono wykres wartości zbieżności tema-tycznej wszystkich metod analizowanych w eksperymencie 10. oraz 5.

Eksperyment ten pokazuje anomalię związaną z tym, że na początkowym etapie przeglądania dokumentów, treść odsyłacza wpłynęła wyraźnie negatywnie na metodę hybrydową Page+Url. Przebieg metody Page jest zdecydowanie bar-dziej wyrównany. Prawdopodobną interpretacją tej anomalii jest fakt istnienia jakiegoś segmentu podstron, które korelują się tematycznie poprzez odsyłacz do zagadnienia poszukiwania, jednak same nie zawierają interesujących dokumen-tów. Sugerując się długością krzywych i jej zmian monotoniczności, opisywany segment podstron składa się z około 2000 odsyłaczy. Fakt ten zaznacza się na wykresie zbieżności tematycznej na rysunku 5.11 w postaci przecięcia się

wykre-95

sów metod Page oraz Page+Url.

! " # $ % " $ " $  $%# "##!)'(++!&(#*  Rysunek 5.11: Eksperyment 10: wykres zbieżności tematycznej crawlingu na korpusie wiadomosci.onet.pl z wykorzystaniem skryptu „sukcesy naukowe.yml” uwzględniając strategie semantyczne.

Wskaźnik pierwszych 80% interesujących dokumentów zebrany w tabeli 5.1 jest najbardziej korzystny dla metody Page i wynosi 29%, podczas gdy najlepsza metoda klasyczna uzyskała jedynie 82%.

Eksperyment wykazuje wyższość zastosowania metod semantycznych nad me-todami klasycznymi.

5.6.6 Wnioski

Wyniki eksperymentów przedstawiają duże zróżnicowanie wartości zbieżno-ści tematycznej ze względu na dobór strategii. Przedstawione zostało to poprzez wykresy zbieżności tematycznej dla eksperymentów od 6. do 10. Uzyskane wy-niki pozwalają potwierdzić pierwszą tezę pracy, że „postulowana miara zbieżno-ści tematycznej użyta jako surogat miary pełnozbieżno-ści (recall) w przeszukiwaniu sieci WWW on-line jest zależna od przyjętej strategii crawlingu.”.

Praktycznie we wszystkich opisywanych eksperymentach (poza ostatnim) me-toda hybrydowa Page+Url stanowiąca złożenie metod Page oraz Url okazywała się lepsza od wszystkich metod asemantycznych oraz od najlepszej z metod se-mantycznych wchodzących w skład złożenia. Zestawienie wyników wskaźnika od-krycia 80% interesujących stron w tabeli 5.1 dowodzi temu stwierdzeniu. Ostatni przykład pokazuje, że dane z odsyłaczy mogą w konkretnych przypadkach być mylące, obniżając nieznacznie jakość metody hybrydowej. Jednak we wszystkich przypadkach metody semantyczne oparte na analizie treści strony okazywały się dominujące i lepsze nad metodami klasycznymi, co obrazowane było poprzez osią-ganie wyższych wartości zbieżności tematycznych na całych przebiegach crawlin-gu. Otrzymane wyniki pozwalają potwierdzić drugą tezę pracy, że „zastosowanie aparatu semantycznego w strategiach crawlingu w każdym przypadku przynosi po-prawę zbieżności tematycznej crawlingu zorientowanego na zapytanie”.

Strategie klasyczne Strategie semantyczne

Eksp. Rnd. BFS DFS B. R. B. Page Url Page+URL

1+6 75% 79% 71% 59% 66% 60% 38% 35%

2+7 83% 80% 68% 96% 62% 30% 80% 30%

3+8 81% 80% 98% 75% 99% 58% 81% 55%

4+9 80% 79% 82% 82% 83% 53% 79% 53%

5+10 84% 80% 86% 82% 86% 29% 60% 35%

Tabela 5.1: Procent przetworzonych odsyłaczy w momencie odkrycia 80% inte-resujących dokumentów w eksperymentach od 6. do 10. z uwzględnieniem ekspe-rymentów od 1. do 5. (mniej = lepiej; wartości pogrubione to najlepsze rezultaty w obrębie eksperymentu)

Rozdział 6

Podsumowanie

Celem badań przedstawionych w niniejszej pracy doktorskiej było wykazanie, że zbieżność tematyczna crawlingu zależy od przyjętej strategii crawlingu oraz że klasyczne metody strategii doboru linków mogą zostać ulepszone poprzez po-prawę zbieżności tematycznej crawlingu w wyszukiwaniu dokumentów interesują-cych zadanym tematem wyszukiwawczym. Wymagało to implementacji systemu crawlingowego oraz nowych strategii doboru linków uwzględniających informacje semantyczną.

W tym celu przedstawiono i zdeﬁniowano pojęcie crawlingu oraz ograniczeń technologicznych, które wpływają na możliwość utworzenia systemu crawlingowe-go dużej skali. Następnie zdeﬁniowano metody klasyczne strategii doboru linków. Metody te opierają się na klasycznych algorytmach przeglądania drzew, a ich implementacja przynosi mechanizm repozytorium linków wykazujący cechy kon-kretnej strategii. Użyto metod:

1. BFS – przeglądanie wszerz, 2. DFS – przeglądanie w głąb,

3. Backlink – przeglądanie zgodnie z porządkiem wynikającym z największej ilości odkrytych krawędzi (odsyłaczy) przychodzących (strony najczęściej wskazywane są najważniejsze),

4. Reverse Backlink - przeglądanie zgodnie z porządkiem wynikającym z naj-mniejszej ilości odkrytych krawędzi (odsyłaczy) przychodzących (strony najbardziej ukryte są najważniejsze).

W celu umożliwienia przeprowadzenia testów porównawczych opracowano dwa korpusy testowe. Zostały one przygotowane w sposób odwzorowujący struk-turę odsyłaczy URL w treści strony WWW zachowując w ten sposób

gię portalu. Utworzenie statycznych korpusów umożliwiło przeprowadzenie wie-lokrotnych eksperymentów na statycznej topologii portalu, co było kluczowe dla uzyskania efektu powtarzalności wyników. Utworzone korpusy to:

1. sport.onet.pl – segment portalu o objętości około 1.1 GB kodu HTML za-wierający 10 843 odsyłaczy; tematyka korpusu została dobrana w sposób charakteryzujący korpus silnie zbiasowany, skupiony i ograniczony tema-tycznie na konkretnej dziedzinie (tutaj sport),

2. wiadomosci.onet.pl – segment portalu o objętości około 1.5 GB kodu HTML zawierający 20 199 odsyłaczy; tematyka korpusu została dobrana w sposób charakteryzujący korpus o charakterze ogólnym, wielodziedzinowym, otwar-tym (wiadomości prasowe opisują wydarzenia z bardzo szerokiego spek-trum).

Następnie wybrano trzy tematyki stanowiące każde z osobna zapytania wej-ściowe do systemu. Zapytania te stanowiły bazę oceny dla badań wydajność me-tod strategii doboru linków. Tematyki zapytań dostosowane były, aby uzyskać następujące zróżnicowanie rodzaju zapytań.

1. Pierwszym rodzajem zapytania było odnalezienie informacji o golach w pił-ce nożnej, mająpił-ce charakteryzować informację precyzyjną, wąską i dziedzi-nową.

2. Drugim zapytaniem była informacja o charakterze popularnym, ogólnym, dotycząca tematu emerytur.

3. Trzecim rodzajem zapytania były sukcesy naukowe, mające reprezentować klasę zapytań ogólnych, ale rzadkich w korpusie tekstów.

Tematyki zapytań zostały następnie formalnie zakodowane w postaci wzor-ców odpowiadającym formatem dwóm metodom semantycznym. Dla porównania wybrano biegunowe metody:

1. metodę słów kluczowych, charakteryzującą się płytką analizą semantyczną, 2. metodę skryptów Conceptual Dependency charakteryzującą się głęboką

ana-lizą semantyczną.

Wzorce umożliwiły ewaluacje treści stron przeglądanych przez system crawlin-gowy. Metody oceny semantycznej posłużyły za detektor stopnia ważności tekstu. Fakt oznaczenia tekstu jako interesujący wynikał jedynie z faktu dopasowania go jednym z mechanizmów oceny semantycznej (słowami kluczowymi lub skryptem C.D.).

Wykonano następnie dwie serie eksperymentów. Każdy z eksperymentów za-kładał użycie jednego z korpusów na którym testowano jedną ze strategii doboru linków przy założeniu jednego z dostępnych tematów zapytania zrealizowanego za pomocą jednej z dostępnych metod semantycznych.

W pierwszej serii przeprowadzono 5 eksperymentów, w których zbadano prze-bieg pozyskiwania interesujących dokumentów, oceniając teksty poszczególnymi aparatami semantycznymi dla poszczególnych zapytań. Przebiegi zobrazowano na wykresach oraz wprowadzono wskaźnik oznaczający procent przetworzonych do-kumentów w wybranej metodzie, która prowadzi do odkrycia 80% interesujących dokumentów (uznanej jako znacząca większość).

Eksperymenty następnie ponowiono wykonując ponownie 5 eksperymentów wprowadzając nowe strategie doboru linków opierające się na wykorzystaniu in-formacji semantycznej niesionej z wprowadzonych metod płytkiej i głębokiej ana-lizy semantycznej:

1. metoda Page – waga oceny semantycznej strony wejściowej wpływa na ran-king stron wskazywanych przez stronę wejściową,

2. metoda Url – waga oceny semantycznej treści odsyłacza wpływa na ranking strony wskazywanej przez odsyłacz,

3. metoda Page+Url – złożenie dwóch powyższych metod.

Przebiegi zestawiono i porównano z metodami klasycznymi. Wyznaczono tak-że wskaźnik odkrycia 80% interesujących dokumentów. Wyliczono i przedstawio-no przebiegi wykresów zbieżprzedstawio-ności tematycznych na kolejnych etapach crawlingu. Przedstawione zróżnicowanie przebiegów wartości zbieżności tema-tycznej zobrazowane za pomocą wykresów pozwoliło wykazać słuszność tezy, że postulowana miara zbieżności tematycznej użyta jako surogat miary pełności (recall) w przeszukiwaniu sieci WWW on-line jest za-leżna od przyjętej strategii crawlingu..

Analizując zarówno przebiegi na wykresie, jak i dane liczbowe wskaźnika od-krycia 80% interesujących stron, wykazano że w każdym badanym zestawie nieza-leżnie od użycia płytkiej lub głębokiej metody semantycznej uzyskano lepszą ja-kość wyrażoną w większej wartości zbieżności procesu crawlingowego na przebiegu crawlingu. Uśredniając otrzymane wyniki, statystycznie strategie asemantyczne uzyskiwały wskaźnik odkrycia 80% interesujących dokumentów po przeglądnięciu 71,4% wszystkich dokumentów w korpusie, podczas gdy średnio strategie seman-tyczne wymagały przeglądnięcia jedynie 40,4% dokumentów w korpusie. Warto zwrócić uwagę na fakt, że we wszystkich eksperymentach drugiej serii, poza jed-nym eksperymentem, najlepszą metodą okazała się metodą hybrydowa Page+Url

stanowiąca złożenie dwóch osobnych metod semantycznych.

W świetle powyższych wyników badań, przy zastosowaniu zróżni-cowanych metod oceny semantycznej oraz zróżnizróżni-cowanych zakresach tematycznych korpusów można potwierdzić słuszność tezy, że zastoso-wanie aparatu semantycznego w strategiach crawlingu w każdym przy-padku przynosi poprawę zbieżności tematycznej crawlingu zorientowa-nego na zapytanie.

6.1 Zastosowania

Opisana w niniejszej pracy metodyka znalazła z powodzeniem zastosowanie w implementacji Systemu Monitoringu Polskojęzycznego Internetu (w skrócie MPI)[67], który powstał w ramach projektu naukowego „Technologie przetwa-rzania tekstu polskiego zorientowane na potrzeby bezpieczeństwa publicznego” (nr projektu 17.17.120.715/I) Polskiej Platformy Bezpieczeństwa Wewnętrznego. Celem badań było utworzenie prototypu narzędzia umożliwiającego wyszukiwa-nie i monitorowawyszukiwa-nie informacji w Internecie zorientowanego na wysoką precyzję wyników. W ramach projektu powstał prototyp systemu MPI, który wykorzy-stuje opisane w dalszym toku strategie monitoringu sieci Internet. Projekt MPI zakończył się oﬁcjalnym przekazaniem w grudniu 2010 roku licencji użytkowej dla użytkownika końcowego projektu.

Po zakończeniu projektów PPBW dalsze prace nad systemem automatycznej ekstrakcji informacji z tekstów w Internecie prowadzone są w sposób ciągły w ra-mach badań naukowych w międzynarodowym projekcie INDECT ﬁnansowanym z UE FP7-218086-Collaborative Project. Opisywana technologia znalazła zastoso-wanie w opisywanym narzędziu System for Enhanced Search: A Tool for Pattern Based Information Retrieval, które zostało opisane w Deliverable D4.4[66].

Bibliograﬁa

[1] P. Boldi, S. Vigna, B. Codenotti, Via Moruzzi, and M. Santini. Trovatore: Towards a highly scalable distributed web crawler. In Winner of the Best Poster Award, pages 140–141, 2001.

[2] Paolo Boldi, Bruno Codenotti, Massimo Santini, and Sebastiano Vigna. Ubicrawler: a scalable fully distributed web crawler. Software: Practice & Experience, 34:2004, 2003.

[3] Sergey Brin and Lawrence Page. The anatomy of a large-scale hypertextual web search engine. Computer Networks and ISDN Systems, 30(1-7):107 – 117, 1998. Proceedings of the Seventh International World Wide Web Conference.

[4] Chris Buckley and S. E. Robertson. Relevance feedback track overview: Trec 2009. In TREC, 2009.

[5] Vannevar Bush. As We May Think. Atlantic Monthly, 176(1):641–649, March 1945. [6] J. Callan and M. Hoy. Clueweb09 data set, 2009.

[7] Soumen Chakrabarti, Martin van den Berg, and Byron Dom. Focused crawling: a new approach to topic-speciﬁc web resource discovery, 1999.

[8] Qu Cheng, Wang Beizhan, and Wei Pianpian. Eﬃcient focused crawling strategy using combination of link structure and content similarity. In IT in Medicine and

Education, 2008. ITME 2008. IEEE International Symposium on, pages 1045 –1048,

dec. 2008.

[9] Junghoo Cho and Hector Garcia-Molina. Parallel crawlers. In Proceedings of the

11th international conference on World Wide Web, WWW ’02, pages 124–135, New

York, NY, USA, 2002. ACM.

[10] Junghoo Cho and Hector Garcia-Molina. Eﬀective page refresh policies for web crawlers. ACM Trans. Database Syst., 28:390–426, December 2003.

[11] Junghoo Cho, Hector Garcia-Molina, Taher Haveliwala, Wang Lam, Andreas Pa-epcke, Sriram Raghavan, and Gary Wesley. Stanford webbase components and ap-plications. ACM Trans. Internet Technol., 6:153–186, May 2006.

[12] Junghoo Cho, Hector Garcia-Molina, and Lawrence Page. Eﬃcient crawling thro-ugh url ordering. Computer Networks and ISDN Systems, 30(1-7):161 – 172, 1998. Proceedings of the Seventh International World Wide Web Conference.

[13] Noam Chomsky. Aspects of the Theory of Syntax. The MIT Press, 1st paperback ed. edition, March 1969.

[14] Thomas H. Cormen, Cliﬀord Stein, Ronald L. Rivest, and Charles E. Leiserson.

Introduction to Algorithms. McGraw-Hill Higher Education, 2nd edition, 2001.

[15] Ferdinand d. de Saussure. Course in General Linguistics. Duckworth, London, 1983. [16] Scott C. Deerwester, Susan T. Dumais, Thomas K. Landauer, George W. Furnas, and Richard A. Harshman. Indexing by latent semantic analysis. Journal of the

American Society of Information Science, 41:391–407, 1990.

[17] K. Dorosz. Ekstrakcja spójnych tekstów z internetu na potrzeby algorytmów lin-gwistycznych. Automatyka : półrocznik Akademii Górniczo-Hutniczej im. Stanisława

Staszica w Krakowie, 12(2):423—431, 2008.

[18] K. Dorosz. Usage of dedicated data structures for url databases in a large-scale craw-ling. Computer Science : rocznik Akademii Górniczo-Hutniczej imienia Stanisława

Staszica w Krakowie, 10:7–17, 2009.

[19] Susan T. Dumais. Latent semantic analysis. Annual Review of Information Science

and Technology, 38(1):188–230, 2004.

[20] Jenny Edwards, Jenny Edwards, Kevin McCurley, and John” Tomlin. An adaptive model for optimizing performance of an incremental web crawler. 2001.

[21] Marc Ehrig and Alexander Maedche. Ontology-focused crawling of web documents. In SAC ’03: Proceedings of the 2003 ACM symposium on Applied computing, pages 1174–1178, New York, NY, USA, 2003. ACM.

[22] W. Lubaszewski et al. Słowniki komputerowe i automatyczna ekstrakcja informacji z

tekstu. AGH Uczelniane Wydawnictwa Naukowo-Dydaktyczne, ISBN

978-83-7464-122-7, 2009.

[23] Edward A. Fox. Extending the boolean and vector space models of information

retrieval with p-norm queries and multiple concept types. PhD thesis, Ithaca, NY,

USA, 1983.

[24] M. Gajęcki. Słownik ﬂeksyjny jako biblioteka języka c. [w:] W. Lubaszewski red. Słowniki komputerowe i automatyczna ekstrakcja informacji z tekstu, s. 107–136, ISBN 978-83-7464-122-7, AGH Uczelniane Wydawnictwa Naukowo-Dydaktyczne, 2009.

[25] Ralph Grishman and Beth Sundheim. Message understanding conference - 6: A brief history. In Proceedings of the International Conference on Computational

Lin-guistics, 1996.

[26] Allan Heydon and Marc Najork. Mercator: A scalable, extensible web crawler. World

103

[27] Angelos Hliaoutakis, Giannis Varelas, Epimeneidis Voutsakis, Euripides G. M. Pe-trakis, and Evangelos Milios. Information retrieval by semantic similarity. In

In-tern. Journal on Semantic Web and Information Systems (IJSWIS), 3(3):55–73, July/Sept. 2006. Special Issue of Multimedia Semantics, 2006.

[28] Rui Huang, Fen Lin, and Zhongzhi Shi. Focused crawling with heterogeneous se-mantic information. In Proceedings of the 2008 IEEE/WIC/ACM International

Conference on Web Intelligence and Intelligent Agent Technology - Volume 01,

pa-ges 525–531, Washington, DC, USA, 2008. IEEE Computer Society.

[29] Gajęcki Marek i Branny Emilia. Text summarizing in polish. Computer Science, 7:31–48, 2005.

[30] O. Jalilian and H. Khotanlou. A new fuzzy-based method to weigh the related concepts in semantic focused web crawlers. In Computer Research and Development

(ICCRD), 2011 3rd International Conference on, volume 3, pages 23 –27, march

2011.

[31] Jr, Zhen Liu, and Richard Weber. Optimal robot scheduling for web search engines.

Journal of Scheduling, 1(1):15–29, 1998.

[32] Daniel Jurafsky and James Martin. Speech and Language Processing (2nd Edition). Prentice Hall, 2 edition, 2008.

[33] Martijn Koster. A method for web robots control. Internet Draft draft-koster-robots-00, December 1996.

[34] T.K. Landauer, P.W. Foltz, and D. Laham. An introduction to latent semantic analysis. Discourse processes, 25:259–284, 1998.

[35] Hsin-Tsang Lee, Derek Leonard, Xiaoming Wang, and Dmitri Loguinov. Irlbot: sca-ling to 6 billion pages and beyond. In Proceeding of the 17th international conference

on World Wide Web, WWW ’08, pages 427–436, New York, NY, USA, 2008. ACM.

[36] Witold Litwin. Readings in database systems. chapter Linear Hashing: a new tool for ﬁle and table addressing., pages 570–581. Morgan Kaufmann Publishers Inc., San Francisco, CA, USA, 1988.

[37] W. Lubaszewski. Informacja w tekście. [w:] W. Lubaszewski red. Słowniki kom-puterowe i automatyczna ekstrakcja informacji z tekstu, s. 137–155, ISBN 978-83-7464-122-7, AGH Uczelniane Wydawnictwa Naukowo-Dydaktyczne, 2009.

[38] Christopher D. Manning, Prabhakar Raghavan, and Hinrich Sch¨utze. Introduction

to Information Retrieval. Cambridge University Press, New York, NY, USA, 2008.

[39] Christopher D. Manning and Hinrich Sch¨utze. Foundations of statistical natural

language processing. MIT Press, Cambridge, MA, USA, 1999.

[40] Filippo Menczer, Gautam Pant, and Padmini Srinivasan. Topical web craw-lers: Evaluating adaptive algorithms. ACM Transactions on Internet Technology, 4:http://dollar.biz.ui, 2004.

[41] Filippo Menczer, Gautam Pant, Padmini Srinivasan, and Miguel E. Ruiz. Evaluating topic-driven web crawlers, 2001.

[42] Marvin Minsky. A framework for representing knowledge. Technical report, Cam-bridge, MA, USA, 1974.

[43] Marc Najork, Marc Najork, Allan Heydon, Marc Najork, and Allan” Heydon. High-performance web crawling. SRC RESEARCH REPORT 173, COMPAQ SYSTEMS

RESEARCH, 2001.

[44] Charles Kay Ogden and I.A. Richards. The meaning of meaning. Trubner & Co, London, 1923.

[45] Christopher Olston and Christopher” Olston. Recrawl scheduling based on infor-mation longevity. IN PROC. OF THE 17TH INTERNATIONAL WORLD WIDE

WEB CONFERENCE (WWW, 2008.

[46] Lawrence Page, Sergey Brin, Rajeev Motwani, and Terry Winograd. The pagerank citation ranking: Bringing order to the web. Technical Report 1999-66, Stanford InfoLab, November 1999. Previous number = SIDL-WP-1999-0120.

[47] Sandeep Pandey, Sandeep Pandey, and Christopher” Olston. User-centric web craw-ling. IN WWW ’05: PROCEEDINGS OF THE 14TH INTERNATIONAL

CON-FERENCE ON WORLD WIDE WEB, pages 401–411, 2005.

[48] Gautam Pant, Padmini Srinivasan, and Filippo Menczer. Crawling the web. In In

Web Dynamics: Adapting to Change in Content, Size, Topology and Use. Edited by M. Levene and A. Poulovassilis, pages 153–178. Springer-Verlag, 2004.

[49] Judea Pearl. Heuristics: intelligent search strategies for computer problem solving. Addison-Wesley Longman Publishing Co., Inc., Boston, MA, USA, 1984.

[50] C. S. Peirce. Collected Papers of Charles Sanders Peirce. Harvard University Press, 1931.

[51] P. Pisarek. Słownik ﬂeksyjny. [w:] W. Lubaszewski red. Słowniki komputerowe i automatyczna ekstrakcja informacji z tekstu, s. 37–68, ISBN 978-83-7464-122-7, AGH Uczelniane Wydawnictwa Naukowo-Dydaktyczne, 2009.

[52] High Accuracy Retrieval and James Allan. Hard track overview in trec 2003. [53] Christopher K. Riesbeck, Roger C. Schank, Neil M. Goldman, and Charles J. Rieger,

III. Inference and paraphrase by computer. J. ACM, 22:309–328, July 1975. [54] S. J. Russell and P. Norvig. Artiﬁcial Intelligence: A Modern Approach. Prentice

Hall, 3rd edition, 2009.

[55] Suman Saha, C. A. Murthy, and Sankar K. Pal. Rough set based ensemble prediction for topic speciﬁc web crawling. In Proceedings of the 2009 Seventh International

Conference on Advances in Pattern Recognition, pages 153–156, Washington, DC,

USA, 2009. IEEE Computer Society.

[56] G. Salton, A. Wong, and C. S. Yang. Readings in information retrieval. chapter A vector space model for automatic indexing, pages 273–280. Morgan Kaufmann Publishers Inc., San Francisco, CA, USA, 1997.

105

[58] Sameendra Samarawickrama and Lakshman Jayaratne. Automatic text classiﬁca-tion and focused crawling. In Digital Informaclassiﬁca-tion Management (ICDIM), 2011 Sixth

International Conference on, pages 143 –148, sept. 2011.

[59] R. C. Schank and C. K. Riesbeck. Micro sam. In R. C. Schank and C. K. Riesbeck, editors, Inside Computer Understanding: Five Programs Plus Miniatures, pages 120– 135. Erlbaum, Hillsdale, NJ, 1981.

[60] Roger C. Schank. Conceptual dependency: A theory of natural language understan-ding. Cognitive Psychology, 3(4):pages 532–631, 1972.

[61] Roger C. Schank and Christopher K. Riesbeck, editors. Inside Computer

Under-standing: Five Programs Plus Miniatures. Erlbaum, Hillsdale, NJ, 1981.

[62] Roger C. Schank and Larry Tesler. A conceptual dependency parser for natural language. In Proceedings of the 1969 conference on Computational linguistics, CO-LING ’69, pages 1–3, Stroudsburg, PA, USA, 1969. Association for Computational Linguistics.

[63] M. Scott and C. Tribble. Textual patterns: key words and corpus analysis in language

education. Studies in corpus linguistics. J. Benjamins, 2006.

[64] Vladislav Shkapenyuk, Vladislav Shkapenyuk, and Torsten” Suel. Design and im-plementation of a high-performance distributed web crawler. IN PROC. OF THE

INT. CONF. ON DATA ENGINEERING, pages 357–368, 2002.

[65] Amit Singhal. Modern information retrieval: a brief overview. BULLETIN OF THE

IEEE COMPUTER SOCIETY TECHNICAL COMMITTEE ON DATA ENGINE-ERING, 24:2001, 2001.

[66] M. Korzycki W. Lubaszewski, K. Dorosz. D4.4. system for enhanced search: A tool for pattern based information retrieval. Technical report, INDECT Project, FP7-218086-Collaborative Project, 2009.

[67] M. Korzycki W. Lubaszewski, K. Dorosz. Mpi – system for web information mo-nitoring. In Z. Vetulani, editor, Human language technologies as a challenge for

computer science and linguistics : 4th language & technology conference, pages 153–

155. Wydawnictwo Poznańskie Sp. z o. o, November 6-8 2009.

[68] Maxime Wack, Mohamed Bakhouya, and Jaafar Gaber. Agent-based approach for web crawling. ITSSA, 2(2):203–208, 2006.

[69] J. L. Wolf, M. S. Squillante, P. S. Yu, J. Sethuraman, and L. Ozsen. Optimal crawling strategies for web search engines. In Proceedings of the 11th international

conference on World Wide Web, WWW ’02, pages 136–147, New York, NY, USA,

2002. ACM.

[70] Fuyong Yuan, Chunxia Yin, Jian Liu, and Yulian Zhang. An integrated crawling strategy for domain-speciﬁc resource discovery. In Proceedings of the 2007 Third

International IEEE Conference on Signal-Image Technologies and Internet-Based System, pages 329–336, Washington, DC, USA, 2007. IEEE Computer Society.

[71] Budi Yuwono, Budi Yuwono, Savio L. Lam, Jerry H. Ying, and Dik L.” Lee. A world wide web resource discovery system. THE FOURTH INTERNATIONAL

WWW CONFERENCE, 1:145–158, 1995.

[72] Huaxiang Zhang and Jing Lu. A fuzzy approach to ranking hyperlinks. In

Pro-ceedings of the Fourth International Conference on Fuzzy Systems and Knowledge Discovery - Volume 03, pages 406–410, Washington, DC, USA, 2007. IEEE

Com-puter Society.

[73] Hai-Tao Zheng, Bo-Yeong Kang, and Hong-Gee Kim. An ontology-based approach to learnable focused crawling. Inf. Sci., 178:4512–4522, December 2008.

[74] George K. Zipf. Human behavior and the principle of least eﬀort: An introduction

Dodatki

Edytor i tester skryptów

Proces tworzenia skryptu okazał się skomplikowany pomimo użycia do

W dokumencie Index of /rozprawy2/10469 (Stron 99-124)