• Nie Znaleziono Wyników

Słowa kluczowe w indeksach rzeczowych, systemach pełnotekstowych,

W dokumencie KLUCZOWE SŁOWA (Stron 151-156)

3.1. Analiza porównawcza języków słów kluczowych opartych

3.1.3. Wyniki badań własnych

3.1.3.1. Słowa kluczowe systemów tradycyjnych

3.1.3.1.6. Słowa kluczowe w indeksach rzeczowych, systemach pełnotekstowych,

pełnotekstowych, katalogach bibliotecznych (OPAC) i bibliotekach cyfrowych Języki słów kluczowych znajdują zastosowanie również w tworzeniu nowych typów indeksów nazywanych niekonwencjonalnymi, permutacyjnymi lub też indeksami słów kluczowych bądź tytułowymi. Historycznie pierwszym systemem opartym na koncepcji uwzględniającej kontekst słów kluczowych był system KWIC (Key-Word--in-Context), nazywany też indeksem permutacyjnym, opracowany pod koniec lat pięćdziesiątych XX wieku przez H.P. Luhna (Luhn 1960). W połowie lat siedemdzie-siątych XX wieku koncepcja ta została rozwinięta w brytyjskim systemie PRECIS (PREserved Context Indexing System), opracowanym dla British National Biblio-graphy przez Dereka Austina, oraz hinduskim systemie POPSI (Postulate-based Per-muted Subject Indexing).

Języki słów kluczowych stosowane w indeksach KWIC i KWOC uwzględnia-ją zasady permutacji, czyli eksponowania kolejnych elementów fraz leksykalnych.

Słowa kluczowe są prezentowane w kontekście (na przykład w indeksie KWIC), bez kontekstu (na przykład w indeksie KWOC) i/lub w tytule (na przykład w in-deksie KWIT). Przykład może stanowić baza danych GOSPODARKA, tworzona przez Bibliotekę Główną Uniwersytetu Ekonomicznego w Krakowie, która utrzymu-je bazę wzorcowych słów kluczowych w języku polskim i języku angielskim, zwaną e-słownikiem słów kluczowych, zintegrowaną ze zbiorem głównym bazy GOSPO-DARKA. Do tej pory jest to słownik wyłącznie języka słów kluczowych w funkcji języka indeksowania. Fragment tego słownika w formie indeksu KWIC przedstawia następująca lista:

Informacja marketingowa 26

Informacja masowa 2

Informacja poufna 4

Informacja przestrzenna 2

Informacja publiczna 18

Informacja rynkowa 29

Informacja statystyczna 25

Informacja techniczna 2

Informacja w podejmowaniu decyzji 24

Informacja w przedsiębiorstwie 40

Informacyjna funkcja sprawozdań fi nansowych 3

Jakość informacji 5

Jawność informacji 5

Komputerowy system informacyjny 4

Logistyczne systemy informacyjne 4

Manipulacje informacją 4

Marketingowy system informacyjny 8

Ochrona informacji niejawnych 9

Polityka informacyjna 19

Potrzeby informacyjne 11

Prawo do informacji 13

Proces informacyjny 7

Promocja jako przekaz informacyjny 4

Przepływ informacji między organizacjami 3

Przepływ informacji w organizacji 14

Przepływ informacji w łańcuchu dostaw 5

Rynek informacji fi nansowej 2

Społeczeństwo informacyjne 66

System informacji gospodarczej 8

Baza GOSPODARKA: 8

System Informacji Przestrzennej = Geographic Information System (GIS)

System informacji statystycznej 6

System informacyjny 72

System informacyjny w przedsiębiorstwie 54

System informacyjny w zarządzaniu 12

Baza GOSPODARKA: 281 Technologia informacyjna = Information Technology (IT)

Zwracam uwagę na sposób prezentacji słów kluczowych, wykorzystujący zasadę permutacji, czyli eksponowania kolejnych elementów fraz leksykalnych. Towarzy-szące im liczby oznaczają ich frekwencję. Jest to przykład systemu opartego na sto-sowaniu jednostek leksykalnych języka naturalnego (bez jakiejkolwiek normalizacji) w charakterze słów kluczowych do indeksowania dokumentów w postaci indeksu permutacyjnego. Przy takim zastosowaniu leksyki języka naturalnego do współrzęd-nego indeksowania dokumentów w charakterystyce wyszukiwawczej używane są różne formy gramatyczne jednych i tych samych słów i zestawień słownych, a także synonimy i homonimy.

Mika Käki z University of Tampere (Finlandia), zainspirowany indeksem KWIC zbudowanym przez Luhna, zaproponował tzw. fKWIC (frequency-based Keyword in Context Index) (Käki 2006). Klasyczny indeks KWIC stanowi formę konkordancji, tj. indeksu słów, w którym każde ze słów jest wyświetlane wraz z jego kontekstem.

Słowa kluczowe użyte w wyszukiwaniu stanowią w nim bazę dla indeksu, podczas gdy pozostałe słowa z tytułu stanowią dla niego kontekst. Istotą nowej propozycji przedstawionej przez Käkiego jest generowanie indeksu fKWIC za pomocą algoryt-mu o charakterze statystycznym.

Zajmując się implementacją języka słów kluczowych, trzeba uwzględnić rów-nież wprowadzone w latach sześćdziesiątych XX wieku katalogi OPAC i ich dyna-miczny rozwój w latach osiemdziesiątych i dziewięćdziesiątych ubiegłego stulecia.

Niewątpliwie jest to, oprócz systemu WWW, nowy obszar zastosowań języków słów kluczowych115. Katalogi biblioteczne tzw. pierwszej generacji funkcjonowały na za-sadzie prostych prekoordynowanych indeksów, generujących frazy kluczowe wybra-ne ze struktury opisu bibliografi czwybra-nego, głównie z tytułów dokumentów. Katalogi

115 Już na początku lat osiemdziesiątych XX wieku w USA zauważono w katalogach OPAC tendencję spadkową wyszukiwania przedmiotowego na rzecz słów kluczowych.

następnych generacji znacznie rozszerzyły swoje możliwości. I tak, druga generacja umożliwiła wyszukiwanie według słów kluczowych, zaś kolejna generacja także wy-szukiwanie według słów kluczowych w obrębie hasła przedmiotowego, a następnie rozszerzenie wyszukiwania według słów kluczowych na pozostałe wybrane elementy opisu, na przykład tytuły dokumentów, nazwy serii, adnotacje zawartościowe (spisy treści), abstrakty (głównie streszczenia autorskie), a nawet całe teksty dokumentów, czy tzw. odpowiedniki słowne symboli klasyfi kacyjnych. Liczba pól przeszukiwa-nych metodą słów kluczowych jest różna w różprzeszukiwa-nych bibliotekach.

W tradycyjnym systemie katalogów kartkowych większość bibliotek prowadziła katalog systematyczny lub działowy. Po ich skomputeryzowaniu najczęściej stoso-wane są hasła przedmiotowe i słowa kluczowe. Duża część bibliotek tworzy kilka uzupełniających się charakterystyk rzeczowych, wykorzystując jednocześnie różne języki informacyjno-wyszukiwawcze. Mamy wtedy do czynienia z polireprezentacją informacji116. Związana z tym jest, widoczna w ostatnich latach, tendencja do uszcze-gółowienia haseł przedmiotowych, na przykład tworzonych w Bibliotece Narodowej.

Komputeryzacja bibliotek wymusza ujednolicenie metod opracowania zbiorów, w tym konieczność ujednolicenia haseł formalnych i określenia języka informacyjno--wyszukiwawczego stosowanego w opisie dokumentów. W tym bardziej przydatne okazują się nowsze generacje katalogów OPAC, czyli tzw. OKAPI (Online Keyword Access to Public Catalog), które wykorzystują ankietową metodę indeksowania, ofe-rującą stałą długość tekstu opisu dokumentu. Tu pytanie użytkownika jest podda-wane analizie i pewnej obróbce przez system. Ten sposób indeksowania za pomocą języka słów kluczowych może być użyteczny również w innych typach systemów informacyjno-wyszukiwawczych.

W Polsce o językach stosowanych w komputerowych katalogach bibliotecznych pisała Jadwiga Sadowska (Sadowska 2001). Jej zdaniem, wyszukiwanie za pomocą języka słów kluczowych jest obecnie najbardziej znanym sposobem wyszukiwania w bibliotecznych katalogach komputerowych. Trzeba jednak zauważyć, że słowem kluczowym jest tu powszechnie nazywane dowolne słowo wybrane z charakterystyki formalnej lub rzeczowej dokumentu. Podjąłem się weryfi kacji tej tezy.

Okazuje się, że oprócz możliwości wybierania słów z tytułu dokumentu lub z po-szczególnych pól opisu bibliografi cznego, niewiele bibliotek w swoich OPAC-ach oferuje możliwość wyszukiwania według słów kluczowych. Przykładem takiej bi-blioteki może być Biblioteka Główna Uniwersytetu Ekonomicznego we Wrocławiu (rys. 7).

116 Istotę polireprezentacji informacji stanowi intencjonalna redundacja opisu, to jest zasada wielo-krotnego, równoległego opisywania różnymi językami tych samych obiektów i ich atrybutów. Por. też Larsen, Ingwersen 2005.

Rys. 7. Język słów kluczowych w katalogu OPAC (źródło: http://opac.bg.ae.wroc.pl) Niewielki zakres stosowania języków słów kluczowych w OPAC-ach potwier-dzają badania Zofi i Pokusińskiej i Teresy Dębickiej, opublikowane w 2004 roku117. Stosowanie języka słów kluczowych jako doraźnego rozwiązania zalecano w biblio-tekach kościelnych zrzeszonych w Federacji FIDES. W tym celu nawet opracowano Słownik słów kluczowych z teologii (Klimek, oprac. 2001). Jednak większość biblio-tek, po początkowej euforii związanej z możliwością wyszukiwania w OPAC-u za pomocą słów kluczowych, zrezygnowała z tego pomysłu, gdyż wymagało to dodat-kowych prac nad indeksowaniem książek za pomocą słów kluczowych. Prace nad językami słów kluczowych ujawniły, że są to zagadnienia wymagające pracy całych zespołów ludzkich i współpracy wielu instytucji. Porzucono więc tę możliwość, uzu-pełniając wyszukiwanie za pomocą haseł przedmiotowych nieujednoliconymi sło-wami generowanymi automatycznie z poszczególnych pól opisu bibliografi cznego/

katalogowego, głównie z pola „tytuł dokumentu”, a także z pola „opis przedmioto-wy”. Takie indeksy nieujednoliconych słów – nazywane indeksami słów kluczowych – są tworzone automatycznie, m.in. w OPAC-u Biblioteki Jagiellońskiej w Krakowie i innych bibliotekach posługujących się systemem bibliotecznym VIRTUA.

W katalogach OPAC, w których stosuje się obecnie język słów kluczowych, funkcjonują dwie odmiany funkcjonalne tego języka. W języku indeksowania jest on znormalizowany, a jego słownik jest jawny, zwykle w postaci tzw. kartote-ki wzorcowej, zaś w języku wyszukartote-kiwawczym opiera się na słowniku niejawnym (indeksowanie swobodne) lub jawnym, z wykorzystaniem wspomnianej kartoteki

117 Wprawdzie badania, o których tu mowa, dotyczyły stosowania UKD w katalogach komputero-wych bibliotek akademickich, ale przy okazji autorki zebrały i ujawniły informacje o innych językach stosowanych w tych katalogach.

wzorcowej. Użytkownicy tych katalogów mają więc do dyspozycji dwa rodzaje słowników: słowniki explicite (jawne) w postaci indeksów, de facto list jednostek leksykalnych do wyboru użytkownika, oraz słowniki implicite (niejawne) w indek-sowaniu swobodnym.

Języki słów kluczowych są stosowane zarówno w indeksowaniu, jak i wyszukiwa-niu informacji także w systemach pełnotekstowych i bibliotekach cyfrowych, współ-pracujących z systemami automatycznego indeksowania, bazujących przede wszyst-kim na wyszukiwaniu pełnotekstowym. Podstawą automatycznego indeksowania są odpowiednie pola metadanych dokumentu elektronicznego, które są przeznaczone do zapisu informacji o treści dokumentu w postaci zestawu słów kluczowych lub wyrażeń języków o słownictwie kontrolowanym albo cały tekst dokumentu.

W piśmiennictwie naukowym problematyce tej poświęcono już sporo prac. Usta-lono, że rozmieszczenie informacji w artykułach jest zróżnicowane. Wprawdzie abs-trakty są najbardziej nasycone „słowami kluczowymi”, ale pełny tekst – chociaż ma zdecydowanie mniejsze nagromadzenie słów kluczowych – zawiera zdecydowanie więcej informacji relewantnych dla użytkownika, które zazwyczaj muszą być od-czytywane z kontekstu. Obecnie dominuje pełnotekstowe wyszukiwanie informacji za pomocą słów kluczowych. Jego podstawy są rozwijane w ramach programu Text REtrieval Conference (TREC). Prowadzone w tym zakresie badania są od 1992 roku stymulowane przez serię dorocznych konferencji roboczych znanych pod nazwą TREC Workshops118.

Słowa kluczowe są też wykorzystywane do opisu i wyszukiwania informacji gra-fi cznej, na przykład za ich pomocą opisuje się i wyszukuje różne kategorie zdjęć opisanych słowami kluczowymi w formie etykiet zawierających takie nazwy, jak na przykład: rodzina, sport, szkoła. Wiele systemów gromadzących tego rodzaju infor-macje (na przykład iPhoto2) posiada cechę wyszukiwania na podstawie słów klu-czowych lub dowolnego słowa, czy wyrażenia znajdującego się w komentarzu (por.

http://www.apple.com.pl/products/iphoto/organize.html).

Koncepcja słów kluczowych stała się na tyle nośna, że podjęto próbę jej zastoso-wania w analizie i odkrywaniu zawartości dźwiękowych dokumentów audialnych, to jest przeniesienia jej na kod wokalny. Propozycję taką przedstawili Lie Lu i Alan Hanjalic (Lu, Hanjalic 2006). Autorzy ci zaproponowali zastosowanie do sprawnego i dokładnego opisywania i katalogowania takich dokumentów swoistych „dźwięków kluczowych”, charakterystycznych dla danego dokumentu. W początkowych bada-niach nad wykrywaniem dźwięków kluczowych wykorzystywano nadzorowaną ana-lizę dokumentów i metody klasyfi kacyjne, takie jak ukryte modele Markowa (ang.

Hidden Markov Models – HMM), które pozwoliły na znalezienie dziesięciu klu-czowych elementów dźwiękowych. Podobnie działa Maszyna Wektorów Nośnych (ang. Suport Vector Machines), która wykrywa w grach sportowych takie dźwięki kluczowe, jak uderzenie piłki i gwizdy czy też syreny i strzały z pistoletu dla celów

118 Ten cykl konferencji jest organizowany przez instytucje amerykańskie: National Institute of Stan-dards and Technology (NIST) oraz Defence Advanced Research Projects Agency (DARPA). Zob. też:

http://trec.nist.gov.

indeksowania fi lmów. Inicjatywa ta pokazuje, że pesymizm A.I. Czernego (Czerny 1978) w kwestii wykorzystania w języku informacyjno-wyszukiwawczym innego kodu niż kod grafi czny był nieuzasadniony.

3.1.3.2. Klasyczny język słów kluczowych a słowa kluczowe

W dokumencie KLUCZOWE SŁOWA (Stron 151-156)

Outline

Powiązane dokumenty