Geneza języka słów kluczowych

2.1.1. Prehistoria języka słów kluczowych

Język słów kluczowych, podobnie jak język haseł przedmiotowych, wywodzi się z okresu średniowiecza. Wtedy powstawały pierwsze katalogi i inwentarze biblio-teczne, w których stosowano układy przedmiotowe, a jako hasło przyjmowano głów-ny wyraz tytułu. Katalogi alfabetyczne, budowane według głównego słowa tytułu, nie były jeszcze katalogami przedmiotowymi, lecz po prostu pierwszymi formami zapewnienia dostępu do treści książek poprzez alfabetyczne wyliczenie słów wska-zujących na ich tematy. Równoprawne jest więc twierdzenie, że użyto wówczas po raz pierwszy słów kluczowych, jak i twierdzenie, że były to pierwsze formy haseł przedmiotowych.

Prototypem języków słów kluczowych są też indeksy słów kluczowych⁵⁰, których genezy można doszukiwać się w wykazach wyrazów głównych tytułu, stosowanych chętnie w bibliotekarstwie, a także w idei konkordancji, czyli alfabetycznych zesta-wieniach słów albo zwrotów wyrazowych przy badaniach tekstów dzieł literackich.

Główny wyraz tytułu to wyraz najważniejszy w tytule, wskazujący istotne elementy treści danego dokumentu opatrzonego tym tytułem, etykieta tego dokumentu⁵¹. Za-uważmy, że tak właśnie deﬁ niuje się słowo kluczowe w wielu słownikach termino-logicznych. Pierwsze konkordancje wyrazowe i rzeczowe (tematyczne) sporządzane były do Biblii już w XIII wieku. Z późniejszych najbardziej znana jest konkordancja do dzieła Summa Theologica św. Tomasza z Akwinu. Przeniesienie koncepcji wyi-zolowania z kontekstu słów kluczowych do dokumentacji wiąże się z pracami Hansa Petera Luhna⁵² dotyczącymi indeksu typu KWIC, stąd przyjmuje się, że języki słów kluczowych były modelowane bezpośrednio na hasłach przedmiotowych, a pośred-nio na średpośred-niowiecznych konkordancjach. Dla obu tych języków podstawą

ewolucyj-50 Istnieją różne teorie na temat powstania języka słów kluczowych, które tworzą jego prehistorię.

Oto niektóre z nich: 1. Język słów kluczowych był modelowany na języku haseł przedmiotowych z roz-luźnieniem gramatyki pozycyjnej i rezygnacji z podziału jednostek leksykalnych w języku haseł przed-miotowych na tematy i określniki, co stwarzało różnorodny status tych jednostek (Por. Ćwiekowa 1988).

2. Język haseł przedmiotowych był modelowany na języku słów kluczowych (w XVIII wieku we Francji można było wybrać tylko słowo z tytułu dokumentu). Potem nastąpiło rozluźnienie. Adam Łysakowski podaje (Katalog przedmiotowy: podręcznik, Warszawa, PZWS 1946) przykłady, w których istotnie są to wyrażenia podobne do słów kluczowych, co mogłoby oznaczać, że teoria języka haseł przedmiotowych kształtowała się na bazie słów kluczowych (por. też: D.M. Norris: A History of Cataloguing and Catalog-uing Methods 1100–1850, with an introductory survey of ancient times, London, Grafton and Co. 1939).

51 Słowo kluczowe to rodzaj etykiety „przyczepianej” do danego tekstu, mającej informować o jego treści w zależności od konkretnych lub potencjalnych potrzeb informacyjnych użytkownika języka słów kluczowych.

52 Hans Peter Luhn (1896–1964) – pracownik ﬁ rmy IBM, który w 1958 roku zaprezentował nową for-mę indeksu słów kluczowych utworzonego za pomocą komputera, tzw. Keyword-in-Context (KWIC) index.

ną były katalogi przedmiotowe⁵³, w których w „klasyczny” sposób odzwierciedlano analizę tekstu z punktu widzenia treści i przedmiotu dzieła (Ćwiekowa 1988).

Genezy języków słów kluczowych powszechnie upatruje się też w związku z po-wstaniem i rozwojem – rewolucyjnego jak na owe czasy – indeksowania współrzęd-nego (koordynowawspółrzęd-nego). Za jego twórcę uważa się amerykańskiego logika i mate-matyka Mortimera Taubego⁵⁴, z którego nazwiskiem związane jest zastosowanie in-deksowania współrzędnego w praktyce informacyjnej⁵⁵. W swoich pracach pisał on o współrzędnych dokumentu w znaczeniu, w jakim używa się tego terminu w ma-tematyce. Tak jak w matematyce współrzędne jednoznacznie określają położenie punktu na płaszczyźnie lub w przestrzeni, tak wyrażenia języka informacyjno-wyszu-kiwawczego, pełniące funkcje współrzędnych, powinny wskazać, gdzie dany doku-ment (który można przedstawić jako punkt) znajduje się w przestrzeni informacyjnej (zbiorze informacyjnym) i tym samym umożliwić wyszukanie tego dokumentu w od-powiedzi na pytanie informacyjne. Jego zdaniem indeksowanie współrzędne, zwa-ne też indeksowaniem kojarzeniowym, można stosować w systemach językowych, w których do koordynacji jednostek leksykalnych można używać operacji logicznych.

Dla Taubego źródłem tego pomysłu była możliwość koordynacji liczb w maszynach cyfrowych, a także algebra Boole’a i logika klasyczna (schematy logiczne). Zasadę tę nazwał indeksowaniem koordynowanym (ang. co-ordinate indexing).

W indeksowaniu współrzędnym słowa kluczowe występujące w charakterysty-kach wyszukiwawczych dokumentu nie są powiązane żadnymi relacjami paradyg-matycznymi w momencie ich wprowadzania do systemu informacyjno-wyszukiwaw-czego. Każde słowo kluczowe jako jednostka leksykalna języka słów kluczowych grupuje opisy dokumentów, w których charakterystykach wystąpiło. To grupowanie następuje na podstawie identycznej formy wyrażeń języka naturalnego w supozycji materialnej. Wyszukiwanie dokumentu odbywa się dzięki koordynacji słów kluczo-wych charakterystyki wyszukiwawczej dokumentu i instrukcji wyszukiwawczej py-tania informacyjnego sformułowanej w tym samym języku informacyjno-wyszuki-wawczym, a więc na zasadzie identyczności formy słów kluczowych.

Niewątpliwą zasługą Taubego jest nie tylko „przeniesienie” samego pomysłu na wyszukiwanie informacji, lecz przede wszystkim stworzenie odpowiednich narzędzi, które realizowały ten pomysł. Były to: język unitermów jako lingwistyczne narzędzie oraz tradycyjny system UNITERM, oparty na inwersyjnym modelu organizacji zbio-ru, w którym niezbędne okazały się dwie kartoteki: kartoteka kart unitermowych oraz kartoteka opisów bibliograﬁ cznych dokumentów ułożonych według numerów. W ten sposób informacja zakodowana za pomocą danej jednostki leksykalnej nie znajduje

53 Początek katalogom przedmiotowym w Europie dał Real Katalog, stworzony przez Martina Schret-tingera w pierwszej połowie XIX wieku.

54 Mortimer Taube (1910–1965) urodził się w Jersey City (New Jersey). Studiował ﬁ lozoﬁ ę na uniwer-sytecie w Chicago, a następnie na University of California w Berkeley, gdzie w 1935 roku doktoryzował się z tego zakresu. W 1936 roku skończył studia bibliotekarskie. W latach 1953–1959 redagował serię Studies in Coordinate Indexing.

55 Po raz pierwszy indeksowanie (wyszukiwanie) współrzędne zastosowano w systemie kart obrzeżnie perforowanych w USA w połowie lat trzydziestych XX wieku (Kilgour 1997).

się w jednym miejscu, i nie jest gotowa jak w tradycyjnym katalogu przedmioto-wym, gdzie opisy dotyczące danego tematu są gromadzone w określonym miejscu.

Jest rozproszona, a może być uzyskana dopiero jako rezultat procesu wyszukiwania informacji i wykonania odpowiednich operacji logicznych. Jest to niewątpliwie waż-ny krok w kierunku „inteligentnego” wyszukiwania, w rozumieniu posługiwania się logiką. Współczesne systemy wyszukiwania informacji działają według tego sche-matu. Stworzony przez Taubego język unitermowy był pierwszym językiem infor-macyjno-wyszukiwawczym opartym na indeksowaniu współrzędnym.

Unitermem (ang. unit term – termin prosty) był termin przejęty z języka natu-ralnego, nierozkładalny, a więc jednowyrazowy, który mógł być niekiedy zaopatrzo-ny w uwagi dotyczące jego znaczenia. Charakterystyka wyszukiwawcza dokumentu składała się z kilku takich jednowyrazowych terminów, zapisanych w dowolnej kolej-ności. Taube dopuszczał jednak kontrolę słownictwa i podział na kategorie. Rozróż-niał unitermy wolne, równokształtne z wyrazami o jednym tylko rdzeniu i unitermy związane – równokształtne z wyrazami złożonymi motywowanymi lub połączeniami wyrazowymi, obwarowując jednak tego typu konstrukcje licznymi ograniczeniami.

Unitermom w planie treści miała odpowiadać klasa pojęć jednostkowych, tj. nieroz-kładalnych już na pojęcia prostsze, bardziej elementarne. Można więc uważać, że sło-wa kluczowe kontynuują ideę unitermów w zakresie gramatyki, a tylko częściowo słownictwa, gdyż są najczęściej słowami prostymi – ale nie muszą nimi być (występu-ją również jednostki wielowyrazowe) – i nie podlega(występu-ją też ścisłej kontroli.

Taube, badając użycie wyrazów języka naturalnego do indeksowania współrzęd-nego, zaproponował system UNITERM, który polegał na tworzeniu języka przez rozbijanie standardowych haseł przedmiotowych i klasyﬁ kacji na zestawy pojedyn-czych terminów (Taube, Gull, Wachtel 1952). Nowy sposób indeksowania pozwalał na indeksowanie dokumentów o wielu tematach, rozpatrywanych z różnych punktów widzenia. Należy zwrócić uwagę, że Taube był logikiem, a nie językoznawcą, i po-mysł ten zaczerpnął z logiki. Problemem tym zajmował się także Calvin Northrup Mooers, uważany za twórcę języka deskryptorowego (Mooers 1963). Podstawowa różnica między deskryptorami Mooersa⁵⁶, stosowanymi w wyszukiwaniu informacji w „Zato-Coding System”, stworzonym przez niego w 1950 roku, a unitermami Tau-bego polega na tym, że słownik deskryptorów powstawał niejako z góry, a priori, był gotowy, zanim przystąpiono do indeksowania dokumentów, natomiast unitermy two-rzyły słownictwo tego języka w miarę indeksowania dokumentów. Można tu dostrzec wyraźną zbieżność z obecnie stosowanymi dwiema odmiennymi metodami budowy języków informacyjno-wyszukiwawczych: metodą dedukcyjną i metodą indukcyjną.

Język unitermowy był budowany metodą indukcyjną, zaś język deskryptorowy meto-dą dedukcyjną. Terminy wprowadzane do słownika czerpano z tytułów, tekstu doku-mentów i przez rozbijanie na poszczególne wyrazy dawnych haseł przedmiotowych.

56 De facto przy deskryptorach Calvina N. Mooersa umieszczane były uwagi dotyczące łączenia danego deskryptora z innymi deskryptorami. Uwagi te ograniczały łączliwość deskryptorów. Można je więc uznać za rodzaj środka gramatycznego.

J.C. Costello uważa, że „unitermy są to hasła, które wyrażają pojedyncze pojęcia (unit concepts). Wszystkie unitermy posiadają tę samą rangę hierarchiczną. W sensie logicznym żaden z unitermów nie zajmuje wyższej lub niższej pozycji w stosunku do innych unitermów, jak to ma miejsce w klasyﬁ kacjach hierarchicznych. Pojedynczych unitermów nie zestawiało się też z innymi według wstępnie ustalonej kolejności, jak w przypadku haseł przedmiotowych” (Costello 1961). Jako unitermów można było używać także nazw własnych, nazw geograﬁ cznych, nazw ﬁ rm.

W celu uniknięcia szumu informacyjnego wywoływanego przez niekontrolowane słownictwo, z którego nie usunięto wieloznaczności powodowanej przez synonimię, quasi-synonimię czy homonimię, indeksatorzy stosowali rejestrowanie niektórych re-lacji zachodzących między unitermami na odwrocie karty unitermowej lub w słowni-ku unitermów⁵⁷. Powstawały więc słowniki unitermów zawierające odsyłacze „zob.”

i „zob. też”. Środki te miały służyć do kontroli słownictwa. Charakterystyczną cechą pierwszych słowników unitermów i deskryptorów⁵⁸ było to, że opracowywano je prze-ważnie dla jednego ośrodka. Opublikowane słowniki miały służyć jedynie jako pomoc i wzór dla innych ośrodków, natomiast nie zalecano ich bezpośredniego wykorzystania.

Istotny wpływ na pomysł indeksowania współrzędnego i koncepcję języka uni-termowego M. Taubego wywarła praca Vannevara Busha As we may think, w której dowodzi, że myślenie ludzkie nie odbywa się według schematu klasyﬁ kacji, lecz „it oparates by association” i może ono posłużyć jako model zapamiętywania (przecho-wywania) informacji i jej wyszukiwania (Bush 1945). Taube wyobrażał sobie, że do-starcza indeksującemu pomoc w postaci „manual dictionary of associations”, który nie wyjaśnia słowa, jak leksykon, lecz podporządkowuje wszystkie pokrewne sło-wa jednemu słowu na potrzeby systemu informacyjno-wyszukisło-wawczego określonej dziedziny wiedzy (Taube 1955). Wykorzystanie takiego słownika zawierającego sko-jarzenia pojęć okazało się bardzo przydatne w procesach wyszukiwania informacji.

Język unitermowy stanowi odmianę języka słów kluczowych. Najważniejszą jego cechą jest możliwość tworzenia dużej liczby zdań języka ze stosunkowo małej liczby elementarnych jednostek leksykalnych (unitermów). Wadą języków uniter-mowych jest większe niż w innych językach informacyjnych prawdopodobieństwo występowania fałszywych koordynacji unitermów, będących przyczyną szumu in-formacyjnego (Costello 1961). Prawdopodobnie była to zasadnicza przyczyna rezyg-nacji ze stosowania tych języków, tak bardzo popularnych w latach pięćdziesiątych XX wieku⁵⁹. Wyparły je stopniowo języki słów kluczowych i języki deskryptorowe,

57 Na oznaczenie relacji zachodzących między jednostkami leksykalnymi języków unitermowych używano najczęściej tylko odsyłaczy typu „zob.” i „zob. też”. Dla niektórych terminów rejestrowano nawet zależności hierarchiczne. Konsekwencją takiego podejścia było stopniowe zanikanie w USA różnic pomiędzy terminami „deskryptor”, „uniterm”, „słowo kluczowe”, stąd często są one stosowane zamiennie.

Najczęściej w piśmiennictwie amerykańskim na określenie deskryptora lub unitermu obecnie używa się nazwy „keyword” = słowo kluczowe lub „term” (termin).

58 Deskryptor – w literaturze zachodniej jest stosowany na oznaczenie jednostek leksykalnych pa-ranaturalnych języków informacyjno-wyszukiwawczych, w przeciwieństwie do języków o słownictwie sztucznym (symbole).

59 Obecnie języki unitermowe są używane bardzo rzadko. Były one jednak wielkim wydarzeniem w historii języków informacyjno-wyszukiwawczych. Obok deskryptorów Mooersa, które pojawiły się

w których zmalało prawdopodobieństwo występowania fałszywych koordynacji, dzięki wprowadzeniu wyrażeń wielowyrazowych jako elementarnych jednostek lek-sykalnych tych języków oraz takich środków gramatycznych jak wskaźniki więzi i wskaźniki roli.

Widać wyraźnie, że język unitermowy podlegał rozwojowi w kierunku języka słów kluczowych. Narodziny języka słów kluczowych wiążą się z odejściem już na początku lat pięćdziesiątych XX wieku od systemu UNITERM, związanym z zaak-ceptowaniem możliwości prekoordynacji słów kluczowych.

2.1.2. Historia języka słów kluczowych

Przy założeniu, że języki unitermowe są wczesną odmianą języków słów kluczowych, za datę narodzin języków słów kluczowych można przyjąć początek lat pięćdziesią-tych XX wieku, kiedy to opracowano język dla systemu UNITERM. Warto zwrócić uwagę na cechy „pierwotnej” odmiany języka słów kluczowych: prosta struktura za-równo na osi paradygmatycznej, jak i syntagmatycznej, przeważnie jednowyrazowe, uporządkowane alfabetycznie wyrażenia zaczerpnięte z języka naturalnego, brak spe-cyﬁ kacji relacji hierarchicznych i kojarzeniowych w słowniku, brak kontroli słowni-ctwa. W istocie jest to „czysty”, „klasyczny” język swobodnych słów kluczowych. To właśnie od takiej postaci języka słów kluczowych wszystko się zaczęło.

Charakterystyka treści dokumentu – identycznie jak w języku unitermów – ma postać ciągu już nie unitermów, lecz słów kluczowych wymienionych w dowolnej kolejności, których znaczenie w sumie odzwierciedla treść dokumentu. Na wzór uni-termów języki słów kluczowych zachowały jako formę dla elementarnych jednostek leksykalnych wyrażenia równokształtne z wyrażeniami języka naturalnego. Również w tym kierunku zmierzały języki deskryptorowe, w tym powstałe w 1950 roku de-skryptory Mooersa. Słowa kluczowe stały się tu tworzywem deskryptorów – termi-nów ustalonych jako obowiązujące dla oznaczania przedmiotów dokumentów (kodo-wania) w ich charakterystyce wyszukiwawczej i w procesie wyszukiwania informacji o tych dokumentach. Język słów kluczowych rozwinął się więc z języka unitermowe-go, który jest uważany za pierwowzór języka słów kluczowych (Chu 2003).

Tak więc języki słów kluczowych:

– mają ten sam rodowód co języki haseł przedmiotowych/hasła przedmiotowe;

– były modelowane na językach haseł przedmiotowych (Ćwiekowa 1988);

w 1950 roku, dały początek indeksowaniu współrzędnemu. Były one stosowane przeważnie w systemach opartych na tzw. małej mechanizacji. Podstawę ich realizacji stanowiły kartoteki unitermowe. To zaważyło na fakcie, że języki te kojarzy się i omawia przy okazji prezentacji kartoteki unitermowej. Zwykle nie zauważa się, że języki unitermowe mogą być, i są, stosowane także w systemach zautomatyzowanych.

Przykładem jest wykorzystanie tego języka w systemie informacyjno-wyszukiwawczym patentów ame-rykańskich Uniterm System to US Patents.

– są odrębne od języków deskryptorowych i języków haseł przedmiotowych, bo róż-nią się od nich strukturą⁶⁰.

W literaturze przedmiotu sposób narodzin języka słów kluczowych nie jest tak oczywisty. Do końca nie wiadomo, czy unitermy stanowiły etap w rozwoju tego ję-zyka, czy były swoistego rodzaju „odpryskiem” w jego rozwoju. Niewątpliwie po-czątek językom słów kluczowych dały swobodne słowa kluczowe.

W dokumencie KLUCZOWE SŁOWA (Stron 79-84)