Inżynieria języka naturalnego na potrzeby języka słów kluczowych 1. Język słów kluczowych a język naturalny

Nawiązując do swoich wcześniejszych publikacji (przypis 129 Babik 1996b, 2007 ) i rozważań w rozdziale 1.4.3.3, gdzie stwierdziłem, że języki słów kluczowych stanowią przykład wykorzystania słownictwa języków naturalnych do wyszukiwania informacji [przypis 91], uważam, że nie oznacza to pełnego wykorzystania języków naturalnych jako języków informacyjno-wyszukiwawczych. Ta na pozór błaha różnica między tymi dwoma sformułowaniami, wynikająca z „przeznaczeniowej” definicji języka

wyszukiwawczego, uwzględniającej ich funkcje w systemie

informacyjno-wyszukiwawczym, do tej pory często jest przyczyną nieporozumień oraz niepowodzeń w procesie organizacji słownictwa tych języków. Z definicji „przeznaczeniowej” wynika, że w sensie funkcjonalnym język ten służy do przedstawiania istotnych elementów treści dokumentu w celu umożliwienia ich powtórnej identyfikacji w zbiorze informacyjnym w wyszukiwaniu informacji tylko tych opisów dokumentów, które odpowiadają na pytanie użytkownika, tzn. których charakterystyka wyszukiwawcza pokrywa się z instrukcją wyszukiwawczą.

W celu automatyzacji pewnych reguł użycia języka, musimy przyjąć, że jego użycie polega na operowaniu kształtami wyrażeń, stąd niezbędna jest ich formalizacja, ponieważ w systemie informacyjno-wyszukiwawczym operacje są wykonywane na tekstach języka naturalnego, w którym tworzone są dokumenty oraz używanego w systemie języka informacyjno-wyszukiwawczego.

Str. 107

Automatyzacja dotyczy stosowania reguł słownikowych, formowania i jednoznacznego przekształcania wyrażeń bez konieczności rozumienia treści samych wyrażeń. Może ona dokonywać się tylko wtedy, gdy reguły użycia języka są operacjami na kształtach wyrażeń.

Dzięki temu takie operacje nie stwarzają trudności interpretacyjnych. W

zautomatyzowanym systemie informacyjno-wyszukiwawczym następuje więc rejestracja kształtu wyrażenia, a nie utrwalanie oznaczeń i porcji wiedzy. Komputer nie rozumie wyrażeń. Jest zdolny tylko rozróżniać ich kształty (ciągi znaków) i operować nimi. Logicy

uważają, że języki naturalne, a zwłaszcza język potoczny, nie nadają się do formalizacji, gdyż nie można ściśle opisać ich składni bez odwoływania się do treści, co oznacza, że w tym przypadku nie jest możliwa ścisła odpowiedniość między operacjami na kształtach wyrażeń a operacjami na znaczeniach.

Autorzy języków słów kluczowych nakładają na język naturalny szereg ograniczeń w celu niezbędnej formalizacji tego języka. Tworzywo, którym jest słownictwo języka naturalnego, daje w języku słów kluczowych wiele możliwości wyrażania treści dokumentów (przypis 130 Bojar 2006 ). Tak też można postrzegać fakt funkcjonowania w Polsce i na świecie wielu języków słów kluczowych. W obrębie jednego języka słów kluczowych zasady doboru leksyki oraz formułowania słów kluczowych winny stanowić spójny system, natomiast nie musi zachodzić pełna, prosta i łatwa przekładalność między słowami kluczowymi różnych języków słów kluczowych, jeżeli takiej kompatybilności z góry nie założono [przypis 92]. Najistotniejsza różnica między językiem naturalnym a językiem słów kluczowych tkwi w regułach semantycznych, tj. w semantyce tych języków, a więc w ich planie treści. Zgodnie z regułami semantycznymi dowolnego języka naturalnego słowa oznaczają przypisane im wycinki rzeczywistości. Słowa kluczowe zaś oznaczają zawsze tylko dokumenty omawiające dany wycinek rzeczywistości. Różnice występują również w planie wyrażania.

Języki słów kluczowych w semantycznej strukturze nie odwzorowują bezpośrednio rzeczywistości pozajęzykowej, opisanej w tekstach dokumentów, jak to jest w językach naturalnych, lecz czynią to pośrednio w swoich tekstach (charakterystykach i instrukcjach wyszukiwawczych). Tym samym języki te odwzorowując teksty języków naturalnych, odwzorowują określony podzbiór ich leksyki relewantnej dla użytkowników informacji zawartej w tych tekstach. „Tak jak każdy język naturalny nakłada inną siatkę semantyczną na rzeczywistość pozatekstową, tak każdy język informacyjno-wyszukiwawczy nakłada na całe uniwersum dokumentacyjne swoją własną strukturę, zależną przede wszystkim od przewidywanych potrzeb informacyjnych użytkowników” (przypis 131 Bojar 2006, s. 7 ).

Mimo wspomnianej redukcji pozostaje jednak podobieństwo języka słów kluczowych do języka naturalnego, dlatego słusznie te języki są zaliczane do klasy języków

paranaturalnych.

Str. 108

Język informacyjno-wyszukiwawczy opisuje nie bezpośrednio obiekty (elementy

uniwersum), lecz dokumenty traktujące o tych obiektach, stąd przy projektowaniu słownika tego języka i wprowadzaniu zmian bierze się pod uwagę nie tylko samo istnienie danych

terminów, ale także ich występowanie w dokumentach (ang. literary warrant). Terminy mogą istnieć w języku naukowym, technicznym, potocznym, ale mogą nie być używane w dokumentach, gdyż są nazwami obiektów, o których nie pisze się dostatecznie często.

Języki słów kluczowych bazują na języku naturalnym w jego różnych odmianach

etnicznych, ale też na językach sztucznych, jak na przykład języku chemii czy matematyki, co stwarza dodatkowe problemy generowane przez języki bazowe, m.in. dotyczące

odpowiedniej dla danego języka naturalnego (na przykład języka angielskiego) kategoryzacji rzeczywistości. Każdy z języków naturalnych przeprowadza odmienną kategoryzację rzeczywistości.

Dane wyrażenie staje się jednostką leksykalną języka słów kluczowych, zwaną słowem kluczowym, wtedy, gdy jest wyjęte z tekstu dokumentu i zaczyna reprezentować cały tekst, a nie tylko jakiś element rzeczywistości w tekście. Koncepcja izolowania z kontekstu słów kluczowych pochodzi od H.P. Luhna, o czym już wspominałem w rozdziale 2.1.1.

W języku słów kluczowych unika się używania jako słów kluczowych na oznaczenie elementów treści dokumentów wyrażeń typu „badanie”, „zastosowanie” czy „nauczanie”.

Są to wyrażenia, które w innych typach języków paranaturalnych pełnią funkcje wyrażeń aspektowych (pomocniczych), jak na przykład w Języku Haseł Przedmiotowych Biblioteki Narodowej. Próby traktowania tego typu wyrażeń jako słowa kluczowe zwykle generują niepotrzebny szum informacyjny, na przykład interpretacja zdania w języku słów

kluczowych „Finanse. Badania” ujawnia niejednoznaczność tej konstrukcji, gdyż nie wiadomo, czy chodzi o badania nad finansami, czy o wpływ finansów na badania.

Języki słów kluczowych operują słowami kluczowymi o różnym stopniu szczegółowości.

Ma to swoje konsekwencje w postaci mnożenia jednostek leksykalnych w zdaniach tego języka, na przykład ciąg słów kluczowych stanowiący tekst w języku słów kluczowych opisujący dokument x, można zastąpić istniejącym w tym języku słowem kluczowym y.

Szczegółowość słów kluczowych w języku słów kluczowych powoduje zwiększenie ich liczby w zdaniu/tekście. Chociaż w niektórych nieklasycznych językach słów kluczowych wprowadza się w roli słów kluczowych wyrażenia opisowe, na przykład: „Białka w żywieniu człowieka”, to w klasycznym języku słów kluczowych słowami kluczowymi mogą być tylko wyrażenia proste typu: „Białko”, „Białko spożywcze”.

Granica między językiem słów kluczowych a językiem naturalnym ujawnia się w momencie tworzenia metainformacyjnych reprezentacji dokumentów, czyli w procesie indeksowania.

Jest to ciąg następujących transformacji informacyjnych: analiza, selekcja i tłumaczenie.

Analizowane są dokumenty, a przede wszystkim zawarte w nich informacje. Rezultatem tego procesu jest metainformacja, która stanowi reprezentację informacji zawartej w

tekście dokumentu, wyrażona w języku naturalnym, choć nie zawsze w tym samym języku co dokument oraz informacja o samym dokumencie.

Str. 109

W ostatnim kroku indeksowania, którym jest przekład na język danego systemu, wyselekcjonowane metainformacje są wyrażane za pomocą środków leksykalnych i gramatycznych, którymi dysponuje ten język. W naszym przypadku mają postać słów kluczowych.

Zbiór wyrażeń języka naturalnego, który stanowi tworzywo dla języka słów kluczowych, jest dla potrzeb tych języków poddawany odpowiednim zabiegom językowym, co powoduje, że języki słów kluczowych istnieją w wielu odmianach. Bazę wyjściową dla wszystkich tych języków stanowi język naturalny w odpowiedniej wersji etnicznej, na przykład język polski w jego współczesnej postaci. Języki słów kluczowych stanowią przykład obróbki tworzywa, jakim jest język naturalny i jego słownictwo, na potrzeby języka systemów wyszukiwania informacji o dokumentach.

2.4.2. Koncepcja wielofunkcyjnych słowników otwartych

Jak już sygnalizowałem w pierwszej części rozprawy, w języku słów kluczowych w znacznym stopniu – chociaż nie aż w takim, jak w języku deskryptorowym – występuje zbliżenie systemu leksykalnego tego języka do systemu terminologicznego. Następuje transformacja tego systemu w system/sieć leksykalną języka słów kluczowych.

W przypadku systemów specjalistycznych ważne okazuje się słownictwo języka naturalnego w jego odmianie specjalistycznej, w formie terminologii danej dziedziny

wiedzy, nauki lub techniki. Jest faktem, że specjaliści z danej dziedziny, formułując pytania kierowane do systemu, posługują się przede wszystkim terminologią funkcjonującą w ich dziedzinie. Praktyka ta – zresztą zauważona już wcześniej – znalazła wyraz m.in. w nazwie elementarnych jednostek leksykalnych, na których oznaczenie używa się również nazw „termin”, „termin wyszukiwawczy”.

Skoro użytkownicy specjalistycznych systemów informacyjno-wyszukiwawczych posługują się przy formułowaniu pytań informacyjnych, bardziej lub mniej świadomie, terminologią danej dziedziny zawartą w tekstach dokumentów oraz słownikach terminologicznych stanowiących odwzorowanie systemów terminologicznych, powstaje pytanie, czy nie można wykorzystać słowników terminologicznych w wyszukiwaniu informacji lub budować słowników terminologicznych, które pełniłyby jednocześnie funkcje słowników języka

informacyjno-wyszukiwawczego. Takie wielofunkcyjne narzędzia wyeliminowałyby dodatkowe sięganie podczas wyszukiwania informacji do tradycyjnych słowników terminologicznych.

Ogólną koncepcję budowy takich słowników przedstawiłem w jednej z moich publikacji (przypis 132 Babik 1995 ). Opiera się ona na wzbogaceniu zakresu wykorzystania tradycyjnych słowników terminologicznych języka naturalnego o funkcje pełnione przez słowniki języków informacyjno-wyszukiwawczych. Jako element języka i składnik systemu takie słowniki pełniłyby następujące funkcje:

1. informacyjną (normatywną, wyjaśniającą), związaną ze wspomaganiem procesu tworzenia tekstów dokumentów źródłowych w języku naturalnym;

2. przekładową, związaną z wyrażaniem potrzeb informacyjnych w odpowiednim specjalistycznym języku;

3. metainformacyjną, związaną z tworzeniem opisów dokumentów dla systemów informacji (CHWD);

4. wyszukiwawczą, związaną z funkcjonowaniem systemu wyszukiwania informacji, tworzeniem instrukcji wyszukiwawczych (IWZ).

Str. 110

Budowa takich wielofunkcyjnych słowników wymagałaby rozwiązania szeregu problemów teoretycznych i praktycznych (metodycznych), związanych przede wszystkim z

niezbędnymi dla rozszerzonego zestawu funkcji takich słowników środkami i metodami definiowania terminów.

Wynikająca z różnych potrzeb użytkowników koncepcja pełnienia przez jeden słownik funkcji informacyjnej słowników terminologicznych języka naturalnego oraz funkcji metainformacyjnej i funkcji wyszukiwawczej języka słów kluczowych wymaga odpowiednich środków do niezbędnej formalizacji definiowania terminów, co w

konsekwencji prowadzi do postawienia pytania o przedmiot i formę definicji słownikowej, wystarczającej do realizacji funkcji tych słowników.

Zaletą wielofunkcyjnych słowników terminologicznych z punktu widzenia potrzeb języka słów kluczowych byłoby zdjęcie z użytkownika obowiązku szczegółowej znajomości systemu, jego zawartości informacyjnej i organizacji. Byłoby to zbieżne z najnowszymi tendencjami w metodologii projektowania systemów informacyjno-wyszukiwawczych oraz z możliwością oddzielnego projektowania poszczególnych modułów systemów informacji.

Słowniki te odwzorowywałyby systemy terminologiczne poszczególnych dziedzin, a więc podawałyby gotowe terminy odpowiednio powiązane z pozostałymi, stanowiąc spójny

system terminologiczny. Stanowiłyby jednocześnie system leksykalny języka słów kluczowych.

Ten typ wielofunkcyjnych słowników stanowi nową, dość precyzyjnie określoną formę organizacji i prezentacji słownictwa języka słów kluczowych, a więc terminologii w jej funkcji metainformacyjnej (reprezentacji treści dokumentów), informacyjnej i

wyszukiwawczej, a jednocześnie pomoc w indeksowaniu i wyszukiwaniu informacji.

Wyspecjalizowane funkcje słowników języka słów kluczowych (metainformacyjna i

wyszukiwawcza) wymuszają wypracowanie bardziej sformalizowanego, niż w tradycyjnych słownikach terminologicznych, aparatu definicyjnego jednostek leksykalnych (terminów) tych języków, dostosowanego także do komputerowego przetwarzania informacji.

Formalizacja i stosowane środki normalizacji słów kluczowych nie ograniczają

przydatności tych słowników do pełnienia funkcji informacyjnej, właściwej tradycyjnym słownikom terminologicznym. Słownik terminologiczny mógłby pełnić funkcje słownika słów kluczowych przy założeniu, że zebrane w nim słownictwo stanowić będzie klasę otwartą, to znaczy, że może być ono ciągle uzupełniane o nowe terminy.

Pomysł budowy wielofunkcyjnych słowników terminologicznych, to jest słowników pełniących jednocześnie funkcje: informacyjną, metainformacyjną i wyszukiwawczą, wymaga oparcia aparatu definicyjnego tych słowników na konotacyjnej interpretacji znaczenia i wykorzystania najnowszych technologii leksykograficznych.

Str. 111

W dokumencie Za oryginałem zostały pominięte strony (Stron 120-125)