• Nie Znaleziono Wyników

Wnioski z przeprowadzonych analiz

W dokumencie Za oryginałem zostały pominięte strony (Stron 186-192)

DIALEKTY POLSKIE Dialekty polskie

B. PREPARATION AND PROCESSING chemical synthesis

3.1.4. Wnioski z przeprowadzonych analiz

Z dotychczasowych rozważań w tej części rozprawy można wysnuć wniosek, że w obecnie stosowanych językach słów kluczowych w praktyce najczęściej rezygnuje się z metodologicznego postulatu czystego języka słów kluczowych w wersji klasycznej na rzecz różnych odmian języka słów kluczowych, odbiegających od modelu klasycznego, ale za to bardziej odpowiadających potrzebom jego użytkowników. Języki takie nazwałem nieklasycznymi językami słów kluczowych.

Str. 160

Dokonana analiza rzuciła trochę więcej światła na istniejące realizacje języka słów

kluczowych. Wynika z niej, że w systemach informacyjno-wyszukiwawczych stosowane są

dwa warianty języków słów kluczowych:

1. język słów kluczowych z zerową normalizacją słów kluczowych języka naturalnego, a więc używanie do indeksowania dokumentów wyrażeń i związków wyrazowych języka naturalnego;

2. język słów kluczowych o dużym stopniu formalizacji, tj. z ujednoliceniem i normalizacją słów kluczowych języka naturalnego.

Należy zauważyć, że niektóre języki słów kluczowych zostały wzbogacone o pewne cechy innych typów języków informacyjno-wyszukiwawczych. Dotychczasowe rozważania

prowadzą więc do stwierdzenia, że stosowanych w Internecie słów kluczowych nie można wrzucać do jednego worka, gdyż mogą to być zarówno wyrażenia języka naturalnego w funkcji metainformacyjnej, jak i jednostki leksykalne sztucznego języka słów kluczowych.

Różnice między poszczególnymi językami słów kluczowych wynikają przede wszystkim z:

1. przyjętego sposobu wyboru wyrażeń ze słownictwa języka naturalnego, co sprowadza się do wprowadzenia do jednego języka słów kluczowych wyrażeń pomijanych w innym języku słów kluczowych;

2. stosowania właściwych tylko dla danego języka zaleceń metodycznych określających m.in. zasady gramatyczne i pragmatyczne dotyczące budowy ze słów kluczowych zdań i tekstów (tworzenie charakterystyk i instrukcji wyszukiwawczych).

Wobec bogactwa języka naturalnego decyzja o reprezentowaniu przez daną nazwę treści dokumentów wymaga rozpatrzenia jej zakresu oraz zakresów nazw z jej bliskiego

otoczenia semantycznego.

Analiza struktury wybranych słowników słów kluczowych ujawniła, że w języku słów kluczowych relacja ekwiwalencji (odpowiedniości) wyszukiwawczej jest najczęściej ustanawiana w następujących przypadkach:

1. różnych form ortograficznych;

2. różnych form gramatycznych;

3. wyrażeń archaicznych i wyrażeń używanych współcześnie;

4. antonimów i wyrażeń komplementarnych;

5. form inwersyjnych;

6. wyrażeń wieloelementowych, których drugi lub kolejny element może być używany przez użytkowników w wyszukiwaniu;

7. synonimii i quasi-synonimii, w tym wyrażeń o różnej etymologii i należących do różnych podsystemów (specjalistyczny, żargonowy, gwarowy, potoczny) języka;

8. zapożyczeń;

9. gdy wyrażenie reprezentuje pewną całość lub rodzaj (klasę nadrzędną), a wyrażenie

języka naturalnego – część tej całości lub gatunek (klasę podrzędną);

10. gdy duża część komponentów semantycznych wyrażenia języka naturalnego jest identyczna z konotacją przyjętą dla wyrażenia języka informacyjno-wyszukiwawczego.

Str. 161

Zasygnalizowane „możliwości” relacji ekwiwalencji wyszukiwawczej świadczą o tym, że w praktyce jest ona bardzo zróżnicowana. Próbując zdefiniować ten związek, można

stwierdzić jedynie, że jest on spełniony wtedy i tylko wtedy, gdy iloczyny denotacji i iloczyny konotacji elementów relacji nie są zbiorami pustymi. Różna jest też użyteczność tych przypadków odpowiedniości. Większość z nich redukuje bogactwo języka naturalnego do potrzeb klasycznego języka słów kluczowych. Dotyczy to w szczególności aktualnie używanej leksyki.

Za pomocą podanych przykładów starałem się pokazać naturę słowników słów

kluczowych i ich funkcje w zautomatyzowanych systemach wyszukiwania informacji, a przede wszystkim wagę i znaczenie specyfikowanych relacji odpowiedniości (szerzej:

przejścia z języka naturalnego na język słów kluczowych) dla procesów indeksowania i wyszukiwania informacji. Analiza ujawniła stopniowe komplikowanie się struktur słowników tych języków. Wnioski z obserwacji zachowań użytkowników samodzielnie szukających informacji są tak samo ważne.

Spojrzenie na implementowane języki słów kluczowych pod kątem ich struktury i funkcji pozwala stwierdzić, że przeważnie mamy do czynienia z klasycznymi językami słów kluczowych, ale występują również struktury „wzbogacone”, tj. z rozbudowaną

paradygmatyką (rozszerzenie repertuaru relacji paradygmatycznych, elementy fasetyzacji, struktura gniazdowa), co czyni te języki nieklasycznymi. Dzięki temu stają się one

lingwistycznym narzędziem o znacznie większych możliwościach niż klasyczne języki słów kluczowych, a zarazem są bardziej dostosowane do potrzeb ich rzeczywistych

użytkowników oraz specyfiki danej dziedziny.

Rola języków słów kluczowych w systemach hipertekstowych polega na wykorzystywaniu ich leksyki do identyfikacji i organizacji węzłów hipertekstowych pełniących funkcje

wyszukiwawcze. Węzłem są najczęściej jednoelementowe wyrażenia języka naturalnego, reprezentujące wymiar treści dokumentów. Organizacja punktów dostępu za pomocą słów kluczowych przyjmuje formę prostych struktur w postaci alfabetycznych wykazów słów kluczowych. Do budowy tych struktur wykorzystuje się słowniki słów kluczowych jako źródło leksyki dla nazw kategorii tematycznych.

Podział pola tematycznego na pierwszym poziomie (w większości języków słów

kluczowych jest to jedyny poziom) wyznacza tzw. elokwencję całej struktury, sposób i

„filozofię” traktowania całej rzeczywistości dokumentacyjnej – w językach słów kluczowych jest to wieloaspektowe i nieostre traktowanie jej elementów także jako nakładających się na siebie. Dzięki wykorzystywaniu relacji kojarzeniowych w organizacji leksyki tych języków, powstałe w ich wyniku struktury mogą być traktowane jako sieć o

niespecyfikowanych relacjach kojarzeniowych między słowami kluczowymi. Jest to bardzo użyteczne w procesach wyszukiwania informacji, gdyż pozwala rozszerzyć możliwości przeglądania całej struktury, a więc wyznacza dodatkowe możliwości wyszukiwawcze i umożliwia „przypadkowe” odkrywanie informacji (ang. serendipity). W zasadzie pomiędzy słowami kluczowymi występują niespecyfikowane relacje tematyczne. Mają one słabą siłę semantyczną i są tylko zakresowe. Sieć niespecyfikowanych relacji kojarzeniowych

umożliwia stworzenie odpowiedniej matrycy ścieżek dla użytkownika systemu informacyjno-wyszukiwawczego.

Str. 162

Jest to podejście indukcyjne, na zasadzie literary warrant.

Poddane analizie słowniki słów kluczowych to struktury przeważnie ahierarchiczne, a zatem i równoważnościowe struktury monorelacyjne. Jako takie dają możliwość tworzenia indeksów rzeczowych, formalnych i mieszanych. Tego typu indeksy mają formę

alfabetycznych wykazów jednego rodzaju wyrażeń. Zwykle jest to alfabetyczny wykaz słów kluczowych. Takie indeksy zawierają również jednostki leksykalne w postaci nazw

własnych: osobowe, korporatywne oraz geograficzne. Dla tej grupy słów kluczowych zwykle stosuje się odrębną metodę kontroli słownictwa, którą stanowią kartoteki wzorcowe normalizujące formy językowe, na przykład nazw języków etnicznych. Specyfika takich narzędzi kontrolnych zakłada wykorzystanie równoważnościowych struktur organizujących zbiór informacyjny. Tym samym porządek wyrażeń pełniących funkcje wyszukiwawcze ma charakter formalny i wykorzystuje układ alfabetyczny. Wykorzystanie języka słów

kluczowych w dostępie do zbioru polega na traktowaniu jego słownika przede wszystkim jako źródła słownictwa w procesie automatycznego wyboru nazw dla punktów dostępu.

Tego typu narzędzia opierają się na generowaniu konstrukcji pola semantycznego, która pełni funkcję swoistego rodzaju mapy konceptualnej, dającej użytkownikowi możliwość wglądu w dystrybucję tematów w obiektach informacyjnych kolekcji. Konstrukcje

ahierarchiczne (płaskie) są ubogie, gdyż charakterystyka dokumentu jest

przyporządkowywana w nich tylko do alfabetycznego indeksu słów kluczowych, w którym porządek słów kluczowych ma formę alfabetyczną, a nie logiczną. Brak podziału

logicznego (rozłącznego i adekwatnego) powoduje sytuację, w której na tym samym poziomie wyodrębnia się elementy treści o różnym stopniu szczegółowości, co powoduje pewnego rodzaju niespójność systemu leksykalnego języka słów kluczowych.

Prezentacja słów kluczowych w porządku alfabetycznym nie dostarcza wprawdzie złożonych zależności semantycznych, jednak siłą tego narzędzia jest możliwość

dynamicznego modyfikowania zakresu pytania informacyjnego poprzez wykorzystanie do łączenia jednostek leksykalnych algebry Boole’a. Należy tu jeszcze wspomnieć o

możliwości wariantu hybrydowego, w którym nie występują określone zależności strukturalne. Jego podstawową zaletą jest duża elastyczność, która jest rezultatem wielowymiarowej strukturalizacji pola semantycznego języka słów kluczowych. Oparcie punktów dostępu na fasetowym modelu organizacji wiedzy stanowi w tym języku jednak pewnego rodzaju novum.

Wprowadzanie do list słów kluczowych oraz indeksów coraz to nowych słów na podstawie terminów używanych „chwilowo” przez autorów, a nawet w pewnych okresach

rozpowszechnionych, ułatwia wprawdzie doraźne poszukiwania, równocześnie jednak staje się źródłem synonimów, jak również homonimów pochodzących stąd, że różni autorzy używają tych samych wyrażeń w różnych znaczeniach. Ważnym problemem jest ponadto uogólnianie bądź wyszczególnianie; słowa wyszczególniające ułatwiają często przydział, utrudniają jednak poszukiwania prac syntetyzujących.

Omówione w tym rozdziale wyniki przeprowadzonej analizy języków słów kluczowych potwierdzają szeroki (i znaczenie szerszy niż w innych językach) oraz coraz bardziej wzrastający stopień uwzględniania w tych językach relacji kojarzeniowych.

Str. 163

Przejawem tej tendencji są występujące w językach słów kluczowych struktury oparte wyłącznie na relacjach kojarzeniowych. „Stopień, rzetelność i umiejętność korzystania z tego typu metadanych – jak twierdzi B. Sosińska-Kalata – najczęściej pozostawia jednak wiele do życzenia, toteż w praktyce większość systemów indeksujących ignoruje je, poddając analizie statystycznej tekst dokumentu” (przypis 166 Sosińska-Kalata 2004, s.

89).

Analiza pozwoliła zauważyć pewien wpływ innych paranaturalnych języków na języki słów kluczowych, na przykład w niektórych słownikach słów kluczowych stosuje się obecnie model organizacyjny tezaurusa, w innych rozwinięto zasady kontroli słownictwa stosowane w języku haseł przedmiotowych, a w jeszcze innych – w semantycznej organizacji leksyki wykorzystano koncepcje języków klasyfikacyjnych, szczególnie klasyfikacji fasetowej.

Budowa i zastosowanie struktur językowych konkretnych języków słów kluczowych jako narzędzia organizacji i dostępu do zbiorów jest złożonym problemem, wymagającym odrębnych badań. Moim zamiarem było tylko wskazanie najważniejszych sposobów wykorzystania języków słów kluczowych w różnych typach systemów wyszukiwania informacji, zaś głównym celem rozważań była identyfikacja tych elementów, które określają tożsamość języków słów kluczowych.

Niewątpliwie jedną z charakterystycznych cech rozwoju języków słów kluczowych jest doskonalenie semantycznej organizacji ich słownictwa. W tym celu wykorzystuje się przede wszystkim metody organizacji fasetowej słownictwa oraz rozszerza repertuar relacji kojarzeniowych. Słowniki słów kluczowych coraz częściej stają się elementem interfejsu użytkownika oraz narzędziem nawigowania po jego zasobach. Prezentacja słownictwa w postaci alfabetycznego wykazu słów kluczowych ma istotne znaczenie dla zastosowań języka słów kluczowych. Skonstruowane i wdrażane w ostatnich latach indeksy słów kluczowych przybierają różne formy, ujawniając dwa podstawowe typy relacji między słowami kluczowymi, jakimi są ekwiwalencja wyszukiwawcza oraz relacje

kojarzeniowe. Są też kategorialne listy słów kluczowych, z reguły uporządkowane

alfabetycznie. Jednak coraz częściej indeksy słów kluczowych – podobnie jak tezaurusy – przystosowywane są do nowych funkcji, które bardziej wiążą je z wyszukiwaniem niż indeksowaniem dokumentów. W przypadku realizacji funkcji wyszukiwawczych

eksponowana jest przede wszystkim ich funkcja słownika pojęciowego, ułatwiającego identyfikację form wyrażeń najlepiej reprezentujących pojęcia i tematy stanowiące przedmiot wyszukiwania informacji. W tego rodzaju zastosowaniach słowników/zbiorów słów kluczowych zanika koronna dotąd funkcja normatywna i przekładowa oraz traci sens zróżnicowanie statusu słowa kluczowego i wyrażenia języka naturalnego. Wszystkie słowa kluczowe mogą być użyte w wyszukiwaniu. Dzięki relacji ekwiwalencji lub synonimii

wyszukiwawczej użytkownik jest informowany o tym, że znaczenie niektórych z nich może być reprezentowane także przez inne wyrażenie/formę językową. Słowniki słów

kluczowych w takiej postaci, wykorzystywane do wyszukiwania informacji, stają się bliskie lub niemal identyczne z alfabetycznym wykazem form nominatywnych słów/wyrażeń języka naturalnego, a w szczególności alfabetycznym wykazem terminów, odbiegając, a właściwie wracając do ukształtowanego w wyszukiwaniu informacji, bazującego na języku unitermów, modelu słownika słów kluczowych.

Str. 164

Analiza stosowanych w Internecie słów kluczowych potwierdza tezę, że nie są one aż tak

mocno obciążone tradycją jak inne języki paranaturalne (języki haseł przedmiotowych i języki deskryptorowe). Należałoby zastanowić się, czy dokument-obiekt fizyczny należy dalej uważać za optymalną jednostkę opisu i wyszukiwania. Obecnie w rzeczywistości bibliotek cyfrowych stają się dostępne fragmenty, porcje treści, z których część na pewno jest warta zaopatrzenia we własną identyfikację metadanową z wykorzystaniem języka słów kluczowych.

Szczegółowa leksyka nieklasycznych języków słów kluczowych, a w konsekwencji stałe zwiększanie rozmiarów ich słowników, często znacznie przekraczających zasób

aktywnego słownika przeciętnego użytkownika języka i jego możliwości akwizycji

informacji, oraz częsta ingerencja w denotację i konotację wyrażeń języka naturalnego jest zabiegiem nietrafnym i mało skutecznym, gdyż nie prowadzi do poprawy relewancji, lecz przeciwnie – do zwiększenia szumu informacyjnego i powstawania ciszy informacyjnej. W tej sytuacji ogromne koszty budowy takich słowników (a także indeksowania w takich językach) są niewspółmierne do efektów, gdyż część słownictwa nie jest i nie będzie wykorzystywana.

Ten nurt działań praktycznych i teoretycznych jest zbieżny z pracami nad innymi

tradycyjnymi językami informacyjno-wyszukiwawczymi, gdyż języki te próbowano rozwijać tak samo jak pozostałe. Jest on przejawem wiary w możliwość stworzenia kontrolowanego i sterowalnego komputerowego systemu wyszukiwania informacji. Nie dostrzega się jednak niebezpieczeństwa, jakie stanowi fakt, że tego typu systemy na skutek niekontrolowanego wzrostu stają się niesterowalne i zgodnie z teorią chaosu przekształcają się w systemy samoregulujące, których działanie nie zawsze jest podporządkowane przede wszystkim potrzebom użytkowników i ich możliwościom percepcyjnym.

Pomocnym narzędziem staje się tu Internet, gdzie wykorzystuje się swobodne słowa kluczowe jako wyrażenia języka naturalnego w funkcji informacyjnej, których nie trzeba specjalnie tworzyć oraz współrzędne indeksowanie i wyszukiwanie informacji. Jest to lingwistyczne narzędzie, którym od dawna już się posługujemy. Dzięki Internetowi języki te wracają do swej pierwotnej, klasycznej formuły.

W dokumencie Za oryginałem zostały pominięte strony (Stron 186-192)