Słowa kluczowe w wyszukiwarkach internetowych

1.2. Słowa kluczowe w systemie WWW

1.2.1. Słowa kluczowe w wyszukiwarkach internetowych

W systemie WWW słowo kluczowe to „słowo lub wyrażenie umieszczane w kodzie HTML strony internetowej w celu jego umieszczenia/zaindeksowania w bazie danych

wyszukiwarki internetowej w odpowiedniej kategorii tematycznej” [przypis 24]. Nie ma więc wątpliwości, że używane w Internecie słowa kluczowe to jednostki leksykalne języka naturalnego, służącego do opisu (funkcja metainformacyjna) i wyszukiwania informacji (funkcja wyszukiwawcza).

Oprócz zdefiniowania, czym jest słowo kluczowe, ważne jest też porównanie słowa kluczowego z wyrażeniami Webu. Element ten jest istotny, zwłaszcza w HEAD, niewidzialnej części języka HTML, a także wśród pozostałych elementów strony

internetowej. Czasem jednak słowa kluczowe bywają źle dobrane, gdyż autorzy stron nie muszą być profesjonalnymi indeksatorami. Generatorami najczęściej używanych przez internautów słów kluczowych są też wyszukiwarki i multiwyszukiwarki. Najbardziej popularne słowa kluczowe w postaci list słów kluczowych prezentują takie wyszukiwarki jak: Altavista, HotBot, Lycos, Sprinks, Yahoo czy Google.

Prosta gramatyka i otwarta postać słownika języka słów kluczowych idealnie pasują do struktury, jaką tworzy światowa pajęczyna. Ideą Internetu jest nieustanny rozrost we wszystkich kierunkach i umożliwienie każdemu dołożenie do niego własnej cząstki. Nie chodzi tu tylko o kwestię rozrostu fizycznego, lecz o zawartość treściową sieci.

Str. 37

Wszyscy mogą być zarówno autorami, jak i odbiorcami dokumentów publikowanych w Internecie.

Język słów kluczowych, przy otwartej strukturze słownika, pozwala na dokładanie wciąż nowych wyrażeń czerpanych ze stale rosnącego zasobu słownictwa języka naturalnego oraz najbogatszego ich źródła – właśnie sieci. Stąd w języku słów kluczowych

indeksowanie dokumentów nawet w takich językach jak arabski czy japoński nie stanowi trudności, ponieważ wyrazy z tych języków są tak samo swobodnie wprowadzane do słownika, jak słowa w języku polskim czy niemieckim.

Aby dane wyrażenie mogło stać się słowem kluczowym, powinno być (powtórzę) z

metainformacyjnego punktu widzenia słowem znaczącym. Opracowanie leksykograficzne słów kluczowych (ujednolicenie ich form gramatycznych) jest ważne w przypadku języków fleksyjnych, a więc także języka polskiego. Nie ma natomiast większego znaczenia dla języków naturalnych bez fleksji, na przykład języka angielskiego.

Dostępne w sieci zbiory słów kluczowych mają postać:

1. słowników tradycyjnych w statycznym formacie tekstowym;

2. słowników w formacie HTML, ale nadal statycznych, bez aktywnych hiperłączy;

3. słowników w formacie HTML dynamicznych, z pełnymi możliwościami nawigowania za pomocą hiperłączy;

4. słowników z zaawansowanym interfejsem graficznym i wizualną prezentacją informacji;

5. słowników w formacie XML.

Niektóre z nich stanowią integralny element systemu informacyjnego, inne mają charakter słowników samoistnych, dostępnych w sieci i możliwych do wykorzystania.

Podstawą doboru słów kluczowych jest wiedza na temat tego, czego szukają internauci i w jaki sposób to czynią, tj. w jaki sposób wpisują pytania w wyszukiwarkach. Najczęściej polega to na wpisywaniu słów i fraz kluczowych, które internautom przychodzą na myśl (skojarzenia mentalne). Słowa kluczowe w sieci, oprócz ich funkcji

oznaczania/identyfikacyjnej, często pełnią – co sygnalizowałem już wcześniej – funkcję promocyjną. W tej drugiej funkcji są jednym z narzędzi promowania serwisu

internetowego, produktów i usług, na przykład bankowych. Dobór słów kluczowych ma na celu dotarcie do właściwej grupy docelowej i konwersję sprzedaży odwiedzających witrynę internetową. W tym celu przy doborze słów kluczowych i fraz kluczowych brane są pod uwagę następujące ich cechy:

1. ogólne słowa kluczowe dają mniejsze prawdopodobieństwo zdobycia klienta;

2. specyficzne, specjalistyczne, niszowe słowa kluczowe generują mniejszy ruch

internetowy;

3. ogólne słowa kluczowe zwiększają koszty pozycjonowania i reklamy; lepsze efekty daje wykorzystywanie tzw. długiego ogona słów kluczowych.

Stworzono już wiele narzędzi przydatnych przy szukaniu słów kluczowych na potrzeby promocji i reklamy w sponsorowanych linkach. Należą do nich m.in.:

1. Google Keyword External Tool – ujawnia konkurencyjność słowa kluczowego i częstotliwość jego wyszukiwania;

2. KeywordDiscovery.com, Keyword Research Tool – narzędzia pobierania słów kluczowych z najważniejszych światowych wyszukiwarek;

3. Google Trends – pokazuje częstotliwość wyszukiwań słów kluczowych w wyszukiwarce Google z uwzględnieniem kryterium geograficznego.

Str. 38

Typowanie kluczowych słów i/lub fraz, którymi posługują się użytkownicy Internetu w czasie wyszukiwania informacji, jest jednym z elementów pozycjonowania. Obecnie na rynku funkcjonuje już szereg programów, jak AdWords, Analytics czy Pay Per Click

Google’a, które oferują niezbędne informacje o tym, które słowa kluczowe są skuteczne, a które nie.

Najpopularniejszym formatem dokumentów występujących w sieci jest HTML. HTML jest językiem, w którego znacznikach umieszczana jest zawartość treściowa dokumentu i który organizuje jego stronę formalną. Pozwala to na umieszczenie w jego strukturze różnej formy dokumentów, czyli grafiki, tekstu, dźwięku i połączenie ich w jeden multimedialny dokument. Kolejną ważną zaletą jest hipertekst, czyli możliwość przenoszenia się poprzez odnośniki do innych dokumentów. Dokumenty pisane w języku HTML przyciągają uwagę użytkownika bogatą i ciekawą oprawą graficzną, co powoduje, że wynik oglądany na ekranie monitora w postaci już gotowej strony znacznie różni się od jego strony źródłowej.

Język HTML jest metajęzykiem pozwalającym opisać również inne rodzaje dokumentów, ustawić poszczególne fragmenty w zgodnym z wolą webmastera porządku, a co

najważniejsze – umożliwić użytkownikowi wyszukanie dokumentu poprzez umieszczenie w nagłówku słów kluczowych.

Słowa kluczowe są bardzo ważnym elementem systemu WWW jako całości oraz jego poszczególnych elementów zwanych stronami (przypis 66 Babik 2007 ). Oprócz słów kluczowych czasami stosuje się tzw. frazy językowe. Istnieją też systemy, które każde słowo z tekstu, tytułu lub streszczenia traktują jako słowo kluczowe. System WWW, a w zasadzie jego nieustrukturalizowana i rozproszona baza danych, składa się z dokumentów

utworzonych za pomocą języka HTML. Dokumenty te nazywa się stronami internetowymi.

Strony te na ekranie komputera są efektem interpretacji dokumentu (znajdującego się na serwerze WWW) przez odpowiednią przeglądarkę zainstalowaną na komputerze

użytkownika. Strony różnią się między sobą zawartością, typem (tekst, obraz, dźwięk, wideo), formatem (tekst, HTML, PDF, postscript) oraz językiem. Z informacyjnego punktu widzenia ważne są nie tylko informacje o zawartości strony, lecz także informacje o samych stronach, to jest o ich pochodzeniu (autorstwie), częstości aktualizacji, częstości cytowania.

Strona WWW w formacie HTML składa się zwykle z właściwego tekstu dokumentu, zwanego BODY oraz części zwanej nagłówkiem (HEAD). Nagłówek strony zawiera wiele różnych rodzajów informacji, a właściwie metainformacji. Dotyczą one: sposobu

zakodowania polskich znaków diakrytycznych, języka, autora, tytułu, zawartości strony, słów kluczowych. Istotne z punktu widzenia wyszukiwania informacji są przede wszystkim te części strony, które poprzedzają metaznaczniki: TITLE, DESCRIPTION oraz

KEYWORDS. Umieszczone tam informacje są traktowane przez wyszukiwarki jako ważniejsze od innych, co przeważnie ma wpływ na kolejność cytowania (ranking)

informacji wyświetlanych w odpowiedzi na pytanie użytkownika. Źródło słów kluczowych stanowią następujące pola: <HEAD>, <BODY>, <META NAME>, <DESCRIPTION>,

<KEYWORDS> [przypis 25].

Str. 39

Strony są indeksowane przede wszystkim na podstawie zawartości pola KEYWORDS.

Jeżeli twórca strony nie przyporządkował jej słów kluczowych lub w ogóle nie sformułował nagłówka HEAD (nie jest on obowiązkowym elementem strony), wówczas strona jest indeksowana na podstawie tekstu zawartego w części BODY. Tekst ten jest indeksowany i wyszukiwany za pomocą swobodnych wyrażeń, derywowanych z tekstu języka

naturalnego (ang. free-text searching), ze wszystkimi mankamentami tego typu indeksowania. Szczegółowe omówienie tego zagadnienia, jakkolwiek jest bardzo interesujące, wykracza jednak poza ramy niniejszej pracy.

Jak zauważyła J. Woźniak-Kasperek: „(…) każdej stronie jest przypisywana jedna i ta sama wartość, którą przez analogię można by nazwać wagą. Wartość wagi jest następnie dzielona przez liczbę słów kluczowych przypisanych stronie przez jej twórcę lub

ustanowionych na mocy indeksowania swobodnego sekcji BODY. Wynikałoby stąd, że im większa jest liczba słów kluczowych, tym mniejsza ich waga, co w konsekwencji powoduje dalszą pozycję danej strony na liście rankingowej” (przypis 67 Woźniak-Kasperek 2004, s.

32). Z punktu widzenia użytkownika najważniejsza jest jednak relewantność użytych słów i tekstów samych dokumentów HTML. Wyniki obserwacji pokazują, że autorzy

przyporządkowują dokumentom wiele słów kluczowych o wątpliwej relewancji i małej (ze względu na liczbę słów) wadze wyszukiwawczej. Zdarza się też, że słowa kluczowe są tak dobierane, aby jak największa liczba osób odwiedziła daną stronę. Sprawia to, że

relewantność słów kluczowych staje się drugoplanowa, a w niektórych wypadkach nawet marginalna.

Serwery wyszukujące indeksują zasoby sieci przeważnie na podstawie zawartości pola

<KEYWORDS> dokumentu HTML systemu WWW lub za pomocą swobodnych wyrażeń derywowanych z tekstu języka naturalnego w części <BODY> [przypis 26]. Wszystkie wyszukiwarki deklarują, że biorą pod uwagę całą zawartość <BODY> strony WWW, omijając jedynie stop-słowa, dla których tworzą specjalne listy. Te tzw. stop-listy zawierają słowa najczęściej występujące w danym języku, przez co mające małą wartość

informacyjną.

Do dostarczania słów kluczowych wyszukiwarce używa się przede wszystkim META-kodów, które z różnych powodów nie wystąpiły w tekście dokumentu. Przykładem może być ich zastosowanie na splash i frame stronach. Splash strony to witryny wejściowe, na których znajduje się logo, często z napisem „Enter”, i które kierują do właściwego

(nierzadko zupełnie innego) adresu. Z kolei frame strony określają formę, w jakiej

przedstawiona zostanie witryna w oknie przeglądarki. Wprowadzenie znaczników META często powoduje skok danej strony na pierwsze miejsca w rankingach poszczególnych wyszukiwarek.

Str. 40

Są to bardzo użyteczne narzędzia dla wyszukiwarek. Najważniejsze z nich to

DESCRIPTION i KEYWORDS. DESCRIPTION-kod określa, na potrzeby wyszukiwarki, zawartość strony, natomiast KEYWORDS-kod dostarcza wyszukiwarce dodatkowych słów kluczowych opisujących zawartość danej strony. Zaleca się wtedy stosowanie słowników kontrolowanych. Sam wygląd strony po zastosowaniu META-kodów nie zmienia się, natomiast jej wartość dla wyszukiwarki znacznie wzrasta. DESCRIPTION-kod pozwala kontrolować krótki opis zawartości strony, który ukazuje się pod tytułem strony w wyniku wyszukiwania. Działanie META-kodów ilustruje podany przykład (rys. 2).

Rys. 2. Przykład opisu dokumentu w języku HTML

Str. 41

Niewątpliwie słowa kluczowe są wyrazami, frazami lub tzw. quasi-zdaniami języka

naturalnego, które internauci wpisują w wyszukiwarkach internetowych w celu znalezienia tego, co ich interesuje, dlatego bardzo ważny jest ich dobór oraz odpowiednie

zagęszczenie (ang. keyword density). W praktyce większość współczesnych

wyszukiwarek ignoruje zawartość pól META, a jeśli je wykorzystuje, to zawsze konfrontuje

ze słowami kluczowymi zidentyfikowanymi w całym dokumencie, ewentualnie w Internecie.

Do tego zagadnienia jeszcze powrócę w rozdziale 3.2.2, ale w nieco innym aspekcie.

Charakterystyczną cechą słów kluczowych w Internecie, a także w ogóle, jest ich

nieostrość oraz różnorodność kryteriów derywacji. Pozwala to na tworzenie wielu punktów dostępu w procesie indeksowania informacji, co obecnie uważa się za źródło siły

wyszukiwawczej Internetu, chociaż często prowadzi do szumu lub ciszy informacyjnej.

Mimo, często uzasadnionej, krytyki dotychczasowych sposobów przeszukiwania zasobów Internetu, słowa kluczowe są najbliższe sposobom myślenia użytkowników i wyszukiwania przez nich informacji. Zwykle wykorzystywana jest metoda organizacji i przeszukiwania zasobów tego systemu oparta na indeksowaniu i porządkowaniu alfabetycznym.

Wyszukiwanie za pomocą słów kluczowych umożliwiają obecnie wszystkie wyszukiwarki.

Są efektywnymi narzędziami wyszukiwania informacji według precyzyjnie wskazanych w opisie nazw przedmiotów lub zagadnień, ale często generują odpowiedzi zawierające znaczną liczbę informacji dla użytkownika nierelewantnej albo o niskiej relewancji.

W systemie WWW używane są przeważnie wyrażenia stanowiące słowa kluczowe, wygenerowane z języka naturalnego na podstawie relacji kojarzeniowych. Ich zbiór odwzorowuje/zawiera język swobodnych słów kluczowych. Język ten stanowi część kompetencji użytkownika w zakresie języka naturalnego, kompetencji leksykalnej [przypis 27] i kompetencji semantycznej [przypis 28].

Str. 42

Słowa kluczowe w Internecie tworzą zasób leksykalny języka indeksatora i użytkownika swobodnych słów kluczowych. Pochodzą z tekstu indeksowanego dokumentu lub są wybierane przez indeksatora z jego własnego słownika mentalnego. Nie zawsze explicite prezentują system języka, a więc słownik i gramatykę, pozwalającą generować zdania i teksty spójne. Nie są podawane explicite reguły semantyki pozwalające na

przyporządkowanie wyrażeń języka elementom odwzorowywanej rzeczywistości

pozajęzykowej oraz reguły pragmatyki określające reguły poprawnego użycia języka, tj.

reguły tworzenia komunikatów w danej sytuacji komunikacyjnej.

Dąży się obecnie do tego, aby systemy leksykalno-semantyczne języków słów kluczowych miały jak najbardziej naturalny charakter, tzn. aby były zbliżone w jak największym stopniu do sposobów myślenia i wyszukiwania informacji przez człowieka, czym zajmiemy się w dalszej części rozprawy. Nieograniczony dostęp do Internetu sprawia, że owa naturalność musi być rozumiana umownie, nie ma bowiem jednego „naturalnego” obrazu świata wszystkich użytkowników systemu. Zatem nie w naturalności, ani w poprawności systemu

leksykalno-semantycznego tkwi moc wyszukiwawcza języków słów kluczowych, lecz w gotowości użytkownika systemu stosującego ten typ języka do akceptacji proponowanych słów kluczowych. Są one jednocześnie leksykalnym narzędziem kategoryzacji informacji, za pomocą którego można odnaleźć potrzebną informację. Słowa kluczowe, tworzące charakterystykę słowną dokumentu, pełnią jednocześnie funkcje języków informacyjno-wyszukiwawczych, tj. funkcję metainformacyjną i funkcję wyszukiwawczą. Relewantność i siła semantyczna (waga wyszukiwawcza) używanych w indeksowaniu słów kluczowych mają decydujące znaczenie z punktu widzenia efektywności wyszukiwania. Słowa kluczowe stanowią raczej narzędzie tradycyjne – w porównaniu z nowoczesnymi narzędziami – semantycznej organizacji zasobów Internetu.

Mimo rozwoju Internetu świat Webu nie podąża za osiągnięciami nauki o informacji. Dla większości internautów nie ma różnicy między słowem kluczowym jako wyrażeniem reprezentującym dany dokument a słowem poszukiwanym. Również niewielu

użytkowników zwraca uwagę na analizy dokumentacyjne, w których znajdują się słowa kluczowe. W nauce o informacji słowa kluczowe to słowa charakteryzujące zawartość dokumentu, służące przede wszystkim jako klucze wyszukiwawcze w systemach informacyjno-wyszukiwawczych.

W dokumencie Za oryginałem zostały pominięte strony (Stron 41-48)