• Nie Znaleziono Wyników

Opis programu "Kolokacje" i możliwości jego wykorzystania

N/A
N/A
Protected

Academic year: 2021

Share "Opis programu "Kolokacje" i możliwości jego wykorzystania"

Copied!
12
0
0

Pełen tekst

(1)

Joanna A. Bilińska

Opis programu Kolokacje i możliwości jego wykorzystania

1

Językoznawcy w swoich pracach naukowych często posiłkują się przeróżnymi programami komputerowymi. Celem niniejszego artykułu jest prezentacja jednego z nich. Kolokacje – to program łatwy w użytkowaniu i znacznie wspomagający pracę nad tworzeniem, a następnie analizowaniem własnego korpusu tekstów, w tym prowadzenie badań statystycznych. Jego dodatkową zaletą jest jego dostępność na licencji GNU GPL.

Pierwszą wersję programu przygotował w 2004 r. Aleksander Buczyński. Następnie Kolokacje były modyfikowane przez Tomasza Oknińskiego. Powyższe prace powstawały w ramach seminariów magisterskich pod kierunkiem prof. Janusza S. Bienia.

Na stronie internetowej http://www.mimuw.edu.pl/polszczyzna/kolokacje/ są obecnie2 dostępne Kolokacje 1.21 w dwóch wersjach:

program Kolokacje, który można zainstalować na dysku komputera;

żywa płyta Collocatrix3 zawierająca oprócz Kolokacji m.in. program wspomagający tłumaczenia OmegaT i jedną z wersji Linuksa.

Wykorzystanie programu

Korpus tekstów

Po pierwsze, za pomocą programu Kolokacje możemy zbudować korpus tekstów, zwany tutaj archiwum. Podczas jego tworzenia (por. s. 6):

wybieramy jego nazwę,

ustalamy miejsce na dysku, w którym zostanie zapisany korpus,

wybieramy pliki z komputera, z których zamierzamy zbudować archiwum albo wpisujemy adres witryny internetowej, którą chcemy zindeksować,

podajemy kodowanie znaków na stronie internetowej, gdyż program sam go nie rozpoznaje

1 Tekst został opublikowany w publikacji Rozmaitości językoznawcze 2. Prace Językoznawczego Koła Naukowego Uniwersytetu Warszawskiego, red. K. Bielenin-Lenczowska, M. Majdak, Wydział Polonistyki UW, Warszawa 2008, s. 37-48.

(2)

(w programie automatycznie dostępne jest 7 kodowań4, ale w plikach konfiguracyjnych można ustalić dowolne inne),

decydujemy, czy chcemy od razu rozpocząć zbieranie tekstów.

Program obsługuje pliki o rozszerzeniach: .txt, .htm, .html., .shtml., .xhtml, .php, .asp, .cfm, .xml.

W trakcie zbierania tekstów do archiwum, nazywanego „pełzaniem” program porusza się po sieci linków, informując, ile stron już zindeksował, a ile jeszcze czeka w kolejce. Liczby te zmieniają się w miarę indeksowania, ponieważ program odkrywa nowe linki. Dlatego też niestety czas tej operacji jest nieprzewidywalny. Procedurę zbierania zawsze można jednak przerwać i powrócić do niej później albo po prostu poprzestać na tym, co mamy. Dzięki temu mamy możliwość sprawdzenia, czy program rzeczywiście zapisuje to, czego oczekiwaliśmy, a poza tym pozwala panować nad czasem naszej pracy.

Po przebudowaniu i zapisaniu indeksu archiwum, na dolnym pasku programu pojawiają się informacje o korpusie, czyli:

ile plików zapisano,

rozmiar korpusu (liczony w słowach),

liczba różnych słów w korpusie,

liczba kolokacji,

czy indeks5 został zapisany.

Słowniki

Kiedy mamy już korpus, możemy na przykład zbudować słownik a fronte, a raczej alfabetyczną listę form wyrazowych występujących w tekście. Pojawia się wtedy lista form wyrazowych wraz z częstością ich wystąpienia w korpusie oraz łączami do zapytań o konteksty i ewentualne kolokacje z tymi formami.

Możemy także zbudować słownik a tergo (por. s. 7). Podobnie jak w poprzednim, mamy podaną częstość słów oraz łącza do kontekstów i kolokacji. Lista słów jest tym razem równana do prawej.

W podobny sposób powstaje słownik frekwencyjny (por. s. 8).

4 Są to kodowania: windows-1250, windows-1251, ISO-8859-1, ISO-8859-2, KOI8-R, UTF-8 oraz UTF-16.

5 Indeks to wszelkie informacje o zebranym korpusie: liczbie jednostek, kolokacjach itp.

(3)

Kolokacje

Program umożliwia również stworzenie listy kolokacji zawartych w tekście. Autor programu stosuje tu zaproponowaną przez prof. Janusza S. Bienia następującą typologię kolokacji:

kolokacje incydentalne – takie słowa, które przypadkowo wystąpiły obok siebie,

kolokacje funkcjonalne – takie słowa, które często występują obok siebie, ale znaczenie całości da się wyprowadzić ze znaczeń składowych,

kolokacje idiomatyczne – takie zestawienia słów, których znaczenie nie może być wyprowadzone ze znaczeń składowych; taka kolokacja stanowi sama w sobie jednostkę leksykalną (Buczyński 2004: 29) i (Buczyński 2006: 431).

Po zapytaniu o kolokacje otrzymujemy listę (por. s.9) posortowaną według testu Freq, czyli częstości. Domyślnie wybrane są 4 statystyczne testy kolokacji, ale możemy wybrać dowolne z 14 dostępnych w programie.

Analiza form wyrazowych i konkordancje

Wynikiem zapytania o formę wyrazową jest liczba jego wystąpień, odsyłacze do kontekstów i ewentualnych kolokacji (por s. 10). Po kliknięciu na pierwszy odsyłacz otrzymujemy listę konkordancji (por. s.11) wraz z około czterdziestoznakowym fragmentem tekstu, a dalej pojawia się odsyłacz do konkretnych plików w archiwum. Odsyłacz do kolokacji z zadaną formą wyświetla wykaz podobny do tego przy zapytaniu o listę kolokacji (por. s.12).

Dostępne opcje

Domyślnie program odrzuca jednoznakowe jednostki leksykalne typu: i, a, z, ale można to ustawienie zmienić. Ponadto można ustalić kolejność słów, które wyświetliliśmy: alfabetyczną, częstościową czy też a tergo oraz wybrać, czy program ma uwzględniać liczby, czy nie – domyślnie ustawione jest ich nieuwzględnianie. Kolokacje dają też możliwość sterowania pojawianiem się w wynikach nazw własnych. Dostępne są 3 opcje: uwzględnianie, odrzucanie, tylko nazwy własne6. Jeśli chodzi o kolokacje, to możemy poprosić program o wszystkie, tylko lewostronne lub tylko prawostronne. Możemy też zdecydować, jaką chcemy mieć minimalna liczbę wystąpień wyszukiwanych jednostek (domyślnie jest to 2) oraz ustalić długość kontekstu – domyślnie jest to około 40 znaków.

Wszelkie informacje, których wyszukujemy za pomocą programu znajdują się na osobnych kartach i jeśli chcemy, możemy je wszystkie wyświetlać, tak by móc je potem łatwo porównywać.

(4)

Dla ułatwienia każda karta ma u góry własną nazwę i zakodowaną informację o jej zawartości (więcej na ten temat w instrukcji użytkownika). Ponadto każdą kartę daje się za pomocą myszki oddzielić od głównej części programu, co bardzo ułatwia porównywanie zawartości kart.

Inne możliwości wykorzystania

Do innych możliwości wykorzystania programu należą:

wyszukiwanie słów kluczowych,

badanie odmiany języka,

porównywanie użycia form wyrazowych w różnych korpusach,

utrzymanie spójności tłumaczenia,

typowanie związków wymagających specjalnego wyjaśnienia,

testowanie metod statystycznych,

śledzenie zmian na stronach internetowych,

badanie spójności strony internetowej,

inne, w zależności od potrzeb i pomysłowości użytkownika.

Bardzo ciekawe przykładowe wyniki otrzymane za pomocą programu można znaleźć na stronie internetowej: http://duch.mimuw.edu.pl/~abuczyns/kolokacje/emacs/index.htm.

Uwagi końcowe

Zaletą Kolokacji jest ich uniwersalność i możliwość wykorzystania do analizy wielu języków. Wspomagają budowanie własnego korpusu tekstów i jego badanie oraz tworzenie różnego rodzaju słowników, konkordancji i list kolokacji. Mogą być przydatne dla językoznawców, informatyków czy statystyków.

Niektóre funkcje Kolokacji są również dostępne w eksperymentalnej wersji Poliqarpa będącego zestawem narzędzi do przeszukiwania dużych korpusów tekstów (por.

http://korpus.pl/index.php?page=poliqarp). Program ten znajduje się m.in. na przygotowanej przez Radosława Moszczyńskiego płycie Poliqarpix (por. http://fleksem.klf.uw.edu.pl/~rm/).

Bibliografia

Buczyński A.: Kolokacje 1.0 – instrukcja użytkownika. http://duch.mimuw.edu.pl/~abuczyns/

kolokacje/doc/instrukcja-uzytkownika.pdf.

Buczyński A. (2004): Pozyskiwanie z Internetu tekstów do badań lingwistycznych. Praca

6 Za nazwę własną uważa się tutaj dwa słowa pisane wielką literą występujące obok siebie.

(5)

magisterska. Warszawa 2004. http://duch.mimuw.edu.pl/~abuczyns/kolokacje/doc/

pozyskiwanie-tekstow.pdf.

Buczyński A. (2006): Wybrane zastosowania programu Kolokacje do badań lingwistycznych [w:]

Duszak A., Gajek E., Okulska U. (red.) (2006): Korpusy w angielsko-polskim językoznawstwie kontrastywnym: Teoria i praktyka. Kraków: Universitas, 427-448.

Okniński T. (2005): Narzędzia przetwarzania tekstów w języku Java. Praca magisterska. Warszawa.

http://duch.mimuw.edu.pl/~abuczyns/kolokacje/doc/narzedzia.pdf.

Okniński T.: Kolokacje 1.1 – uzupełnienie podręcznika użytkownika. http://duch.mimuw.edu.pl/

~abuczyns/kolokacje/doc/instrukcja-uzupelnienie.pdf.

http://www.mimuw.edu.pl/polszczyzna/kolokacje/

http://duch.mimuw.edu.pl/~abuczyns/slowniki.kolokacje.html

http://www.mimuw.edu.pl/polszczyzna

(6)

Ilustracje

Rysunek 1. Tworzenie korpusu tekstów

(7)

Rysunek 2. Słownik a tergo

(8)

Rysunek 3. Słownik frekwencyjny

(9)

Rysunek 4. Zapytanie o kolokacje

(10)

Rysunek 5. Zapytanie o formę wyrazową

(11)

Rysunek 6. Zapytanie o konkordancje

(12)

Rysunek 7. Zapytanie o kolokacje z zadaną formą wyrazową

Cytaty

Powiązane dokumenty

Pismo Święte rozpoczyna się, jak wiemy, od opisu stworzenia świata i człowieka w nim. Opis ten utrzymany jest w specyficznej, archaicznej formie, a interpretacja

ment zdrady Judasza ujawnia radykalną asymetryczność relacji między Bogiem a grzesznikiem: Bóg nie przestaje kochać grzesznika nawet w momencie, kiedy ten usiłuje Go skrzywdzić,

Nie tylko bowiem twierdzą, że wszystkiego można nauczyć, lecz utrzymują również, że nauczycielem arete może być każdy.. Protagoras miał mawiać, że „nauczycielami

Nieco mniej jednoznaczna jest sytuacja w Massachussetts, gdzie okręgi nie wyglądają aż tak patologicznie jak w poprzednich przypadkach (choć kształty okręgów 2, 3, czy 4

Niezbyt typowy wykład. poniedziałek, 23

Matthieu de Schipper 1 , Ad Reniers 2 , Jamie MacMahan 3 and Roshanka Ranasinghe 1,4 Field observations and numerical model simulations are examined to investigate the magnitude

a number of valuable information about selection criteria of succinite among popula- tion groups dealing with its exploitation and about criteria which were followed while

Uczeń zna: losy Antygony i Julii; stosunek do kobiet dawniej; pojęcie konfliktu tragicznego. b) Umiejętności.. Uczeń potrafi: analizować tekst dramatyczny; odnajdywać