• Nie Znaleziono Wyników

Przyrostowa metoda dygitalizacji słowników

N/A
N/A
Protected

Academic year: 2021

Share "Przyrostowa metoda dygitalizacji słowników"

Copied!
17
0
0

Pełen tekst

(1)

Przyrostowa metoda dygitalizacji słowników

Janusz S. Bień, Joanna Bilińska, Mateusz Sarnecki

Wydział Neofilologii Uniwersytet Warszawski

Leksykografia polska, ukraińska, bułgarska:

słowniki tradycyjne i elektroniczne

Warszawa, 13.11.2014 r.

(2)

Słowniki na serwerze Katedry Lingwistyki Formalnej

Adres: http://korpusy.klf.uw.edu.pl/pl/

Słownik warszawski (J. Karłowicz, A. Kryński,

W. Niedźwiedzki, Słownik języka polskiego, Warszawa 1900–1927).

Słownik polszczyzny XVI wieku (wydawany od 1966 r.).

S. B. Linde, Słownik języka polskiego (2. wydanie), Lwów 1854–1861.

B. Chlebowski, F. Sulimierski, W. Walewski (red.), Słownik Geograficzny Królestwa Polskiego i innych krajów

słowiańskich, Warszawa 1880–1902.

Przyrostowa metoda dygitalizacji słowników

(3)

Słowniki na serwerze KLF cd.

Słowniki udostępniane graficznie z dodawanymi elementami typu:

warstwa tekstowa (tzw. brudny OCR), podziały na sekcje,

możliwość korzystania z wyrażeń regularnych w wyszukiwarce,

konkordancje graficzne, indeksy,

spis treści (outline) w przypadku Słownika Lindego

(4)

http://korpusy.klf.uw.edu.pl/pl/

Kolejne możliwe udogodnienia to np. anotacja skanów oraz tagowanie tekstu

Przyrostowa metoda dygitalizacji słowników

(5)

DjVu

Teksty udostępniane w formacie DjVu szybki dostęp,

możliwość dużego powiększania obrazu, stopniowe ładowanie pliku,

możliwość tworzenia linków (URL), wielowarstwowość plików

Konieczne jest zainstalowanie specjalnego programu (np. djview

for Poliqarp) lub wtyczki do przeglądarki

(6)

Konkordancje graficzne

Przyrostowa metoda dygitalizacji słowników

(7)

Wyszukiwanie zaawansowane

Warto takie teksty tagować, np. dodając objaśnienia do skrótów.

(8)

Spis treści (outline)

(przeglądarka DjView4)

Przyrostowa metoda dygitalizacji słowników

(9)

Dalsze przyrostowe udostępnianie tekstu

przechodzenie od tzw. brudnego OCR-u do tekstów Ground-Truth,

tagowanie tekstu,

dodawanie anotacji skanów,

budowa indeksów

(10)

Możliwe anotacje skanów

pokazywanie erraty lub poprawek redakcyjnych, tworzenie chmurek z wyjaśnieniami do tekstu, zaznaczanie tekstu (na skanie) kolorami, łącza do odwołań, źródeł, innych słowników, spisy treści,

indeksy

Przyrostowa metoda dygitalizacji słowników

(11)

Możliwy tagset

[attr]

lang = und pl de ru ...

script = latn latf cyrl ...

series = medium bold shape = upright italic wconf = 0 1 2 3 4 5 6 7 8 9 [pos]

ign = lang script series shape wconf

(12)

Przykładowe indeksy

Indeks żywej paginy jak w słowniku Knapskiego ( http://www.mimuw.edu.pl/polszczyzna/Knapski/

Knapski_DjVu/)

Indeks haseł — np. indeks a tergo do Słownika Lindego ( http://bc.klf.uw.edu.pl/379/)

Inne indeksy dla słownika Lindego — np. nazw

geograficznych, słów obcojęzycznych, skrótów redakcyjnych, innych skrótów

Przyrostowa metoda dygitalizacji słowników

(13)

Indeks a tergo do słownika Lindego

(14)

Słownik Lindego w Bayerische StaatsBibliothek

http://reader.digitale-sammlungen.de/de/fs1/object/

display/bsb10524311_00001.html

Przyrostowa metoda dygitalizacji słowników

(15)

Słownik Lindego w Bayerische StaatsBibliothek cd.

pliki JPG i PDF, wyszukiwanie słów,

podpowiadanie słów w czasie szukania, OCR z błędami,

konkordancje graficzne, można pobrać PDF bez OCR,

brak możliwości zapisywania linków do konkretnych trafień

(16)

Przyrostowa metoda dygitalizacji słowników

(17)

Literatura

Bień, Janusz S. (2014), Elektroniczny indeks do słownika Lindego, V Glosa do leksykografii, 18-19 września 2014 r., Warszawa, http://bc.klf.uw.edu.pl/379/.

Bień, Janusz S. (2014) The IMPACT project Polish Ground-Truth texts as a DjVu corpus, "Cognitive Studies | Études Cognitives" (14), s. 75-84,

http://bc.klf.uw.edu.pl/381/.

Bień, Janusz S., Bilińska, Joanna A., Sarnecki, Mateusz (2014), An incremental approach to retrodigitization, ENeL-WG2 meeting, Bolzano,

http://bc.klf.uw.edu.pl/378/.

Cytaty

Powiązane dokumenty

Wprowadzenie do tematu: odmiana przymiotnika po rodzajniku nieokreślonym (tabelka w zeszycie) Instrukcje do pracy własnej: tekst 3/42, podkreślenie odpowiedzi do pytań w

LIDO pozwala także na przechowywanie i prezentację w portalach informacji „wzbogaconej”, 

Forma i warunki zaliczenia przedmiotu, w tym zasady dopuszczenia do egzaminu, zaliczenia z przedmiotu, a także formę i warunki zaliczenia poszczególnych form zajęć wchodzących w

nie cechy słowników online uważa się możliwość symultanicznego wyszukiwania w kilku słownikach oraz niską opłatę za korzystanie lub brak opłat w ogóle.. Obok licznych zalet

Parametryzowanie pracy z programem (widok strony, paski narzędzi, powiększanie/zmniejszanie podglądu strony, ustawianie opcji programu) 3.. Formatowanie strony/dokumentu

Dowolną liczbę komórek możemy także scalić – z menu kontekstowego wybieramy polecenie Scal komórki (po ich uprzednim zaznaczeniu). Aby usunąć niepotrzebne wiersze lub

Wystąpienie jest zmodyfikowaną wersją referatu, który został wygłoszony na III konferencji z cyklu. „Glosa do leksykografii polskiej” 16 września 2011 na

Słownik polszczyzny XVII i XVIII wieku.. Budowa słowników elektronicznych Budowanie