• Nie Znaleziono Wyników

DjVu i dygitalizacja słowników. Prezentacja problematyki i tematów prac magisterskich

N/A
N/A
Protected

Academic year: 2021

Share "DjVu i dygitalizacja słowników. Prezentacja problematyki i tematów prac magisterskich"

Copied!
32
0
0

Pełen tekst

(1)

.

. . . .

.

.

DjVu i dygitalizacja słowników

Prezentacja problematyki i tematów prac magisterskich

Janusz S. Bień

Katedra Lingwistyki Formalnej (od 1.10.2003) Wydział Neofilologii (od 1.10.1998) Uniwersytet Warszawski (od 1.10.1969

4 grudnia 2012 r.

Instytut Informatyki UW

(2)

Przykładowe prace magisterskie

. Rozbudowa pakietu oprogramowania DjVuLibre .

.

. . . .

.

.

Jakub Wilk, 2008

http://bc.klf.uw.edu.pl/28/

http://jwilk.net/software/

. Obsługa formatu PDF/A na potrzeby dygitalizacji tekstów .

.

. . . .

.

.

Tomasz Olejniczak, 2012

http://bc.klf.uw.edu.pl/223/

https://bitbucket.org/tomek87/pdfautils

http://bc.klf.uw.edu.pl/323/ 2/31

(3)

Projekty

. Narzędzia dygitalizacji tekstów na potrzeby badań filologicznych .

.

. . . .

.

.

Grant MNiSzW, 13.05.2009 - 12.05.2012 https://bitbucket.org/jsbien/ndt

Janusz S. Bień (kierownik projektu),

Joanna Bilińska, Krzysztof Szafran, Jakub Wilk, Grzegorz Chimosz, Tomasz Olejniczak,

Michał Rudolf, Piotr Sikora.

. IMPACT — IMproving ACcess to Text .

.

. . . .

.

.

7. PR, (1.01.2008) 1.02.2010 — 31.12.2011 (30.06.2012)

http://www.digitisation.eu/tools/language- resources/historical- lexicon- polish/

(4)

DjVu i dygitalizacja słowników Grant MNiSzW

DjVu

. Proponowana definicja .

.

. . . .

.

.

Format i techniki

do reprezentacji dokumentów

przy pomocy warstwy graficznej i tekstowej z metadanymi i adnotacjami

oraz do efektywnego udostępniania

tak reprezentowanych dokumentów w Internecie.

[JSB]

tło (background)

zadruk (foreground) — słowniki kształtów

http://bc.klf.uw.edu.pl/323/ 4/31

(5)

DjVu

. Proponowana definicja .

.

. . . .

.

.

Format i techniki

do reprezentacji dokumentów

przy pomocy warstwy graficznej i tekstowej z metadanymi i adnotacjami

oraz do efektywnego udostępniania

tak reprezentowanych dokumentów w Internecie.

[JSB]

Warstwa tekstowa — czysty tekst w Unicode

Warstwa graficzna — wyrafinowane metody kompresji

tło (background)

zadruk (foreground) — słowniki kształtów

(6)

The Library 2.012 worldwide virtual conference

. Referat — slajdy i nagranie (1 godzina) .

.

. . . .

.

.

October 4, 2012, 12-13 CET Janusz S. Bień

Scanned publications in digital libraries:

new Open Source DjVu tools

http://bc.klf.uw.edu.pl/298/

http://www.library20.com/forum/topics/

scanned- publications- in- digital- libraries- new- open- source- djvu

http://bc.klf.uw.edu.pl/323/ 5/31

(7)

Tworzenie dokumentów DjVu — Jakub Wilk

. Debian i Ubuntu popularity contest (listopad 2012) .

.

. . . .

.

.

pdf2djvu

Debian+Ubuntu popcon installed/votes: ∼ 35 000/1100 didjvu (minidjvu)

Debian+Ubuntu popcon installed/votes: ∼ 60/10 ocrodjvu

Debian+Ubuntu popcon installed/votes: ∼ 1 600/100 djvusmooth

Debian+Ubuntu popcon installed/votes: ∼ 1 100/110 . Inne dystrybucje

. .

. . . .

.

. openSUSE, freeBSD, MS Windows

(8)

Poliqarp (for DjVu

. Poliqarp

(Polyinterpretation Indexing Query and Retrieval Procesor) .

.

. . . .

.

.

Adam Przepiórkowski (2004):

Korpus IPI PAN. Wersja wstępna

http://nlp.ipipan.waw.pl/~adamp/Papers/2004- corpus/

Adam Przepiórkowski, Aleksander Buczyński, Jakub Wilk (2010): Ściągawka do Narodowego Korpusu Języka Polskiego

http://eprints.wbl.klf.uw.edu.pl/56/

. Korpusy DjVu (tekstów skanowanych) .

.

. . . .

.

.

Poliqarp for DjVu — serwer

marasca — klient WWW (używany obecnie także przez NKJP) Djview for Poliqarp — klient zdalny

http://bc.klf.uw.edu.pl/323/ 7/31

(9)

Przykłady korpusów DjVu

http://poliqarp.wbl.klf.uw.edu.pl . Słownik polszczyzny XVI wieku (wychodzi od 1966 r.) .

.

. . . .

. . Ukazało sie 35 tomów (A do ROWNY), razem około 19 000 stron . Korpus tekstów wzorcowych projektu IMPACT

. . .

. . .

. . Prawie 5 000 stron tekstów z lat 1570–1756

. Słownik Lindego .

.

. . . .

.

.

Pierwsze wydanie 1807–1814, drugie wydanie 1854-1861, reprinty drugiego wydania w 1951 i 1994-1995,

razem około 4 500 stron.

(10)

Przykład kwerendy — korpus IMPACT

http://bc.klf.uw.edu.pl/323/ 9/31

(11)

Korpusy DjVu i Unicode

(12)

Przeglądarka fiszek słownikowych

http://bc.klf.uw.edu.pl/323/ 11/31

(13)

Repozytorium Cyfrowe Instytutów Naukowych

(14)

Analiza kształtów zadruku

. Eksperymentalne narzędzia (system GNU/Linux) .

.

. . . .

.

.

Lokalna przeglądarka kształtów wspólnych Narzędzia typu klient-serwer

eksporter etykieciarka

. Potencjalne zastosowania .

.

. . . .

.

.

Odczytywanie niewyraźnych fragmentów tekstów Transkrypcja tekstów (tworzenie tekstów wzorcowych) Trenowanie programów optycznego rozpoznawania znaków

http://bc.klf.uw.edu.pl/323/ 13/31

(15)

Lokalna przeglądarka kształtów

. Wykaz wystąpień kształtów podobnych do litery C .

.

.

.

.

(16)

Analiza kształtów

. Hierarchia kształtów litery c z „zabłąkaną” literą e .

.

. . . .

.

.

http://bc.klf.uw.edu.pl/323/ 15/31

(17)

Analiza kształtów

. Eliminacja „zabłąkanej” litery e .

.

.

.

.

(18)

Edycja hOCR

. The hOCR Embedded OCR Workflow and Output Format (HTML) .

.

. . . .

.

.

http://bc.klf.uw.edu.pl/323/ 17/31

(19)

Słownik Lindego (1807-1814 [2. wyd. 1854-1861])

(20)

Indeks a tergo do słownika Lindego

http://bc.klf.uw.edu.pl/323/ 19/31

(21)

Dotychczasowe wyniki

. Dygitalizacje .

.

. . . .

.

.

http://poliqarp.wbl.klf.uw.edu.pl/slownik- lindego/

http://eprints.wbl.klf.uw.edu.pl/view/creators/Linde=3ASamuel_Bogumi==0142=3A=3A.html http://eprints.wbl.klf.uw.edu.pl/61/

.Publikacje .

.

... .

.

.

Joanna Bilińska, Describing Linde’s Dictionary of Polish for Digitalisation Purposes. In: Electronic lexicography in the 21st century: new applications for new users (eLEX2011),

10-12.11.2011, Bled, Slovenia, http://bc.klf.uw.edu.pl/216/

Joanna Bilińska, Составление перечня сокращенных названий языко в в рамках проекта дигитализации «Словаря польского языка» С.Б.Линде Информационные технологии и письменное наследие, El’Manuscript-12, Petrozawodsk (Rosja), 3-8 września 2012 r., http://bc.klf.uw.edu.pl/301/

(22)

Półautomatyczna analiza układu stron słownikowych

http://citeseerx.ist.psu.edu/viewdoc/summary?

doi=10.1.1.1.9099

Stochastic Language Models for Style-Directed Layout Analysis of Document Images (2003)

by Tapas Kanungo , Song Mao

We demonstrate the segmentation algorithm on images of bilingual dictionaries.

http://bc.klf.uw.edu.pl/323/ 21/31

(23)

Półautomatyczna analiza układu stron słownikowych

ParaDIIT: Pattern Redundancy Analysis

for Document Image Indexation and Transcription

(24)

Półautomatyczna analiza układu stron słownikowych

Jakub Wilk:

Gamera (http://gamera.informatik.hsnr.de/)

gamera.core.init_gamera()

def descr(image):

return '%d,%d+%d,%d' % (image.offset_x, image.offset_y, image.ncols, image.nrows)

for filename in sys.argv[1:]:

try:

root, _ = os.path.splitext(filename) orig_image = gamera.core.load_image(filename) image = orig_image.otsu_threshold()

cutting = image.projection_cutting(0, 0, 10) [image] = [i for i in cutting if i.nrows > 500]

cutting = image.projection_cutting(10, 1500, 30) [l, r] = [i for i in cutting if i.ncols > 500]

except Exception, ex:

print filename, ex else:

l = gamera.core.SubImage(orig_image, l.ul, l.lr) r = gamera.core.SubImage(orig_image, r.ul, r.lr) print filename, descr(l), descr(r)

l.save_PNG(root + 'l.png') r.save_PNG(root + 'r.png') sys.stdout.flush()

Ocropus (http://code.google.com/p/ocropus/)

http://bc.klf.uw.edu.pl/323/ 23/31

(25)

Półautomatyczna analiza układu stron słownikowych

pdfminer

(http://www.unixuser.org/~euske/python/pdfminer)

T. Olejniczak

(https://bitbucket.org/tomek87/pdfautils)

(26)

Półautomatyczna analiza układu stron słownikowych

Przykład praktycznego wykorzystania:

http://doroszewski.pwn.pl/haslo/tam-tam/

http://bc.klf.uw.edu.pl/323/ 25/31

(27)

Wykorzystanie Wikiźródeł do transkrypcji

i trenowania programów OCR

(28)

Wykorzystanie Wikiźródeł do transkrypcji i trenowania programów OCR

http://bc.klf.uw.edu.pl/323/ 27/31

(29)

Trenowania i wykorzystanie programów OCR

dla tekstów wielojęzycznych

(30)

Trenowania i wykorzystanie programów OCR dla tekstów wielojęzycznych

http://bc.klf.uw.edu.pl/323/ 29/31

(31)

Zajęcia w semestrze letnim

Podstawowe jednostki tekstów elektronicznych

1000-2M12PJT, wykład z ćwiczeniami, wtorki 8.30-12.00 Banacha 2

Narzędzia dygitalizacji tekstów

3322-NDT-OG, konwersatorium, czwartki 8.00-9.30, Dobra 55 Grafemika i paleologia cyfrowa

3322-TUG-OG, konwersatorium, czwartki 9.45-11.15, Dobra 55 LaTEX jako przykład komputerowych narzędzi autora

3322-LTX-OG, konwersatorium, środa 8.00-9.30, Dobra 55 Zaawansowane wykorzystanie dokumentów elektronicznych PDF i DjVu

3322-PDF-OG, konwersatorium, środa 9.45-11.15, Dobra 55 Korpusy dawnych tekstów polskich

3322-KORP-OG, konwersatorium, środa 9.45-11.15, Dobra 55

(32)

Kontakt

jsbien@uw.edu.pl jsbien@mimuw.edu.pl

nmpt-ann@mimuw.edu.pl

http://lists.mimuw.edu.pl/listinfo/nmpt-ann nmpt-l@mimuw.edu.pl

http://lists.mimuw.edu.pl/listinfo/nmpt-l

http://bc.klf.uw.edu.pl/323/ 31/31

Cytaty

Powiązane dokumenty

Quando avevo sette anni i miei genitori mi hanno comprato una bicicletta.. Ero felicissima e ho voluto subito provarla nei campi dietro la nostra casa

I nostri giovani non vogliono mangiare le verdure in generale, proprio quelle che sono alla base della dieta mediterranea.. Il 78% dei ragazzi che vivono al Sud ammette di mangiare

Dafür, dass unsere Kunstwerke nicht lange existieren, kostet das schon eine Menge.. Aber: Wir hatten Glück und haben einen Geldgeber

Die Stimmung hinter den Kulissen ist zwar sehr nett, aber ich weiß nicht, ob ich dort mit meinen Texten und meiner Musik

Egzamin maturalny z jzyka niemieckiego Transkrypcja tekstów – poziom dwujzyczny?. Worüber erzählen

Ein paar Hoffnungen setzt du auf neu eintreffende Besucherinnen, aber schnell wird dir klar, dass auch diese Frauen nicht deinetwegen gekommen sind.. „Noch nie etwas von

A Union spokesman says they’ll now try to resolve the dispute by appointing a national officer to represent the workers and a general secretary to represent the Union.. The

JEAN VIARD : L’acquis déterminant, c’est que le travail compté à l’heure n’a plus de sens pour énormément de travailleurs aujourd’hui, notamment parce que le travail est de