Od skanów do Unicode

(1)

.

... .

.

Od skanów do Unicode (wersja uaktualniona i rozszerzona)

Janusz S. Bień

Katedra Lingwistyki Formalnej Wydział Neofilologii Uniwersytet Warszawski

28 września 2012 r. (Dni Technologii Językowej) IPI PAN, Warszawa

12 listopada 2012 IJP UŚ, Katowice

(2)

Od skanów do Unicode Wprowadzenie

Zespół

.Pracownicy .

.

... .

.

Janusz S. Bień

Joanna A. Bilińska (pół etatu od 1.10.2012)

.Współpraca .

.

... .

.

Narzędzia dygitalizacji tekstów … IMPACT — IMproving ACcess to Text

…

(3)

Zespół

.Pracownicy .

.

... .

.

Janusz S. Bień

Joanna A. Bilińska (pół etatu od 1.10.2012) .Współpraca

. .

... .

.

…

(4)

Zespół

.Pracownicy .

.

... .

.

Janusz S. Bień

Joanna A. Bilińska (pół etatu od 1.10.2012) .Współpraca

. .

... .

.

…

(5)

Projekty

.Narzędzia dygitalizacji tekstów na potrzeby badań filologicznych .

.

... .

.

Grant MNiSzW, 13.05.2009 - 12.05.2012

https://bitbucket.org/jsbien/ndt

Janusz S. Bień (kierownik projektu),

Joanna Bilińska, Krzysztof Szafran, Jakub Wilk, Grzegorz Chimosz, Tomasz Olejniczak,

Michał Rudolf, Piotr Sikora.

.IMPACT — IMproving ACcess to Text .

.

... .

.

7. PR, (1.01.2008) 1.02.2010 — 31.12.2011 (30.06.2012)

http://www.digitisation.eu/tools/language- resources/historical- lexicon- polish/

Janusz S. Bień (kierownik zespołu), Krzysztof Szafran, Monika Kresa

(6)

Narzędzia i metody

.DjVu . .

... .

.

Format i techniki

do reprezentacji dokumentów

przy pomocy warstwy graficznej i tekstowej z metadanymi i adnotacjami

oraz do efektywnego udostępniania

tak reprezentowanych dokumentów w Internecie. [JSB]

Warstwa tekstowa — czysty tekst w Unicode

Warstwa graficzna — wyrafinowane metody kompresji tło (background)

zadruk (foreground) — słowniki kształtów

(7)

Narzędzia i metody

.DjVu . .

... .

.

Format i techniki

tak reprezentowanych dokumentów w Internecie.

[JSB]

(8)

Narzędzia i metody

.DjVu . .

... .

.

Format i techniki

tak reprezentowanych dokumentów w Internecie.

[JSB]

(9)

Narzędzia i metody

.The Library 2.012 worldwide virtual conference .

.

... .

.

October 4, 2012, 12-13 CET Janusz S. Bień

Scanned publications in digital libraries:

new Open Source DjVu tools

http://bc.klf.uw.edu.pl/298/

http://www.library20.com/forum/topics/

scanned- publications- in- digital- libraries- new- open- source- djvu

(10)

Narzędzia i metody

.Tworzenie dokumentów DjVu — Jakub Wilk .

.

... .

.

pdf2djvu

Debian+Ubuntu popcon installed/votes: ∼ 45 000/1000 didjvu

Debian+Ubuntu popcon installed/votes: ∼ 200/20 ocrodjvu

Debian+Ubuntu popcon installed/votes: ∼ 2 000/100 djvusmooth

Debian+Ubuntu popcon installed/votes: ∼ 1 500/80

(11)

Narzędzia i metody

.Poliqarp

(Polyinterpretation Indexing Query and Retrieval Procesor) .

.

... .

.

Adam Przepiórkowski (2004):

Korpus IPI PAN. Wersja wstępna

http://nlp.ipipan.waw.pl/~adamp/Papers/2004- corpus/

Adam Przepiórkowski, Aleksander Buczyński, Jakub Wilk (2010): Ściągawka do Narodowego Korpusu Języka Polskiego

http://eprints.wbl.klf.uw.edu.pl/56/

.Korpusy DjVu (tekstów skanowanych) .

.

... .

.

Poliqarp for DjVu — serwer

marasca — klient WWW (używany obecnie także przez NKJP) Djview for Poliqarp — klient zdalny

(12)

Poliqarp (GUI) — przykład korpusu

(http://bc.klf.uw.edu.pl/287/)

.Eksperymentalny korpus cytatów SpXVIIw .

.

... .

.

(13)

Poliqarp (GUI) — przykład korpusu

.Eksperymentalny korpus słownika Lindego (oba wydania) .

.

... .

.

(14)

Analiza kształtów zadruku

.Eksperymentalne narzędzia (system GNU/Linux) .

.

... .

.

Lokalna przeglądarka kształtów wspólnych Narzędzia typu klient-serwer

eksporter etykieciarka .Potencjalne zastosowania .

.

... .

.

Odczytywanie niewyraźnych fragmentów tekstów Transkrypcja tekstów (tworzenie tekstów wzorcowych) Trenowanie programów optycznego rozpoznawania znaków

(15)

Lokalna przeglądarka kształtów

.Wykaz wystąpień kształtów podobnych do litery C .

.

... .

.

(16)

Analiza kształtów

.Hierarchia kształtów litery c z „zabłąkaną” literą e .

.

... .

.

(17)

Analiza kształtów

.Eliminacja „zabłąkanej” litery e .

.

... .

.

(18)

Od skanów do Unicode Korpusy DjVu

Przykłady korpusów DjVu

http://poliqarp.wbl.klf.uw.edu.pl .Słownik polszczyzny XVI wieku (wychodzi od 1966 r.) .

.

... .

. .Ukazało sie 35 tomów (A do ROWNY), razem około 19 000 stron .Korpus tekstów wzorcowych projektu IMPACT

. ..

.. .

. .Prawie 5 000 stron tekstów z lat 1570–1756

.Słownik Lindego .

.

... .

.

Pierwsze wydanie 1807–1814, drugie wydanie 1854-1861, reprinty drugiego wydania w 1951 i1994-1995,

razem około 4 500 stron.

(19)

Od skanów do Unicode Korpusy DjVu

Przykład kwerendy — korpus IMPACT

(20)

Od skanów do Unicode Kodowanie

Przykłady tekstów — Słownik polszczyzny XVI wieku

a uncjalne, z „kreślone”, …

(21)

(22)

(23)

ligatura dz, r z ogonkiem, …

(24)

(25)

(26)

.Tom VI (1972), s. 221 .

.

... .

.

.Tom XXXI (2003), s. 302 .

.

... .

.

ligatura dz, u/v, …

(27)

.Tom VI (1972), s. 221 .

.

... .

.

.Tom XXXI (2003), s. 302 .

.

... .

.

(28)

.Tom VI (1972), s. 221 .

.

... .

.

.Tom XXXI (2003), s. 302 .

.

... .

.

(29)

Zasady wydawania tekstów staropolskich (1955)

http://ebuw.uw.edu.pl/publication/1334

(30)

Instrukcja redakcyjna Słownika polszczyzny XVI wieku

(31)

Przykłady tekstów — korpus IMPACT

(32)

(33)

(34)

(35)

Od skanów do Unicode Standard Unicode

Co to jest Unicode?

http://www.unicode.org/standard/WhatIsUnicode.html

(36)

Co to jest znak (character)?

.Terminologia .

.

... .

.

(abstract) character = znak (piśmienny)

(encoded) character = (piśmienny) znak kodowy code point = współrzędna kodowa

.Unicode 6.2.0 .

.

... .

.

Release date: 2012, September 26

http://www.unicode.org/versions/Unicode6.2.0/ […] the total number of characters assigned in the standard […] 110,117

(That is the traditional count, which totals up graphic and format characters, but omits surrogate code points, ISO control codes, noncharacters, and private-use allocations.)

(37)

.Terminologia .

.

... .

.

(encoded) character = (piśmienny) znak kodowy

code point = współrzędna kodowa .Unicode 6.2.0

. .

... .

.

(38)

.Terminologia .

.

... .

.

.Unicode 6.2.0 .

.

... .

.

(39)

.Terminologia .

.

... .

.

.Unicode 6.2.0 .

.

... .

.

http://www.unicode.org/versions/Unicode6.2.0/

[…] the total number of characters assigned in the standard […]

110,117

(40)

.Terminologia .

.

... .

.

.Unicode 6.2.0 .

.

... .

.

110,117

(That is the traditional count

, which totals up graphic and format characters, but omits surrogate code points, ISO control codes, noncharacters, and private-use allocations.)

(41)

.Terminologia .

.

... .

.

.Unicode 6.2.0 .

.

... .

.

110,117

(That is the traditional count, which totals up graphic and format characters

, but omits surrogate code points, ISO control codes, noncharacters, and private-use allocations.)

(42)

.Terminologia .

.

... .

.

.Unicode 6.2.0 .

.

... .

.

110,117

(43)

.Janusz S. Bień, 2004 .

.

... .

.

[…] znaki piśmienne to pojęcie pierwotne, zdefiniowane przez wyliczenie.

(piśmienne) znakikodoweto pojęcie pierwotne, zdefiniowane przez wyliczenie

.Przykłady znaków kodowych .

.

... .

.

(44)

.

... .

.

... .

.

(45)

.

... .

.

... .

.

(46)

.Obszar użytku prywatnego .

.

... .

.

※ Characters on shaded background belong to the Private Use Area. Please read the introduction p. 11 carefully before using any of these characters.

MUFI character recommendation

Characters in the official Unicode Standard and in the Private Use Area for Medieval texts written in the Latin alphabet

⁋ ※ ð ƿ              ᵹ     ᴆ      ※ ¶

※ Part 1: Alphabetical order

※ Version 3.0 (5 July 2009)

※ Compliant with the Unicode Standard version 5.1

____________________________________________________________________________________________________________________

※ Medieval Unicode Font Initiative (MUFI)

※ www.mufi.info ISBN 978-82-8088-402-2

http://bc.klf.uw.edu.pl/320/ 25/43

(47)

.Równoważność kanoniczna .

.

... .

.

.Równoważność dostosowawcza .

.

... .

.

(48)

.Równoważność dostosowawcza .

.

... .

.

(49)

.Tekstele [JSB]: niestandardowe klasy równoważności .

.

... .

.

«LATIN SMALL LETTER N WITH ACUTE»:

U+006E, U+0301; U+0144

«LATIN SMALL LETTER LONG S»:

U+017F

.Tekstony [JSB]: współrzędne kodowe .

.

... .

.

’LATIN SMALL LETTER N’ (U+006E)

’COMBINING ACUTE ACCENT’ (U+0301)

’LATIN SMALL LETTER N WITH ACUTE’ (U+0144)

(50)

.Tekstele [JSB]: niestandardowe klasy równoważności .

.

... .

.

«LATIN SMALL LETTER N WITH ACUTE»:

U+006E, U+0301; U+0144

«LATIN SMALL LETTER LONG S»:

U+017F

.Tekstony [JSB]: współrzędne kodowe .

.

... .

.

’LATIN SMALL LETTER N’ (U+006E)

’COMBINING ACUTE ACCENT’ (U+0301)

’LATIN SMALL LETTER N WITH ACUTE’ (U+0144)

(51)

Od skanów do Unicode Prace planowane

Analiza podobnych projektów

ParaDIIT

Pattern Redundancy Analysis

for Document Image Indexation and Transcription

(52)

(Internetowy) słownik polszczyzny XVI wieku

http://www.nauka.gov.pl/fileadmin/user_upload/Nauka/NPRH/20121106_Zwyciezcy_NPRH_

MODUL_1.1_- _2012.pdf

Narodowy Program Rozwoju Humanistyki (edycja II — 2012) Moduł 1.1 pozycja 15

Grant 11H 12 0093 81

Słownik polszczyzny XVI wieku

i Internetowy słownik polszczyzny XVI wieku

— tomy 36–43

Instytut Badań Literackich PAN, dr Patrycja Potoniec

3 000 000 zł

(53)

Słownik polszczyzny XVI wieku w Internecie

(54)

(55)

(56)

Korpus polszczyzny XVI wieku

http://www.nauka.gov.pl/fileadmin/user_upload/Nauka/NPRH/20111027_NPRH_modul_1- 1.pdf

Narodowy Program Rozwoju Humanistyki (edycja I — 2011) Moduł 1.1 pozycja 138

Grant 11H 11 023180

Korpus polszczyzny XVI wieku. Etap I:

Digitalizacja źródeł oraz stworzenie narzędzi informatycznych i udostępnienie materiałów testowych korpusu

Instytut Badań Literackich PAN, dr Patrycja Potoniec

[mgr Krzysztof Opaliński]

1 239 614 zł

(57)

Elektroniczne Archiwum

Zabytków Piśmiennictwa Polskiego

.Projekt zamawiany PBZ-MNiSW-6/3/2006 (2008-2010) .

.

... .

.

BN, NDAP, NASK, IBL PAN, IHP PAN:

Celem projektu jest opracowanie całościowej koncepcji digitalizacji zabytków piśmiennictwa polskiego powstałych do 1600 roku,

[…]

oraz zapewnienie powszechnego dostępu do nich przy pomocy sieciInternet.

(58)

Elektroniczne Archiwum

Zabytków Piśmiennictwa Polskiego

.MNiSW-DKN-WKR-1943-2725-4/MK/11 .

.

... .

.

Raport z 24 maja 2011 r.

Departamentu Kontroli i Nadzoru MNiSzW z kontroli Narodowego Centrum Badań i Rozwoju

http://www.bip.nauka.gov.pl/bipmein/redir.jsp?place=galleryStats&id=14176

(59)

Korpus tekstów polskich z XVII i XVIII wieku …

http://www.nauka.gov.pl/fileadmin/user_upload/Nauka/NPRH/20121106_Zwyciezcy_NPRH_

MODUL_1.1_- _2012.pdf

Narodowy Program Rozwoju Humanistyki (edycja II — 2012) Moduł 1.1 pozycja 36

Grant 11H 12 0124 81

Korpus tekstów polskich z XVII i XVIII wieku (do roku 1772) Instytut Języka Polskiego PAN

dr hab. Włodzimierz Gruszczyński 900 000 zł

(60)

Dygitalizacja słownika Lindego

Słownik Lindego (1807-1814 [2. wyd. 1854-1861])

(61)

Indeks a tergo do słownika Lindego

(62)

Indeks a tergo do słownika Lindego

Weryfikacja za pomocą słownika .Zauważone pomyłki

. .

... .

.

: :

.Kontrowersyjne decyzje?

. .

... .

.

.: ?

.Błąd?

. .

... .

.

(63)

Dotychczasowe wyniki

.Dygitalizacje .

.

... .

.

http://poliqarp.wbl.klf.uw.edu.pl/slownik- lindego/

http://eprints.wbl.klf.uw.edu.pl/view/creators/Linde=3ASamuel_Bogumi==0142=3A=3A.html http://eprints.wbl.klf.uw.edu.pl/61/

.Publikacje .

.

... .

.

Joanna Bilińska, Describing Linde’s Dictionary of Polish for Digitalisation Purposes. In: Electronic lexicography in the 21st century: new applications for new users (eLEX2011),

10-12.11.2011, Bled, Slovenia, http://bc.klf.uw.edu.pl/216/

Joanna Bilińska, Составление перечня сокращенных названий языко в в рамках проекта дигитализации «Словаря польского языка» С.Б.Линде Информационные технологии и письменное наследие, El’Manuscript-12, Petrozawodsk (Rosja), 3-8 września 2012 r., http://bc.klf.uw.edu.pl/301/

(64)

Od skanów do Unicode Uwagi końcowe

Ocena parametryczna jednostki …

(65)

Od skanów do Unicode Uwagi końcowe

Kontakt

jsbien@uw.edu.pl jsbien@mimuw.edu.pl

nmpt-ann@mimuw.edu.pl

http://lists.mimuw.edu.pl/listinfo/nmpt-ann nmpt-l@mimuw.edu.pl

http://lists.mimuw.edu.pl/listinfo/nmpt-l