Od skanów do Unicode
.
... .
.
.
Od skanów do Unicode (wersja uaktualniona i rozszerzona)
Janusz S. Bień
Katedra Lingwistyki Formalnej Wydział Neofilologii Uniwersytet Warszawski
28 września 2012 r. (Dni Technologii Językowej) IPI PAN, Warszawa
12 listopada 2012 IJP UŚ, Katowice
Od skanów do Unicode Wprowadzenie
Zespół
.Pracownicy .
.
... .
.
.
Janusz S. Bień
Joanna A. Bilińska (pół etatu od 1.10.2012)
.Współpraca .
.
... .
.
.
Narzędzia dygitalizacji tekstów … IMPACT — IMproving ACcess to Text
…
Od skanów do Unicode Wprowadzenie
Zespół
.Pracownicy .
.
... .
.
.
Janusz S. Bień
Joanna A. Bilińska (pół etatu od 1.10.2012) .Współpraca
. .
... .
.
.
Narzędzia dygitalizacji tekstów … IMPACT — IMproving ACcess to Text
…
Od skanów do Unicode Wprowadzenie
Zespół
.Pracownicy .
.
... .
.
.
Janusz S. Bień
Joanna A. Bilińska (pół etatu od 1.10.2012) .Współpraca
. .
... .
.
.
Narzędzia dygitalizacji tekstów … IMPACT — IMproving ACcess to Text
…
Od skanów do Unicode Wprowadzenie
Projekty
.Narzędzia dygitalizacji tekstów na potrzeby badań filologicznych .
.
... .
.
.
Grant MNiSzW, 13.05.2009 - 12.05.2012
https://bitbucket.org/jsbien/ndt
Janusz S. Bień (kierownik projektu),
Joanna Bilińska, Krzysztof Szafran, Jakub Wilk, Grzegorz Chimosz, Tomasz Olejniczak,
Michał Rudolf, Piotr Sikora.
.IMPACT — IMproving ACcess to Text .
.
... .
.
.
7. PR, (1.01.2008) 1.02.2010 — 31.12.2011 (30.06.2012)
http://www.digitisation.eu/tools/language- resources/historical- lexicon- polish/
Janusz S. Bień (kierownik zespołu), Krzysztof Szafran, Monika Kresa
Od skanów do Unicode Wprowadzenie
Narzędzia i metody
.DjVu . .
... .
.
.
Format i techniki
do reprezentacji dokumentów
przy pomocy warstwy graficznej i tekstowej z metadanymi i adnotacjami
oraz do efektywnego udostępniania
tak reprezentowanych dokumentów w Internecie. [JSB]
Warstwa tekstowa — czysty tekst w Unicode
Warstwa graficzna — wyrafinowane metody kompresji tło (background)
zadruk (foreground) — słowniki kształtów
Od skanów do Unicode Wprowadzenie
Narzędzia i metody
.DjVu . .
... .
.
.
Format i techniki
do reprezentacji dokumentów
przy pomocy warstwy graficznej i tekstowej z metadanymi i adnotacjami
oraz do efektywnego udostępniania
tak reprezentowanych dokumentów w Internecie.
[JSB]
Warstwa tekstowa — czysty tekst w Unicode
Warstwa graficzna — wyrafinowane metody kompresji tło (background)
zadruk (foreground) — słowniki kształtów
Od skanów do Unicode Wprowadzenie
Narzędzia i metody
.DjVu . .
... .
.
.
Format i techniki
do reprezentacji dokumentów
przy pomocy warstwy graficznej i tekstowej z metadanymi i adnotacjami
oraz do efektywnego udostępniania
tak reprezentowanych dokumentów w Internecie.
[JSB]
Warstwa tekstowa — czysty tekst w Unicode
Warstwa graficzna — wyrafinowane metody kompresji tło (background)
zadruk (foreground) — słowniki kształtów
Od skanów do Unicode Wprowadzenie
Narzędzia i metody
.The Library 2.012 worldwide virtual conference .
.
... .
.
.
October 4, 2012, 12-13 CET Janusz S. Bień
Scanned publications in digital libraries:
new Open Source DjVu tools
http://bc.klf.uw.edu.pl/298/
http://www.library20.com/forum/topics/
scanned- publications- in- digital- libraries- new- open- source- djvu
Od skanów do Unicode Wprowadzenie
Narzędzia i metody
.Tworzenie dokumentów DjVu — Jakub Wilk .
.
... .
.
.
pdf2djvu
Debian+Ubuntu popcon installed/votes: ∼ 45 000/1000 didjvu
Debian+Ubuntu popcon installed/votes: ∼ 200/20 ocrodjvu
Debian+Ubuntu popcon installed/votes: ∼ 2 000/100 djvusmooth
Debian+Ubuntu popcon installed/votes: ∼ 1 500/80
Od skanów do Unicode Wprowadzenie
Narzędzia i metody
.Poliqarp
(Polyinterpretation Indexing Query and Retrieval Procesor) .
.
... .
.
.
Adam Przepiórkowski (2004):
Korpus IPI PAN. Wersja wstępna
http://nlp.ipipan.waw.pl/~adamp/Papers/2004- corpus/
Adam Przepiórkowski, Aleksander Buczyński, Jakub Wilk (2010): Ściągawka do Narodowego Korpusu Języka Polskiego
http://eprints.wbl.klf.uw.edu.pl/56/
.Korpusy DjVu (tekstów skanowanych) .
.
... .
.
.
Poliqarp for DjVu — serwer
marasca — klient WWW (używany obecnie także przez NKJP) Djview for Poliqarp — klient zdalny
Od skanów do Unicode Wprowadzenie
Poliqarp (GUI) — przykład korpusu
(http://bc.klf.uw.edu.pl/287/)
.Eksperymentalny korpus cytatów SpXVIIw .
.
... .
.
.
Od skanów do Unicode Wprowadzenie
Poliqarp (GUI) — przykład korpusu
.Eksperymentalny korpus słownika Lindego (oba wydania) .
.
... .
.
.
Od skanów do Unicode Wprowadzenie
Analiza kształtów zadruku
.Eksperymentalne narzędzia (system GNU/Linux) .
.
... .
.
.
Lokalna przeglądarka kształtów wspólnych Narzędzia typu klient-serwer
eksporter etykieciarka .Potencjalne zastosowania .
.
... .
.
.
Odczytywanie niewyraźnych fragmentów tekstów Transkrypcja tekstów (tworzenie tekstów wzorcowych) Trenowanie programów optycznego rozpoznawania znaków
Od skanów do Unicode Wprowadzenie
Lokalna przeglądarka kształtów
.Wykaz wystąpień kształtów podobnych do litery C .
.
... .
.
.
Od skanów do Unicode Wprowadzenie
Analiza kształtów
.Hierarchia kształtów litery c z „zabłąkaną” literą e .
.
... .
.
.
Od skanów do Unicode Wprowadzenie
Analiza kształtów
.Eliminacja „zabłąkanej” litery e .
.
... .
.
.
Od skanów do Unicode Korpusy DjVu
Przykłady korpusów DjVu
http://poliqarp.wbl.klf.uw.edu.pl .Słownik polszczyzny XVI wieku (wychodzi od 1966 r.) .
.
... .
. .Ukazało sie 35 tomów (A do ROWNY), razem około 19 000 stron .Korpus tekstów wzorcowych projektu IMPACT
. ..
.. .
. .Prawie 5 000 stron tekstów z lat 1570–1756
.Słownik Lindego .
.
... .
.
.
Pierwsze wydanie 1807–1814, drugie wydanie 1854-1861, reprinty drugiego wydania w 1951 i1994-1995,
razem około 4 500 stron.
Od skanów do Unicode Korpusy DjVu
Przykład kwerendy — korpus IMPACT
Od skanów do Unicode Kodowanie
Przykłady tekstów — Słownik polszczyzny XVI wieku
a uncjalne, z „kreślone”, …
Od skanów do Unicode Kodowanie
Przykłady tekstów — Słownik polszczyzny XVI wieku
a uncjalne, z „kreślone”, …
Od skanów do Unicode Kodowanie
Przykłady tekstów — Słownik polszczyzny XVI wieku
a uncjalne, z „kreślone”, …
Od skanów do Unicode Kodowanie
Przykłady tekstów — Słownik polszczyzny XVI wieku
ligatura dz, r z ogonkiem, …
Od skanów do Unicode Kodowanie
Przykłady tekstów — Słownik polszczyzny XVI wieku
ligatura dz, r z ogonkiem, …
Od skanów do Unicode Kodowanie
Przykłady tekstów — Słownik polszczyzny XVI wieku
ligatura dz, r z ogonkiem, …
Od skanów do Unicode Kodowanie
Przykłady tekstów — Słownik polszczyzny XVI wieku
.Tom VI (1972), s. 221 .
.
... .
.
.
.Tom XXXI (2003), s. 302 .
.
... .
.
.
ligatura dz, u/v, …
Od skanów do Unicode Kodowanie
Przykłady tekstów — Słownik polszczyzny XVI wieku
.Tom VI (1972), s. 221 .
.
... .
.
.
.Tom XXXI (2003), s. 302 .
.
... .
.
.
ligatura dz, u/v, …
Od skanów do Unicode Kodowanie
Przykłady tekstów — Słownik polszczyzny XVI wieku
.Tom VI (1972), s. 221 .
.
... .
.
.
.Tom XXXI (2003), s. 302 .
.
... .
.
.
ligatura dz, u/v, …
Od skanów do Unicode Kodowanie
Zasady wydawania tekstów staropolskich (1955)
http://ebuw.uw.edu.pl/publication/1334
Od skanów do Unicode Kodowanie
Instrukcja redakcyjna Słownika polszczyzny XVI wieku
Od skanów do Unicode Kodowanie
Przykłady tekstów — korpus IMPACT
Od skanów do Unicode Kodowanie
Przykłady tekstów — korpus IMPACT
Od skanów do Unicode Kodowanie
Przykłady tekstów — korpus IMPACT
Od skanów do Unicode Kodowanie
Przykłady tekstów — korpus IMPACT
Od skanów do Unicode Standard Unicode
Co to jest Unicode?
http://www.unicode.org/standard/WhatIsUnicode.html
Od skanów do Unicode Standard Unicode
Co to jest znak (character)?
.Terminologia .
.
... .
.
.
(abstract) character = znak (piśmienny)
(encoded) character = (piśmienny) znak kodowy code point = współrzędna kodowa
.Unicode 6.2.0 .
.
... .
.
.
Release date: 2012, September 26
http://www.unicode.org/versions/Unicode6.2.0/ […] the total number of characters assigned in the standard […] 110,117
(That is the traditional count, which totals up graphic and format characters, but omits surrogate code points, ISO control codes, noncharacters, and private-use allocations.)
Od skanów do Unicode Standard Unicode
Co to jest znak (character)?
.Terminologia .
.
... .
.
.
(abstract) character = znak (piśmienny)
(encoded) character = (piśmienny) znak kodowy
code point = współrzędna kodowa .Unicode 6.2.0
. .
... .
.
.
Release date: 2012, September 26
http://www.unicode.org/versions/Unicode6.2.0/ […] the total number of characters assigned in the standard […] 110,117
(That is the traditional count, which totals up graphic and format characters, but omits surrogate code points, ISO control codes, noncharacters, and private-use allocations.)
Od skanów do Unicode Standard Unicode
Co to jest znak (character)?
.Terminologia .
.
... .
.
.
(abstract) character = znak (piśmienny)
(encoded) character = (piśmienny) znak kodowy code point = współrzędna kodowa
.Unicode 6.2.0 .
.
... .
.
.
Release date: 2012, September 26
http://www.unicode.org/versions/Unicode6.2.0/ […] the total number of characters assigned in the standard […] 110,117
(That is the traditional count, which totals up graphic and format characters, but omits surrogate code points, ISO control codes, noncharacters, and private-use allocations.)
Od skanów do Unicode Standard Unicode
Co to jest znak (character)?
.Terminologia .
.
... .
.
.
(abstract) character = znak (piśmienny)
(encoded) character = (piśmienny) znak kodowy code point = współrzędna kodowa
.Unicode 6.2.0 .
.
... .
.
.
Release date: 2012, September 26
http://www.unicode.org/versions/Unicode6.2.0/
[…] the total number of characters assigned in the standard […]
110,117
(That is the traditional count, which totals up graphic and format characters, but omits surrogate code points, ISO control codes, noncharacters, and private-use allocations.)
Od skanów do Unicode Standard Unicode
Co to jest znak (character)?
.Terminologia .
.
... .
.
.
(abstract) character = znak (piśmienny)
(encoded) character = (piśmienny) znak kodowy code point = współrzędna kodowa
.Unicode 6.2.0 .
.
... .
.
.
Release date: 2012, September 26
http://www.unicode.org/versions/Unicode6.2.0/
[…] the total number of characters assigned in the standard […]
110,117
(That is the traditional count
, which totals up graphic and format characters, but omits surrogate code points, ISO control codes, noncharacters, and private-use allocations.)
Od skanów do Unicode Standard Unicode
Co to jest znak (character)?
.Terminologia .
.
... .
.
.
(abstract) character = znak (piśmienny)
(encoded) character = (piśmienny) znak kodowy code point = współrzędna kodowa
.Unicode 6.2.0 .
.
... .
.
.
Release date: 2012, September 26
http://www.unicode.org/versions/Unicode6.2.0/
[…] the total number of characters assigned in the standard […]
110,117
(That is the traditional count, which totals up graphic and format characters
, but omits surrogate code points, ISO control codes, noncharacters, and private-use allocations.)
Od skanów do Unicode Standard Unicode
Co to jest znak (character)?
.Terminologia .
.
... .
.
.
(abstract) character = znak (piśmienny)
(encoded) character = (piśmienny) znak kodowy code point = współrzędna kodowa
.Unicode 6.2.0 .
.
... .
.
.
Release date: 2012, September 26
http://www.unicode.org/versions/Unicode6.2.0/
[…] the total number of characters assigned in the standard […]
110,117
(That is the traditional count, which totals up graphic and format characters, but omits surrogate code points, ISO control codes, noncharacters, and private-use allocations.)
Od skanów do Unicode Standard Unicode
Co to jest znak (character)?
.Janusz S. Bień, 2004 .
.
... .
.
.
http://bc.klf.uw.edu.pl/114/
[…] znaki piśmienne to pojęcie pierwotne, zdefiniowane przez wyliczenie.
(piśmienne) znakikodoweto pojęcie pierwotne, zdefiniowane przez wyliczenie
.Przykłady znaków kodowych .
.
... .
.
.
Od skanów do Unicode Standard Unicode
Co to jest znak (character)?
.Janusz S. Bień, 2004 .
.
... .
.
.
http://bc.klf.uw.edu.pl/114/
[…] znaki piśmienne to pojęcie pierwotne, zdefiniowane przez wyliczenie.
(piśmienne) znakikodoweto pojęcie pierwotne, zdefiniowane przez wyliczenie
.Przykłady znaków kodowych .
.
... .
.
.
Od skanów do Unicode Standard Unicode
Co to jest znak (character)?
.Janusz S. Bień, 2004 .
.
... .
.
.
http://bc.klf.uw.edu.pl/114/
[…] znaki piśmienne to pojęcie pierwotne, zdefiniowane przez wyliczenie.
(piśmienne) znakikodoweto pojęcie pierwotne, zdefiniowane przez wyliczenie
.Przykłady znaków kodowych .
.
... .
.
.
Od skanów do Unicode Standard Unicode
Co to jest znak (character)?
.Obszar użytku prywatnego .
.
... .
.
.
※ Characters on shaded background belong to the Private Use Area. Please read the introduction p. 11 carefully before using any of these characters.
MUFI character recommendation
Characters in the official Unicode Standard and in the Private Use Area for Medieval texts written in the Latin alphabet
⁋ ※ ð ƿ ᵹ ᴆ ※ ¶
※ Part 1: Alphabetical order
※ Version 3.0 (5 July 2009)
※ Compliant with the Unicode Standard version 5.1
____________________________________________________________________________________________________________________
※ Medieval Unicode Font Initiative (MUFI)
※ www.mufi.info ISBN 978-82-8088-402-2
http://bc.klf.uw.edu.pl/320/ 25/43
Od skanów do Unicode Standard Unicode
Co to jest znak (character)?
.Równoważność kanoniczna .
.
... .
.
.
.Równoważność dostosowawcza .
.
... .
.
.
Od skanów do Unicode Standard Unicode
Co to jest znak (character)?
.Równoważność dostosowawcza .
.
... .
.
.
Od skanów do Unicode Standard Unicode
Co to jest znak (character)?
.Tekstele [JSB]: niestandardowe klasy równoważności .
.
... .
.
.
«LATIN SMALL LETTER N WITH ACUTE»:
U+006E, U+0301; U+0144
«LATIN SMALL LETTER LONG S»:
U+017F
.Tekstony [JSB]: współrzędne kodowe .
.
... .
.
.
’LATIN SMALL LETTER N’ (U+006E)
’COMBINING ACUTE ACCENT’ (U+0301)
’LATIN SMALL LETTER N WITH ACUTE’ (U+0144)
Od skanów do Unicode Standard Unicode
Co to jest znak (character)?
.Tekstele [JSB]: niestandardowe klasy równoważności .
.
... .
.
.
«LATIN SMALL LETTER N WITH ACUTE»:
U+006E, U+0301; U+0144
«LATIN SMALL LETTER LONG S»:
U+017F
.Tekstony [JSB]: współrzędne kodowe .
.
... .
.
.
’LATIN SMALL LETTER N’ (U+006E)
’COMBINING ACUTE ACCENT’ (U+0301)
’LATIN SMALL LETTER N WITH ACUTE’ (U+0144)
Od skanów do Unicode Prace planowane
Analiza podobnych projektów
ParaDIIT
Pattern Redundancy Analysis
for Document Image Indexation and Transcription
Od skanów do Unicode Prace planowane
Analiza podobnych projektów
(Internetowy) słownik polszczyzny XVI wieku
http://www.nauka.gov.pl/fileadmin/user_upload/Nauka/NPRH/20121106_Zwyciezcy_NPRH_
MODUL_1.1_- _2012.pdf
Narodowy Program Rozwoju Humanistyki (edycja II — 2012) Moduł 1.1 pozycja 15
Grant 11H 12 0093 81
Słownik polszczyzny XVI wieku
i Internetowy słownik polszczyzny XVI wieku
— tomy 36–43
Instytut Badań Literackich PAN, dr Patrycja Potoniec
3 000 000 zł
Od skanów do Unicode Prace planowane
Analiza podobnych projektów
Słownik polszczyzny XVI wieku w Internecie
Od skanów do Unicode Prace planowane
Analiza podobnych projektów
Słownik polszczyzny XVI wieku w Internecie
Od skanów do Unicode Prace planowane
Analiza podobnych projektów
Słownik polszczyzny XVI wieku w Internecie
Od skanów do Unicode Prace planowane
Analiza podobnych projektów
Korpus polszczyzny XVI wieku
http://www.nauka.gov.pl/fileadmin/user_upload/Nauka/NPRH/20111027_NPRH_modul_1- 1.pdf
Narodowy Program Rozwoju Humanistyki (edycja I — 2011) Moduł 1.1 pozycja 138
Grant 11H 11 023180
Korpus polszczyzny XVI wieku. Etap I:
Digitalizacja źródeł oraz stworzenie narzędzi informatycznych i udostępnienie materiałów testowych korpusu
Instytut Badań Literackich PAN, dr Patrycja Potoniec
[mgr Krzysztof Opaliński]
1 239 614 zł
Od skanów do Unicode Prace planowane
Analiza podobnych projektów
Elektroniczne Archiwum
Zabytków Piśmiennictwa Polskiego
.Projekt zamawiany PBZ-MNiSW-6/3/2006 (2008-2010) .
.
... .
.
.
BN, NDAP, NASK, IBL PAN, IHP PAN:
Celem projektu jest opracowanie całościowej koncepcji digitalizacji zabytków piśmiennictwa polskiego powstałych do 1600 roku,
[…]
oraz zapewnienie powszechnego dostępu do nich przy pomocy sieciInternet.
Od skanów do Unicode Prace planowane
Analiza podobnych projektów
Elektroniczne Archiwum
Zabytków Piśmiennictwa Polskiego
.MNiSW-DKN-WKR-1943-2725-4/MK/11 .
.
... .
.
.
Raport z 24 maja 2011 r.
Departamentu Kontroli i Nadzoru MNiSzW z kontroli Narodowego Centrum Badań i Rozwoju
http://www.bip.nauka.gov.pl/bipmein/redir.jsp?place=galleryStats&id=14176
Od skanów do Unicode Prace planowane
Analiza podobnych projektów
Korpus tekstów polskich z XVII i XVIII wieku …
http://www.nauka.gov.pl/fileadmin/user_upload/Nauka/NPRH/20121106_Zwyciezcy_NPRH_
MODUL_1.1_- _2012.pdf
Narodowy Program Rozwoju Humanistyki (edycja II — 2012) Moduł 1.1 pozycja 36
Grant 11H 12 0124 81
Korpus tekstów polskich z XVII i XVIII wieku (do roku 1772) Instytut Języka Polskiego PAN
dr hab. Włodzimierz Gruszczyński 900 000 zł
Od skanów do Unicode Prace planowane
Dygitalizacja słownika Lindego
Słownik Lindego (1807-1814 [2. wyd. 1854-1861])
Od skanów do Unicode Prace planowane
Dygitalizacja słownika Lindego
Indeks a tergo do słownika Lindego
Od skanów do Unicode Prace planowane
Dygitalizacja słownika Lindego
Indeks a tergo do słownika Lindego
Weryfikacja za pomocą słownika .Zauważone pomyłki
. .
... .
.
.
: :
.Kontrowersyjne decyzje?
. .
... .
.
.: ?
.Błąd?
. .
... .
.
.
Od skanów do Unicode Prace planowane
Dygitalizacja słownika Lindego
Dotychczasowe wyniki
.Dygitalizacje .
.
... .
.
.
http://poliqarp.wbl.klf.uw.edu.pl/slownik- lindego/
http://eprints.wbl.klf.uw.edu.pl/view/creators/Linde=3ASamuel_Bogumi==0142=3A=3A.html http://eprints.wbl.klf.uw.edu.pl/61/
.Publikacje .
.
... .
.
.
Joanna Bilińska, Describing Linde’s Dictionary of Polish for Digitalisation Purposes. In: Electronic lexicography in the 21st century: new applications for new users (eLEX2011),
10-12.11.2011, Bled, Slovenia, http://bc.klf.uw.edu.pl/216/
Joanna Bilińska, Составление перечня сокращенных названий языко в в рамках проекта дигитализации «Словаря польского языка» С.Б.Линде Информационные технологии и письменное наследие, El’Manuscript-12, Petrozawodsk (Rosja), 3-8 września 2012 r., http://bc.klf.uw.edu.pl/301/
Od skanów do Unicode Uwagi końcowe
Ocena parametryczna jednostki …
Od skanów do Unicode Uwagi końcowe
Kontakt
jsbien@uw.edu.pl jsbien@mimuw.edu.pl
nmpt-ann@mimuw.edu.pl
http://lists.mimuw.edu.pl/listinfo/nmpt-ann nmpt-l@mimuw.edu.pl
http://lists.mimuw.edu.pl/listinfo/nmpt-l