• Nie Znaleziono Wyników

Dygitalizacja słowników historycznych w Katedrze Lingwistyki Formalnej UW

N/A
N/A
Protected

Academic year: 2021

Share "Dygitalizacja słowników historycznych w Katedrze Lingwistyki Formalnej UW"

Copied!
29
0
0

Pełen tekst

(1)

.

. . . .

.

.

Dygitalizacja słowników historycznych w Katedrze Lingwistyki Formalnej UW

Janusz S. Bień

Katedra Lingwistyki Formalnej Wydział Neofilologii Uniwersytet Warszawski

10 stycznia 2011 r.

(uaktualnione 11.01.2011)

seminarium Przetwarzanie języka naturalnego

IPI PAN, Warszawa

(2)

Dygitalizacja słowników historycznych w Katedrze Lingwistyki Formalnej UW Wprowadzenie

Zespół

. Pracownicy .

.

. . . .

.

.

Janusz S. Bień Monika Kresa . Doktoranci

. .

. . . .

.

.

Joanna Bilińska . Studenci

. .

. . . .

.

.

1000-2D97NM, 1000-2M09BIB, 1000-2M09BSE, … . Współpraca

.

. .

Krzysztof Szafran, …

(3)

Projekty

. Narzędzia dygitalizacji tekstów na potrzeby badań filologicznych .

.

. . . .

.

.

Grant MNiSzW, 13.05.2009 - 12.11.2011

http://fleksem.klf.uw.edu.pl/~jsbien/GrantMNiSzW-k36

Janusz S. Bień

Jakub Wilk (Poliqarp for DjVu, pdftodjvu, ocrodjvu, …) Grzegorz Chimosz (przeglądarka kształtów. …)

. IMPACT — IMproving ACcess to Text .

.

. . . .

.

.

7. program ramowy, (1.01.2008) 1.02.2010 — 31.12.2011 http://www.impact-project.eu/

Janusz S. Bień

Krzysztof Szafran

(4)

Dygitalizacja słowników historycznych w Katedrze Lingwistyki Formalnej UW Wprowadzenie

Narzędzia i metody

. DjVu . .

. . . .

.

.

Format do reprezentacji dokumentów przy pomocy warstwy pikselowej (obrazów stron) i tekstelowej (ich znakowej treści) wraz z metadanymi i adnotacjami oraz do efektywnego udostępniania tak reprezentowanych dokumentów w Internecie. [JSB]

. Poliqarp [for DjVu]

. .

. . . .

.

.

Polyinterpretation Indexing Query and Retrieval Procesor (Procesor kwerend i wyszukiwań

z indeksowaniem wielointerpretacyjnym) . Text Encoding Initiative

.

.

.

5. Representation of Non-standard Characters and Glyphs

(5)

Narzędzia i metody

. DjVu . .

. . . .

.

.

Format do reprezentacji dokumentów przy pomocy warstwy pikselowej (obrazów stron) i tekstelowej (ich znakowej treści) wraz z metadanymi i adnotacjami oraz do efektywnego udostępniania tak reprezentowanych dokumentów w Internecie. [JSB]

. Poliqarp [for DjVu]

. .

. . . .

.

.

Polyinterpretation Indexing Query and Retrieval Procesor (Procesor kwerend i wyszukiwań

z indeksowaniem wielointerpretacyjnym) . Text Encoding Initiative

. .

. . . .

.

.

5. Representation of Non-standard Characters and Glyphs ENRICH Gaiji Bank of non-standard characters and glyphs

(6)

Dygitalizacja słowników historycznych w Katedrze Lingwistyki Formalnej UW Wprowadzenie

Interesujące słowniki

. Słowniki w opracowaniu .

.

. . . .

.

.

Słownik polszczyzny XVI wieku

Słownik języka polskiego XVII i 1. połowy XVIII wieku . Słowniki historyczne

.

. .

słownik Knapskiego (2 wyd., 1643–1644)

słownik Troca (1764)

słownik Lindego (2 wyd., 1854–1861)

słownik warszawski (1900–1927)

słownik Doroszewskiego (1958–1969)

Słownik Geograficzny Królestwa Polskiego … (1880-1902)

(7)

Paleografia cyfrowa

. Ortografie polskie .

.

. . . .

.

.

traktat Parkosza (ok. 1440)

Nowy Karakter Polski (1594)

. Opracowania .

.

. . . .

.

.

Zasady wydawania tekstów staropolskich (1955)

Polonia Typographica Saeculi Sedecimi.

Zbiór podobizn zasobu drukarskiego tłoczni polskich XVI stulecia (1936–1981)

(8)

Dygitalizacja słowników historycznych w Katedrze Lingwistyki Formalnej UW Wprowadzenie

Nowy Karakter Polski — skanowanie w BUW (Aerios)

(9)

Wirtualna Biblioteka Leksykograficzna

Poliqarp for DjVu

(10)

Dygitalizacja słowników historycznych w Katedrze Lingwistyki Formalnej UW Wprowadzenie

Wirtualna Biblioteka Leksykograficzna

EPrints (w przygotowaniu)

(11)

Wirtualna Biblioteka Słowników

(nieczynna od 30.12.2010)

(12)

Dygitalizacja słowników historycznych w Katedrze Lingwistyki Formalnej UW DjVu

DjVu

. Federacja Bibliotek Cyfrowych .

.

. . . .

.

.

Stan na 7 stycznia 2011 (59 bibliotek)

(13)

Dokumenty DjVu

. Własności .

.

. . . .

.

.

konspekty (outlines) adnotacje

adresowalne zaznaczenia (highlighting) hiperlinki

metadane

XMP

struktura strony

struktury kształtów

(14)

Dygitalizacja słowników historycznych w Katedrze Lingwistyki Formalnej UW DjVu

Przykład konspektu (słownik Troca)

Indeks W. Gruszczyńskiego

(15)

Przykład adresowalnego zaznaczenia

(słownik warszawski)

(16)

Dygitalizacja słowników historycznych w Katedrze Lingwistyki Formalnej UW DjVu

Przykład adnotacji (Słownik polszczyzny XVI wieku)

(17)

Przykład struktury kształtów

(Polonia Typographica …)

(18)

Dygitalizacja słowników historycznych w Katedrze Lingwistyki Formalnej UW DjVu

Przykład struktury kształtów

(IMPACT Dataset: Discurs o cenie …)

(19)

Poliqarp for DjVu

. Koncepcja .

.

. . . .

. . Janusz S. Bień

. Implementacja .

.

. . . .

. . Jakub Wilk

. Finansowanie .

. .

. . .

. . Grant MNiSzW

. Dostępność .

.

. . . .

.

.

od grudnia 2009 r. na serwerze KLF UW licencja GNU GPL

źródła udostępnione publicznie po zakończeniu projektu

(20)

Dygitalizacja słowników historycznych w Katedrze Lingwistyki Formalnej UW Poliqarp for DjVu

Słownik jako korpus (Słownik Geograficzny …)

(21)

Konkordancje również graficzne (słownik Lindego)

(22)

Dygitalizacja słowników historycznych w Katedrze Lingwistyki Formalnej UW Poliqarp for DjVu

Dane wejściowe

. Poliqarp .

.

. . . .

.

.

XCES (XML Corpus Encoding Standard)

TEI4NKJP (TEI for Narodowy Korpus Języka Polskiego) .

Poliqarp for DjVu

. .

. . . .

.

.

hOCR (J. Wilk: ocrodjvu) . Potencjalne alternatywy?

. .

.

.

.

ALTO (Analyzed Layout and Text Object)??

PAGE (Page Analysis and Ground-truth Elements)???

TEI Digital Facsimiles ????

(23)

Dane wejściowe

. Poliqarp .

.

. . . .

.

.

XCES (XML Corpus Encoding Standard)

TEI4NKJP (TEI for Narodowy Korpus Języka Polskiego) .

Poliqarp for DjVu

. .

. . . .

.

.

hOCR (J. Wilk: ocrodjvu) . Potencjalne alternatywy?

. .

. . . .

.

.

ALTO (Analyzed Layout and Text Object)??

PAGE (Page Analysis and Ground-truth Elements)???

TEI Digital Facsimiles ????

(24)

Dygitalizacja słowników historycznych w Katedrze Lingwistyki Formalnej UW Poliqarp for DjVu

Struktura dokumentów

. Sekcje („poddokumenty”) .

.

. . . .

.

.

front, body, back, …

. Słowa (unilateralne) i pokrewne jednostki .

.

. . . .

.

.

Unicode Standard Annex #29 aktualnie brak segmentacji słów

nieintuicyjne podziały, np. «przech(a)dzeczka»

= PARENTHESIZED LATIN SMALL LETTER A (U+249C)? (J. Wilk)

. Tekstele i znaki .

. .

Unicode: normalizacja NFC z wyjątkami

(25)

Struktura dokumentów

. Sekcje („poddokumenty”) .

.

. . . .

.

.

front, body, back, …

. Słowa (unilateralne) i pokrewne jednostki .

.

. . . .

.

.

Unicode Standard Annex #29 aktualnie brak segmentacji słów

nieintuicyjne podziały, np. «przech(a)dzeczka»

= PARENTHESIZED LATIN SMALL LETTER A (U+249C)? (J. Wilk)

. Tekstele i znaki .

.

. . . .

.

.

Unicode: normalizacja NFC z wyjątkami

(26)

Dygitalizacja słowników historycznych w Katedrze Lingwistyki Formalnej UW Poliqarp for DjVu

Własności słów

. Własności wykorzystywane .

.

. . . .

.

.

orth [shape]: kształt tekstelowy (np. « rossyyſki ») . Własności niewykorzystywane

.

. .

base (standardowo postać hasłowa):

hipotetyczne „lekcje” (odczytania)?

Np. « rossyjski », «rossjyski», «rossiyski», …?

znormalizowana pisownia?

Np. « rosyjski »?

atrybuty (standardowo własności gramatyczne):

font: prosty, pochyły, gotyk?

względny rozmiar fontu?

(27)

Własności słów

. Własności wykorzystywane .

.

. . . .

.

.

orth [shape]: kształt tekstelowy (np. « rossyyſki ») . Własności niewykorzystywane

. .

. . . .

.

.

base (standardowo postać hasłowa):

hipotetyczne „lekcje” (odczytania)?

Np. « rossyjski », «rossjyski», «rossiyski», …?

znormalizowana pisownia?

Np. « rosyjski »?

atrybuty (standardowo własności gramatyczne):

font: prosty, pochyły, gotyk?

względny rozmiar fontu?

(28)

Dygitalizacja słowników historycznych w Katedrze Lingwistyki Formalnej UW Poliqarp for DjVu

Prace planowane

. Grant MNiSzW (najważniejsze zadania):

. .

. . . .

.

.

Przeglądarka kształtów:

ułatwienie trenowania programów OCR (polski gotyk!), … Eksperymenty z fiszkami do słownika Knapskiego

. IMPACT:

. .

. . . .

.

.

„leksyka” (słowniki do OCR)

„leksykony” (słowniki do hasłowania itp.) . Praca doktorska J. Bilińskiej:

.

. .

Analiza i leksykograficzny opis struktury słownika Lindego

(29)

Dziękuję za uwagę!

. Niniejsza prezentacja .

.

. . . .

. . http://bc.klf.uw.edu.pl/176/

. Zajęcia dydaktyczne w semestrze letnim 2010/2011 .

.

. . . .

.

.

3322-DPSH-OG

Dygitalizacja polskich słowników historycznych (konwersatorium ogólnouniwersyteckie) 1000-2M09BSE

Budowa słowników elektronicznych

(wykład z laboratorium dla studentów informatyki)

Cytaty

Powiązane dokumenty

Humanistyka cyfrowa w Katedrze Lingwistyki Formalnej UW Metodologia — korpusy „dwuwarstwowe” tekstów skanowanych.

pokazywanie erraty lub poprawek redakcyjnych, tworzenie chmurek z wyjaśnieniami do tekstu, zaznaczanie tekstu (na skanie) kolorami, łącza do odwołań, źródeł, innych słowników,

Odczytywanie niewyraźnych fragmentów tekstów Transkrypcja tekstów (tworzenie tekstów wzorcowych) Trenowanie programów optycznego rozpoznawania znaków..

podstawowej płaszczyzny wielojęzycznej (ang. Basic Multilingual Plane) standardu Unicode, którym standard ten przypisuje własność kaszty dolnej;.

Inne dygitalizacje Katedry Lingwistyki Formalnej UW Indeks a tergo do słownika języka polskiego S.. Inne dygitalizacje Katedry Lingwistyki Formalnej UW Indeks a tergo do słownika

Tak więc, wydąje się, iż milczenie można traktować jako jeden z przykładów funkcji pragmatycznej "zawieszenia" i zastosować dla nich eksplikację typu:

nie cechy słowników online uważa się możliwość symultanicznego wyszukiwania w kilku słownikach oraz niską opłatę za korzystanie lub brak opłat w ogóle.. Obok licznych zalet

LIDO pozwala także na przechowywanie i prezentację w portalach informacji „wzbogaconej”,