• Nie Znaleziono Wyników

Słowniki elektroniczne i dygitalizacja tekstów

N/A
N/A
Protected

Academic year: 2021

Share "Słowniki elektroniczne i dygitalizacja tekstów"

Copied!
19
0
0

Pełen tekst

(1)

[Biblioteki cyfrowe,]Słowniki elektroniczne i dygitalizacja tekstów

.

. . . .

.

.

[Biblioteki cyfrowe,]

Słowniki elektroniczne i dygitalizacja tekstów

Oferta seminarium magisterskiego 2011/2012

prof. dr hab. Janusz S. Bień dr hab. Krzysztof Szafran

Katedra Lingwistyki Formalnej, Instytut Informatyki Uniwersytet Warszawski

Planowany termin prezentacji: 18.10.2011

(2)

. . . . . .

[Biblioteki cyfrowe,]Słowniki elektroniczne i dygitalizacja tekstów Biblioteki cyfrowe

Biblioteka Cyfrowa KLF UW (od 13 października 2008 r.)

http://bc.klf.uw.edu.pl

(3)

[Biblioteki cyfrowe,]Słowniki elektroniczne i dygitalizacja tekstów Biblioteki cyfrowe

Wirtualna Biblioteka Leksykograficzna

http://eprints.wbl.klf.uw.edu.pl/

(4)

. . . . . .

[Biblioteki cyfrowe,]Słowniki elektroniczne i dygitalizacja tekstów Biblioteki cyfrowe

Cyfrowa Bibioteka Druków Ulotnych Polskich i Polski Dotyczących

http://cbdu.id.uw.edu.pl/

(5)

[Biblioteki cyfrowe,]Słowniki elektroniczne i dygitalizacja tekstów Biblioteki cyfrowe

Open Library

http://openlibrary.org/

(6)

. . . . . .

[Biblioteki cyfrowe,]Słowniki elektroniczne i dygitalizacja tekstów Dygitalizacja

OCR

. Przetwarzanie skanów .

.

. . . .

.

.

Prostowanie, przycinanie, … . Rozpoznawanie znaków

. .

. . . .

.

.

ABBY FineReader [Desktop, CLI, SDK]

Tesseract Ocropus Gamera

. Rozpoznawanie struktury strony .

.

. . . .

.

.

Podział na kolumny, żywa pagina, …

(7)

[Biblioteki cyfrowe,]Słowniki elektroniczne i dygitalizacja tekstów Dygitalizacja

Unicode, TEI i fonty

. Unicode .

.

. . . .

. . www.unicode.org

. Text Encoding Initiative .

.

. . . .

.

.

5. Representation of Non-standard Characters and Glyphs

ENRICH Gaiji Bank of non-standard characters and glyphs

. Medieval Unicode Font Initiative

. .

. . . .

.

.

http://www.mufi.info/

http://junicode.sourceforge.net/

(8)

. . . . . .

[Biblioteki cyfrowe,]Słowniki elektroniczne i dygitalizacja tekstów Dygitalizacja

Narzędzia

. Poliqarp for DjVu .

.

. . . .

.

.

Polyinterpretation Indexing Query and Retrieval Procesor (Procesor kwerend i wyszukiwań

z indeksowaniem wielointerpretacyjnym) http://poliqarp.sourceforge.net/

http://poliqarp.wbl.klf.uw.edu.pl/

. Text Encoding Initiative .

.

. . . .

.

.

http://tapor.uvic.ca/~mholmes/image_markup/

http://v-machine.org/

. Inne . .

. . . .

.

. http://glossword.biz/

(9)

[Biblioteki cyfrowe,]Słowniki elektroniczne i dygitalizacja tekstów Dygitalizacja

Wirtualna Biblioteka Leksykograficzna (Poliqarp4DjVu)

(10)

. . . . . .

[Biblioteki cyfrowe,]Słowniki elektroniczne i dygitalizacja tekstów Dygitalizacja

Wirtualna Biblioteka Słowników (Glossword)

(nieczynna od 30.12.2010)

(11)

[Biblioteki cyfrowe,]Słowniki elektroniczne i dygitalizacja tekstów Teksty

Interesujące słowniki

. Słowniki w opracowaniu .

.

. . . .

.

.

Słownik polszczyzny XVI wieku

Słownik języka polskiego XVII i 1. połowy XVIII wieku . Słowniki historyczne

. .

.

.

słownik Knapskiego (2 wyd., 1643–1644)

słownik Troca (1764)

słownik Lindego (2 wyd., 1854–1861)

słownik warszawski (1900–1927)

słownik Doroszewskiego (1958–1969)

Słownik Geograficzny Królestwa Polskiego … (1880-1902)

(12)

. . . . . .

[Biblioteki cyfrowe,]Słowniki elektroniczne i dygitalizacja tekstów Teksty

Paleografia cyfrowa

. Ortografie polskie .

.

. . . .

.

.

traktat Parkosza (ok. 1440)

Nowy Karakter Polski (1594)

… . Opracowania .

.

. . . .

.

.

Zasady wydawania tekstów staropolskich (1955)

Polonia Typographica Saeculi Sedecimi.

Zbiór podobizn zasobu drukarskiego tłoczni polskich XVI stulecia (1936–1981)

(13)

[Biblioteki cyfrowe,]Słowniki elektroniczne i dygitalizacja tekstów Teksty

Teksty wzorcowe (ground-truth)

. Książki . .

. . . .

.

.

Łącznie 4094 strony:

skany oryginałów: 3528, skany mikrofilmów: 566.

Daty wydania: od 1617 do 1756.

. Benedykt Chmielowski Nowe Ateny, 3027 stron .

.

. . . .

.

.

część pierwsza, drugie wydanie (1756), 844 stron, http://www.wbc.poznan.pl/publication/3735 część druga (1746), 810 stron, http://www.wbc.poznan.pl/publication/3736

część trzecia (1754), 741 stron, http://www.wbc.poznan.pl/publication/3754 część czwarta (1756), 632 stron, http://www.wbc.poznan.pl/publication/3737

(14)

. . . . . .

[Biblioteki cyfrowe,]Słowniki elektroniczne i dygitalizacja tekstów Teksty

Teksty wzorcowe (ground-truth)

. Książki . .

. . . .

.

.

Zbiór rytmów duchownych Panegirycznych Moralnych i Swiatowych, 1752, 566 stron,

http://www.wbc.poznan.pl/publication/13950 Erazm Sixtus O cieplicach we Skle, 1617, 242 stron,

http://dlibra.bibliotekaelblaska.pl/

publication/6186

Jakub Haur, Oekonomika ziemianska generalna …, 1675, 195 stron,

http://www.dbc.wroc.pl/publication/1459 Jan Grodwanger Discurs o cenie pieniedzy teraznieyszey …, 1632, 64 strony, http://dlibra.

bibliotekaelblaska.pl/publication/6254

(15)

[Biblioteki cyfrowe,]Słowniki elektroniczne i dygitalizacja tekstów Teksty

Teksty wzorcowe (ground-truth)

. Cyfrowa Biblioteka Druków Ulotnych Polskich i Polski dotyczących

. .

. . . .

.

.

http://cbdu.id.uw.edu.pl/

Łącznie 599 stron

skany mikrofilmów.

Liczba publikacji: 25.

Objętość od 6 do 32 stron.

Daty wydania: od 1570 do 1728:

XVI wiek - 3 pozycje, XVII wiek - 21 pozycje, XVIII wiek - 1 pozycja.

(16)

. . . . . .

[Biblioteki cyfrowe,]Słowniki elektroniczne i dygitalizacja tekstów Teksty

Inne teksty

. Teksty fizyczne .

.

. . . .

.

.

Zabytkowa dokumentacja komputerów i oprogramowania Zabytkowe publikacje informatyczne

. Teksty urodzone cyfrowo .

.

. . . .

.

.

Teksty lokalizacyjne Poczta elektroniczna

Zabytkowe publikacje elektroniczne

(17)

[Biblioteki cyfrowe,]Słowniki elektroniczne i dygitalizacja tekstów Przykładowe prace magisterski

Przykład ukończonych prac magisterskiej

Jakub Wilk

Rozbudowa pakietu oprogramowania DjVuLibre, 2008, http://jw209508.hopto.org/papers/thesis/

http://jwilk.net/software/

Tomasz Olejniczak

Obsługa formatu PDF/A na potrzeby digitalizacji tekstów, 2011 http://students.mimuw.edu.pl/~to236111/

PDFAUtilities/

(18)

. . . . . .

[Biblioteki cyfrowe,]Słowniki elektroniczne i dygitalizacja tekstów Przykładowe prace magisterski

Przykładowe tematy prac magisterskich

Rozbudowa swobodnych programów do OCR

(np. http://ldp.library.jhu.edu/projects/gamera/).

Instalatory dla Linuksa publikacji elektronicznych

pobranych z bibliotek cyfrowych lub dostępnych na CD/DVD (np. Biblioteka zabytków polskiego piśmiennictwa średniowiecznego).

Przygotowanie lub udoskonalenie cyfrowych wersji wybranych publikacji lub zasobów.

Narzędzia do składu tekstów dawnych, np. rozbudowa systemu XeLaTEX,

rozbudowa swobodnego fontu Junicode i/lub podobnych.

(19)

[Biblioteki cyfrowe,]Słowniki elektroniczne i dygitalizacja tekstów Przykładowe prace magisterski

Zapraszamy na seminarium!

Cytaty

Powiązane dokumenty

Aby sprawdzić, czy leksemy obecne w Polskim słowniku lekarskim, a nie- odnotowane ani w Słowniku warszawskim, ani u Karłowicza mają potwierdze- nie w jakichś innych

Protokół egzaminu w Archiwum Prac Dyplomowych (APD) może utworzyć przewodniczący komisji w przypadku, gdy zostały uzupełnione wszystkie recenzje i praca znajduje się na etapie

Odczytywanie niewyraźnych fragmentów tekstów Transkrypcja tekstów (tworzenie tekstów wzorcowych) Trenowanie programów optycznego rozpoznawania znaków..

Dygitalizacja słowników historycznych w Katedrze Lingwistyki Formalnej UW Poliqarp for DjVu.. Słownik jako korpus (Słownik

Doroszewskiego: słowniki mają powodować zmianę poglądów czytelników – szczegółowa selekcja słownictwa, które się tam znalazło;. 

(These scores are used while evaluating institutional and individual performance of research and education entities).

Zachęcam do samodzielnego wyrobienia sobie opinii, czy biblioteki te wybrały właściwą drogę, przez porównanie dygitalizacji słownika Lindego (dostępny w formacie DjVu

Przypominam adres elektronicznej skrzynki pocztowej: kris.thorn@o2.pl (taki jak dotąd), na który należy wysyłać prace i ”dowody”