• Nie Znaleziono Wyników

Standard Unicode 4.0. Wybrane pojęcia i terminy

N/A
N/A
Protected

Academic year: 2021

Share "Standard Unicode 4.0. Wybrane pojęcia i terminy"

Copied!
43
0
0

Pełen tekst

(1)

Spis treści -1

BachoTEX 2004 Kodowanie tekstów w komputerze

Kodowanie tekstów w komputerze

Unicode 4.0

Unicode Consortium (www.unicode.org) Terminologia Unicode Unicode 4.0

Alfabety i symbole Alfabety i symbole

Zunifikowane znaki hanowskie

Koreańskie znaki sylabiczne Koreańskie znaki sylabiczne Znaki i glify

Znaki i glify Dygresja Grafemika

Grafem w Unikodzie

Podział znaków piśmiennych Znaki dostosowawcze

Dekompozycja dostosowawcza Dekompozycja kanoniczna Dekompozycja kanoniczna Kompozyty i singletony

(2)

Spis treści 0

Dekompozycja normalizacyjna Dekompozycja adaptacyjna Własności znaków

Własności znaków Własności znaków Własności znaków Własności znaków Unifikacja i skrypty

Założenia projektowe (Design principles)

Założenia projektowe (Design principles)

(3)

BachoTEX 2004 1

Janusz S. Bień

UNICODE 4.0

Podstawowe pojęcia i terminy

30.04.2004

http://www.mimuw.edu.pl/~jsbien/

slajdy/JSB-GUST04-s.pdf

(4)

Kodowanie tekstów w komputerze 2

Rodzaje kodowania:

• akustyczne

• wizualne

• symboliczne

• technologiczne

(5)

Kodowanie tekstów w komputerze 3

Kodowanie symboliczne:

• czysty tekst (plain text )

• tekst adiustowany

(marked-up text )

(6)

Kodowanie tekstów w komputerze 4

Czysty tekst

kodowany symbolicznie:

• ciąg znaków piśmiennych

• znaki piśmienne (characters)

reprezentowane przez liczby naturalne

(7)

Unicode 4.0 5

(8)

Unicode 4.0 6

The Unicode Standard Version 4.0

1504 strony plus CD-ROM Addison-Wesley

27.08.2003

(9)

Unicode Consortium (www.unicode.org) 7

(10)

Terminologia Unicode 8

Znaki (piśmienne)

(abstract) character

(11)

Terminologia Unicode 9

repertuar

znaków piśmiennych abstract character

repertoire

(12)

Terminologia Unicode 10

współrzędna kodowa znaku

character code point

(13)

Unicode 4.0 11

96 246 znaków:

alfabety i symbole ok. 14 000

zunifikowane znaki hanowskie ok. 20 000

dodatkowe znaki hanowskie ok. 50 000

koreańskie znaki sylabiczne ok. 11 000

(14)

Alfabety i symbole 12 CYRILLIC CAPITAL LETTER KOMI ZJE

(15)

Alfabety i symbole 13 EIGHT PETALLED OUTLINED BLACK FLORETTE

(16)

Zunifikowane znaki hanowskie 14

Unified Han Ideographs dynastia hanowska

dynastia Han od 206 r. p.n.e.

pismo hanowskie:

Chiny – wersja tradycyjna Chiny – wersja uproszczona

Japonia Korea

(17)

Zunifikowane znaki hanowskie 15

(18)

Koreańskie znaki sylabiczne 16

Pismo koreańskie (hangul) alfabetyczne

ale

znaki są wpisywane w prostokąt!

(19)

Koreańskie znaki sylabiczne 17

(20)

Znaki i glify 18

LATIN SMALL LETTER A WITH OGONEK

ą ą ą ą ą

ą ą ą ą ą

ą ą ą ą ą 261

(heksadecymalnie 0105)

(21)

Znaki i glify 19

Glify (glyphs) ą ą ą ą ą

ą ą ą ą ą

ą ą ą ą ą

Znak piśmienny (abstract character) 261

(heksadecymalnie 0105) LATIN SMALL LETTER A

WITH OGONEK

(22)

Znaki i glify 20

Znak czy glif ? A (alfabet łaciński)

A (alfabet grecki)

A (cyrylica)

(23)

Dygresja 21

geometria a

grafemika

(24)

Grafemika 22

Jan Niecisław

Baudouin de Courtenay

Istniejące stale w naszej psychice wyobrażenie niepodzielnej litery nazywamy grafemą.

1915

(25)

Grafem w Unikodzie 23

http://www.unicode.org/glossary/

Grapheme. [. . . ]

(2) What a user thinks of as a character.

2004

(26)

Podział znaków piśmiennych 24

znaki właściwe

normal characters

znaki dostosowawcze

compatibility characters

(27)

Znaki dostosowawcze 25

konwertowalność

test przekodowania okrężnego round-trip test

dekompozycja dostosowawcza

compatibility decomposition

(28)

Dekompozycja dostosowawcza 26

dekompozycja kanoniczna canonical decomposition dekompozycja adaptacyjna

[proper ]

compatibility decomposition

(29)

Dekompozycja kanoniczna 27

OHM SIGN 2126

GREEK CAPITAL LETTER OMEGA

03A9

(30)

Dekompozycja kanoniczna 28

dostosowawcza dekompozycja kanoniczna [???] canonical decomposition

normalizacyjna dekompozycja kanoniczna

[???] canonical decomposition

(31)

Kompozyty i singletony 29

kompozyty

znaki rozkładalne (NIE: złożone) precomposed characters

composites

singletony

znaki nierozkładalne

nondecomposable characters

(32)

Dekompozycja normalizacyjna 30

LATIN CAPITAL LETTER A WITH OGONEK 0104

LATIN CAPITAL LETTER A 0041

COMBINING OGONEK

0328

(33)

Dekompozycja adaptacyjna 31

SUPERSCRIPT ONE 00B9

DIGIT ONE

0031

(34)

Własności znaków 32

D2b Character semantics:

The semantics of a character are determined by its identity, normative properties, and

behavior.

(35)

Własności znaków 33

Własności znaków normatywne

informacyjne

(36)

Własności znaków 34

Normatywne własności znaków nieznak

noncharacter odstęp whitespace

blok block

[. . . ]

(37)

Własności znaków 35

Bloki Unicode’u

Arabic presentation forms

arabskie warianty prezentacyjne

(Word: Formularze prezentacji arabskiej !)

Spacing Modifier Letters

gabarytowe [?!] modyfikatory literowe [?!]

(Windows XP: Litery modyfikujące odstępy!)

(38)

Własności znaków 36

kaszta case

przekształcenia kasztowe case mapping

kaszta górna (majuskuły) kaszta dolna (minuskuły)

kaszta tytułowa title case redukowanie kaszt

case folding

(39)

Własności znaków 37

Znak czy glif ? A (alfabet łaciński) a

A (alfabet grecki) α

A (cyrylica) a

(40)

Własności znaków 38

Znak czy glif ?

A (alfabet łaciński) a LATIN CAPITAL LETTER A

0041

A (alfabet grecki) α

GREEK CAPITAL LETTER ALPHA 0391

A (cyrylica) a

CYRILLIC CAPITAL LETTER A

0410

(41)

Unifikacja i skrypty 39

systemy pisma pisma skrypty

scripts

unifikacja wschodnioazjatycka

CJK unification

(42)

Założenia projektowe (Design principles) 40

• Czysty tekst (nie adiustowany).

• Znaki piśmienne, nie glify.

• Unifikacja.

• Dynamiczne składanie znaków

• Uniwersalność.

(43)

Założenia projektowe (Design principles) 41

• Efektywność.

• „Semantyka” znaków.

• „Logiczna” (nie graficzna) kolejność.

• Równoważne reprezentacje.

• Konwertowalność

Cytaty

Powiązane dokumenty

Bufor to wielkość tej tablicy (tablica może przechować bufor - 1 znaków + znak końca tablicy).2.

pierwszym argumentem jest pozycja początku ciągu, którym chcemy zastąpić część danego ciągu, drugi argument to ilość znaków do zastąpienia, a trzeci to ciąg zastępczy.

 Inicjalizacja możliwa jest tylko przy deklaracji Inicjalizacja możliwa jest tylko przy deklaracji..  Przypisanie zmiennej txt wartości "Pies" wymaga zastosowania

In case a comprehensive coupled analysis has to be carried out, it appears to be necessary to condens the stiffness and mass matrices of the ship main structure.. in such a way that

W za­ jem na relacja przedm iotu, sensu i wyrażenia nie jest, (zarówno u Fregego, jak i u jego następców) wystarczająco wyjaśniona, aby m ogła stać się

Чувство тесной связи, неразрывного родства человека с миром полу­ чает в поэзии Рильке „космический размах”9 и носит порой религиоз­ ное

• Napisz program w całości stosując wskaźniki przy

Nowej zmiennej „dnarev” przypisz listę utworzoną z sekwencji DNA (zmienna „dna” z poprzedniego zestawu zadao) , a następnie odwród listę.. #Metoda sheet_by_name zwraca