• Nie Znaleziono Wyników

Dodatek – Technologie internetowe http://pl.wikipedia.org/wiki/UTF-8

N/A
N/A
Protected

Academic year: 2021

Share "Dodatek – Technologie internetowe http://pl.wikipedia.org/wiki/UTF-8"

Copied!
13
0
0

Pełen tekst

(1)

Dodatek – Technologie internetowe

http://pl.wikipedia.org/wiki/UTF-8 1. UTF-8 wg

2. Adresy URL

(2)

Dodatek – Technologie internetowe http://pl.wikipedia.org/wiki/UTF-8

1. UTF-8

(3)

Zalety i wady

Zalety 1. KaŜdy tekst w ASCII jest tekstem w UTF-8.

2. śaden znak spoza ASCII nie zawiera bajtu z ASCII.

3. Zachowuje porządek sortowania UCS-4 (UTF-32)

4. Typowy tekst ISO-Latin-X rozrasta się w bardzo niewielkim stopniu po przekonwertowaniu do UTF-8.

5. Nie zawiera bajtów 0xFF i 0xFE, więc łatwo moŜna go odróŜnić od tekstu UTF-16.

6. O kaŜdym bajcie wiadomo czy jest początkiem znaku, czy teŜ leŜy w jego środku 7. Nie ma problemów z kodowaniem od najstarszego bajtu z lewej strony do prawej

lub z prawej do lewej.

Wady

1. Znaki z języków: chiński, japoński, koreański, zajmują po 3 bajty zamiast 2 w kodowaniach narodowych.

2. Znaki alfabetów niełacińskich zajmują po 2 bajty zamiast jednego w kodowaniach narodowych.

3. W chwili obecnej (2006 rok) większość zastosowań w Internecie (poczta elektroniczna, usenet, HTML) wymaga deklarowania UTF-8 zgodnie ze standardem MIME. Dopiero w XHTML UTF-8 jest kodowaniem domyślnym.

4. UTF-8 nie uŜywa przesunięć zasięgów, co stanowi dodatkowe utrudnienie dla implementacji UTF-8 (szczegóły dalej)

(4)

Sposób kodowania

Mapowanie znaków Unikodu na ciągi bajtów:

• 0x00 do 0x7f - bity 0xxxxxxx, gdzie iksy to bity od najwyŜszego licząc

• 0x80 do 0x7FF - bity 110xxxxx 10xxxxxx

• 0x800 do 0xFFFF - bity 1110xxxx 10xxxxxx 10xxxxxx

• 0x10000 do 0x1FFFFF - bity 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

• 0x200000 do 0x3FFFFFF - bity 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

• 0x4000000 do 0x7FFFFFFF - bity 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

Oznacza to, Ŝe ten sam znak moŜna zapisać na kilka sposobów.

Przykładowo znak ASCII / (ukośnik 00101111) moŜna zapisać jako:

00101111

11000000 10101111

11100000 10000000 10101111 itd.

(5)

Znaki polskie kodowane w UTF-8

ó

ó

Ó

Ó

ż Ŝ

Ż ś

ź ź

Ź Ź

ś ś

Ś Ś

ń ń

Ń Ń

ł

ł

Ł

Ł

ę ę

Ę Ę

ć ć

Ć Ć

ą ą

Ą Ą

znak Kod małej litery

znak

Kod duŜej litery

(6)

http://validator.w3.org/

(7)
(8)
(9)

Przykład kodowania bezposredniego znaków polskich w kodzie UTF-8

<!--Komentarz-->

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN"

"http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">

<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="pl" lang="pl">

<head>

<meta http-equiv="content-type" content="text/html;charset=utf-8"/>

<title> UTF-8 </title>

</head>

<body>

<p>&#260;, &#261;, &#262;, &#263;, &#280;, &#281;, &#321;, &#322;,

&#323;,

&#324;, &#346;, &#347;, &#377;, &#378;, &#379;, &#380;, &#211;,

&#243;

</p>

</body>

</html>

(10)

Efekt kodowania bezpośredniego

(11)

Dodatek – Technologie internetowe http://pl.wikipedia.org/wiki/UTF-8

1. UTF-8

2. Adresy URL

(12)

Uniform Resource Locator -URL

1. URL (ang. Uniform Resource Locator) oznacza

ujednolicony format adresowania zasobów (informacji, danych, usług), stosowany w Internecie i w sieciach lokalnych.

2. URL najczęściej kojarzony jest z adresami stron WWW, ale ten format adresowania słuŜy do identyfikowania

wszelkich zasobów dostępnych w Internecie. Większość przeglądarek internetowych umoŜliwia dostęp nie tylko do stron WWW, ale takŜe do innych zasobów w Internecie, po wpisaniu do przeglądarki poprawnego adresu URL danego zasobu.

3. Standard URL opisany jest w dokumencie

http://tools.ietf.org/html/rfc1738

(13)

Część zaleŜna od rodzaju usługi zwykle przybiera jedną z postaci:

W przypadku zasobów będących plikami:

////////adres_serwera:portadres_serwera:portadres_serwera:portadres_serwera:port////sciezka_dostsciezka_dostsciezka_dostęęęępusciezka_dost pupupu

jeŜeli port jest standardowy dla danego rodzaju zasobu, jest pomijany i stosuje się formę uproszczoną:

////////adres_serweraadres_serweraadres_serweraadres_serwera////sciezka_dostsciezka_dostsciezka_dostsciezka_dostęęęępupupupu

Niekiedy moŜe być wymagane podanie nazwy uŜytkownika i hasła:

////////nazwa_unazwa_unazwa_unazwa_użżżżytkownika:hasytkownika:hasytkownika:hasytkownika:hasłłłło@adres_serwerao@adres_serwerao@adres_serwerao@adres_serwera////sciezka_dostsciezka_dostsciezka_dostęęęępusciezka_dost pupupu

ale najczęściej zarówno nazwa_użytkownika, jak i hasło nie są wymagane i mogą być pominięte.

W przypadku zasobów nie będących plikami (konta shellowe, adresy email itp.):

nazwa_uzytkownika@adres_serwera nazwa_uzytkownika@adres_serwera nazwa_uzytkownika@adres_serwera nazwa_uzytkownika@adres_serwera

Często oprogramowanie, szczególnie przeglądarki internetowe, akceptuje takŜe

niepoprawne formy adresów – pominięty separator // czy określenie protokołu http://, np.:adres_serwera/sciezka_dostepu

Przykładowy URL:

http://www.wikipedia.com/wiki/URL

gdzie:http – protokół dostępu do zasobu www.wikipedia.com – adres serwera

Cytaty

Powiązane dokumenty

Użyteczny serwis internetowy jest intuicyjny i łatwy w obsłudze dla wszystkich użytkowników, szczególnie tych mniej doświadczonych. usability) jest dziedziną, która

Figure 7 Information contained in Wikipedia is constantly updated (N=206) One hundred forty six people agreed with the statement Wikipedia is a useful teaching aid

znak początku ^ i końca $ oznacza domyślnie początek i koniec łańcucha; zaś jeśli ustawimy m, wtedy oznacza początek i koniec wiersza, więc może być dane wyrażenie

Można się dowiedzieć, jak ręcznie robiło się torebki ze sznurka sizalowego - mówi Wioletta Wejman z Ośrodka Brama Grodzka-Teatr NN, ko- ordynatorka projektu „Historia

Każdy, kto ma dostęp do internetu, będzie mógł bez wychodzenia z domu czytać w niej książki z zasobów lubelskich bibliotek publicznych i największych uczelni.. W

Ponieważ zespół nie został jeszcze powołany i nie zakończyły się także prace zespołu roboczego do spraw opieki farmaceutycznej (są one na etapie omawiania założeń

Wydaje się jednak, że uczestnicy badania nie mają sprecyzowanej wizji swojej przyszłości w Polsce – zezwolenie na pobyt jest postrzegane jako coś pożytecznego dla ich

Na dole masz 3 ikony - możesz włączyć i wyłączyć mikrofon (pierwsza), rozłączyć swój udział w wideokonferencji (druga), lub włączyć i wyłączyć kamerę (trzecia). Z