| Kodowanie
polskich liter w ISO 10646 |
| (Jesli
nie widzisz polskich liter wybierz: Widok-Kodowanie-UTF-8) |
Polskie znaki diaktryczne dla przetwarzania
danych powinny być kodowane w standartowy sposób. W szczególności
dla potrzeb przesyłania polskich znaków w sieci należy w najbliższym
czasie stosować 8-bitowy standard ISO 8859-2 a w dalszej perspektywie
2-3 lat- 16-bitowy standard ISO 10646. Z drugiej strony notacja MS CP
1250 niejest obowiązującą normą polską ani standartem wiodącym
ANSI gdyż, oprócz tego, że używa obszarów wartości kodowych zastrzeżonych
przezISO dla znaków sterowniczych, dla polskich znaków różni się
od notacji ISO 8859-2 i ISO 10646 w następujący sposób:
| |
Ą |
Ć |
Ę |
Ł |
Ń |
Ó |
Ś |
Ź |
Ż |
ą |
ć |
ę |
ł |
ń |
ó |
ś |
ź |
ż |
| ISO 8859-2 |
161 |
198 |
202 |
163 |
209 |
211 |
166 |
172 |
175 |
177 |
230 |
234 |
179 |
241 |
243 |
182 |
188 |
191 |
| ISO 10646 |
260 |
262 |
280 |
321 |
323 |
211 |
346 |
377 |
379 |
261 |
263 |
281 |
322 |
324 |
243 |
347 |
378 |
380 |
| ISO 10646 HEX |
104 |
106 |
118 |
141 |
143 |
0D3 |
15A |
179 |
17B |
105 |
107 |
119 |
142 |
144 |
0F3 |
15B |
17A |
17C |
| Windows-EE |
165 |
198 |
202 |
163 |
209 |
211 |
140 |
143 |
175 |
185 |
230 |
234 |
179 |
241 |
243 |
156 |
159 |
191 |
Edytor MS Word 7 koduje polskie litery
w tym standarcie, a przeglądarki Netscape 4.04 i wyżej oraz MS Explorer4.0
- odtwarzają litery polskie rosyjskie, greckie, szwedzkie (zapewne
też kilka innych alfabetów).
MS Word 97 dla Windows pozwala na pisanie
tekstów min. polskich, rosyjskich oraz wszystkich europejskich, jak
również na kodowanie ich w ISO 10646. Sa możliwe dwie formy kodowania:
kodowanie Unicode "zhatemelizowane" (nazywane też "dziesiętnym-numerycznym")
oraz kodowanie "znacznikowe" w Unicode (lub inaczej "czyste" bo potrzebujące
jedynie 16 bitow na jedną literę).
Kodowanie zhatemelizowane jest rezultatem
wdrożenia standardu html 4.0, w którym litery spoza podstawowej tablicy
kodowej ISO 8859-1 (dokładniej - spoza 256 znakowej tablicy podstawowej),
są przedstawiane w postaci: &#numer-Unicode-w-postaci-dziesiętnej.(W
praktyce zostało to przedstawione na stronie Webdesign).
Kodowanie czyste jest rezultatem wdrożenia
standardu ISO 10 646 i polega na przedstawieniu danej litery jako numeru
tablicy Unicode w postaci heksadecymalnej. Kodowanie to jest technicznie
najprostsze: Komputer obsługujący kod heksadecymalny wstawia daną
wartość w pole tekstowe danego dokumentu.
MS Word 97 jest przydatnym narzędziem
do kodowania specyficznych liter alfabetu polskiego, rosyjskiego i wielu
innych w Unicode. W trakcie pisania (może być wiele języków w jednym
dokumencie) litery są kodowane w czystym Unicodzie (metoda II). Przy
zapamiętywaniu dokumentu w postaci HTML specyficzne litery (spoza nieASCII)
są przekodowywane na postać zhatemelizowaną.
Jakakolwiek operacja w edytorze html Word7
lub Netscape Composer powoduje zastąpienie kodowania zhatemelizowanego
kodowaniem czystym. Wtedy należy wstawić w instrukcji META danego
dokumentu html, wartość "charset=utf-8".
Ponieważ ó oraz Ó należą do tablicy
podstawowej nie są one konwertowane do postaci zhatemelizowanej (dziesiętnej-numerycznej).
Przeglądarki natomiast z jakiś powodów "nie rozumieją" literek ó
oraz Ó kodowanych w czystym Unicodzie obok liter w postaci zhatemelizowanej,
i wyświetlają biały kwadracik.
W zależności od popytu na rynku polskim
coraz więcej programów i sprzętu komputerowego będzie miało wbudowane
przetworniki z wewnętrznych systemów kodowych na kod standartowy i
odwrotnie.Od niedawna jest dostępny program freeware Ogonki
97 dla OS Windows, umożliwiający przekodowywanie polskich tekstów
z i na tablice kodowanie w ISO 8859-2 i ISO 10646 (Unicode). Uniwersalnym
programem do kodowania w Unicode i innych tablicach kodowych jest program
WinCallis. Dla OS Unix istnieje program "yudit"kodujący
teksty html w Unicode. Microsoft
oferuje też na swojej stronie opracowane specjalnie dla czytania stron
na internecie swoje nowe uniwersalne fonty (w Unicode) do Windows 95,
Windows3.1x, Windows NT oraz oddzielnie do Apple Macintosh. Fonty Trebuchet,
TNR, Arial i Courrier New zawierają także wersje centralno- wschodnioeuropejskie.
Proszę zwrócić uwagę, że czcionki te nie działają pod Windows
3.1.
W praktyce przydatnym rozwiązaniem jest
też przełączalna klawiatura Programisty (dostępna standartowo w
Windows95), gdzie polskie litery wybiera się klawiszami Alt Gr + Litera
Ogonkowa (np. Ą -- poprzez Alt Gr + a + Shift).
Więcej
o ogonkach znajdziecie Panstwo na serwerze AGH w Krakowie.
|