Unicode, UCS, UTF, BLA(H), TRU(C) ;)

[ -zombie- @ 29.04.2003. 01:40 ] @

nije baš umetnost, ali mi se ovaj forum čini najprikladnijim za ovu temu..

elem, do skora sam baš prilično imao muka da svarim sve detalje oko Unicoda, UCS-a, UTF-a i ostalih opasnih stranih reči ;)

uglavnom, znao sam da Unicode uglavnom 16-bitni (osim kad nije ;), ali me bunilo to što je do danas registrovano skoro 100k karaktera.. i to je samo jedna od stvari koje mi nisu bile jasne.

no, posle prekjuče, kada sam pročitao jedan duži blog post (u formi kraćeg članka) čuvenog Tim-a Bray-a (xml, w3c, textuality, ...) sve mi se razbistrilo ;)

no, šalu na stranu, evo pa prosudite sami:

Citat:

Characters vs. Bytes

This is the first of a three-part essay on modern character string processing for computer programmers. Here I explain and illustrate the methods for storing Unicode characters in byte sequences in computers, and discuss their advantages and disadvantages. These methods have well-known names like UTF-8 and UTF-16 ...

http://tbray.org/ongoing/When/200x/2003/04/26/UTF

[ tOwk @ 30.04.2003. 12:10 ] @

O svemu tome se može vrlo precizno saznati na www.unicode.org a za praktičare su tu i dokumenti kao što je RFC 2279 (UTF-8 — Transformation of ISO 10646), i mnogi drugi.

Na Unicode.org stranici imate i veliki broj „tehničkih izveštaja“ (TR) koji opisuju konkretnu primenu Unikoda za određene stvari, a treba izdvojiti UCA (Unikod kolacioni algoritam, valjda TR10, mali deo implementacije sam pisao za onaj mysql-srpski dodatak), određivanje odnosa među znakovima (u kakvom su odnosu znaci Č i č, a u kakvom A i ćirilično A), postupak normalizacije (Ć prelazi u acute+C), itd.

Zapravo, sve je to vrlo jednostavno kada character označiš kao „znak“ (slova, cifre, i svi ostali znaci — znači ono što ima smisla za čoveka), a byte kao „bajt“.

Znači, moja preporuka je (ipak nezaobilazna) adresa: www.unicode.org

[ tOwk @ 30.04.2003. 12:11 ] @

Uh, zaboravih da dodam i vezu ka RFC 2781 (UTF-16), za one koji to vole.

A pošto smo u temi za programiranje, sve za UTF-16 je za nas implementirao IBM u jednoj biblioteci otvorenog koda: ICU.