|
知识路径: > 计算机系统基础知识 > 数据的表示 > 字符、汉字、声音、图像的编码方式 > 其他数据的表示 >
|
相关知识点:7个
|
|
|
|
为了统一地表示世界各国的文字,国际标准化组织1993年公布了“通用多八位编码字符集”国际标准ISO/IEC 10646,简称UCS(Universal Coded Character Set)。另一个是Unicode(称为统一码、万国码或单一码)软件制造商协会(unicode.org)开发的可以容纳世界上所有文字和符号的字符编码标准,包括字符集、编码方案等。Unicode 2.0开始采用与ISO 10646-1相同的字库和字码。目前这两个项目独立地公布各自的标准。
|
|
|
UCS规定了两种编码格式:UCS-2和UCS-4。UCS-2用两个字节编码,UCS-4用4个字节(实际上只用了31位,最高位必须为0)编码。
|
|
|
Unicode可以通过不同的编码实现,Unicode标准定义了用于传输和保存的UTF-8、UTF-16和UTF-32等,其中,UTF表示UCS Transformation Format。在网络上广泛使用的UTF-8以8位(一个字节)为单元对UCS进行编码。UCS-2与UTF-8的编码对应关系如下表所示。
|
|
|
|
|
例如,“汉”字的UCS编码是6C49(0110 11000100 1001),位于0800-FFFF之间,所以采用3字节模板,其UTF-8编码为11100110 10110001 10001001,也就是E6B189。
|
|
|
我国相应的国家标准为GB 13000,等同于国际标准的《通用多八位编码字符集(UCS)》ISO10646.1。
|
|
|