|
汉字处理包括汉字的编码输入、汉字的存储和汉字的输出等环节。在汉字处理的各阶段,分为输入码、(机)内码、交换码(国标码)和字形码,各种码对应的处理过程如下所示:
|
|
|
|
|
数字编码:用数字串代表一个汉字的输入。国标区位码等便是这种编码法。
|
|
|
拼音编码:是以汉语拼音为基础的输入方法。由于汉字同音字太多,输入重码率很高,因此,按拼音输入后还必须进行同音字选择,影响了输入速度。全拼、双拼、微软拼音等便是这种编码法。
|
|
|
字形编码:是以汉字的形状确定的编码。汉字总数虽多,但都是由一笔一画组成,全部汉字的部件和笔画是有限的。因此,把汉字的笔画部件用字母或数字进行编码,按笔画书写的顺序依次输入,就能表示一个汉字,五笔字型、表形码等便是这种编码法,这种方法的缺点是需要记忆很多的编码。
|
|
|
|
汉字内部码(简称内码)是汉字在信息处理系统内部存储、处理、传输汉字用的代码。国家标准局GB2312—1980规定的汉字国标码中,每个汉字内码占两个字节,每个字节最高位置"1",作为汉字机内码的标示。以汉字"大"为例,国标码为3473H,两个字节的最高位为"1",得到的机内码为B4F3H。又例如:
|
|
|
|
|
汉字字形码是表示汉字字形的字模数据,通常用点阵、矢量函数等方式表示。字形码也称字模码,它是汉字的输出形式,随着汉字字形点阵和格式的不同,汉字字形码也不同。常用的字形点阵有16×16点阵、24×24点阵、48×48点阵等。
|
|
|
字模点阵的信息量是很大的,占用存储空间也很大,以16×16点阵为例,每个汉字占用32(16×16/8=32)个字节,两级汉字大约占用256KB。因此,字模点阵只能用来构成"字库",而不能用于机内存储。字库中存储了每个汉字的点阵代码,当显示输出时才检索字库,输出字模点阵得到字形。
|
|
|
汉字的矢量表示法是将汉字看作是由笔画组成的图形,提取每个笔画的坐标值,这些坐标值就可以确定每个笔画的位置,所有坐标值组合起来就是该汉字字形的矢量信息。每个汉字矢量信息所占的内存大小不一样。
|
|
|