|
|
|
文字处理过程可以从用户使用和系统实现两个不同的角度研究和分析。
|
|
|
|
站在用户应用角度关心的是逻辑层方面的问题,即文字处理有哪些操作命令和功能,如何利用这些操作命令和功能进行文档创建、文档输入、文档编辑和文档输出。例如,文档输入包括输入文字、创建表格、插入外部对象等操作;文档编辑包括内容修饰(如字符、段落修饰等)、版面整体设置(如页面设置、文章排版、绘制图形、创建艺术字、图文混排等)等操作;文档输出包括打印预览与打印输出。
|
|
|
|
站在系统实现角度考虑的是物理层方面的问题。例如,键盘只能输入字符,那么采用什么方式将汉字录入计算机中;汉字在计算机中究竟如何存储、显示与打印。
|
|
|
|
|
|
计算机文字处理的基本过程包括文字输入、文字加工和文字输出,如下图所示。由于西文是拼音文字,基本符号比较少,编码比较容易,而且在一个计算机系统中,输入、内部处理、存储和输出都可以使用同一代码,因此键盘可以直接输入英文或数字字符。计算机直接根据键入的英文或数字字符,通过译码电路产生ASCII码,输入到计算机内存中。
|
|
|
|
|
|
|
|
汉字种类繁多,编码比拼音文字困难,而且在一个汉字处理系统中,汉字输入、内部处理、存储和输出的代码是不同的。汉字信息处理系统在处理汉字和词语时,其关键的问题是要进行一系列的汉字代码转换。从上图也不难看出,必须将字符或汉字的输入码转换为机内码,机内码转换为显示字形码或打印字形码。
|
|
|
|
|
|
汉字处理包括汉字的输入、汉字的存储和汉字的输出环节。其中,汉字的输入采用输入码,汉字的存储采用机内码,汉字的输出采用字形码。计算机处理汉字首先必须将汉字代码化(即对汉字进行编码),这样,用户可以从键盘上输入代表某个汉字的编码。采用不同的编码系统进行汉字输入的方案称为汉字的输入法,如区位码、五笔字型码、拼音码、智能ABC、微软拼音等输入法。
|
|
|
|
|
|
中文的字数繁多,字形复杂,字音多变,常用汉字就有7000个左右。在计算机系统中使用汉字,首先遇到的问题就是如何把汉字输入到计算机内。为了能直接使用西文标准键盘进行输入,必须为汉字设计相应的编码方法。汉字编码方法主要分为三类:数字编码、拼音编码和字形编码。
|
|
|
|
.数字编码:将汉字按一定顺序逐一赋予数字编号,即用数字串代表一个汉字的输入,常用的是国标区位码。特点:无重码,难记忆,不适合普通用户。
|
|
|
|
.拼音编码:采用拼音规则编码,如全拼、双拼等。特点:重码多,遇到不会读音或读音不准的汉字,输入困难。
|
|
|
|
.字形编码:采用汉字字形方面的特征(如整字、字根、笔画、码元等),按一定规则编码,如五笔字型码等。特点:需记忆规则,速度快,适于专业录入人员。
|
|
|
|
|
|
汉字内部码(简称机内码)是汉字在设备或信息处理系统内部最基本的表达形式,是在设备和信息处理系统内部存储、处理、传输汉字用的代码。西文在计算机中没有交换码和机内码之分,但汉字数量多用一个字节是无法区分的。因此,国家标准GB2312—80中规定的汉字国标码(或称汉字交换码)规定,一个汉字用两个字节表示,每个字节只有7位,与ASCII码相似。汉字机内码采用国标码作为基础,且每个字节的最高位置“1”。由于两个字节各用7位,因此可表示16 384个可区别的机内码。例如汉字“大”,国标码(交换码)为3473H,将两个字节的高位置“1”,得到的机内码为B4F3H。
|
|
|
|
|
|
汉字字形码是表示汉字字形的字模数据,通常用点阵、矢量函数等方式表示。用点阵表示字形时,汉字字形码指的就是这个汉字字形点阵的代码。字形码也称为字模码,是用点阵表示的汉字字形码,它是汉字的输出方式,根据输出汉字的要求不同,点阵的多少也不同。简易型汉字为16×16点阵,高精度型汉字为24×24点阵、32×32点阵、48×48点阵等。
|
|
|
|
字模点阵的信息量是很大的,所占存储空间也很大,平时存放在外存的汉字库中。例如,一个16×16点阵的汉字就需要占用32个字节。字库中存储了每个汉字的点阵代码,当显示输出时才检索字库,输出字模点阵得到字形。
|
|
|
|
|
|
对于文档输入、编辑与输出,站在汉字代码转换的角度,通常可以把汉字信息处理系统抽象为一个结构模型,如下图所示。注意,存储在计算机内部的机内码也必须经转换后才能恢复汉字的“本来面目”。这种转换通常是由计算机的输入输出设备来实现的,有时还需要软件来参与这种转换过程。这个阶段的汉字代码称为字形码,用以显示和打印输出。
|
|
|
|
|
|
|
|
例如,用户要在某文档Mytxt.doc中输入汉字“雪”。请根据上图说明该汉字的显示过程中各种代码间的转换关系,文档Mytxt.doc打印时汉字各种代码间的转换关系。
|
|
|
|
(1)汉字的显示:首先通过键盘管理程序把从键盘接收到的汉字“雪”的输入编码转换为0和1构成的机内码;然后在汉字文件系统的管理下,显示管理模块根据“雪”的机内码从显示字库中查到“雪”字模,并控制显示器显示。
|
|
|
|
(2)文档Mytxt.doc打印:在汉字文件系统的管理下,将待打印文档中的汉字输入给打印管理模块,打印管理模块根据要打印汉字的机内码从打印字库中查到待打印汉字的打印字模,并控制打印机打印;或者根据要打印汉字的机内码从显示字库中查到汉字的显示字模,通过变换程序将显示字模转换成打印字模,再控制打印机打印。
|
|
|