文字信息的处理与编辑概述
被考次数: 1次
被考频率: 低频率
答错率:    16%
知识难度:
考试要求: 掌握     
知识路径:  > 多媒体信息处理及编辑技术  > 多媒体文字信息的处理与编辑  > 文字信息的处理与编辑概述


本知识点历年真题试卷分布
>> 试题列表    
 

 
       文字信息的表示与存储
          英文字符数据的表示
          英文字符编码方案的国际标准为美国国家信息交换标准字符码(American Standard Code for Information Interchange, ASCII)。ASCII码利用7位二进制数表示,共有128个元素。字节(8位)是计算机中的常用单位,ASCII字符将字节中多余的最高位取0。下表所示为7位ASCII字符编码表。
          
          ASCII字符编码表
          
          ASCII规范标准发表于1967年,最后一次更新于1986年,至今共定义了128个字符,其中包括33个非打印字符,其主要用途是操控已经处理过的文字,另外还有95个可显示字符。
          汉字的存储与编码
          英语用128个符号编码就足够了,但若是用来表示汉字,128个符号是远远不够的,所以1981年5月中国国家标准总局发布了GB 2312编码,全称为信息交换用汉字编码字符集。
          GB 2312编码共收录6763个汉字,其中一级汉字3755个,二级汉字3008个;同时收录了包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个字符。GB 2312编码基本满足了汉字的计算机处理需要,它所收录的汉字已经覆盖了中国99.75%的使用频率。
          GB 2312编码中对所收录的汉字进行了“分区”处理,每区含有94个汉字/符号,这种表示方式也称区位码。
          01~09区为特殊符号;
          16~55区为一级汉字,按拼音排序;
          56~87区为二级汉字,按部首/笔画排序。
          例如,“啊”字是GB 2312编码中的第一个汉字,它的区位码就是1601D,即表示“啊”字是位于第16区的第01个编码。
          Unicode编码
          虽然汉字可以利用GB 2312编码表示,但对于世界上很多国家的文字和字符并没有包含在内,所以Unicode编码(又称万国码、国际码、统一码、单一码)出现了。Unicode编码对世界上大部分的文字系统都进行了整理、编码,是计算机科学领域中的一项业界标准。
          Unicode编码至今仍在不断增修,每个新版本都加入了更多新的字符,目前的最新版本已经收录了超过10万个字符。Unicode编码涵盖的数据除了视觉上的字形、编码方法、标准的字符编码外,还包含字符特性,如大小写字母。
          Unicode编码被广泛应用于计算机软件的国际化与本地化过程。有很多新科技,如可扩展标记语言、Java编程语言以及现代的操作系统都采用了Umicode编码。
          需要注意的是,Unicode编码只是一个符号集,它只规定了符号的二进制代码,却没有规定这个二进制代码应该如何存储。比如,汉字“严”的Unicode编码是十六进制数4E25,转换成二进制数足足有15位(100111000100101),也就是说,表示这个符号至少需要2字节,表示其他更大的符号可能需要3字节或者4字节,甚至更多。
          Unicode编码的实现方式不同于编码方式。一个字符的Unicode编码是确定的,但是在实际传输过程中,由于不同系统平台的设计不一定一致,以及出于节省空间的目的,对Unicode编码的实现方式便会有所不同。Unicode编码的实现方式称为Unicode转换格式(Unicode Transformation Format, UTF)。目前最常用的实现编码为UTF-8,除此之外还有UTF-16、UTF-32。
       文字的类型
       计算机文字有多种不同的类型:根据是否具有编辑排版格式,可以分为纯文本和富文本两大类;根据文本内容的组织方式,可以分为线性文本和超文本两大类。
          纯文本
          纯文本又称简单文本,只保存文本,不保存其格式设置。
          常见的纯文本格式文件的扩展有:txt、asp、bat、c、bas、prg、cmd等。
          常用的纯文本编辑软件有:记事本、Notepac、TXT Editor、Notepad++、Quickpad等。
          富文本
          富文本(Rich Text Format, RTF)包括大量符号标记,用于标记粗体、下画线、斜体、图形、符号或特殊字符及特殊打印格式等,格式丰富,所以称为富文本。
          常见的富文本文件格式有:RTF、DOC、DOCX、WPS等。
          常用的富文本编辑软件有:Word、WPS等。
       文本编辑与处理
       在很多应用场合,特别是出于出版发行、发布等的需要,文本必须满足清晰、美观、便于使用等要求,为此对文本进行编辑和处理是必不可少的。
       文本编辑的主要功能如下。
       . 对字、词、句、段落进行添加、删除、修改等操作。
       . 字的处理:设置字体、字号、字的排列方向、间距、颜色、效果等。
       . 段落的处理:设置行距、段间距、段缩进、对称方式等。
       . 表格制作和绘图。
       . 定义超链接。
       . 页面布局(排版):设置页边距、每页行列数、分栏、页眉、页脚、插图位置等。
       文本处理强调的是使用计算机对文本中所含文字信息的形、音、义等进行分析和处理。文本处理可以在字、词(短语)、句子、篇章等不同的层面上进行。
       . 在字、词(短语)层面上进行的处理包括字数统计、自动分词、词性标注、词频统计、词语排序、词语错误检测、自动建立索引、简/繁体转换、大陆/台湾编码及术语转换等。
       . 在句子级别上进行的处理有语法检查、文语转换(语音合成)、文种转换(机器翻译)等。
       . 在篇章基础上进行的处理有关键词提取、文摘生成、文本分类、文本检索等。
       此外,为了文本的信息安全和有效地存储或传输,还需要对文本进行加密、压缩等处理。
       在各种文本处理应用中,使用得最多的是文本检索。文本检索是将文本按一定方式进行组织、存储、管理,并根据用户的要求查找到所需文本的技术。
 

更多复习资料
请登录电脑版软考在线 www.rkpass.cn

京B2-20210865 | 京ICP备2020040059号-5
京公网安备 11010502032051号 | 营业执照
 Copyright ©2000-2025 All Rights Reserved
软考在线版权所有