首页 > 知识点讲解
       文字信息的处理与编辑概述
知识路径: > 多媒体信息处理及编辑技术 > 多媒体文字信息的处理与编辑 > 文字信息的处理与编辑概述 > 
相关知识点:12个      
               文字信息的表示与存储
                      英文字符数据的表示
                      英文字符编码方案的国际标准为美国国家信息交换标准字符码(American Standard Code for Information Interchange, ASCII)。ASCII码利用7位二进制数表示,共有128个元素。字节(8位)是计算机中的常用单位,ASCII字符将字节中多余的最高位取0。下表所示为7位ASCII字符编码表。
                      
                      ASCII字符编码表
                      
                      ASCII规范标准发表于1967年,最后一次更新于1986年,至今共定义了128个字符,其中包括33个非打印字符,其主要用途是操控已经处理过的文字,另外还有95个可显示字符。
                      汉字的存储与编码
                      英语用128个符号编码就足够了,但若是用来表示汉字,128个符号是远远不够的,所以1981年5月中国国家标准总局发布了GB 2312编码,全称为信息交换用汉字编码字符集。
                      GB 2312编码共收录6763个汉字,其中一级汉字3755个,二级汉字3008个;同时收录了包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个字符。GB 2312编码基本满足了汉字的计算机处理需要,它所收录的汉字已经覆盖了中国99.75%的使用频率。
                      GB 2312编码中对所收录的汉字进行了“分区”处理,每区含有94个汉字/符号,这种表示方式也称区位码。
                      01~09区为特殊符号;
                      16~55区为一级汉字,按拼音排序;
                      56~87区为二级汉字,按部首/笔画排序。
                      例如,“啊”字是GB 2312编码中的第一个汉字,它的区位码就是1601D,即表示“啊”字是位于第16区的第01个编码。
                      Unicode编码
                      虽然汉字可以利用GB 2312编码表示,但对于世界上很多国家的文字和字符并没有包含在内,所以Unicode编码(又称万国码、国际码、统一码、单一码)出现了。Unicode编码对世界上大部分的文字系统都进行了整理、编码,是计算机科学领域中的一项业界标准。
                      Unicode编码至今仍在不断增修,每个新版本都加入了更多新的字符,目前的最新版本已经收录了超过10万个字符。Unicode编码涵盖的数据除了视觉上的字形、编码方法、标准的字符编码外,还包含字符特性,如大小写字母。
                      Unicode编码被广泛应用于计算机软件的国际化与本地化过程。有很多新科技,如可扩展标记语言、Java编程语言以及现代的操作系统都采用了Umicode编码。
                      需要注意的是,Unicode编码只是一个符号集,它只规定了符号的二进制代码,却没有规定这个二进制代码应该如何存储。比如,汉字“严”的Unicode编码是十六进制数4E25,转换成二进制数足足有15位(100111000100101),也就是说,表示这个符号至少需要2字节,表示其他更大的符号可能需要3字节或者4字节,甚至更多。
                      Unicode编码的实现方式不同于编码方式。一个字符的Unicode编码是确定的,但是在实际传输过程中,由于不同系统平台的设计不一定一致,以及出于节省空间的目的,对Unicode编码的实现方式便会有所不同。Unicode编码的实现方式称为Unicode转换格式(Unicode Transformation Format, UTF)。目前最常用的实现编码为UTF-8,除此之外还有UTF-16、UTF-32。
               文字的类型
               计算机文字有多种不同的类型:根据是否具有编辑排版格式,可以分为纯文本和富文本两大类;根据文本内容的组织方式,可以分为线性文本和超文本两大类。
                      纯文本
                      纯文本又称简单文本,只保存文本,不保存其格式设置。
                      常见的纯文本格式文件的扩展有:txt、asp、bat、c、bas、prg、cmd等。
                      常用的纯文本编辑软件有:记事本、Notepac、TXT Editor、Notepad++、Quickpad等。
                      富文本
                      富文本(Rich Text Format, RTF)包括大量符号标记,用于标记粗体、下画线、斜体、图形、符号或特殊字符及特殊打印格式等,格式丰富,所以称为富文本。
                      常见的富文本文件格式有:RTF、DOC、DOCX、WPS等。
                      常用的富文本编辑软件有:Word、WPS等。
               文本编辑与处理
               在很多应用场合,特别是出于出版发行、发布等的需要,文本必须满足清晰、美观、便于使用等要求,为此对文本进行编辑和处理是必不可少的。
               文本编辑的主要功能如下。
               . 对字、词、句、段落进行添加、删除、修改等操作。
               . 字的处理:设置字体、字号、字的排列方向、间距、颜色、效果等。
               . 段落的处理:设置行距、段间距、段缩进、对称方式等。
               . 表格制作和绘图。
               . 定义超链接。
               . 页面布局(排版):设置页边距、每页行列数、分栏、页眉、页脚、插图位置等。
               文本处理强调的是使用计算机对文本中所含文字信息的形、音、义等进行分析和处理。文本处理可以在字、词(短语)、句子、篇章等不同的层面上进行。
               . 在字、词(短语)层面上进行的处理包括字数统计、自动分词、词性标注、词频统计、词语排序、词语错误检测、自动建立索引、简/繁体转换、大陆/台湾编码及术语转换等。
               . 在句子级别上进行的处理有语法检查、文语转换(语音合成)、文种转换(机器翻译)等。
               . 在篇章基础上进行的处理有关键词提取、文摘生成、文本分类、文本检索等。
               此外,为了文本的信息安全和有效地存储或传输,还需要对文本进行加密、压缩等处理。
               在各种文本处理应用中,使用得最多的是文本检索。文本检索是将文本按一定方式进行组织、存储、管理,并根据用户的要求查找到所需文本的技术。
 
 相关知识点:
 
软考在线指南
优惠劵及余额
在线支付
修改密码
下载及使用
购买流程
取消订单
联系我们
关于我们
联系我们
商务合作
旗下网站群
高级资格科目
信息系统项目管理师 系统分析师
系统架构设计师 网络规划设计师
系统规划与管理师
初级资格科目
程序员 网络管理员
信息处理技术员 信息系统运行管理员
中级资格科目
系统集成项目管理工程师 网络工程师
软件设计师 信息系统监理师
信息系统管理工程师 数据库系统工程师
多媒体应用设计师 软件评测师
嵌入式系统设计师 电子商务设计师
信息安全工程师
 

本网站所有产品设计(包括造型,颜色,图案,观感,文字,产品,内容),功能及其展示形式,均已受版权或产权保护。
任何公司及个人不得以任何方式复制部分或全部,违者将依法追究责任,特此声明。
本站部分内容来自互联网或由会员上传,版权归原作者所有。如有问题,请及时联系我们。


工作时间:9:00-20:00

客服

点击这里给我发消息 点击这里给我发消息 点击这里给我发消息

商务合作

点击这里给我发消息

客服邮箱service@rkpass.cn


京B2-20210865 | 京ICP备2020040059号-5 |京公网安备 11010502032051号 | 营业执照 | Copyright ©2000-2023 All Rights Reserved 软考在线版权所有