元数据的基本概念
被考次数: 4次
被考频率: 中频率
答错率:    35%
知识难度:
考试要求: 熟悉     
知识路径:  > 多媒体数字版权管理技术  > 元数据与数字对象标识码  > 元数据的基本概念


本知识点历年真题试卷分布
>> 试题列表    
 

 
       元数据的定义
       元数据(Meta Date)是关于数据的数据,或者指描述数据的数据。建立元数据的目的是为了让计算机能够更好地管理各类媒体内容。举个例子,人们经常会使用相机拍照留念,然后将这些照片存储在计算机中,假如现在想查看某年夏天去长城游玩的照片,当照片数量比较少时,用户可能容易找到,但当照片很多时,就比较困难了。这时可以通过搜索照片的创建日期很容易地找到所需要的照片。如果把照片作为数据,那么这个“创建日期”就可以认为是照片的一个元数据。当然,照片的元数据内容远远不止“创建日期”这一项,每张数码照片都有一个EXIF信息,它是一种用来描述数码图片的元数据,这些元数据包括图像描述、作者、生产者、相机型号等。如果想详细地查看这些照片的元数据,则可以通过查看每张照片的属性摘要实现,如下图所示。
       
       照片的元数据
       近年来,元数据在媒体内容的设计、创建、存储、管理、知识产权保护等领域不断出现,其研究与使用也不断深入。元数据是描述媒体文件背景、内容、结构及其整个管理过程,并可被计算机及其网络系统自动辨析、分解、提取、分析、归纳的数据,是一种关于媒体信息对象的结构化描述。其中,信息对象指各种数字媒体文件,如电子书、期刊文章、Word文稿、学生注册信息、图片、视频录像、网络课程等;结构化描述按照一定规则对上述对象给予具体说明,如文档标题、文档类型、创建人、出版机构、创建日期、数据格式等。元数据的历史最早可以追溯到图书馆、档案室、博物馆的卡片式文件管理系统。在传统的卡片式文件管理系统中,人们使用一定大小的卡片记录图书或卷宗的标题、作者、分类号、子标题等,并借此定位查找特定的内容。元数据的管理思想与此极为类似。随着Web的发展及数字媒体技术的不断进步,元数据的适用范围与功能迅速拓展,在日常工作与科学研究中发挥着越来越重要的作用。
       元数据的分类
       元数据按照其本身的描述方法和结构内容,可以分为以下三类。
       ①描述性元数据主要描述信息对象的信息,这些信息主要包括文件的标题、作者、日期等。这类元数据非常重要,是进行媒体资源的定位、查找等操作的主要途径。另外,这类元数据对实现系统之间的互操作性也非常有用。
       ②结构性元数据主要描述信息对象自身的属性信息,这些信息主要包括内容的章节、图示、视频段落、文件格式等。这些信息必须是可机读的,对媒体资产特定结构的识别与访问具有很大的帮助。随着计算能力的增强,结构性元数据可以实现媒体内容的自动查找、关联等操作。
       ③管理性元数据主要描述与信息对象管理相关的信息,用来支持媒体资产的短期管理或长期管理,其内容包括媒体资产的数据格式、压缩率、认证与安全、维护等相关说明。管理性元数据用来对媒体资产的整个生命周期内的使用、功能、历史、产权保护等进行具体说明。
       另外,元数据还有一些其他的分类方法。例如,按照数据描述的层次,元数据可以分为技术层次元数据和语义层次元数据;按照可生产性,元数据可以分为可自动生成的元数据和手工生成的元数据;按照依赖性,元数据可以分为依赖领域知识的元数据和依赖媒体类型的元数据。
       元数据的发展
       为了能让计算机系统在读取、搜索和交换元数据的同时还能够让人理解,元数据必须采用一种标准的方式进行表达。早期的元数据一般都记录在表或者数据库中,随着网络的发展,元数据又可利用HTML或者XML文档进行表达。其中,XML及其相关技术(这些技术包括XML Namespace、XML Query Language、XML Database等)不仅解决了各类数据库的异构问题,而且还可以用于开发元数据模式、海量元数据仓库和使用XML查询语言的搜索界面等。但XML有一个缺陷,就是其无法解决不同应用领域、不同企业团体之间的数据共享以及互操作问题。为了解决这个问题,W3C提出了语义Web的概念,语义Web在语法上仍然采用XML技术,其数据描述采用资源描述框架(Resource Description Framework, RDF)方式。RDF的基本模型是由资源、属性和属性值组成的。资源可以是任意的网络资源,如网页、服务器等任何有URI(Universal Resource Identifier)的资源,甚至是其他元数据。属性是资源指定的特性,属性值既可以是自动的(字符串、数字等),也可以是其他资源或元数据。RDF中的语句可以对应自然语言的语句,资源对应自然语言中的主语,属性类型对应谓语,属性值对应宾语,RDF术语称其分别为主语、谓词、宾语。随着越来越多的专业团体开始开发元数据词表,数据共享和互操作问题有望得到有效解决。
       元数据标准的建立可以有效解决信息对象的各类操作问题,但仍存在着一些问题。目前的元数据标准往往具有固定的描述属性并且只针对某一特定领域,这就需要一类新的标准。新标准不仅要求集成不同应用领域的多种元数据标准,为多媒体数据的描述提供描述语言和丰富的元数据模型,而且允许定义任意领域中的其他元数据描述方案,这种标准被认为是一种标准化的元数据框架。MPEG-21就是一种最新的MPEG元数据标准框架。MPEG-21的目标是建立一个交互的多媒体框架,最终目标是为多媒体信息用户提供透明且有效的电子交易和使用环境。
       元数据标准
          DUBLIN CORE
          DUBLIN CORE(DC)元数据标准设计于1995年,描述的对象是网络资源,最初由美国OCLC公司发起,由国际性合作项目Dublin Core Metadata Initiative设计。DC最初的应用目的是为了网络资源的著录与挖掘,随后由于DC元素简单易用,加之OCLC的大力推广和网络资源著录的巨大需求,DC不仅可用于任何媒体,而且应用非常广泛。DC的显著特点是简单的元素定义和设置可以很方便地进行著录,但这也带来另外一个问题——对著录对象的描述深度不够,不能进行专指度较高的检索。根据1999年发布的DC 1.1版本,DC由15个元素组成,这15个元素依据其所描述内容的类别和范围可分为三组:对资源内容的描述、对知识产权的描述、对外部属性的描述。具体内容如下表所示。
          
          DC元数据标准元素表
          TEI
          TEI(The Text Encoding Initiative)元数据标准是一套用于电子形式交换的文本编码标准,目前由TEI Consortium(www.tei-c.org)负责。TEI标准规定了对电子文本的描述方法、标记定义、记录结构和文本编码方式。一般认为TEI是包含了metadata和content两部分描述或标记方法的元数据标准。TEI适用于对电子形式的全文编码和描述。TEI元数据标准同时也规定了可供数据交换的标准编码格式,其使用SGML作为编码语言。TEI格式具有很大限度的灵活性、综合性、可扩展性,能支持对各种类型或特征的文档进行编码。TEI元数据标准可以对元数据(metadata通常称为书目信息部分)和内容数据(content data)进行描述。
          MPEG-7
          MPEG-7(Multimedia Content Description Interface,多媒体内容描述接口)是一个用于描述多媒体内容特性的标准,制定于1996年,目的是用来描述各种类型的多媒体信息及它们之间的关系,以便更快、更有效地检索信息。这些媒体材料包括静态图像、图形、三维模型、声音、语音、电视以及在多媒体中演示它们之间的组合关系。在某些情况下,数据类型还包括面部特性和个人特性的表达。由于MPEG-7制定的视听内容非常广泛,这里只列举其中的音频特征作为参考,其中可描述的音频特征有频率轮廓线、音频对象、音色、和声、频率特征、振幅包络、时间结构(包括节奏)、文本内容(语音或歌词)、声波近似值(通过哼唱一段旋律或发出一种声音效果生成)、原型声音(用于示例查询)、空间结构(用于多通道声源,如立体声、5.1通道等,每个声道有特定的映像)、声源及其特性(例如源对象、源时间、源属性、事件、事件属性和典型的关联场景)、模型(如MPEG-4 SAOL)。
 

更多复习资料
请登录电脑版软考在线 www.rkpass.cn

京B2-20210865 | 京ICP备2020040059号-5
京公网安备 11010502032051号 | 营业执照
 Copyright ©2000-2025 All Rights Reserved
软考在线版权所有