免费智能真题库 > 历年试卷 > 信息系统监理师 > 2021年上半年 信息系统监理师 下午试卷 案例
第2题      
知识点   招标   招标公告   招标文件   投标   开标   评标   中标   分包   质量管理   优化级   管理子系统   招投标法   文件管理   审核   石油   管理体系   大数据   人工智能   人工智能技术   任务调度   数据分析

 
【说明】
石油公司A拟建设高性能勘探计算管理平台,包括大数据智能分析、集群任务调度管理和并行文件管理等子系统,平台的功能,业务性能、存储方式等关键需求不明确,且数据分析子系统运用人工智能技术,预估采购活动相当复杂,A公司委托监理公司B协助招标,在招标阶段陆续发生如下事件:
[事件一]A公司聘请专业咨询公司详细梳理并确定需求后,决定先对并行文件管理子系统进行招标,并编制了可行性研究报告作为招标依据。
[事件二]B公司监理工程师根据招投标法,推荐了招标方式。
[事件三]B公司建议招标审核资质时,重点审核投标单位是否具有质量管理体系、软件能力成熟度是否达到优化级(即能够持续不断地改进过程)。
[事件四]A公司发布了招标公告,声明:项目于4月1日开标开标地点为A公司总部,开标当日确定中标候选人。招标文件公示了投标资格、评标标准、评标委员会名单等内容。评标委员会共7人,包括A公司代表2人、B公司代表2人,其余为经济、技术专家。评标完成后,评标委员会确定C公司中标,4月4日发出了中标通知书。5月15日,A公司与中标人订立了书面合同。中标人经A公司同意,将其中部分功能模块分包给另一家单位,中标人告知分包单位务必保证开发质量,出了问题由分包单位向招标人负全责。
 
问题:2.1   (4分)
针对事件一,请说明可行性研究主要包含哪几个方面?
 
问题:2.2   (5分)
针对事件二,请给出监理工程师可以推荐的招标方式,并说明理由。
 
问题:2.3   请将1~②正确选项填写在答题纸的对应栏内。
针对事件三,中标单位应具备质量管理体系( )要求的认证,应达到软件能力成熟度( )级别。
A.ISO9001   B. ISO14001   C.ISO20001   D.ISO27001   E.CMMI2   F. CMMI3   G.CMMI4   H. CMMI5
 
问题:2.4   (5分)
针对事件四,请指出招标过程中存在的问题。
 
 
 



   知识点讲解    
   · 招标    · 招标公告    · 招标文件    · 投标    · 开标    · 评标    · 中标    · 分包    · 质量管理    · 优化级    · 管理子系统    · 招投标法    · 文件管理    · 审核    · 石油    · 管理体系    · 大数据    · 人工智能    · 人工智能技术    · 任务调度    · 数据分析
 
       招标
        下列工程建设项目包括项目的勘察、设计、施工、监理,以及与工程建设有关的重要设备、材料等的采购,因此必须进行招标。
        (1)大型基础设施、公用事业等关系社会公共利益、公众安全的项目。
        (2)全部或部分使用国有资金投资或者国家融资的项目。
        (3)使用国际组织或者外国政府贷款、援助资金的项目。
        任何单位和个人不得将依法必须进行招标的项目化整为零或者以其他任何方式规避招标。招标投标活动应当遵循公开、公平、公正和诚实信用的原则。必须进行招标的项目,其招标投标活动不受地区或者部门的限制。任何单位和个人不得违法限制或者排斥本地区、本系统以外的法人或其他组织参加投标,不得以任何方式非法干涉招标投标活动。
        招标分为公开招标和邀请招标。公开招标是指招标人以招标公告的方式邀请不特定的法人或者其他组织投标。邀请招标是指招标人以投标邀请书的方式邀请特定的法人或者其他组织投标。国务院发展计划部门确定的国家重点项目和省、自治区、直辖市人民政府确定的地方重点项目不适宜公开招标的,经国务院发展计划部门或者省、自治区、直辖市人民政府批准,可以进行邀请招标。
               招标代理机构
               招标人有权自行选择招标代理机构,委托其办理招标事宜。任何单位和个人不得以任何方式为招标人指定招标代理机构。招标人具有编制招标文件和组织评标能力的,可以自行办理招标事宜。任何单位和个人不得强制其委托招标代理机构办理招标事宜。依法必须进行招标的项目,招标人自行办理招标事宜的,应当向有关行政监督部门备案。
               招标代理机构是依法设立、从事招标代理业务并提供相关服务的社会中介组织。招标代理机构应当具备下列条件。
               (1)有从事招标代理业务的营业场所和相应资金。
               (2)有能够编制招标文件和组织评标的相应专业力量。
               (3)有符合规定条件,可以作为评标委员会成员人选的技术、经济等方面的专家库。
               从事工程建设项目招标代理业务的招标代理机构,其资格由国务院或者省、自治区、直辖市人民政府的建设行政主管部门认定。具体办法由国务院建设行政主管部门会同国务院有关部门制定。从事其他招标代理业务的招标代理机构,其资格认定的主管部门由国务院规定。
               招标代理机构与行政机关和其他国家机关不得存在隶属关系或者其他利益关系。招标代理机构应当在招标人委托的范围内办理招标事宜。
               招标公告
               招标人采用公开招标方式的,应当发布招标公告。依法必须进行招标的项目的招标公告,应当通过国家指定的报刊、信息网络或者其他媒介发布。招标公告应当载明招标人的名称和地址、招标项目的性质、数量、实施地点和时间,以及获取招标文件的办法等事项。
               招标人采用邀请招标方式的,应当向3个以上具备承担招标项目的能力、资信良好的特定法人或者其他组织发出投标邀请书。投标邀请书应当载明的事项与招标公告相同。
               招标人可以根据招标项目本身的要求,在招标公告或者投标邀请书中要求潜在投标人提供有关资质证明文件和业绩情况,并对潜在投标人进行资格审查。国家对投标人的资格条件有规定的,依照其规定。招标人不得以不合理的条件限制或者排斥潜在投标人,不得对潜在投标人给予歧视待遇。
               招标文件
               招标人应当根据招标项目的特点和需要编制招标文件。招标文件应当包括招标项目的技术要求、对投标人资格审查的标准、投标报价要求和评标标准等所有实质性要求和条件,以及拟签订合同的主要条款。
               国家对招标项目的技术、标准有规定的,招标人应当按照其规定在招标文件中提出相应要求。招标项目需要划分标段、确定工期的,招标人应当合理划分标段、确定工期,并在招标文件中载明。招标文件不得要求或者标明特定的生产供应以及含有倾向或者排斥潜在投标人的其他内容。
               招标人根据招标项目的具体情况,可以组织潜在投标人踏勘项目现场。招标人不得向他人透露已获取招标文件的潜在投标人的名称、数量,以及可能影响公平竞争的有关招标投标的其他情况。招标人设有标底的,标底必须保密。
               招标人对已发出的招标文件进行必要的澄清或者修改的,应当在招标文件要求提交投标文件截止时间至少15日前,以书面形式通知所有招标文件收受人。该澄清或者修改的内容为招标文件的组成部分。
               招标人应当确定投标人编制投标文件所需要的合理时间。但是,依法必须进行招标的项目,自招标文件开始发出之日起至投标人提交投标文件截止之日止,最短不得少于20日。
 
       招标公告
        招标人采用公开招标方式的,应当发布招标公告。依法必须进行招标的项目的招标公告,应当通过国家指定的报刊、信息网络或者其他媒介发布。招标公告应当载明招标人的名称和地址、招标项目的性质、数量、实施地点和时间,以及获取招标文件的办法等事项。
        招标人采用邀请招标方式的,应当向3个以上具备承担招标项目的能力、资信良好的特定法人或者其他组织发出投标邀请书。投标邀请书应当载明的事项与招标公告相同。
        招标人可以根据招标项目本身的要求,在招标公告或者投标邀请书中要求潜在投标人提供有关资质证明文件和业绩情况,并对潜在投标人进行资格审查。国家对投标人的资格条件有规定的,依照其规定。招标人不得以不合理的条件限制或者排斥潜在投标人,不得对潜在投标人给予歧视待遇。
 
       招标文件
        招标人应当根据招标项目的特点和需要编制招标文件。招标文件应当包括招标项目的技术要求、对投标人资格审查的标准、投标报价要求和评标标准等所有实质性要求和条件,以及拟签订合同的主要条款。
        国家对招标项目的技术、标准有规定的,招标人应当按照其规定在招标文件中提出相应要求。招标项目需要划分标段、确定工期的,招标人应当合理划分标段、确定工期,并在招标文件中载明。招标文件不得要求或者标明特定的生产供应以及含有倾向或者排斥潜在投标人的其他内容。
        招标人根据招标项目的具体情况,可以组织潜在投标人踏勘项目现场。招标人不得向他人透露已获取招标文件的潜在投标人的名称、数量,以及可能影响公平竞争的有关招标投标的其他情况。招标人设有标底的,标底必须保密。
        招标人对已发出的招标文件进行必要的澄清或者修改的,应当在招标文件要求提交投标文件截止时间至少15日前,以书面形式通知所有招标文件收受人。该澄清或者修改的内容为招标文件的组成部分。
        招标人应当确定投标人编制投标文件所需要的合理时间。但是,依法必须进行招标的项目,自招标文件开始发出之日起至投标人提交投标文件截止之日止,最短不得少于20日。
 
       投标
        投标人是响应招标、参加投标竞争的法人或者其他组织。投标人应当具备承担招标项目的能力。国家有关规定对投标人资格条件或者招标文件对投标人资格条件有规定的,投标人应当具备规定的资格条件。
        投标人应当按照招标文件的要求编制投标文件。投标文件应当对招标文件提出的实质性要求和条件作出响应。招标项目属于建设施工的,投标文件的内容应当包括拟派出的项目负责人与主要技术人员的简历、业绩和拟用于完成招标项目的机械设备等。
        投标人应当在招标文件要求提交投标文件的截止时间前,将投标文件送达投标地点。招标人收到投标文件后,应当签收保存,不得开启。投标人少于三个的,招标人应当重新招标。在招标文件要求提交投标文件的截止时间后送达的投标文件,招标人应当拒收。
        投标人在招标文件要求提交投标文件的截止时间前,可以补充、修改或者撤回已提交的投标文件,并书面通知招标人。补充、修改的内容为投标文件的组成部分。
        投标人根据招标文件载明的项目实际情况,拟在中标后将中标项目的部分非主体、非关键性工作进行分包的,则应当在投标文件中载明。
        两或两个以上法人或者其他组织可以组成一个联合体,以一个投标人的身份共同投标。联合体各方均应当具备承担招标项目的相应能力;国家有关规定或者招标文件对投标人资格条件有规定的,联合体各方均应当具备规定的相应资格条件。由同一专业的单位组成的联合体,按照资质等级较低的单位确定资质等级。联合体各方应当签订共同投标协议,明确约定各方拟承担的工作和责任,并将共同投标协议连同投标文件一并提交招标人。联合体中标的,联合体各方应当共同与招标人签订合同,就中标项目向招标人承担连带责任。
        招标人不得强制投标人组成联合体共同投标,不得限制投标人之间的竞争。投标人不得相互串通投标报价,不得排挤其他投标人的公平竞争,损害招标人或者其他投标人的合法权益。投标人不得与招标人串通投标,损害国家利益、社会公共利益或者他人的合法权益。禁止投标人以向招标人或者评标委员会成员行贿的手段谋取中标。投标人不得以低于成本的报价竞标,也不得以他人名义投标或者以其他方式弄虚作假,骗取中标。
 
       开标
        开标应当在招标文件确定的提交投标文件截止时间的同一时间公开进行。开标地点应当为招标文件中预先确定的地点。开标由招标人主持,邀请所有投标人参加。
        开标时,由投标人或者其推选的代表检查投标文件的密封情况,也可以由招标人委托的公证机构检查并公证。经确认无误后,由工作人员当众拆封,宣读投标人名称、投标价格和投标文件的其他主要内容。招标人在招标文件要求提交投标文件的截止时间前收到的所有投标文件,开标时都应当当众予以拆封、宣读。开标过程应当记录,并存档备查。
 
       评标
        评标由招标人依法组建的评标委员会负责。依法必须进行招标的项目,其评标委员会由招标人的代表和有关技术、经济等方面的专家组成,成员人数为5人以上单数,其中技术、经济等方面的专家不得少于成员总数的2/3。专家应当从事相关领域工作满8年并具有高级职称或者具有同等专业水平,由招标人从国务院有关部门或者省、自治区、直辖市人民政府有关部门提供的专家名册或者招标代理机构的专家库内的相关专业的专家名单中确定。一般招标项目可以采取随机抽取方式,特殊招标项目可以由招标人直接确定。与投标人有利害关系的人不得进入相关项目的评标委员会,已经进入的应当更换。评标委员会成员的名单在中标结果确定前应当保密。
        招标人应当采取必要的措施,保证评标在严格保密的情况下进行。任何单位和个人不得非法干预、影响评标的过程和结果。
        评标委员会可以要求投标人对投标文件中含义不明确的内容做必要的澄清或者说明,但是澄清或说明不得超出投标文件的范围或者改变投标文件的实质性内容。评标委员会应当按照招标文件确定的评标标准和方法,对投标文件进行评审和比较。设有标底的,应当参考标底。评标委员会完成评标后,应当向招标人提出书面评标报告,并推荐合格的中标候选人。招标人根据评标委员会提出的书面评标报告和推荐的中标候选人确定中标人。招标人也可以授权评标委员会直接确定中标人。国务院对特定招标项目的评标有特别规定的,从其规定。
 
       中标
        中标人的投标应当符合下列条件之一。
        (1)能够最大限度地满足招标文件中规定的各项综合评价标准。
        (2)能够满足招标文件的实质性要求,并且经评审的投标价格最低。但是投标价格低于成本的除外。
        评标委员会经评审,认为所有投标都不符合招标文件要求的,可以否决所有投标。依法必须进行招标的项目的所有投标被否决的,招标人应当重新招标。
        在确定中标人前,招标人不得与投标人就投标价格、投标方案等实质性内容进行谈判。评标委员会成员应当客观、公正地履行职务,遵守职业道德,对所提出的评审意见承担个人责任。评标委员会成员不得私下接触投标人,不得收受投标人的财物或其他好处。评标委员会成员和参与评标的有关工作人员不得透露对投标文件的评审和比较、中标候选人的推荐情况,以及与评标有关的其他情况。
        中标人确定后,招标人应当向中标人发出中标通知书,并同时将中标结果通知所有未中标的投标人。中标通知书对招标人和中标人具有法律效力。中标通知书发出后,招标人改变中标结果的,或者中标人放弃中标项目的,应当依法承担法律责任。招标人和中标人应当自中标通知书发出之日起30日内,按照招标文件和中标人的投标文件订立书面合同。招标人和中标人不得再行订立背离合同实质性内容的其他协议。招标文件要求中标人提交履约保证金的,中标人应当提交。
        依法必须进行招标的项目,招标人应当自确定中标人之日起15日内向有关行政监督部门提交招标投标情况的书面报告。
 
       分包
        中标人应当按照合同约定履行义务,完成中标项目。中标人不得向他人转让中标项目,也不得将中标项目肢解后分别向他人转让。中标人按照合同约定或者经招标人同意,可以将中标项目的部分非主体、非关键性工作分包给他人完成。接受分包的人应当具备相应的资格条件,并不得再次分包。中标人应当就分包项目向招标人负责,接受分包的人就分包项目承担连带责任。
 
       质量管理
        ISO将质量定义为:“质量是反映实体满足明确和隐含需要的能力的特性总和”。我国国家标准GB/T1900—2000将质量定义为:“质量是一组固有特性满足要求的程度”。这些定义表明质量是通过实体来体现的,质量的实体可以是产品,也可以是某项活动或过程的工作质量,还可以是质量管理体系运行的质量。
        ISO将质量管理定义为:“在质量方面指挥和控制组织的协调活动”。我国国家标准GB/T1900-2000对质量管理的定义是:“在质量方面指挥和控制组织的协调的活动”。在质量方面的指挥和控制活动,通常包括制定质量方针和质量目标以及质量策划、质量控制、质量保证和质量改进。
        我国国家标准GB/T1900—2000对质量保证的定义是:“质量保证是质量管理的一部分,致力于增强满足质量要求的能力”。也就是,质量保证是为了提供足够的信任表明实体能够满足质量要求,而在质量体系中实施并根据需要进行全部有计划和有系统的活动。
        我国国家标准GB/T 1900—2000对质量控制的定义是:“质量管理的一部分,致力于满足质量要求”。质量控制的目标就是确保产品的质量能满足顾客、法律法规等方面所提出的质量要求,如适用性、可靠性和安全性。质量控制的范围涉及产品质量形成全过程的各个环节,如设计过程、采购过程、生产过程和安装过程。
        项目质量管理是为了保证项目最终能够达到预期的质量目标而进行的一系列的管理过程。项目的质量管理可以分解为质量计划编制、质量保证与质量控制三个过程。
        (1)质量计划编制。是指确定与项目相关的质量标准,并决定如何达到这些质量标准。
        (2)质量保证。是定期评估总体项目绩效的活动之一,以树立项目能满足相关质量标准的信心。
        (3)质量控制。是指监控具体的项目结果以判断其是否符合相关的质量标准,并确定方法来消除绩效低下的原因。
        质量管理与项目管理是相辅相成的,例如质量管理和项目管理这两门学科都认识到以下几方面的重要性:
        (1)顾客的满意程度。强调对顾客的需求深刻理解、认真评估、准确定义和严格管理,以便与顾客的期望相符。这就要求既符合要求(项目交付的产品要与它宣布将交付的产品相符)又适于使用(交付的产品或服务要满足实际需求)。
        (2)预防胜于检查。强调预防比检查更重要。防患于未然的代价总是小于检查所发现错误的纠正代价。
        (3)管理层的责任。成功需要项目团队全体成员的参与,然而提供取得成功所需的资源却仍然是管理层的职责。
        (4)持续改进。计划、执行、检查和改进循环是质量改进的基础。执行组织采取的质量改进措施,不仅会改善项目管理的质量,而且也会改进项目产品的质量。
 
       优化级
        通过对来自过程、新概念和新技术等方面的各种有用信息的定量分析,能够不断地、持续地进行过程改进。如果一个企业达到了这一级,表明该企业能够根据实际的项目性质、技术等因素,不断调整软件生产过程以求达到最佳。
        在CMM中,每个成熟度等级(第一级除外)规定了不同的关键过程域,一个软件组织如果希望达到某一个成熟度级别,就必须完全满足关键过程域所规定的要求,即满足关键过程域的目标。
 
       管理子系统
        管理子系统是结构化布线系统中对布线电缆进行端接及配线管理的子系统,通常设置在楼层的接线间内。
        管理子系统由各种交连设备(双绞线跳线架、光纤跳线架)以及集线器和交换机等交换设备组成。交连设备通过水平布线子系统连接到各个工作区的信息插座,集线器或交换机与交连设备之间通过短线缆互连,这些短线称为跳线。
 
       招投标法
        伴随着系统集成行业的高速发展,系统集成行业面临着越来越激烈的竞争,表现最为突出的现状之一就是系统集成公司频繁地参与各个系统集成项目的招投标活动。在现实工作中,系统集成项目的招标活动几乎完全由甲方主导,大多数情形下乙方只能被动地去满足甲方的招投标要求。造成乙方在投标活动中处于被动地位的主要原因固然是现在系统集成行业是典型的“买方市场”,但不可否认的事实是乙方对招投标法规理解不深入、不全面也是一个重要的原因。为了更好地参与市场竞争,学习和了解招投标法规对于系统集成行业的从业人员有着重要的指导意义。下面列举了《招投标法》六章内容的重点条款,考生应重点熟悉和理解。
        第一章总则
        第五条设区的市级以上地方人民政府可以根据实际需要,建立统一规范的招标投标交易场所,为招标投标活动提供服务。招标投标交易场所不得与行政监督部门存在隶属关系,不得以营利为目的。
        国家鼓励利用信息网络进行电子招标投标。
        第六条禁止国家工作人员以任何方式非法干涉招标投标活动。
        第二章招标
        第七条按照国家有关规定需要履行项目审批、核准手续的依法必须进行招标的项目,其招标范围、招标方式、招标组织形式应当报项目审批、核准部门审批、核准。项目审批、核准部门应当及时将审批、核准确定的招标范围、招标方式、招标组织形式通报有关行政监督部门。
        第八条国有资金占控股或者主导地位的依法必须进行招标的项目,应当公开招标;但有下列情形之一的,可以邀请招标:
        (一)技术复杂、有特殊要求或者受自然环境限制,只有少量潜在投标人可供选择;
        (二)采用公开招标方式的费用占项目合同金额的比例过大。
        有前款第二项所列情形,属于本条例第七条规定的项目,由项目审批、核准部门在审批、核准项目时作出认定;其他项目由招标人申请有关行政监督部门作出认定。
        第九条除招标投标法第六十六条规定的可以不进行招标的特殊情况外,有下列情形之一的,可以不进行招标:
        (一)需要采用不可替代的专利或者专有技术;
        (二)采购人依法能够自行建设、生产或者提供;
        (三)已通过招标方式选定的特许经营项目投资人依法能够自行建设、生产或者提供;
        (四)需要向原中标人采购工程、货物或者服务,否则将影响施工或者功能配套要求;
        (五)国家规定的其他特殊情形。
        招标人为适用前款规定弄虚作假的,属于招标投标法第四条规定的规避招标。
        第十五条公开招标的项目,应当依照招标投标法和本条例的规定发布招标公告、编制招标文件。
        招标人采用资格预审办法对潜在投标人进行资格审查的,应当发布资格预审公告、编制资格预审文件。
        依法必须进行招标的项目的资格预审公告和招标公告,应当在国务院发展改革部门依法指定的媒介发布。在不同媒介发布的同一招标项目的资格预审公告或者招标公告的内容应当一致。指定媒介发布依法必须进行招标的项目的境内资格预审公告、招标公告,不得收取费用。
        编制依法必须进行招标的项目的资格预审文件和招标文件,应当使用国务院发展改革部门会同有关行政监督部门制定的标准文本。
        第十六条招标人应当按照资格预审公告、招标公告或者投标邀请书规定的时间、地点发售资格预审文件或者招标文件。资格预审文件或者招标文件的发售期不得少于5日。
        招标人发售资格预审文件、招标文件收取的费用应当限于补偿印刷、邮寄的成本支出,不得以营利为目的。
        第十七条招标人应当合理确定提交资格预审申请文件的时间。依法必须进行招标的项目提交资格预审申请文件的时间,自资格预审文件停止发售之日起不得少于5日。
        第十八条资格预审应当按照资格预审文件载明的标准和方法进行。
        国有资金占控股或者主导地位的依法必须进行招标的项目,招标人应当组建资格审查委员会审查资格预审申请文件。资格审查委员会及其成员应当遵守招标投标法和本条例有关评标委员会及其成员的规定。
        第十九条资格预审结束后,招标人应当及时向资格预审申请人发出资格预审结果通知书。未通过资格预审的申请人不具有投标资格。
        通过资格预审的申请人少于3个的,应当重新招标。
        第二十条招标人采用资格后审办法对投标人进行资格审查的,应当在开标后由评标委员会按照招标文件规定的标准和方法对投标人的资格进行审查。
        第二十一条招标人可以对已发出的资格预审文件或者招标文件进行必要的澄清或者修改。澄清或者修改的内容可能影响资格预审申请文件或者投标文件编制的,招标人应当在提交资格预审申请文件截止时间至少3日前,或者投标截止时间至少15日前,以书面形式通知所有获取资格预审文件或者招标文件的潜在投标人;不足3日或者15日的,招标人应当顺延提交资格预审申请文件或者投标文件的截止时间。
        第二十二条潜在投标人或者其他利害关系人对资格预审文件有异议的,应当在提交资格预审申请文件截止时间2日前提出;对招标文件有异议的,应当在投标截止时间1日前提出。招标人应当自收到异议之日起3日内作出答复;作出答复前,应当暂停招标投标活动。
        第二十三条招标人编制的资格预审文件、招标文件的内容违反法律、行政法规的强制性规定,违反公开、公平、公正和诚实信用原则,影响资格预审结果或者潜在投标人投标的,依法必须进行招标的项目的招标人应当在修改资格预审文件或者招标文件后重新招标。
        第二十四条招标人对招标项目划分标段的,应当遵守招标投标法的有关规定,不得利用划分标段限制或者排斥潜在投标人。依法必须进行招标的项目的招标人不得利用划分标段规避招标。
        第二十五条招标人应当在招标文件中载明投标有效期。投标有效期从提交投标文件的截止之日起算。
        第二十六条招标人在招标文件中要求投标人提交投标保证金的,投标保证金不得超过招标项目估算价的2%。投标保证金有效期应当与投标有效期一致。
        依法必须进行招标的项目的境内投标单位,以现金或者支票形式提交的投标保证金应当从其基本账户转出。
        招标人不得挪用投标保证金。
        第二十七条招标人可以自行决定是否编制标底。一个招标项目只能有一个标底。标底必须保密。
        接受委托编制标底的中介机构不得参加受托编制标底项目的投标,也不得为该项目的投标人编制投标文件或者提供咨询。
        招标人设有最高投标限价的,应当在招标文件中明确最高投标限价或者最高投标限价的计算方法。招标人不得规定最低投标限价。
        第二十八条招标人不得组织单个或者部分潜在投标人踏勘项目现场。
        第二十九条招标人可以依法对工程以及与工程建设有关的货物、服务全部或者部分实行总承包招标。以暂估价形式包括在总承包范围内的工程、货物、服务属于依法必须进行招标的项目范围且达到国家规定规模标准的,应当依法进行招标。
        前款所称暂估价,是指总承包招标时不能确定价格而由招标人在招标文件中暂时估定的工程、货物、服务的金额。
        第三十条对技术复杂或者无法精确拟定技术规格的项目,招标人可以分两阶段进行招标。
        第一阶段,投标人按照招标公告或者投标邀请书的要求提交不带报价的技术建议,招标人根据投标人提交的技术建议确定技术标准和要求,编制招标文件。
        第二阶段,招标人向在第一阶段提交技术建议的投标人提供招标文件,投标人按照招标文件的要求提交包括最终技术方案和投标报价的投标文件。
        招标人要求投标人提交投标保证金的,应当在第二阶段提出。
        第三十一条招标人终止招标的,应当及时发布公告,或者以书面形式通知被邀请的或者已经获取资格预审文件、招标文件的潜在投标人。已经发售资格预审文件、招标文件或者已经收取投标保证金的,招标人应当及时退还所收取的资格预审文件、招标文件的费用,以及所收取的投标保证金及银行同期存款利息。
        第三十二条招标人不得以不合理的条件限制、排斥潜在投标人或者投标人。
        招标人有下列行为之一的,属于以不合理条件限制、排斥潜在投标人或者投标人:
        (一)就同一招标项目向潜在投标人或者投标人提供有差别的项目信息;
        (二)设定的资格、技术、商务条件与招标项目的具体特点和实际需要不相适应或者与合同履行无关;
        (三)依法必须进行招标的项目以特定行政区域或者特定行业的业绩、奖项作为加分条件或者中标条件;
        (四)对潜在投标人或者投标人采取不同的资格审查或者评标标准;
        (五)限定或者指定特定的专利、商标、品牌、原产地或者供应商;
        (六)依法必须进行招标的项目非法限定潜在投标人或者投标人的所有制形式或者组织形式;
        (七)以其他不合理条件限制、排斥潜在投标人或者投标人。
        第三章投标
        第三十四条与招标人存在利害关系可能影响招标公正性的法人、其他组织或者个人,不得参加投标。
        单位负责人为同一人或者存在控股、管理关系的不同单位,不得参加同一标段投标或者未划分标段的同一招标项目投标。
        违反前两款规定的,相关投标均无效。
        第三十五条投标人撤回已提交的投标文件,应当在投标截止时间前书面通知招标人。招标人已收取投标保证金的,应当自收到投标人书面撤回通知之日起5日内退还。
        投标截止后投标人撤销投标文件的,招标人可以不退还投标保证金。
        第三十六条未通过资格预审的申请人提交的投标文件,以及逾期送达或者不按照招标文件要求密封的投标文件,招标人应当拒收。
        招标人应当如实记载投标文件的送达时间和密封情况,并存档备查。
        第三十七条招标人应当在资格预审公告、招标公告或者投标邀请书中载明是否接受联合体投标。
        招标人接受联合体投标并进行资格预审的,联合体应当在提交资格预审申请文件前组成。资格预审后联合体增减、更换成员的,其投标无效。
        联合体各方在同一招标项目中以自己名义单独投标或者参加其他联合体投标的,相关投标均无效。
        第三十八条投标人发生合并、分立、破产等重大变化的,应当及时书面告知招标人。投标人不再具备资格预审文件、招标文件规定的资格条件或者其投标影响招标公正性的,其投标无效。
        第三十九条禁止投标人相互串通投标。
        有下列情形之一的,属于投标人相互串通投标:
        (一)投标人之间协商投标报价等投标文件的实质性内容;
        (二)投标人之间约定中标人;
        (三)投标人之间约定部分投标人放弃投标或者中标;
        (四)属于同一集团、协会、商会等组织成员的投标人按照该组织要求协同投标;
        (五)投标人之间为谋取中标或者排斥特定投标人而采取的其他联合行动。
        第四十条有下列情形之一的,视为投标人相互串通投标:
        (一)不同投标人的投标文件由同一单位或者个人编制;
        (二)不同投标人委托同一单位或者个人办理投标事宜;
        (三)不同投标人的投标文件载明的项目管理成员为同一人;
        (四)不同投标人的投标文件异常一致或者投标报价呈规律性差异;
        (五)不同投标人的投标文件相互混装;
        (六)不同投标人的投标保证金从同一单位或者个人的账户转出。
        第四十一条禁止招标人与投标人串通投标。
        有下列情形之一的,属于招标人与投标人串通投标:
        (一)招标人在开标前开启投标文件并将有关信息泄露给其他投标人;
        (二)招标人直接或者间接向投标人泄露标底、评标委员会成员等信息;
        (三)招标人明示或者暗示投标人压低或者抬高投标报价;
        (四)招标人授意投标人撤换、修改投标文件;
        (五)招标人明示或者暗示投标人为特定投标人中标提供方便;
        (六)招标人与投标人为谋求特定投标人中标而采取的其他串通行为。
        第四十二条使用通过受让或者租借等方式获取的资格、资质证书投标的,属于招标投标法第三十三条规定的以他人名义投标。
        投标人有下列情形之一的,属于招标投标法第三十三条规定的以其他方式弄虚作假的行为:
        (一)使用伪造、变造的许可证件;
        (二)提供虚假的财务状况或者业绩;
        (三)提供虚假的项目负责人或者主要技术人员简历、劳动关系证明;
        (四)提供虚假的信用状况;
        (五)其他弄虚作假的行为。
        第四章开标、评标和中标
        第四十四条招标人应当按照招标文件规定的时间、地点开标。
        投标人少于3个的,不得开标;招标人应当重新招标。
        投标人对开标有异议的,应当在开标现场提出,招标人应当当场作出答复,并制作记录。
        第四十六条除招标投标法第三十七条第三款规定的特殊招标项目外,依法必须进行招标的项目,其评标委员会的专家成员应当从评标专家库内相关专业的专家名单中以随机抽取方式确定。任何单位和个人不得以明示、暗示等任何方式指定或者变相指定参加评标委员会的专家成员。
        依法必须进行招标的项目的招标人非因招标投标法和本条例规定的事由,不得更换依法确定的评标委员会成员。更换评标委员会的专家成员应当依照前款规定进行。
        评标委员会成员与投标人有利害关系的,应当主动回避。
        有关行政监督部门应当按照规定的职责分工,对评标委员会成员的确定方式、评标专家的抽取和评标活动进行监督。行政监督部门的工作人员不得担任本部门负责监督项目的评标委员会成员。
        第四十七条招标投标法第三十七条第三款所称特殊招标项目,是指技术复杂、专业性强或者国家有特殊要求,采取随机抽取方式确定的专家难以保证胜任评标工作的项目。
        第四十八条招标人应当向评标委员会提供评标所必需的信息,但不得明示或者暗示其倾向或者排斥特定投标人。
        招标人应当根据项目规模和技术复杂程度等因素合理确定评标时间。超过三分之一的评标委员会成员认为评标时间不够的,招标人应当适当延长。
        评标过程中,评标委员会成员有回避事由、擅离职守或者因健康等原因不能继续评标的,应当及时更换。被更换的评标委员会成员作出的评审结论无效,由更换后的评标委员会成员重新进行评审。
        第四十九条评标委员会成员应当依照招标投标法和本条例的规定,按照招标文件规定的评标标准和方法,客观、公正地对投标文件提出评审意见。招标文件没有规定的评标标准和方法不得作为评标的依据。
        评标委员会成员不得私下接触投标人,不得收受投标人给予的财物或者其他好处,不得向招标人征询确定中标人的意向,不得接受任何单位或者个人明示或者暗示提出的倾向或者排斥特定投标人的要求,不得有其他不客观、不公正履行职务的行为。
        第五十条招标项目设有标底的,招标人应当在开标时公布。标底只能作为评标的参考,不得以投标报价是否接近标底作为中标条件,也不得以投标报价超过标底上下浮动范围作为否决投标的条件。
        第五十一条有下列情形之一的,评标委员会应当否决其投标:
        (一)投标文件未经投标单位盖章和单位负责人签字;
        (二)投标联合体没有提交共同投标协议;
        (三)投标人不符合国家或者招标文件规定的资格条件;
        (四)同一投标人提交两个以上不同的投标文件或者投标报价,但招标文件要求提交备选投标的除外;
        (五)投标报价低于成本或者高于招标文件设定的最高投标限价;
        (六)投标文件没有对招标文件的实质性要求和条件作出响应;
        (七)投标人有串通投标、弄虚作假、行贿等违法行为。
        第五十二条投标文件中有含义不明确的内容、明显文字或者计算错误,评标委员会认为需要投标人作出必要澄清、说明的,应当书面通知该投标人。投标人的澄清、说明应当采用书面形式,并不得超出投标文件的范围或者改变投标文件的实质性内容。
        评标委员会不得暗示或者诱导投标人作出澄清、说明,不得接受投标人主动提出的澄清、说明。
        第五十三条评标完成后,评标委员会应当向招标人提交书面评标报告和中标候选人名单。中标候选人应当不超过3个,并标明排序。
        评标报告应当由评标委员会全体成员签字。对评标结果有不同意见的评标委员会成员应当以书面形式说明其不同意见和理由,评标报告应当注明该不同意见。评标委员会成员拒绝在评标报告上签字又不书面说明其不同意见和理由的,视为同意评标结果。
        第五十四条依法必须进行招标的项目,招标人应当自收到评标报告之日起3日内公示中标候选人,公示期不得少于3日。
        投标人或者其他利害关系人对依法必须进行招标的项目的评标结果有异议的,应当在中标候选人公示期间提出。招标人应当自收到异议之日起3日内作出答复;作出答复前,应当暂停招标投标活动。
        第五十五条国有资金占控股或者主导地位的依法必须进行招标的项目,招标人应当确定排名第一的中标候选人为中标人。排名第一的中标候选人放弃中标、因不可抗力不能履行合同、不按照招标文件要求提交履约保证金,或者被查实存在影响中标结果的违法行为等情形,不符合中标条件的,招标人可以按照评标委员会提出的中标候选人名单排序依次确定其他中标候选人为中标人,也可以重新招标。
        第五十六条中标候选人的经营、财务状况发生较大变化或者存在违法行为,招标人认为可能影响其履约能力的,应当在发出中标通知书前由原评标委员会按照招标文件规定的标准和方法审查确认。
        第五十七条招标人和中标人应当依照招标投标法和本条例的规定签订书面合同,合同的标的、价款、质量、履行期限等主要条款应当与招标文件和中标人的投标文件的内容一致。招标人和中标人不得再行订立背离合同实质性内容的其他协议。
        招标人最迟应当在书面合同签订后5日内向中标人和未中标的投标人退还投标保证金及银行同期存款利息。
        第五十八条招标文件要求中标人提交履约保证金的,中标人应当按照招标文件的要求提交。履约保证金不得超过中标合同金额的10%。
        第五十九条中标人应当按照合同约定履行义务,完成中标项目。中标人不得向他人转让中标项目,也不得将中标项目肢解后分别向他人转让。
        中标人按照合同约定或者经招标人同意,可以将中标项目的部分非主体、非关键性工作分包给他人完成。接受分包的人应当具备相应的资格条件,并不得再次分包。
        中标人应当就分包项目向招标人负责,接受分包的人就分包项目承担连带责任。
        第五章投诉与处理
        第六十一条投诉人就同一事项向两个以上有权受理的行政监督部门投诉的,由最先收到投诉的行政监督部门负责处理。
        行政监督部门应当自收到投诉之日起3个工作日内决定是否受理投诉,并自受理投诉之日起30个工作日内作出书面处理决定;需要检验、检测、鉴定、专家评审的,所需时间不计算在内。
        投诉人捏造事实、伪造材料或者以非法手段取得证明材料进行投诉的,行政监督部门应当予以驳回。
        第六章法律责任
        第六十三条招标人有下列限制或者排斥潜在投标人行为之一的,由有关行政监督部门依照招标投标法第五十一条的规定处罚:
        (一)依法应当公开招标的项目不按照规定在指定媒介发布资格预审公告或者招标公告;
        (二)在不同媒介发布的同一招标项目的资格预审公告或者招标公告的内容不一致,影响潜在投标人申请资格预审或者投标。
        依法必须进行招标的项目的招标人不按照规定发布资格预审公告或者招标公告,构成规避招标的,依照招标投标法第四十九条的规定处罚。
        一、第六十四条招标人有下列情形之一的,由有关行政监督部门责令改正,可以处10万元以下的罚款:
        (一)依法应当公开招标而采用邀请招标;
        (二)招标文件、资格预审文件的发售、澄清、修改的时限,或者确定的提交资格预审申请文件、投标文件的时限不符合招标投标法和本条例规定;
        (三)接受未通过资格预审的单位或者个人参加投标;
        (四)接受应当拒收的投标文件。
        招标人有前款第一项、第三项、第四项所列行为之一的,对单位直接负责的主管人员和其他直接责任人员依法给予处分。
        第六十五条招标代理机构在所代理的招标项目中投标、代理投标或者向该项目投标人提供咨询的,接受委托编制标底的中介机构参加受托编制标底项目的投标或者为该项目的投标人编制投标文件、提供咨询的,依照招标投标法第五十条的规定追究法律责任。
        第六十六条招标人超过本条例规定的比例收取投标保证金、履约保证金或者不按照规定退还投标保证金及银行同期存款利息的,由有关行政监督部门责令改正,可以处5万元以下的罚款;给他人造成损失的,依法承担赔偿责任。
        第六十七条投标人相互串通投标或者与招标人串通投标的,投标人向招标人或者评标委员会成员行贿谋取中标的,中标无效;构成犯罪的,依法追究刑事责任;尚不构成犯罪的,依照招标投标法第五十三条的规定处罚。投标人未中标的,对单位的罚款金额按照招标项目合同金额依照招标投标法规定的比例计算。
        投标人有下列行为之一的,属于招标投标法第五十三条规定的情节严重行为,由有关行政监督部门取消其1年至2年内参加依法必须进行招标的项目的投标资格:
        (一)以行贿谋取中标;
        (二)3年内2次以上串通投标;
        (三)串通投标行为损害招标人、其他投标人或者国家、集体、公民的合法利益,造成直接经济损失30万元以上;
        (四)其他串通投标情节严重的行为。
        投标人自本条第二款规定的处罚执行期限届满之日起3年内又有该款所列违法行为之一的,或者串通投标、以行贿谋取中标情节特别严重的,由工商行政管理机关吊销营业执照。
        法律、行政法规对串通投标报价行为的处罚另有规定的,从其规定。
        第六十八条投标人以他人名义投标或者以其他方式弄虚作假骗取中标的,中标无效;构成犯罪的,依法追究刑事责任;尚不构成犯罪的,依照招标投标法第五十四条的规定处罚。依法必须进行招标的项目的投标人未中标的,对单位的罚款金额按照招标项目合同金额依照招标投标法规定的比例计算。
        投标人有下列行为之一的,属于招标投标法第五十四条规定的情节严重行为,由有关行政监督部门取消其1年至3年内参加依法必须进行招标的项目的投标资格:
        (一)伪造、变造资格、资质证书或者其他许可证件骗取中标;
        (二)3年内2次以上使用他人名义投标;
        (三)弄虚作假骗取中标给招标人造成直接经济损失30万元以上;
        (四)其他弄虚作假骗取中标情节严重的行为。
        投标人自本条第二款规定的处罚执行期限届满之日起3年内又有该款所列违法行为之一的,或者弄虚作假骗取中标情节特别严重的,由工商行政管理机关吊销营业执照。
        第六十九条出让或者出租资格、资质证书供他人投标的,依照法律、行政法规的规定给予行政处罚;构成犯罪的,依法追究刑事责任。
        第七十条依法必须进行招标的项目的招标人不按照规定组建评标委员会,或者确定、更换评标委员会成员违反招标投标法和本条例规定的,由有关行政监督部门责令改正,可以处10万元以下的罚款,对单位直接负责的主管人员和其他直接责任人员依法给予处分;违法确定或者更换的评标委员会成员作出的评审结论无效,依法重新进行评审。
        国家工作人员以任何方式非法干涉选取评标委员会成员的,依照本条例第八十一条的规定追究法律责任。
        第七十一条评标委员会成员有下列行为之一的,由有关行政监督部门责令改正;情节严重的,禁止其在一定期限内参加依法必须进行招标的项目的评标;情节特别严重的,取消其担任评标委员会成员的资格:
        (一)应当回避而不回避;
        (二)擅离职守;
        (三)不按照招标文件规定的评标标准和方法评标;
        (四)私下接触投标人;
        (五)向招标人征询确定中标人的意向或者接受任何单位或者个人明示或者暗示提出的倾向或者排斥特定投标人的要求;
        (六)对依法应当否决的投标不提出否决意见;
        (七)暗示或者诱导投标人作出澄清、说明或者接受投标人主动提出的澄清、说明;
        (八)其他不客观、不公正履行职务的行为。
        第七十二条评标委员会成员收受投标人的财物或者其他好处的,没收收受的财物,处3000元以上5万元以下的罚款,取消担任评标委员会成员的资格,不得再参加依法必须进行招标的项目的评标;构成犯罪的,依法追究刑事责任。
        第七十三条依法必须进行招标的项目的招标人有下列情形之一的,由有关行政监督部门责令改正,可以处中标项目金额10%。以下的罚款;给他人造成损失的,依法承担赔偿责任;对单位直接负责的主管人员和其他直接责任人员依法给予处分:
        (一)无正当理由不发出中标通知书;
        (二)不按照规定确定中标人;
        (三)中标通知书发出后无正当理由改变中标结果;
        (四)无正当理由不与中标人订立合同;
        (五)在订立合同时向中标人提出附加条件。
        第七十四条中标人无正当理由不与招标人订立合同,在签订合同时向招标人提出附加条件,或者不按照招标文件要求提交履约保证金的,取消其中标资格,投标保证金不予退还。对依法必须进行招标的项目的中标人,由有关行政监督部门责令改正,可以处中标项目金额10‰以下的罚款。
        第七十五条招标人和中标人不按照招标文件和中标人的投标文件订立合同,合同的主要条款与招标文件、中标人的投标文件的内容不一致,或者招标人、中标人订立背离合同实质性内容的协议的,由有关行政监督部门责令改正,可以处中标项目金额5‰以上10‰以下的罚款。
        第七十六条中标人将中标项目转让给他人的,将中标项目肢解后分别转让给他人的,违反招标投标法和本条例规定将中标项目的部分主体、关键性工作分包给他人的,或者分包人再次分包的,转让、分包无效,处转让、分包项目金额5‰以上10‰以下的罚款;有违法所得的,并处没收违法所得;可以责令停业整顿;情节严重的,由工商行政管理机关吊销营业执照。
        第七十七条投标人或者其他利害关系人捏造事实、伪造材料或者以非法手段取得证明材料进行投诉,给他人造成损失的,依法承担赔偿责任。
        招标人不按照规定对异议作出答复,继续进行招标投标活动的,由有关行政监督部门责令改正,拒不改正或者不能改正并影响中标结果的,依照本条例第八十二条的规定处理。
        第八十一条国家工作人员利用职务便利,以直接或者间接、明示或者暗示等任何方式非法干涉招标投标活动,有下列情形之一的,依法给予记过或者记大过处分;情节严重的,依法给予降级或者撤职处分;情节特别严重的,依法给予开除处分;构成犯罪的,依法追究刑事责任:
        (一)要求对依法必须进行招标的项目不招标,或者要求对依法应当公开招标的项目不公开招标;
        (二)要求评标委员会成员或者招标人以其指定的投标人作为中标候选人或者中标人,或者以其他方式非法干涉评标活动,影响中标结果;
        (三)以其他方式非法干涉招标投标活动。
        第八十二条依法必须进行招标的项目的招标投标活动违反招标投标法和本条例的规定,对中标结果造成实质性影响,且不能采取补救措施予以纠正的,招标、投标、中标无效,应当依法重新招标或者评标。
 
       文件管理
        文件系统是操作系统中负责存取和管理信息的模块,它用统一的方式管理用户和系统信息的存储、检索、更新、共享和保护,并为用户提供一整套方便有效的文件使用和操作方法。对于用户来说,可按自己的愿望并遵循文件系统的规则来定义文件信息的逻辑结构,由文件系统提供“按名存取”来实现对用户文件信息的存储和检索。可见,使用者在处理他的信息时,只需关心所执行的文件操作及文件的逻辑结构,而不必涉及存储结构。
               文件与文件系统
                      文件的基本概念
                      文件是由文件名字标识的一组相关信息的集合。文件名是字母或数字组成的字母数字串,它的格式和长度因系统而异。
                      组成文件的信息可以是各式各样的:一个源程序、一批数据、各类语言的编译程序都可以各自组成一个文件。文件可以按各种方法进行分类,如按用途可分成:系统文件、库文件和用户文件;按保护级别可分成:只读文件、读写文件和不保护文件;按信息流向可分成:输入文件、输出文件和输入输出文件等。
                      文件的命名
                      文件是一个抽象机制,它提供了一种把文件保存在磁盘上而且便于以后读取的方法,用户不必了解信息存储的方法、位置以及存储设备实际运作方式等细节。在这一抽象机制中最重要的是文件命名,当一个进程创建一个文件时必须给出文件名字,以后这个文件将独立于进程存在直到它被显式地删除;当其他进程要使用这一文件时必须显式地指出该文件名字;操作系统也将根据该文件名字对文件进行保护。
                      文件类型
                      在现代操作系统中,对于文件乃至设备的访问都是基于文件进行的,例如,打印一批数据就是向打印机设备文件写数据,从键盘接收一批数据就是从键盘设备文件读数据。操作系统一般支持以下几种不同类型的文件:
                      (1)普通文件:即前面所讨论的存储在外存储设备上的数据文件。
                      (2)目录文件:管理和实现文件系统的系统文件。
                      (3)块设备文件:用于磁盘、光盘或磁带等块设备的I/O。
                      (4)字符设备文件:用于终端、打印机等字符设备的I/O。
                      一般来说,普通文件包括ASCII文件或者二进制文件,ASCII文件由多行正文组成,在DOS、Windows等系统中每一行以回车换行结束,整个文件以CTRL+Z结束;在Unix等系统中每一行以换行结束,整个文件以CTRL+D结束。ASCII文件的最大优点是可以原样显示和打印,也可以用通常的文本编辑器进行编辑。另一种正规文件是二进制文件,它往往有一定的内部结构,组织成字节的流,如可执行文件是指令和数据的流,记录式文件是逻辑记录的流。
                      文件系统
                      对文件系统本身来说,必须采用特定的数据结构和有效算法,实现文件的逻辑结构到存储结构的映射,实现对文件存储空间和用户信息的管理,提供多种存取方法。
                      所以,文件系统面向用户的功能是:
                      (1)文件的按名存取。
                      (2)文件目录建立和维护。
                      (3)实现从逻辑文件到物理文件的转换。
                      (4)文件存储空间的分配和管理。
                      (5)提供合适的文件存取方法。
                      (6)实现文件的共享、保护和保密。
                      (7)提供一组可供用户使用的文件操作。
                      为了实现这些功能,操作系统必须考虑文件目录的建立和维护、存储空间的分配和回收、数据的保密和监护、监督用户存取和修改文件的权限、在不同存储介质上信息的表示方式、信息的编址方法、信息的存储次序、以及怎样检索用户信息等问题。
                      文件的存取
                      从用户使用观点来看,关心的是数据的逻辑结构,即记录及其逻辑关系,数据独立于物理环境;从系统实现观点来看,数据则被文件系统按照某种规则排列和存放到物理存储介质上。那么,输入的数据如何存储?处理的数据如何检索?数据的逻辑结构和数据物理结构之间怎样接口?谁来完成数据的成组和分解操作?这些都是存取方法的任务。存取方法是操作系统为用户程序提供的使用文件的技术和手段。
                      (1)顺序存取。
                      按记录顺序进行读/写操作的存取方法称为顺序存取。固定长记录的顺序存取是十分简单的。读操作总是读出下一次要读出的文件的下一个记录,同时,自动让文件记录读指针推进,以指向下一次要读出的记录位置。如果文件是可读可写的。再设置一个文件记录指针,它总指向下一次要写入记录的存放位置,执行写操作时,将一个记录写到文件未端。允许对这种文件进行前跳或后退N(整数)个记录的操作。顺序存取主要用于磁带文件,但也适用于磁盘上的顺序文件。
                      (2)直接存取。
                      很多应用场合要求以任意次序直接读写某个记录,例如,航空订票系统,把特定航班的所有信息用航班号作标识,存放在某物理块中,用户预订某航班时,需要直接将该航班的信息取出。直接存取方法便适合于这类应用,它通常用于磁盘文件。
                      (3)索引存取。
                      第三种类型的存取是基于索引文件的索引存取方法。由于文件中的记录不按它在文件中的位置,而按它的记录键来编址,所以,用户提供给操作系统记录键后就可查找到所需记录。通常记录按记录键的某种顺序存放,例如,按代表健的字母先后次序来排序。对于这种文件,除可采用按键存取外,也可以采用顺序存取或直接存取的方法。信息块的地址都可以通过查找记录键而换算出来。实际的系统中,大都采用多级索引,以加速记录查找过程。
               文件目录
                      文件目录的概念
                      文件系统怎样实现文件的“按名存取”?如何查找文件存储器中的指定文件?如何有效地管理用户文件和系统文件?文件目录便是用于这些操作的重要手段。文件系统的基本功能之一就是负责文件目录的建立、维护和检索,要求编排的目录便于查找、防止冲突,目录的检索方便迅速。
                      有了文件目录后,就可实现文件的“按名存取”。每一个文件在文件目录中登记一项。文件目录项一般应该包括以下内容:
                      (1)有关文件存取控制的信息。如文件名、用户名、授权者存取权限:文件类型和文件属性,如读写文件、执行文件、只读文件等。
                      (2)有关文件结构的信息。文件的逻辑结构,如记录类型、记录个数、记录长度、成组因子数等。文件的物理结构,如记录存放相对位置或文件第一块的物理块号,也可指出文件索引的所在位置。
                      (3)有关文件管理的信息。如文件建立日期、文件最近修改日期、访问日期、文件保留期限、记账信息等。
                      有了文件目录后,就可实现文件的“按名存取”。当用户要求存取某个文件时,系统查找目录项并比较文件名就可找到所寻文件的目录项。然后,通过目录项指出的文件名就可找到所寻文件的目录项,然后通过目录项指出文件的文件信息相对位置或文件信息首块物理位置等就能依次存取文件信息。
                      一级目录结构
                      如下图所示,最简单的文件目录是一级目录结构,在操作系统中构造一张线性表,与每个文件有关的属性占用一个目录项就成了一级目录结构。单用户微型机操作系统CP/M的软盘文件便采用这一结构,每个磁盘上设置一张一级文件目录表,不同磁盘驱动器上的文件目录互不相关。文件目录表由长度为32字节的目录项组成,目录项0称目录头,记录有关文件目录表的信息,其他每个目录项又称文件控制块。文件目录中列出了盘上全部文件的有关信息。CP/M操作系统中文件目录项包括:盘号、文件名、扩展名、文件范围、记录数、存放位置等。
                      
                      一级目录结构示意图
                      一级文件目录结构存在若干缺点:一是重名问题,它要求文件名和文件之间有一一对应关系,但要在多用户的系统中,由于都使用同一文件目录,一旦文件名用重,就会出现混淆而无法实现按名存取。如果人为地限制文件名命名规则,对用户来说又极不方便;二是难以实现文件共享,如果允许不同用户使用不同文件名来共享同一个文件,这在一级目录中是很难实现的,为了解决上述问题,操作系统往往采用二级目录结构,使得每个用户有各自独立的文件目录。
                      二级目录结构
                      在二级目录中,第一级为主文件目录,它用于管理所有用户文件目录,它的目录项登记了系统接受的用户的名字及该用户文件目录的地址。第二级为用户文件目录,它为该用户的每个文件保存一登记栏,其内容与一级目录的目录项相同。每一用户只允许查看自己的文件目录。下图是二级文件目录结构示意。当一个新用户作业进入系统执行时,系统为其在主文件目录中开辟一个区域的地址填入主文件目录中的该用户名所在项。当用户需要访问某个文件时系统根据用户名从主文件目录中找出该用户的文件目录的物理位置,其余的工作与一级文件目录类似。
                      
                      二级目录结构示意图
                      采用二级目录管理文件时,因为任何文件的存取都通过主文件目录,于是可以检查访问文件者的存取权限,避免一个用户未经授权就存取另一个用户的文件,使用户文件的私有性得到保证,实现了对文件的保密和保护。
                      树型目录结构
                      二级目录的推广形成了多级目录。每一级目录可以是下一级目录的说明,也可以是文件的说明,从而,形成了层次关系。多级目录结构通常采用树型结构,它是一棵倒立的有根的树,树根是根目录;从根向下,每一个树枝是一个子目录;而树叶是文件。树型多级目录有许多优点:较好地反映现实世界中具有层次关系的数据集合和较确切地反映系统内部文件的分支结构;不同文件可以重名,只要它们不在同一末端的子目录中,易于规定不同层次或子树中文件的不同存取权限,便于文件的保护、保密和共享等。
               文件的结构和组织
               文件的组织是指文件中信息的配置和构造方式,通常应该从文件的逻辑结构和组织及文件的物理结构和组织两方面加以考虑。文件的逻辑结构和组织是从用户观点出发,研究用户概念中的抽象的信息组织方式,这是用户能观察到的,可加以处理的数据集合。由于数据可独立于物理环境加以构造,所以称为逻辑结构。文件的物理结构和组织是指逻辑文件在物理存储空间中的存放方法和组织关系。这时,文件被看作物理文件,即相关物理块的集合。文件的存储结构涉及块的划分、记录的排列、索引的组织、信息的搜索等许多问题。
                      文件的逻辑结构
                      文件的逻辑结构分两种形式:一种是流式文件,另一种是记录式文件。
                      (1)流式文件。
                      流式文件指文件内的数据不再组成记录,只是依次的一串信息集合,也可以看成是只有一个记录的记录式文件。这种文件常常按长度来读取所需信息,也可以用插入的特殊字符作为分界。为了简化系统,大多数现代操作系统对用户仅仅提供流式文件,记录式文件往往由高级语言或简单的数据库管理系统提供。
                      (2)记录式文件。
                      记录式文件内包含若干逻辑记录,逻辑记录是文件中按信息在逻辑上的独立含意划分的一个信息单位,记录在文件中的排列可能有顺序关系,但除此以外,记录与记录之间不存在其他关系。在这一点上,文件有别于数据库。根据记录的长度可分为定长和不定长两类:定长记录(格式F)指一个记录式文件中所有的逻辑记录都具有相同的长度,同时所有数据项的相对位置也是固定的。定长记录由于处理方便、控制容易,在传统的数据处理中普遍采用。定长记录可以成组或不成组,成组时除最末一块外,每块中的逻辑记录数为一常数。
                      变长记录(格式V)指一个记录式文件中,逻辑记录的长度不相等,但每个逻辑记录的长度处理之前能预先确定。有两种情况会造成变长记录:包含一个或多个可变的长度的数据项;包含了可变数目的定长数据项。
                      文件的物理结构
                      文件系统往往根据存储设备类型、存取要求、记录使用频度和存储空间容量等因素提供若干种文件存储结构。用户看到的是逻辑文件,处理的是逻辑记录,按照逻辑文件形式去存储,检索和加工有关的文件信息,也就是说数据的逻辑结构和组织是面向应用程序的。然而,这种逻辑上的文件总得以不同方式保存到物理存储设备的存储介质上去,所以,文件的物理结构和组织是指逻辑文件在物理存储空间中存放方法和组织关系。
                      (1)顺序文件。
                      将一个文件中逻辑上连续的信息存放到存储介质的依次相邻的块上便形成顺序结构,这类文件叫顺序文件,又称连续文件。显然,这是一种逻辑记录顺序和物理记录顺序完全一致的文件,通常,记录按出现的次序被读出或修改。
                      顺序文件的基本优点是:顺序存取记录时速度较快。顺序文件的主要缺点是:建立文件前需要能预先确定文件长度,以便分配存储空间;修改、插入和增加文件记录有困难;对直接存储器作连续分配,会造成少量空闲块的浪费。
                      (2)连接文件。
                      连接结构的特点是使用连接字,又叫指针来表示文件中各个记录之间的关系。如下图所示,第一块文件信息的物理地址由文件目录给出,而每一块的连接字指出了文件的下一个物理块。通常,连接字内容为0时,表示文件至本块结束。这种文件叫连接文件,又称串联文件。
                      
                      连接文件结构示意图
                      指向其他数据的连接表示是计算机程序设计的一种重要手段,是表示复杂数据关系的一种重要方法,使用指针可以将文件的逻辑记录顺序与它所在存储空间联系起来。
                      (3)索引结构。
                      索引结构是实现非连续存储的另一种方法,适用于数据记录保存有随机存取存储设备上的文件。如下图所示,它使用了一张索引表,其中每个表目包含一个记录的键及其记录数据的存储地址,存储地址可以是记录的物理地址,也可以是记录的符号地址,这种类型的文件称为索引文件。通常,索引表的地址可由文件目录指出,查阅索引表先找到的相应记录键,然后获得数据存储地址。
                      
                      索引文件结构示意图
                      索引文件在文件存储器上分两个区:索引区和数据区。访问索引文件需两步操作:第一步查找文件索引,第二步以相应键登记项内容作为物理或符号地址而获得记录数据。这样,至少需要两次访问辅助存储器,但若文件索引已预先调入主存储器,那么就可减少一次内外存信息交换。
                      索引结构是连接结构的一种扩展,除了具备连接文件的优点外,还克服了它只能作顺序存取的缺点,具有直接读写任意一个记录的能力,便于文件的增加、删除和修改。索引文件的缺点是:增加了索引表的空间开销和查找时间,索引表的信息量甚至可能远远超过文件记录本身的信息量。
               文件的共享和保护
                      文件的保护
                      文件保护是指防止文件被破坏,它包括两个方面:一是防止系统崩溃所造成的文件破坏;二是防止其他用户的非法操作所造成的文件破坏。
                      为防止系统崩溃造成文件破坏,定时转储是一种经常采用的方法,系统的管理员每隔一段时间,或一日、或一周、或一月、或一个期间,把需要保护的文件保存到另一个介质上,以备数据破坏后恢复。如一个单位建立了信息系统,往往会准备多个磁带,以便数据库管理员每天下班前把数据库文件转储到磁带上,这样即使出现了数据库损坏,最多只会丢失一天的数据。由于需要备份的数据文件可能非常多,增量备份是必需的,为此操作系统专门为文件设置了档案属性,用以指明该文件是否被备份过。
                      至于要防止其他用户的非法操作所造成的文件破坏,这往往通过操作系统的安全性策略来实现,其基本思想是建立如下的三元组。
                      (用户、对象、存取权限)
                      其中:
                      (1)用户是指每一个操作系统使用者的标识。
                      (2)对象在操作系统中一般是文件,因为操作系统把对资源的统一到文件层次,如通过设备文件使用设备、通过socket关联文件使用进程通信等。
                      (3)存取权限定义了用户对文件的访问权,如读、写、删除、创建、执行等。一个安全性较高的系统权限划分得较多较细。
                      要实现这一机制必须建立一个如下图所示的存取控制矩阵,它包括两个维,一维列出所有用户名,另一维列出全部文件,矩阵元素的内容是一个用户对于一个文件的存取权限,如用户1对文件1有读权R,用户3对文件1既有读权R,又有写权W和执行权X。
                      
                      存取控制矩阵
                      文件的保密
                      文件保密的目的是防止文件被窃取。主要方法有设置密码和使用密码。
                      密码分成两种:文件密码是用户为每个文件规定一个密码,它可写在文件目录中并隐蔽起来,只有提供的密码与文件目录中的密码一致时,才能使用这个文件。另一种是终端密码,由系统分配或用户预先设定一个密码,仅当回答的密码相符时才能使用该终端。但是它有一个明显的缺点,当要回收某个用户的使用权时,必须更改密码,而更改后的新密码又必须通知其他的授权用户,这无疑是不方便的。
                      使用密码是一种更加有效的文件保密方法,它将文件中的信息翻译成密码形式,使用时再解密。在网络上进行数据传输时,为保证安全性,经常采用密码技术;进一步还可以对在网络上传输的数字或模拟信号采用脉码调制技术,进行硬加密。
 
       审核
        依据知识库内容加入的审核标准,由资深技术人员审核内容的正确性和完整性,避免与原有的知识库内容重复或冲突,给出审核意见后提交批准加入知识库中。
 
       石油
        石油行业物联网系统主要是使用监控设备和信息系统采集运输油轮数据、码头设备和环境数据、油库数据、原油管道数据等,对这些数据进行整理和分析,将原油运输各个环节的数据进行关联和分析,合理安排船期、实现计算机排罐,提高整个原油运输的效率,同时通过对相关设备和环境的监测,及时掌握设备运行情况,保证整个运输过程的安全可靠。
        石油行业物联网系统的总体解决方案包括:油库监测系统、原油管道监测系统、原油管道无人机巡线系统等。
 
       管理体系
        灾备管理体系主要是指组织机构的各个层面,在日常状态和灾难状态下的各种管理工作,至少包括以下5个方面。
        (1)灾难恢复组织机构。商业银行应结合本行机构设置的具体情况,设立灾难恢复组织机构,包括灾难恢复规划建设、运行维护、应急响应和灾难恢复等各阶段工作所需的人员,有关人员可为专职,也可为兼职,关键岗位的人员应有备份。商业银行可以参考《JR/T0044 2008银行业信息系统灾难恢复管理规范》,设置灾难恢复组织机构,包括决策层、管理层和执行层,各层之间分工明确、职责清晰。
        (2)岗位与培训管理。灾备中心的应急生产岗位应与生产中心对等,只不过可以按照人员复用的原则,由灾备管理人员、开发测试人员或系统运维人员专职或兼职担任。对不同层次、不同部门的岗位,在灾难恢复策略规划、系统建设与运维、预案制定、演练和更新维护等不同阶段,应按照不同的培训目标,安排不同的培训计划。
        (3)灾难恢复预案管理与演练。灾难恢复预案要长期保持有效性,必须在灾难恢复策略发生变化、演练发现问题、生产系统发生变更、人员出现调整等情况下,及时修订维护预案,做好变更管理、版本管理,以及发布管理等,确保合适的人员及时获得最准确、最合适的信息。演练验证灾难恢复预案有效性的最佳手段。演练管理就是要对演练的计划、场景、人员、过程、总结评估和后续完善调整等进行全面管理,通过演练来培养灾难恢复团队面对复杂环境的信心和冷静心态,验证灾难恢复能力,改进灾难恢复流程,发现并纠正灾备体系中的缺陷。
        (4)灾备中心日常运维、灾难响应与重续运行管理。灾备中心应随时做好接替生产中心的准备,因此,必须像生产中心一样,对灾备中心的系统、网络和环境等基础资源进行运行维护,按照备份策略按时完成数据备份,完成灾备系统与生产系统的同步。当灾难发生后,灾难恢复组织机构的各层人员立即响应,在指挥报告、协调、联络、保障等工作机制的保障下,按照灾难恢复流程步骤,一步步地恢复信息系统及其支撑的关键业务功能。在生产系统成功切换到灾备中心运行后,要按照生产中心的规章制度、操作流程、技术规范来管理,保障生产系统安全稳定运行,直至生产中心重建并恢复了生产运行能力。
        (5)外部资源管理。外部资源主要指商业银行的合作伙伴、服务商、设备商和外协人员等。当发生灾难时,可能需要这些外部资源的支持才能完成灾难恢复,比如,从设备供应商紧急采购灾备生产设备,从电信运营服务商紧急租用通信线路,从银联借调交易流水等。因此,需要与这些外部资源建立日常联系或签订协议,并不定期地测试其支持能力,以保证在灾难恢复期间,外部资源可以提供有效的支持。
 
       大数据
               大数据相关概念
                      大数据概念
                      大数据的应用和技术是在互联网快速发展中诞生的,起点可追溯到2000年前后。当时互联网网页爆发式增长,每天新增约700万个网页,到2000年底全球网页数达到40亿,用户检索信息越来越不方便。谷歌等公司率先建立了覆盖数十亿网页的索引库,开始提供较为精确的搜索服务,大大提升了人们使用互联网的效率,这是大数据应用的起点。当时搜索引擎要存储和处理的数据,不仅数量之大前所未有,而且以非结构化数据为主,传统技术无法应对。为此,谷歌提出了一套以分布式为特征的全新技术体系,即后来陆续公开的分布式文件系统(Google File System,GFS)、分布式并行计算(MapReduce)和分布式数据库(BigTable)等技术,以较低的成本实现了之前技术无法达到的规模。这些技术奠定了当前大数据技术的基础,可以认为是大数据技术的源头。
                      伴随着互联网产业的崛起,这种创新的海量数据处理技术在电子商务、定向广告、智能推荐、社交网络等方面得到应用,取得巨大的商业成功。这启发全社会开始重新审视数据的巨大价值,于是金融、电信等拥有大量数据的行业开始尝试这种新的理念和技术,取得初步成效。与此同时,业界也在不断对谷歌提出的技术体系进行扩展,使之能在更多的场景下使用。2011年,麦肯锡、世界经济论坛等知名机构对这种数据驱动的创新进行了研究总结,随即在全世界兴起了一股大数据热潮。
                      虽然大数据已经成为全社会热议的话题,但至今“大数据”尚无公认的统一定义。我们认为,认识大数据要把握“资源、技术、应用”三个层次。大数据是具有体量大、结构多样、时效强等特征的数据;处理大数据需采用新型计算架构和智能算法等新技术;大数据的应用强调以新的理念应用于辅助决策、发现新的知识,更强调在线闭环的业务流程优化。因此可以说,大数据不仅“大”,而且“新”,是新资源、新工具和新应用的综合体。
                      大数据特点
                      业界通常用Volume、Variety、Value、Velocity这4个V来概括大数据的特点:
                      (1)数据体量巨大(Volume)。IDC研究表明,数字领域存在着1.8万亿吉字节的数据。企业数据正在以55%的速度逐年增长。实体世界中,数以百万计的数据采集传感器被嵌入到各种设备中,在数字化世界中,消费者每天的生活(通信、上网浏览、购物、分享、搜索)都在产生着数量庞大的数据。
                      (2)数据类型繁多(Variety)。数据可分为结构化数据、半结构化数据和非结构化数据。相对于以往便于存储的以文本为主的结构化数据,音频、视频、图片、地理位置信息等类型的非结构化数据量占比达到了80%,并在逐步提升,有用信息的提取难度不断增大。
                      (3)价值密度低(Value)。价值密度的高低与数据总量的大小成反比。以视频为例,一部1小时的视频,在连续不间断监控过程中,可能有用的数据仅仅只有一两秒。
                      (4)时效性高(Velocity)。这是大数据区分于传统数据挖掘最显著的特征。数据的价值除了与数据规模相关,还与数据处理周期成正比关系。也就是,数据处理的速度越快、越及时,其价值越大,发挥的效能越大。
               大数据技术
                      大数据技术体系
                      大数据来源于互联网、企业系统和物联网等信息系统,经过大数据处理系统的分析挖掘,产生新的知识用以支撑决策或业务的自动智能化运转。从数据在信息系统中的生命周期看,大数据从数据源经过分析挖掘到最终获得价值一般需要经过5个主要环节,包括数据准备、数据存储与管理、计算处理、数据分析和知识展现,技术体系如下图所示。每个环节都面临不同程度的技术上的挑战。
                      
                      大数据技术框架
                      (1)数据准备环节。在进行存储和处理之前,需要对数据进行清洗、整理,传统数据处理体系中称为ETL(Extracting,Transforming,Loading)过程。与以往数据分析相比,大数据的来源多种多样,包括企业内部数据库、互联网数据和物联网数据,不仅数量庞大、格式不一,质量也良莠不齐。这就要求数据准备环节一方面要规范格式,便于后续存储管理,另一方面要在尽可能保留原有语义的情况下去粗取精、消除噪声。
                      (2)数据存储与管理环节。当前全球数据量正以每年超过50%的速度增长,存储技术的成本和性能面临非常大的压力。大数据存储系统不仅需要以极低的成本存储海量数据,还要适应多样化的非结构化数据管理需求,具备数据格式上的可扩展性。
                      (3)计算处理环节。需要根据处理的数据类型和分析目标,采用适当的算法模型,快速处理数据。海量数据处理要消耗大量的计算资源,对于传统单机或并行计算技术来说,速度、可扩展性和成本上都难以适应大数据计算分析的新需求。分而治之的分布式计算成为大数据的主流计算架构,但在一些特定场景下的实时性还需要大幅提升。
                      (4)数据分析环节。数据分析环节需要从纷繁复杂的数据中发现规律提取新的知识,是大数据价值挖掘的关键。传统数据挖掘对象多是结构化、单一对象的小数据集,挖掘更侧重根据先验知识预先人工建立模型,然后依据既定模型进行分析。对于非结构化、多源异构的大数据集的分析,往往缺乏先验知识,很难建立显式的数学模型,这就需要发展更加智能的数据挖掘技术。
                      (5)知识展现环节。在大数据服务于决策支撑场景下,以直观的方式将分析结果呈现给用户,是大数据分析的重要环节。如何让复杂的分析结果易于理解是主要挑战。在嵌入多业务中的闭环大数据应用中,一般是由机器根据算法直接应用分析结果而无需人工干预,这种场景下知识展现环节则不是必需的。
                      总的来看,大数据对数据准备环节和知识展现环节来说只是量的变化,并不需要根本性的变革。但大数据对数据分析、计算和存储三个环节影响较大,需要对技术架构和算法进行重构,是当前和未来一段时间大数据技术创新的焦点。下面简要分析上述3个环节面临的挑战及发展趋势。
                      大数据技术创新
                      大数据技术体系纷繁复杂,其中一些技术创新格外受到关注。随着社交网络的流行导致大量非结构化数据出现,传统处理方法难以应对,数据处理系统和分析技术开始不断发展。从2005年Hadoop的诞生开始,形成了数据分析技术体系这一热点。伴随着量急剧增长和核心系统对吞吐量以及时效性的要求提升,传统数据库需向分布式转型,形成了事务处理技术体系这一热点。然而时代的发展使得单个企业甚至行业的数据都难以满足要求,融合价值更加显现,形成了数据流通技术体系这一热点。
                             数据分析技术
                             从数据在信息系统中的生命周期看,数据分析技术生态主要有5个发展方向,包括数据采集与传输、数据存储与管理、计算处理、查询与分析、可视化展现。在数据采集与传输领域渐渐形成了Sqoop、Flume、Kafka等一系列开源技术,兼顾离线和实时数据的采集和传输。在存储层,HDFS已经成为了大数据磁盘存储的事实标准,针对关系型以外的数据模型,开源社区形成了K-V(key-value)、列式、文档、图这四类NoSQL数据库体系,Redis、HBase、Cassandra、MongoDB、Neo4j等数据库是各个领域的领先者。计算处理引擎方面,Spark已经取代MapReduce成为了大数据平台统一的计算平台,在实时计算领域Flink是Spark Streaming强力的竞争者。在数据查询和分析领域形成了丰富的SQL on Hadoop的解决方案,Hive、HAWQ、Impala、Presto、Spark SQL等技术与传统的大规模并行处理(Massively Parallel Processor,MPP)数据库竞争激烈,Hive还是这个领域当之无愧的王者。在数据可视化领域,敏捷商业智能(Business Intelligence,BI)分析工具Tableau、QlikView通过简单的拖拽来实现数据的复杂展示,是目前最受欢迎的可视化展现方式。
                             相比传统的数据库和MPP数据库,Hadoop最初的优势来源于良好的扩展性和对大规模数据的支持,但失去了传统数据库对数据精细化的操作,包括压缩、索引、数据的分配裁剪以及对SQL的支持度。经过10多年的发展,数据分析的技术体系渐渐在完善自己的不足,也融合了很多传统数据库和MPP数据库的优点,从技术的演进来看,大数据技术正在发生以下变化:
                             (1)更快。Spark已经替代MapReduce成为了大数据生态的计算框架,以内存计算带来计算性能的大幅提高,尤其是Spark 2.0增加了更多了优化器,计算性能进一步增强。
                             (2)流处理的加强。Spark提供一套底层计算引擎来支持批量、SQL分析、机器学习、实时和图处理等多种能力,但其本质还是小批的架构,在流处理要求越来越高的现在,Spark Streaming受到Flink激烈的竞争。
                             (3)硬件的变化和硬件能力的充分挖掘。大数据技术体系本质是数据管理系统的一种,受到底层硬件和上层应用的影响。当前硬件的芯片的发展从CPU的单核到多核演变转化为向GPU、FPGA、ASIC等多种类型芯片共存演变。而存储中大量使用SSD来代替SATA盘,NVRAM有可能替换DRAM成为主存。大数据技术势必需要拥抱这些变化,充分兼容和利用这些硬件的特性。
                             (4)SQL的支持。从Hive诞生起,Hadoop生态就在积极向SQL靠拢,主要从兼容标准SQL语法和性能等角度来不断优化,层出不穷的SQL on Hadoop技术参考了很多传统数据库的技术。而Greenplum等MPP数据库技术本身从数据库继承而来,在支持SQL和数据精细化操作方面有很大的优势。
                             (5)深度学习的支持。深度学习框架出现后,和大数据的计算平台形成了新的竞争局面,以Spark为首的计算平台开始积极探索如何支持深度学习能力,TensorFlow on Spark等解决方案的出现实现了TensorFlow与Spark的无缝连接,更好地解决了两者数据传递的问题。
                             事务处理技术
                             随着移动互联网的快速发展,智能终端数量呈现爆炸式增长,银行和支付机构传统的柜台式交易模式逐渐被终端直接交易模式替代。以金融场景为例,移动支付以及普惠金融的快速发展,为银行业、支付机构和金融监管机构带来了海量高频的线上小额资金支付行为,生产业务系统面临大规模并发事务处理要求的挑战。
                             传统事务技术模式以集中式数据库的单点架构为主,通过提高单机的性能上限适应业务的扩展。而随着摩尔定律的失效(底层硬件的变化),单机性能扩展的模式走到了尽头,而数据交易规模的急速增长(上层应用的变化)要求数据库系统具备大规模并发事务处理的能力。大数据分析系统经过10多年的实践,积累了丰富的分布式架构的经验,Paxos、Raft等一致性协议的诞生为事务系统的分布式铺平了道路。新一代分布式数据库技术在这些因素的推动下应运而生。
                             如下图所示,经过多年发展,当前分布式事务架构正处在快速演进的阶段,综合学术界以及产业界工作成果,目前主要分为三类:
                             
                             事务型数据库架构演进图
                             (1)基于原有单机事务处理关系数据库的分布式架构改造:利用原有单机事务处理数据库的成熟度优势,通过在独立应用层面建立起数据分片和数据路由的规则,建立起一套复合型的分布式事务处理数据库的架构。
                             (2)基于新的分布式事务数据库的工程设计思路的突破。通过全新设计关系数据库的核心存储和计算层,将分布式计算和分布式存储的设计思路和架构直接植入数据库的引擎设计中,提供对业务透明和非侵入式的数据管理和操作/处理能力。
                             (3)基于新的分布式关系数据模型理论的突破。通过设计全新的分布式关系数据管理模型,从数据组织和管理的最核心理论层面,构造出完全不同于传统单机事务数据库的架构,从数据库的数据模型的根源上解决分布式关系数据库的架构。
                             分布式事务数据库进入到各行各业面临诸多挑战,其一是多种技术路线,目前没有统一的定义和认识;其二是除了互联网公司有大规模使用外,其他行业的实践刚刚开始,需求较为模糊,采购、使用、运维的过程缺少可供参考的经验,需要较长时间的摸索;其三是缺少可行的评价指标、测试方法和测试工具来全方位比较当前的产品,规范市场,促进产品的进步。故应用上述技术进行交易类业务进行服务时,应充分考虑“可持续发展”“透明开放”“代价可控”三原则,遵循“知识传递先行”“测试评估体系建立”“实施阶段规划”三步骤,并认识到“应用过度适配和改造”“可用性管理策略不更新”“外围设施不匹配”三个误区。
                             大数据事务处理类技术体系的快速演进正在消除日益增长的数字社会需求同旧式的信息架构缺陷,未来人类行为方式、经济格局以及商业模式将会随大数据事务处理类技术体系的成熟而发生重大变革。
                             数据流通技术
                             数据流通是释放数据价值的关键环节。然而,数据流通也伴随着权属、质量、合规性、安全性等诸多问题,这些问题成为了制约数据流通的瓶颈。为了解决这些问题,大数据从业者从诸多方面进行了探索。目前来看,从技术角度的探索是卓有成效和富有潜力的。
                             从概念上讲,基础的数据流通只存在数据供方和数据需方这两类角色,数据从供方通过一定手段传递给需方。然而,由于数据权属和安全的需要,不能简单地将数据直接进行传送。数据流通的过程中需要完成数据确权、控制信息计算、个性化安全加密等一系列信息生产和再造,形成闭合环路。
                             安全多方计算和区块链是近年来常用的两种技术框架。由于创造价值的往往是对数据进行的加工分析等运算的结果而非数据本身,因此对数据需方来说,本身不触碰数据、但可以完成对数据的加工分析操作,也是可以接受的。安全多方计算这个技术框架就实现了这一点。其围绕数据安全计算,通过独特的分布式计算技术和密码技术,有区分地、定制化地提供安全性服务,使得各参与方在无需对外提供原始数据的前提下实现了对与其数据有关的函数的计算,解决了一组互不信任的参与方之间保护隐私的协同计算问题。区块链技术中多个计算节点共同参与和记录,相互验证信息有效性,既进行了数据信息防伪,又提供了数据流通的可追溯路径。业务平台中授权和业务流程的解耦对数据流通中的溯源、数据交易、智能合约的引入有了实质性的进展。
               大数据产业体系
               随着大数据技术不断演进和应用持续深化,以数据为核心的大数据产业体系正在加速构建。大数据产业体系中主要包括大数据解决方案提供商、大数据处理服务提供商和数据资源提供商三个角色,分别向大数据的应用者提供大数据服务、解决方案和数据资源,如下图所示。
               
               大数据产业体系
                      大数据解决方案提供商
                      大数据解决方案提供商面向企业用户提供大数据一站式部署方案,覆盖数据中心和服务器等硬件、数据存储和数据库等基础软件、大数据分析应用软件以及技术运维支持等方面内容。其中,大数据基础软件和应用软件是大数据解决方案中的重点内容。当前,企业提供的大数据解决方案大多基于Hadoop开源项目,例如,IBM基于Hadoop开发的大数据分析产品BigInsights、甲骨文融合了Hadoop开源技术的大数据一体机、Cloudera的Hadoop商业版等。大数据解决方案提供商中,主要包括传统IT厂商和新兴的大数据创业公司。传统IT厂商主要有IBM、HP等解决方案提供商以及甲骨文、Teradata等数据分析软件商。它们大多以原有IT解决方案为基础,融合Hadoop,形成融合了结构化和非结构化两条体系的“双栈”方案。通过一系列收购来提升大数据解决方案服务能力,成为这些IT巨头的主要策略。
                      国际上也诞生了一批专门提供非结构化数据处理方案的新兴创业公司。这些公司包括Cloudera、Hortonworks、MapR等,它们主要基于Hadoop开源项目,开发Hadoop商业版本和基于Hadoop的大数据分析工具,单独或者与传统IT厂商合作提供企业级大数据解决方案。这些新兴大数据企业成为资本市场的热点。国内华为、联想、浪潮、曙光等一批IT厂商也都纷纷推出大数据解决方案。但总体上,国内大数据解决方案提供商实力较弱,产品一些关键行业还未形成影响力,新兴大数据解决方案初创企业也凤毛麟角。
                      大数据处理服务提供商
                      大数据处理服务提供商主要以服务的方式为企业和个人用户提供大数据海量数据分析能力和大数据价值挖掘服务。按照服务模式进行划分,大数据处理服务提供商可以分为以下四类。
                      第一类是在线纯分析服务提供商。此类服务商主要是互联网企业、大数据分析软件商和新创企业等,通过SaaS或PaaS云服务形式为用户提供服务。典型的服务如谷歌提供的大数据分析工具Big Query、亚马逊提供的云数据仓库服务RedShift、微软的Azure HDInsigh1010data提供的商业智能服务等。国内一些云服务商也逐步开始提供大数据相关云服务,如阿里云的开放数据处理服务(ODPS)、百度的大数据引擎、腾讯的数据云等。
                      第二类是既提供数据又提供分析服务的在线提供商。此类服务商主要是拥有海量用户数据的大型互联网企业,主要以SaaS形式为用户提供大数据服务,服务背后以自有大数据资源为支撑。典型的服务如谷歌Facebook的自助式广告下单服务系统、Twitter基于实时搜索数据的产品满意度分析等。国内百度推出的大数据营销服务“司南”就属于此类。
                      第三类是单纯提供离线分析服务的提供商。此类服务商主要为企业提供专业、定制化的大数据咨询服务和技术支持,主要集中为大数据咨询公司、软件商等,例如专注于大数据分析的奥浦诺管理咨询公司(Opera Solutions)、数据分析服务提供商美优管理顾问公司(Mu Sigma)等。
                      第四类是既提供数据又提供离线分析服务的提供商。此类服务商主要集中在信息化水平较高、数据较为丰富的传统行业。例如日本日立集团(Hitachi)于2013年6月初成立的日立创新分析全球中心,其广泛收集汽车行驶记录、零售业购买动向、患者医疗数据、矿山维护数据和资源价格动向等庞大数据信息,并基于收集的海量信息开展大数据分析业务。又如美国征信机构Equifax基于全球8000亿条企业和消费者行为数据,提供70余项面向金融的大数据分析离线服务。
                      大数据资源提供商
                      既然数据成为了重要的资源和生产要素,必然会产生供应与流通需求。数据资源提供商因此应运而生,它是大数据产业的特有环节,也是大数据资源化的必然产物。数据资源提供商,包括数据拥有者和数据流通平台两个主要类型。数据拥有者可以是企业、公共机构或者个人。数据拥有者通常直接以免费或有偿的方式为其他有需求的企业和用户提供原数据或者处理过的数据。例如美国电信运营商Verizon推出的大数据应用精准营销洞察(Precision Market Insights),将向第三方企业和机构出售其匿名化和整合处理后的用户数据。国内阿里巴巴公司推出的淘宝量子恒道、数据魔方和阿里数据超市等,属于此种类型。
                      数据数据流通平台是多家数据拥有者和数据需求方进行数据交换流通的场所。按平台服务目的不同,可分为政府数据开放平台和数据交易市场。
                      (1)政府数据开放平台。主要提供政府和公共机构的非涉密数据开放服务,属于公益性质。全球不少国家已经加入到开放政府数据行动,推出公共数据库开放网站,例如美国数据开放网站Data.gov已有超过37万个数据集、1209个数据工具、309个网页应用和137个移动应用,数据源来自171个机构。国内地方政府数据开放平台开始出现,如国家统计局的国家数据网站、北京市政府和上海市政府的信息资源平台等数据开放平台正在建设过程中。
                      (2)数据交易市场。商业化的数据交易活动催生了多方参与的第三方数据交易市场。国际上比较有影响力的有微软的AzureData Marketplace、被甲骨文收购的BlueKai、DataMarket、Factual、Infochimps、DataSift等等,主要提供地理空间、营销数据和社交数据的交易服务。大数据交易市场发展刚刚起步,在市场机制、交易规则、定价机制、转售控制和隐私保护等方面还有很多工作要做。国内,2014年2月,在北京市和中关村管委会指导下,中关村大数据交易产业联盟成立,将在国内推动国内大数据交易相关规范化方面开展工作。
               大数据对电子商务的发展影响
                      大数据更好地支撑了电子商务营销精准化和实时化
                      电子商务发展到今天,其营销平台、营销方式都发生了很大的改变。电子商务平台、移动终端、社交网络以及物联网等设备的使用大大增加了消费者数据,而云计算、复杂分析系统等大数据处理手段,为人们整合各个渠道消费者数据、形成有用的营销信息提供了可能。与传统的电子商务数据处理方式相比,大数据处理方式更快捷、更精细,它给我们科学分析消费者偏好及其消费行为轨迹提供巨大帮助。特别是在移动设备进入电子商务领域后,地理位置服务信息处理使电子商务一对一精准营销成为可能,极大程度提升了电子商务营销的准确性,有力地支撑了电子商务营销的精准化与实时化。
                      大数据更好地支撑了电子商务高度差异化和个性化
                      在传统电子商务营销背景下,企业与消费者总是处于双向信息不对称状态。一方面企业很难掌握消费者的消费行为和消费习惯,另一方面消费者了解企业产品的信息渠道相对较窄。进入大数据时代后,企业可以通过科学分析海量数据来获得更加丰富的消费者信息,从而针对不同消费者消费需求,提供特定的产品和服务,以最大限度地提高其满意度。消费者可以通过移动终端等渠道及时向电子商务企业传递信息,为企业进行个性化服务提供依据。由此可以推断,未来电子商务价值创造将会围绕消费者个性化需求展开,并将消费者纳入到企业产品设计与生产过程,实现共同的价值创造。
                      大数据进一步推进了价值链、供应链一体化
                      大数据等新型信息技术可以促进各个渠道的跨界数据整合,使所有围绕消费者消费行为的价值链、供应链企业成为一个整体。如大数据可以将地理位置不同、从事行业不同的研发、生产、加工、营销、仓储、配送、服务等各环节企业在满足消费者消费需求这一共同目的下组成动态联盟,通过彼此协作和创造,真正为消费者提供个性化产品和服务。相对于传统意义上的供应链,通过大数据连接起来的动态联盟反应速度更快、智能化程度更高,这既有利于联盟内企业的信息、资源共享,也有利于联盟内企业的分工协作,从而创造新的价值。
                      大数据推动了新型增值服务模式发展
                      电子商务中应用众多的新型信息技术产生了生产、消费、金融、物流等一系列大数据,这些本属于不同领域的大数据在被综合运用的过程中会产生新的融合,从而形成新的增值服务。如电子商务中产生的买卖双方信息、物流信息、金融信息,如果加以整合肯定能够使企业在市场竞争中处于比较有利的位置。在此基础上,企业还可以积极开展类似金融信用服务、供应链整合等增值服务。随着大数据的广泛应用,加之大数据分析手段创新,已经产生了互联网金融等多个增值服务,给包括电子商务企业在内的众多中小企业提供了新的发展空间。假以时日,大数据还会催生更多新型增值服务模式、产生众多的产业。
 
       人工智能
               人工智能技术发展概述
                      人工智能技术流派发展简析
                      人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。让机器实现人的智能,一直是人工智能学者不断追求的目标,不同学科背景或应用领域的学者,从不同角度,用不同的方法,沿着不同的途径对智能进行了探索。其中,符号主义、连接主义和行为主义是人工智能发展历史上的三大技术流派。
                      符号主义又称为逻辑主义,在人工智能早期一直占据主导地位。该学派认为人工智能源于数学逻辑,其实质是模拟人的抽象逻辑思维,用符号描述人类的认知过程。早期的研究思路是通过基本的推断步骤寻求完全解,出现了逻辑理论家和几何定理证明器等。上世纪70年代出现了大量的专家系统,结合了领域知识和逻辑推断,使得人工智能进入了工程应用。PC的出现以及专家系统高昂的成本,使符号学派在人工智能领域的主导地位逐渐被连接主义取代。
                      连接主义又称为仿生学派,当前占据主导地位。该学派认为人工智能源于仿生学,应以工程技术手段模拟人脑神经系统的结构和功能。连接主义最早可追溯到1943年麦卡洛克和皮茨创立的脑模型,由于受理论模型、生物原型和技术条件的限制,在20世纪70年代陷入低潮。直到1982年霍普菲尔特提出的Hopfield神经网络模型和1986年鲁梅尔哈特等人提出的反向传播算法,使得神经网络的理论研究取得了突破。2006年,连接主义的领军者Hinton提出了深度学习算法,使神经网络的能力大大提高。2012年,使用深度学习技术的AlexNet模型在ImageNet竞赛中获得冠军。
                      行为主义又称为进化主义,近年来随着AlphaGo取得的突破而受到广泛关注。该学派认为人工智能源于控制论,智能行为的基础是“感知—行动”的反应机制,所以智能无需知识表示,无需推断。智能只是在与环境交互作用中表现出来,需要具有不同的行为模块与环境交互,以此来产生复杂的行为。
                      在人工智能的发展过程中,符号主义、连接主义和行为主义等流派不仅先后在各自领域取得了成果,各学派也逐渐走向了相互借鉴和融合发展的道路。特别是在行为主义思想中引入连接主义的技术,从而诞生了深度强化学习技术,成为AlphaGo战胜李世石背后最重要的技术手段。
                      深度学习带动下的人工智能发展
                      深度学习已经在语音识别、图像识别等领域取得突破。深度学习全称深度神经网络,本质上是多层次的人工神经网络算法,即从结构上模拟人脑的运行机制,从最基本的单元上模拟了人类大脑的运行机制。深度学习已经开始在计算机视觉、语音识别、自然语言理解等领域取得了突破。在语音识别领域,2010年,使用深度神经网络模型的语音识别相对传统混合高斯模型识别错误率降低超过20%,目前所有的商用语音识别算法都基于深度学习。在图像分类领域,目前针对ImageNet数据集的算法分类精度已经达到了95%以上,可以与人的分辨能力相当。深度学习在人脸识别、通用物体检测、图像语义分割、自然语言理解等领域也取得了突破性的进展。
                      海量的数据和高效的算力支撑是深度学习算法实现的基础。深度学习分为训练(training)和推断(inference)两个环节。训练需要海量数据输入,训练出一个复杂的深度神经网络模型。推断指利用训练好的模型,使用待判断的数据去“推断”得出各种结论。大数据时代的到来,图形处理器(Graphics Processing Unit,GPU)等各种更加强大的计算设备的发展,使得深度学习可以充分利用海量数据(标注数据、弱标注数据或无标注数据),自动地学习到抽象的知识表达,即把原始数据浓缩成某种知识。当前基于深度学习的人工智能技术架构如下图所示。
                      
                      基于深度学习的人工智能技术应用架构图
               人工智能技术
                      人工智能关键技术
                             机器学习
                             机器学习(Machine Learning)是一门涉及统计学、系统辨识、逼近理论、神经网络、优化理论、计算机科学、脑科学等诸多领域的交叉学科,研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,是人工智能技术的核心。基于数据的机器学习是现代智能技术中的重要方法之一,研究从观测数据(样本)出发寻找规律,利用这些规律对未来数据或无法观测的数据进行预测。根据学习模式、学习方法以及算法的不同,机器学习存在不同的分类方法。
                             根据学习模式将机器学习分类为监督学习、无监督学习和强化学习等。
                             (1)监督学习。监督学习是利用已标记的有限训练数据集,通过某种学习策略/方法建立一个模型,实现对新数据/实例的标记(分类)/映射,最典型的监督学习算法包括回归和分类。监督学习要求训练样本的分类标签已知,分类标签精确度越高,样本越具有代表性,学习模型的准确度越高。监督学习在自然语言处理、信息检索、文本挖掘、手写体辨识、垃圾邮件侦测等领域获得了广泛应用。
                             (2)无监督学习。无监督学习是利用无标记的有限数据描述隐藏在未标记数据中的结构/规律,最典型的无监督学习算法包括单类密度估计、单类数据降维、聚类等。无监督学习不需要训练样本和人工标注数据,便于压缩数据存储、减少计算量、提升算法速度,还可以避免正、负样本偏移引起的分类错误问题。主要用于经济预测、异常检测、数据挖掘、图像处理、模式识别等领域,例如组织大型计算机集群、社交网络分析、市场分割、天文数据分析等。
                             (3)强化学习。强化学习是智能系统从环境到行为映射的学习,以使强化信号函数值最大。由于外部环境提供的信息很少,强化学习系统必须靠自身的经历进行学习。强化学习的目标是学习从环境状态到行为的映射,使得智能体选择的行为能够获得环境最大的奖赏,使得外部环境对学习系统在某种意义下的评价为最佳。其在机器人控制、无人驾驶、下棋、工业控制等领域获得成功应用。
                             根据学习方法可以将机器学习分为传统机器学习和深度学习。
                             (1)传统机器学习。传统机器学习从一些观测(训练)样本出发,试图发现不能通过原理分析获得的规律,实现对未来数据行为或趋势的准确预测。相关算法包括逻辑回归、隐马尔科夫方法、支持向量机方法、K近邻方法、三层人工神经网络方法、Adaboost算法、贝叶斯方法以及决策树方法等。传统机器学习平衡了学习结果的有效性与学习模型的可解释性,为解决有限样本的学习问题提供了一种框架,主要用于有限样本情况下的模式分类、回归分析、概率密度估计等。传统机器学习方法共同的重要理论基础之一是统计学,在自然语言处理、语音识别、图像识别、信息检索和生物信息等许多计算机领域获得了广泛应用。
                             (2)深度学习。深度学习是建立深层结构模型的学习方法,典型的深度学习算法包括深度置信网络、卷积神经网络、受限玻尔兹曼机和循环神经网络等。深度学习又称为深度神经网络(指层数超过3层的神经网络)。深度学习作为机器学习研究中的一个新兴领域,由Hinton等人于2006年提出。深度学习源于多层神经网络,其实质是给出了一种将特征表示和学习合二为一的方式。深度学习的特点是放弃了可解释性,单纯追求学习的有效性。经过多年的摸索尝试和研究,已经产生了诸多深度神经网络的模型,其中卷积神经网络、循环神经网络是两类典型的模型。卷积神经网络常被应用于空间性分布数据;循环神经网络在神经网络中引入了记忆和反馈,常被应用于时间性分布数据。深度学习框架是进行深度学习的基础底层框架,一般包含主流的神经网络算法模型,提供稳定的深度学习API,支持训练模型在服务器和GPU、TPU间的分布式学习,部分框架还具备在包括移动设备、云平台在内的多种平台上运行的移植能力,从而为深度学习算法带来前所未有的运行速度和实用性。目前主流的开源算法框架有TensorFlow、Caffe/Caffe2、CNTK、MXNet、Paddle-paddle、Torch/PyTorch、Theano等。
                             此外,机器学习的常见算法还包括迁移学习、主动学习和演化学习等。
                             (1)迁移学习。迁移学习是指当在某些领域无法取得足够多的数据进行模型训练时,利用另一领域数据获得的关系进行的学习。迁移学习可以把已训练好的模型参数迁移到新的模型指导新模型训练,可以更有效地学习底层规则、减少数据量。目前的迁移学习技术主要在变量有限的小规模应用中使用,如基于传感器网络的定位,文字分类和图像分类等。未来迁移学习将被广泛应用于解决更有挑战性的问题,如视频分类、社交网络分析、逻辑推理等。
                             (2)主动学习。主动学习通过一定的算法查询最有用的未标记样本,并交由专家进行标记,然后用查询到的样本训练分类模型来提高模型的精度。主动学习能够选择性地获取知识,通过较少的训练样本获得高性能的模型,最常用的策略是通过不确定性准则和差异性准则选取有效的样本。
                             (3)演化学习。演化学习对优化问题性质要求极少,只需能够评估解的好坏即可,适用于求解复杂的优化问题,也能直接用于多目标优化。演化算法包括粒子群优化算法、多目标演化算法等。目前针对演化学习的研究主要集中在演化数据聚类、对演化数据更有效的分类,以及提供某种自适应机制以确定演化机制的影响等。
                             知识图谱
                             知识图谱本质上是结构化的语义知识库,是一种由节点和边组成的图数据结构,以符号形式描述物理世界中的概念及其相互关系,其基本组成单位是“实体—关系—实体”三元组,以及实体及其相关“属性—值”对。不同实体之间通过关系相互联结,构成网状的知识结构。在知识图谱中,每个节点表示现实世界的“实体”,每条边为实体与实体之间的“关系”。通俗地讲,知识图谱就是把所有不同种类的信息连接在一起而得到的一个关系网络,提供了从“关系”的角度去分析问题的能力。
                             知识图谱可用于反欺诈、不一致性验证、组团欺诈等公共安全保障领域,需要用到异常分析、静态分析、动态分析等数据挖掘方法。特别地,知识图谱在搜索引擎、可视化展示和精准营销方面有很大的优势,已成为业界的热门工具。但是,知识图谱的发展还有很大的挑战,如数据的噪声问题,即数据本身有错误或者数据存在冗余。随着知识图谱应用的不断深入,还有一系列关键技术需要突破。
                             自然语言处理
                             自然语言处理是计算机科学领域与人工智能领域中的一个重要方向,研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法,涉及的领域较多,主要包括机器翻译、语义理解和问答系统等。
                             (1)机器翻译。机器翻译技术是指利用计算机技术实现从一种自然语言到另外一种自然语言的翻译过程。基于统计的机器翻译方法突破了之前基于规则和实例翻译方法的局限性,翻译性能取得巨大提升。基于深度神经网络的机器翻译在日常口语等一些场景的成功应用已经显现出了巨大的潜力。随着上下文的语境表征和知识逻辑推理能力的发展,自然语言知识图谱不断扩充,机器翻译将会在多轮对话翻译及篇章翻译等领域取得更大进展。目前非限定领域机器翻译中性能较佳的一种是统计机器翻译,包括训练及解码两个阶段。训练阶段的目标是获得模型参数,解码阶段的目标是利用所估计的参数和给定的优化目标,获取待翻译语句的最佳翻译结果。统计机器翻译主要包括语料预处理、词对齐、短语抽取、短语概率计算、最大熵调序等步骤。基于神经网络的端到端翻译方法不需要针对双语句子专门设计特征模型,而是直接把源语言句子的词串送入神经网络模型,经过神经网络的运算,得到目标语言句子的翻译结果。在基于端到端的机器翻译系统中,通常采用递归神经网络或卷积神经网络对句子进行表征建模,从海量训练数据中抽取语义信息,与基于短语的统计翻译相比,其翻译结果更加流畅自然,在实际应用中取得了较好的效果。
                             (2)语义理解。语义理解技术是指利用计算机技术实现对文本篇章的理解,并且回答与篇章相关问题的过程。语义理解更注重于对上下文的理解以及对答案精准程度的把控。随着MCTest数据集的发布,语义理解受到更多关注,取得了快速发展,相关数据集和对应的神经网络模型层出不穷。语义理解技术将在智能客服、产品自动问答等相关领域发挥重要作用,进一步提高问答与对话系统的精度。在数据采集方面,语义理解通过自动构造数据方法和自动构造填空型问题的方法来有效扩充数据资源。为了解决填充型问题,一些基于深度学习的方法相继提出,如基于注意力的神经网络方法。当前主流的模型是利用神经网络技术对篇章、问题建模,对答案的开始和终止位置进行预测,抽取出篇章片段。对于进一步泛化的答案,处理难度进一步提升,目前的语义理解技术仍有较大的提升空间。
                             (3)问答系统。问答系统分为开放领域的对话系统和特定领域的问答系统。问答系统技术是指让计算机像人类一样用自然语言与人交流的技术。人们可以向问答系统提交用自然语言表达的问题,系统会返回关联性较高的答案。尽管问答系统目前已经有了不少应用产品出现,但大多是在实际信息服务系统和智能手机助手等领域中的应用,在问答系统鲁棒性方面仍然存在着问题和挑战。
                             自然语言处理面临四大挑战:一是在词法、句法、语义、语用和语音等不同层面存在不确定性;二是新的词汇、术语、语义和语法导致未知语言现象的不可预测性;三是数据资源的不充分使其难以覆盖复杂的语言现象;四是语义知识的模糊性和错综复杂的关联性难以用简单的数学模型描述,语义计算需要参数庞大的非线性计算。
                             人机交互
                             人机交互主要研究人和计算机之间的信息交换,主要包括人到计算机和计算机到人的两部分信息交换,是人工智能领域的重要的外围技术。人机交互是与认知心理学、人机工程学、多媒体技术、虚拟现实技术等密切相关的综合学科。传统的人与计算机之间的信息交换主要依靠交互设备进行,主要包括键盘、鼠标、操纵杆、数据服装、眼动跟踪器、位置跟踪器、数据手套、压力笔等输入设备,以及打印机、绘图仪、显示器、头盔式显示器、音箱等输出设备。人机交互技术除了传统的基本交互和图形交互外,还包括语音交互、情感交互、体感交互及脑机交互等技术,以下对后四种与人工智能关联密切的典型交互手段进行介绍。
                             (1)语音交互。语音交互是一种高效的交互方式,是人以自然语音或机器合成语音同计算机进行交互的综合性技术,结合了语言学、心理学、工程和计算机技术等领域的知识。语音交互不仅要对语音识别和语音合成进行研究,还要对人在语音通道下的交互机理、行为方式等进行研究。语音交互过程包括四部分:语音采集、语音识别、语义理解和语音合成。语音采集完成音频的录入、采样及编码;语音识别完成语音信息到机器可识别的文本信息的转化;语义理解根据语音识别转换后的文本字符或命令完成相应的操作;语音合成完成文本信息到声音信息的转换。作为人类沟通和获取信息最自然便捷的手段,语音交互比其他交互方式具备更多优势,能为人机交互带来根本性变革,是大数据和认知计算时代未来发展的制高点,具有广阔的发展前景和应用前景。
                             (2)情感交互。情感是一种高层次的信息传递,而情感交互是一种交互状态,它在表达功能和信息时传递情感,勾起人们的记忆或内心的情愫。传统的人机交互无法理解和适应人的情绪或心境,缺乏情感理解和表达能力,计算机难以具有类似人一样的智能,也难以通过人机交互做到真正的和谐与自然。情感交互就是要赋予计算机类似于人一样的观察、理解和生成各种情感的能力,最终使计算机像人一样能进行自然、亲切和生动的交互。情感交互已经成为人工智能领域中的热点方向,旨在让人机交互变得更加自然。目前,在情感交互信息的处理方式、情感描述方式、情感数据获取和处理过程、情感表达方式等方面还有诸多技术挑战。
                             (3)体感交互。体感交互是个体不需要借助任何复杂的控制系统,以体感技术为基础,直接通过肢体动作与周边数字设备装置和环境进行自然的交互。依照体感方式与原理的不同,体感技术主要分为三类:惯性感测、光学感测以及光学联合感测。体感交互通常由运动追踪、手势识别、运动捕捉、面部表情识别等一系列技术支撑。与其他交互手段相比,体感交互技术无论是硬件还是软件方面都有了较大的提升,交互设备向小型化、便携化、使用方便化等方面发展,大大降低了对用户的约束,使得交互过程更加自然。目前,体感交互在游戏娱乐、医疗辅助与康复、全自动三维建模、辅助购物、眼动仪等领域有了较为广泛的应用。
                             (4)脑机交互。脑机交互又称为脑机接口,指不依赖于外围神经和肌肉等神经通道,直接实现大脑与外界信息传递的通路。脑机接口系统检测中枢神经系统活动,并将其转化为人工输出指令,能够替代、修复、增强、补充或者改善中枢神经系统的正常输出,从而改变中枢神经系统与内外环境之间的交互作用。脑机交互通过对神经信号解码,实现脑信号到机器指令的转化,一般包括信号采集、特征提取和命令输出三个模块。从脑电信号采集的角度,一般将脑机接口分为侵入式和非侵入式两大类。除此之外,脑机接口还有其他常见的分类方式:按照信号传输方向可以分为脑到机、机到脑和脑机双向接口;按照信号生成的类型,可分为自发式脑机接口和诱发式脑机接口;按照信号源的不同还可分为基于脑电的脑机接口、基于功能性核磁共振的脑机接口以及基于近红外光谱分析的脑机接口。
                             计算机视觉
                             计算机视觉是使用计算机模仿人类视觉系统的科学,让计算机拥有类似人类提取、处理、理解和分析图像以及图像序列的能力。自动驾驶、机器人、智能医疗等领域均需要通过计算机视觉技术从视觉信号中提取并处理信息。近来随着深度学习的发展,预处理、特征提取与算法处理渐渐融合,形成端到端的人工智能算法技术。根据解决的问题,计算机视觉可分为计算成像学、图像理解、三维视觉、动态视觉和视频编解码五大类。
                             (1)计算成像学。计算成像学是探索人眼结构、相机成像原理以及其延伸应用的科学。在相机成像原理方面,计算成像学不断促进现有可见光相机的完善,使得现代相机更加轻便,可以适用于不同场景。同时计算成像学也推动着新型相机的产生,使相机超出可见光的限制。在相机应用科学方面,计算成像学可以提升相机的能力,从而通过后续的算法处理使得在受限条件下拍摄的图像更加完善,例如图像去噪、去模糊、暗光增强、去雾霾等,以及实现新的功能,例如全景图、软件虚化、超分辨率等。
                             (2)图像理解。图像理解是通过用计算机系统解释图像,实现类似人类视觉系统理解外部世界的一门科学。通常根据理解信息的抽象程度可分为三个层次:浅层理解,包括图像边缘、图像特征点、纹理元素等;中层理解,包括物体边界、区域与平面等;高层理解,根据需要抽取的高层语义信息,可大致分为识别、检测、分割、姿态估计、图像文字说明等。目前高层图像理解算法已逐渐广泛应用于人工智能系统,如刷脸支付、智慧安防、图像搜索等。
                             (3)三维视觉。三维视觉即研究如何通过视觉获取三维信息(三维重建)以及如何理解所获取的三维信息的科学。三维重建可以根据重建的信息来源,分为单目图像重建、多目图像重建和深度图像重建等。三维信息理解,即使用三维信息辅助图像理解或者直接理解三维信息。三维信息理解可分为,①浅层:角点、边缘、法向量等;②中层:平面、立方体等;③高层:物体检测、识别、分割等。三维视觉技术可以广泛应用于机器人、无人驾驶、智慧工厂、虚拟/增强现实等方向。
                             (4)动态视觉。动态视觉即分析视频或图像序列,模拟人处理时序图像的科学。通常动态视觉问题可以定义为寻找图像元素,如像素、区域、物体在时序上的对应,以及提取其语义信息的问题。动态视觉研究被广泛应用在视频分析以及人机交互等方面。
                             (5)视频编解码。视频编解码是指通过特定的压缩技术,将视频流进行压缩。视频流传输中最为重要的编解码标准有国际电联的H.261、H.263、H.264、H.265、M-JPEG和MPEG系列标准。视频压缩编码主要分为两大类:无损压缩和有损压缩。无损压缩指使用压缩后的数据进行重构时,重构后的数据与原来的数据完全相同,例如磁盘文件的压缩。有损压缩也称为不可逆编码,指使用压缩后的数据进行重构时,重构后的数据与原来的数据有差异,但不会影响人们对原始资料所表达的信息产生误解。有损压缩的应用范围广泛,例如视频会议、可视电话、视频广播、视频监控等。
                             目前,计算机视觉技术发展迅速,已具备初步的产业规模。未来计算机视觉技术的发展主要面临以下挑战:一是如何在不同的应用领域和其他技术更好的结合,计算机视觉在解决某些问题时可以广泛利用大数据,已经逐渐成熟并且可以超过人类,而在某些问题上却无法达到很高的精度;二是如何降低计算机视觉算法的开发时间和人力成本,目前计算机视觉算法需要大量的数据与人工标注,需要较长的研发周期以达到应用领域所要求的精度与耗时;三是如何加快新型算法的设计开发,随着新的成像硬件与人工智能芯片的出现,针对不同芯片与数据采集设备的计算机视觉算法的设计与开发也是挑战之一。
                             生物特征识别
                             生物特征识别技术是指通过个体生理特征或行为特征对个体身份进行识别认证的技术。从应用流程看,生物特征识别通常分为注册和识别两个阶段。注册阶段通过传感器对人体的生物表征信息进行采集,如利用图像传感器对指纹和人脸等光学信息、麦克风对说话声等声学信息进行采集,利用数据预处理以及特征提取技术对采集的数据进行处理,得到相应的特征进行存储。识别过程采用与注册过程一致的信息采集方式对待识别人进行信息采集、数据预处理和特征提取,然后将提取的特征与存储的特征进行比对分析,完成识别。从应用任务看,生物特征识别一般分为辨认与确认两种任务,辨认是指从存储库中确定待识别人身份的过程,是一对多的问题;确认是指将待识别人信息与存储库中特定单人信息进行比对,确定身份的过程,是一对一的问题。
                             生物特征识别技术涉及的内容十分广泛,包括指纹、掌纹、人脸、虹膜、指静脉、声纹、步态等多种生物特征,其识别过程涉及到图像处理、计算机视觉、语音识别、机器学习等多项技术。目前生物特征识别作为重要的智能化身份认证技术,在金融、公共安全、教育、交通等领域得到广泛的应用。下面将对指纹识别、人脸识别、虹膜识别、指静脉识别、声纹识别以及步态识别等技术进行介绍。
                             (1)指纹识别。指纹识别过程通常包括数据采集、数据处理、分析判别三个过程。数据采集通过光、电、力、热等物理传感器获取指纹图像;数据处理包括预处理、畸变校正、特征提取三个过程;分析判别是对提取的特征进行分析判别的过程。
                             (2)人脸识别。人脸识别是典型的计算机视觉应用,从应用过程来看,可将人脸识别技术划分为检测定位、面部特征提取以及人脸确认三个过程。人脸识别技术的应用主要受到光照、拍摄角度、图像遮挡、年龄等多个因素的影响,在约束条件下人脸识别技术相对成熟,在自由条件下人脸识别技术还在不断改进。
                             (3)虹膜识别。虹膜识别的理论框架主要包括虹膜图像分割、虹膜区域归一化、特征提取和识别四个部分,研究工作大多是基于此理论框架发展而来。虹膜识别技术应用的主要难题包含传感器和光照影响两个方面:一方面,由于虹膜尺寸小且受黑色素遮挡,需在近红外光源下采用高分辨图像传感器才可清晰成像,对传感器质量和稳定性要求比较高;另一方面,光照的强弱变化会引起瞳孔缩放,导致虹膜纹理产生复杂形变,增加了匹配的难度。
                             (4)指静脉识别。指静脉识别是利用了人体静脉血管中的脱氧血红蛋白对特定波长范围内的近红外线有很好的吸收作用这一特性,采用近红外光对指静脉进行成像与识别的技术。由于指静脉血管分布随机性很强,其网络特征具有很好的唯一性,且属于人体内部特征,不受到外界影响,因此模态特性十分稳定。指静脉识别技术应用面临的主要难题来自于成像单元。
                             (5)声纹识别。声纹识别是指根据待识别语音的声纹特征识别说话人的技术。声纹识别技术通常可以分为前端处理和建模分析两个阶段。声纹识别的过程是将某段来自某个人的语音经过特征提取后与多复合声纹模型库中的声纹模型进行匹配,常用的识别方法可以分为模板匹配法、概率模型法等。
                             (6)步态识别。步态是远距离复杂场景下唯一可清晰成像的生物特征,步态识别是指通过身体体型和行走姿态来识别人的身份。相比上述几种生物特征识别,步态识别的技术难度更大,体现在其需要从视频中提取运动特征,以及需要更高要求的预处理算法,但步态识别具有远距离、跨角度、光照不敏感等优势。
                             虚拟现实/增强现实
                             虚拟现实(VR)/增强现实(AR)是以计算机为核心的新型视听技术。结合相关科学技术,在一定范围内生成与真实环境在视觉、听觉、触感等方面高度近似的数字化环境。用户借助必要的装备与数字化环境中的对象进行交互,相互影响,获得近似真实环境的感受和体验,通过显示设备、跟踪定位设备、触力觉交互设备、数据获取设备、专用芯片等实现。
                             虚拟现实/增强现实从技术特征角度,按照不同处理阶段,可以分为获取与建模技术、分析与利用技术、交换与分发技术、展示与交互技术以及技术标准与评价体系五个方面。获取与建模技术研究如何把物理世界或者人类的创意进行数字化和模型化,难点是三维物理世界的数字化和模型化技术;分析与利用技术重点研究对数字内容进行分析、理解、搜索和知识化方法,其难点是在于内容的语义表示和分析;交换与分发技术主要强调各种网络环境下大规模的数字化内容流通、转换、集成和面向不同终端用户的个性化服务等,其核心是开放的内容交换和版权管理技术;展示与交换技术重点研究符合人类习惯数字内容的各种显示技术及交互方法,以期提高人对复杂信息的认知能力,其难点在于建立自然和谐的人机交互环境;标准与评价体系重点研究虚拟现实/增强现实基础资源、内容编目、信源编码等的规范标准以及相应的评估技术。
                             目前虚拟现实/增强现实面临的挑战主要体现在智能获取、普适设备、自由交互和感知融合四个方面。在硬件平台与装置、核心芯片与器件、软件平台与工具、相关标准与规范等方面存在一系列科学技术问题。总体来说虚拟现实/增强现实呈现虚拟现实系统智能化、虚实环境对象无缝融合、自然交互全方位与舒适化的发展趋势。
                      基于深度学习的人工智能技术体系
                      当前,基于深度学习的人工智能算法主要依托计算机技术体系架构实现,深度学习算法通过封装至软件框架的方式供开发者使用。软件框架是整个技术体系的核心,实现对人工智能算法的封装,数据的调用以及计算资源的调度使用。为提升算法实现的效率,其编译器及底层硬件技术也进行了功能优化,具体架构分为基础硬件层、深度神经网络模型编译器及软件框架等。
                      (1)基础硬件层。基础硬件层为算法提供了基础计算能力。硬件层涵盖范围除了中央处理器(Central Processing Unit,CPU)及GPU外,还包括为特定场景应用而定制的计算芯片,以及基于计算芯片所定制的服务器,包括GPU服务器集群,各类移动终端设备以及类脑计算机等。
                      (2)深度神经网络模型编译器。深度神经网络模型编译器是底层硬件和软件框架,以及不同软件框架之间的桥梁。该层旨在为上层应用提供硬件调用接口,解决不同上层应用在使用不同底层硬件计算芯片时可能存在的不兼容等问题。其涵盖范围包括针对人工智能计算芯片定向优化的深度神经网络模型编译器,以及针对不同神经网络模型表示的规定及格式。
                      (3)软件框架层。软件框架层实现算法的模块化封装,为应用开发提供集成软件工具包。该层涵盖范围包括针对算法实现开发的各类应用及算法工具包,为上层应用开发提供了算法调用接口,提升应用实现的效率。
                      (4)基础应用技术。当前人工智能的商业化实现主要是基于计算机视觉、智能语音、自然语言处理等基础应用技术实现,并形成了相应的产品或服务。
               人工智能产业体系
               人工智能产业生态主要分为核心业态、关联业态、衍生业态三个层次,如下图所示。
               
               人工智能产业生态图
                      智能基础设施
                      智能基础设施为人工智能产业提供计算能力支撑,其范围包括智能传感器、智能芯片、分布式计算框架等,是人工智能产业发展的重要保障。
                             智能芯片
                             智能芯片从应用角度可以分为训练和推理两种类型。从部署场景来看,可以分为云端和设备端两步大类。训练过程由于涉及海量的训练数据和复杂的深度神经网络结构,需要庞大的计算规模,主要使用智能芯片集群来完成。与训练的计算量相比,推理的计算量较少,但仍然涉及大量的矩阵运算。目前,训练和推理通常都在云端实现,只有对实时性要求很高的设备会交由设备端进行处理。
                             按技术架构来看,智能芯片可以分为通用类芯片(CPU、GPU、FPGA)、基于FPGA的半定制化芯片、全定制化ASIC芯片、类脑计算芯片(IBM TrueNorth)。另外,主要的人工智能处理器还有DPU、BPU、NPU、EPU等适用于不同场景和功能的人工智能芯片。
                             随着互联网用户量和数据规模的急剧膨胀,人工智能发展对计算性能的要求迫切增长,对CPU计算性能提升的需求超过了摩尔定律的增长速度。同时,受限于技术原因,传统处理器性能也无法按照摩尔定律继续增长,发展下一代智能芯片势在必行。未来的智能芯片主要是在两个方向发展:一是模仿人类大脑结构的芯片,二是量子芯片。智能芯片是人工智能时代的战略制高点,预计到2020年人工智能芯片全球市场规模将突破百亿美元。
                             智能传感器
                             智能传感器是具有信息处理功能的传感器。智能传感器带有微处理机,具备采集、处理、交换信息等功能,是传感器集成化与微处理机相结合的产物。智能传感器属于人工智能的神经末梢,用于全面感知外界环境。各类传感器的大规模部署和应用为实现人工智能创造了不可或缺的条件。不同应用场景,如智能安防、智能家居、智能医疗等对传感器应用提出了不同的要求。未来,随着人工智能应用领域的不断拓展,市场对传感器的需求将不断增多,2020年市场规模有望突破4600亿美元。未来,高敏度、高精度、高可靠性、微型化、集成化将成为智能传感器发展的重要趋势。
                             分布式计算框架
                             面对海量的数据处理、复杂的知识推理,常规的单机计算模式已经不能支撑。所以,计算模式必须将巨大的计算任务分成小的单机可以承受的计算任务,即云计算、边缘计算、大数据技术提供了基础的计算框架。目前流行的分布式计算框架如OpenStack、Hadoop、Storm、Spark、Samza、Bigflow等。各种开源深度学习框架也层出不穷,其中包括TensorFlow、Caffe、Keras、CNTK、Torch7、MXNet、Leaf、Theano、DeepLearning4、Lasagne、Neon等等。
                      智能信息及数据
                      信息数据是人工智能创造价值的关键要素之一。我国庞大的人口和产业基数带来了数据方面的天生优势。随着算法、算力技术水平的提升,围绕数据的采集、分析、处理产生了众多的企业。目前,在人工智能数据采集、分析、处理方面的企业主要有两种:一种是数据集提供商,以提供数据为自身主要业务,为需求方提供机器学习等技术所需要的不同领域的数据集;另一种是数据采集、分析、处理综合性厂商,自身拥有获取数据的途径,并对采集到的数据进行分析处理,最终将处理后的结果提供给需求方进行使用。对于一些大型企业,企业本身也是数据分析处理结果的需求方。
                      智能技术服务
                      智能技术服务主要关注如何构建人工智能的技术平台,并对外提供人工智能相关的服务。此类厂商在人工智能产业链中处于关键位置,依托基础设施和大量的数据,为各类人工智能的应用提供关键性的技术平台、解决方案和服务。目前,从提供服务的类型来看,提供技术服务厂商包括以下几类:
                      (1)提供人工智能的技术平台和算法模型。此类厂商主要针对用户或者行业需求,提供人工智能技术平台以及算法模型。用户可以在人工智能平台之上,通过一系列的算法模型来进行人工智能的应用开发。此类厂商主要关注人工智能的通用计算框架、算法模型、通用技术等关键领域。
                      (2)提供人工智能的整体解决方案。此类厂商主要针对用户或者行业需求,设计和提供包括软、硬件一体的行业人工智能解决方案,整体方案中集成多种人工智能算法模型以及软、硬件环境,帮助用户或行业解决特定的问题。此类厂商重点关注人工智能在特定领域或者特定行业的应用。
                      (3)提供人工智能在线服务。此类厂商一般为传统的云服务提供厂商,主要依托其已有的云计算和大数据应用的用户资源,聚集用户的需求和行业属性,为客户提供多类型的人工智能服务;从各类模型算法和计算框架的API等特定应用平台到特定行业的整体解决方案等,进一步吸引大量的用户使用,从而进一步完善其提供的人工智能服务。此类厂商主要提供相对通用的人工智能服务,同时也会关注一些重点行业和领域。
                      需要指出的是,上述三类角色并不是严格区分开的,很多情况下会出现重叠,随着技术的发展成熟,在人工智能产业链中已有大量的厂商同时具备上述两类或者三类角色的特征。
                      智能产品
                      智能产品是指将人工智能领域的技术成果集成化、产品化,具体的分类如下表所示。
                      
                      人工智能的产品
                      
                      随着制造强国、网络强国、数字中国建设进程的加快,在制造、家居、金融、教育、交通、安防、医疗、物流等领域对人工智能技术和产品的需求将进一步释放,相关智能产品的种类和形态也将越来越丰富。
               人工智能对电子商务的发展影响
                      人工智能技术在电子商务领域的应用
                      目前,人工智能采用的主流技术主要涉及机器学习和人机交互。机器学习(Machine Learning)是计算机科学的一个分支,也可以认为是模式识别或人工智能、数据挖掘(Data Mining)、概率论、统计学(statistics)等多个学科的交叉学科。机器学习与数值优化(Numerical Cptimization)具有很高的重合度。机器学习在电商领域的应用主要体现在以下几个方面。
                             人工智能助手
                             人工智能助手(聊天机器人),其主要功能是自动回复顾客问题,对简单的语音指令作出响应,并通过采用自然语言处理系统提供产品推荐。电子商务网站和移动端页面上的聊天对话框正是基于机器学习的算法,将其编程为以个性化方式与客户通信。聊天机器人能够帮助消费者找到合适的产品,检查产品供应情况,并比较各种产品,最后帮助消费者付款;如果有任何投诉或疑问,聊天机器人也可以帮助客户联系相应的服务人员。消费者可以通过文字,语音甚至图片与这些机器人进行“交谈”。2017年3月,阿里巴巴发布了人造智能服务机器人“Shop Xiaomi”,即是淘宝商家的聊天机器人,其经过商家授权和调试后,聊天机器人可以取代一些客户服务,从而减少了人工客户服务的工作量,同时能够增添个性化风格。
                             推荐引擎
                             推荐引擎是建立在机器学习算法框架基础上一套完整的推荐系统。使用AI算法可以实现海量数据集的深度学习、统计编程和预测、分析顾客行为,并利用算法预测哪些产品可能会吸引顾客。首先根据潜在客户最近的搜索,推荐引擎中的机器学习算法能够根据计算结果记录被搜索产品的关键细节,然后,推荐引擎为浏览器生成适合的建议,并将其列在个人页面上,最终帮助消费者快速找到所需产品。降维算法的应用开启了人工智能对推荐系统的改造,人工智能对推荐系统最深刻的变革,就是不再把推荐系统看作是独立的推荐结果组合,它是整个人机交互行为,通过引入时间维度来实现系统和用户的动态维度。许多电商公司,例如:亚马逊、阿里巴巴淘宝网、京东商城等都使用推荐引擎来识别其产品的目标受众。
                             智慧物流
                             智慧物流是指:利用信息技术使装备和控制智能化,从而用技术装备取代人的一种物流发展模式。与传统物流模式相比,智能物流可以大大提高提高服务质量和运营效率。智慧物流的概念最早由IBM公司在2009年提出。最初,IBM公司提出建立一个通过感应器、RFID标签、制动器、GPS和其他设备及系统生成实时信息的“智慧供应链”。人工智能最直接的影响是后端供应链和物流链接,面对快速变化的需求和竞争市场,预测库存并非简单,而人工智能和深度学习的算法可以在订单周转预测中派上用场,可以确定订单周转的关键因素。机器学习系统的优势在于它们可以随着时间的推移不断学习而变得更加智能,使商家预测库存需求变得更加准确。目前,在智能物流仓储领域,阿里巴巴和京东都已经发布了无人值守的自动化智能存储系统。
                             最优定格
                             当前的电商行业正在蓬勃发展,即使对于小规模库存的在线零售商,这种长期持续的价格调整也是一个很大的挑战。利用能够快速处理大数据的人工智能技术,已基本能够解决大量产品的自动定价问题。对产品的评分、物流、价格和服务质量都会影响最终的综合排名结果,因此,对于商家而言,最优定价非常困难,而这种需要深入研究的定价问题正是人工智能所擅长的。通过先进的深度机器学习算法,人工智能技术可以持续评估市场动态并改变竞争环境以解决最优定价问题。
                      电子商务应用人工智能技术的未来趋势
                      随着研究技术的飞速发展和不断推进,深度学习平台、语音分析技术、生物识别技术、图像与视频分析技术、机器人自动处理系统、文本分析和自然语言处理(NLP)等主流人工智能技术在接下来仍将稳步发展。根据人工智能技术的商业价值、技术成熟度、发展阶段等方面的发展状况,AI将在未来通过以下几种方式推动电子商务的发展变革。
                             视觉搜索引擎
                             计算机视觉搜索引擎主要功能是让消费者可以将照片或特定风格的图片上传,然后在APP客户端中搜索样式、品类、风格相似的商品。视觉搜索功能(特别是通过手机)可以“读取”该项目的线索、颜色、形状、大小、面料和品牌。这能够帮助消费者找到他们正在寻找的商品。视觉搜索引擎的功能建立了从线上到线下的联系,从离线到在线体验只需要很少的流程和操作步骤,为消费者提供了一种创新、自主的体验。
                             个性化服务
                             在移动电子商务时代,由于消费者对移动设备的偏好,个性化电子商务体验对销售的影响将更加明显。未来购物将使用AI来收集用户在网站上发布的信息,例如产品评论等,以更好的为其提供实质性服务。不管是在线商店,实体店还是移动应用程序,人工智能都为所有这些渠道带来无缝的客户体验。借助深度学习的AI算法,网上零售商可以不断学习每一个新信号,从而更好的展示个性化产品。
                             尽管人工智能发展迅速,但仍有许多问题亟待解决:不确定性问题、不可解释问题、数据共享问题、隐私保护问题、伦理道德问题、人工智能系统的鲁棒性等。这些都是人工智能技术将要面临的巨大挑战。
 
       人工智能技术
               人工智能关键技术
                      机器学习
                      机器学习(Machine Learning)是一门涉及统计学、系统辨识、逼近理论、神经网络、优化理论、计算机科学、脑科学等诸多领域的交叉学科,研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,是人工智能技术的核心。基于数据的机器学习是现代智能技术中的重要方法之一,研究从观测数据(样本)出发寻找规律,利用这些规律对未来数据或无法观测的数据进行预测。根据学习模式、学习方法以及算法的不同,机器学习存在不同的分类方法。
                      根据学习模式将机器学习分类为监督学习、无监督学习和强化学习等。
                      (1)监督学习。监督学习是利用已标记的有限训练数据集,通过某种学习策略/方法建立一个模型,实现对新数据/实例的标记(分类)/映射,最典型的监督学习算法包括回归和分类。监督学习要求训练样本的分类标签已知,分类标签精确度越高,样本越具有代表性,学习模型的准确度越高。监督学习在自然语言处理、信息检索、文本挖掘、手写体辨识、垃圾邮件侦测等领域获得了广泛应用。
                      (2)无监督学习。无监督学习是利用无标记的有限数据描述隐藏在未标记数据中的结构/规律,最典型的无监督学习算法包括单类密度估计、单类数据降维、聚类等。无监督学习不需要训练样本和人工标注数据,便于压缩数据存储、减少计算量、提升算法速度,还可以避免正、负样本偏移引起的分类错误问题。主要用于经济预测、异常检测、数据挖掘、图像处理、模式识别等领域,例如组织大型计算机集群、社交网络分析、市场分割、天文数据分析等。
                      (3)强化学习。强化学习是智能系统从环境到行为映射的学习,以使强化信号函数值最大。由于外部环境提供的信息很少,强化学习系统必须靠自身的经历进行学习。强化学习的目标是学习从环境状态到行为的映射,使得智能体选择的行为能够获得环境最大的奖赏,使得外部环境对学习系统在某种意义下的评价为最佳。其在机器人控制、无人驾驶、下棋、工业控制等领域获得成功应用。
                      根据学习方法可以将机器学习分为传统机器学习和深度学习。
                      (1)传统机器学习。传统机器学习从一些观测(训练)样本出发,试图发现不能通过原理分析获得的规律,实现对未来数据行为或趋势的准确预测。相关算法包括逻辑回归、隐马尔科夫方法、支持向量机方法、K近邻方法、三层人工神经网络方法、Adaboost算法、贝叶斯方法以及决策树方法等。传统机器学习平衡了学习结果的有效性与学习模型的可解释性,为解决有限样本的学习问题提供了一种框架,主要用于有限样本情况下的模式分类、回归分析、概率密度估计等。传统机器学习方法共同的重要理论基础之一是统计学,在自然语言处理、语音识别、图像识别、信息检索和生物信息等许多计算机领域获得了广泛应用。
                      (2)深度学习。深度学习是建立深层结构模型的学习方法,典型的深度学习算法包括深度置信网络、卷积神经网络、受限玻尔兹曼机和循环神经网络等。深度学习又称为深度神经网络(指层数超过3层的神经网络)。深度学习作为机器学习研究中的一个新兴领域,由Hinton等人于2006年提出。深度学习源于多层神经网络,其实质是给出了一种将特征表示和学习合二为一的方式。深度学习的特点是放弃了可解释性,单纯追求学习的有效性。经过多年的摸索尝试和研究,已经产生了诸多深度神经网络的模型,其中卷积神经网络、循环神经网络是两类典型的模型。卷积神经网络常被应用于空间性分布数据;循环神经网络在神经网络中引入了记忆和反馈,常被应用于时间性分布数据。深度学习框架是进行深度学习的基础底层框架,一般包含主流的神经网络算法模型,提供稳定的深度学习API,支持训练模型在服务器和GPU、TPU间的分布式学习,部分框架还具备在包括移动设备、云平台在内的多种平台上运行的移植能力,从而为深度学习算法带来前所未有的运行速度和实用性。目前主流的开源算法框架有TensorFlow、Caffe/Caffe2、CNTK、MXNet、Paddle-paddle、Torch/PyTorch、Theano等。
                      此外,机器学习的常见算法还包括迁移学习、主动学习和演化学习等。
                      (1)迁移学习。迁移学习是指当在某些领域无法取得足够多的数据进行模型训练时,利用另一领域数据获得的关系进行的学习。迁移学习可以把已训练好的模型参数迁移到新的模型指导新模型训练,可以更有效地学习底层规则、减少数据量。目前的迁移学习技术主要在变量有限的小规模应用中使用,如基于传感器网络的定位,文字分类和图像分类等。未来迁移学习将被广泛应用于解决更有挑战性的问题,如视频分类、社交网络分析、逻辑推理等。
                      (2)主动学习。主动学习通过一定的算法查询最有用的未标记样本,并交由专家进行标记,然后用查询到的样本训练分类模型来提高模型的精度。主动学习能够选择性地获取知识,通过较少的训练样本获得高性能的模型,最常用的策略是通过不确定性准则和差异性准则选取有效的样本。
                      (3)演化学习。演化学习对优化问题性质要求极少,只需能够评估解的好坏即可,适用于求解复杂的优化问题,也能直接用于多目标优化。演化算法包括粒子群优化算法、多目标演化算法等。目前针对演化学习的研究主要集中在演化数据聚类、对演化数据更有效的分类,以及提供某种自适应机制以确定演化机制的影响等。
                      知识图谱
                      知识图谱本质上是结构化的语义知识库,是一种由节点和边组成的图数据结构,以符号形式描述物理世界中的概念及其相互关系,其基本组成单位是“实体—关系—实体”三元组,以及实体及其相关“属性—值”对。不同实体之间通过关系相互联结,构成网状的知识结构。在知识图谱中,每个节点表示现实世界的“实体”,每条边为实体与实体之间的“关系”。通俗地讲,知识图谱就是把所有不同种类的信息连接在一起而得到的一个关系网络,提供了从“关系”的角度去分析问题的能力。
                      知识图谱可用于反欺诈、不一致性验证、组团欺诈等公共安全保障领域,需要用到异常分析、静态分析、动态分析等数据挖掘方法。特别地,知识图谱在搜索引擎、可视化展示和精准营销方面有很大的优势,已成为业界的热门工具。但是,知识图谱的发展还有很大的挑战,如数据的噪声问题,即数据本身有错误或者数据存在冗余。随着知识图谱应用的不断深入,还有一系列关键技术需要突破。
                      自然语言处理
                      自然语言处理是计算机科学领域与人工智能领域中的一个重要方向,研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法,涉及的领域较多,主要包括机器翻译、语义理解和问答系统等。
                      (1)机器翻译。机器翻译技术是指利用计算机技术实现从一种自然语言到另外一种自然语言的翻译过程。基于统计的机器翻译方法突破了之前基于规则和实例翻译方法的局限性,翻译性能取得巨大提升。基于深度神经网络的机器翻译在日常口语等一些场景的成功应用已经显现出了巨大的潜力。随着上下文的语境表征和知识逻辑推理能力的发展,自然语言知识图谱不断扩充,机器翻译将会在多轮对话翻译及篇章翻译等领域取得更大进展。目前非限定领域机器翻译中性能较佳的一种是统计机器翻译,包括训练及解码两个阶段。训练阶段的目标是获得模型参数,解码阶段的目标是利用所估计的参数和给定的优化目标,获取待翻译语句的最佳翻译结果。统计机器翻译主要包括语料预处理、词对齐、短语抽取、短语概率计算、最大熵调序等步骤。基于神经网络的端到端翻译方法不需要针对双语句子专门设计特征模型,而是直接把源语言句子的词串送入神经网络模型,经过神经网络的运算,得到目标语言句子的翻译结果。在基于端到端的机器翻译系统中,通常采用递归神经网络或卷积神经网络对句子进行表征建模,从海量训练数据中抽取语义信息,与基于短语的统计翻译相比,其翻译结果更加流畅自然,在实际应用中取得了较好的效果。
                      (2)语义理解。语义理解技术是指利用计算机技术实现对文本篇章的理解,并且回答与篇章相关问题的过程。语义理解更注重于对上下文的理解以及对答案精准程度的把控。随着MCTest数据集的发布,语义理解受到更多关注,取得了快速发展,相关数据集和对应的神经网络模型层出不穷。语义理解技术将在智能客服、产品自动问答等相关领域发挥重要作用,进一步提高问答与对话系统的精度。在数据采集方面,语义理解通过自动构造数据方法和自动构造填空型问题的方法来有效扩充数据资源。为了解决填充型问题,一些基于深度学习的方法相继提出,如基于注意力的神经网络方法。当前主流的模型是利用神经网络技术对篇章、问题建模,对答案的开始和终止位置进行预测,抽取出篇章片段。对于进一步泛化的答案,处理难度进一步提升,目前的语义理解技术仍有较大的提升空间。
                      (3)问答系统。问答系统分为开放领域的对话系统和特定领域的问答系统。问答系统技术是指让计算机像人类一样用自然语言与人交流的技术。人们可以向问答系统提交用自然语言表达的问题,系统会返回关联性较高的答案。尽管问答系统目前已经有了不少应用产品出现,但大多是在实际信息服务系统和智能手机助手等领域中的应用,在问答系统鲁棒性方面仍然存在着问题和挑战。
                      自然语言处理面临四大挑战:一是在词法、句法、语义、语用和语音等不同层面存在不确定性;二是新的词汇、术语、语义和语法导致未知语言现象的不可预测性;三是数据资源的不充分使其难以覆盖复杂的语言现象;四是语义知识的模糊性和错综复杂的关联性难以用简单的数学模型描述,语义计算需要参数庞大的非线性计算。
                      人机交互
                      人机交互主要研究人和计算机之间的信息交换,主要包括人到计算机和计算机到人的两部分信息交换,是人工智能领域的重要的外围技术。人机交互是与认知心理学、人机工程学、多媒体技术、虚拟现实技术等密切相关的综合学科。传统的人与计算机之间的信息交换主要依靠交互设备进行,主要包括键盘、鼠标、操纵杆、数据服装、眼动跟踪器、位置跟踪器、数据手套、压力笔等输入设备,以及打印机、绘图仪、显示器、头盔式显示器、音箱等输出设备。人机交互技术除了传统的基本交互和图形交互外,还包括语音交互、情感交互、体感交互及脑机交互等技术,以下对后四种与人工智能关联密切的典型交互手段进行介绍。
                      (1)语音交互。语音交互是一种高效的交互方式,是人以自然语音或机器合成语音同计算机进行交互的综合性技术,结合了语言学、心理学、工程和计算机技术等领域的知识。语音交互不仅要对语音识别和语音合成进行研究,还要对人在语音通道下的交互机理、行为方式等进行研究。语音交互过程包括四部分:语音采集、语音识别、语义理解和语音合成。语音采集完成音频的录入、采样及编码;语音识别完成语音信息到机器可识别的文本信息的转化;语义理解根据语音识别转换后的文本字符或命令完成相应的操作;语音合成完成文本信息到声音信息的转换。作为人类沟通和获取信息最自然便捷的手段,语音交互比其他交互方式具备更多优势,能为人机交互带来根本性变革,是大数据和认知计算时代未来发展的制高点,具有广阔的发展前景和应用前景。
                      (2)情感交互。情感是一种高层次的信息传递,而情感交互是一种交互状态,它在表达功能和信息时传递情感,勾起人们的记忆或内心的情愫。传统的人机交互无法理解和适应人的情绪或心境,缺乏情感理解和表达能力,计算机难以具有类似人一样的智能,也难以通过人机交互做到真正的和谐与自然。情感交互就是要赋予计算机类似于人一样的观察、理解和生成各种情感的能力,最终使计算机像人一样能进行自然、亲切和生动的交互。情感交互已经成为人工智能领域中的热点方向,旨在让人机交互变得更加自然。目前,在情感交互信息的处理方式、情感描述方式、情感数据获取和处理过程、情感表达方式等方面还有诸多技术挑战。
                      (3)体感交互。体感交互是个体不需要借助任何复杂的控制系统,以体感技术为基础,直接通过肢体动作与周边数字设备装置和环境进行自然的交互。依照体感方式与原理的不同,体感技术主要分为三类:惯性感测、光学感测以及光学联合感测。体感交互通常由运动追踪、手势识别、运动捕捉、面部表情识别等一系列技术支撑。与其他交互手段相比,体感交互技术无论是硬件还是软件方面都有了较大的提升,交互设备向小型化、便携化、使用方便化等方面发展,大大降低了对用户的约束,使得交互过程更加自然。目前,体感交互在游戏娱乐、医疗辅助与康复、全自动三维建模、辅助购物、眼动仪等领域有了较为广泛的应用。
                      (4)脑机交互。脑机交互又称为脑机接口,指不依赖于外围神经和肌肉等神经通道,直接实现大脑与外界信息传递的通路。脑机接口系统检测中枢神经系统活动,并将其转化为人工输出指令,能够替代、修复、增强、补充或者改善中枢神经系统的正常输出,从而改变中枢神经系统与内外环境之间的交互作用。脑机交互通过对神经信号解码,实现脑信号到机器指令的转化,一般包括信号采集、特征提取和命令输出三个模块。从脑电信号采集的角度,一般将脑机接口分为侵入式和非侵入式两大类。除此之外,脑机接口还有其他常见的分类方式:按照信号传输方向可以分为脑到机、机到脑和脑机双向接口;按照信号生成的类型,可分为自发式脑机接口和诱发式脑机接口;按照信号源的不同还可分为基于脑电的脑机接口、基于功能性核磁共振的脑机接口以及基于近红外光谱分析的脑机接口。
                      计算机视觉
                      计算机视觉是使用计算机模仿人类视觉系统的科学,让计算机拥有类似人类提取、处理、理解和分析图像以及图像序列的能力。自动驾驶、机器人、智能医疗等领域均需要通过计算机视觉技术从视觉信号中提取并处理信息。近来随着深度学习的发展,预处理、特征提取与算法处理渐渐融合,形成端到端的人工智能算法技术。根据解决的问题,计算机视觉可分为计算成像学、图像理解、三维视觉、动态视觉和视频编解码五大类。
                      (1)计算成像学。计算成像学是探索人眼结构、相机成像原理以及其延伸应用的科学。在相机成像原理方面,计算成像学不断促进现有可见光相机的完善,使得现代相机更加轻便,可以适用于不同场景。同时计算成像学也推动着新型相机的产生,使相机超出可见光的限制。在相机应用科学方面,计算成像学可以提升相机的能力,从而通过后续的算法处理使得在受限条件下拍摄的图像更加完善,例如图像去噪、去模糊、暗光增强、去雾霾等,以及实现新的功能,例如全景图、软件虚化、超分辨率等。
                      (2)图像理解。图像理解是通过用计算机系统解释图像,实现类似人类视觉系统理解外部世界的一门科学。通常根据理解信息的抽象程度可分为三个层次:浅层理解,包括图像边缘、图像特征点、纹理元素等;中层理解,包括物体边界、区域与平面等;高层理解,根据需要抽取的高层语义信息,可大致分为识别、检测、分割、姿态估计、图像文字说明等。目前高层图像理解算法已逐渐广泛应用于人工智能系统,如刷脸支付、智慧安防、图像搜索等。
                      (3)三维视觉。三维视觉即研究如何通过视觉获取三维信息(三维重建)以及如何理解所获取的三维信息的科学。三维重建可以根据重建的信息来源,分为单目图像重建、多目图像重建和深度图像重建等。三维信息理解,即使用三维信息辅助图像理解或者直接理解三维信息。三维信息理解可分为,①浅层:角点、边缘、法向量等;②中层:平面、立方体等;③高层:物体检测、识别、分割等。三维视觉技术可以广泛应用于机器人、无人驾驶、智慧工厂、虚拟/增强现实等方向。
                      (4)动态视觉。动态视觉即分析视频或图像序列,模拟人处理时序图像的科学。通常动态视觉问题可以定义为寻找图像元素,如像素、区域、物体在时序上的对应,以及提取其语义信息的问题。动态视觉研究被广泛应用在视频分析以及人机交互等方面。
                      (5)视频编解码。视频编解码是指通过特定的压缩技术,将视频流进行压缩。视频流传输中最为重要的编解码标准有国际电联的H.261、H.263、H.264、H.265、M-JPEG和MPEG系列标准。视频压缩编码主要分为两大类:无损压缩和有损压缩。无损压缩指使用压缩后的数据进行重构时,重构后的数据与原来的数据完全相同,例如磁盘文件的压缩。有损压缩也称为不可逆编码,指使用压缩后的数据进行重构时,重构后的数据与原来的数据有差异,但不会影响人们对原始资料所表达的信息产生误解。有损压缩的应用范围广泛,例如视频会议、可视电话、视频广播、视频监控等。
                      目前,计算机视觉技术发展迅速,已具备初步的产业规模。未来计算机视觉技术的发展主要面临以下挑战:一是如何在不同的应用领域和其他技术更好的结合,计算机视觉在解决某些问题时可以广泛利用大数据,已经逐渐成熟并且可以超过人类,而在某些问题上却无法达到很高的精度;二是如何降低计算机视觉算法的开发时间和人力成本,目前计算机视觉算法需要大量的数据与人工标注,需要较长的研发周期以达到应用领域所要求的精度与耗时;三是如何加快新型算法的设计开发,随着新的成像硬件与人工智能芯片的出现,针对不同芯片与数据采集设备的计算机视觉算法的设计与开发也是挑战之一。
                      生物特征识别
                      生物特征识别技术是指通过个体生理特征或行为特征对个体身份进行识别认证的技术。从应用流程看,生物特征识别通常分为注册和识别两个阶段。注册阶段通过传感器对人体的生物表征信息进行采集,如利用图像传感器对指纹和人脸等光学信息、麦克风对说话声等声学信息进行采集,利用数据预处理以及特征提取技术对采集的数据进行处理,得到相应的特征进行存储。识别过程采用与注册过程一致的信息采集方式对待识别人进行信息采集、数据预处理和特征提取,然后将提取的特征与存储的特征进行比对分析,完成识别。从应用任务看,生物特征识别一般分为辨认与确认两种任务,辨认是指从存储库中确定待识别人身份的过程,是一对多的问题;确认是指将待识别人信息与存储库中特定单人信息进行比对,确定身份的过程,是一对一的问题。
                      生物特征识别技术涉及的内容十分广泛,包括指纹、掌纹、人脸、虹膜、指静脉、声纹、步态等多种生物特征,其识别过程涉及到图像处理、计算机视觉、语音识别、机器学习等多项技术。目前生物特征识别作为重要的智能化身份认证技术,在金融、公共安全、教育、交通等领域得到广泛的应用。下面将对指纹识别、人脸识别、虹膜识别、指静脉识别、声纹识别以及步态识别等技术进行介绍。
                      (1)指纹识别。指纹识别过程通常包括数据采集、数据处理、分析判别三个过程。数据采集通过光、电、力、热等物理传感器获取指纹图像;数据处理包括预处理、畸变校正、特征提取三个过程;分析判别是对提取的特征进行分析判别的过程。
                      (2)人脸识别。人脸识别是典型的计算机视觉应用,从应用过程来看,可将人脸识别技术划分为检测定位、面部特征提取以及人脸确认三个过程。人脸识别技术的应用主要受到光照、拍摄角度、图像遮挡、年龄等多个因素的影响,在约束条件下人脸识别技术相对成熟,在自由条件下人脸识别技术还在不断改进。
                      (3)虹膜识别。虹膜识别的理论框架主要包括虹膜图像分割、虹膜区域归一化、特征提取和识别四个部分,研究工作大多是基于此理论框架发展而来。虹膜识别技术应用的主要难题包含传感器和光照影响两个方面:一方面,由于虹膜尺寸小且受黑色素遮挡,需在近红外光源下采用高分辨图像传感器才可清晰成像,对传感器质量和稳定性要求比较高;另一方面,光照的强弱变化会引起瞳孔缩放,导致虹膜纹理产生复杂形变,增加了匹配的难度。
                      (4)指静脉识别。指静脉识别是利用了人体静脉血管中的脱氧血红蛋白对特定波长范围内的近红外线有很好的吸收作用这一特性,采用近红外光对指静脉进行成像与识别的技术。由于指静脉血管分布随机性很强,其网络特征具有很好的唯一性,且属于人体内部特征,不受到外界影响,因此模态特性十分稳定。指静脉识别技术应用面临的主要难题来自于成像单元。
                      (5)声纹识别。声纹识别是指根据待识别语音的声纹特征识别说话人的技术。声纹识别技术通常可以分为前端处理和建模分析两个阶段。声纹识别的过程是将某段来自某个人的语音经过特征提取后与多复合声纹模型库中的声纹模型进行匹配,常用的识别方法可以分为模板匹配法、概率模型法等。
                      (6)步态识别。步态是远距离复杂场景下唯一可清晰成像的生物特征,步态识别是指通过身体体型和行走姿态来识别人的身份。相比上述几种生物特征识别,步态识别的技术难度更大,体现在其需要从视频中提取运动特征,以及需要更高要求的预处理算法,但步态识别具有远距离、跨角度、光照不敏感等优势。
                      虚拟现实/增强现实
                      虚拟现实(VR)/增强现实(AR)是以计算机为核心的新型视听技术。结合相关科学技术,在一定范围内生成与真实环境在视觉、听觉、触感等方面高度近似的数字化环境。用户借助必要的装备与数字化环境中的对象进行交互,相互影响,获得近似真实环境的感受和体验,通过显示设备、跟踪定位设备、触力觉交互设备、数据获取设备、专用芯片等实现。
                      虚拟现实/增强现实从技术特征角度,按照不同处理阶段,可以分为获取与建模技术、分析与利用技术、交换与分发技术、展示与交互技术以及技术标准与评价体系五个方面。获取与建模技术研究如何把物理世界或者人类的创意进行数字化和模型化,难点是三维物理世界的数字化和模型化技术;分析与利用技术重点研究对数字内容进行分析、理解、搜索和知识化方法,其难点是在于内容的语义表示和分析;交换与分发技术主要强调各种网络环境下大规模的数字化内容流通、转换、集成和面向不同终端用户的个性化服务等,其核心是开放的内容交换和版权管理技术;展示与交换技术重点研究符合人类习惯数字内容的各种显示技术及交互方法,以期提高人对复杂信息的认知能力,其难点在于建立自然和谐的人机交互环境;标准与评价体系重点研究虚拟现实/增强现实基础资源、内容编目、信源编码等的规范标准以及相应的评估技术。
                      目前虚拟现实/增强现实面临的挑战主要体现在智能获取、普适设备、自由交互和感知融合四个方面。在硬件平台与装置、核心芯片与器件、软件平台与工具、相关标准与规范等方面存在一系列科学技术问题。总体来说虚拟现实/增强现实呈现虚拟现实系统智能化、虚实环境对象无缝融合、自然交互全方位与舒适化的发展趋势。
               基于深度学习的人工智能技术体系
               当前,基于深度学习的人工智能算法主要依托计算机技术体系架构实现,深度学习算法通过封装至软件框架的方式供开发者使用。软件框架是整个技术体系的核心,实现对人工智能算法的封装,数据的调用以及计算资源的调度使用。为提升算法实现的效率,其编译器及底层硬件技术也进行了功能优化,具体架构分为基础硬件层、深度神经网络模型编译器及软件框架等。
               (1)基础硬件层。基础硬件层为算法提供了基础计算能力。硬件层涵盖范围除了中央处理器(Central Processing Unit,CPU)及GPU外,还包括为特定场景应用而定制的计算芯片,以及基于计算芯片所定制的服务器,包括GPU服务器集群,各类移动终端设备以及类脑计算机等。
               (2)深度神经网络模型编译器。深度神经网络模型编译器是底层硬件和软件框架,以及不同软件框架之间的桥梁。该层旨在为上层应用提供硬件调用接口,解决不同上层应用在使用不同底层硬件计算芯片时可能存在的不兼容等问题。其涵盖范围包括针对人工智能计算芯片定向优化的深度神经网络模型编译器,以及针对不同神经网络模型表示的规定及格式。
               (3)软件框架层。软件框架层实现算法的模块化封装,为应用开发提供集成软件工具包。该层涵盖范围包括针对算法实现开发的各类应用及算法工具包,为上层应用开发提供了算法调用接口,提升应用实现的效率。
               (4)基础应用技术。当前人工智能的商业化实现主要是基于计算机视觉、智能语音、自然语言处理等基础应用技术实现,并形成了相应的产品或服务。
 
       任务调度
        MapReduce将存储和计算资源部署在相同结点上,优先把计算任务调度到数据所在的结点或者就近的结点,这样在进行计算时,大部分的输入数据都能从本地读取,减少了网络带宽的消耗,提高了整个系统的吞吐量。另外,MapReduce对于由于各种原因(例如硬盘出错)造成执行非常慢的子任务采用了备用任务的机制,当MapReduce操作接近完成时,调度备用任务进程来执行剩下的执行非常慢的子任务。
 
       数据分析
        数据分析是大数据处理过程中的重要组成部分,是大数据价值体现的核心环节。经典的机器学习方法是最常见的数据智能分析方法,近年来迅速发展的深度学习在某些领域取得了惊人的效果。在应用开发上,也形成了几种主流的大数据处理框架。
        机器学习中算法很多,也有很多不同种类的分类方法,一般分为监督学习和非监督学习(或无监督学习)。其中,监督学习是指利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程,也称为监督训练,是从标记的训练数据来推断一个功能的机器学习任务。根据训练集中的标识是连续的还是离散的,可以将监督学习分为两类:回归和分类。
        回归是研究一个或一组随机变量对一个或一组属性变量的相依关系的统计分析方法。线性回归模型是假设自变量和因变量满足线性关系。Logistic回归一般用于分类问题,而其本质是线性回归模型,只是在回归的连续值结果上加了一层函数映射。
        分类是机器学习中的一个重要问题,其过程也是从训练集中建立因变量和自变量的映射过程,与回归问题不同的是,分类问题中因变量的取值是离散的,根据因变量的取值范围,可将分类问题分为二分类问题、三分类问题和多分类问题。根据分类采用的策略和思路的不同,分类算法大致包括:基于示例的分类方法,如K最近邻(K-Nearest Neighbor,KNN)方法;基于概率模型的分类方法,如朴素贝叶斯、最大期望算法EM等;基于线性模型的分类方法,如SVM;基于决策模型的分类方法,如C4.5、AdaBoost、随机森林等。
        在实际应用中,缺乏足够的先验知识,因此难以人工标注类别或进行人工类别标注的成本太高,学习模型是为了推断出数据的一些内在结构。因此,根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题,称为无监督学习。常见的算法有:关联规则挖掘,是从数据背后发现事物之间可能存在的关联或联系。比如数据挖掘领域著名的“啤酒-尿不湿”的故事。K-means算法,基本思想是两个对象的距离越近,其相似度越大;相似度接近的若干对象组成一个簇;算法的目标是从给定数据集中找到紧凑且独立的簇。
        近年来发展起来的深度学习算法是基于原有的神经网络算法发展起来的,包括BP神经网络、深度神经网络。