免费智能真题库 > 历年试卷 > 电子商务设计师 > 2018年下半年 电子商务设计师 上午试卷 综合知识
  第46题      
  知识点:   射频标识   标识技术   数据采集
  关键词:   射频   数据采集   数据        章/节:   现代物流信息技术       

 
射频标识技术现已成为数据采集、 标识和分析的主要工具,它具有非接触、抗干扰能力强、( )、阅读速度快等优点。
 
 
  A.  工作距离短
 
  B.  精度高
 
  C.  标准兼容性强
 
  D.  人工干预少
 
 
 

 
  第47题    2013年下半年  
   40%
射频标识(RFID)是自动标识与数据采集技术之一,关于RFID系统说法不正确的是(47)。
  第54题    2011年下半年  
   38%
以下关于射频技术的叙述中,错误的是(54)。
 
   知识点讲解    
   · 射频标识    · 标识技术    · 数据采集
 
       射频标识
        射频标识是AIDC技术之一,最早出现在20世纪80年代,用于跟踪业务。由于其非接触阅读的性能,可用在制造业和其他不宜使用条形码标签的环境;因其能够跟踪移动对象,而广泛用于运输车辆自动识别(AVI)系统。这种技术已成为主要的数据采集、标识和分析系统的工具。
        射频标识系统一般包括三个构件:天线、无线收发器(带解码器)、以电子形式编制了唯一信息的异频雷达收发器(RFID标签)。天线发射无线信号激活标签并读写其上的数据,是标签和无线收发器间的桥梁;天线有各种形状和大小,可置入门框内来接收通过门的人或物品上的标签数据,或固定在高速公路的收费站来检测交通流量。如果希望连续记录多个标签时,天线产生的电磁场可维持不变;如果不需要持续讯问,可由传感设备来激活电磁场。阅读器发射出的无线电波波长可从2.5cm到30m,通常依赖于其输出能力和所用频率。当RFID标签通过电磁场时探测阅读器的激活信号,阅读器对标签的集成电路内编码的数据进行解码并将数据传送给主机处理。
        RFID系统最重要的优点是非接触作业。它能穿透雪、雾、冰、涂料、尘垢和在条形码无法使用的恶劣环境阅读标签;阅读速度非常快,大多数情况下,可用于流程跟踪或者维修跟踪等交互式业务,RFID的主要问题是不兼容的标准。RFID的主要厂商提供的都是专用系统,导致不同的应用和不同的行业采用不同的厂商的频率和协议标准。目前RFID的标准处于割据状态,铁路、公路、航空、收费、美国运输情报系统、国防部和其他行业都有各自的标准。这种状况增加了RFID跨行业应用时的成本。
 
       标识技术
               主机IP地址
               Internet上每台主机都必须有一个唯一的标识,即主机的IP地址,IP协议就是根据IP地址实现信息传递的。IP地址分为IPv4和IPv6两个版本。
               (1) IPv4
               IP地址由32位(即4字节)二进制数组成,将每个字节作为一段并以十进制数来表示,每段间用“.”分隔。例如,202.96.209.5就是一个合法的IP地址。
               IP地址由网络标识和主机标识两部分组成。常用的IP地址有A、B、C三类,每类均规定了网络标识和主机标识在32位中所占的位数,区别如下:
               .A类:一般分配给具有大量主机的网络使用,第一个字节十进制值为0~126。
               .B类:通常分配给规模中等的网络使用,第一个字节十进制值为l28~191。
               .C类:通常分配给小型局域网使用,第一个字节十进制值为192~223。
               IP地址由世界各大地区的权威机构Inter NIC(Internet Network Information Center)管理和分配。
               将主机标识域进一步划分为子网标识和子网主机标识,通过灵活定义子网标识域的位数,可以控制每个子网的规模。将一个大型网络划分为若干个既相对独立又相互联系的子网后,网络内部各子网便可独立寻址和管理,各子网间通过跨子网的路由器连接,这样也提高了网络的安全性。
               利用子网掩码可以判断两台主机是否在同一子网中。子网掩码与IP地址一样也是32位二进制数,不同的是它的子网主机标识部分为全“0”。若两台主机的IP地址分别与它们的子网掩码相“与”后的结果相同,则说明这两台主机在同一子网中。
               (2)IPv6
               IPv6是由IETF小组设计的用来替代现行的IPv4协议的一种新的IP协议。
               IPv6由128位(16字节)二进制数组成,RFC1884中规定把IPv6表示为8个16位的无符号整数,每个整数用4个十六进制位表示,中间用冒号分隔,例如:3ffe:3201:1401:1280:c8ff:fe4d:db39:1984。
               IPv6具有如下优点:
               .提供更大的地址空间,能够实现即插即用和灵活的重新编址。
               .更简单的头信息,能够使路由器提供更有效率的路由转发。
               .与移动IP和IPSec保持兼容的移动性和安全性。
               .提供丰富的从IPv4到IPv6的转换和互操作方法。
               域名系统(DNS)和统一资源定位器(URL)
               32位二进制数的IP地址对计算机来说十分有效,但用户使用和记忆都很不方便。为此,Internet引进了字符形式的IP地址,即域名。域名采用层次结构的基于“域”的命名方案,每一层由一个子域名组成,子域名间用“.”分隔,其格式为:机器名.网络名.机构名.最高域名,如mail.sina.com.cn。
               Internet上的域名由域名系统DNS(Domain Name System)统一管理。DNS是一个分布式数据库系统,由域名空间、域名服务器和地址转换请求程序三部分组成。有了DNS,凡域名空间中有定义的域名都可以有效地转换为对应的IP地址,同样,IP地址也可通过DNS转换成域名。
               统一资源定位器URL(Uniform Resource Locator)也被称为网页地址,是互联网上标准的资源地址,只要知道某网页的URL,便可直接打开该网页。
               URL组成从左到右为:
               .Internet资源类型(scheme):指WWW客户程序用来操作的工具。如“http://”表示WWW服务器,“ftp://”表示FTP服务器,“gopher://”表示Gopher服务器。
               .服务器地址(host):指网页所在的服务器域名。
               .端口(port):有时对某些资源的访问来说,需给出相应的服务器端口号,有时不需要。
               .路径(path):指服务器上某资源的位置(其格式与DOS系统中的格式一样,通常由目录/子目录/文件名这样结构组成)。与端口一样,有时不需要写明。
               URL地址格式排列为:scheme://host:port/path。例如http://www.cnd.org/pub/HXWZ就是一个典型的URL地址。
               用户E-mail地址
               用户E-mail地址的格式为:用户名@主机域名。其中用户名是用户在邮件服务器上的信箱名,通常为用户的注册名、姓名或其他代号;主机域名则是邮件服务器的域名。用户名和主机域名之间用“@”分隔。例如,wenli@suiji.com.cn表示用户名为“wenli”,邮件服务器域名为“suiji.com.cn”的E-mail地址。
               由于主机域名在Internet上的唯一性,所以,只要E-mail地址中的用户名在该邮件服务器中是唯一的,则这个E-mail地址在整个Internet上也是唯一的。
 
       数据采集
        数据采集阶段的主要任务就是获取各个不同数据源的各类数据,按照统一的标准进行数据的转换、清洗等工作,以形成后续数据处理的符合标准要求的数据集。
        原始数据往往形式多样,包括:结构化数据,例如业务系统中的交易明细、操作日志等;非结构化数据,例如企业中的各种文档数据,视频、音频等数据;半结构化数据,例如Web页面的HTML文档等。而且其来源和种类也存在很大差距。
        当前的大数据处理中,数据的种类一般包括:
        .传感数据:传感数据是由感知设备或传感设备感受、测量及传输的数据。这些感知设备或传感设备实时和动态地收集大量的时序传感数据资源。传感数据种类有很多,如人身体的传感数据,网络信号的传感数据和气象的传感数据等。近年来随着物联网、工业互联网的日益发展,传感数据越来越丰富,人们也逐渐发现了其数据价值。
        .业务数据:企业业务系统在执行日常业务活动时产生的大量数据,包括设备工况、操作记录、交易流水,以及用户在使用系统时遗留下来的大量行为数据。这些数据反映了人或者物的属性、偏好,在推荐或预测系统中有很大的利用价值。
        .人工输入数据:用户通过软件人机交互等主动输入的数据,典型代表是微博、微信、抖音等系统的用户输入数据。随着互联网的不断深入,手机APP应用的不断发展,这种用户产生的数据也越来越多,越来越丰富。
        .科学数据:通过科学研究和科学实验不断搜集和汇聚的数据,一般是以电子记录或文本的形式存在。
        从大数据的来源进行划分,其种类包括:
        .企业数据:企业自建的各种业务系统,如ERP、在线交易系统、招聘系统等,也会产生各种数据集。
        .政府数据:政府信息化已发展多年,构建了很多业务数据。近年来政府也在不断地建设大数据中心,发布各种数据,包括人社、医疗、税务、工商、财务等。
        .互联网数据:互联网数据是当前大数据应用的一个重要的数据来源。互联网上存在各种应用沉淀下来的大量数据,包括门户网站、社交信息、电商网站等等。
        其中,企业数据一般属于内部数据,而政府数据、互联网数据往往属于外部数据。
        从上面大数据的分类可以看出,数据来源渠道众多,差异非常大。因此,数据采集的主要任务就是进行数据的汇聚,为后续的数据处理做好准备。这个阶段工作中主要涉及的技术包括针对内部数据的数据集成和ETL技术,针对外部数据,尤其是互联网数据的爬虫技术。
        数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。在企业数据集成领域,已经有很多成熟的框架可以利用。目前通常采用联邦式、基于中间件模型和数据仓库等方法来构造集成的系统,这些技术在不同的着重点和应用上解决数据共享和为企业提供决策支持。
        ETL(Extract Transform Load)用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。
        基本的ETL体系结构示意图如下图所示。
        
        ETL体系结构示意图
        ETL过程中的主要环节是数据抽取、数据转换和加工、数据加载。一般ETL工具中,围绕上述三个核心环节进行了功能上的扩充,例如工作流、调度引擎、规则引擎、脚本支持和统计信息等,尽量降低ETL阶段的工作强度,减少工作量。
        数据转换和加工是三个环节的重点,因为抽取的数据中往往存在各种问题,例如数据格式不一致、数据输入错误、字段不匹配、字段类型不符、数据不完整等。ETL一般以组件化的方式实现数据转换和加工。常用的数据转换组件有字段映射、数据过滤、数据清洗、数据替换、数据计算、数据验证、数据加解密、数据合并、数据拆分等,并以工作流的形式进行各种方式的组合,以满足数据转换的需求。有的ETL工具也提供脚本支持,满足用户定制化的数据转换需求。
        常用的ETL工具有三种:DataStage、Informatica PowerCenter和Kettle。
        .DataStage:IBM公司的DataStage是一种数据集成软件平台,专门针对多种数据源的ETL过程进行了简化和自动化,同时提供图形框架,用户可以使用该框架来设计和运行用于变换和清理、加载数据的作业。它能够处理的数据源有主机系统的大型数据库、开发系统上的关系数据库和普通的文件系统。
        .Informatica PowerCenter:Informatica公司开发的为满足企业级需求而设计的企业数据集成平台。可以支持各类数据源,包括结构化、半结构化和非结构化数据。提供丰富的数据转换组件和工作流支持。
        .Kettle:Kettle是一款国外开源的ETL工具,纯Java编写,可以在Windows、Linux、UNIX上运行,数据抽取高效稳定。管理来自不同数据库的数据,提供图形化的操作界面,提供工作流支持。Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。Kettle包括4个产品:Spoon、Pan、Chef、Kitchen。Spoon通过图形界面来设计ETL转换过程(Transformation)。Pan批量运行由Spoon设计的ETL转换(例如使用一个时间调度器),是一个后台执行的程序,没有图形界面。Chef创建任务(Job),任务通过允许每个转换、任务、脚本等等,更有利于自动化更新数据仓库的复杂工作。Kitchen批量使用由Chef设计的任务(例如使用一个时间调度器)。
        由于很多大数据应用都需要来自互联网的外部数据,因此,爬虫技术也称为数据采集阶段的一个主要基础性的技术。
        网络爬虫(又称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取互联网信息的程序或者脚本。网络爬虫基本的体系结构如下图所示。
        
        爬虫框架示意图
        爬虫调度器主要负责统筹其他四个模块的协调工作。URL管理器负责管理URL链接,维护已经爬取的URL集合和未爬取的URL集合,提供获取新URL链接的接口。HTML下载器用于从URL管理器中获取未爬取的URL链接并下载HTML网页。HTML解析器用于从HTML下载器中获取已经下载的HTML网页,并从中解析出新的URL链接交给URL管理器,解析出有效数据交给数据存储器。
        网络爬虫大致可以分为以下几种类型:通用网络爬虫、聚焦网络爬虫、深层网络(Deep Web)爬虫。实际的大数据应用由于往往聚焦于某个特定的应用目标,其采用的网络爬虫系统通常是聚焦网络爬虫、深层网络爬虫技术相结合实现的。
        通用网络爬虫,爬行对象从一些种子URL扩充到整个Web,主要为门户站点搜索引擎和大型Web服务提供商采集数据。通用网络爬虫的结构大致可以分为页面爬行模块、页面分析模块、链接过滤模块、页面数据库、URL队列、初始URL集合几个部分。为提高工作效率,通用网络爬虫会采取一定的爬行策略。常用的爬行策略有:深度优先策略、广度优先策略。
        聚焦网络爬虫,是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫。和通用网络爬虫相比,聚焦爬虫只需要爬行与主题相关的页面,可以很好地满足一些特定人群对特定领域信息的需求。聚焦网络爬虫和通用网络爬虫相比,增加了链接评价模块以及内容评价模块。聚焦爬虫爬行策略实现的关键是评价页面内容和链接的重要性,常见的爬行策略有基于内容评价的爬行策略、基于链接结构评价的爬行策略、基于增强学习的爬行策略、基于语境图的爬行策略等。
        深层网络爬虫用于专门爬取那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的,只有用户提交一些关键词才能获得的Web页面。Deep Web爬虫爬行过程中最重要的部分就是表单填写,包含两种类型:基于领域知识的表单填写,此方法一般会维持一个本体库,通过语义分析来选取合适的关键词填写表单;基于网页结构分析的表单填写,此方法一般无领域知识或仅有有限的领域知识,将网页表单表示成DOM树,从中提取表单各字段值。常见的爬虫工具有如下三种:
        .Nutch:一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch有Hadoop支持,可以进行分布式抓取、存储和索引。Nutch采用插件结构设计,高度模块化,容易扩展。
        .Scrapy:是Python开发的一个快速、高层次的屏幕抓取和Web抓取框架,用于抓取Web站点并从页面中提取结构化的数据。Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便地修改。它提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫、Web2.0爬虫等。
        .Larbin:Larbin是一种开源的网络爬虫/网络蜘蛛,用C++语言实现。Larbin目的是能够跟踪页面的URL进行扩展的抓取,最后为搜索引擎提供广泛的数据来源。
        当数据采集到以后,需要对采集并清洗后的数据进行存储。具体的存储技术在13.1.3云关键技术中的分布式数据存储中介绍,此处不再详述。
   题号导航      2018年下半年 电子商务设计师 上午试卷 综合知识   本试卷我的完整做题情况  
1 /
2 /
3 /
4 /
5 /
6 /
7 /
8 /
9 /
10 /
11 /
12 /
13 /
14 /
15 /
 
16 /
17 /
18 /
19 /
20 /
21 /
22 /
23 /
24 /
25 /
26 /
27 /
28 /
29 /
30 /
 
31 /
32 /
33 /
34 /
35 /
36 /
37 /
38 /
39 /
40 /
41 /
42 /
43 /
44 /
45 /
 
46 /
47 /
48 /
49 /
50 /
51 /
52 /
53 /
54 /
55 /
56 /
57 /
58 /
59 /
60 /
 
61 /
62 /
63 /
64 /
65 /
66 /
67 /
68 /
69 /
70 /
71 /
72 /
73 /
74 /
75 /
 
第46题    在手机中做本题