抓取网页
考试要求: 熟悉     
知识路径:  > 多媒体信息显示、发布及搜索技术  > 多媒体信息搜索技术  > 搜索引擎的基本工作原理  > 搜索引擎的基本工作原理


 
       每个独立的搜索引擎都有自己的网页抓取程序爬虫(spider)。爬虫顺着网页中的超链接从一个网站爬到另一个网站,通过超链接分析连续访问并抓取更多的网页,被抓取的网页称为网页快照。由于互联网中超链接的应用很普遍,因此理论上从一定范围的网页出发就能搜集到绝大多数的网页。
 

更多复习资料
请登录电脑版软考在线 www.rkpass.cn

京B2-20210865 | 京ICP备2020040059号-5
京公网安备 11010502032051号 | 营业执照
 Copyright ©2000-2025 All Rights Reserved
软考在线版权所有