搜索引擎的原理及spider程序浅析


\| 网站首页 \| 范文 \| 演讲致词 \| 汇报体会 \| 总结报告 \| 公文方案 \| 领导讲话 \| 党建工会 \| 论文 \| 文档 \|

您现在的位置：范文大全网 >> 论文 >> 今日更新 >> 正文

用户登录

新用户注册

搜索引擎的原理及spider程序浅析

搜索引擎的原理及spider程序浅析

有相关网页，按一定算法对搜索结果进行处理排序。最后由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来显示给用户。图1是一个典型的搜索引擎系统架构图，搜索引擎的各部分都会相互交错、相互依赖。
　　下边就Spider即网络蜘蛛程序做下简要分析：
　　蜘蛛程序即（Spider）就是把互联网形容成一个大的蜘蛛网，那么Spider程序就是在网络上的蜘蛛。网络蜘蛛就是在互联网上寻找链接点，然后沿着链接点一个一个爬行下去寻找所有的链接点，最后提取出爬行过的链接点进入一定的数据库。
　　网络蜘蛛一般有两种搜索方法：广度优先遍历法（Breadth-First traversal）和深度优先遍历法（Depth-First traversal）（如图2所示）。广度优先是指从图中某个顶点A出发，在访问了A之后依次访问A的各个未曾访问过的邻接点，然后分别从这些邻接点出发依次访问它们的邻接点，并使“先被访问的顶点的邻接点”先于“后被访问的顶点的邻接点”被访问，直至图中所有已被访问的顶点的邻接点都被访问到。若此时图中尚有顶点未被访问，则另选图中一个未曾被访问的顶点作起始点，重复上述过程，直至图中所有顶点都被访问到为止。广度优先用于网络搜索则是指网络蜘蛛会先抓取起始网页中链接的所有网页，然后再选择其中的一个链接网页，继续抓取在此网页中链接的所有网页。深度优先遍历是指如下右图首先访问出发点A，并将其标记为已访问过；然后依次从A出发搜索A的每个邻接点如E。若E未曾访问过，则以E为新的出发点继续进行深度优先遍历，直至图中所有和源点A有路径相通的顶点（亦称为从源点可达的顶点）均已被访问为止。若此时图中仍有未访问的顶点，则另选一个尚未访问的顶点作为新的源点重复上述过程，直至图中所有顶点均已被访问为止。深度优先用于网页是指网络蜘蛛会从起始页开始，一个一个链接跟踪下去，处理完这条线路之后再转入下一个起始页继续跟踪链接。这个方法有个优点是网络蜘蛛在设计的时候比较容易。
　　对于搜索引擎来说，要抓取互联网上所有的网页几乎是不可能的。下边就简单介绍下两种抓取顺序的个人理解。
　　广度优先的抓起顺序：如上分析，如果上边A是一个网站的主页的话（index.htm），Spider（爬行程序）为了提高搜索效率，Sp

上一页 [1] [2] [3] [4] 下一页

上一个论文：小议网络搜索引擎广告

下一个论文：省级正刊《当代畜牧》杂志简介及征稿启事_中国知网收录简介