搜索引擎中的网络蜘蛛技术探析 |
|
|
索策略是以先进后出的栈方式来处理url地址的。网络蜘蛛程序分析一个文档,并取出它的第一个链接所指的文档继续分析,然后如此继续下去。它的优点就是能够较好的深入和发掘站点的结构,而且这种算法十分稳定,效率方面也是有所保障的。它对于搜索部分小的网站是有好处的。它的缺点是十分明显的,不断的短时间的访问同一台服务器的问题将非常的严重,而且它还容易陷入无限循环的文档树,这种算法处理这个问题的能力相当的有限。 将两种算法结合起来也是一种不错的办法,这两种算法互有长短,有些地方也可以形成互补。以一种算法为主,一种算法相辅的办法可以达到取长补短的效果。除了以上的算法之外,最好优先算法也经常被采用,它通过对采集的链接通过一些关于网页质量和效率的算法来排序,优秀者将优先被抓取。但是这个关于质量和效率的算法则又有许多不同的版本,在这里就不作详细的展开了。除去这些常用的算法,还有一些不常被人采用的优秀算法,如hash算法,遗传算法等。 (二)更新策略 索引中大量的网页是很少变化的,对所有的网页按照同一频率统一更新是完全没有必要的。因而以网页变化的周期为依据,只对那些经常变化的网页做更新操作也是一些小型的搜索引擎常采用的方法。但是只对部分网页做更新可能会漏掉一些重要网页的更新工作,所以网络爬虫也经常采用个体更新的策略。它是以个别网页的变化频率来决定对网页的更新频率,这样一来基本上每个网页都会有一个独立的更新频率。虽然这样做对于网页更新基本做到了变化与更新同步,在逻辑上也最合乎实际情况,但是为每个网页都维护不同的频率,在不同的周期上对少数页面做更新,更新的频率加快了,每次更新的数量却减少了,这对于系统来说是极人的浪费。为了解决这种情况,可以将这些频率按照几个等级分类,把更新快的和更新慢的分成几个集合,然后给每个集合定一个甲均的更新的频率,用这个频率分别对不同的集合统一进行更新可以平衡以上的矛盾获得更好的效果。 上一页 [1] [2]
|
|
上一个论文: 关于电子技术应用专业课改的设想 下一个论文: 浅谈搜索引擎优化的链接策略
|
|
|
看了《搜索引擎中的网络蜘蛛技术探析》的网友还看了:
[法律论文]简析“人肉搜索”和隐私权保护的冲突 [免费范文]基于禁忌搜索方法的集装箱配载问题研究 [法律论文]论“人肉搜索”侵权责任 [今日更新]聚类系数对小世界交通网络搜索路径的影响 [今日更新]网络“人肉搜索”事件的传播学研究 [今日更新]消费者搜索网络口碑的动机与行为分析 [今日更新]手机网络搜索加盟,小心被忽悠 [今日更新]搜索引擎的工作原理及检索技巧之我见 [今日更新]基于Lucene.net的档案垂直搜索引擎的实现 [今日更新]基于网站建设的搜索引擎优化策略构建
|
|