| 网站首页 | 范文 | 演讲致词 | 汇报体会 | 总结报告 | 公文方案 | 领导讲话 | 党建工会 | 论文 | 文档 | 书信 | 
您现在的位置: 范文大全网 >> 论文 >> 计算机论文 >> 正文 用户登录 新用户注册
搜索引擎中的网络蜘蛛技术探析           
搜索引擎中的网络蜘蛛技术探析

摘要:搜索引擎技术可以从海量的网络信息中获得我们想要的信息,随着网络信息资源的急剧增长其作用越来越显著。本文介绍了搜索引擎技术中的网路蜘蛛,分析了其对文件的处理方法,研究了其搜索与更新策略。
关键词:搜索引擎;网路蜘蛛;更新策略

一 网络蜘蛛工作原理

网络蜘蛛,即搜索引擎机器人程序。将整个互联网想象成一张很大的蜘蛛网,而搜索引擎机器人程序通过链接来抓取信息的过程就像是蜘蛛在这张网上爬来爬去一样。网络蜘蛛是通过链接地址来寻找网页的。它由一个启始链接开始抓取网页内容,同时也采集网页上的链接,并将这些链接作为它下一步抓取的链接地址,如此循环,直到达到某个停止条件后才会停止。停止条件的设定通常是以时间或是数量为依据,有时也会以链接的层数来限制网络蜘蛛的运行。

二 网路蜘蛛与网站的交互问题

网络蜘蛛访问一个网站,通常会去寻找一个特殊的文本文件robots.txt,这个文件如果存在的话通常会放在网站的根目录下。它是专门用来同网络蜘蛛交互用的专用文件。它会将网站管理者的意思传递给访问它的网络蜘蛛,告诉网站同意或是禁止某些或是所有蜘蛛访问网站的某个特定的网页或者目录。它的结构和语法都比较简单,一般网络蜘蛛都可以很容易的理解网站的意思。正规的搜索引擎通过读取这个文件可以很方便的理解网站的意思并按照网站管理者的意思来进行友好的访问。但是这个仅仅只是网络的一个约定协议而以,并没有对其制定相应的强迫手段,更没有提出相应的惩罚,所以这个约定对于遵守者是有效的,但对于那些不懂生规矩的蜘蛛是一点作用都没有。lOCalHoSt
在网页中的meta字段同样也可以放入和上面文件相同效用的内容,它可以告诉网络蜘蛛这个网页对于网站管理者来说,是需要被收录还是仅仅被浏览或是根本就不允许蜘蛛访问。这个字段通常会放在文档的头部,通过读取这个字段,蜘蛛可以在没有读取到全部文档的情况下就了解文档的相关信息,可以避免将无效的网页取下来后又将其废弃而造成无谓的浪费。同样这个规则也是没有特殊限制的,遵守程度完全靠网络蜘蛛的自觉性和网站的设计方式来决定。为了让网站被搜索引擎搜索到,尤其是那些网站所有者希望网络蜘蛛采集的网页,网站的设计者通常会在网站中放入一个叫做sitmap.htm的网页,并将它作为网站的入口文件。

三 网络蜘蛛对于文件的处理

(一)二进制文件处理
网络上除了有大量的html文件和xml文件外,也有大量的二进制文件。为了使网页的内容更加丰富,图片和多媒体文件被网页大量的引用。它们在网页上也是以超链接的形式出现的,因而在链接提取的阶段它们也是会被放在待访问队列中。对于二进制文件通过文件的内容来完成文件的索引是不现实的,现在的技术还没有达到可以通过二进制文件来理解文件内容的地步。因而对于这些文件的处理一般是采用单独处理的方式,其内容的理解完全需要依靠二进制文件的锚点描述来完成。锚点描述通常代表了文件的标题或是基本内容。锚点信息一般是由引用网页来提供,而不是放在二进制文件本身。二进制文件由于种类的差别问题,也需要分别来进行处理。

(二)脚本文件的处理
这里说的脚本文件一般指的是包含在网页中的客户端脚本,它会在网页下载到客户端的时候才会运行,通常会在客户端上完成一些简单的交互工作。脚本文件一般会在网页中负责网页的显示工作,但由于ajax技术的广泛使用,它也会负责与服务器端的交互工作。由于脚本语言的多样性和复杂性,对它的分析处理无异于制作一个简单的网页解析程序。正是因为处理脚本文件相当困难,许多小规模的搜索引擎往往会直接省略对它的处理。但是由于现在网站设计者对于无刷新页面要求的提高和对ajax技术的大量使用,如果忽略了对它的处理将会是一项巨大的损失。

(三)不同文件类型处理
对于网页内容的提取分析一直是网络蜘蛛的重要技术环节。对于网上不同文件类型文件的处理,网络蜘蛛通常是采用插件的方式来处理。它会有一个比较智能化的插件管理程序负责管理不同的插件,对于需要处理的不同类型的文件,它会调用不同的插件来处理。之所以是采用插件的形式,主要是出于扩展性方面的考虑。互联网上有许多不同类型的文件,不同的文件需要完全不同的处理方式,而且这个网络是不断变化的,随时会有新文件类型出现的可能。而要完成对新类型的处理,最简单的方法就是给新类型编写新的插件,然后将插件直接交由管理程序来管理。同时这个插件的编写最好是由新文件格式的制造者自行完成,通常只有制造者才最了解新格式定义的意义。

四 网络蜘蛛的策略分析

(一)搜索策略
网络蜘蛛的搜索策略指的是如何根据抓取下来的url地址来选择访问地址先后的一种标准或规则。它将指导蜘蛛程序下一步的执行方向。搜索策略一般有深度优先的搜索策略和广度优先的搜索策略两种。
广度优先的搜索是最简便的图搜索算法,在数据结构上通常会以先进先出的队列结构为主,管理和实现起来都相当的简单,一般被认为是盲目的搜索。它是一种以搜索更多的网页为优先的一种贪婪的搜索策略。它会先读取一个文档,保存下文档上的所有链接,然后读取所有这些链接文档,并依次进行下去。这样做的好处是避免了在极短的时间内连续访问这台服务器上的文档的可能性,因为一个文档上的链接通常会有几个跳到别的服务器上,这样做十分有利于避免影响别的服务器工作。这种方法也通常被应用于聚焦爬虫中。其基本思想是认为与初始url在一定链接距离内的网页具有主题相关性的概率很大。同时它还可以使尽可能多的服务器有文档被索引服务器收集。它的缺点是很难深入到文档里面,而且随着抓取网页的增多,大量的无关网页将被下载并过滤,算法的效率变得十分的低下。
深度优先的搜

[1] [2] 下一页

  • 上一个论文:

  • 下一个论文:


  • 看了《搜索引擎中的网络蜘蛛技术探析》的网友还看了:
    [法律论文]简析“人肉搜索”和隐私权保护的冲突
    [免费范文]基于禁忌搜索方法的集装箱配载问题研究
    [法律论文]论“人肉搜索”侵权责任
    [今日更新]聚类系数对小世界交通网络搜索路径的影响
    [今日更新]网络“人肉搜索”事件的传播学研究
    [今日更新]消费者搜索网络口碑的动机与行为分析
    [今日更新]手机网络搜索加盟,小心被忽悠
    [今日更新]搜索引擎的工作原理及检索技巧之我见
    [今日更新]基于Lucene.net的档案垂直搜索引擎的实现
    [今日更新]基于网站建设的搜索引擎优化策略构建

    计算机论文
    普通论文关于群件技术的e—Learning网络化
    普通论文网络安全漏洞的检测工具AccessDi
    普通论文CAD/CAM/CAE国内软件
    普通论文利用现代信息技术优化教学情景
    普通论文基于WEB的成教教务管理系统设计探
    普通论文浅析计算机病毒及预防
    普通论文网络信息传播对和谐金华建设的负
    普通论文基于VRML的虚拟实验系统设计
    普通论文网络语言的构成及其运用在社会中
    普通论文试论网络营销中的商业伦理
    普通论文新闻博客对比于传统新闻机构网站
    普通论文物联网技术及其应用
    论文
    普通论文[今日更新]农村鸡猪鱼立体养殖模式
    普通论文[免费范文]与服务结缘的人(银行优秀
    普通论文[今日更新]浅谈社会记忆理论视角下
    普通论文[今日更新]企业文化决定着企业的性
    普通论文[今日更新]哈尔滨市人口老龄化产生
    普通论文[今日更新]五四青年节发言稿范文
    普通论文[企业管理]基于规划的旅游发展战略
    普通论文[免费范文]对外开放工作总结
    范文大全
    普通范文[范文大全]2010年1月入党申请书
    普通范文[零八零一]公务员和谐创业从我做起
    普通范文[范文大全]乡工会主席先进事迹
    普通范文[范文大全]文体局局长建国60周年献
    普通范文[演讲稿]银行业务营销工作总结演
    普通范文[范文大全]工作总结如何写?
    普通范文[范文大全]农牧局党委认真学习贯彻
    普通范文[先进性教育]先进性教育要体现“三个
    演讲致词
    普通演讲[开业开幕]在矿山救护技术比武大会开
    普通演讲[庆典致辞]区委书记在*公司升旗仪式上
    普通演讲[会议发言稿]区委书记在创先争优活动动
    普通演讲[节日祝福语]2011年元旦700字高中生日记
    普通演讲[主持词]庆祝二十六个教师节暨表彰
    普通演讲[开业开幕]中学首届艺术节闭幕式上的
    工作范文
    普通公文方案[公文写作]企业文化探究:跨国公司真的
    普通公文方案[公文写作]中国农民组织建设研究述评
    普通总结[调研报告]秦淮驻区企业法制建设联席
    普通汇报体会[心得体会]教育系统效能建设心得体会
    普通公文方案[公文写作]惩治和预防腐败体系实施办
    普通公文方案[公文写作]对全面建设小康社会新阶段
    普通总结[工作总结]调研工作总结
    普通汇报体会[工作体会]XX企业信访办干部工作体会
    普通汇报体会[思想汇报]先进性教育自查(学校)
    普通汇报体会[先进事迹材料]文物普查榜样标兵先进事迹
    普通公文方案[公文写作]转正申请书
    普通汇报体会[心得体会]有关师德建设的学习心得体