| 网站首页 | 范文 | 演讲致词 | 汇报体会 | 总结报告 | 公文方案 | 领导讲话 | 党建工会 | 论文 | 文档 | 
您现在的位置: 范文大全网 >> 论文 >> 今日更新 >> 正文 用户登录 新用户注册
搜索引擎的原理及spider程序浅析           
搜索引擎的原理及spider程序浅析
ider会首先爬行其主页,如果主页有用户匹配的信息,即显示出来。如没有则搜索该网站的B、C、D、E、F链接,然后再爬行B、C、D、E、F网页如果有,则抽取其中一个显示,如果没有则在爬行该网页的下一层链接,即图2中的H、G,如果有则显示出该链接。依次类推。这样的爬行无疑省去了大量的时间和存储空间。例如:搜索“论文”如果主页有该词则主动提取出来,如果主页无出现,则深入该网站的下一层,依次类推。
  深度优先的抓取顺序:如图2右边显示,如果A是一个网站的主页的话(index.htm),如果输入一个词后,爬行程序开始检索A网站,并且爬行其所有的链接直到链接的末端,如A网站的F层到F层的下一层G层,则是如此进行。E也是如此,有E层进入其下一层网页即H,再有H进入下一层即I,依次爬行下去,直到找到该网站的所有有匹配的页面,如此爬行,工作量无疑太大,但是却提高了检索率。
  Spider程序是搜索引擎的核心, Spider数据的结果直接影响到搜索引擎的评价指标,第一个Spider程序由MIT的Matthew K Gray操刀,该程序的目的是为了统计互联网中主机的数目。
  目前网站上开源的spider程序很多,例如JAVA语言、PHP语言、C#语言、C中国论文联盟www.LWlm.cOm++语言等,这里就不一一介绍各个语言了及具体算法了。
  该文就搜索引擎原理及其Spider做了简单的介绍,不合理之处请大家多多批评。
 

上一页  [1] [2] [3] [4] 

  • 上一个论文:

  • 下一个论文:
  • 推荐文章
    聚类搜索引擎研究进展浅析
    小议网络搜索引擎广告
    关于垂直搜索引擎的研究与思
    搜索引擎的混沌局面
    浅谈搜索引擎营销与中小企业
    “人肉搜索”网络传播规范的
    Win7“搜索”也超频
    浅探网络环境下搜索引擎的使
    地震灾害搜索救援区域优先级
    浅析搜索引擎信息排序与供应