基于Lucene.net的档案垂直搜索引擎的实现 |
|
|
基于Lucene.net的档案垂直搜索引擎的实现
计算机技术和网络技术的快速发展推动了档案信息化的发展。但是,我国档案信息化建设还处于初步发展阶段,存在许多问题,一些档案馆只提供档案目录的简单检索而不能提供智能化或专门用于档案领域的搜索服务,各类档案资源成为信息孤岛。如何充分利用现有档案资源,提高档案利用率成为我们急需解决的问题。搜索引擎作为互联网发展的核心技术,将互联网上各种不同格式的网络资源搜集并整理,挖掘其中大量隐含资源,提供海量数据服务于用户,在各行各业发挥着重要的作用①。垂直搜索引擎是在普通搜索引擎的基础上发展而来的,是指专门针对某一特定领域的搜索引擎。档案垂直搜索引擎就是将搜索引擎技术引入档案领域,构建面向档案领域的搜索引擎,该搜索引擎可以大量收集互联网上档案相关资源,进行优化整合,提供给用户具有价值的档案信息,最大限度的满足档案用户的需求。 一、垂直搜索引擎 搜索引擎一般分为通用搜索引擎和垂直搜索引擎,百度、谷歌、搜狗等均属于通用搜索引擎,通用搜索引擎是针对互联网上所有网站的信息进行搜集和检索,其范围覆盖了各个领域和各个行业。垂直搜索引擎是一种特定面向主题的专业搜索引擎,是针对某一特定领域、某一特定人群或某一特定需求,面向某一特定的用户群体,提供更有价值、更准确的信息服务,是通用搜索引擎的细分和延伸②。与通用搜索引擎相比,垂直搜索引擎具有如下特点: 第一,垂直搜索引擎面向特定的领域,其信息量相对较小,但对其特定领域资源的覆盖率较高,信息质量较高,保证了搜索引擎对本领域信息搜集的全面性和实时性。Www.YBAsk.Com 第二,垂直搜索引擎只涉及特定的领域,用语中出现一词多义的可能性比通用搜索引擎小很多,通过利用特定领域的专业词库,可以保证信息检索的准确性。 第三,网络爬虫在采集特定领域的信息后,需要对该信息进行结构化提取,并进行深度处理,这样就保证了网页信息抽取的准确性,提高用户的查询效率。 二、Lucene.net技术介绍 Lucene.net是一个由c#开发的开源全文索引库,是从apache的lucene项目移植到.Net平台上的③。Lucene.net的开源代码分为核心包和用户接口包,核心包用来实现搜索功能,用户接口包来用实现 [1] [2] [3] [4] [5] 下一页 |
|
|
|
上一个论文: 基于网站建设的搜索引擎优化策略构建 下一个论文: 搜索引擎的工作原理及检索技巧之我见 |
|