聚类搜索引擎研究进展浅析 |
|
|
t2系统 Carrot2是基于Java开发的开源聚类搜索系统[6],主要用于对搜索结果进行聚类。与Vivisimo相似,首先也是用户输入关键字在Bing、baidu、google等知名搜索引擎进行搜索,然后对返回的搜索结果进行聚类,并通过树形的分类图进行显示出来。Carrot2的聚类对象主要是各大搜索引擎返回的搜索结果,其通过文档聚类平台workbench,对搜索的数据进行聚类分析,并通过文档聚类服务器DCS,将聚类结果作为REST服务呈现。最后,Carrot2以WebApp方式将聚类结果作为网络应用呈现给终端用户。Carrot2采用的聚类算法主要是Lingo(基于奇异值分解的索引结果聚类)算法和STC(Suffix Tree Clustering)后缀树聚类算法。 目前Carrot2支持的聚类算法较多,代码开源可以进行版本的更新和改进。该系统应用广泛、可移植性较好。但是Carrot2中文分词效果不好,可视化效果不佳。 4 聚类搜索引擎发展趋势 文献[1]通过对大量搜索引擎的评测,发现独立性差、专用算法欠缺、搜索速度慢等一系列问题,但该文主要对搜索结果的聚类方法进行了评测,对聚类搜索引擎的趋势的分析也主要侧重于聚类方法。本文认为聚类搜索引擎未来将向数据海量化,链接社交化,聚类综合化三个方向发展。 4.1 数据海量化 现阶段的聚类搜索由于数据集较为单一,聚类算法过于老旧,造成呈现给用户的检索结果数量少,内容贫乏,这样必然影响聚类搜索的发展壮大。所以未来聚类搜索必然要向数据海量化发展。近期,美国互联网公司“耶宝”日前推出一种更具人性化的搜索引擎,有别于当今主流搜索引擎网站提供的单维搜索,并非一般的罗列搜索结果,而是通过对搜索的词条和海量的网页的内容进行分析,自动对搜索结果进行聚类和分类,为用户提供丰富而直观的结果。 4.2 链接社交化 在搜索引擎中引入社交元素,由于目前Web社交网络形成了一个巨大的Deep Web(针对网络爬虫而言),而这个数据量对搜索引擎来说是非常大而且有用的,搜索引擎作为用户获取信息的主要渠道,势必需要这些用户活跃度和新鲜度很高的数据资源。由于社交数据中蕴含着大量数据之间的潜在链接,因此基于社交数据进行聚类搜索可望上一页 [1] [2] [3] [4] [5] [6] [7] [8] 下一页 |
|
|
|
上一个论文: 关于高校体育教育专业运动心理学研究现状 下一个论文: 国学热与国学的定位和前瞻 |
|