聚类搜索引擎研究进展浅析 |
|
|
大学和清华大学就开始致力于网页的聚类技术研究。此外,北京科技大学的麻雪云提出了一种基于关键名词短语聚类的中文搜索结果聚类方法[9],利用百度、谷歌、雅虎三大搜索引擎来获取互联网信息,对搜索结果进行聚类分析。国防科技大学的肖坤对STC算法和Lingo算法进行了比较,并对STC算法进行了改进,设计实现了一个面向校园网聚类搜索引擎系统[10]。
中国论文联盟*编辑。 2 聚类搜索引擎的功能分析 2.1 聚类对象分析 现有聚类搜索引擎的聚类对象主要包括三类数据:商业数据、评价数据、社交数据。 商品数据主要包括对服装、电器、化妆品等数据信息进行分类整理,例如用户在淘宝网输入“牙膏”关键字,在网页上立马显示出“功能”、“品牌”、“产地”等分类信息,并按照销量、价格、信用进行了排序,对商品的聚类分析清晰明确。评价数据主要包括论坛对相关主题的讨论信息,博客的交流信息,商业网站对商品的满意度评价信息等。大连海事大学的鲁明羽、姚晓娜等人提出一种基于模糊聚类的网络论坛热点话题挖掘算法,通过分析帖子和用户间的影响力传递,来判断是否为焦点人物和热门话题[11]。社交数据主要包括社交网络注册用户个人资料信息、用户关注度信息、用户之间交互信息等社交数据资源。社交数据隐含了大量可以用于聚类的关联信息,对实现智能和个性化聚类搜索具有重要意义。此外,聚类对象按数据类型还可以划分为文本数据、多媒体数据等。 2.2 聚类功能分析 聚类搜索引擎的聚类功能主要有智能聚类、去重、多媒体、覆盖性等能力。 智能聚类:聚类搜索引擎大多具有这项功能。目前做得最好的如Vivisimo系统,它最大的特色是会对搜索结果自动分类,采用专门开发的启发式算法来集合或聚类原文文献。 去重:去重可以取掉大部分的广告网页并节省掉用户的选择时间,是十分实用的一项聚类功能。国内的比比猫的去重功能非常出色,在用户获得多个搜索引擎的搜索结果后,比比猫可以自动为用户获取最有搜索结果并取掉重复的信息。 多媒体:除了文本聚类,聚类搜索引擎还关注视频、音频等多媒体信息进行聚类的功 上一页 [1] [2] [3] [4] [5] [6] [7] [8] 下一页 |
|
|
|
上一个论文: 关于高校体育教育专业运动心理学研究现状 下一个论文: 国学热与国学的定位和前瞻 |
|