| 网站首页 | 范文 | 演讲致词 | 汇报体会 | 总结报告 | 公文方案 | 领导讲话 | 党建工会 | 论文 | 文档 | 书信 | 
您现在的位置: 范文大全网 >> 论文 >> 计算机论文 >> 正文 用户登录 新用户注册
基于分类技术的Blog用户兴趣挖掘           
基于分类技术的Blog用户兴趣挖掘

摘 要:文章通过分析blog用户兴趣挖掘的重要性,提出了一种基于文本分类技术的自动挖掘blog用户兴趣的方法,帮助用户自动推荐相似兴趣的博客以及为用户提供个性化的搜索与浏览博客内容的服务。
关键词:blog;内容挖掘;blog搜索;中心向量法;knn算法

1 blog技术介绍
blog是web log的简称,称为“bbs、icq之后出现的第四种网络交流方式[1]。
中国互联网络信息中心(cnnic)于2009年1月发布的《中国互联网络发展状况统计报告》中指出:2008年博客用户规模持续快速发展,截至2008年12月底,在中国2.98亿网民中,拥有博客的网民比例达到54.3%,用户规模为1.62亿人。在用户规模增长的同时,中国博客的活跃度有所提高,半年内更新过博客的比重较2007年底提高了11.7%。博客数量的增长带来了用户聚集的规模效应。博客频道在各类型网站中成为标准配置,其中sns元素的加入对博客用户的增长起到了推动作用。博客的影响力进一步加强[2]。
由此可见,blog作为web2.0的重要应用,以其个性化的信息发布平台、多元化的内容载体等特点吸引着越来越多的网络用户,撰写和浏览blog已经成为网络文化的流行热点,推动了blog搜索服务的发展。
2 blog用户兴趣挖掘的研究意义
blog相关研究可划分为blog定义与识别、内容挖掘、社区发现、重要性分析、blog搜索和作弊blog识别这6个主要方面[3],而blog搜索是当前blog研究的热点之一。LOCalHOSt但是,目前的blog搜索服务大都是基于对用户输入关键词的匹配。这种搜索方式仅仅是传统web搜索的延伸,搜索范围也受到用户所指定的关键词的限制,并没有突出blog搜索的特殊性,也没有有效地利用博客内容的个性化、多元化等特征。
而事实上,博客中个性化的内容为我们提供了丰富的有价值的可以用来挖掘用户个性化特征的数据,不仅可以帮助我们理解博客用户的兴趣、意图,对其进行个性化的服务,还可以为具有不同信息需求的用户提供个性化的搜索与浏览博客空间中的内容的服务。因此,研究blog用户的兴趣挖掘技术对于blog搜索服务的发展是十分重要的。
3 构建blog用户兴趣挖掘方法
该方法将兴趣挖掘的问题转化为对博客文章的文本分类问题,即利用文本分类技术来实现对主题信息的抽取,将一个博客内的文章分到事先定义好的兴趣类别中,如“体育健身”、“音乐”或“影视”等,然后综合所有文章的分类结果确定该博客作者的兴趣集合。
3.1 定义兴趣类别
由于没有统一的兴趣分类方式,所以可通过自定义兴趣类别来构建兴趣类别体系,但要求体系中尽可能包含生活的各种兴趣,且要具有层次化的结构,见图1描述了层次结构中一个第一层的类别节点和其子类别的形式:

3.2 分类博客文章
用分类算法计算待分类的博客文章与各兴趣类别的关联度,关联度较高的类将被判定其归属于哪一兴趣类别。目前已有多种文本分类算法:中心向量法、k邻近算法、支持向量机、简单贝叶斯等。
中心向量法是根据算术平均为每类文本生成一个代表该类的中心向量,计算待分类文本与每类中心向量间的欧式距离,以距离最近的类作为待分类文本的类别。该方法分类速度快,但是,以向量空间距离作为分类标准将形成类球状类别分布,对于与多个类距离相近的文本,该算法的分类准确度将急剧下降[4]。
knn算法,即k邻近算法,被普遍认为是分类准确度很高的算法。knn算法的思想是:给一篇待识别的文章,系统在训练集中找到最近的k个近邻,看这k个近邻中多数属于哪一类,就把待识别的文章归为哪一类。k近邻分类器在己分类文章中检索与待识别的文章最相似的文章,从而获得被测文章的类别[5]。knn算法虽然具有很高的分类准确度,但是它没有训练过程,分类阶段要对所有训练样本进行相似度匹配,计算时间较长。
通过分析,笔者认为可以采用速度较快的中心向量法和准确性很高的knn算法相结合的方式完成博客文章的分类。系统先采用中心向量法进行分类,对于超过预定义边界范围的待分类向量再采用knn算法进行补充分类,以保证其分类准确性。因为在大多数情况下,中心向量法即可完成分类,所以该方式显著减少了分类算法的平均计算时间。
3.3 构建兴趣集合
当一个博客的所有文章被分类后,文章所属的兴趣类别被认为是博客作者的兴趣。然后,对兴趣进行整理和排序:根据每个兴趣出现的次数对兴趣进行排序,以兴趣出现次数的多少反应博客作者对兴趣感兴趣的程度。不同层次的兴趣单独计算。
用户兴趣的收集和挖掘可能会涉及到用户的隐私和安全问题,因此,在使用用户兴趣数据前要征得用户的同意,同时让用户积极参与,以获得更好的用户个性化服务。
4 blog用户兴趣挖掘的应用
4.1 自动推荐相似兴趣的博客
对于给定的博客,利用推荐系统可以挖掘出博客用户的兴趣,然后在索引的数据中选择与这些兴趣最匹配的博客。这样,不仅可以帮助用户迅速地了解博客的整体内容,同时兴趣相似的博客的推荐可以让用户找到更多相关的信息,也有助于社会化网络的构建。
4.2 提供个性化的搜索与浏览博客空间中的内容的服务
可以使用个性化搜索引擎索引博客或博客文章,以及博客文章的兴趣类别,博客用户的兴趣和博客关键词,方便用户在博客空间中快速地定位和浏览感兴趣的博客或博客文章。
5 结束语
综上所述,由于blog提供了更为丰富、极具个性化的信

[1] [2] 下一页

  • 上一个论文:

  • 下一个论文:


  • 看了《基于分类技术的Blog用户兴趣挖掘》的网友还看了:
    [电子机械]浅析基于可靠性工程的电子信息装备质量管理研究
    [法律论文]试析保险合同解除的分类及其相互关系
    [法律论文]试析我国群体性事件的分类及特征
    [免费范文]基于“服务为王”理念的微博湿营销模式构建
    [免费范文]基于虚拟现实技术的多维信息空间探析
    [免费范文]基于SEO技术提高网站访问量的策略研究
    [免费范文]基于ASP.NET的企业进销存管理信息系统的设计与实
    [免费范文]基于禁忌搜索方法的集装箱配载问题研究
    [免费范文]基于条码技术的库存管理系统设计分析
    [免费范文]基于RRAS与虚拟专用网技术在Windows中的实现

    计算机论文
    普通论文关于校企合作的计算机应用专业人
    普通论文浅谈EDA技术在电工电子教学中的应
    普通论文对计算机应用基础课程教学的探讨
    普通论文浅论云计算环境下数字图书馆信息
    普通论文论计算机系统漏洞及对策
    普通论文网络交际话语浅析
    普通论文软交换的网络结构及其安全方案探
    普通论文校园无线网络架设研究
    普通论文基于xDSL宽带网络测试系统的TL1通
    普通论文浅谈建设智能化动力环境集中监控
    普通论文探析高校校区财务网络管理及安全
    普通论文关于从教育技术发展角度看计算机
    论文
    普通论文[免费范文]保持*党员先进性教育心得
    普通论文[免费范文]先进性教育整改提高阶段
    普通论文[今日更新]实施文化兴市战略加快改
    普通论文[免费范文]正确理解构建和谐社会的
    普通论文[免费范文]参观八一起义纪念馆的思
    普通论文[免费范文]珍稀水生动物自然保护区
    普通论文[今日更新]论我国广告监管体制革新
    普通论文[今日更新]改进物流绩效的战略框架
    范文大全
    普通范文[申请书]贷款申请书范文
    普通范文[范文大全]收费站党支部先进事迹材
    普通范文[范文大全]电气化应届毕业生2010年
    普通范文[范文大全]公厕管理员个人先进事迹
    普通范文[范文大全]加强我县农村文化事业发
    普通范文[朗诵节目]纪检委优秀小品征文:楼
    普通范文[范文大全]2009年国税个人年终总结
    普通范文[范文大全]某人民医院2011年11月份
    演讲致词
    普通演讲[竞聘演讲稿]社会保障科副科长竟聘演讲
    普通演讲[竞聘演讲稿]信访系统竞选演讲稿
    普通演讲[主持词]环卫环保局领导班子在党风
    普通演讲[爱国演讲]在全局青工法制教育会上的
    普通演讲[婚丧致辞]婚礼领导贺词
    普通演讲[教师演讲稿范文]班主任座谈会发言稿
    工作范文
    普通总结[工作计划]推进学习型党组织建设学习
    普通公文方案[公文写作]努力做一名合格的*党员
    普通公文方案[常用公文]门店租赁协议书
    普通党建工会[记要]提高认识 立足本职 保持党
    普通总结[个人总结]大一班长的期末总结
    普通党建工会[政府政务]人大系统办公室主任会领导
    普通总结[工作总结]参加“千名干部大下乡、万
    普通汇报体会[征文演讲]银行征文演讲稿-行兴我荣
    普通总结[调研报告]生猪协会工作打破商家暴利
    普通公文方案[公文写作]一家大型民营企业节能经:
    普通总结[调研报告]退耕还林(草)的现状、问
    普通总结[工作汇报]提升运政监管水平 打造信用