| 网站首页 | 范文 | 演讲致词 | 汇报体会 | 总结报告 | 公文方案 | 领导讲话 | 党建工会 | 论文 | 文档 | 
您现在的位置: 范文大全网 >> 论文 >> 工科论文 >> 工程建筑 >> 正文 用户登录 新用户注册
数据挖掘技术及其应用分析           
数据挖掘技术及其应用分析
摘要:数据挖掘是一门新兴的数据处理技术,是当前一个热门的研究领域。数据挖掘中应用的技术包括经典的统计、聚类,也包括最新发展起来的决策树、神经网络和关联规则等一些较新的方法。简要介绍了数据挖掘的概念和过程·论述了数据挖掘的主要方法,最后对数据挖掘的应用作了简要介绍。
  关键词:数据挖掘;过程;应用
  
  1 数据挖掘概念
  
  数据挖掘(Data Mining,DM),是随着数据库和人工智能发展起来的新兴的信息处理技术。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,其主要特点是对数据库中的大量数据进行抽取、转换、分析和其他模型化处理,并从中提取辅助决策的关键性数据。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘是一门涉及面很广的交叉性新兴学科,涉及到数据库、人工智能、数理统计、可视化、并行计算等领域。
  
  2 数据挖掘技术
  
  2.1 关联规则方法
  关联规则是一种简单,实用的分析规则,描述了一个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,所挖掘出的关联规则量往往非常巨大,但是。并不是所有通过关联得到的属性之间的关系都有实际应用价值,对这些关联规则进行有效的评价。筛选出用户真正感兴趣的。有意义的关联规则尤为重要。
  
  2.2 分类和聚类方法
  分类就是假定数据库中的每个对象属于一个预先给定的类。从而将数据库中的数据分配到给定的类中。而聚类分析是根据所选样本间关联的标准将其划分成几个组,同组内的样本具有较高的相似度,不同组的则相异。分类和聚类的区别在于分类事先知道类别数和各类的典型特征,而聚类则事先不知道。聚类方法适合于探讨样本间的内部关系,从而对样本结构做出合理的评价。
  
  2.3 数据统计方法
  使用这些方法一般首先建立一个数据模型或统计模型,然后根据这种模型提取有关的知识。传统的统计学为数据挖掘提供了许多判别和回归分析方法。贝叶斯推理、回归分析、方差分析等技术是许多挖掘应用中有力的工具之一。
  
  2.4 神经网络方法
  神经元网络,具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。这些优点使得神经元网络非常适合解决数据挖掘的问题。因此近年来越来越受到人们的关注。典型的神经网络模型主要分3大类;用于分类、预测和模式识别的前馈式神经网络模型;用于联想记忆和优化计算的反馈式神经网络模型;用于聚类的自组织映射方法。
  
  2.5 决策树方法
  决策树学习是一种通过逼近离散值日标函数的方法,把实例从根结点排列到某个叶子结点来分类实例。叶子结点即为实例所属的分类,利用信息论中的互信息(信息增益)寻找数据库中具有最大信息量的字段。建立决策树的一个结点,再根据字段的不同取值建立树的分支;在每个分枝子集中,重复建立树的下层结点和分支的过程,即可建立决策树。
  
  2.6 粗糙集
  粗糙集(Rough Set)能够在缺少关于数据先验知识的情况下,只以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理问题。粗糙集用于从数据库中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据备个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。粗糙集理论可以应用于数据挖掘中的分类、发现不准确数据或噪声数据内在的结构联系。

  3 数据挖掘过程
  
  按工作流程包括以下几个步骤:
  (1)数据准备:一般存储在数据库系统中的是长期积累的大量的数据,往往不适合利用这些进行处理,需要做数据准备工作,一般包括数据的选择、净化、推测、转换、数据缩减,通过这些工作生成数据仓库。数据准备是否做好将影响到数据挖掘的效率和准确度以及最终模式的有效性。
  (2)数据挖掘:在前面步骤所获得的数据集上进行数据挖掘,可以单独利用也可以综合利用各种数据挖掘方法对数据进行分析,根据数据挖掘的目的。选定数据挖掘算法,选择某个特定数据挖掘算法(如汇总、分类、回归、聚类等)用于搜索数据中的模式。
  (3)结果的分析和同化;上面得到的模式模型,有可能是没有实际意义或没有使用价值的。因此

[1] [2] 下一页

  • 上一个论文:

  • 下一个论文:
  • 推荐文章
    数据挖掘技术在电子商务推荐
    浅谈报告书数据表编写及排版
    地县电力调度数据网的建设和
    ERP系统中数据仓库的应用
    infobright: 基于mysql的数据
    试析中国统计数据质量
    《整合动物学》被国际著名数
    浅析如何提高我国统计数据质
    浅谈双机热备在广播电视台数
    基于SDO的异构服务数据模型研