数据挖掘技术分析及其应用评价

  • 来源:中文信息
  • 关键字:概念,应用,优化
  • 发布时间:2014-12-23 09:21

  摘 要:信息技术和互联网的普及使得信息系统进入了大数据的时代,因此,数据挖掘技术应运而生。本文将对数据挖掘技术进行分析。

  关键词:数据挖掘 概念 应用 优化

  一、前言

  数据挖掘是跨学科的新兴课题,数据挖掘的应用能够提高人们对数据的收集、统计与识别,是新兴的热点技术。

  二、数据挖掘的概念

  数据挖掘,也叫知识发现,伴随着20世纪80年代关系型数据库及其结构化查询语言的成熟,以及人工智能、机器学习方法的持续进步,于90年代中期逐渐发展成为一个独立的研究领域。所谓数据挖掘,被定义为:“从数据中抽取出隐含的、未知的和潜在有用的信息的非平凡过程”。它的常见任务包括:聚类、分类、关联性分析、预测、模式识别、描述、异常分析等;常用的经典手段包括:关联规则、神经网络、决策树、支持向量机,以及最新出现的深度学习、极限学习等;面向的数据类型包括:关系型数据、文本数据、图像数据、WWW数据、图、生物学信息、流数据、时间序列、多媒体等。再加上吸收高性能计算(比如说云计算)、可视化(比如挖掘结果可视化)等相关领域的最新进展,使得数据挖掘成为一个面向不同应用的庞大的方法体系。

  数据挖掘的目的是从数据库大量的、随机的、模糊的、噪声的数据中找出有价值的、潜在的信息与知识。虽然数据挖掘是在不明确假设的条件下进行信息挖掘,可是它可以发现数据库里隐藏的预测趋势和关联网,并且具有聚类、时许模式及检测偏差的功能。由数据挖掘获得的信息可能与直觉相违背,不过得出的信息愈是意想不到,愈有价值,这样的信息具有潜在高效用的特征。

  三、数据挖掘的应用

  数据挖掘技术能在大量的数据信息中方便快捷的找到有用的信息,并将这些信息充分利用。数据挖掘技术的应用可以增强企业的竞争力,在缩短销售周期的基础上降低了产品的生产成本,在信息资源开发方面数据挖掘技术也有其明显的优势,数据挖掘技术应用的行业越来越广泛如保险、市场营销、制造业、教育、医疗和电信业以及科学研究。

  1.数据挖掘技术在制造业的应用

  数据挖掘技术的在制造业中的应用,主要是在生产的过程中,如果零部件出现故障,可以通过数据挖掘技术对故障进行详细的分析,发现故障产生的根本原因,并及时纠正,及时发现分布不正常的数据,只有这样才能帮助工程师及时发现问题并采取正确的措施改进。

  2.数据挖掘技术在市场营销的应用

  数据挖掘技术在市场营销上面应用也很频繁和广泛,在这个领域中数据挖掘技术可以分为货篮分析数据库和市场营销数据库两种类型,货篮分析数据库的作用就是分析营销的数据,市场营销数据库就是利用自身的技术方法向顾客推销产品,合理运用数据挖掘技术可以提高商家的信誉并及时发现潜在的客户。

  3.数据挖掘技术在科学研究的应用

  在科学研究的技术领域,数据挖掘技术可以观测和分析大量的实验数据,由于现在的科研数据很多,而且较为繁琐,一些传统的数据分析方法不能满足科研的需要,所以对一些强大的数据分析的智能工具的需求力很强,这也在一定程度上促进了数据挖掘技术的发展。在生物的科研领域,实验室人员对DNA的数据进行分析,通常利用相似的检索技术和序列模式,采用关联分析识别方法对同一时间出现的基因序列进行识别分析,这样能够及时发现每个阶段产生疾病的根本原因。

  四、数据挖掘的优化方法

  1.人工神经网络

  人工神经网络是数据挖掘中最常见的技术之一,是由生物学家与心理学家共同提出的。人工神经网络是一种模拟人脑神经元结构的非线性系统,它由许多节点相互连结而成,主要有三种模型,分别是前馈神经网络、反馈神经网络及自组织神经网络。该方法的目的是找出开发与测试神经的计算模拟,而且它具有自学习能力,能够自主从海量数据中学习到不曾被发现的信息。在数据挖掘中利用人工神经网络可以在一定程度上克服模糊综合评价和层次分析等方法存在的不足。

  2.决策树

  决策树是借助信息论中的信息来发现数据库里具有最大信息量的属性字段,构建一个结点,然后按照这个属性字段的取值构建树的分支,再在各分支子集中再次构建下层结点与分支的过程。决策树的显著优势就是较直观、极易理解和实现,它和神经网络的不同是决策树能够解释结果得出的决策过程,让人容易理解。它的缺点是当需要处理的数据很复杂时,其分支数量很多,易于出现错误,很难对其进行管理,而且当数据缺值时,还需要对数据进行很多预处理。

  3.遗传算法

  遗传算法以生物进化过程为基础,是计算机与生物学相结合的产物。按照遗传算法得到最合适的模型,然后进一步优化数据模型。该方法适用于数据聚类,利用空间类比与时间类比,能够把海量复杂的数据转化为系统、有条理的数据,然后从中发现数据间的相互联系,获得有意义的模式。因为遗传算法对信息量的要求不高,具有灵活性与高效性的特征,所以在数据挖掘中,还用于评估其它算法的适合度。进行模型构建时,把神经网络和遗传算法结合起来,能够使模型更加容易被理解。遗传算法在模式识别、搜索调度、及组合优化等方面得到了广泛应用。

  4.关联分析

  关联分析指的是从海量数据中找出有价值的关联性信息,也就是运用关联规则对数据进行挖掘。人们对关联分析已进行了深入的研究,提出了很多关联规则算法,例如STEM、DHP等。进行关联分析是为了发现隐含在数据中的关系网,为决策者作出某些决策提供一定的依据,同时还要求出最小置信度与最小支持度,它们的作用分别是过滤掉可能性不大的规则和表示此规则发生的概率。

  5.聚类分析

  聚类分析的输入集是一组没有标定的记录,输入记录是原始数据,未做任何处理。其目的是按照特定的规则,对记录集合进行科学合理的划分,同时利用显式或者隐式的方法对类别进行描述。

  五、结束语

  综上所述,数据挖掘技术的应用为我们的生活提供了极大的便利,随着此项技术的研究深入,其应用范围也将更广,发挥的作用也将更大。

  参考文献

  [1]吴防,宋培义.数据挖掘的应用[J].信息技术与管理,2012,52(03):4

  [2]高敏.数据挖掘应用现状与产品分析[J].微计算机应用,2013,45(15):32

  梁鸿超

关注读览天下微信, 100万篇深度好文, 等你来看……