机械行业资料网 - 分享快乐
网站首页行业新闻机械资料求购信息供应信息机械产品机械企业机械软件招商展会

 首页 ->  资料大全 ->  通信设备 -> 正文

 
Google

DM技术及其在数据处理中的应用

谢成山,牛纪海,徐济仁

(1.北京航空航天大学,北京 100083;

2电子工程学院,安徽 合肥230037)


  摘 要:简要介绍了DM(数据挖掘)及其工作过程,并指出了数据挖掘过程中应注意的问题,最后给出了一个具体的数据挖掘的例子。


  关键词:数据挖掘;数据处理;知识;模式

 

一、概述


  DM(数据挖掘)是一种从大型的数据库或DW(数据仓库)中提出隐藏的预测性信息的新技术,它能挖掘出数据问潜在的模式,找出最有价值的信息。可实现的功能有自动预测知识和行为、自动发现以前未知的模式。


  DM是KDD(Knowledge Discovery Databese)的核心部分,是采用机器学习、运筹学、统计方法等进行知识学习的阶段。数据挖掘算法的好坏将直接影响到所发现的知识。目前一般不加区分KDD和DM,在科研领域称KDD,在工程领域称DM。


  W.J.Fraw1ey等给出DM的定义:DM就是从大型数据库的数据中,提取人们感兴趣的知识,即正确的、非平凡的、未知的、有潜在应用价值的并最终可为用户理解的模式。DM提取的知识可以表示为概念(Concepts)、规律(Rule)、模式(Patten)、约束(Constraints)、可视化(Visualization),对DM技术一般从3方面进行分类:


  (1)数据库种类有关系数据库、事务数据库、面向对象数据库、演绎数据库、多媒体数据库以及现在正在发展的数据仓库,还包括文本文件;


  (2)发现的知识种类相关规则、分类规则、分簇规则、序列模式等。基子知识的不同抽象层次,又可将知识分为一般化知识、原始层知识和多层次知识;


  (3)所用技术一般化采掘、基于模式的采掘、基于统计学或数学原理的采掘。多种混合技术的采掘等。常用方法可分为几种类型:分类、回归、聚类、概括、依赖模式、变化和偏离检测。这几类方法中常用技术有:


  l)基于决策树分类的ID3和C4.5方法;


  2)基于贝叶斯概率的非监督分类Autoclass方法;


  3)用于概括的的AQ15和CN2方法;


  4)解决不精确、不确定知识的粗糙休法(rough-set);


  5)大量人工神经网络法,如BP反向传播算法;


  6)用于产生关联规则的Apriori方法等。


  总之,它是一门交叉学科,涉及机器学习、模式识别、统计学、高性能计算、专家系统等多个领域。


二、数据挖掘应考虑的问题


  (1)作用的数据种类


  它所涉及的数据源对象包括各种数据库、数据仓库、文本文件等。一个强有力的DM系统应能有效地处理这些复杂的数据类型。


  (2)DM方法的有效性和可扩展性


  如算法的运行时间是可预知的或可接受的。


  (3)DM结果的有用性和确定性


  挖掘出来的知识应能准确地反映数据库内容,并且对用户来说是有用的。不确定的程度应能反映在近似规则和定量规则上,系统应能处理噪音数据。


  (4)知识的表达


  用高层次语言和图形建立友好界面来表达发现的知识。


  (5)多层次的交互采掘知识


  既然事先不知道从数据库里可以发现什么样的知识,交互发现成了一种有效手段。它允许用户交互精化DM要求,动态改变数据焦点,从不同角度和层次审视采掘结果。


  (6)并行和分布的数据采掘算法


  数据库的巨大规模,数据的广泛分布,促使采用并行分布技术。


  (7)私有保护和数据安全


  DM可导致对私有权的入侵,研究应采取哪些措施防止暴露敏感信息。


三、数据挖掘过程


  整个过程可分为3个阶段:数据准备、采掘操作、结果表达和解释。并且在整个采掘过程(见图1)中,离不开用户的参与,整个过程是个反复精练的过程。

 

1.数据准备


  了解相关领域情况,弄清用户需求,这个阶段又可进一步分成3个子步骤:数据集成、数据选择、数据预处理。数据集成将多文件或多数据库运行环境中的数据进行合并处理,解决语义模糊性,处理数据中的遗漏和清洗脏数据等。数据选择的目的是辨别出需要分析的数据集合,缩小处理范围,提高数据采掘的质量。预处理是为了检查数据的完整性和一致性,对噪音数据进行统计处理,丢失数据用统计方法补充。

本新闻共3页,当前在第1页  1  2  3  

 

• 德讯网络远程电源集中管理系统解决方案
• 艾默生网络能源通信机房一体化解决方案介绍
• 基于IP网络的TETRA数字集群系统构建方案
• PMC-Sierra推出增强型运营商级多服务家庭网关解
• AVCON视频会议系统政府机构解决方案
• 高科通信大客户光纤综合接入解决方案介绍
• 朗讯基于PSAX的城域接入网解决方案介绍
• 思科推出全新网络应用性能分析(NAPA)解决方案介
• 信令集中监测系统方案探讨及在互联互通中的实际
• 第三层交换技术及在VLAN子网规划中的应用方案

模具 | 风机 | 减速机 | 液压与气动 | 泵真空设备
食品/饮料/烟草机械 | 电子/电气机械 | 通信设备
机械/五金零件 | 金属加工机械 | 锅炉与原动机
缝纫/服装机械 | 包装机械 | 制冷/空调/换热设备
冶金机械设备 | 电厂设备 | 工程机械 | 仪器仪表
纺织印染机械 | 化工机械 | 印刷机械 | 机电设备
农林畜牧机械 | 气体压缩分离设备 | 塑料橡胶机械
其它机械资料
 网站地图 - 广告服务 - 联系我们 - 友情连接 - - 站长邮箱:555jx@163.com QQ:57075944 © 55jx.com 蜀ICP备05026423号