|
谢成山,牛纪海,徐济仁
(1.北京航空航天大学,北京 100083;
2电子工程学院,安徽 合肥230037)
摘 要:简要介绍了DM(数据挖掘)及其工作过程,并指出了数据挖掘过程中应注意的问题,最后给出了一个具体的数据挖掘的例子。
关键词:数据挖掘;数据处理;知识;模式
一、概述
DM(数据挖掘)是一种从大型的数据库或DW(数据仓库)中提出隐藏的预测性信息的新技术,它能挖掘出数据问潜在的模式,找出最有价值的信息。可实现的功能有自动预测知识和行为、自动发现以前未知的模式。
DM是KDD(Knowledge Discovery Databese)的核心部分,是采用机器学习、运筹学、统计方法等进行知识学习的阶段。数据挖掘算法的好坏将直接影响到所发现的知识。目前一般不加区分KDD和DM,在科研领域称KDD,在工程领域称DM。
W.J.Fraw1ey等给出DM的定义:DM就是从大型数据库的数据中,提取人们感兴趣的知识,即正确的、非平凡的、未知的、有潜在应用价值的并最终可为用户理解的模式。DM提取的知识可以表示为概念(Concepts)、规律(Rule)、模式(Patten)、约束(Constraints)、可视化(Visualization),对DM技术一般从3方面进行分类:
(1)数据库种类有关系数据库、事务数据库、面向对象数据库、演绎数据库、多媒体数据库以及现在正在发展的数据仓库,还包括文本文件;
(2)发现的知识种类相关规则、分类规则、分簇规则、序列模式等。基子知识的不同抽象层次,又可将知识分为一般化知识、原始层知识和多层次知识;
(3)所用技术一般化采掘、基于模式的采掘、基于统计学或数学原理的采掘。多种混合技术的采掘等。常用方法可分为几种类型:分类、回归、聚类、概括、依赖模式、变化和偏离检测。这几类方法中常用技术有:
l)基于决策树分类的ID3和C4.5方法;
2)基于贝叶斯概率的非监督分类Autoclass方法;
3)用于概括的的AQ15和CN2方法;
4)解决不精确、不确定知识的粗糙休法(rough-set);
5)大量人工神经网络法,如BP反向传播算法;
6)用于产生关联规则的Apriori方法等。
总之,它是一门交叉学科,涉及机器学习、模式识别、统计学、高性能计算、专家系统等多个领域。
二、数据挖掘应考虑的问题
(1)作用的数据种类
它所涉及的数据源对象包括各种数据库、数据仓库、文本文件等。一个强有力的DM系统应能有效地处理这些复杂的数据类型。
(2)DM方法的有效性和可扩展性
如算法的运行时间是可预知的或可接受的。
(3)DM结果的有用性和确定性
挖掘出来的知识应能准确地反映数据库内容,并且对用户来说是有用的。不确定的程度应能反映在近似规则和定量规则上,系统应能处理噪音数据。
(4)知识的表达
用高层次语言和图形建立友好界面来表达发现的知识。
(5)多层次的交互采掘知识
既然事先不知道从数据库里可以发现什么样的知识,交互发现成了一种有效手段。它允许用户交互精化DM要求,动态改变数据焦点,从不同角度和层次审视采掘结果。
(6)并行和分布的数据采掘算法
数据库的巨大规模,数据的广泛分布,促使采用并行分布技术。
(7)私有保护和数据安全
DM可导致对私有权的入侵,研究应采取哪些措施防止暴露敏感信息。
三、数据挖掘过程
整个过程可分为3个阶段:数据准备、采掘操作、结果表达和解释。并且在整个采掘过程(见图1)中,离不开用户的参与,整个过程是个反复精练的过程。
1.数据准备
了解相关领域情况,弄清用户需求,这个阶段又可进一步分成3个子步骤:数据集成、数据选择、数据预处理。数据集成将多文件或多数据库运行环境中的数据进行合并处理,解决语义模糊性,处理数据中的遗漏和清洗脏数据等。数据选择的目的是辨别出需要分析的数据集合,缩小处理范围,提高数据采掘的质量。预处理是为了检查数据的完整性和一致性,对噪音数据进行统计处理,丢失数据用统计方法补充。
|