一、挖掘步骤
在实施数据挖掘之前,先制定采取什么样的步骤,每一步都做什么,达到什么样的目标是必要的,有了好的计划才能保证数据挖掘有条不紊地实施并取得成功。数据挖掘过程模型步骤主要包括定义问题、建立数据挖掘库、分析数据、准备数据、建立模型、评价模型和实施。
1、定义问题
了解数据和业务问题,对目标定义清楚,明确要干什么。只有对问题定义清楚了,在之后的建模或者实施才能更加准确快速。
2、建立数据挖掘库
需要进行数据收集、数据描述及选择、数据质量评估和清理、合并、构建元数据、加载数据挖掘库并维护。
3、分析数据
找到对预测输出影响最大的数据字段。如果数据中的字段非常多,就需要一个具有良好的操作界面和功能强大的工具软件来协助完成。
4、准备数据
选择变量、选择记录、创建新变量、转换变量。
5、建立模型
建立模型是一个反复的过程,需要测试多种模型对当下需要解决的问题最有用。先用一部分数据来创建模型,再用剩下的数据来对模型进行测试和验证。有时候需要独立的第三个数据集(验证集)来对模型进行测试,因为创建的模型可能受原数据集的某些特性所影响。并且需要对数据模型进行训练和测试。
6、评价模型
模型创建好后,需要评价所得到的结果和模型的价值。从测试集中得到的数据准确率只对建立模型的数据有意义,需要进一步了解错误的类型和由其所造成的影响。一个有效的数据模型并不一定是正确的模型。造成这一现象的原因主要是因为建立模型过程中的各种假设因素,所以,需要在现实世界对模型进行测试,先在小范围中测试,当结果符合预期后,再向大范围推广。
7、实施
将数据模型提供给分析人员做参考,或者作用于不同的数据集上。
二、分析方法
数据挖掘可分为指导的数据挖掘和无指导的数据挖掘。有指导的数据挖掘是利用可用的数据建立一个模型,这个模型是对一个特定的属性的描述。无指导的数据挖掘是在所有的属性中寻找某种关系。具体而言,分类、估值和预测属于有指导的数据挖掘;关联规则和聚类属于无指导的数据挖掘。
1、分类
从数据中选出已经分好类的训练集,在该训练集上运用数据挖掘技术,建立一个分类模型,再使用该模型对没有分类的数据进行分类。
2、估值
估值与分类类似,但估值的最终输出结果是一串连续的数值,估值的量并非预先确定,估值可以做为分类的准备工作。
3、预测
通过分类或估值来进行训练得出一个模型,如果对于检验样本而言,该模型具有较高的准确率,可将该样本用于对新样本的未知量进行预测。
4、关联规则
发现那些事件总是一起发生。
5、聚类
自动寻找并建立分组规则的方法,通过判断样本的相似性,把相似样本划分再一个组中。
三、常用算法
1、神经网络法
神经网络法是模拟生物神经系统的结构和功能,是一种通过训练来学习的非线性预测模型,它将每一个连接看作一个处理单元,试图模拟人脑神经元的功能,可完成分类、聚类、特征挖掘等多种数据挖掘任务。神经网络的学习方法主要表现在权值的修改上。其优点是具有抗干扰、非线性学习、联想记忆功能,对复杂情况能得到精确的预测结果;缺点是不适合处理高维变量、不能观察其中间的学习过程、输出结果难以解释、需较长的学习时间。神经网络法主要应用于数据挖掘的聚类技术中。
2、决策树法
决策树是根据对目标变量产生效用的不同而构建分类的规则,通过一系列的规则对数据进行分类的过程,其表现形式类似于树形结构的流程图。采用决策树法的优点是决策制定的过程是可见的、不需要长时间构造过程、描述简单、易于理解、分类速度快;缺点是很难基于多个变量组合发现规则。决策树法擅长处理非数值型的数据,而且特别适合大规模的数据处理。决策树提供了一种展示类似在什么条件下会得到什么值的这类规则的方法。比如,在贷款申请中,要对申请的风险大小做出判断。
3、遗传算法
遗传算法模拟了自然选择和遗传中发生的繁殖、交配和基因突变的现象,是一种采用遗传结合、遗传交叉变异及自然选择等操作来生成实现规则的、基于进化理论的机器学习方法。它的基本观点是适者生存,具有隐含并行性、易于和其他模型结合等性质。主要的优点是可以处理许多数据类型、同时可以并行处理各种数据;缺点是需要的参数太多、编码困难、计算量大。遗传算法常用于优化神经网络法,能够解决其他技术难以解决的问题。
4、粗糙集法
由波兰数学家Z Pawlak在20世纪80年代初提出,是一种新的处理含糊、不精确、不完备问题的数学工具,可以处理数据约简、数据相关性发现、数据意义的评估等问题。其优点是算法简单、在其处理过程中可以不需要关于数据的先验知识、可以自动找出问题的内在规律;缺点是难以直接处理连续的属性、必须先进行属性的离散化。因此,连续属性的离散化问题是制约粗糙集理论实用化的难点。粗糙集理论主要应用于近似推理、数字逻辑分析和化简、建立预测模型等问题。
5、模糊集法
模糊集法是利用模糊集合理论对问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。模糊集合理论是用隶属度来描述模糊事物的属性。系统的复杂性越高,模糊性就越强。
6、关联规则法
关联规则反映了事物之间的相互依赖性或关联性。其算法的思想是:首先找出频繁性至少和预定意义的最小支持度一样的所有频集,然后由频集产生强关联规则。最小支持度和最小可信度是为了发现有意义的关联规则给定的2个阈值。在这个意义上,数据挖掘的目的就是从源数据库中挖掘出满足最小支持度和最小可信度的关联规则。
让数据流动起来,开启业绩增长!
了解500+品牌零售商使用LinkFlow的场景用例