1、业务了解
在这关键的一步,我们把商业问题转化为数据挖掘的。我们需要了解什么应该被解决,这是为什么。答案将导致下面的步骤。很显然,此步骤不能为一个新的项目自动化。数据矿工有专家来定义数据挖掘问题解决互动。
2、数据理解
这个步骤包括理解数据,他们已经收集的方式,他们的特殊性,等再次,数据挖掘工作协同领域的专家,以获得有用的知识准备的数据(下一步)。这是无法实现自动化的手动任务。
3、数据准备
在这一步中,我们将原始数据转换成有意义的信息,以我的。一个例子是异常值检测(和删除)。一些公司认为,他们的工具可以自动完成这一步。这是真实的,以在一定程度上,但也有局限性。下面是一个简单的例子:什么是门槛变量“年龄”是一个异常?100,110,150年的历史?这是问题的依赖。遗漏值相同的问题发生。检测它们往往是简单的,但决定要采取的操作需要人工干预。数据准备的另一个重要方面是特征选择和提取。而选择可以自动进行,提取(通过聚集)需要的数据的理解。最后,任何数据挖掘工具可以自动目标变量的检测。然而,最终的选择是留下来的数据挖掘,谁知道企业需要解决的问题。
4、造型
这一步是我们申请的建模算法来处理的数据。其中,它涉及到选择数据挖掘算法和调整其参数。这当然可以是最容易实现自动化任务。一些厂商声称,他们的工具可以自动建模过程。测试几个算法,不同组的参数(调整)的概念可以自动化到一定程度。然而,假设有足够的数据,即该算法的选择不是业务相关的(通常是不是这种情况),而且评价标准是已知的(见下文)。
5、评估
为了验证我们的数据挖掘结果,我们需要评估标准。虽然应用的标准,可以自动和不同的建模算法进行比较,标准的选择可能是业务相关。在预测的情况下,例如,不同的评价标准存在,如均方根误差(RMSE),平均绝对误差(MAE)和平均绝对误差缩放(MASE)。如果我们在同一个时间序列比较不同的预测算法,我们可以使用RMSE。如果目标是比较不同时间序列,MASE是比较合适的。这是业务相关的,因此难以实现自动化。
6、部署
在这个阶段,我们的目标是要改变我们的概念证明或者原型成为一个工业化的解决方案。这一步涉及到改变我们的“一拍”的项目到可以用尽可能少人工干预尽可能工作的解决方案。尽管如预测模型标记语言(标准PMML)的出现,这一步剧照需要人工干预。的问题,如在哪里以及如何在一个整体的解决方案/工具整合我们的数据挖掘过程中需要探讨。
让数据流动起来,开启业绩增长!
了解500+品牌零售商使用LinkFlow的场景用例