1、收集数据
收集数据一般来说就是补充外部的数据,包括采用爬虫还有接口,获取,补充目前数据当中不足部分。Python scrapy以及requests等都是很好的工具。
2、准备数据
这主要包括数据清洗,预处理,错值纠正还有缺失值填补。同时还有连续值离散化,去掉异常值,以及数据归一化的这一过程。同时需要根据准备采用的挖掘工具来准备一个恰当的数据格式。
3、分析数据
通过初步统计、分析与可视化,或者是探索性的数据分析工具,能够得到初步的一个数据概况。分析数据的分布,质量,可靠程度,实际作用域,用来确定下一步的算法选择。
4、训练算法
整个工作流最核心的一步,根据现有数据选择算法,生成训练模型。主要是算法选择与参数调整:算法的选择。需要对算法性能和精度以及编码实现难度进行衡量和取舍。在实际的工程上,不考虑算法复杂度超过O(N^2)的算法。Java的Weka与Python的Scipy就是一个很好的数据挖掘分析工具,一般来说都会在小数据集做算法选择的预研。参数调整。这是一门神奇的技能,只能够在实际过程中体会。
5、测试算法
这一步主要是针对监督算法(分类,回归),为了防止模型的过度拟合,需要测试算法模型的覆盖能力与其性能。方法上主要包括Holdout,还有random subsampling.非监督算法(聚类),采用更加具体的指标,主要包括熵,纯度,精度,召回等。
6、使用,解释,修正算法
数据挖掘并不是一个静态的过程,需要不断的对模型进行重新评估,衡量与修正。算法模型的生命周期也是一个值得去探讨的话题。
让数据流动起来,开启业绩增长!
了解500+品牌零售商使用LinkFlow的场景用例