数据挖掘具体工作内容是什么?
1926人已读
发布于:2023-02-07 22:37:23
展开目录
展开目录收起
1、收集数据
2、准备数据
3、分析数据
4、训练算法
5、测试算法
6、使用,解释,修正算法
数据挖掘具体工作内容主要包括:1、收集数据;2、准备数据;3、分析数据;4、训练算法;5、测试算法;6、使用,解释,修正算法。数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标

数据挖掘具体的工作内容是什么?

1、收集数据

       收集数据一般来说就是补充外部的数据,包括采用爬虫还有接口,获取,补充目前数据当中不足部分。Python scrapy以及requests等都是很好的工具。

2、准备数据

       这主要包括数据清洗,预处理,错值纠正还有缺失值填补。同时还有连续值离散化,去掉异常值,以及数据归一化的这一过程。同时需要根据准备采用的挖掘工具来准备一个恰当的数据格式。

3、分析数据

       通过初步统计、分析与可视化,或者是探索性的数据分析工具,能够得到初步的一个数据概况。分析数据的分布,质量,可靠程度,实际作用域,用来确定下一步的算法选择。

4、训练算法

       整个工作流最核心的一步,根据现有数据选择算法,生成训练模型。主要是算法选择与参数调整:算法的选择。需要对算法性能和精度以及编码实现难度进行衡量和取舍。在实际的工程上,不考虑算法复杂度超过O(N^2)的算法。Java的Weka与Python的Scipy就是一个很好的数据挖掘分析工具,一般来说都会在小数据集做算法选择的预研。参数调整。这是一门神奇的技能,只能够在实际过程中体会。

5、测试算法

       这一步主要是针对监督算法(分类,回归),为了防止模型的过度拟合,需要测试算法模型的覆盖能力与其性能。方法上主要包括Holdout,还有random subsampling.非监督算法(聚类),采用更加具体的指标,主要包括熵,纯度,精度,召回等。

6、使用,解释,修正算法

       数据挖掘并不是一个静态的过程,需要不断的对模型进行重新评估,衡量与修正。算法模型的生命周期也是一个值得去探讨的话题。

让数据流动起来,开启业绩增长!

了解500+品牌零售商使用LinkFlow的场景用例