爬网页数据算不算数据挖掘？

首页（资讯中心）爬网页数据算不算数据挖掘？

爬网页数据算不算数据挖掘？

1416人已读

发布于：2023-02-05 21:06:54

展开目录

展开目录收起

1、明确目标

2、数据搜集

3、数据清洗

4、构建模型

5、模型评估

6、应用部署

爬网页数据严格意义上并不属于完整的数据挖掘，爬取网页数据广义上可以算是数据挖掘的第一步，即数据的获取阶段，数据挖掘按照流程来说分为数据获取、数据预处理、特征工程、数据建模等，爬虫也是数据挖掘非常关键的一步。完整的数据挖掘流程：1、明确目标；2、数据搜集；3、数据清洗；4、构建模型；5、模型评估；6、应用部署。

爬网页数据算不算数据挖掘？

1、明确目标

在实施数据挖掘之前，你必须明白自己的目标，即需要通过挖掘去解决什么样的问题。

2、数据搜集

当你明确自己的目标或需要解决的问题后，下一步就需要准备数据，准备的数据即可以影响到这些问题的解决办法，这一步成为数据搜集过程。数据搜集过程尤为重要，其决定了后期工作进展的顺利程度。

3、数据清洗

通过数据搜集得到的相关数据必须保证“干净”，因为数据的质量高低将影响最终结果的准确性。通常数据会有以下几个方面影响数据的“干净”。

缺失值：由于个人隐私或设备故障导致某些观测在维度上的漏缺，一般称为缺失值。缺失值的存在可能会导致模型结果的错误，所以针对缺失值可以考虑删除法、替换法、插值法解决。

异常值：异常值一般指远离正常样本的观测点，它们的存在同样会影响模型的准确性，故可以考虑删除法或单独处理法。

数据的不一致性：主要是由于不同的数据源或系统并发不同步导致的数据不一致性，例如两个数据源中数据单位的不一致（一个以元为单位，一个以万元为单位）；系统并发不同步导致一张电影票被多个用户购买。

量纲的影响：由于某些模型容易受到不同量纲的影响，因此需要通过数据的标准化方法将不同量纲的数据进行统一处理，如将数据集都压缩至0-1的范围。

维度灾难：当采集的数据包含上百乃至成千上万的变量时，往往会提高模型的复杂度，进而影响模型的运行效率，故需要采用方差分析法，相关系数法，递归特征消除法，主成分分析法等手段实现数据的特征提取或降维。

4、构建模型

据不完全统计，建模前的数据准备将占整个数据挖掘流程80%左右的时间。接下来，在数据保证“干净”的前提下，需要考虑以什么样的模型能进行建模。

分类模型：逻辑回归，KNN，决策树等。回归模型：线性回归，支持向量回归，岭回归等。以上模型都是传统机器学习算法，当然，还可以通过神经网络实现分类或回归。

5、模型评估

到此阶段，已经完成了数据挖掘流程中的绝大部分工作。并且通过数据得到解决问题的多个方案(模型)，接下来要做的就是从这些模型中挑选出最佳的模型，主要目的就是让这个最佳的模型能够更好地反映数据的真实性。例如，对于预测或分类模型，即使在数训练集中的表现很好，但在测试集中结果一般，说明该模型存在过拟合现象。

6、应用部署

通常，模型的构建和评估工作的完成，并不代表整个数据挖掘流程的结束，往往还需要最后的应用部署。尽管模型的构建和评估视数据挖掘工程师所擅长的，但是这些挖掘出来的模式或规律是给真正的业务方或客户服务的，故需要将这些模式重新部署到系统中。

让数据流动起来，开启业绩增长！

了解500+品牌零售商使用LinkFlow的场景用例

免费试用

1、明确目标

2、数据搜集

3、数据清洗

4、构建模型

5、模型评估

6、应用部署

让数据流动起来，开启业绩增长！

产品

应用场景

行业方案

客户案例

营销研习社

关于我们