爬网页数据算不算数据挖掘?
659人已读
发布于:2023-02-05 21:06:54
展开目录
展开目录收起
1、明确目标
2、数据搜集
3、数据清洗
4、构建模型
5、模型评估
6、应用部署
爬网页数据严格意义上并不属于完整的数据挖掘,爬取网页数据广义上可以算是数据挖掘的第一步,即数据的获取阶段,数据挖掘按照流程来说分为数据获取、数据预处理、特征工程、数据建模等,爬虫也是数据挖掘非常关键的一步。完整的数据挖掘流程:1、明确目标;2、数据搜集;3、数据清洗;4、构建模型;5、模型评估;6、应用部署。

爬网页数据算不算数据挖掘?

1、明确目标

在实施数据挖掘之前,你必须明白自己的目标,即需要通过挖掘去解决什么样的问题。

2、数据搜集

当你明确自己的目标或需要解决的问题后,下一步就需要准备数据,准备的数据即可以影响到这些问题的解决办法,这一步成为数据搜集过程。数据搜集过程尤为重要,其决定了后期工作进展的顺利程度。

3、数据清洗

通过数据搜集得到的相关数据必须保证“干净”,因为数据的质量高低将影响最终结果的准确性。通常数据会有以下几个方面影响数据的“干净”。

缺失值:由于个人隐私或设备故障导致某些观测在维度上的漏缺,一般称为缺失值。缺失值的存在可能会导致模型结果的错误,所以针对缺失值可以考虑删除法、替换法、插值法解决。

异常值:异常值一般指远离正常样本的观测点,它们的存在同样会影响模型的准确性,故可以考虑删除法或单独处理法。

数据的不一致性:主要是由于不同的数据源或系统并发不同步导致的数据不一致性,例如两个数据源中数据单位的不一致(一个以元为单位,一个以万元为单位);系统并发不同步导致一张电影票被多个用户购买。

量纲的影响:由于某些模型容易受到不同量纲的影响,因此需要通过数据的标准化方法将不同量纲的数据进行统一处理,如将数据集都压缩至0-1的范围。

维度灾难:当采集的数据包含上百乃至成千上万的变量时,往往会提高模型的复杂度,进而影响模型的运行效率,故需要采用方差分析法,相关系数法,递归特征消除法,主成分分析法等手段实现数据的特征提取或降维。

4、构建模型

据不完全统计,建模前的数据准备将占整个数据挖掘流程80%左右的时间。接下来,在数据保证“干净”的前提下,需要考虑以什么样的模型能进行建模。

分类模型:逻辑回归,KNN,决策树等。回归模型:线性回归,支持向量回归,岭回归等。以上模型都是传统机器学习算法,当然,还可以通过神经网络实现分类或回归。

5、模型评估

到此阶段,已经完成了数据挖掘流程中的绝大部分工作。并且通过数据得到解决问题的多个方案(模型),接下来要做的就是从这些模型中挑选出最佳的模型,主要目的就是让这个最佳的模型能够更好地反映数据的真实性。例如,对于预测或分类模型,即使在数训练集中的表现很好,但在测试集中结果一般,说明该模型存在过拟合现象。

6、应用部署

通常,模型的构建和评估工作的完成,并不代表整个数据挖掘流程的结束,往往还需要最后的应用部署。尽管模型的构建和评估视数据挖掘工程师所擅长的,但是这些挖掘出来的模式或规律是给真正的业务方或客户服务的,故需要将这些模式重新部署到系统中。

让数据流动起来,开启业绩增长!

了解500+品牌零售商使用LinkFlow的场景用例