如何进行质量数据分析
2081人已读
发布于:2023-01-11 22:32:58
数据质量分析主要有五个步骤:1)导入数据;2)空值(缺失值)分析;3)异常值分析;4)数据一致性分析;5)数据特征分析。数据质量分析是数据挖掘中数据准备过程中的重要一环,是数据预处理的前提,也是数据挖掘分析结论有效性和准确性的基础。

如何进行质量数据分析

一、数据质量的定义

国际数据管理协会的《数据管理知识手册》中规定:数据质量(DQ)是“既指与数据有关的特征,也指用于衡量或改进数据质量的过程。”

具体可以从以下几个方面来定义数据质量:

(1)从用户层级定义数据质量:即满足特定用户预期需要的程度

(2)从数据本身定义数据质量:即从数据质量的指示器和参数指标等方面来衡量

(3)从数据约束关系定义数据质量:即从数据的原子性、数据的关联性及对数据的约束规则来度量数据质量

(4)从数据过程定义数据质量:即从数据能被正确使用、存储、传输等方面定义质量

数据质量分析是数据挖掘中数据准备过程中的重要一环,是数据预处理的前提,也是数据挖掘分析结论有效性和准确性的基础。数据质量分析主要任务是检查原始数据中是否存在脏数据,脏数据指的是不符合要求,以及不能直接进行分析的数据。常见的脏数据包括如下:

1.缺失值

2.异常值

3.不一致的值

4.重复数据及含有特殊符号(如#,¥,*)的数据

二、数据质量分析的一般流程如下:

(1)导入数据:我们要先把数据导入我们数据质量分析的框框之内。也就是说,我们想要对之进行质量分析的数据,你首先要从别的地方给拿过来。这个工作可能是把数据从硬盘中读入内存中年,或者从其它业务系统把数据给提取出来等等。

(2)空值分析:其次,我们要先重点处理其中缺失的值。比如说我们要分析一个班的同学的成绩分布情况,首先当然是要先把没有成绩的同学找出来,看是忘记录入成绩了还是转专业走了。根据实际情况,我们可能需要对缺省的值进行补齐、或者直接删除那条缺少了数据的整条记录。

(3)异常值分析:异常数据,往往是指的明显不合常理的数据。比如说:一个人的年龄260岁、一个学生的单科成绩是152分(满分150分)等等。当然,实际数据处理中异常值不会如此简单。实际中的不合常理的这个理,就是我们给这批数据制定一条规则,对不符合这条规则的数据我们都看成异常值。

主要有三种方法:

①简单统计分析:先对变量做一个描述性统计。常用的统计量是最大值和最小值,判断是否超出了合理的范围。

②3σ原则:前提是数据服从正态分布。在正态分布的假设下,距离平均值3σ之外的值出现的概率为P

举个例子,如果一个国家的平均身高是1.7米、方差是0.1米的话,你在大街上遇到一个2米身高的人的概率只有0.003,换句话说如果你采集到的身高的数据里出现了很多身高2米的人,你就有理由怀疑你的尺子出问题了。

③箱型图分析:箱体图Boxplot是一种表示数据分布的方法(wiki:boxplot),一个基本的箱体图从上到下分别表示最大值,上四分位,均值,下四分位,最小值。有的箱体图中还会加入异常值等。

一组数我们按照一定方法规定一个上边界、一个下边界,超出上下边界的数就认为是异常值。而上边界,我们这样来定义,如果一个数值Qu,这组数中75%的数都小于它,我们把这个数定义为上四分位数。类似方法,我们定义一个下四分位数Ql。那在Qu的基础上再加上1.5倍的(Qu-Ql),定义为上边界;在Ql的基础上减去1.5(Qu-Ql),定义为下边界。

(4)数据一致性分析:简单说就是同一条记录的同一个属性可能有两个不同的值,导致数据不一致。比如,学校的健康系统记录了一个孩子的身高、体重数据、社区医院的系统里面也记录了这个孩子的身高、体重数据,但是因为采集时间点不一样,这两个数据是不一样的,更高一级的数据挖掘系统把这两个业务系统关于这个孩子的身高、体重数据提取过来后,就出现了不一致这个问题。

(5)数据特征分析:可以通过绘制图表,计算某一些特征值等手段进行数据的特征分析。

①分布分析

分布分析能揭示数据的分布特征和分布类型。想要了解其分布形式是对称的还是非对称的,发现某一些特大或特小值。可通过绘制频率分布表,绘制频率分布直方图,绘制茎叶图进行直观分析。

②定量数据的分布分析

对于定量变量而言,选择“组数”和“组宽”是做频率分布分析时主要的问题。一般步骤为:

1)求极差   极差=最大值-最小值

2)决定组距与组数  组数 = 极差/组距

3)决定分点

4)列出频率分布表

5)绘制频率分布直方图

③定性数据的分布分析

对于定性变量,就是非连续变量,可以采用饼图和直方图来描述定性变量的分布。

饼图:饼图的每一个扇形部分代表每一个类型的百分比或频数,每一部分与每一类型的频数成正比

直方图:条形图的高度代表每一类型的百分比或频数。

让数据流动起来,开启业绩增长!

了解500+品牌零售商使用LinkFlow的场景用例