一、认识Z值
z值的计算公式:z=(x-μ)/ σ
其中,x为某一特征值,μ为总体均值,为总体的标准差。如果一个z分数等于0,它就在平均值上。一个正的Z分数表明原始分数高于平均数。
通常,z的取值范围是从-3.5到3.5,如果z值在这个范围之外,则表示该数据可能是离群值。但是这个范围也可以根据具体情况进行调整。
在实际应用中,可以通过计算z值来判断样本数据是否为离群值,并在数据分析过程中对离群值进行特殊处理。
二、Z-Score标准化方法
Z-Score是数据处理的一种常用方法。通过它能够将不同量级的数据转化为统一量度的Z-Score分值进行比较。
Z-Score处理方法处于整个框架中的数据准备阶段。也就是说,在源数据通过网络爬虫、接口或其他方式进入数据库中后,下一步就要进行的数据预处理阶段中的重要步骤。
数据分析与挖掘中,很多方法需要样本符合一定的标准,如果需要分析的诸多自变量不是同一个量级,就会给分析工作造成困难,甚至影响后期建模的精准度。
举例来说,假设我们要比较A与B的考试成绩,A的考卷满分是100分(及格60分),B的考卷满分是700分(及格420分)。很显然,A考出的70分与B考出的70分代表着完全不同的意义。但是从数值来讲,A与B在数据表中都是用数字70代表各自的成绩。
在对数据进行Z-Score标准化之前,我们需要得到如下信息:
1)总体数据的均值(μ)
在上面的例子中,总体可以是整个班级的平均分,也可以是全市、全国的平均分。
2)总体数据的标准差(σ)
这个总体要与1)中的总体在同一个量级。
3)个体的观测值(x)
在上面的例子中,即A与B各自的成绩。
通过将以上三个值代入Z-Score的公式:z=(x-μ)/ σ,就能够将不同的数据转换到相同的量级上,实现标准化。
假设:A班级的平均分是80,标准差是10,A考了90分;B班的平均分是400,标准差是100,B考了600分。
通过上面的公式,我们可以计算得出,A的Z-Score是1((90-80)/10),B的Z-Socre是2((600-400)/100)。因此B的成绩更为优异。反之,若A考了60分,B考了300分,A的Z-Score是-2,B的Z-Score是-1。因此A的成绩更差。
三、Z-Score的优缺点
1)Z-Score最大的优点就是简单,容易计算
在R中,不需要加载包,仅仅凭借最简单的数学公式就能够计算出Z-Score并进行比较。此外,Z-Score能够应用于数值型的数据,并且不受数据量级的影响,因为它本身的作用就是消除量级给分析带来的不便。
2)但是Z-Score应用也有风险
首先,估算Z-Score需要总体的平均值与方差,但是这一值在真实的分析与挖掘中很难得到,大多数情况下是用样本的均值与标准差替代。
其次,Z-Score对于数据的分布有一定的要求,正态分布是最有利于Z-Score计算的。
最后,Z-Score消除了数据具有的实际意义,A的Z-Score与B的Z-Score与他们各自的分数不再有关系,因此Z-Score的结果只能用于比较数据间的结果,数据的真实意义还需要还原原值。
如果你对如何做好用户洞察和数据分析感兴趣,这里有一份深度好文与您分享:
《抽丝剥茧,一文讲透数据分析的本质》
https://www.linkflowtech.com/blogs/7atqh-TVX19h5QW9z4tVAg
LinkTalk x 游读科技,掌握全域融合的 5 天未来总裁训练营!
主题:数据到底有什么用?!传你一套心法、套路和招式
时间:每周一到每周五,无回放,提前预约锁定!
主要内容:
- 解惑:为什么你看重数据却不如大力出奇迹有效果
- 授业:如何搭建起一整套客观有用的数据洞察体系
- 传道:会看数和会用数之间到底隔着哪些鸿沟
扫码预约直播,根据提示加入学习群:
- 优质圈层智力成果:50000+ 增长黑客、一线运营、销转高手、业务负责人,每日讨论全域营销、用户洞察、转化率优化等热门话题;
- 专属咨询绿色通道:1v1反馈您遇到的问题,请认真填写下方申请,专家将根据您的实际需求为您提供1v1业务诊断与分析:http://ln8w.cn/Svibaa
- 私享大师班直通车:不论你是私域一线还是营销老手,不论您是为了个人突破还是为了团队管理,不论您关注销售、运营还是营销、数据分析,只要您希望通过系统学习彻底解决当前困局,大师班都将为你提供宝贵的知识和实用的策略,助你成为面向未来趋势的顶尖高手:https://m.lizhiweike.com/channel2/1470427
让数据流动起来,开启业绩增长!
了解500+品牌零售商使用LinkFlow的场景用例