如何在数据差异发生前防止数据差异
345人已读
发布于:2023-07-26 23:24:10
目录
什么是数据差异?
数据差异的代价
业务分析中数据差异的3个最常见原因
预防和解决数据差异的关键
在对500名数据工程师、分析师和科学家的调查中,77% 的人表示他们的组织存在数据质量问题。几乎所有受访者(91%)都表示,糟糕的数据质量正在影响业务性能。

数据差异会给你的业务带来严重的破坏。下面是如何防止这种情况发生的方法。

您每天收集数千个数据对象。它们来自十几个源,在到达您的商业智能软件之前要经过不同的转换层。能出什么差错呢?

事实证明,很多。一个软件的时间戳可能位于错误的时区。有些数据可能被复制,而其他数据无法加载。机器人可能不会被检测到,并且会歪曲你的数据集。产品和市场无法就“活跃用户”的含义达成一致—— CEO 也有不同的定义。

这些错误导致数据差异,导致团队质疑组织数据的质量和完整性。结果,项目最终被推迟,甚至更糟: 人们忽视了数据,而只是依赖他们的直觉。

在对500名数据工程师、分析师和科学家的调查中,77% 的人表示他们的组织存在数据质量问题。几乎所有受访者(91%)都表示,糟糕的数据质量正在影响业务性能。

为了避免这种情况,采取一种积极主动的方法来防止数据差异是很重要的。

什么是数据差异?

顾名思义,数据差异就是两个相应的数据集不匹配(比如两个分析平台报告同一个登录页面的不同跳出率)。

如果您从多个 SaaS 工具和在线平台收集数据,您将不可避免地看到一些数据差异。这是因为很少有工具(如果有的话)使用相同的模式、跟踪机制以及操作和度量标准。不过,您仍然希望最小化和防止数据偏差。一些分析工具建议调查数据集中超过5% 的差异,而其他分析工具设定的阈值为10% 。

数据差异的代价

这里有一个真实的(而且非常普遍的)故事。市场和分类广告公司 Adevinta 正在从20多个源应用程序中手动提取数据。部门使用不同的仪表板、指标和数据定义。由于数据集完全不同且不一致,该公司难以提取见解、确定收入属性、识别趋势和实现个性化。每天,工程团队都要花费25% 的时间来修复由差异引起的错误和问题。

那些错过的洞察力、延迟的决策和工程时间加起来就是费用和机会成本。在一项对1200名 CRM 用户的调查中,44% 的受访者估计,质量差的 CRM 数据会导致他们的公司损失超过10% 的年收入。Gartner 估计,平均而言,糟糕的数据质量会给组织造成1290万美元的损失。

业务分析中数据差异的3个最常见原因

数据差异可以是随机的,也可以是系统性的。它们可能来自人为错误(如拼写错误)或工具的错误(如加载失败)。

1. 非标准化收集

数据源通常在跟踪方法、命名约定和数据定义方面存在差异。例如,移动营销平台 Adjust 在用户第一次打开应用程序时计算应用程序的安装次数。当用户下载应用程序时,苹果商店会计算安装次数。

其他常见的差异和不兼容性包括:

  • Attribution models  归因模型
  • Metrics  度量
  • Event locations  活动地点
  • Time zones 时区
  • Client-side vs. server-side tracking methods 客户端和服务器端跟踪方法

缺乏标准是一个系统性问题——一个可以在组织内部解决的问题,但在处理多个软件提供商或满足不同管理实体的报告要求时仍然是一个问题。

2. 缺乏数据清理或诊断

数据清理不足的原因是数据质量控制薄弱,以及缺乏自动化数据诊断的工具。这将导致允许无效数据类型、语法错误、不完整数据和重复数据进入并污染数据存储的漏洞。

当一个分析工具过滤掉机器人点击而另一个没有时,你也可能会看到差异。数据管道可能不具备自动转换源数据以匹配其目标模式的工具,从而阻止一些数据对象加载到您的分析套件或数据存储中。

3. 使用采样数据的工具

当工具分析数据的子集以估计结果时,就会发生数据抽样。假设你每天有100,000个访问者,但是你的网站分析只检查10,000个访问者来计算退出率。虽然抽样是一种有效的技术,但样本量和选择样本的方法可能会导致高度不准确的估计。由于各种原因,该示例可能不能代表您的总体受众——比如该工具仅分析了来自单个时区的前10,000次访问或访问。

分析工具通常使用抽样当您达到一定的数据限制,根据您的支付计划。对于海量数据集,采样可以节省带宽和时间。

预防和解决数据差异的关键

还记得艾德温塔吗?它们通过集中收集数据和建立标准和控制以确保数据质量来解决数据问题。执行同样的操作可以解决和防止组织中的数据差异。

集中数据摄取

在一个团队将数据保密的公司里,市场营销和销售人员并没有意识到他们在同一个活动中使用了不兼容的归因模型。产品和客户支持团队并不知道他们一直在以不同的方式定义脱离用户。

当您将来自多个来源的数据合并到单个存储库(如客户数据平台(CDP))中时,这种差异就会显现出来。Adevinta 使用 Twilio 部门的 CDP 为他们的组织创建了一个共享的真相来源。他们对不同团队和工具收集的数据实施通用标准、定义和跟踪方法。他们运行自动审计和验证。我们将在下一节中更详细地介绍这些策略。

使用数据跟踪计划

跟踪计划是一个文档,它标识您将收集的数据事件,以及它们的属性和命名约定。它解释了跟踪这些事件如何帮助您实现业务目标,并讨论了跟踪方法。当组织中的所有部门都遵循一个跟踪计划时,可以防止数据出现差异。

下面是赛门特跟踪计划的一个简化版本的摘录:

tracking-plan-Segment


该计划为客户创建一个细分帐户的事件提供了变数命名原则,同时还提供了房产价值。它解释了为什么跟踪帐户创建很重要,并指定了应该在哪里收集此事件。它还提供了事件捕获的代码(上面没有显示,但是您可以在这个电子表格中看到它和其他详细信息)。

为了推动公司范围的采用,确保跟踪计划涵盖了每个团队的数据收集需求和用例。如果需要改进数据标准或者随着业务的发展跟踪更多的事件类型,可以将计划视为一个活文档,并对其进行更改。

了解如何创建一个成功的跟踪计划,并获得 SaaS、移动、电子商务和视频跟踪的规范。

创建共享数据字典

数据字典列出数据元素及其定义和属性。创建一个来结束关于特定事件或度量的意义的分歧。

让不同的部门参与创建和执行数据字典。您会发现,即使是“用户”或“会话”这样的常见术语也可能引发争议。这个过程需要大量的时间、协调和谈判,但是坚持到底——所有的痛苦都是值得的。当 Adevinta 采用单一数据字典时,该组织提高了数据一致性并减少了实现错误。由此产生的团队之间的一致性和数据治理的民主化提高了10% 的操作效率。  

下面是 Google Analytics 的一个数据定义的例子:

滚动百分比ーー“用户向下滚动页面的百分比。如果某人滚动了页面的至少90% ,则值“90”将填充该维度。否则,维度就是空白。”

度量和重要事件(如转换)需要更多细节,比如它们是如何计算的,以及它们如何与其他数据对象相关联。下面的例子展示了 Meta 如何在 Facebook 广告中定义“链接点进率”:

CTR-meta

元业务帮助中心

与这里的 Meta 一样,您可以通过链接相关术语和提供解释非常相似的数据对象之间差异的资源来补充数据定义。对于经常有争议的术语,创建并链接到解释和捍卫给定定义的内部资源。

自动诊断数据质量问题

如果您每天跟踪数千个事件,那么您就知道通过手动检查和审计来维护数据质量是不可能的。你需要自动完成以下任务:

  • 标记错误数据(例如,不准确、无效、重复、不完整)
  • 防止错误数据被发送到数据存储库和下游工具
  • 转换、清理、删除和验证数据

您可以使用类似协议这样的工具来完成这项工作,协议是 Segment 的数据质量管理特性。当跟踪事件不符合您的跟踪计划时,协议会告诉您——可能是因为它使用了不同的命名样式和输入格式,或者包含不完整或无效的属性。在将数据发送到数据仓库、分析工具和业务应用程序之前,它会对数据进行清理。通过这种自动化,可以在发生差异时解决它们,并防止它们影响数据存储中的数据质量。

Protocols-tracking-plan

如果您希望获得一个详细的概述,深入了解 LinkFlow CDP 对贵公司全域客户运营的价值,您可以通过两种方式获得咨询:
1、点此完成CDP需求自评,不需要专家介入,可以能在3分钟左右快速确定是否需要CDP: http://ln8w.cn/51Kuqa
2、或直接申请1v1咨询通道,与咨询专家完成20分钟左右的需求评估,非常适合目前无法准确描述自身需求、无法确定是否需要一套什么样工具的用户: http://ln8w.cn/4108n5
以上咨询均免费。
Ezra
LinkFlow 高级用户运营经理
擅长全域精细化运营体系搭建,撰写了多篇关于标签体系、用户画像、用户细分、用户触达、精细化运营等文章,并有《全域运营小白直播课》上架LinkFlow微课堂,欢迎报名。
进入作者专栏
0
复制成功

让数据流动起来,开启业绩增长!

了解500+品牌零售商使用LinkFlow的场景用例