什么是数据仓库? 数据仓库,数据挖掘解释
330人已读
发布于:2023-07-26 23:40:01
目录
什么是数据仓库?
数据仓库是如何工作的
数据挖掘
数据仓库体系结构
数据仓库与数据库
数据仓库与数据湖
数据仓库与数据集市
数据仓库的利与弊
什么是数据仓库及其用途?
什么是数据仓库示例?
创建数据仓库的阶段是什么?
SQL 是数据仓库吗?
什么是数据仓库中的 ETL?
总结

什么是数据仓库?

数据仓库是企业或其他组织对信息的安全电子存储。数据仓库的目标是创建可以检索和分析的历史数据宝库,以提供对组织操作的有用洞察。

数据仓库是业务智能的重要组成部分。这个更广泛的术语包括信息基础设施,现代企业使用这些信息基础设施来跟踪其过去的成功和失败,并为其未来的决策提供信息。

  • 数据仓库是企业或其他组织随着时间推移对信息的存储。
  • 市场营销和销售等关键部门的人员定期添加新数据。
  • 仓库变成了历史数据库,可以检索和分析这些数据,以便为业务决策提供信息。
  • 构建有效数据仓库的关键因素包括定义对组织至关重要的信息和确定信息来源。
  • 数据库是为提供实时信息而设计的,数据仓库是为存储历史信息而设计的。

数据仓库是如何工作的

随着企业开始依赖计算机系统来创建、归档和检索重要的业务文档,对仓库数据的需求也随之发展。数据仓库的概念是由 IBM 的研究人员 Barry Devlin 和 Paul Murphy 在1988年提出的。1

数据仓库旨在支持对历史数据进行分析。通过比较来自多个异构数据源的整合数据,可以深入了解公司的业绩。数据仓库的设计允许其用户对源自事务源的历史数据运行查询和分析。

添加到仓库中的数据不会更改,也不能更改。仓库是用于对过去的事件运行分析的源,重点关注随着时间的推移而发生的变化。仓库存储的数据必须以安全、可靠、易于检索和易于管理的方式存储。

维护数据仓库

有一些维护数据仓库的步骤。一个步骤是数据提取,包括从多个源点收集大量数据。当一组数据被编译之后,它会经历数据清理,通过梳理数据来寻找错误,并且纠正或排除发现的任何错误。

然后将清理后的数据从数据库格式转换为仓库格式。一旦存储在仓库中,数据将经历排序、整合和汇总,以便更容易使用。随着时间的推移,随着各种数据源的更新,会有更多的数据添加到仓库中。

关于数据仓库的一本重要著作是 W.H. Inmon 的《构建数据仓库》 ,这本实用指南于1990年首次出版,并被重印了几次。 2

今天,企业可以从微软、谷歌、亚马逊和甲骨文等公司那里投资基于云的数据仓库软件服务。 3

数据挖掘

主要用于数据挖掘的业务仓库数据。这包括寻找能够帮助他们改进业务流程的信息模式。

一个好的数据仓库系统可以使公司内部的不同部门更容易地访问彼此的数据。例如,市场营销团队可以评估销售团队的数据,以便决定如何调整其销售活动。

数据挖掘的五个步骤

数据挖掘过程分为五个步骤:

  1. 组织收集数据并将其加载到数据仓库中。
  2. 然后,数据在内部服务器或云服务中进行存储和管理。
  3. 业务分析师、管理团队和信息技术专业人员可以访问和组织数据。
  4. 应用软件对数据进行分类。
  5. 最终用户以易于共享的格式(如图形或表格)显示数据。

什么是数据挖掘?

数据仓库的概念是由两位 IBM 研究人员在1988.4年提出的

数据仓库体系结构

设计数据仓库被称为数据仓库体系结构,根据数据仓库的需要,可以有多种层次。通常有第一层、第二层和第三层架构设计。

单层体系结构: 在为实时系统创建数据仓库时,很少使用单层体系结构。它们通常用于批处理和实时处理操作数据。单层设计由单层硬件组成,目标是将数据空间保持在最小。

双层架构: 在双层架构设计中,分析流程与业务流程分离。这样做的目的是提高控制水平和效率。

三层体系结构: 三层体系结构设计有顶层、中层和底层; 这些层称为源层、协调层和数据仓库层。这种设计适用于具有较长生命周期的系统。当对数据进行更改时,将完成对数据的额外一层审查和分析,以确保没有错误。

不管哪一层,所有数据仓库体系结构都必须满足相同的五个属性: 分离性、可伸缩性、可扩展性、安全性和可管理性。

数据仓库与数据库

数据仓库与数据库不同:

  • 数据库是一个事务性系统,它监视和更新实时数据,以便只有最新的数据可用。
  • 数据仓库被编程为随着时间的推移聚合结构化数据。

例如,数据库可能只有客户的最新地址,而数据仓库可能拥有过去10年中客户的所有地址。

数据挖掘依赖于数据仓库。随着时间的推移,对仓库中的数据进行筛选,以了解业务情况。

数据仓库与数据湖

数据仓库和数据湖都保存满足各种需求的数据。主要区别在于,数据湖包含的原始数据尚未确定目标。另一方面,数据仓库保存经过过滤用于特定用途的精确数据。

数据湖主要由数据科学家使用,而数据仓库通常由业务专业人员使用。数据湖也更容易访问和更新,而数据仓库更加结构化,任何更改都更加昂贵。

数据仓库与数据集市

数据集市只是数据仓库的一个较小版本。数据集市从少数来源收集数据,并将重点放在一个主题领域。数据集市比数据仓库更快、更容易使用。

数据集市通常作为数据仓库的一个子集,为了分析的目的,将重点放在一个领域,例如组织中的特定部门。数据集市通过帮助分析和报告来帮助做出业务决策。

数据仓库的利与弊

数据仓库旨在为公司提供竞争优势。它创建了一个相关信息资源,可以随着时间的推移进行跟踪和分析,以帮助企业做出更明智的决策。

它还可能耗尽公司资源,使现有员工负担起为仓库机器提供资金的日常任务。其他一些不利因素包括:

  • 创建和维护仓库需要相当多的时间和精力。
  • 由人为错误造成的信息缺口可能需要数年才会浮出水面,从而破坏信息的完整性和有用性。
  • 当使用多个源时,它们之间的不一致会导致信息丢失。
  • 好处
  • 提供基于事实的公司过去业绩分析,为决策提供依据。
  • 作为相关数据的历史档案。
  • 可以在关键部门之间共享,以获得最大的实用性。
  • 缺点
  • 创建和维护仓库需要大量资源。
  • 输入错误会损害存档信息的完整性。
  • 使用多个源可能导致数据不一致。

什么是数据仓库及其用途?

数据仓库是历史数据的信息存储系统,可以通过多种方式进行分析。公司和其他组织利用数据仓库来深入了解过去的性能,并计划对其运营进行改进。

什么是数据仓库示例?

考虑一家生产健身器材的公司。它最畅销的产品是健身单车,它正在考虑扩大产品线,并发起一场新的营销活动来支持它。

它到它的数据仓库更好地了解它的当前客户。它可以查明其客户主要是50岁以上的女性还是35岁以下的男性。它可以了解更多的零售商在销售他们的自行车最成功,以及他们的位置。它可能能够访问内部调查结果,并找出他们过去的客户喜欢和不喜欢他们的产品。

所有这些信息有助于公司决定他们想要制造什么样的新型自行车,以及他们将如何进行市场营销和广告宣传。这是确凿的信息,而不是凭直觉做决定。

创建数据仓库的阶段是什么?

根据行业出版物 ITPro Today 的数据,创建数据仓库至少有七个阶段。这些措施包括:

  • 确定业务目标及其关键绩效指标。
  • 收集和分析相关信息。
  • 确定贡献关键数据的核心业务流程。
  • 构造一个概念数据模型,该模型显示如何向最终用户显示数据。
  • 定位数据源并建立将数据提供到仓库的过程。
  • 建立跟踪时间。数据仓库可能变得笨拙。许多都是使用归档级别构建的,因此较旧的信息保留在较少的细节中。
  • 执行计划。

SQL 是数据仓库吗?

SQL,或者说 SQL,是一种计算机语言,用于与数据库交互,以便数据库能够理解和响应。它包含许多命令,如“选择”、“插入”和“更新”它是关系数据库管理系统的标准语言。

虽然数据库和数据仓库都是信息的存储,但它们并不相同。数据库是有组织的信息集合。数据仓库是从多个源不断构建的信息归档。 7

什么是数据仓库中的 ETL?

“ ETL”表示“提取、转换和加载”ETL 是一个数据处理过程,它将来自多个数据源的数据组合到一个单一的数据存储单元中,然后将这些数据存储单元加载到一个数据仓库或类似的数据系统中。它用于数据分析和机器学习。

总结

数据仓库是公司关于其业务以及随着时间的推移如何执行的信息存储库。它是由每个关键部门的员工输入而创建的,它是分析的来源,揭示了公司过去的成功和失败,并为公司的决策提供信息。

如果您希望获得一个详细的概述,深入了解 LinkFlow CDP 对贵公司全域客户运营的价值,您可以通过两种方式获得咨询:
1、点此完成CDP需求自评,不需要专家介入,可以能在3分钟左右快速确定是否需要CDP: http://ln8w.cn/51Kuqa
2、或直接申请1v1咨询通道,与咨询专家完成20分钟左右的需求评估,非常适合目前无法准确描述自身需求、无法确定是否需要一套什么样工具的用户: http://ln8w.cn/4108n5
以上咨询均免费。
Ezra
LinkFlow 高级用户运营经理
擅长全域精细化运营体系搭建,撰写了多篇关于标签体系、用户画像、用户细分、用户触达、精细化运营等文章,并有《全域运营小白直播课》上架LinkFlow微课堂,欢迎报名。
进入作者专栏
5
复制成功

让数据流动起来,开启业绩增长!

了解500+品牌零售商使用LinkFlow的场景用例