什么是数据挖掘? 它是如何工作的,好处,技术和例子
374人已读
发布于:2023-07-26 23:39:43
目录
什么是数据挖掘?
数据挖掘是如何工作的
数据仓库与挖掘软件
数据挖掘技术
数据挖掘过程
数据挖掘的应用
数据挖掘的好处
数据挖掘与社会媒体
数据挖掘的例子
常见问题
数据挖掘的类型有哪些?
数据挖掘是如何完成的?
数据挖掘的另一个术语是什么?
数据挖掘在哪里使用?
总结

什么是数据挖掘?

数据挖掘是为了识别模式和提取有用信息而对大量原始数据进行搜索和分析的过程。

公司使用数据挖掘软件来更多地了解他们的客户。它可以帮助他们发展更有效的营销策略,增加销售,降低成本。数据挖掘依赖于有效的数据收集、仓库和计算机处理。

  • 数据挖掘是分析大量信息以识别趋势和模式的过程。
  • 数据挖掘可以被公司用于任何事情,从了解客户对什么感兴趣或想要购买到欺诈检测和垃圾邮件过滤。
  • 数据挖掘程序根据用户请求或提供的信息分解数据中的模式和连接。
  • 社交媒体公司使用数据挖掘技术将用户商品化,以产生利润。
  • 这种数据挖掘的使用最近受到了批评,因为用户往往不知道数据挖掘发生在他们的个人信息上,特别是当数据挖掘被用来影响偏好时。

数据挖掘是如何工作的

数据挖掘包括探索和分析大块信息,以收集有意义的模式和趋势。它用于信用风险管理、欺诈检测和垃圾邮件过滤。它也是一个市场调查工具,有助于揭示情绪或观点的特定群体的人。数据挖掘过程分为四个步骤:

  • 数据被收集并加载到现场或云服务的数据仓库中。
  • 业务分析师、管理团队和信息技术专业人员访问数据并确定他们希望如何组织数据。
  • 自定义应用软件对数据进行排序和组织。
  • 最终用户以易于共享的格式(如图形或表格)显示数据。

数据仓库与挖掘软件

数据挖掘程序根据用户请求分析数据中的关系和模式,并将信息组织成类。

例如,餐馆可能想使用数据挖掘来确定应该提供哪些特色菜以及在哪些日子提供。数据可以根据客户访问的时间和他们订购的东西组织成类。

在其他情况下,数据挖掘者根据逻辑关系发现信息簇,或者查看关联和顺序模式,从而得出关于消费者行为趋势的结论。

数据仓库是数据挖掘的一个重要方面。仓储是将组织的数据集中到一个数据库或程序中。它允许组织根据特定用户的需要分离出数据片段,供他们分析和使用。

云数据仓库解决方案利用云提供商的空间和能力来存储数据。这使得小公司能够利用数字解决方案进行存储、安全和分析。

数据挖掘技术

数据挖掘使用算法和各种其他技术将大量数据转换为有用的输出。最流行的数据挖掘技术包括:

  • 关联规则,也称为市场篮子分析,搜索变量之间的关系。这种关系本身在数据集内创建附加值,因为它努力链接数据片段。例如,关联规则将搜索公司的销售历史,以查看哪些产品最常在一起购买; 有了这些信息,商店可以计划、推广和预测。
  • 分类使用预定义的类来分配给对象。这些类描述项的特征或表示每个数据点的共同点。这种数据挖掘技术允许在相似的特性或产品线之间对底层数据进行更加整齐的分类和总结。
  • 聚类类似于分类。但是,集群识别对象之间的相似性,然后根据使这些对象不同于其他对象的原因对这些对象进行分组。虽然分类可能产生“洗发水”、“护发素”、“肥皂”和“牙膏”等类别,但聚类可能确定“护发”和“牙齿健康”等类别
  • 决策树用于根据一组标准或决策对结果进行分类或预测。决策树用于询问一系列级联问题的输入,这些问题根据给定的答案对数据集进行排序。决策树有时被描述为树状视觉,当深入到数据中时,决策树允许特定的方向和用户输入。
  • K- 最近邻(KNN)是一种根据数据与其他数据的接近程度对数据进行分类的算法。KNN 的基础是基于这样一个假设,即相邻的数据点之间的相似性比其他数据位之间的相似性更高。这种非参数的、有监督的技术被用来根据个别的数据点来预测一个群体的特征。
  • 神经网络通过使用节点来处理数据。这些节点由输入、权重和输出组成。数据是通过监督式学习映射的,类似于人类大脑相互联系的方式。该模型可编程给出阈值,以确定模型的准确性。
  • 预测分析致力利用历史资料建立图形或数学模型,以预测未来的结果。这项技术与回归分析重叠,目的是根据现有数据支持未来的未知数字。

数据挖掘过程

为了最有效,数据分析人员通常遵循数据挖掘过程中的某个任务流。如果没有这种结构,分析师在分析过程中可能会遇到一个问题,如果他们早一点做好准备,这个问题很容易就可以避免。数据挖掘过程通常分为以下步骤。

第一步: 了解业务

在接触、提取、清理或分析任何数据之前,了解底层实体和手头的项目非常重要。通过挖掘数据,公司试图达到的目标是什么?他们目前的业务状况如何?SWOT 分析的结果是什么?在查看任何数据之前,挖掘过程首先要了解在过程结束时什么将定义成功。

第二步: 理解数据

一旦清楚地定义了业务问题,就可以开始考虑数据了。这包括可用的资源、如何保护和存储这些资源、如何收集信息以及最终结果或分析可能是什么样子。此步骤还包括确定数据、存储、安全性和收集的限制,并评估这些约束将如何影响数据挖掘过程。

步骤3: 准备数据

收集、上传、提取或计算数据。然后对其进行清理、标准化、擦除异常值、评估错误并检查其合理性。在数据挖掘的这个阶段,还可以检查数据的大小,因为过大的信息集合可能会不必要地降低计算和分析的速度。

步骤4: 构建模型

我们已经掌握了清晰的数据,是时候处理这些数据了。数据科学家使用上面的数据挖掘类型来搜索关系、趋势、关联或序列模式。这些数据还可以输入预测模型,以评估先前的信息如何转化为未来的结果。

第五步: 评估结果

数据挖掘以数据为中心的方面通过评估数据模型或模型的结果得出结论。分析的结果可以被汇总、解释,并呈现给决策者,这些决策者在很大程度上被排除在数据挖掘过程之外。在这个步骤中,组织可以选择根据调查结果做出决策。

步骤6: 实施变更和监控

数据挖掘过程结束时,管理层根据分析结果采取了措施。公司可能认为信息不够有力或者调查结果不相关,或者公司可能根据调查结果战略性地转向。在这两种情况下,管理层都会检查业务的最终影响,并通过识别新的业务问题或机会重新创建未来的数据挖掘循环。

不同的数据挖掘处理模型有不同的步骤,尽管一般的过程通常非常相似。例如,知识发现数据库模型有九个步骤,CRISP-DM 模型有六个步骤,SEMMA 过程模型有五个步骤。1

数据挖掘的应用

在当今的信息时代,几乎任何部门、行业、部门或公司都可以使用数据挖掘。

销售

数据挖掘鼓励更聪明、更有效地利用资本来推动收入增长。考虑一下你最喜欢的当地咖啡店的销售点登记册。对于每一笔交易,那家咖啡馆收集购买时间和产品销售情况。利用这些信息,商店可以策略性地精心制作其产品线。

市场营销

一旦上面的咖啡馆知道了它的理想阵容,就是实现更改的时候了。然而,为了使营销工作更加有效,该商店可以使用数据挖掘来了解客户在哪里看到广告,什么样的人口统计学目标,在哪里放置数字广告,以及什么样的营销策略最能引起客户的共鸣。这包括根据数据挖掘的结果调整营销活动、促销优惠、交叉销售优惠和项目。

制造业

对于生产自己产品的公司来说,数据挖掘在分析每种原材料的成本、最有效地使用哪种材料、生产过程中花费的时间以及哪些瓶颈对生产过程产生负面影响方面起着不可或缺的作用。数据挖掘有助于确保货物流动不受干扰。

欺诈调查

数据挖掘的核心是找到将数据点连接在一起的模式、趋势和相关性。因此,公司可以使用数据挖掘来识别不应该存在的异常值或相关性。例如,一家公司可能会分析其现金流,发现一个未知账户的重复交易。如果这是意料之外的,该公司可能希望调查资金是否管理不善。

人力资源部

人力资源部门通常有大量可供处理的数据,包括留用、晋升、薪资范围、公司福利、这些福利的使用情况以及员工满意度调查等数据。数据挖掘可以将这些数据关联起来,以便更好地理解员工离职的原因和吸引新员工的因素。

客户服务

顾客满意可能由于各种原因而引起(或破坏)。想象一下,一家运输货物的公司。客户可能对运输时间、运输质量或通信不满意。同一个客户可能会因电话等待时间过长或电子邮件响应过慢而感到沮丧。数据挖掘收集关于客户互动的运营信息,并总结调查结果,找出薄弱环节,强调公司正在做的事情。

数据挖掘的好处

数据挖掘确保公司正在收集和分析可靠的数据。它通常是一个更加严格的、结构化的过程,能够正式识别问题,收集与问题相关的数据,并努力制定解决方案。因此,数据挖掘可以帮助企业变得更有利可图、更有效率,或者在运营上更强大。

数据挖掘在不同的应用程序中看起来非常不同,但是整个过程几乎可以用于任何新的或遗留的应用程序。基本上,可以收集和分析任何类型的数据,并且几乎所有依赖于可限定证据的业务问题都可以使用数据挖掘来解决。

数据挖掘的最终目标是获取原始信息,并确定数据之间是否存在内聚或相关性。数据挖掘的这一好处使得公司可以利用手头的信息创造价值,否则这些信息不会过于明显。尽管数据模型可能很复杂,但它们也能产生迷人的结果,发现隐藏的趋势,并提出独特的策略。

数据挖掘的局限性

数据挖掘的这种复杂性是其最大的缺点之一。数据分析通常需要技术技能和某些软件工具。规模较小的公司可能会发现,这是一个难以逾越的进入壁垒。

数据挖掘并不总是保证结果。一家公司可能会进行统计分析,根据强有力的数据得出结论,实施变革,但不会获得任何好处。通过不准确的发现,市场变化,模型错误,或不适当的数据群体,数据挖掘只能指导决策,而不能确保结果。

数据挖掘还有一个成本组成部分。数据工具可能需要昂贵的订阅,并且获取某些数据可能需要昂贵的费用。安全和隐私问题可以得到解决,尽管增加 IT 基础设施的成本可能也很高。当使用海量数据集时,数据挖掘也可能是最有效的; 然而,这些数据集必须被存储,并且需要大量的计算能力来分析。

即使是大公司或政府机构也面临着数据挖掘的挑战。看看 FDA 关于数据挖掘的白皮书吧,其中概述了不良信息、重复数据、漏报或过度报告的挑战。2

数据挖掘与社会媒体

数据挖掘最有利可图的应用之一是由社交媒体公司进行的。Facebook、 TikTok、 Instagram 和 Twitter 等平台根据用户的在线活动收集大量用户数据。

这些数据可以用来推断他们的偏好。广告商可以把他们的信息对准那些看起来最有可能做出积极回应的人。

社交媒体上的数据挖掘已经成为一个争论的焦点,一些调查报告和披露显示了对用户数据的挖掘是多么具有侵入性。问题的核心是,用户可能同意网站的条款和条件,但不知道如何收集他们的个人信息或他们的信息被卖给谁。

数据挖掘的例子

数据挖掘可以用于好的方面,也可以用于非法的方面。

易趣和电子商务

EBay 每天从卖家和买家那里收集无数的信息。该公司使用数据挖掘来确定产品之间的关系,评估期望的价格范围,分析以前的购买模式,并形成产品类别。

EBay 概述了推荐程序如下:

  1. 聚合原始项元数据和用户历史数据。
  2. 处方在训练有素的模型上运行,以生成和预测项目和用户。
  3. 执行 KNN 搜索。
  4. 结果被写入数据库。
  5. 实时推荐获取用户 ID,调用数据库结果,并将其显示给用户

常见问题

数据挖掘的类型有哪些?

数据挖掘主要有两种类型: 预测性数据挖掘和描述性数据挖掘。预测性数据挖掘提取可能有助于确定结果的数据。描述数据挖掘通知用户给定的结果。

数据挖掘是如何完成的?

数据挖掘依赖于大数据和先进的计算过程,包括机器学习和其他形式的人工智能(AI)。我们的目标是找到能够从大型和非结构化数据集合中得出推论或预测的模式。

数据挖掘的另一个术语是什么?

数据挖掘还有一个很少使用的术语“数据中的知识发现”,即 KDD。

数据挖掘在哪里使用?

数据挖掘应用程序被设计成可以承担任何依赖于大数据的工作。金融行业的公司在市场中寻找模式。政府试图识别潜在的安全威胁。企业,尤其是在线和社交媒体公司,利用数据挖掘来创造有利可图的针对特定用户群的广告和营销活动。

总结

现代企业有能力收集客户、产品、生产线、员工和店面的信息。这些随机的信息可能不能说明问题,但是使用数据挖掘技术、应用程序和工具可以帮助拼凑信息。

数据挖掘过程的最终目标是编译数据,分析结果,并根据数据挖掘结果执行操作策略。

如果您希望获得一个详细的概述,深入了解 LinkFlow CDP 对贵公司全域客户运营的价值,您可以通过两种方式获得咨询:
1、点此完成CDP需求自评,不需要专家介入,可以能在3分钟左右快速确定是否需要CDP: http://ln8w.cn/51Kuqa
2、或直接申请1v1咨询通道,与咨询专家完成20分钟左右的需求评估,非常适合目前无法准确描述自身需求、无法确定是否需要一套什么样工具的用户: http://ln8w.cn/4108n5
以上咨询均免费。
Ezra
LinkFlow 高级用户运营经理
擅长全域精细化运营体系搭建,撰写了多篇关于标签体系、用户画像、用户细分、用户触达、精细化运营等文章,并有《全域运营小白直播课》上架LinkFlow微课堂,欢迎报名。
进入作者专栏
0
复制成功

让数据流动起来,开启业绩增长!

了解500+品牌零售商使用LinkFlow的场景用例