如何用SAS做数据清洗与挖掘?
1427人已读
发布于:2023-01-09 22:38:12
SAS 数据挖掘的方法(SEMMA)作为智能型的数据挖掘集成工具,SAS/EM 的图形化界面、可视化操作可引导用户(即使是数理统计经验不太多的用户)按 SEMMA 原则成功地进行数据挖掘,用户只要将数据输入,经过 SAS/EM 运行即可得到一些分析结果。有经验的专家还可通过修改数据调整分析处理过程。

如何用SAS做数据清洗与挖掘?

SAS/EM 可实现同数据仓库和数据集市、商务智能及报表工具的无缝集成,它内含完整的数据获取工 具、数据取样工数据筛选工具、数据变量转换工具、数据挖掘数据库、数据挖掘过程以及数据挖掘评 价工具。

Sample---- 数据取样

当进行数据控掘时,首先要从企业大景数据中取出一个与你要探索问题相关的样板数据子集,而不是功用全部企业教据。通过数据取样,要把好数据的质景关,一定要保证取样的代表性、真实性、完整性和 有效性,这样才能通寸此后的分析研究得出反映本质规律性的结果。

2.Explore 据特征探索、分析和予处理 当我们拿到了一个样本数据集后,它是否达到我们原来设想的要求,其中有没有什么明显的规律和趋势,有没有出现你所从未设想过的数据状态,因素之间有什么相关性;它们可区分成怎样一些类别都是要首先探索的内容。

进行数据特征的探索分析,最好是能进行可视化的操作,如 SAS 的 SAS/INSIGHT 和SAS/SPECTRAVIEW这两个产品给你提供了可视化数据操作的最强有力的工具、方法和图形。它们不仅 能做各种不同类型统计分析显示,而目可做多维、动态、甚至旋转的显示。

应用这两个工具对样本数据进行预分析、推测主要的数据、异常趋势和规律性.

3.Modify --问题明确化、数据调整和技术选择

通过 Sample 和explore 两步之后,对原来要解决的问题可能会有了进一步的明确,这时要尽可能对 问题解决的要求能进一步的量化,在问题进一步明确化的基础上,你就可以按照问题的具体要求来审视你 的数据集了,看它是否适应你的问题的需要。针对问题的需要,可能要对数据进行增删,也可能按照你对 整个数据挖掘过程的新认识,要组合或者生成一些新的变量,以体现对状态的有效的描述。

4.Mode模型的研发、知识的发现

数理统计方法是数据挖掘工作中最常用的主流技术手段, SAS/STAT 软件包中就盖了所有的实用数 理统计方法,提供了十多个过程可进行各种不同类型模型、不同特点数据的回归分析,如正交回归、响应 面回归、 gistic 回归、非线性回归等,且有多种形式模型化的方法选择。可处理的数据有实型数据、有序 数据和属性数据,并能产生各种有用的统计量和诊断信息。在方差分析方面SAS/STAT为多种试验设计模型提供了方差分析工具,更一般的,它还有处理一般线性模型和广义线性模型的专用过程。在多变量统 计分析方面SAS/STAT 为主成分分析、典型相关分析、判别分析和因子分析提供了许多专用过程, SAS/STAT 含有多种聚类准则的聚类分析方法。利用 SAS/STAT 可进行生存分析(这对客户保有程分析 等特别有用)

这些工具不仅能揭示企业已有数据间的新关系、隐藏着的规律性,而且能反过来预测它的发展趋势, 或是在一定条件下将会出现什么结果。

另外,SAS人工神经元网络和决策树的方法结合起来可用于从相关性不强的多变是中选出重要的变最

采用哪一个模型,一方面,主要取决于你的数据集的特征和你要实现的目标,另一方面,数据控掘是 一个反复的、不饼深化的和实践的过程。在实践中选出最适合于你的模型。

5.Assess一一型和知识的综合解释和评价5

从上述过程中将会得出一系列的分析结果、模式或模型。若能得出一个直接的结论当然很好。但更多 的时候会得出对目标问题多侧面的描述。这时就要能很好的综合它们的影响规律性提供合理的决策支持信 息。所合理,实际上往往是要你在所付出的代价和达到预期目标的可靠性的平衡上作出选择。假在你 的数据挖掘过程中,就预见到最后要进行这样的选择的话那末你最好把这些平衡的指标尽可能的量化,以利你综合抉择。

你提供的决策支持信息适用性如何,这显然是十分重要的问题。 除了在数据处理过程中 SAS 软件提供给你的许多检验参数外,评价的办法之一是直接使用你原来建立模型的样板数据来进行检验。假如这一关就通不过的话,那末你的决策支持信息的价值就不太大了。一般来说,在这一步应得到较好的评价。这说明你确实从这批数据样本中挖掘出了符合实际的规律性。

让数据流动起来,开启业绩增长!

了解500+品牌零售商使用LinkFlow的场景用例