一、什么是数据挖掘/分析
简单地说就是,在大型数据库中,自动发现有用信息的过程,加以分析。其中数据库中的知识发现是重要的环节,也就是人们说的KDD,knowledge discovery in database。
二、KDD是什么
数据挖掘(英语:Data mining),又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。
简而言之,数据挖掘其实就是一个数据处理的过程,从输入数据开始,进行预处理工作,包括特征选择,维归约规范化和选择数据子集等等,随后进行分析和挖掘,再经过处理,例如模式过滤、可视化、模式表示等,最后形成可用信息的过程。
三、数据挖掘要解决什么问题
具体的讲主要是以下几个,首先是数据的可伸缩性,提高或改变数据的可伸缩度。其次是解决数据高维性的问题。处理异种数据和复杂数据。解决数据所有权与分布问题。对非传统的分析进行合理处理。
四、数据挖掘的任务
其实主要包括四个大块,可以独立运行,也可以联合操作,分别是聚类分析,预测建模,关联分析,异常检测。
1、聚类分析
聚类分析实用的技术包括K均值,凝聚层次聚类,dbscan,簇评估等,主要目的是通过基于原型,密度,图等的聚类,发现其间的关系。
2、预测建模
预测建模则更多的是一种可视化角度分析方法,利用分类,回归等方法,来建立模型解决问题。
3、关联分析
关联分析顾名思义,更多强调数据中的特征强关联,例如说过一万次的啤酒与尿布等。
4、异常检验
异常检验则主要是识别不同于其他数据的具有显著特征值的数据。
五、数据挖掘基础知识有什么
想学习数据挖掘,几个基础知识是必备。首先是线性代数,包括向量,矩阵等。否则你根本不会是用科学工具。其次是维归约,包括PCA,SVD等技术的使用。还有概率统计、回归方程、优化,也是必备知识。
让数据流动起来,开启业绩增长!
了解500+品牌零售商使用LinkFlow的场景用例