一、数据预处理
数据预处理是指对原始数据进行基本运算、统计和处理,包括数据导入、统计分析、因子分析、方差分析、假设检验等等,以便后续建模进行深入研究。
1、Excel
Excel 是大家从小就开始接触的数据分析工具,只不过平常能接触到的功能有限,大部分人只挖掘到了 Excel 不到 5% 的功能,关于数据分析这方面,越高版本越好用,甚至可以完成所有的统计分析工作,制表、画图、函数、数据透视表都不在话下,但能处理的数据非常有限,超过 10w 就有些卡顿了。
Excel 能做很多事情,但是想要只通过 Excel 做统计数据分析,还得精通 VBA,学习难度并不小,而且把 Excel 玩成统计工具,还不如专门学统计软件。
2、SPSS
SPSS 的操作很简单,界面也整洁,随便一个视频就能学会,包含了相对全面的模型和分析方法,整体来说 SPSS 的数据分析统计能力很强,但是数据预处理的能力比较差,在正式进行数据分析之前,需要对原始数据进行编码,一般问卷中的文字答案,都要特地编码成数字,才能进行计算。
初学者可以通过 SPSS 了解统计分析的基本操作和原理,如果要更近一步的话,可以学习自带编程语言的工具,在数据处理上会更得心应手一些。
3、SQL
SQL 是最常用的数据库语言,搞数据的人基本绕不过 SQL 这一步,在提取数据和报表开发上有非常大的优势,入门相对比较简单,总结四个字:增删查改。SQL 需要掌握的内容包括数据的定义、控制和操控。理解 SQL 的语法和执行顺序,掌握函数使用技巧,这都是数据分析道路上不可缺少的工具,要入行,SQL 必须要学。
但是 SQL 是一种数据库语言,并没有建模和可视化的功能,就像要学习高等数学之前,得用小学数学做基础一样,SQL 差不多是这种存在吧。
二、数据建模
数据建模就是通过算法来识别事物间存在的潜在规律,能够预测事物发展趋势和用户行为。
1、SAS
SAS 相对 SPSS 其实功能更强大,SAS 是平台化的,主要运用于医疗、金融、电信等行业,相对更难学些,但掌握 SAS 对数据分析更有意义,比如离散选择模型、正交实验设计这些问题还是 SAS 更顺手。
SAS 拥有自己的语言,有大量实战经验的高级玩家会很喜欢,需要通过编程实现数据处理、建模分析,甚至是可视化。所以门槛很高,而且安装包特别大,正版买起来也很贵,自己用的话是不建议的。
2、R
R 是一门用于统计计算与作图的语言,但不仅仅是一门语言,它有数据计算与分析的环境,可以说是专门用于数据分析领域。入门 R,不会很难,花几天时间学,可以掌握基本的数据结构和可视化,在实际解决问题的过程中,去寻找需要的 R 包,结合网络资料阅读使用技巧,基本就能应对。
R 的特点是免费、开源,第三方的 R 包很多,但相应的第三方 R 包的质量也参差不齐,单机处理能力较弱,虽然入门不难,但作为一门语言,操作还是比较抽象。
3、Python
Python 和 R 都属于语言,用 Python 做爬虫和文本处理特别方便,如果从这两种语言里面挑的话,更建议 Python,因为 Python 更常用,数据分析在 Python 这里只是其中的一个能力,Python 还可以用来写 web,做游戏,做后端,做运维等。
虽然这两者都是数据领域的佼佼者,但是 Python 在机器学习、爬虫等领域已经超越 R 了,数据分析也不分伯仲,不过 R 的缺点,Python 也是存在的。有能力的话,两者都可以了解,工作讲究效率,适合自己、效率高才是最重要的。
三、数据可视化
数据可视化主要是以图表的方式将数据结果呈现出来,让数据结果更清晰明了,简单易懂。
事实上,简单的图表可以直接在 Excel 上完成,如果是对付一些庞大的数据,那我建议是直接使用 BI 软件,国内和国外的 BI 软件都可以考虑,国外的发展更完善一些,但对比国内的软件,还是会存在比较贵、和国内习惯不同、汉化等等问题,所以如果是初学、个人使用的话,可以尝试国内的 BI。
BI 软件作为商业智能软件,涵盖了数据整合、数据分析和数据展现的功能,可以直接从数据库中提取数据进行报表和可视化分析,在大数据处理方面的能力很强。例如 Yonghong、FineBI 等等。
数据分析工具很多,突出领域也不同,学习的过程中找到自己的使用节奏,适合自己的工具才能用得趁手。
让数据流动起来,开启业绩增长!
了解500+品牌零售商使用LinkFlow的场景用例