想做数据分析可以自学么
680人已读
发布于:2023-01-15 19:06:16
做数据分析可以自学。学习之前需要清楚想要达成的目标,对大致的知识体系有所了解,才能避免无效信息降低学习效率。1)了解数据分析的就业方向和主要工作内容;2)了解数据分析的常用工具,有针对性地选择并且深入学习;3)了解数据分析的主要流程等。

想做数据分析可以自学么

一、数据分析

1.定义:根据业务问题,对数据进行收集、清洗、处理和建模的过程,用于识别有助于业务的信息,获取关键业务结论,并辅助决策制定。

2.就业方向及工作内容

行业:互联网/电商/金融等

岗位及主要工作内容:

运营岗:通过数据分析,在电商app上可以做到通过不同图片、文案的组合,找到能够产生转化的配置,提升转化率和交易量的金额。比如淘宝首页的各个图标和聚划算等产品的信息设计。

销售岗:通过数据分析,可以找到有向上销售潜力的顾客名单,让购买中低端产品的顾客转而购买更高价、利润更高的产品。

供应链管理:通过数据分析,可以基于市场需求和其他因素对店铺的产品供货和库存做调整,减少不必要的库存浪费。比如耐克、阿迪的库存管理就是参考例子。

风控:通过信用评分,找出可能产生坏账的账户申请者,给出拒绝审批的决策。

其他

3.能力要求

(初级)业务数据分析:一般由基层员工,即业务部门负责。主要解决特定的产品/功能/场景下的业务问题。

(中级)商业数据分析:一般由企业中层管理者负责。主要回答公司现有商业模式的问题,比如为企业建立合作经销商的分层体系,从而实现对高品质经销商优先给予资源支持。

(高等)商业数据挖掘:一般由企业高层,核心经营决策者关注。主要对公司未来的商业模式做出预测和判断。比如基于产品设计定位和目标客户群体的匹配,制定广告投放策略,挖掘潜在客户;或根据客户基本信息进行价值预测,制定差异化的运营策略,实现较高产出价值。

二、数据分析常用的工具

数据分析的工具有Excel、Power BI、Tableau、MySQL、SPSS、SAS、Python、R等。

1.Excel

Excel算是最常用,使用范围最广的数据分析工具。常被归类到办公软件的类别中,它可以进行各种数据的处理、统计分析和辅助决策操作,广泛地应用于管理、统计财经、金融等众多领域。Excel适合于处理简单的数据分析问题,从Excel2010版本开始,Excel增加了数据分析工具包,工具包不能直接使用,而是需要使用者手动加载后才能显示菜单栏中。

Excel可以满足绝大部分数据分析工作的需求,同时也提供友好的操作界面,对于具备基本统计学理论的用户来说Excel是比较容易上手的,就是它的处理的数据量较小。

常用功能和优点:

1. Data Sources 数据源:Excel是一种灵活,易于使用的电子表格,通常用于创建数据集。它可以借助数据连接功能将外部数据源中的数据提取到电子表格中,还可以从Web,Microsoft Query,SharePoint列表,OData Feed,Hadoop文件(HDFS)等来源获取数据。因此,Excel文件通常用作Power BI和Tableau的数据源。

2. 数据发掘:使用Excel需要充分了解数据特点才能找到关键的信息。Excel中的“股票”和“地理”等选项有助于快速获取数据的详细信息。

3. 数据模型和适用范围:Excel专主要用于创建具有广泛功能的结构化和简单数据模型,最适合对结构化数据进行统计分析。

4. 数据可视化:在使用excel进行数据可视化时,需要首先处理存在的数据,然后手动创建不同的图表,图形。为了使可视化易于理解,需要好好学习excel的功能。

5. Dashboards 仪表盘:Excel提供了有限的创建仪表板功能,刷新过程繁琐。

6. 用户界面:需要掌握宏和Visual Basic脚本的知识,才能发挥Excel的最大潜力。

7.语言依赖:Excel以及其他Microsoft Office程序的编程语言是VBA。另外,当你从一个透视表选取项目时,Excel使用MDX来检索字段和数值。从Analysis Services多维数据集中导入数据时,也可以手动生成MDX查询。

8. 表现:Excel的运行速度适中,但是没有办法加快。

9. 数据可得性:Excel是特定于用户的。但是,你可以使用Power BI来共享你的Excel工作簿给你的同事们。

2.Power BI

Power BI 是一种收集、分析和可视化数据以形成可行见解的有效方法。它帮助初创公司和企业通过操作实时数据源来创建具有见解的仪表板。这些仪表板提供了实时见解,以了解在组织内进行的流程的整体性能。你甚至可以外包 Power BI 咨询和开发,以获得最佳效果。Power BI能够连接到用户的外部资源,包括SAP HANA,JSON,MySQL等。它可以连接到Microsoft Azure数据库,第三方数据库,文件和在线服务,例如Salesforce和Google Analytics。Power BI的数据模型专注于数据提取,并轻松构建潜在的复杂数据模型。

常用功能和优点:

1. Data Sources 数据源:Power BI能够连接到用户的外部资源,包括SAP HANA,JSON,MySQL等。它可以连接到Microsoft Azure数据库,第三方数据库,文件和在线服务,例如Salesforce和Google Analytics。

当用户从多个来源添加数据时,Tableau和Power BI会自动关联。但Power BI连接有限的数据源,同时会在每月更新中增加其数据源连接器。

2. 数据发掘:Power BI可以自由浏览数据而无需提前知道所需的答案。可以先发现关联和趋势,然后深入了解导致其发生的原因。这些系统能一目了然地了解数据。

3. 数据模型和适用范围:Power BI的数据模型专注于数据提取,并轻松构建潜在的复杂数据模型。

4. 数据可视化:使用Power BI将侧边栏中的数据插入到可视化中。它还允许用户通过使用自然语言进行查询来创建可视化效果。当深入到数据集进行分析时,Power BI确实设置了3500个数据点限制。但是,此数据点限制有一些例外:R视觉效果的最大数据点限制为1,50,000,Power BI视觉效果的最大数据点限制为30,000数据点,散点图的最大数据点限制为10,000数据点。

5. Dashboards 仪表盘:Power BI可以轻松刷新仪表板,以创建美观的仪表板

6. 用户界面:Power BI 的界面不需要编码知识就能开发精细且复杂的可视化报表。Power BI 用户界面非常易学,也因此被用户偏爱。

7.语言依赖:DAX和M是Power BI使用的语言;两种语言在创建Power BI模型时,有着不同的使用方式,且相互独立。M是一种公式查询语言。在将数据加载到Power BI模型之前,可以使用M语言在power query编辑器中查看、编辑和准备数据。

8. 表现:Power BI更加关注报告和分析模型,使用Power BI你可以通过将你的仪表盘发表到一个工作空间里来保存和共享它,其他人可以在上面合作编辑。存储容量限制取决于工作区的类型(共享或高级)。

从不同的数据源获取数据,例如从结构化到非结构化,以及基于云端的系统到内部部署系统。

3.Tableau

Tableau发行于2003年,是一种交互式数据可视化软件,被公认为增长最快的数据可视化工具,主要是因为它能够帮助用户查看和理解数据。它将原始数据转换成可理解的视觉效果,从而改变人们使用数据进行问题解决和决策的方式。

常用功能和优点:

1. Data Sources 数据源:Tableau支持数百种数据连接器,包括在线分析处理(OLAP)和大数据(例如NoSQL,Hadoop)以及云数据。

2. 数据发掘:通过Tableau,你可以自由浏览数据而无需提前知道所需的答案。可以先发现关联和趋势,然后深入了解导致其发生的原因。这些系统能一目了然地了解数据。

3. 数据模型和适用范围:Tableau可以创建简单的数据模型,例如单个表,也可以创建更复杂的数据模型,其中多个表使用关系,联接和联合的不同组合。它最适合快速,轻松地表示大数据,有助于解决大数据问题。

4. 数据可视化:使用Tableau,用户可以创建不同类型的基线可视化图表,包括热图,折线图和散点图。此外,用户可以创建数据“如果”的情况,还可以自由地在分析中使用任何数量的数据点。

6. 用户界面:Tableau 的界面不需要编码知识就能开发精细且复杂的可视化报表。Tableau有一个智能用户界面,能够容易地创建仪表盘,但Power BI更简单。

7.语言依赖:Tableau的软件工程师使用多种编程语言,但组成Tableau Desktop代码最主要的语言是C++。

8. 表现:Tableau和Power BI运行速度也适中但是可以优化和增强,Tableau胜在速度和能力。

9. 数据可得性:在Tableau上创建的可视化报表可以在Tableau服务器上被保存和共享给其他的Tableau使用者。

4.MySQL

MySQL 作为互联网中非常热门的数据库,在高并发业务场景下,一条好的 MySQL 语句能为企业节省大量的运作时间和成本,这也是为何互联网大厂面试官最爱考察数据库底层和性能调优的原因。因此,了解其底层原理和架构的设计非常重要,尤其是MySQL的存储引擎,很大程度上决定了 MySQL 整体的执行效率和工作性能。

5.SPSS

SPSS是世界上最早的统计分析软件。

常用功能和优点:

1.操作简便:界面非常友好,除了数据录入及部分命令程序等少数输入工作需要键盘键入外,大多数操作可通过鼠标拖曳、点击“菜单”、“按钮”和“对话框”来完成。

2.编程方便:具有第四代语言的特点,告诉系统要做什么,无需告诉怎样做。只要了解统计分析的原理,无需通晓统计方法的各种算法,即可得到需要的统计分析结果。对于常见的统计方法,SPSS的命令语句、子命令及选择项的选择绝大部分由“对话框”的操作完成。因此,用户无需花大量时间记忆大量的命令、过程、选择项。

3.功能强大:具有完整的数据输入、编辑、统计分析、报表、图形制作等功能。自带11种类型136个函数。SPSS提供了从简单的统计描述到复杂的多因素统计分析方法,比如数据的探索性分析、统计描述、列联表分析、二维相关、秩相关、偏相关、方差分析、非参数检验、多元回归、生存分析、协方差分析、判别分析、因子分析、聚类分析、非线性回归、Logistic回归等。

4.数据接口:能够读取及输出多种格式的文件。比如由dBASE、FoxBASE、FoxPRO产生的*.dbf文件,文本编辑器软件生成的ASCⅡ数据文件,Excel的*.xls文件等均可转换成可供分析的SPSS数据文件。能够把SPSS的图形转换为7种图形文件。结果可保存为*.txt及html格式的文件。

5.模块组合:SPSS for Windows软件分为若干功能模块。用户可以根据自己的分析需要和计算机的实际配置情况灵活选择。

6.针对性强:SPSS针对初学者、熟练者及精通者都比较适用。并且很多群体只需要掌握简单的操作分析,大多青睐于SPSS。

6.SAS

SAS是全球最大的软件公司之一,是由美国NORTH CAROLINA州立大学1966年开发的统计分析软件。SAS把数据存取、管理、分析和展现有机地融为一体。

常用功能和优点:

1、功能强大,统计方法齐,全,新:SAS提供了从基本统计数的计算到各种试验设计的方差分析,相关回归分析以及多变数分析的多种统计分析过程,几乎囊括了所有最新分析方法,其分析技术先进,可靠。分析方法的实现通过过程调用完成。许多过程同时提供了多种算法和选项。

2、使用简便,操作灵活:SAS以一个通用的数据(DATA)步产生数据集,尔后以不同的过程调用完成各种数据分析。

3、提供联机帮助功能:使用过程中按下功能键F1,可随时获得帮助信息,得到简明的操作指导。

7.Python

Python语法简洁而清晰,具有丰富和强大的类库。它常被昵称为胶水语言,能够把用其他语言制作的各种模块轻松地联结在一起。

常用功能和优点:

1.简单:Python是一种代表简单主义思想的语言。阅读一个良好的Python程序就感觉像是在读英语一样,尽管这个英语的要求非常严格!Python的这种伪代码本质是它最大的优点之一。它使你能够专注于解决问题而不是去搞明白语言本身。

2.易学:就如同你即将看到的一样,Python极其容易上手。前面已经提到了,Python有极其简单的语法。

3.免费开源:Python是 FLOSS(自由/开放源码软件)之一。简单地说,你可以自由地发布这个软件的拷贝、阅读它的源代码、对它做改动、把它的一部分用于新的自由软件中。FLOSS是基于一个团体分享知识的概念。这是为什么 Python如此优秀的原因之一——它是由一群希望看到一个更加优秀的Python的人创造并经常改进着的。

4.高层语言:当你用Python语言编写程序的时候,你无需考虑诸如如何管理你的程序使用的内存一类的底层细节。

5.可移植性:由于它的开源本质,Python已经被移植在许多平台上(经过改动使它能够工作在不同平台上)。如果你小心地避免使用依赖于系统的特性,那么你的所有Python程序无需修改就可以在下述任何平台上面运行。这些平台包括 Linux、Windows、FreeBSD、Macintosh、Solaris、OS/2、Amiga、AROS、AS/400、BeOS、OS /390、z/OS、Palm OS、QNX、VMS、Psion、Acom RISC OS、VxWorks、PlayStation、Sharp Zaurus、Windows CE甚至还有PocketPC和Symbian!

6.面向对象:Python既支持面向过程的编程也支持面向对象的编程。在“面向过程”的语言中,程序是由过程或仅仅是可重用代码的函数构建起来的。在“面向对象”的语言中,程序是由数据和功能组合而成的对象构建起来的。与其他主要的语言如 C++和Java相比,Python以一种非常强大又简单的方式实现面向对象编程。

7.可扩展性:如果你需要你的一段关键代码运行得更快或者希望某些算法不公开,你可以把你的部分程序用C或C++编写,然后在你的Python程序中使用它们。

8.可嵌入性:你可以把Python嵌入你的C/C++程序,从而向你的程序用户提供脚本功能。

9.丰富的库:Python标准库确实很庞大。它可以帮助你处理各种工作,包括正则表达式、文档生成、单元测试、线程、数据库、网页浏览器、CGI、FTP、电子邮件、XML、XML-RPC、HTML、WAV文件、密码系统、GUI(图形用户界面)、Tk和其他与系统有关的操作。记住,只要安装了Python,所有这些功能都是可用的。这被称作Python的“功能齐全”理念。

8.R

R是一门用于统计计算与作图的语言,其实R不单单是一门语言,还是一个数据计算与分析的环境。它最主要的特点是免费、开源、并且各种各样的模块都十分齐全。

在R的综合档案网络CRAN中,有大量的第三方功能包,其中涵盖了从统计计算到机器学习,从社会网络分析到自然语言处理,从金融分析到生物信息,从各种数据库语言接口到高性能的计算模型,可以说是应有尽有,这也就是为什么R获得了越来越多的各行各业从业人员喜爱的重要原因。

优点:

1.免费/包多,上手快。

2.使用下来R最好功能是:画图,(ggplot2,plotly,shiny,ggmap,用起来真的很方便),ggplot2画静态图,plotly画交互图、shiny可以用网页交互,ggmap画地图类可视化。

3.基于内存,训练速度还算快,代码量少;开源,开发者还不少,是个不断壮大的社区,并且也发展的比较成熟了。

4.轻量,使用数据量相对少的模型项目,几个G的数据,用16G内存的电脑吃得消。

5.Rstudio用起来真的挺好的,界面非常友好,是个很优秀的IDE。

三、数据分析的主要流程

数据分析主要有八个流程:1、目标的确定;2、数据获取;3、数据清洗;4、数据整理;5、描述分析;6、将数据展现和输出;7、洞察结论;8、报告撰写。

1.目标的确定

只有弄清分析的目的是什么?才能准确定位分析因子,提出有价值的问题,提供清晰的思路。

这一步在工作中通常是由你的客户/上级/其他部门同事/合作方提出来的,但第一次的数据报告中,需要你自己来提出并确定目标。

选择目标时,请注意以下几点:选择一个你比较熟悉,或者比较感兴趣的领域/行业;选择一个范围比较小的细分领域/细分行业作为切入点;确定这个领域/行业有公开发表的数据/可以获取的UGC内容(论坛帖子,用户点评等)。

2.数据获取

目标定下来了,接下来要去找相应的数据。如果你制定目标时完全遵循了第一步的三个注意点,那么你现在会很明确要找哪些数据。

获取目标数据的三类方法:一是从一些有公开数据的网站上复制/下载,比如统计局网站,各类行业网站等,通过搜索引擎可以很容易找到这些网站。二是通过一些专门做数据整理打包的网站/api来下载,如果你要找金融类的数据,这种方法比较实用。其他类型的数据也有人做,但通常要收费。三是自行收集所需数据,比如用爬虫工具爬取点评网站的商家评分、评价内容等,或是直接自己人肉收集(手工复制下来),亦或是找一个免费问卷网站做一份问卷然后散发给你身边的人,都是可以的。

3.数据清洗

在工作中,90%以上的情况,你拿到的数据都需要先做清洗工作,排除异常值、空白值、无效值、重复值等等。这项工作经常会占到整个数据分析过程将近一半的时间。如果在上一步中,你的数据是通过手工复制/下载获取的,那么通常会比较干净,不需要做太多清洗工作。但如果数据是通过爬虫等方式得来,那么你需要进行清洗,提取核心内容,去掉网页代码、标点符号等无用内容。无论你采用哪一种方式获取数据,请记住,数据清洗永远是你必须要做的一项工作。

4.数据整理

清洗过后,需要进行数据整理,即将数据整理为能够进行下一步分析的格式,对于初学者,用Excel来完成这一工作就OK。

如果你的数据已经是表格形式,那么计算一些二级指标就好,比如用今年销量和去年销量算出同比增长率。鉴于你是第一次做数据报告,建议你不要计算太多复杂的二级指标,基本的同比、环比、占比分布这些就OK。如果你收集的是一些非数字的数据,比如对商家的点评,那么你进行下一步统计之前,需要通过“关键词-标签”方式,将句子转化为标签,再对标签进行统计。

5.描述分析

数据描述:对数据的基本情况进行描述,如数据的总数、时间跨度、数据来源等。

指标统计:分析实际情况的数据指标,主要包括四个部分:

(1)变化:数据随着时间的变动而增减,如近期销售额表现。

(2)分布:数据在不同层次上的表现,如地域分布、人群分布。

(3)对比:数据项之间的对比,如产品线对比、用户数对比。

(4)预测:根据数据现有的增减幅度,预测未来的状况。

6.数据可视化

将数据可视化也是一个学问。通过数据分析得出结论后,还需要用图表展示出来,俗话说得好,“文不如表,表不如图",用图表可以更清晰展现你的结论,通常的可视化我们可以利用excel 自带的可视化的功能,也可以通过python或者R脚本进行可视化

如何用合适的图表表现?每一种图表的寓意是什么?下面列举下常用的8个图表:

①折线图:合适用于随时间而变化的连续数据,例如随时间收入变化,及增长率变化。

②柱型图:主要用来表示各组数据之间的差别。主要有二维柱形图、三维柱形图、圆柱图、圆锥图和棱锥图。

③堆积柱形图:堆积柱形图不仅可以显示同类别中每种数据的大小,还可以显示总量的大小。

④线-柱图:这种类型的图不仅可以显示出同类别的比较,还可以显示出趋势情况。

⑤条形图:类似于横向的柱状图,和柱状图的展示效果相同,主要用于各项类的比较。

⑥饼图:主要显示各项占比情况。饼图一般慎用,除非占比区别非常明显。因为肉眼对对饼图的占比比例分辨并不直观。而且饼图的项,一般不要超过6项。6项后建议用柱形图更为直观。

⑦复合饼图:一般是对某项比例的下一步分析。

⑧母子饼图:可直观地分析项目的组成结构与比重

图表不必太花哨,一个表说一个问题就好。用友好的可视化图表,节省阅读者的时间,也是对阅读者的尊重。

7.洞察结论

这一步是数据报告的核心,也是最能看出数据分析师水平的部分。一个年轻的分析师和一个年迈的分析师拿到同样的图表,完全有可能解读出不同的内容。

8.报告撰写

报告撰写是整个数据分析的最后一步,是对整个数据分析过程的总结。一份优秀的报告需要一个名确的主题、清晰的目录、图文并茂描述数据、结论与建议。应至少包含以下六块内容:报告背景、报告目的、数据来源、数量等基本情况、分页图表内容及本页结论、各部分小结及最终总结、下一步策略或对趋势的预测。

其中,背景和目的决定了你的报告逻辑(解决什么问题);数据基本情况告诉对方你用了什么样的数据,可信度如何;分页内容需要按照一定的逻辑来构建,目标仍然是解决报告目的中的问题;小结及总结必不可少;下一步策略或对趋势的预测能为你的报告加分。

让数据流动起来,开启业绩增长!

了解500+品牌零售商使用LinkFlow的场景用例