一、概览性了解数据分析岗位
快速了解数据分析的目的,日常工作和一些方法论。做到对数据分析有一定的基础概念和了解,不会两眼一抓瞎。
入门级书籍:
①《谁说菜鸟不会数据分析 (豆瓣)》
这一本是入门级的科普书籍,基本上把数据分析的全流程都以比较趣味和实例展现开来。不过可能由于自身本来有基础,因此对这本书感触不深。可以作为闲时书籍或者真入门级书籍读一读。
②《深入浅出数据分析 (豆瓣)》
如果大家对数据分析有一定的认识,或者日常业务中有接触过数据分析,那会建议看这本《深入浅出数据分析》,深入浅出系列都是以非常趣味并且专业的角度进行数据分析介绍。
③《数据化管理-洞悉零售及电子商务运营》
基于电商和零售页的数据分析全流程书籍,对入门了解数据分析的工作流程、逻辑非常有帮助。
二、数据分析基础介绍及能力图谱
数据分析:通过对于数据的观察和分析,来解决某一特定问题。
重点一:解决某一特定问题。(目的性)
重点二:通过对数据的观察和分析。(方法论)
1)目的性:解决某一特定问题。
任何分析,不论是数据分析还是投资分析,一定要有目的性,千万不要因为技术工具或者方法论而忘记我们本来的目的。不管我们用什么技术工具还是用什么方法论,最终的目的一定是要去解决一个问题。
2)方法论:通过对数据的观察和分析。
市面上的所有机构和朋友都会专注这个点,其实这个点是说通过某种方法论进行分析问题,处理问题。主要分为两种能力:
①数据分析能力
②数据处理能力
主要应该学会的:
①问题界定:形成基于结构化的思维模式,通过MECE、金字塔原理等方法去分析老板或者业务上的问题。
②问题拆解:做到定位问题、分类问题、拆解问题。
③确定目标:接着基于自我的数据分析体系来对拆解后问题提炼核心指标,建立漏斗,MECE化拆解维度。
④目标分析(统计分析):基于统计学方法来分析最终拆解的关键漏斗和维度信息。
⑤编程实现:然后通过编程语言来实现全过程(数据提取/数据清洗),最终解决问题。
编程实现只是其中一个环节,而且是执行层环节。而数据分析能力则是其他四大环节,并且是头部环节,没有这四大环节,根本谈不上编程实现。
三、数据分析能力
1)核心世界观
这块是朋友们处理问题的出发点,基本上一法通万法通。不论哪个领域的数据分析的核心世界观都是一致的,只有基于这些世界观,才能又快又好的解决问题。
①目的性:数据分析是解决特定问题、达成特定目的的分析方法,无目的无分析。所有分析的起点一定是确认分析目的,拒绝无目的的盲目分析。
②现实表现性:数据的变化一定是基于特定事件的发生而导致的,最终的落点一定是运营动作、系统Bug、政策影响导致的。因此数据分析的最后一步一定要落回业务实际,这边会建议做相关的事件流水记录表,避免盯着一个变动值做无效分析。
③定性和定量分析并行:数据的行为其实是用户内心的偏向,因此如何更好的把握用户内心,合理的定性分析用户并与数据定量相结合,才能得出正确的结论。否则会看到数据有问题,然后发现那段时间发生了某件事,就强行归因到这件事上,作出错误的分析结论。
2)核心方法论
数据分析说到底的核心能力是咨询方法。这也是市面上很多大公司招商业分析师比较喜欢从找咨询背景朋友的原因。
①金字塔原理:《金字塔原理》中的核心概念,一种重点突出、逻辑清晰、主次分明的逻辑思路、表达方式和规范动作。一般是通过这种方法论结合下面一个方法论来完成数据分析的第二步拆解问题,第三步定位核心目标。
②MECE:Mutually Exclusive Collectively Exhaustive,相互独立,完全穷尽。这是《麦肯锡问题分析与解决技巧》的一个核心概念,也是咨询的一个核心概念。即对于问题和目标的拆解要做到逻辑上的无穷穷举,不要遗漏每一种可能。
③统计学意义概念:日常不论是数据对比,还是其他相关比对。只要是落到数据向,最终一定是需要在统计学上显著/不显著,这样才是合理的结果。如果不考虑统计学,分析的答案可能看似正确,其实是不对的。
3)特定领域方法论
在了解完世界观和方法论之后,朋友们可能会觉得这些内容是非常重要,但是没有很好的实操性和方法性,那么让我们落到特定领域。首先是宏观数据分析领域,在这个领域有四大基础方法论,稍微系统性的介绍大家可以看《网站分析实战》这本书:
①拆解分析:这里沿用财务分析的杜邦分析法,其实就是对于指标的拆解,比如说毛利=收入-成本,那么如果毛利出了问题,一定是收入/成本出现了问题,然后不断拆解公式进行分析。
②趋势分析:趋势分析其实是对比分析的一种,无趋势无数据。单一的数值指标是没有意义的,只有和过去进行对比的数据指标,才能知道是否出现问题/达到预期。
③对比分析:沿用上面观点,无对比无数据。数据只有通过对比才能知道是否正常。
④细分分析:当我们发现一个指标出现问题时,由于指标过于宏观,因此必须拆解指标,通过细分维度来进行观察,知道是新客户有问题还是老客户有问题。
需要针对特定领域进行相关的数据分析方法论的学习,比如电子商务、零售、内容行业的特定数据分析方法都会有不小的差异,特别是在核心指标上。零售讲究人货场、内容讲究高黏性和传播性...
四、数据处理能力
数据处理能力不是最重要的!要分析的目的才是,千万不要因为专注数据处理(编程)而忘记我们要分析的目的。
1)数据提取能力
这块也就是大家看数据分析相关回答时,各答主必写的编程语言:SQL。那么SQL为什么重要呢?主要还是各大互联网公司将大部分数据都存在了一个叫关系型数据库的地方,而SQL是唯一一种能够将数据从这种关系型数据库提取出来的方法。如果互联网公司都将数据存在Excel里,那SQL也不用学了。
2)数据处理能力 & 数据可视化能力
市面上的主流数据处理工具有:SQL、Python、R、Excel,其他金融向的还有SPSS、Stata...
五、数据分析流程
数据分析主要有八个流程:1、目标的确定;2、数据获取;3、数据清洗;4、数据整理;5、描述分析;6、将数据展现和输出;7、洞察结论;8、报告撰写。
1、目标的确定
只有弄清分析的目的是什么?才能准确定位分析因子,提出有价值的问题,提供清晰的思路。
这一步在工作中通常是由你的客户/上级/其他部门同事/合作方提出来的,但第一次的数据报告中,需要你自己来提出并确定目标。
选择目标时,请注意以下几点:选择一个你比较熟悉,或者比较感兴趣的领域/行业;选择一个范围比较小的细分领域/细分行业作为切入点;确定这个领域/行业有公开发表的数据/可以获取的UGC内容(论坛帖子,用户点评等)。
2、数据获取
目标定下来了,接下来要去找相应的数据。如果你制定目标时完全遵循了第一步的三个注意点,那么你现在会很明确要找哪些数据。
获取目标数据的三类方法:一是从一些有公开数据的网站上复制/下载,比如统计局网站,各类行业网站等,通过搜索引擎可以很容易找到这些网站。二是通过一些专门做数据整理打包的网站/api来下载,如果你要找金融类的数据,这种方法比较实用。其他类型的数据也有人做,但通常要收费。三是自行收集所需数据,比如用爬虫工具爬取点评网站的商家评分、评价内容等,或是直接自己人肉收集(手工复制下来),亦或是找一个免费问卷网站做一份问卷然后散发给你身边的人,都是可以的。
3、数据清洗
在工作中,90%以上的情况,你拿到的数据都需要先做清洗工作,排除异常值、空白值、无效值、重复值等等。这项工作经常会占到整个数据分析过程将近一半的时间。如果在上一步中,你的数据是通过手工复制/下载获取的,那么通常会比较干净,不需要做太多清洗工作。但如果数据是通过爬虫等方式得来,那么你需要进行清洗,提取核心内容,去掉网页代码、标点符号等无用内容。无论你采用哪一种方式获取数据,请记住,数据清洗永远是你必须要做的一项工作。
4、数据整理
清洗过后,需要进行数据整理,即将数据整理为能够进行下一步分析的格式,对于初学者,用Excel来完成这一工作就OK。
如果你的数据已经是表格形式,那么计算一些二级指标就好,比如用今年销量和去年销量算出同比增长率。鉴于你是第一次做数据报告,建议你不要计算太多复杂的二级指标,基本的同比、环比、占比分布这些就OK。如果你收集的是一些非数字的数据,比如对商家的点评,那么你进行下一步统计之前,需要通过“关键词-标签”方式,将句子转化为标签,再对标签进行统计。
5、描述分析
数据描述:对数据的基本情况进行描述,如数据的总数、时间跨度、数据来源等。
指标统计:分析实际情况的数据指标,主要包括四个部分:
(1)变化:数据随着时间的变动而增减,如近期销售额表现。
(2)分布:数据在不同层次上的表现,如地域分布、人群分布。
(3)对比:数据项之间的对比,如产品线对比、用户数对比。
(4)预测:根据数据现有的增减幅度,预测未来的状况。
6、数据可视化
将数据可视化也是一个学问。通过数据分析得出结论后,还需要用图表展示出来,俗话说得好,“文不如表,表不如图",用图表可以更清晰展现你的结论,通常的可视化我们可以利用excel 自带的可视化的功能,也可以通过python或者R脚本进行可视化
如何用合适的图表表现?每一种图表的寓意是什么?下面列举下常用的8个图表:
①折线图:合适用于随时间而变化的连续数据,例如随时间收入变化,及增长率变化。
②柱型图:主要用来表示各组数据之间的差别。主要有二维柱形图、三维柱形图、圆柱图、圆锥图和棱锥图。
③堆积柱形图:堆积柱形图不仅可以显示同类别中每种数据的大小,还可以显示总量的大小。
④线-柱图:这种类型的图不仅可以显示出同类别的比较,还可以显示出趋势情况。
⑤条形图:类似于横向的柱状图,和柱状图的展示效果相同,主要用于各项类的比较。
⑥饼图:主要显示各项占比情况。饼图一般慎用,除非占比区别非常明显。因为肉眼对对饼图的占比比例分辨并不直观。而且饼图的项,一般不要超过6项。6项后建议用柱形图更为直观。
⑦复合饼图:一般是对某项比例的下一步分析。
⑧母子饼图:可直观地分析项目的组成结构与比重
图表不必太花哨,一个表说一个问题就好。用友好的可视化图表,节省阅读者的时间,也是对阅读者的尊重。
7、洞察结论
这一步是数据报告的核心,也是最能看出数据分析师水平的部分。一个年轻的分析师和一个年迈的分析师拿到同样的图表,完全有可能解读出不同的内容。
8、报告撰写
报告撰写是整个数据分析的最后一步,是对整个数据分析过程的总结。一份优秀的报告需要一个名确的主题、清晰的目录、图文并茂描述数据、结论与建议。应至少包含以下六块内容:报告背景、报告目的、数据来源、数量等基本情况、分页图表内容及本页结论、各部分小结及最终总结、下一步策略或对趋势的预测。
其中,背景和目的决定了你的报告逻辑(解决什么问题);数据基本情况告诉对方你用了什么样的数据,可信度如何;分页内容需要按照一定的逻辑来构建,目标仍然是解决报告目的中的问题;小结及总结必不可少;下一步策略或对趋势的预测能为你的报告加分。
让数据流动起来,开启业绩增长!
了解500+品牌零售商使用LinkFlow的场景用例