1.获取数据
获取数据也有两种途径,要么就是手上有的或者是能直接使用到的现成数据,还有一种就是二手数据。现在的数据分析库主要分为了调查数据(SurveyData)和政府数据(AdministrationData)。
调查数据一般为高校或者是公司科研机构等等基于某项调查所获得的数据资料,这种数据的对象一般为个体、学校、企业等。这一类的数据库能够帮助研究人员降低研究的成本并开拓研究的思路。
还有一种为政府数据,政府数据一般常见为国家统计局的人口普查、农林、贸易数据,此类数据比较宏观,而这类数据也是公开透明易收集到的,比较典型的平台为CNKI中国经济社会大数据研究平台,类似的还有国研网、搜数站等。
还有一种为自建数据,这种数据为研究人员通过调查问卷、或通过网络爬虫等途径获取,或者是通过。
2.整理和分析数据
(1)整理数据就是对观察、调查、实验所得来的数据资料进行检验与归类。得出能够反映总体综合特征的统计资料的工作过程。并且,对已经整理过的资料(包括历史资料)进行再加工也属于统计整理。
(2)分析数据
选择分析方法:根据自己研究的题目选择适合的分析方法。
1)差异性分析
如果是进行差异性研究,分析样本之间的差异关系,常见的分析方法有卡方检验、t检验、方差分析这三大类;这三大类差异性分析方法又可以按照各自适合的数据格式、研究内容等细分。
差异分析方法
①卡方检验
配对卡方、卡方拟合优度、分层卡方
②t检验
单样本t检验、配对样本t检验、概要t检验
③方差分析
事后多重比较、双因素方差分析、三因素方差分析、协方差
2)检验分析
常见的降维分析方法主要有主成分分析与因子分析两种。提到降维就不得不提到另一种分析方法--聚类。二者有一定的联系,同属于无监督学习,聚类属于降维的一种方式,但降维属于一个更大的范畴,不能混为一谈。降维:是在保留数据结构和有用性的同时对数据信息进行浓缩,将多个分析项浓缩概括成几个具有代表性的指标,减少冗余信息,提高模型精度。聚类:是将数据按照相似程度分成不同的组别,将相近的样本分配到一个组中。聚类分析可以根据适用的数据类型(定量数据、定类数据、混合型数据)分为K-means聚类、K-modes聚类、K-prototype聚类以及分层聚类。
3)影响关系分析
回归分析是研究自变量X对因变量Y的影响关系,因为自变量&因变量数据类型、研究方向等差异,又可以将回归分析细分为多种:线性回归、逐步胡贵、分层回归、曲线回归、非线性回归、岭回归、负二项回归、Logistic回归、Cox回归、Poisson回归、Probit回归
4)问卷分析
问卷分析方法主要有信度分析、效度分析、多选题分析、路径分析、调节作用、中介作用、中介调节作用等等。
3.呈现数据
当数据收集充分且真实过后,研究者可运用数据,但要清楚的说明数据来源以及如何对原始的数据进行加工的。需要尽可能的描述获取数据的过程,提供足够多的细节,以便同行能重复研究过程,并保障原生作者的创作性。还可以简明扼要地将数据的统计结果呈现给读者,但数据终究是冰冷的,而图标恰好能令其“活”起来,因此纯文字的表述难以直观传达数据的基本特征,一般采取图表等形式进行呈现。
让数据流动起来,开启业绩增长!
了解500+品牌零售商使用LinkFlow的场景用例