一、学习python基础
确定学习领域,学习基本语法学习,学习数据分析工具( Python,Excel,SQL 等)
二、了解数据有关数据分析的python库与基本库的操作
1. Pandas库的操作
Panda是数据分析特别重要的一个库,我们要掌握三点:pandas 分组计算;pandas 索引与多重索引;索引比较难,但是却是非常重要的;pandas 多表操作与数据透视表
2.numpy数值计算
numpy数据计算主要的应用是在数据挖掘,对于以后的机器学习,深度学习,这也是一个必须掌握的库,我们要掌握:Numpy array理解;数组索引操作;数组计算;Broadcasting(线性代数里面的知识)
3.数据可视化-matplotlib与seaborn
Matplotib语法;python最基本的可视化工具就是matplotlib;seaborn的使用:seaborn是一个非常漂亮的可视化工具。pandas绘图功能:pandas是做数据分析的,但它也提供了一些绘图的API。
三、数据的导入和导出
利用python语言对数据进行导入,常见的数据来源包括:1.读取csv数据(本地数据,网络数据);2.读取MySQL数据;3.读取excel数据。数据导出可以导出到csv数据和读写SQL数据库。
四、数据的筛选和描述
数据的筛选和描述算是对数据进行预处理,采取提取&查看,和筛选,利用python语言即可实现对数据预处理。
五、数据的处理
包含数据转置,数据缺失值处理,数据分组,值替换。
六、数据的统计分析与可视化
此项目是数据统计分析及可视化平台项目,总体包括云上数据自动化统计流程的设计和组件的开发。该项目主要是引入了kylin框架对原来的数据统计平台做优化,利用kylin以空间换时间和预计算的思想,对云平台上设备数据做多维分析,每日自动化统计分析生成计算结果数据,对接到报表系统和数据可视化系统,供领导和业务部门查看,以及便于观察设备数据的历史趋势,让业务部门更好地做业务决策。
让数据流动起来,开启业绩增长!
了解500+品牌零售商使用LinkFlow的场景用例