每个人的研究领域不一样,也许某个小众研究领域的 R 包,对这个领域的人来说是必学的,对其他人来说,就没有学习的必要。
主要4中软件包
stas:主要包含基本统计函数。
cluster:用于聚类分析。
fpc:含聚类算法函数(固定聚类、线性回归聚类等)。
mclust:处理高斯分布混合模型,通过EM算法实现聚类、分类及密度估计等。
kmeans()函数用法:
kmeans(x,centers,iter.max=10,nstart=1,algorithm=c("Hartigan-Wong","Lloyd","For-gy","MacQueen")
library("xlsx")
accountinfo dim(accountinfo)
head(accountinfo)
account_km print(account_km) #输出结果
3类样本数分别为:43002,12509,2294
中心点坐标为:
1 1.468350 102.2073
2 4.070589 396.2660
3 8.369224 937.3692
组内平方和为:197660145 152158338 254995794
因此,把重点放在所关注领域的 R 包上,掌握 1~3 个这个领域的 R 包,够用即可。 RStudio 推荐常用包,其实,RStudio 官网已经给我们列出了大部分常见领域的 R 包,一起来看一下:
1. 操作数据 - manipulate data
2. 数据可视化 - visualize data
3. 机器学习模型 - model data
4. 结果展示 - report results
5. 时间序列和金融数据 - time series and financial data
6. Web 开发 - work with the web
7. 空间数据 - spatial data
8. 编写高性能 R 代码 - write high performance R code
当然,不断有新的 R 包在开发出来,也许若干年以后,以上有些包已经退出了历史舞台,被新的包所替代,脱颖而出的新包,一定有可取的地方,值得我们去借鉴学习。
R语言聚类分析的包及函数
l MASS包的数据集(iris) ;
l Ststs包中的hclust()函数 ;
l AMAP包中的kmean()函数,
l R语言学习汇总大全。
让数据流动起来,开启业绩增长!
了解500+品牌零售商使用LinkFlow的场景用例