在SPSSAU进行聚类分析时,如果含有定类变量,则直接放入分析项(定类)之中即可,定量数据放入分析项(定量)中,针对混合数据的聚类分析,SPSSAU默认会进行K-prototype聚类算法(而不是kmeans算法),一键得出分析结果。如果聚类分析仅含有定类数据,SPSSAU默认使用 K-modes 聚类进行分析。
如果说聚类项中包括定类项和定量项,那么SPSSAU默认会进行K-prototype聚类算法(而不是kmeans算法)。定类数据不能通过数字大小直接分析距离,因而需要使用K-prototype聚类算法。
聚类分析的定义
依据研究对象(样品或指标)的特征,对其进行分类的方法,减少研究对象的数目。 各类事物缺乏可靠的历史资料,无法确定共有多少类别,目的是将性质相近事物归入一类。各指标之间具有一定的相关关系。
聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。 聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy) 。
变量类型
1.分类变量、2.连续变量
各种算法要求不同,有些算法两种变量都可以接受。聚类分析是可以处理 分类变量的;
1.在SPSS的聚类分析中,分类变量、连续变量直接作为输入变量;
2.在SAS的EM聚类分析中,分类变量、连续变量直接作为输入变量,但需要在variable measurement中将分类变量设置为nominal或者ordinal,连续变量为interval;
3.在SAS的proc聚类分析中,分类变量需要处理为虚拟变量或者叫哑变量(dummy variables)。
让数据流动起来,开启业绩增长!
了解500+品牌零售商使用LinkFlow的场景用例