聚类分析时,分类变量该怎么处理
1017人已读
发布于:2023-02-10 22:17:32
分类变量时主要是要选对算法。同时处理分类变量和数值变量,K-Protype算法就可以办到。K-Means就只能处理数值型变量,K-Mode可以处理分类型变量。如果只接受分类变量,可以将数值变量划分成几个区域,这样就变成分类变量了。

聚类分析时,分类变量该怎么处理

在SPSSAU进行聚类分析时,如果含有定类变量,则直接放入分析项(定类)之中即可,定量数据放入分析项(定量)中,针对混合数据的聚类分析,SPSSAU默认会进行K-prototype聚类算法(而不是kmeans算法),一键得出分析结果。如果聚类分析仅含有定类数据,SPSSAU默认使用 K-modes 聚类进行分析。

如果说聚类项中包括定类项和定量项,那么SPSSAU默认会进行K-prototype聚类算法(而不是kmeans算法)。定类数据不能通过数字大小直接分析距离,因而需要使用K-prototype聚类算法。

聚类分析的定义

依据研究对象(样品或指标)的特征,对其进行分类的方法,减少研究对象的数目。 各类事物缺乏可靠的历史资料,无法确定共有多少类别,目的是将性质相近事物归入一类。各指标之间具有一定的相关关系。

  聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。 聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy) 。


变量类型

1.分类变量、2.连续变量

各种算法要求不同,有些算法两种变量都可以接受。聚类分析是可以处理 分类变量的;


1.在SPSS的聚类分析中,分类变量、连续变量直接作为输入变量;


2.在SAS的EM聚类分析中,分类变量、连续变量直接作为输入变量,但需要在variable measurement中将分类变量设置为nominal或者ordinal,连续变量为interval;


3.在SAS的proc聚类分析中,分类变量需要处理为虚拟变量或者叫哑变量(dummy variables)。

让数据流动起来,开启业绩增长!

了解500+品牌零售商使用LinkFlow的场景用例