聚类分析时，分类变量该怎么处理

2220人已读

发布于：2023-02-10 22:17:32

分类变量时主要是要选对算法。同时处理分类变量和数值变量，K-Protype算法就可以办到。K-Means就只能处理数值型变量，K-Mode可以处理分类型变量。如果只接受分类变量，可以将数值变量划分成几个区域，这样就变成分类变量了。

聚类分析时，分类变量该怎么处理

在SPSSAU进行聚类分析时，如果含有定类变量，则直接放入分析项（定类）之中即可，定量数据放入分析项（定量）中，针对混合数据的聚类分析，SPSSAU默认会进行K-prototype聚类算法（而不是kmeans算法），一键得出分析结果。如果聚类分析仅含有定类数据，SPSSAU默认使用 K-modes 聚类进行分析。

如果说聚类项中包括定类项和定量项，那么SPSSAU默认会进行K-prototype聚类算法（而不是kmeans算法）。定类数据不能通过数字大小直接分析距离，因而需要使用K-prototype聚类算法。

聚类分析的定义

依据研究对象（样品或指标）的特征，对其进行分类的方法，减少研究对象的数目。各类事物缺乏可靠的历史资料，无法确定共有多少类别，目的是将性质相近事物归入一类。各指标之间具有一定的相关关系。

聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy) 。

变量类型

1.分类变量、2.连续变量

各种算法要求不同，有些算法两种变量都可以接受。聚类分析是可以处理分类变量的；

1.在SPSS的聚类分析中，分类变量、连续变量直接作为输入变量；

2.在SAS的EM聚类分析中，分类变量、连续变量直接作为输入变量，但需要在variable measurement中将分类变量设置为nominal或者ordinal，连续变量为interval；

3.在SAS的proc聚类分析中，分类变量需要处理为虚拟变量或者叫哑变量(dummy variables)。

让数据流动起来，开启业绩增长！

了解500+品牌零售商使用LinkFlow的场景用例

免费试用

让数据流动起来，开启业绩增长！

产品

应用场景

行业方案

客户案例

营销研习社

关于我们