反映同一事物特点的变量有很多,往往根据研究的问题,选择部分变量对事物的某一方面进行研究。通常先对这些变量进行分类,然后再作进一步的分析。
4个分类变量量纲各自不同,这一次我们先确定用相似性来测度,度量标准选用pearson系数,聚类方法选最远元素,此时,涉及到相关,4个变量可不用标准化处理,将来的相似性矩阵里的数字为相关系数。若果有某两个变量的相关系数接近1或-1,说明两个变量可互相替代。只输出“树状图”就可以了,个人觉得冰柱图很复杂,看起来没有树状图清晰明了。
从proximity matrix表中可以看出热量和酒精含量两个变量相关系数0.903,最大,二者选其一即可,没有必要都作为聚类变量,导致成本增加。至于热量和酒精含量选择哪一个作为典型指标来代替原来的两个变量,可以根据专业知识或测定的难易程度决定。(与因子分析不同,是完全踢掉其中一个变量以达到降维的目的。)这里选用酒精含量,至此,确定出用于聚类的变量为:酒精含量,钠含量,价格。
我们可以采用spss的means均值比较过程,或者excel的透视表功能对各类的各个指标进行描述。其中,report报表用于描述聚类结果。对各类指标的比较来初步定义类别,主要根据专业知识来判定。这里到此为止。
聚类分析过程主要分为四个步骤
第一步,要根据研究目标确定合适的聚类变量,并进行数据预处理。
不同变量的单位经常不一样,有时不同变量的数值差别达到几个数量级,这时需要对数据进行预处理,进行标准化变换,否则数值较小的变量在描述对象的距离或相似性时其作用会严重削弱,从而影响正常的分类。
第二步,要根据聚类对象选择相应的相似性度量方法,计算样品或变量之间的相似性测度。
通常情况下,样品之间的相似性通过距离来度量,变量之间的相似性通过相似系数来度量。
第三步,选定聚类方法对样品或变量进行聚类。
这一步主要涉及两个问题,一是选定聚类方式,二是确定聚类的类数。不同的聚类方法得到的聚类结果有时是不同的。最常用的聚类方法是系统聚类法和快速聚类法。分类数的确定往往需要考虑实际案例中的分类要求和特点等。
第四步,对聚类结果进行解释分析。
聚类是一个无管理的程序,也没有客观的标准来评价聚类结果。所以得到聚类结果后,应该对结果进行验证和解释,以保证聚类结果是可信的。
让数据流动起来,开启业绩增长!
了解500+品牌零售商使用LinkFlow的场景用例