编程技术分享平台

网站首页 > 技术教程 正文

谈点模糊聚类分析方法的改进

xnh888 2024-11-27 22:12:50 技术教程 27 ℃ 0 评论

这里是想用大白话帮助大家强化对模糊聚类分析方法的全面理解。

(1) 模糊聚类分析方法的改进——因子聚类

分类、聚类本身是人类最基本的一种思维方式。而模糊聚类分析是随着社会发展,数据量的大幅增加,对复杂对象(个体、样品)进行依赖数据说话进行分类、聚类的新型技术。模糊聚类分析同时少不了模糊数学的理论知识,是该领域常用的一种应用数学方法。

那因子分析又是什么呢?它实际上是,在我们测量的较多变量数据中寻找影响系统变化的主要方向(即“因子”)的一种方法,从空间上理解,就是寻找互不相关的“垂直”方向,从统计代数的角度理解,就是寻找导致方差最大的不同“方向”。那么为什么要搞因子聚类分析呢?从因子分析的基本概念上也不难看出,在因子分析的基础上进行聚类分析,相较于基于大量直接测量数据进行聚类分析而言,其结果似乎更具有可靠性。

这里先要分析一下目前聚类分析方法存在的弊端。主要问题是基于现有变量测试数据进行聚类,各个变量在分析中的权重是相同的,那么势必会受到变量冗余的影响,导致分类失真。举个简单的例子,如何分出我们同一个班级里不同大学生学习成绩的优劣?如果我们只用高等数学、线性代数、概率论与数理统计、大学语文、大学物理这五门课的平均成绩来衡量,肯定有人不同意,原因是数学类成绩不太好的同学会认为你的评价标准太偏重数学类了(这些数学类课程彼此关联度也比较高)。类似地,我们聚类分析里所用的“相似度”指标这个标准是不是也可能存在这个问题?现在大家该明白引入因子分析的好处了吧。

因子聚类就是利用因子分析获得的主要因子,在主因子方向上求距离、确定相似性,这就很大程度上消除了原始观测数量指标之间可能存在的冗余,因此其聚类的可信度更高。但因子分析需要保证有适量的数据作为分析的基础,有时是做不到的,因此,因子聚类分析方法只能作为一种参考方法。由于讲清楚因子分析占用的篇幅较大,相关教材也不少,这里就不再展开了。

(2) 模糊聚类分析方法的改进——赋予指标不同的权重

例如,基于学生多门课程成绩对学生进行聚类,考虑每门课学分和不考虑学分聚类结果可能很不同。学分多少实际上相当于权重大小的作用。

这里推荐阅读有助于理解因子聚类分析的三篇参考文献:

【1】张晓军,李珊珊,杨树生:基于MATLAB的因子分析与聚类分析在学生成绩评价中的应用

【2】杨会来,杨蕾:因子聚类分析在区域农产品物流能力评价中的应用——以河北省为例

【3】吴善杰:改进的模糊聚类分析方法在 MATLAB 中的实现

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表