组件名称

  二分K均值聚类 [版本号:1] [更新时间:2018-05-08]

简介

  二分K均值算法组件是数据超市机器学习模块下的聚类算法组件。

1.1 二分K均值聚类算法及基本思想

二分K均值聚类又叫Bisecting K-means,是K-means的改进算法。 1、该算法首先将所有点作为一个簇,然后将该簇一分为二。之后选择能最大程度降低聚类代价函数(也就是误差平方和)的簇划分为两个簇(或者选择最大的簇等,选择方法多种)。以此进行下去,直到簇的数目等于用户给定的数目k为止。 2.以上隐含着一个原则是:因为聚类的误差平方和能够衡量聚类性能,该值越小表示数据点月接近于它们的质心,聚类效果就越好。所以我们就需要对误差平方和最大的簇进行再一次的划分,因为误差平方和越大,表示该簇聚类越不好,越有可能是多个簇被当成一个簇了,所以我们首先需要对这个簇进行划分。

1.2 该算法优点

1)二分K均值算法可以加速K-means算法的执行速度,因为它的相似度计算少了 2)不受初始化问题的影响,因为这里不存在随机点的选取,且每一步都保证了误差最小。

输入和输出

  输入端口个数:1

  输出端口个数:1

参数配置

参数名称 参数说明 参数默认值 是否必填
要聚类的簇的个数 2 必填
种子数 设置随机种子数值,大于0的整数. 默认是空 可选 必填
每个分簇中的样本数 每个分簇中最小的样本个数(若大于等于1.0)或者最小的样本比例数(小于1.0)可选 必填
最大迭代次数(> = 0) 20 必填

字段配置

字段名称 字段说明 字段默认值 是否必配
特征列 输入模型的样本特征列 必选 支持Double/Int类型字段 必填

输出节点的字段配置说明

  运行后不生成新字段。后续节点可以直接选择字段。

results matching ""

    No results matching ""