组件名称

  随机森林回归 [版本号:1] [更新时间:2018-05-08]

简介

  随机森林回归算法与随机森林分类算法类似,基分类器为CART回归树。 随机森林首先进行bootstrap抽样,在生成每棵树的时候,每个节点变量都仅仅在随机选出的少数变量中产生。因此,不但样本是随机的,连每个节点变量(Features)的产生都是随机的。 许多研究表明, 组合分类器比单一分类器的分类效果好,随机森林(random forest)是一种利用多个分类树对数据进行判别与分类的方法,它在对数据进行分类的同时,还可以给出各个变量(基因)的重要性评分,评估各个变量在分类中所起的作用。 它有很多的优点: a. 在数据集上表现良好,两个随机性的引入,使得随机森林不容易陷入过拟合 b. 在当前的很多数据集上,相对其他算法有着很大的优势,两个随机性的引入,使得随机森林具有很好的抗噪声能力 c. 它能够处理很高维度(feature很多)的数据,并且不用做特征选择,对数据集的适应能力强:既能处理离散型数据,也能处理连续型数据,数据集无需规范化 d. 可生成一个Proximities=(pij)矩阵,用于度量样本之间的相似性: pij=aij/N, aij表示样本i和j出现在随机森林中同一个叶子结点的次数,N随机森林中树的颗数 e. 在创建随机森林的时候,对generlization error使用的是无偏估计 f. 训练速度快,可以得到变量重要性排序(两种:基于OOB误分率的增加量和基于分裂时的GINI下降量 g. 在训练过程中,能够检测到feature间的互相影响 h. 容易做成并行化方法 i. 实现比较简单 实现过程,通过自助法(bootstrap)重采样技术,从原始训练样本集N中有放回地重复随机抽取k个样本生成新的训练样本集合,然后根据自助样本集生成k个回归树组成随机森林,新数据的预测结果按回归树树预测结果的平均值确定。其实质是对决策树算法的一种改进,将多个决策树合并在一起,每棵树的建立依赖于一个独立抽取的样品,森林中的每棵树具有相同的分布,回归误差取决于每一棵树的预测能力和它们之间的相关性。特征选择采用随机的方法去分裂每一个节点,然后比较不同情况下产生的误差。能够检测到的内在估计误差、预测能力和相关性决定选择特征的数目。单棵树的预测能力可能很小,但在随机产生大量的决策树后,一个测试样品可以通过每一棵树的预测结果经统计后均值作为最终结果。

输入和输出

  输入端口个数:1

  输出端口个数:1

参数配置

参数名称 参数说明 参数默认值 是否必填
计算信息增益的准则 目前只支持方差Variance,表示无序程度,方差越大,说明数据间差异越大(贪婪算法,每次切分使得数据变得最为有序) 默认不可选 variance 必填
种子数 设置随机种子数值,大于0的整数. 默认是空 可选 必填
最小实例数 每个子项在拆分后必须具有的最小实例数。 如果拆分后导致左或右子节点少于最小实例数,则此拆分将作为无效丢弃。 可选 1 必填
森林中决策树的个数 训练过程用到的树的个数 可选 20 必填
最大树深 5 必填
每棵树每次分裂选取特征策略 设置特征维度属性子集选取策略(随机森林有两个随机,构成树的样本随机,每棵树分裂的特征属性是随机的。支持的选项有: auto, all, onethird, sqrt, log2, (0.0-1.0], 1-n 可选 auto 必填
最小信息增益值 分裂节点时所需最小信息增益值 可选 0 必填
用于学习每个决策树的训练数据的比例分数 在范围(0,1] 可选 1 必填
最大的划分数 连续型特征离散化的最大数量 可选 100 必填

字段配置

字段名称 字段说明 字段默认值 是否必配
特征列 输入模型的样本特征列 必选 支持Double/Int类型字段 必填
标签列 输入模型的样本类别标签列 必选 支持Double/Int类型字段 必填

输出节点的字段配置说明

  运行后不生成新字段。后续节点可以直接选择字段。

results matching ""

    No results matching ""