组件名称

  GBDT回归 [版本号:1] [更新时间:2018-05-08]

简介

  梯度提升决策树算法,与原始Boost算法类似。原始的Boost算法是在算法开始的时候,为每一个样本赋上一个权重值,初始值相同。在每一步训练中得到的模型,会使得数据点的估计有对有错,算法在每一步结束后,增加分错的点的权重,减少分对的点的权重,使得多次被分错的样本有很高的权重。然后等进行了N次迭代,将会得到N个简单的分类器(basic learner),然后我们将它们组合起来(比如说可以对它们进行加权、或者让它们进行投票等),得到一个最终的模型。 Gradient Boost与传统的Boost的区别是,每一次的计算是为了减少上一次的残差(residual),而为了消除残差,我们可以在残差减少的梯度(Gradient)方向上建立一个新的模型。所以说,在Gradient Boost中,每个新的模型的建立是为了使得之前模型的残差在梯度方向上减少,与传统Boost对正确、错误的样本进行加权有着很大的区别。 对于回归问题,定义好损失函数ψ(y,F(x))\psi(y,F(x))后,Gradient Boosting 不需要作修改,计算出来的结果就是预测值。 平台中组件损失函数为ψ(y,F(x))=(yF(x))2\psi(y,F(x))=(y-F(x))^{2}ψ(y,F(x))\psi(y,F(x))的梯度为y=yiFm1(xi)y{}'=y_{i}-F_{m-1}\left ( x_{i} \right ) 则对下式迭代: (ρm,am)=argmina,ρi=1N[yρh(xi;a)]2\left ( \rho _{m},a_{m} \right )=argmin_{a,\rho }\sum _{i=1}^{N}\left [ y{}'-\rho h\left ( x_{i};a \right ) \right ]^{2} Fm(x)=Fm1(x)+ρmh(x;am)F_{m}(x)=F_{m-1}(x)+\rho _{m}h\left ( x;a_{m} \right )

输入和输出

  输入端口个数:1

  输出端口个数:1

参数配置

参数名称 参数说明 参数默认值 是否必填
计算信息增益的准则 目前只支持方差Variance,表示无序程度,方差越大,说明数据间差异越大(贪婪算法,每次切分使得数据变得最为有序) 默认不可选 variance 必填
步长 每次优化迭代的步长大小(> = 0) 可选 0.1 必填
最小实例数 每个子项在拆分后必须具有的最小实例数。 如果拆分后导致左或右子节点少于最小实例数,则此拆分将作为无效丢弃。 可选 1 必填
种子数 设置随机种子数值,大于0的整数. 默认是空 可选 必填
损失函数类型 GBT试图最小化(不区分大小写)的损失函数。支持的选项有:squared,absolute. 可选 squared 必填
迭代次数 最大迭代次数(> = 0) 可选 20 必填
最小信息增益值 分裂节点时所需最小信息增益值 可选 0 必填
最大的划分数 连续型特征离散化的最大数量 可选 100 必填
用于学习每个决策树的训练数据的比例分数 在范围(0,1] 可选 1 必填
最大树深 5 必填

字段配置

字段名称 字段说明 字段默认值 是否必配
特征列 输入模型的样本特征列 必选 支持Double/Int类型字段 必填
标签列 输入模型的样本类别标签列 必选 支持Double/Int类型字段 必填

输出节点的字段配置说明

  运行后不生成新字段。后续节点可以直接选择字段。

results matching ""

    No results matching ""