组件名称

  决策树回归 [版本号:1] [更新时间:2018-05-08]

简介

  当数据拥有众多特征并且特征之间关系十分复杂是非线性的,不可能使用全局线性模型来拟合任何数据。一种可行的方法是将数据集切分成很多份易建模的数据,如果首次切分后仍然难以拟合线性模型就继续切分。在这种切分方式下,树结构回归法就相当有用。 回归树的观察属性是连续类型,由于节点分裂选择特征属性时通常使用最小绝对偏差(LAD)或者最小二乘偏差(LSD)法,因此通常特征属性也是连续类型。 以最小绝对偏差(LAD)为例 (1)先令最佳方差为无限大bestVar=inf。 (2)依次计算根据某特征(FeatureCount次迭代)划分数据后的总方差currentVar(,计算方法为:划分后左右子数据集的总方差之和),如果currentVar小于bestVar,则令bestVar=currentVar。否则,选取下一个分割点。 (3)返回最佳分支特征、分支特征值(离散特征则为二分序列、连续特征则为分裂点的值),左右分支子数据集。 在每个节点(不一定是叶子节点)都会得一个预测值,以年龄为例,该预测值等于属于这个节点的所有人年龄的平均值。分枝时穷举每一个feature的每个阈值找最好的分割点,但衡量最好的标准不再是最大熵,而是最小化均方差--即(每个人的年龄-预测年龄)^2 的总和 / N,或者说是每个人的预测误差平方和 除以 N。这很好理解,被预测出错的人数越多,错的越离谱,均方差就越大,通过最小化均方差能够找到最靠谱的分枝依据。分枝直到每个叶子节点上人的年龄都唯一(这太难了)或者达到预设的终止条件(如叶子个数上限),若最终叶子节点上人的年龄不唯一,则以该节点上所有人的平均年龄做为该叶子节点的预测年龄。

输入和输出

  输入端口个数:1

  输出端口个数:1

参数配置

参数名称 参数说明 参数默认值 是否必填
计算信息增益的准则 目前只支持方差Variance,表示无序程度,方差越大,说明数据间差异越大(贪婪算法,每次切分使得数据变得最为有序) 默认不可选 variance 必填
最小实例数 每个子项在拆分后必须具有的最小实例数。 如果拆分后导致左或右子节点少于最小实例数,则此拆分将作为无效丢弃。 可选 1 必填
种子数 设置随机种子数值,大于0的整数. 默认是空 可选 必填
最大树深 5 必填
最小信息增益值 分裂节点时所需最小信息增益值 可选 0 必填
最大的划分数 连续型特征离散化的最大数量 可选 100 必填

字段配置

字段名称 字段说明 字段默认值 是否必配
特征列 输入模型的样本特征列 必选 支持Double/Int类型字段 必填
标签列 输入模型的样本类别标签列 必选 支持Double/Int类型字段 必填

输出节点的字段配置说明

  运行后不生成新字段。后续节点可以直接选择字段。

results matching ""

    No results matching ""