组件名称

  特征离散 [版本号:1] [更新时间:2018-05-08]

简介

  数值离散化在数据挖掘的数据处理中起着重要作用。有离散值的规则通常是更简短,更容易理解,并且离散化能改善预测精度。 特别是某些分类算法,要求数据是分类属性形式。发现关联模式的算法要求数据是二元属性形式。这样,常常需要将连续属性变换成分类属性(离散化,discretization),并且连续和离散属性可能都需要变换成一个或多个二元属性(二元化,binarization)。此外,如果一个分类属性具有大量不同值(类别),或者某些值出现不频繁,则对于某些数据挖掘任务,通过合并某些值减少类别的数目可能是有益的。 与特征选择一样,最佳的离散化和二元化方法是"对于用来分析数据的数据挖掘算法,产生最好结果"的方法。 连续属性变换成分类属性涉及两个子任务:决定需要多少个分类值,以及确定如何将连续属性值映射到这些分类值。在第一步中,将连续属性值排序后,通过指定n个分割点(split point)把它们分成n个区间。第二步中,将一个区间中的所有值映射到相同的分类值。因此,离散化问题就是决定选择多少个分割点和确定分割点位置的问题。结果可以用区间集合{(x0, x1], (x1, x2],..., (xn-1, xn)}表示,其中x0和xn可以分别为- 或+ ,或者用一系列不等式x0 < x≤x1,..., xn-1 < x < xn表示。 组件中,我们提供两种离散方式,等间距与等频离散

输入和输出

  输入端口个数:1

  输出端口个数:1

参数配置

参数名称 参数说明 参数默认值 是否必填
特征离散方式 特征离散类型,equi-frequency是等频划分,即每个区间样本个数相同,equi-distance等距划分,即每个区间目标字段的数值范围相同 可选 -
全量数据保存 节点输出的全量数据是否保存至数据库;若保存,会增加时间及存储资源开销 可选 No -
离散区间个数 特征离散数目,须大于1 -
全量数据表名 全量数据表名,表名可以是中文 可选 -

字段配置

字段名称 字段说明 字段默认值 是否必配
特征列 输入模型的样本特征列 必选 支持Double/Int/Float类型字段 必填

输出节点的字段配置说明

  运行后会生成新字段。输出节点如果需要选择当前节点的字段,需要先运行当前节点,可以采用小数据量运行方式:“从前面节点运行到当前节点”。

results matching ""

    No results matching ""