组件名称

  OneHot编码 [版本号:1] [更新时间:2018-05-08]

简介

  该组件属于特征工程下的组件,独热编码是指把一列标签索引映射成一列二进制数组,且最多的时候只有一位有效。这种编码通过构造0-1型的人工变量来量化属性因素。

输入和输出

  输入端口个数:1

  输出端口个数:1

参数配置

参数名称 参数说明 参数默认值 是否必填
全量特征数据保存 节点输出的全量特征数据是否保存至数据库;若保存,会增加时间及存储资源开销 可选 No -
是否包含最后一类 引入虚拟变量带来的完全共线性现象造成虚拟变量陷阱,比如5个类别, 输入类别值2.0将映射到 [0.0, 0.0, 1.0, 0.0]的输出向量。默认情况下不包括最后一个类别 (可通过 dropLast 进行配置), 因为它使向量元素值和为1, 从而线性相关。所以输入类别值4.0会映射到 [0.0, 0.0, 0.0, 0.0]。 可选 True -
全量特征数据表名 全量特征数据表名,表名可以是中文 可选 -

字段配置

字段名称 字段说明 字段默认值 是否必配
选择字段列 选择需要二元编码的字段,请选择数值类型的字段 可多选 -
原样输出列 推荐添加id列,方便评估 -

输出节点的字段配置说明

  运行后会生成新字段。输出节点如果需要选择当前节点的字段,需要先运行当前节点,可以采用小数据量运行方式:“从前面节点运行到当前节点”。

results matching ""

    No results matching ""