组件名称

  HashTF-词频向量-1版 [版本号:1] [更新时间:2018-05-08]

简介

  使用散列技巧将一系列词语映射到其词频的向量,HashingTF 的过程就是对每一个词作了一次哈希并对特征维数取余得到该词的位置,然后按照该词出现的次数计次。所以就不用像传统方法一样每次维护一张词表,运用 HashingTF 就可以方便的得到该词所对应向量元素的位置。当然这样做的代价就是向量维数会非常大,好在 spark 可以支持稀疏向量,所以计算开销并不大。

输入和输出

  输入端口个数:1

  输出端口个数:1

参数配置

参数名称 参数说明 参数默认值 是否必填
二值化 可选的二值参数控制输出向量,如果设置为真那么所有非零的计数为1。这对于二值型离散概率模型非常有用。可选 False -
全量数据表名 全量数据表名,表名可以是中文 可选 -
全量数据保存 全量HashingTF特征向量数据是否保存至数据库;若保存,会增加时间及存储资源开销可选 No -
特征向量维度 默认为空,此情况下特征向量维度是2^18次方维度可选 262144 -

字段配置

字段名称 字段说明 字段默认值 是否必配
选择字段列 需要转换HashingTF特征的字段 必填
原样输出列 推荐添加id列,方便评估 必填
输出的特征列名 命名只能包含字母数字和“_”,且首位不能为数字 {"columnname": "features", "columntype": "vector"} 必填

输出节点的字段配置说明

  运行后会生成新字段。输出节点如果需要选择当前节点的字段,需要先运行当前节点,可以采用小数据量运行方式:“从前面节点运行到当前节点”。

results matching ""

    No results matching ""