组件名称

  HashTF-词频向量 [版本号:2] [更新时间:2018-08-12]

历史版本

  版本号:1

简介

  使用散列技巧将一系列词语映射到其词频的向量,HashingTF 的过程就是对每一个词作了一次哈希并对特征维数取余得到该词的位置,然后按照该词出现的次数计次。所以就不用像传统方法一样每次维护一张词表,运用 HashingTF 就可以方便的得到该词所对应向量元素的位置。当然这样做的代价就是向量维数会非常大,好在 spark 可以支持稀疏向量,所以计算开销并不大。

输入和输出

  输入端口个数:1

  输出端口个数:1

参数配置

  

字段配置

  

输出节点的字段配置说明

  运行后会生成新字段。输出节点如果需要选择当前节点的字段,需要先运行当前节点,可以采用小数据量运行方式:“从前面节点运行到当前节点”。

results matching ""

    No results matching ""