组件名称

  TF-词频向量-1版 [版本号:1] [更新时间:2018-05-08]

简介

  TF即词频,统计文本中各个词的出现频率,将文本文档的集合转换为词频计数的向量并作为文本特征。一般进行TF处理前要进行词性过滤,停用词过滤。

输入和输出

  输入端口个数:1

  输出端口个数:2

参数配置

参数名称 参数说明 参数默认值 是否必填
二值化 可选的二值参数控制输出向量,如果设置为真那么所有非零的计数为1。这对于二值型离散概率模型非常有用。 可选 False -
词语在单个文档中最少出现的次数 过滤以忽略文档中的稀有字词。 对于每个文档,忽略频率/计数小于给定阈值的词语。如果这是一个整数>= 1,那么指定一个计数(该词语必须出现在文档中);如果这是[0,1)中的浮点数,那么这将在该文档的词语总计数里指定一个比例分数。默认值为1.0 可选 1 -
最高词频词个数 根据语料库中的词频排序选出前VocabSize个词 可选 5 -
全量TF向量数据数据保存 节点输出的全量TF向量数据是否保存至数据库;若保存,会增加时间及存储资源开销 可选 No -
全量TF向量数据数据表名 全量TF向量数据数据表名,表名可以是中文 可选 -
全量语料库词频数据表名 语料库词频数据表名,表名可以是中文 可选 -
在所有文档中词语出现的文档数 指定词汇表中的词语在文档中最少出现的次数, 如果这是一个整数>= 1,它指定该词必须出现的文档数; 如果这是[0,1]中的浮点数,那么这将指定文档的比例分数。 默认值为1.0 可选 1 -
向量解析成字段 当设置成True时,将向量列解析拆分成各个维度构成的字段列,以方便下一步模型对每个维度的分析,但会耗费资源;默认是False,即直接将向量列输入到下一步模型中 可选 False -
全量语料库词频数据数据保存 节点输出的语料库词频数据是否保存至数据库;若保存,会增加时间及存储资源开销 可选 No -

字段配置

字段名称 字段说明 字段默认值 是否必配
选择字段列 需要转换TF特征的字段 必填
原样输出列 推荐添加id列,方便评估 必填
输出的特征列名 命名只能包含字母数字和“_”,且首位不能为数字 {"columnname": "features", "columntype": "vector"} 必填

输出节点的字段配置说明

  运行后会生成新字段。输出节点如果需要选择当前节点的字段,需要先运行当前节点,可以采用小数据量运行方式:“从前面节点运行到当前节点”。

results matching ""

    No results matching ""