组件名称

  关键词提取-1版 [版本号:1] [更新时间:2018-05-08]

简介

  该组件属于文本分析下的文本处理组件,主要是对文本进行关键词的提炼。该组件内部基于textrank的算法,以固定窗口大小(默认为5),假定文本中任意一个词与其相邻窗口大小的词之间有联系,当两个词之间有关系则就将两个词之间画一条线,两个词越相近则线的权重越大,最后所有的词构建出了一个共现关系网络图,网络图中每相邻的两个词都是距离在窗口大小距离以内的,最后遍历这个网络查下哪个词它的连线最多,这些连线对应的权重加起来最高,那么这个词就是整个文本最关键的词语。

输入和输出

  输入端口个数:1

  输出端口个数:1

参数配置

参数名称 参数说明 参数默认值 是否必填
全量数据保存 节点输出的全量关键词及权重数据是否保存至数据库;若保存,会增加时间及存储资源开销 可选 No -
关键词的最小长度 默认最小是1 可选 1 -
全量数据表名 全量关键词及权重数据表名,表名可以是中文 可选 -
文档的提取的关键词的数量 默认最小是1 可选 1 -

字段配置

字段名称 字段说明 字段默认值 是否必配
选择字段列 需要提取关键词的字段 必填
原样输出列 推荐添加id列,方便评估 必填

输出节点的字段配置说明

  运行后会生成新字段。输出节点如果需要选择当前节点的字段,需要先运行当前节点,可以采用小数据量运行方式:“从前面节点运行到当前节点”。

results matching ""

    No results matching ""