组件名称

  中文分词-1版 [版本号:1] [更新时间:2018-05-08]

简介

  该组件属于文本分析下的文本处理组件,主要是对文本进行分词。该组件内部实现分布式jieba分词接口,基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG);采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合;对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法。

输入和输出

  输入端口个数:1

  输出端口个数:1

参数配置

参数名称 参数说明 参数默认值 是否必填
全量数据表名 全量数据表名,表名可以是中文 可选 -
标注词性 输出分词结果中,标注词性 可选 No -
分词模式 ,支持三种:1)精确模式,试图将句子最精确地切开,适合文本分析;2)全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;3)搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词 可选 精确模式 -
全量数据保存 节点输出的全量数据是否保存至数据库;若保存,会增加时间及存储资源开销 可选 No -

字段配置

字段名称 字段说明 字段默认值 是否必配
选择字段列 需要分词的字段 必填
原样输出列 推荐添加id列,方便评估 必填

输出节点的字段配置说明

  运行后会生成新字段。输出节点如果需要选择当前节点的字段,需要先运行当前节点,可以采用小数据量运行方式:“从前面节点运行到当前节点”。

results matching ""

    No results matching ""