组件名称

  中文分词 [版本号:2] [更新时间:2018-07-26]

历史版本

  版本号:1

简介

  该组件属于文本分析下的文本处理组件,主要是对文本进行分词。该组件内部实现分布式jieba分词接口,基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG);采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合;对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法。

输入和输出

  输入端口个数:1

  输出端口个数:1

参数配置

  

字段配置

  

输出节点的字段配置说明

  运行后会生成新字段。输出节点如果需要选择当前节点的字段,需要先运行当前节点,可以采用小数据量运行方式:“从前面节点运行到当前节点”。

results matching ""

    No results matching ""