组件名称

  字符串相似度 [版本号:1] [更新时间:2018-05-08]

简介

  求两个字符串之间的距离和相似度大小(取值0-1,越大越相似)。计算字符串相似度在机器学习领域是一个非常基本的操作,主要用在信息检索,自然语言处理,生物信息学等领域。提供两种计算方式:Levenshtein Distance(编辑距离),HammingDistance(海明距离)。

输入和输出

  输入端口个数:1

  输出端口个数:1

参数配置

参数名称 参数说明 参数默认值 是否必填
全量数据保存 节点输出的全量数据是否保存至数据库;若保存,会增加时间及存储资源开销 可选 No -
相似度计算方法 可选 levenshtein -
全量数据表名 全量数据表名,表名可以是中文 可选 -

字段配置

字段名称 字段说明 字段默认值 是否必配
选择字段列 选择需要做字符串相似度的字段 只可选两个字段 必填
原样输出列 输出表追加的列名,方便查看 必填

输出节点的字段配置说明

  运行后会生成新字段。输出节点如果需要选择当前节点的字段,需要先运行当前节点,可以采用小数据量运行方式:“从前面节点运行到当前节点”。

results matching ""

    No results matching ""