组件名称

  字符串相似度 [版本号:1] [更新时间:2018-05-08]

简介

  该组件属于文本分析下的文本处理组件,主要是求两个字符串之间的相似度大小。计算字符串相似度在机器学习领域是一个非常基本的操作,主要用在信息检索,自然语言处理,生物信息学等领域。本算法支持Levenshtein Distance,HammingDistance,Cosine三种相似度计算方式。支持两两计算输入方式。Levenshtein(Levenshtein Distance)也叫做Edit Distance,也即编辑距离。它是指两个字符串之间,由一个转成另一个所需的最少编辑操作次数,如果它们的距离越大,说明它们越是不同。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。支持距离和相似度两个参数,相似度=1-距离/最长字符串长度,距离在参数中表示为levenshtein,相似度在参数中表示为levenshtein_sim。汉明距离(Hamming Distance)是指两个等长字符串对应位置的不同字符的个数,或者说将一个字符串变换成另外一个字符串所需要替换的字符个数,对两个字符串进行异或运算。支持距离和相似度两个参数,并要求两字符串长度必须相等,相似度=1-距离/字符串长度,距离在参数中表示为hamming,相似度在参数中表示为hamming_sim。cosine(Cosine)余弦相似性是指在一个空间中,两个向量之间的夹角的余弦值,是一个描述直线之间偏离程度的量,将字符串通过一定的函数映射到空间,在进行运算从而算出相似性。这里针对字符串采用词频作为特征向量。支持相似度计算,在参数中表示为cosine。

输入和输出

  输入端口个数:1

  输出端口个数:1

参数配置

参数名称 参数说明 参数默认值 是否必填
全量数据保存 节点输出的全量数据是否保存至数据库;若保存,会增加时间及存储资源开销 可选 No -
相似度计算方法 可选 levenshtein -
全量数据表名 全量数据表名,表名可以是中文 可选 -

字段配置

字段名称 字段说明 字段默认值 是否必配
选择字段列 选择需要做字符串相似度的字段 只可选两个字段 -
原样输出列 输出表追加的列名,方便查看 -

输出节点的字段配置说明

  运行后会生成新字段。输出节点如果需要选择当前节点的字段,需要先运行当前节点,可以采用小数据量运行方式:“从前面节点运行到当前节点”。

results matching ""

    No results matching ""