组件名称

  LDA-1版 [版本号:1] [更新时间:2018-05-08]

简介

  LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。LDA是一种非监督机器学习技术,可以用来识别大规模文档集(document collection)或语料库(corpus)中潜藏的主题信息。

输入和输出

  输入端口个数:2

  输出端口个数:2

参数配置

参数名称 参数说明 参数默认值 是否必填
最大迭代次数 做足够的迭代是很重要的。比如在早期迭代中, em通常具有无用的主题, 但在多次迭代之后, 这些主题会显著提高。根据数据集的不同, 使用至少20次,可能50-100次迭代通常是合理的。 可选 3 -
优化计算方法 学习LDA模型使用的优化器,目前支持"em", "online"。EMLDAOptimizer 通过在likelihood函数上计算最大期望EM,更占内存,迭代次数多内存可能不够会抛出stack异常;OnlineLDAOptimizer 通过在小批量数据上迭代采样实现online变分推断,对于内存较友好。默认是"em" 可选 em -
学习率衰减参数 设置为指数衰减率。这应该介于 (0.5, 1.0) 之间, 以保证渐近收敛。公式 (τ0+iter)的−κ次方,iter为当前迭代次数,κ的值即为LearningDecay 可选 0.51 -
全量主题词语向量分布数据是否保存至数据库;若保存,会增加时间及存储资源开销 可选 No -
主题数量(或者说聚簇中心数量) 3 -
文章分布的超参数(Dirichlet分布的参数θ) 必需>1.0,值越大,推断出的分布越平滑 可选 3 -
文章分布的超参数(Dirichlet分布的参数β) 必需>1.0,值越大,推断出的分布越平滑 可选 3 -
优化文档-主题分布的狄利克雷参数 指明在训练过程中是否优化DocConcentration (文档-主题分布的狄利克雷参数)。将此设置为True会使模型更具表现力并更好地拟合训练集数据。默认False 可选 False -
学习率衰减参数 公式 (τ0+iter)的−κ次方,τ0即是learningOffset,默认1024 可选 1024 -
全量文档主题向量分布数据是否保存至数据库;若保存,会增加时间及存储资源开销 可选 No -
种子数 设置随机种子数值,大于0的整数. 默认是空 可选 -
全量文档主题向量分布数据数据表名,表名可以是中文 可选 -
每个主题下的概率权重最高的词的个数 默认10 可选 10 -
取样文本语料库的比例分数 在每次mini-batch梯度下降迭代中使用并取样文本语料库的比例分数, 取值范围是 (0, 1]。请注意, 这应该与MaxIterations同步调整。 具体地说, 同步设置两个参数并保证 两者相乘大于1,默认0.05 可选 0.05 -
全量主题词语向量分布数据表名,表名可以是中文 可选 -

字段配置

字段名称 字段说明 字段默认值 是否必配
选择字段列 选择需要进行LDA处理的字段 必填
原样输出列 推荐添加id列,方便评估 必填

输出节点的字段配置说明

  运行后会生成新字段。输出节点如果需要选择当前节点的字段,需要先运行当前节点,可以采用小数据量运行方式:“从前面节点运行到当前节点”。

results matching ""

    No results matching ""