组件名称

  频繁项挖掘 [版本号:1] [更新时间:2018-05-08]

简介

  在数据挖掘中,商品集合I={t1,t2,....ti}称作项目集合,每位顾客一次购买的商品集合ti称为一个事务,所有的事务T={t1,t2,....ti}称作事务集合,并且满足ti是I的真子集。一条关联规则是形如下面的蕴含式:   X—>Y,X,Y满足:X,Y是I的真子集,并且X和Y的交集为空集,其中X称为前件,Y称为后件。 对于规则X—>Y,根据上面的例子可以知道它的支持度(support)=(X,Y).count/T.count,置信度(confidence)=(X,Y).count/X.count 。其中(X,Y).count表示T中同时包含X和Y的事务的个数,X.count表示T中包含X的事务的个数。 常见关联算法: 1.Apriori算法:使用候选项集找频繁项集 Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集。 该算法的基本思想是:首先找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则,这些规则必须满足最小支持度和最小可信度。然后使用第1步找到的频集产生期望的规则,产生只包含集合的项的所有规则,其中每一条规则的右部只有一项,这里采用的是中规则的定义。一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频集,使用了递推的方法。 2.FP-树频集算法 针对Apriori算法的固有缺陷,又有了不产生候选挖掘频繁项集的方法:FP-树频集算法。采用分而治之的策略,在经过第一遍扫描之后,把数据库中的频集压缩进一棵频繁模式树(FP-tree),同时依然保留其中的关联信息,随后再将FP-tree分化成一些条件库,每个库和一个长度为1的频集相关,然后再对这些条件库分别进行挖掘。当原始数据量很大的时候,也可以结合划分的方法,使得一个FP-tree可以放入主存中。实验表明,FP-growth对不同长度的规则都有很好的适应性,同时在效率上较之Apriori算法有巨大的提高。

输入和输出

  输入端口个数:1

  输出端口个数:1

参数配置

参数名称 参数说明 参数默认值 是否必填
最小置信度 控制序列间最小置信度的数,在关联规则的先决条件X下发生的条件下,关联结果Y发生的概率,即含有X的项集中,同时含有Y的可能性 支持double/float类型,在(0,1)之间 -
最小支持度 控制序列频繁度的系数,指在所有项集中{X,Y}出现的可能性,即项集中同时含有X和Y的概率 支持double/float类型,在(0,1)之间 -

字段配置

字段名称 字段说明 字段默认值 是否必配
项集列 输入模型的项集样本列 必选 支持Double/Int类型字段 必填

输出节点的字段配置说明

  运行后不生成新字段。后续节点可以直接选择字段。

results matching ""

    No results matching ""