组件名称

  卡方特征选择器 [版本号:1] [更新时间:2018-05-08]

简介

  该组件属于特征工程下的组件,特征选择(Feature Selection)指的是在特征向量中选择出那些“优秀”的特征,组成新的、更“精简”的特征向量的过程。它在高维数据分析中十分常用,可以剔除掉“冗余”和“无关”的特征,提升学习器的性能。 特征选择方法和分类方法一样,也主要分为有监督(Supervised)和无监督(Unsupervised)两种,卡方选择则是统计学上常用的一种有监督特征选择方法,它通过对特征和真实标签之间进行卡方检验,来判断该特征和真实标签的关联程度,进而确定是否对其进行选择。 使用卡方检验对特征与应变量进行独立性检验,如果独立性高,那么表示两者没太大关系,特征可以舍弃;如果独立性小,两者相关性高,则说明该特征会对应变量产生比较大的影响,应当选择。它适用于带有类别特征的标签数据。

输入和输出

  输入端口个数:1

  输出端口个数:1

参数配置

参数名称 参数说明 参数默认值 是否必填
假阳性率小于阈值的特征[0~1](fdr) 假阳性率低于阈值的特征将会被选择出来,此方法使用Benjamini-Hochberg procedure控制 false discovery rate来进行特征选择(fdr即错误拒绝(拒绝真的(原)假设)的个数占所有被拒绝的原假设个数的比例的期望值) 可选 0.05 -
预测能力最强的前num[num必须大于0]个特征(numTopFeatures) 设置固定的提取特征的数量,程序会根据卡方值的高低返回前num个卡方值最高的特征。(预测能力最强的前num个特征) 可选 1 -
p值低于阈值的特征[0~1](fwe) p值低于阈值的特征将会被选择出来,此阈值使用1/numFeatures来进行缩放, 以控制family-wise error rate(fwe即至少出现一次错误地拒绝真实H0的可能性)来进行特征选择 可选 0.05 -
特征选择方法 选择器支持的不同的特征选择方法 可选 numTopFeatures -
全量数据保存 节点输出的全量数据是否保存至数据库;若保存,会增加时间及存储资源开销 可选 No -
预测能力最强的一定比例[0~1]的特征(percentile) 同选取一小部分特征而不是固定(num)个特征 可选 0.1 -
p值低于显著性水平的特征[0~1](fpr) 预先设定一个显著性水平α,所有p值低于α的特征将会被选择出来,此方法可以控制false positive rate来进行特征选择 可选 0.05 -
全量数据表名 全量数据表名,表名可以是中文 可选 -

字段配置

字段名称 字段说明 字段默认值 是否必配
特征列 输入选择器的样本特征列 必选 支持Double/Int类型字段 必填
标签列 输入模型的样本类别标签列 必选 支持Double/Int类型字段 必填

输出节点的字段配置说明

  运行后不生成新字段。后续节点可以直接选择字段。

results matching ""

    No results matching ""