组件名称

  异常值过滤—检测 [版本号:2] [更新时间:2018-09-16]

历史版本

  版本号:1

简介

  异常值定义:由于系统误差,人为误差或者固有数据的变异使得他们与总体的行为特征,结构或相关性等不一样,这部分数据称为异常值。平台中主要涉及两类方法:3σ探测方法和四分位数展布法。输出结果集可以选择输出异常记录或者输出正常记录两种类型。  3σ探测方法的思想其实就是来源于切比雪夫不等式。 对于任意ε>0,有:P(XE(x)>=ε)<=D(X))ε2P(|X-E(x)|>=\varepsilon )<=\frac{D(X))}{\varepsilon ^{2}}ε=3σ\varepsilon =3\sigma时,如果总体为一般总体的时候,统计数据与平均值的离散程度可以由其标准差D(x)=σ\sigma反映,因此有:P(XE(x)>=3σ)<=D(X))(3σ)20.11P(|X-E(x)|>=3\sigma )<=\frac{D(X))}{(3\sigma )^{2}}\approx 0.11。 一般所有数据中,至少有3/4(或75%)的数据位于平均数2个标准差范围内。所有数据中,至少有8/9(或88.9%)的数据位于平均数3个标准差范围内。所有数据中,至少有24/25(或96%)的数据位于平均数5个标准差范围内。所以如果我们一般是把超过三个离散值的数据称之为异常值。这个方法在实际应用中很方便的使用,但是他只有在单个属性的情况下才适用。

组件详情

(1)3σ探测方法

  3σ探测方法的思想其实就是来源于切比雪夫不等式。 对于任意ε>0,有:P(XE(x)>=ε)<=D(X))ε2P(|X-E(x)|>=\varepsilon )<=\frac{D(X))}{\varepsilon ^{2}}ε=3σ\varepsilon =3\sigma时,如果总体为一般总体的时候,统计数据与平均值的离散程度可以由其标准差D(x)=σ\sigma反映,因此有:P(XE(x)>=3σ)<=D(X))(3σ)20.11P(|X-E(x)|>=3\sigma )<=\frac{D(X))}{(3\sigma )^{2}}\approx 0.11。 一般所有数据中,至少有3/4(或75%)的数据位于平均数2个标准差范围内。所有数据中,至少有8/9(或88.9%)的数据位于平均数3个标准差范围内。所有数据中,至少有24/25(或96%)的数据位于平均数5个标准差范围内。所以如果我们一般是把超过三个离散值的数据称之为异常值。这个方法在实际应用中很方便的使用,但是他只有在单个属性的情况下才适用。

(2)四分位数展布法

  把数据按照从小到大排序,其中25%为上四分位用FLF_{L}表示,75%处为下四分位用FUF_{U}表示。 计算展布为:dF=FLFUd_{F}=F_{L}-F_{U} 上截断为:FL+1.5dFF_{L}+1.5d_{F} 下截断点为:FU1.5dFF_{U}-1.5d_{F} 上面的参数1.5不是绝对的,而是根据经验,但是效果很好哦。我们把异常值定义为大于上截断点,或者小于下截断点的数据称为异常值。 优点:与方差和极差相比,更加不如意受极端值的影响,且处理大规模数据效果很好。 缺点:小规模处理略显粗糙。而且只适合单个属相的检测。

输入和输出

  输入端口个数:1

  输出端口个数:1

参数配置

  

字段配置

  

输出节点的字段配置说明

  运行后会生成新字段。输出节点如果需要选择当前节点的字段,需要先运行当前节点,可以采用小数据量运行方式:“从前面节点运行到当前节点”。

results matching ""

    No results matching ""