组件名称

  缺失值填充 [版本号:2] [更新时间:2018-09-11]

历史版本

  版本号:1

简介

  缺失值填充:针对数据集中,各字段缺失的情况。采取一定规则进行填充。组件中主要采取三种填充方法,针对数值型的字段采取该字段的非空值的中值和均值进行填充;针对字符型的字段采取统一的标注字符填充,即生成新类别。

组件详情

  对于某个对象的属性值未知的情况,我们称它在该属性的取值为空值(null value)。可以把空值分成以下三类:

1)不存在型空值。即无法填入的值,或称对象在该属性上无法取值,如一个未婚者的配偶姓名等。

2)存在型空值。即对象在该属性上取值是存在的,但暂时无法知道。一旦对象在该属性上的实际值被确知以后,人们就可以用相应的实际值来取代原来的空值,使信息趋于完全。存在型空值是不确定性的一种表征,该类空值的实际值在当前是未知的。但它有确定性的一面,诸如它的实际值确实存在,总是落在一个人们可以确定的区间内。一般情况下,空值是指存在型空值。

3)占位型空值。即无法确定是不存在型空值还是存在型空值,这要随着时间的推移才能够清楚,是最不确定的一类。这种空值除填充空位外,并不代表任何其他信息。

  数据缺失在许多研究领域都是一个复杂的问题。对数据挖掘来说,空值的存在,造成了以下影响:首先,系统丢失了大量的有用信息;第二,系统中所表现出的不确定性更加显著,系统中蕴涵的确定性成分更难把握;第三,包含空值的数据会使挖掘过程陷入混乱,导致不可靠的输出。 数据挖掘算法本身更致力于避免数据过分适合所建的模型,这一特性使得它难以通过自身的算法去很好地处理不完整数据。因此,空缺的数据需要通过专门的方法进行推导、填充等,以减少数据挖掘算法与实际应用之间的差距。

  组件中主要采取三种填充方法,针对数值型的字段采取该字段的非空值的中值和均值进行填充;针对字符型的字段采取统一的标注字符填充,即生成新类别。

输入和输出

  输入端口个数:1

  输出端口个数:1

参数配置

  

字段配置

  

输出节点的字段配置说明

  运行后会生成新字段。输出节点如果需要选择当前节点的字段,需要先运行当前节点,可以采用小数据量运行方式:“从前面节点运行到当前节点”。

results matching ""

    No results matching ""