组件名称

  朴素贝叶斯 [版本号:1] [更新时间:2018-05-08]

简介

  朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。朴素贝叶斯分类器(Naive Bayes Classifier,或 NBC)发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。同时,NBC模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。理论上,NBC模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此,这是因为NBC模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,这给NBC模型的正确分类带来了一定影响。朴素贝叶斯分类器基于一个简单的假定:给定目标值时属性之间相互条件独立。 朴素贝叶斯模型中,特征之间不仅仅是独立的,而且是加条件的独立的。在特征向量x中,有n个特征,则概率写成下面的形式: P(xωj)=P(x1ωj)P(x2ωj)P(x3ωj)P(xnωj)=k=1nP(xkωj)P(x|\omega_j) = P(x_1|\omega_j) * P(x_2|\omega_j) * P(x_3|\omega_j) * \ldots * P(x_n|\omega_j) = \prod^n_{k=1}P(x_k|\omega_j) P(x|ωj)的概率我们可以理解成:在给定属于某个类别的条件下,观察到出现现象x的概率。在特征向量中的每个特点的概率我们都可以通过极大似然估计(maximum-likelihood estimate)来求得,也就是简单地求某个特征在某个类别中的频率,公式如下: P(xiωj)=NxiωjNωj(i=(1,,n))P(x_i|\omega_j) = \frac{N_{x_i|\omega_j}}{N_{\omega_j}} \qquad (i = (1, \ldots, n)) NxiωjN_{x_i|\omega_j}:在所有属于类别ωj\omega_j的训练样本中,特征xix_i出现的次数 NωjN_{\omega_j}:在所有属于类别ωj\omega_j的训练样本中,所有特征出现的次数 先验概率: p(ωj)=NωjNcp(\omega_j) = \frac{N_{\omega_j}}{N_c} NωjN_{\omega_j}:属于类ωj\omega_j的样本数 NcN_c:所有的样本数 通过上面后验概率的公式,可知:如果先验概率服从均匀分布,那么后验概率将完全取决于条件概率和现象概率,然而现象概率是常量,所以后验概率就完全取决于条件概率了。 避免0概率的发生,我们可以加上平滑项。把上面条件概率的公式改为下面的形式: P(xiωj)=Nxiωj+αNωj+αn(i=(1,,n))P(x_i|\omega_j) = \frac{N_{x_i|\omega_j} + \alpha}{N_{\omega_j} + \alpha n} \qquad (i = (1, \ldots, n)) NxiωjN_{x_i|\omega_j}:在所有属于类别ωj\omega_j的训练样本中,特征xix_i出现的次数 NωjN_{\omega_j}:在所有属于类别ωj\omega_j的训练样本中,所有特征出现的次数 α:附加的平滑项参数。α <1叫做Lidstone smoothing ;α=1叫做Laplace smoothing n:特征数

输入和输出

  输入端口个数:1

  输出端口个数:1

参数配置

参数名称 参数说明 参数默认值 是否必填
模型类型 支持multinomial(多分类贝叶斯)和bernoulli(伯努利贝叶斯)两种,多项式贝叶斯能处理有限的离散数据,比如将文本数据转换成TF_IDF向量被用于文档分类,将向量转换成0/1的数值,则通常使用伯努利贝叶斯,特征值不可为负 可选 multinomial 必填
平滑项参数 默认是1.0,为Laplace smoothing,大于0小于1是Lidstone smoothing,可选 1 必填

字段配置

字段名称 字段说明 字段默认值 是否必配
特征列 输入模型的样本特征列 必选 支持Double/Int类型字段 必填
标签列 输入模型的样本类别标签列 必选 支持Double/Int类型字段 必填

输出节点的字段配置说明

  运行后不生成新字段。后续节点可以直接选择字段。

results matching ""

    No results matching ""