组件名称

  逻辑回归二分类 [版本号:1] [更新时间:2018-05-08]

简介

  逻辑回归算法组件是数据超市机器学习模块下的分类算法组件。

1.1 线性模型

见“线性回归组件”介绍

1.2 逻辑回归

逻辑回归,可以简单理解成线性回归的结果加上了一个Sigmoid函数,即y=11+exy=\frac{1}{1+{e}^{-x}} 从本质上来说,加上Sigmoid函数的目的在于能够将函数输出的值域从(−∞,∞)映射到(0,1)之间,于是可以说逻辑回归的输出能够代表一个事件发生的概率。 逻辑分类的目标函数和单样本损失函数是: y=sigmoid(ωTx+b)y=sigmoid({\vec{\omega }}^{T}\vec{x}+b) ε=ylog(y^)(1y)log(1y^)\varepsilon =-y\log(\hat{y})-(1-y)\log(1-\hat{y}) 这里的复杂的损失函数构造了一个凸函数(凸函数可以有全局最优解)。逻辑回归模型虽然名字带有回归,实际上一般用于二分类问题。即对设置一个阈值(一般是0.5),便实现了二分类问题。

1.3求解参数优化方法

求解参数的优化方法:针对逻辑回归算法,经典的数值优化算法比如梯度下降法、牛顿法等都可以求得其最优解。

1.4 正则化

见“线性回归组件”介绍

输入和输出

  输入端口个数:1

  输出端口个数:1

参数配置

参数名称 参数说明 参数默认值 是否必填
正则化项系数 平衡loss和正则化项的大小以使得模型的训练误差和泛化能力达到最优,可选 0 必填
弹性网络混合参数 弹性网络混合参数值在[0, 1]的范围之间。当值为0时为L2范数正则化惩罚项,当值为1时为L1范数正则化惩罚项 可选 0 必填
是否设置截距项 True 必填
最小收敛误差 1e-06 必填
最大迭代次数 100 必填
阈值 二分类预测用阈值来判断类别,范围在[0, 1]区间. 可选 0.5 必填

字段配置

字段名称 字段说明 字段默认值 是否必配
特征列 输入模型的样本特征列 必选 支持Double/Int类型字段 必填
标签列 输入模型的样本类别标签列 必选 支持Double/Int类型字段 必填

输出节点的字段配置说明

  运行后不生成新字段。后续节点可以直接选择字段。

results matching ""

    No results matching ""