组件名称

  逻辑回归多分类 [版本号:1] [更新时间:2018-05-08]

简介

  逻辑回归多分类算法组件是数据超市机器学习模块下的分类算法组件,既可以用于多分类也可以用于二分类。当算法适用在多分类场景中实质是使用逻辑回归算法建立k个独立的二元分类器。与Softmax回归多分类算法相反,该算法适用于要预测的类别是非互斥场景。

1.1 线性模型

见“线性回归组件”介绍

1.2 逻辑回归

见“逻辑回归二分类组件”介绍。

1.3 OneVsRest

逻辑回归多分类是逻辑回归在多分类场景的一种推广。多分类的策略是利用二分类器来解决多分类问题,也就是将多分类学习任务拆分成多个二分类任务进行求解。具体来说,先对问题进行拆分,然后为拆出的每个二分类任务训练一个分类器;在测试时,对这些分类器的预测结果进行集成以获得最终的多分类结果。经典的拆分策略有:“一对一”(One vs. One,简称OvO),“一对多”(One vs. Rest). 给定数据集D={(x1,y1),(x2,y2),,(xm,ym)}D=\left\{(x_1,y_1),(x_2,y_2),\ldots,(x_m,y_m)\right \},yiϵ{C1,C2,,CN}y_i\epsilon \left \{ C_1,C_2,\ldots ,C_N \right \}.OvO将这N个类别两两配对,从而产生N(N-1)/2个二分类任务,例如OvO将为区分类别CiC_iCjC_j训练一个分类器,该分类器把DD中的CiC_i类样例作为正例,CjC_j类样例作为反例。在测试阶段,新样本将同时提交给所有的分类器,于是就得到N(N-1)/2个分类结果,最终结果可通过投票产生:即把被预测得最多的类别作为最终分类结果。而OvR则是每次将一个类的样例作为正例、所有其他类的样例作为反例来训练N个分类器。在测试时若仅有一个分类器预测为正类,则对应的类别标记作为最终分类结果,若有多个分类器预测为正类,则通常考虑各分类器的预测置信度,选择置信度最大的类别标签作为分类结果。针对逻辑回归多分类内部采用的是OvR的拆分策略进行多分类求解。

1.3求解参数优化方法

见“逻辑回归二分类”组件

1.4 正则化

见“逻辑回归二分类”组件

输入和输出

  输入端口个数:1

  输出端口个数:1

参数配置

参数名称 参数说明 参数默认值 是否必填
正则化项系数 平衡loss和正则化项的大小以使得模型的训练误差和泛化能力达到最优,可选 0 必填
弹性网络混合参数 弹性网络混合参数值在[0, 1]的范围之间。当值为0时为L2范数正则化惩罚项,当值为1时为L1范数正则化惩罚项 可选 0 必填
是否设置截距项 True 必填
最小收敛误差 1e-06 必填
最大迭代次数 100 必填
阈值 二分类预测用阈值来判断类别,范围在[0, 1]区间. 可选 0.5 必填

字段配置

字段名称 字段说明 字段默认值 是否必配
特征列 输入模型的样本特征列 必选 支持Double/Int类型字段 必填
标签列 输入模型的样本类别标签列 必选 支持Double/Int类型字段 必填

输出节点的字段配置说明

  运行后不生成新字段。后续节点可以直接选择字段。

results matching ""

    No results matching ""