机器学习算法04 - 逻辑回归
逻辑回归
机器学习基本算法之一的逻辑回归方法的基本原理,其要点如下:
- 逻辑回归模型是对线性回归的改进,用于解决分类问题;
- 逻辑回归输出的是实例属于每个类别的似然概率,似然概率最大的类别就是分类结果;
- 在一定条件下,逻辑回归模型与朴素贝叶斯分类器是等价的;
- 多分类问题时可以通过多次使用二分类逻辑回归或者使用 Softmax 回归解决。
逻辑回归 & 线性回归
从数学角度看,线性回归和逻辑回归之间的渊源来源于非线性的对数似然函数;而从特征空间的角度看,两者的区别则在于数据判定边界的变化。判定边界可以类比为棋盘上的楚河汉界,边界两侧分别对应不同类型的数据。
以最简单的二维平面直角坐标系为例。受模型形式的限制,利用线性回归只能得到直线形式的判定边界;逻辑回归则在线性回归的基础上,通过对数似然函数的引入使判定边界的形状不再受限于直线,而是推广为更加复杂的曲线形式,更加精细的分类也就不在话下。
逻辑回归 & 朴素贝叶斯分类器
- 同一个模型,不同结果
即便原理不同,逻辑回归与朴素贝叶斯分类器在特定的条件下依然可以等效。 朴素贝叶斯方法和逻辑回归模型学习到的是同一个模型。
逻辑回归与线性回归的关系称得上系出同门,与朴素贝叶斯分类的关系则是殊途同归。两者虽然都可以利用条件概率 P(Y|X) 完成分类任务,实现的路径却截然不同。
朴素贝叶斯分类器是生成模型的代表,其思想是先由训练数据集估计出输入和输出的联合概率分布,再根据联合概率分布来生成符合条件的输出,P(Y|X) 以后验概率的形式出现。
逻辑回归模型则是判别模型的代表,其思想是先由训练数据集估计出输入和输出的条件概率分布,再根据条件概率分布来判定对于给定的输入应该选择哪种输出,P(Y|X) 以似然概率的形式出现。
- 模型假设
两者的区别在于当朴素贝叶斯分类的模型假设不成立时,逻辑回归和朴素贝叶斯方法通常会学习到不同的结果。当训练样本数接近无穷大时,逻辑回归的渐近分类准确率要优于朴素贝叶斯方法。而且逻辑回归并不完全依赖于属性之间相互独立的假设,即使给定违反这一假设的数据,逻辑回归的条件似然最大化算法也会调整其参数以实现最大化的数据拟合。相比之下,逻辑回归的偏差更小,但方差更大。
- 收敛速度
两者的区别还在于收敛速度的不同。逻辑回归中参数估计的收敛速度要慢于朴素贝叶斯方法。
- 训练数据集
当训练数据集的容量较大时,逻辑回归的性能优于朴素贝叶斯方法;但在训练数据稀缺时,两者的表现就会发生反转。
还没有评论,来说两句吧...