Skip to content

逻辑回归

逻辑回归(Logistics Regression),逻辑回归虽然带有回归字样,但是逻辑回归属于分类算法。逻辑回归可以进行多分类操作,但由逻辑回归算法本身性质决定其更常用于二分类。怎么解决分类问题?将样本特征和样本发生的概率联系起来,概率是一个数。

一、算法原理

1、特征

逻辑回归: 一种分类算法,解决分类问题,主要用于二分类问题。用来预测某个事情是“是或者否”这样的概率。

回归的输出是连续的,而分类模型的输出是离散的。

2、一元线性回归

  • 线性回归是用一条直线去拟合x和y的关系
  • 逻辑回归是通过找一个Y值点对应的X点,然后进行二分类

逻辑回归 = 线性回归 + sigmod函数

二、平滑函数

1、sigmoid函数

在数学中,我们通常会采一取一些平滑函数,去减小极端值对于整体分布的影响,让整体的分布看起来更集中一点。

  • 逻辑回归的平滑函数是sigmoid函数,它将线性回归的输出映射到0到1之间的概率值,从而实现分类。
  • sigmoid函数的数学表达式为:f(y) = 1 / (1 + e^(-y)),其图像呈现出S形曲线,具有平滑的过渡特性。
  • 在逻辑回归中,输出结果的范围被固定在0到1之间,通常设定一个阈值来判断样本的类别。

假如线性回归的函数是 y=ax+b,这个函数的结果是一些连续的数值,那 sigmod 函数,就可以把 每一个 y 映射成 0-1 之间 的一个具体值。

2、总结

三、逻辑回归的最优解

1、交叉熵函数

在逻辑回归里,采用 交叉熵函数 的输出结果作为损失函数的评估目标。 根据它来更新逻辑回归中的参数,再通过这些参数让整体的分布更加准确。

  • 对于一个给定的样本,当模型预测的概率分布与真实分布越接近时,交叉熵损失值越小,接近于0
  • 当预测分布与真实分布差异越大时,交叉熵损失值越大,趋于无穷大

2、二分类交叉熵损失函数

对于二分类问题,交叉熵损失函数公式为:

js
L = - [y * log(p) + (1 - y) * log(1 - p)]

图像如下

四、逻辑回归与KNN算法对比

五、应用场景

根据学生的学习时间,来预测他们是否会考试及格。

如果我们试图用线性回归来拟合这些数据,那么 100 小时这个极端值会对回归线产生很大的影响。

但是由于逻辑回归使用了 Sigmoid 函数作为它的激活函数,即使输入值非常大或非常小,Sigmoid 函数也只是会趋近于 1 或 0,但不会持续得增长或减小。 所以极端值对它的影响就是有限的。

总的来说,逻辑回归模型作为基础的分类模型,它可以告诉你一个事件发生的概率,也就是 帮你判断一个事件的可能结果。所以除了预测商品点击和购买率之外,我们还可以通过逻辑 回归模型进行股票市场的分析判断,对股票形势进行预测。此外,逻辑回归模型也广泛应用 在智能领域中,比如我们手机中指纹解锁、面部识别、智能医疗等等。

六、算法优缺点

优点:

  • 运算效率高
  • 可解释性强
  • 鲁棒性好

鲁棒性(Robustness)是一个系统、模型或算法在面对不确定性、干扰或异常情况时仍然能够正常、稳定地工作的能力。在统计学和机器学习中,当我们说一个模型具有鲁棒性,我们通常指的是该模型对于异常数据、噪声或其他不常见的情况不容易受到影响。

缺点:

  • 预测的精度低
  • 局限性大

Released under the MIT License.