逻辑回归（logistic regression）损失函数（loss function）推导

逻辑回归（logistic regression）逻辑回归（LR）可以看做线性回归（linear regression）的拓展，二者的区别是：逻辑回归的结果为0或1，即分类；线性回归的结果是连续值，即回归1。Binary LR本文重点在二分类逻辑回归，其一般形式为：y^=σ(z)=σ(xTw) .\hat{y}=\sigma(z)=\sigma(\boldsymbol{x^T}\boldsymbo

亲亲Friends

11713人浏览 · 2021-04-09 13:03:35

亲亲Friends · 2021-04-09 13:03:35 发布

逻辑回归（logistic regression）

逻辑回归（LR）可以看做线性回归（linear regression）的拓展，二者的区别是：逻辑回归的结果为0或1，即分类；线性回归的结果是连续值，即回归¹。

Binary LR

本文重点在二分类逻辑回归，其一般形式为：
$\hat{y}=\sigma(z)=\sigma(\boldsymbol{x^T}\boldsymbol{w})\,.$
注意，这里 $\sigma(z)$ 是Sigmoid函数²：
$\sigma(z)=\frac{1}{1+e^{-z}}\,.$

Loss Function

对于分类问题，我们一般用交叉熵³（Cross Entropy）当损失函数。对于LR这种二分类问题，交叉熵简化为Binary Cross Entropy，即：

$\ell=-y\log(\hat{y})-(1-y)\log(1-\hat{y})\,.$

但是在阅读一些论文⁴时，我发现里面LR的损失函数是这样的：
$\ell=\log(1+e^{\boldsymbol{x^T}\boldsymbol{w}})-y\boldsymbol{x^T}\boldsymbol{w}\,.$
本以为这个文章用的不是Binary Cross Entropy，直到我在StackExchange⁵上看了一个回答，才发现这俩函数可以互相推导！我现在重新推一遍，给自己加深下印象，也方便以后查阅。

推导过程

主要参考这个页面⁶。

推导之前，先给出Sigmoid函数的一个性质，即 $\sigma(-z)=1-\sigma(z)$ ：
$\sigma(-z)=\frac{1}{1+e^{z}}=1-\frac{1}{1+e^{-z}}=\frac{e^{-z}}{1+e^{-z}}\,.$

为了阅读方便，我从Binary Cross Entropy的相反数推导，最后取负：
$-\ell=y\log\sigma(z)+(1-y)\log(1-\sigma(z)) \\ =y(\log\sigma(z)-\log\sigma(-z)) + \log\sigma(-z)\\ =y\log\frac{\sigma(z)}{\sigma(-z)}+ \log\sigma(-z)\\ =y\log\left(\frac{1+e^z}{1+e^{-z}}\right)+ \log\sigma(-z)\\ =y\log\left(\frac{e^z(e^{-z}+1)}{1+e^{-z}}\right)+ \log\sigma(-z)\\ =yz+ \log\sigma(-z)\\ =y\boldsymbol{x^T}\boldsymbol{w}-\log(1+e^z)\,.$
最后，取负，可得：
$\ell=\log(1+e^{\boldsymbol{x^T}\boldsymbol{w}})-y\boldsymbol{x^T}\boldsymbol{w}\,.$
证毕。

值得一提的是，上述推导中隐含了这一步 $log e^z=z$ ，但是交叉熵的 $\log$ 基底一般为2，所以更准确的推导应该是：
$\log_2e^z=\frac{\log_ee^z}{\log_e2}=\frac{z}{\log_e2}\,.$
公式中 $log_e2$ 只是一个简单的常数，我们在推导过程中可以直接省略，对损失函数的解不会产生影响。关于 $\log$ 的换底公式，请参考这篇文章⁷。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

告别闲鱼盯店！自动回复系统 + cpolar，副业党也能轻松管店

2048 AI社区

【无标题】

首个完整的 Claude Skills 中文适配项目，16 个官方 AI 技能模板全部翻译，**支持 GPT/CodeX等多种模型（需基座模型支持agent skill）**！

2048 AI社区

原型污染漏洞基础

定义：原型污染是指攻击者通过特定手段，向基础对象原型（如Object.prototype）或应用中广泛使用的构造函数原型中注入恶意属性，导致所有继承自该原型的对象自动拥有这些属性，从而改变应用程序逻辑或行为的攻击手法。图释：在污染发生后，任何自身及直接原型链上不包含pollutedProperty的对象，在查找该属性时，最终都会走到被污染的Object.prototype，从而返回攻击者设置的“恶