cross entropy，logistic loss 和 KL-divergence的关系和区别

先给出结论：cross entropy和KL-divergence作为目标函数效果是一样的，从数学上来说相差一个常数。logistic loss 是cross entropy的一个特例1. cross entropy和KL-divergence假设两个概率分布p(x)p(x)p(x)和q(x)q(x)q(x)， H(p,q)H(p,q)H(p,q)为cross entro...

adrianna_xy

20586人浏览 · 2017-07-14 15:00:19

adrianna_xy · 2017-07-14 15:00:19 发布

先给出结论：

cross entropy和KL-divergence作为目标函数效果是一样的，从数学上来说相差一个常数。
logistic loss 是cross entropy的一个特例

1. cross entropy和KL-divergence

假设两个概率分布p(x)<script id="MathJax-Element-1" type="math/tex">p(x)</script>和q(x)<script id="MathJax-Element-2" type="math/tex">q(x)</script>， H(p,q)<script id="MathJax-Element-3" type="math/tex">H(p,q)</script>为cross entropy，DKL(p|q)<script id="MathJax-Element-4" type="math/tex">D_{KL}(p|q)</script>为 KL divergence。

交叉熵的定义：

H (p, q) = - \sum x p (x) log q (x)

KL divergence的定义：

D K L (p | q) = \sum x p (x) log p ( x ) q ( x )

推导：

D K L (p | q) = \sum x p (x) log p ( x ) q ( x ) = \sum x (p (x) log p (x) - p (x) log q (x)) = - H (p) - \sum x p (x) log q (x) = - H (p) + H (p, q) (1) (2) (3) (4)

也就是说，cross entropy也可以定义为：

H (p, q) = D K L (p | q) + H (p)

直观来说，由于p(x)是已知的分布，H(p)是个常数，cross entropy和KL divergence之间相差一个常数。

2. logistic loss 和cross entropy

假设p∈{y,1−y}<script id="MathJax-Element-12" type="math/tex">p \in \{y,1-y\}</script> ，q∈{y^,1−y^}<script id="MathJax-Element-13" type="math/tex"> q \in \{ \hat y,1-\hat y \}</script>， cross entropy可以写为logistic loss：