机器学习之softmax回归

@(机器学习)[回归]Softmax回归详解在softmax回归中，我们解决的是多分类问题（相对于logistic回归解决的二分类问题），标记yy可以取kk个不同的值。对于训练集{(x(1),y(1)),⋯,(x(m),y(m))}\{(x^{(1)},y^{(1)}),\cdots,(x^{(m)},y^{(m)})\}，我们有y(1)∈{1,2,⋯,k}y^{(1)}\in \{1,2,\cd

lankuohsing

887人浏览 · 2017-06-29 21:18:07

lankuohsing · 2017-06-29 21:18:07 发布

@(机器学习)[回归]
#Softmax回归详解
在softmax回归中，我们解决的是多分类问题（相对于logistic回归解决的二分类问题），标记 $y$ 可以取 $k$ 个不同的值。对于训练集 $,(x(m),y(m))}\{(x^{(1)},y^{(1)}),\cdots,(x^{(m)},y^{(m)})\}$ ，我们有 $,k}y^{(1)}\in \{1,2,\cdots,k\}$ 。
对于给定的测试输入 $x$ ，我们相拥假设函数针对每一个类别 $j$ 估算出概率值 $P (y = j ∣ x)$ 。因此，我们的假设函数要输出一个 $k$ 维的向量（向量元素的和为1）类表示 $k$ 个估计的概率值。我们采用如下形式的假设函数 $hθ(x)h_{\theta}(x)$ ：
$h_{\theta}(x^{(i)})= \begin{bmatrix} P(y^{(i)}=1|x^{(i)};\theta) \\ P(y^{(i)}=2|x^{(i)};\theta) \\ \vdots \\ P(y^{(i)}=10|x^{(i)};\theta) \end{bmatrix} =\frac{1}{\sum_{j=1}^ke^{\theta_j^Tx^{(i)}}}= \begin{bmatrix} e^{\theta_1^Tx^{(i)}} \\ e^{\theta_2^Tx^{(i)}} \\ \vdots \\ e^{\theta_k^Tx^{(i)}} \end{bmatrix} \tag{1}$
参数 $θ\theta$ 是一个 $k×(n+1)k\times (n+1)$ 的参数矩阵
$P(y^{(i)}|x^{(i)};\theta)=\prod_{j=1}^k\left\{\frac{e^{\theta_j^Tx^{(i)}}}{\sum_{l=1}^ke^{\theta_l^Tx^{(i)}}}\right\}^{1(y^{(i)}=j)} \tag{2}$
似然函数为：
$\begin{align*} L(\theta) &=P(\boldsymbol{Y}|\boldsymbol{X};\theta) \\ &=\prod_{i=1}^{m}P(y^{(i)}|x^{(i)};\theta) \\ &=\prod_{i=1}^{m}\prod_{j=1}^k\left\{\frac{e^{\theta_j^Tx^{(i)}}}{\sum_{l=1}^ke^{\theta_l^Tx^{(i)}}}\right\}^{1(y^{(i)}=j)}\\ \tag{3} \end{align*}$
对数似然函数为：
$\begin{align*} l(\theta) &=\log L(\theta) \\ &=\sum_{i=1}^{m}\sum_{j=1}^k1(y^{(i)}=j)\log{\frac{e^{\theta_j^Tx^{(i)}}}{\sum_{l=1}^ke^{\theta_l^Tx^{(i)}}}}\\ \tag{4} \end{align*}$
我们将训练模型参数 $θ\theta$ 使其能够最小化代价函数：
$J(\theta)=-\frac{1}{m}\left[\sum_{i=1}^{m}\sum_{j=1}^k1(y^{(i)}=j)\log{\frac{e^{\theta_j^Tx^{(i)}}}{\sum_{l=1}^ke^{\theta_l^Tx^{(i)}}}}\right] \tag{5}$