Logistic逻辑回归模型与参数估计

一、引言线性回归的因变量是连续变量，而逻辑回归解决的是因变量是分类变量的问题。当然，自变量既可以是连续的也可以是分类的，但是分类变量做自变量前需要做哑变量处理。逻辑回归将分类因变量的0、1等值转换为取其值的概率，将二分类模型转换为线性函数模型，转换后模型课表示为lnp(y=1)1−p(y=1)=β0+β1x1+...+βpxp+εln\frac{p(y=1)}{1-p(y=1)}=\beta_{

贪心西瓜

12637人浏览 · 2021-04-14 17:00:01

贪心西瓜 · 2021-04-14 17:00:01 发布

一、引言

线性回归的因变量是连续变量，而逻辑回归解决的是因变量是分类变量的问题。当然，自变量既可以是连续的也可以是分类的，但是分类变量做自变量前需要做哑变量处理。

逻辑回归将分类因变量的0、1等值转换为取其值的概率，将二分类模型转换为线性函数模型，转换后模型课表示为
$ln\frac{p(y=1)}{1-p(y=1)}=\beta_{0}+\beta_{1}x_{1}+...+\beta_{p}x_{p}+\varepsilon$
即 $lnE(y)1−E(y)ln\frac{E(y)}{1-E(y)}$ 是 $x_{1},x_{2},...,x_{p}$ 的线性函数， $logit[p(y=1)]=ln[p(y=1)1−p(y=1)]logit[p(y=1)]=ln[\frac{p(y=1)}{1-p(y=1)}]$ 就是Logit转换。也可以转换为
$\frac{exp(\beta_{0}+\beta_{1}x_{1}+...+\beta_{p}x_{p})}{1+exp(\beta_{0}+\beta_{1}x_{1}+...+\beta_{p}x_{p})}$

二、回归模型估算方法

Logistic回归模型有两种估算方法，一种是加权最小二乘法估计，用于分组数据的Logistic回归模型；另一种是最大似然估计，用于未分组数据的Logistic回归模型。

2.1 分组数据的Logistic回归模型

分组数据的Logistic回归模型也可以称为分层逻辑回归，分类因变量的每一个可能取值都能得到一个属于此取值的样本，且样本由此取值对应的原始数据统计得到，然后得到回归模型。这种方式的回归样本数等于分类因变量可能取值的个数。

下表9-5为例，分类因变量一共有9个可能取值，即 $i = 1, 2, . . ., 9$ 。用家庭收入 $x$ 作为自变量（由每一类可能取值对应的原始数据的平均值得到），回归模型为 $pi′=β0+β1x，pi′=lnpi1−pi{p_{i}}'=\beta_{0}+\beta_{1}x，{p_{i}}'=ln\frac{p_{i}}{1-p_{i}}$ ，回归样本数为9。
在这里插入图片描述
对于每一个因变量的取值（对于每一个样本 $i = 1, 2, . . ., 9$ ）：
$p_{i}= \frac{exp(\beta_{0}+\beta_{1}x_{i1}+...+\beta_{p}x_{ip})}{1+exp(\beta_{0}+\beta_{1}x_{i1}+...+\beta_{p}x_{ip})}, i=1,2,...,9$
即
$ln\frac{p_{i}}{1-p_{i}}=\beta_{0}+\beta_{1}x_{i1}+...+\beta_{p}x_{ip}, i=1,2,...,n$
用9个样本回归后，得到
$p^=exp(β0^+β1^x1+...+βp^xp)1+exp(β0^+β1^x1+...+βp^xp \widehat{p}= \frac{exp(\widehat{\beta_{0}}+\widehat{\beta_{1}}x_{1}+...+\widehat{\beta_{p}}x_{p})}{1+exp(\widehat{\beta_{0}}+\widehat{\beta_{1}}x_{1}+...+\widehat{\beta_{p}}x_{p}}$
为了避免异方差，采用加权最小二程的方式获得回归参数的估计值 $β0^,β1^,...,βp^\widehat{\beta_{0}},\widehat{\beta_{1}},...,\widehat{\beta_{p}}$ ，加权权重的计算方式为
$w_{i}=n_{i}p_{i}(1-p_{i})$
注：分组数据的Logistic回归只适用于大样本的分组数据，对小样本的未分组数据不适用，并且组数即为回归拟合的样本数，容易造成拟合精度不够。一般情况下，多采用极大似然估计直接拟合未分组数据的Logistic回归模型。

2.2 未分组数据的Logistic回归模型

假设 $n$ 组样本 $x_{i1},x_{i2},...,x_{ip};y_{i}),i=1,2,...,n$ ，其中 $y_{1},y_{2},...,y_{n}$ 是取值为0或1的随机变量， $x_{1},x_{2},...,x_{p}$ 是与 $y$ 相关的确定性变量。对于每一个样本有
$p_{i}= \frac{exp(\beta_{0}+\beta_{1}x_{i1}+...+\beta_{p}x_{ip})}{1+exp(\beta_{0}+\beta_{1}x_{i1}+...+\beta_{p}x_{ip})}, i=1,2,...,n$
即
$ln\frac{p_{i}}{1-p_{i}}=\beta_{0}+\beta_{1}x_{i1}+...+\beta_{p}x_{ip}, i=1,2,...,n$
用 $n$ 个样本回归后，得到
$p^=exp(β0^+β1^x1+...+βp^xp)1+exp(β0^+β1^x1+...+βp^xp \widehat{p}= \frac{exp(\widehat{\beta_{0}}+\widehat{\beta_{1}}x_{1}+...+\widehat{\beta_{p}}x_{p})}{1+exp(\widehat{\beta_{0}}+\widehat{\beta_{1}}x_{1}+...+\widehat{\beta_{p}}x_{p}}$
与分组数据回归不同的是，样本存在相同的 $y$ 值， $y$ 值相同的样本 $p_{i}$ 值和 $lnpi1−piln\frac{p_{i}}{1-p_{i}}$ 值相等。

利用 $n$ 组样本回归得到Logistic回归模型，样本以表9-6为例 $n = 28$
在这里插入图片描述
这种模型采用最大似然估计获得回归参数，假设为二分类逻辑回归模型，其思路定义因变量 $y$ 的联合概率密度为
$P(y_{i})=\pi_{i}^{y_{i}}(i-\pi_{i})^{1-y_{i}},y_{i}=0,1;i=1,2,...,n$
其中 $πi=exp(β0+β1x1+...+βpxp)1+exp(β0+β1x1+...+βpxp)\pi_{i}= \frac{exp(\beta_{0}+\beta_{1}x_{1}+...+\beta_{p}x_{p})}{1+exp(\beta_{0}+\beta_{1}x_{1}+...+\beta_{p}x_{p})}$ ,于是 $y_{1},y_{2},...,y_{n}$ 的似然函数为：
$L=\prod _{i=1}^nP(y_{i})=\prod _{i=1}^n\pi_{i}^{y_{i}}(i-\pi_{i})^{1-y_{i}}$
取对数后
$lnL=\sum_{i=1}^ny_{i}(\beta_{0}+\beta_{1}x_{i1}+...+\beta_{p}x_{ip})-\sum_{i=1}^nln[1+exp(\beta_{0}+\beta_{1}x_{i1}+...+\beta_{p}x_{ip})]$
用数值计算得到参数估计值 $β0^,β1^,...,βp^\widehat{\beta_{0}},\widehat{\beta_{1}},...,\widehat{\beta_{p}}$ 。

参考书：《多元统计分析》何晓群

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

AI工具实战测评：30秒读懂技术真相

AI工具测评指南摘要：本文提出了一套系统化的AI工具测评方法，从测评目标设定到最终结论输出。测评涵盖文本生成、图像处理等工具类型，重点考察功能完整性、性能指标（响应时间、准确率）及资源消耗。通过设计典型测试用例，对比同类工具优劣，并结合实际应用场景验证。最后总结工具适用性，指出改进方向，为不同用户群体提供选用建议。测评过程强调量化分析与案例验证相结合，确保评估结果客观全面。

2048 AI社区

AI生成电影预告片：代码重构影视魔法

本文探讨了利用代码自动生成电影预告片的技术方案。首先分析了预告片的核心结构元素，包括悬念设置、节奏控制和情感传递。然后详细介绍了技术实现流程：通过FFmpeg和OpenCV处理原始素材，运用深度学习进行场景分类，采用动态时间规整算法匹配音乐与剪辑节奏，并利用NLP模型优化片段排序。文章还展示了Python工具链的实现方案，包括MoviePy等库的应用，以及参数化调整和A/B测试等优化方法。最后探讨

2048 AI社区

Anaconda加速AI训练的10大秘技

本文介绍了使用Anaconda加速AI模型训练的技术方案。主要内容包括：1）环境配置优化，如配置国内镜像源、创建独立虚拟环境；2）GPU加速支持，包括CUDA/cuDNN版本匹配、安装GPU版框架；3）高效数据预处理方法，如使用Dask/Modin替代Pandas；4）分布式训练优化技术，如Horovod多节点训练和PyTorch DDP模式；5）混合精度训练配置与监控；6）缓存与流水线优化策略。