违背基本假设的几种情况——异方差性（R语言）

在建立实际问题的回归模型时，经常存在于此假设想违背的情况，一种是计量经济模型中常说的异方差性，即　　var(εi)≠var(εj),当i≠j时var(\varepsilon _{i})\neq var(\varepsilon _{j}),当i\neq j时var(εi)̸=var(εj),当i̸=j时诊断方法1.残差图分析法data4.3&amp;amp;lt;-read.

大白羊_Aries

26594人浏览 · 2019-01-20 14:20:56

大白羊_Aries · 2019-01-20 14:20:56 发布

在建立实际问题的回归模型时，经常存在于此假设想违背的情况，一种是计量经济模型中常说的异方差性，即
　　 $var(εi)≠var(εj),当i≠j时var(\varepsilon _{i})\neq var(\varepsilon _{j}),当i\neq j时$

诊断方法

1.残差图分析法

data4.3<-read.csv("C:/Users/Administrator/Desktop/data4.3.csv",head=TRUE)
lm4.3<-lm(y~x,data=data4.3)
summary(lm4.3)
e<-resid(lm4.3)  # 计算残差
attach(data4.3)
plot(x,e,ylim=c(-500,500))
abline(h=c(0),lty=5)  # 添加虚线e=0
detach(data4.3)

输出结果为：
在这里插入图片描述
从残差图看出，误差项具有明显的异方差性，误差随着 $x$ 的增加呈现出增加态势。

2.等级相关系数法

等级相关系数法又称为斯皮尔曼（Spearman）检验，是一种应用较广泛的方法。进行等级相关系数检验通常有三个步骤：
　　１.做 $y$ 关于 $x$ 的普通最小二乘回归，求出 $e_{i}$ 的值；
　　 2.取 $e_{i}$ 的绝对值，分别把 $∣ei∣\left | e_{i} \right |$ 和 $x_{i}$ 按递增或者递减的次序排列后分成等级。按照下面公式计算出等级相关系数
　　
　　 $rs=1−6n(n2−1)∑i=1ndi2r_{s}=1-\frac{6}{n(n^{2}-1)}\sum_{i=1}^{n}d_{i}^{2}$
　　
式中， $d_{i}$ 为对应于 $x_{i}$ 和 $∣ei∣\left | e_{i} \right |$ 的等级的差数。
　　３.做等级相关系数的显著性检验。在 $n > 8$ 的情况下，用下面公式对样本等级相关系数 $r_{s}$ 进行 $t$ 检验。检验的统计量为
　　
　　 $t=n−2rs1−rs2t=\frac{\sqrt{n-2}r_{s}}{\sqrt{1-r_{s}^{2}}}$

如果 $∣t∣≤tα/2(n−2)\left | t \right |\leq t_{\alpha /2}(n-2)$ ，可以认为异方差性问题不存在；反之则存在问题。
　　
代码实现如下：

abse<-abs(e)
cor.test(data4.3$x,abse,alternative="two.sided",method="spearman",conf.level=0.95)

输出结果如下：
在这里插入图片描述
　　从以上结果中看到，等级相关系数 $r_{s}=0.6858871$ ， $P$ 值为 $3.316 e - 5$ ，认为残差绝对值与自变量显著相关，存在异方差。

消除异方差的方法

1.一元加权最小二乘估计

加权最小二乘法（Weighted Least Square,WLS）是一种常用的消除异方差性的方法。
　　对于一元线性回归方程来说，普通最小二乘法的离差平方和为
　　
　　 $Q(β0,β1)=∑i=1n(yi−E(yi))2Q(\beta_{0},\beta _{1})=\sum_{i=1}^{n}(y_{i}-E(y_{i}))^{^{2}}$

其中，每个观测值的权值相同。
　　在等方差的条件下，平方和总的每一项的地位是相同的。
　　然而，在异方差的条件下，平方和中的每一项的地位是不同的，误差项方差 $σi2\sigma _{i}^{2}$ 大的项，在上式平方和中的作用就偏大，因而普通最小二乘估计的回归线就被拉向方差大的项，而方差小的项的拟合程度就差。加权最小二乘法是在平方和中加入一个适当的权值 $w_{i}$ 以调整各项在平方和中的作用。
　　一元线性回归的加权最小二乘的离差平方和为
　　
　　 $Qw(β0,β1)=∑i=1nwi(yi−E(yi))2Q_{w}(\beta_{0},\beta _{1})=\sum_{i=1}^{n}w_{i}(y_{i}-E(y_{i}))^{^{2}}$
　　
　　另外，如果所有的权值相等，即 $w_{i}$ 都等于某个常数，该方法就成为普通最小二乘法。
　　在使用加权最小二乘法时，为了相处异方差的影响，可知观测值的权值应该是观测值误差项方差的倒数，即
　　
　　 $wi=1σi2w_{i}=\frac{1}{\sigma _{i}^{2}}$

在实际问题的研究种，误差项的方差 $σi2\sigma _{i}^{2}$ 通常识未知的，但是当武昌项方差随自变量水平以系统的形式变化时，我们可以利用这种关系。
　　例如，已知误差项方差 $σi2\sigma _{i}^{2}$ 与 $x_{i}^{2}$ 成比例时，那么 $σi2=kxi2\sigma _{i}^{2}=kx_{i}^{2}$ ，其中 $k$ 为比例系数。
　　权值就为
　　
　　 $wi=1kxi2w_{i}=\frac{1}{kx_{i}^{2}}$

因为比例系数 $k$ 在参数估计中可以小区，所以可以直接使用权值
　　
　　 $wi=1xi2w_{i}=\frac{1}{x_{i}^{2}}$

在社会、经济研究中，经常会遇到这种特殊的权值，即误差项方差与 $x$ 的幂函数 $x^{m}$ 成比例，此时权函数为
　　
　　 $wi=1ximw_{i}=\frac{1}{x_{i}^{m}}$

代码实现如下：

s<-seq(-2,2,0.5)
result1<-vector(length=9,mode="list")
#  生成一个列表向量，以存储下面循环中回归方程估计的似然统计结果
result2<-vector(length=9,mode="list")
#  生成一个列表向量，以存储下面循环中回归方程的估计系数及显著性检验等结果
for(j in 1:9)
	{w<-data4.3$x^(-s[j])  # 计算权向量
	 lm4<-lm(y~x,weights=w,data4.3)  # 使用加权最小二乘估计建立回归方程
	 result1[[j]]<-logLik(lm4)
	 # 将第j次计算的对数似然统计量保存到result1的第j个元素中
	 result2[[j]]<-summary(lm4)}
	 # 将第j次建立的回归方程的结果保存到result2的第j个元素中

输出结果如下：
在这里插入图片描述

　　根据上述输出结果可知， $m$ 取到第8个值即 $m = 1.5$ 时对数似然函数达到极大值，因而指数 $m$ 的最优取值为1.5。
　　残差图如下所示：
　　比较普通残差图和加权最小残差图，我们可能看不出两张图之间的差异。但通过残差的比较得知，加权二乘估计照顾小残差项是以牺牲大残差项为代价的。
　　这里需要注意的是当回归模型存在异方差性时，加权最小二乘估计只是对普通最小二乘估计的改进，这种改进可能是细微的，不能理解为加权最小二乘估计一定会得到与普通最小二乘估计渐染不同的回归方程，或者一定有大幅度的改进。

2.多元加权最小二乘估计

data3.2<-read.csv("C:/Users/Administrator/Desktop/data3.2.csv",head=TRUE)
lm3.2<-lm(y~x1+x2,data=data3.2)
summary(lm3.2)
e<-resid(lm3.2)
abse<-abs(e)

输出结果：
在这里插入图片描述

　　从输出结果中看出，残差绝对值与自变量 $x 1$ 的等级相关系数为 $r_{e1}=0.45$ ,残差绝对值与自变量 $x 2$ 的等级相关系数为 $r_{e2}=0.7142857$ ，因而选择 $x 2$ 构造权函数。

s<-seq(1,5,0.5)
result1<-vector(length=9,mode="list")
#  生成一个列表向量，以存储下面循环中回归方程估计的似然统计结果
result2<-vector(length=9,mode="list")
#  生成一个列表向量，以存储下面循环中回归方程的估计系数及显著性检验等结果
for(j in 1:9)
	{w<-data3.2$x2^(-s[j])  # 计算权向量
	 lm4<-lm(y~x1+x2,weights=w,data3.2)  # 使用加权最小二乘估计建立回归方程
	 result1[[j]]<-logLik(lm4)
	 # 将第j次计算的对数似然统计量保存到result1的第j个元素中
	 result2[[j]]<-summary(lm4)}
	 # 将第j次建立的回归方程的结果保存到result2的第j个元素中

输出结果：
在这里插入图片描述
　　可以知道当 $m = 2.5$ 时，取得最优值。

　　根据以上输出结果，加权最小二乘的 $R^{2}=0.848,F=33.47$ ；而普通最小二乘估计的 $R^{2}=0.8419,F=31.96$ 。这说明对该例子中的数据进行加权最小二乘估计的拟合效果好于普通最小二乘估计的效果。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

Ruby与其他编程语言的比较

Ruby优点：语法优雅、开发快速、Web生产力高；缺点：性能差、生态系统小、适用领域窄。推荐场景：初创公司Web应用、快速原型开发。若追求性能或广度，可考虑Python（通用性）、JavaScript（全栈）或Java（企业级）。通过以上比较，Ruby在特定场景下表现出色，但选择语言应基于项目需求。例如，构建一个内容管理系统，Ruby on Rails是理想选择；而开发AI模型，Python更合适

2048 AI社区

上下文工程驱动智能体向动态知识图谱构建

例如在文章开头，我们举的产品经理和工程师之间的那一段对话，一个高质量智能体，不再只是让大模型回答用户的问题，而是通过上下文工程，帮助大模型在回答前获得更加结构化的输入，包括项目状态、需求文档、任务历史、甚至团队氛围，实现大模型更好的理解当前的任务规划、团队过往的沟通隐患、对方的工作状态与担忧、文档/知识库的实时状态等等。这和我们维护我们手机上内存很像，一开始所有应用和历史信息都保留，但当手机出现运

2048 AI社区

C++调试与错误排查

资源管理是另一个关键领域，遵循RAII原则，使用智能指针（unique_ptr、shared_ptr）替代裸指针，能够有效防止内存泄漏和异常安全问题。构造函数中的初始化列表使用、拷贝控制成员的正确处理，都是减少对象生命周期错误的重要实践。通过编译器标志（如GCC的-fdiagnostics-color=always）增强错误信息可读性，或使用Clang的更有好的错误提示，都能提升排错效率。编译时错