参考书籍:1、《应用多元统计分析》高惠璇


1、表达式

用来研究因变量Y和m个自变量x_1,x_2,...,x_m的相关关系(一共有n个样本,t=1,2,...,n

矩阵表示为:

记为\left\{\begin{matrix} Y=C\beta +\varepsilon, \\ E(\varepsilon )=0,D(\varepsilon )=\sigma ^2I_n \end{matrix}\right.\left\{\begin{matrix} Y=C\beta+\varepsilon \\ \varepsilon \sim N_n(0,\sigma ^2I_n) \end{matrix}\right.

2、回归方程和回归系数的显著性检验

2.1 回归方程的显著性检验(又称相关性检验)

H_0:\beta _1=\beta _2=...=\beta_m,即\beta _1,\beta_2,...,\beta_m不全为0

统计量:F=\frac {ssr/m}{sse/(n-m-1)}(在原假设成立时,F\sim F(m,n-m-1))

计算统计量的值,从而得到p值,或者查表与\alpha所对应的F统计量阈值进行比较,从而得到拒绝或不能拒绝原假设的结论。

2.2 回归系数的显著性检验

H_0^{(i)}:\beta_i=0(i=1,2,...,m)

3、回归变量的选择

在实际问题中,影响因变量Y的因素(自变量)可能很多,所以要挑选出影响显著的自变量来建立回归关系式,因此涉及到自变量的选择问题。

3.1 分类

可以八种,可以分为三类:

  1. “最优”子集的变量筛选法: stepwise、forward、backward;
  2. 计算量很大的全子集法:计算所有可能回归子集(2^m-1)后按照变量选择的标准选择最优回归方程,有R^2选择法、C_p选择法、修正R^2选择法;
  3. 计算量适中的选择法;

 3.2 变量选择的标准

常用的有以下几种准则,分类为:

  1. 均方误差s^2(A)=\frac {SSE_k}{n-k-1},其中k为进入模型的变量个数,是回归模型中\sigma ^2的无偏估计;
  2. C_p统计量准则:
  3. 其中s^2=\frac {Q(A(m))}{n-m-1}。值越小越好
  4. 修正R^2准则,\tilde{R}^2=1- \frac{n-i}{n-k-i}(1-R^2),当模型含有截距项\beta _0i=1,否则i=0。选合适的回归子集,使得\tilde{R}^2达到最大;
  5. AIC,SBC或BIC准则:\begin{matrix} AIC(A(k)) = nln\frac{Q(A(k))}{n}+2p\\ SBC(A(k))=nln\frac{Q(A(k))}{n}+plnn \\ BIC(A(k)) = nln\frac{Q(A(k))}{n}+2(p+2)q-2q^2 \end{matrix},其中p=k+1,

4、逐步回归分析

 基本思想:逐个引入自变量,每次引入对Y影响显著的自变量,并对方程中的老变量逐个进行检验,把变为不显著的变量逐个从方程中剔除,从而得到的最终方程中既不漏掉对Y影响显著的变量,又不包含对Y影响不显著的变量。

逐步回归的基本步骤如下表的三张图所示:

 

 

 

 

 

 

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐