做实证分析的第一步,往往是对数据进行描述性统计分析,通过这一步能快速掌握数据的基本特征,比如均值、中位数、标准差、极值等,也能初步发现变量间的关联,为后续的模型构建和回归分析打下基础。Stata 作为实证分析的常用工具,提供了多款简单又实用的命令,能轻松实现不同维度的描述性统计需求,今天就把实操方法一次性讲透,新手也能直接上手。

一、基础描述性统计,快速掌握数据概况

如果只是想对数据集中的全部或部分变量做基础统计分析,快速看一下核心统计指标,用summarize(可简写为 sum)命令就足够了,这也是 Stata 中最常用的描述性统计命令,操作简单,输出结果直观。

// 对数据集中所有变量做基础描述性统计

summarize

// 简写形式 sum

// 对指定变量(如income、education、age)做基础描述性统计

sum income education age

执行后会直接输出变量的观测值数量、均值、标准差、最小值和最大值,能快速判断数据的整体分布和取值范围,比如有没有明显的极值、样本量是否充足等。

二、详细描述性统计,深挖单变量分布特征

基础统计只能看到核心指标,若想更深入分析单个变量的分布特征,比如分位数、偏度、峰度、四分位距等,就需要在 sum 命令后加上detail选项,适合需要对变量做精细化分析的场景。

核心代码

// 对指定变量(如income)做详细描述性统计

summarize income, detail

这个命令的输出结果会包含百分位数、中位数、均值、方差、偏度、峰度等多个指标,能精准判断变量是否符合正态分布,比如偏度为 0、峰度为 3 时,变量接近正态分布,这对后续选择合适的实证模型很重要。

三、分类变量统计,看各类别占比情况

实证分析中常会遇到分类变量,比如性别(男 / 女)、行业(制造业 / 服务业 / 金融业)、学历(小学 / 初中 / 高中 / 大学),这类变量无法用均值、标准差描述,需要用tabulate(可简写为 tab)命令做频率统计,看各类别的观测值数量和占比。

核心代码

// 对分类变量(如gender)做频率统计,输出各类别频数和百分比

tabulate gender

// 简写形式

tab gender

// 若想同时看两个分类变量的交叉分布(如gender和industry)

tab gender industry

执行后会输出频率表,包含各类别的观测值数、百分比,交叉统计还能看到不同类别组合的样本分布,比如制造业中男性和女性的占比情况,适合分析分类变量间的初步关联。

四、定制化统计,按需输出指定指标

如果需要对多个变量同时做统计,且想自定义输出的统计指标,比如同时看最大值、最小值、均值、中位数、标准差、样本量,tabstat命令是最佳选择,能灵活定制统计项,还能按分组输出,结果更规整。

核心代码

// 对y、x1、x2、x3做定制化统计,输出指定指标

tabstat y x1 x2 x3, stat(max min mean p50 sd n)

// 按分组变量(如group)做定制化统计,对比不同组的变量特征

tabstat y x1 x2 x3, stat(max min mean p50 sd n) by(group)

其中stat()内的参数可按需调整,max(最大值)、min(最小值)、mean(均值)、p50(中位数)、sd(标准差)、n(样本量)是最常用的指标,按分组统计能快速对比不同组别间的变量差异,比如实验组和对照组的核心指标对比。

五、回归联动统计,看回归变量的整体特征

有时候我们需要先确定回归模型的变量组合,再直接看这些回归变量的描述性统计,Stata 可以通过regress+estat summarize实现,做完回归后直接输出回归变量的统计特征,省去单独统计的步骤,提升分析效率。

核心代码

// 先做回归分析(如被解释变量income,解释变量education、age)

regress income education age

// 输出上述回归模型中所有变量的描述性统计

estat summarize

六、变量相关性统计,初步判断变量间关联

描述性统计不仅包括单变量分析,还包括变量间的相关性分析,通过correlate命令能快速计算变量间的相关系数,初步判断解释变量和被解释变量、解释变量之间的关联程度,避免后续出现严重的多重共线性问题。

核心代码

// 计算指定变量(如income、education、age)间的两两相关系数

correlate income education age

// 简写形式

corr income education age

相关系数的取值范围为 [-1,1],绝对值越接近 1,相关性越强;正号为正相关,负号为负相关。若两个解释变量的相关系数绝对值超过 0.7,需要警惕多重共线性,后续可通过方差膨胀因子(VIF)进一步检验。

实操小技巧

  1. 所有命令均支持条件筛选,比如只对 2020 年的样本做统计:sum income if year==2020
  2. 若想将描述性统计结果导出为 Word/Excel 格式,可搭配sum2docx/outreg2命令(需提前安装),直接生成论文格式的统计表格,无需手动整理;
  3. 做分类统计时,若分类变量是字符串类型,可先用encode命令转换为数值型分类变量,再用tab命令统计。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐