两总体均值之差的推断:方差已知的情况,使用Z检验

u1-u2区间估计:

首先定义总体:

总体1为实验组所有样本

总体2为对照组所有样本

u1为总体1中所有样本的平均值

u2为总体2中所有样本的平均值

其次定义样本的点估计量:

从总体1中随机抽取n1个样本作为实验组A

从总体2中随机抽取n2个样本作为实验组B

注:两个样本抽取时为互相独立的,故抽取方式为独立简单随机

x拔1为实验组A中,n1个样本的平均值

x拔2为实验组B中,n2个样本的平均值

两个总体均值之差的点估计量为:

22446de4eb1b477d85c581b1fecb064b.png

x拔1-x拔2的标准差为:

48f51139ffbb4d3da5594de4cb62d277.png

若实验组和对照组的样本量足够大,利用中心极限定理,x拔1,x拔2近似服从正态分布,同时也可说明x拔1-x拔2近似服从u1-u2正态分布

dc357fc5fd3e4faebeaa1a557a6fd635.png

 u1-u2的假设检验:

假设检验的3种形式:

 72fb1579a3b0464e9cd64d14c8d47e1e.png

Z值计算:

 c77a1cd84de34a75a4c0d9437156204d.png

采用假设检验中提到得临界值法或p-值法判断两组数据是否存在统计学显著

 

 随机样本容量的选择:

n1,n2的样本容量都应满足大于等于30,一旦小于,总体的分布就应重新考虑,当样本量较小时,最为重要的是满足两个总体近似服从正态分布

 

两总体均值之差的推断:方差未知的情况,使用T检验

e7ac085843d947ffaa64b9d8ad82b546.png

ta/2的自由度:

8ab8c1f69e9e49ca9335f4cf9b6927dc.png

t值计算:

 5cc11f8056924e5eb74472cb76db6f8a.png

与Z值计算相似,只是将总体方差换成样本方差

 

样本容量选择:

可用于相对较小的样本容量,且样本总体方差未知的情况

但如果存在异常值或总体分布高度偏斜,则需要增大样本容量

 

两总体比例之差的推断

两总体比例之差的点估计量:

3878772da3f14afd999cff2e150a7bde.png

 

p1-p2的标准差

edba66eb7d924b7abc7c55684724faea.png

两总体比例之差的区间估计

 fb89b8c4b36243a2b6e64f856f28b038.png

 分析过程:

1.提出原假设与备选假设

2.计算假设检验量

 3f282b209d6c4bc7b6f5ef3c45a66ecb.png

由于P未知,故需要合并两个样本的点估计量,得到P的单一点估计量:

 810c09e54cfb40e5a5f0ebac439d33e1.png

 

样本容量选取:

最小样本量计算公式:

8f462135a4f84edd93854b6635bb75e3.png

 需要确定指标的目标

Δ为两组数据的差异值,若原始值为2%,目标值为5%,则Δ就是3%

常规取值:a=0.05 b=0.2

当a取值更低时,可多增加一些样本量

由于abtest是a,b两个实验组,所以样本容量应为2n

 

样本量计算依据:

大数定律:某个随机事件,在单次试验中可能发生也可能不发生,但在大量试验中,事件发生的频率往往向某个常数收敛,该常数即为事件发生的期望

中值极限定理:给定一个任意分布的总体,从总体中抽取n个样本,抽取m个组,对m组抽样求均值,这些平均值的分布接近正态分布

样本量需要足够大,大于30,即可使中心极限定理发挥作用

大数定律与中心极限定理的关系:大数定律反应的是数学期望或者事情发生的频率,而中心极限定理是揭示样本在均值附近的概率分布情况

 

实际应用中的步骤:

1.确定需要观测的指标:

需要确定实验核心的指标是什么?

业务的指标包含:

过程指标:影响目标结果的指标

结果指标:最终的目标

最终要明确一个最核心的指标进行实验

同时考虑是否可以接受结果指标的上升是由过程指标变坏带来的?

2.提出原假设与备选假设

3.与业务确定核心指标的目标

4.计算实验所需的最小样本量

5.控制实验对照组(设计产品的新老版本以及样本的取样)以及确定分流方案

6.决定测试时长+灰度测试

时长由最小样本量和产品日活来决定

确定样本量后需要确定T检验与Z检验

7.分析实验结果,得出结论

 

 

面试常见问题:

第一类错误与第二类错误

第一类错误为本应该接受原假设,但却错误得拒绝了原假设

第二类错误为本应接受备选假设,但却接受了原假设

 

辛普森定律:

样本数据得到得结论与总体数据得到得结论不同

 

ABtest实验中显著,但实际情况中不显著:

1.样本量过大

2.两个样本的均值差异细微

3.abtest检测所选的指标不显著

向下拆分到每天,若仍不显著,则终止

实验的灵敏度不够高。
针对第二类问题,我们可以通过以下方法进行优化

增加样本量:根据显著性检验的原理,只要实验组和对照组差值及样本方差不变的情况下,样本量足够大,我们总是可以得到显著性的结果。
减少样本均值的方差:减少样本均值方差的方法有减少离群值的影响,缩减方差(CUPED)的方法。
更换指标:更换一个方差更小的指标,比如某购物平台,实验指标一开始是用户购买的平均金额,我们可以更换为用户是否购买。

 

ABtest是否必须及优缺点

不,小改动发调查问卷或者用户自主选择即可,主要因为数据收集过程中成本比较高

优点:

科学量化策略的效果;为项目效果提供量化支持

缺点:

开发和测试周期较长;通常属于短期行为,不适用于长时间才能验证的结果;对于流量低或者复杂的测试,时间周期需要更久

 

 

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐