双样本假设检验(ABtest)---商务与经济统计
n1,n2的样本容量都应满足大于等于30,一旦小于,总体的分布就应重新考虑,当样本量较小时,最为重要的是满足两个总体近似服从正态分布。大数定律:某个随机事件,在单次试验中可能发生也可能不发生,但在大量试验中,事件发生的频率往往向某个常数收敛,该常数即为事件发生的期望。中值极限定理:给定一个任意分布的总体,从总体中抽取n个样本,抽取m个组,对m组抽样求均值,这些平均值的分布接近正态分布。更换指标:更
两总体均值之差的推断:方差已知的情况,使用Z检验
u1-u2区间估计:
首先定义总体:
总体1为实验组所有样本
总体2为对照组所有样本
u1为总体1中所有样本的平均值
u2为总体2中所有样本的平均值
其次定义样本的点估计量:
从总体1中随机抽取n1个样本作为实验组A
从总体2中随机抽取n2个样本作为实验组B
注:两个样本抽取时为互相独立的,故抽取方式为独立简单随机
x拔1为实验组A中,n1个样本的平均值
x拔2为实验组B中,n2个样本的平均值
两个总体均值之差的点估计量为:
x拔1-x拔2的标准差为:
若实验组和对照组的样本量足够大,利用中心极限定理,x拔1,x拔2近似服从正态分布,同时也可说明x拔1-x拔2近似服从u1-u2正态分布
u1-u2的假设检验:
假设检验的3种形式:
Z值计算:
采用假设检验中提到得临界值法或p-值法判断两组数据是否存在统计学显著
随机样本容量的选择:
n1,n2的样本容量都应满足大于等于30,一旦小于,总体的分布就应重新考虑,当样本量较小时,最为重要的是满足两个总体近似服从正态分布
两总体均值之差的推断:方差未知的情况,使用T检验
ta/2的自由度:
t值计算:
与Z值计算相似,只是将总体方差换成样本方差
样本容量选择:
可用于相对较小的样本容量,且样本总体方差未知的情况
但如果存在异常值或总体分布高度偏斜,则需要增大样本容量
两总体比例之差的推断
两总体比例之差的点估计量:
p1-p2的标准差
两总体比例之差的区间估计
分析过程:
1.提出原假设与备选假设
2.计算假设检验量
由于P未知,故需要合并两个样本的点估计量,得到P的单一点估计量:
样本容量选取:
最小样本量计算公式:
需要确定指标的目标
Δ为两组数据的差异值,若原始值为2%,目标值为5%,则Δ就是3%
常规取值:a=0.05 b=0.2
当a取值更低时,可多增加一些样本量
由于abtest是a,b两个实验组,所以样本容量应为2n
样本量计算依据:
大数定律:某个随机事件,在单次试验中可能发生也可能不发生,但在大量试验中,事件发生的频率往往向某个常数收敛,该常数即为事件发生的期望
中值极限定理:给定一个任意分布的总体,从总体中抽取n个样本,抽取m个组,对m组抽样求均值,这些平均值的分布接近正态分布
样本量需要足够大,大于30,即可使中心极限定理发挥作用
大数定律与中心极限定理的关系:大数定律反应的是数学期望或者事情发生的频率,而中心极限定理是揭示样本在均值附近的概率分布情况
实际应用中的步骤:
1.确定需要观测的指标:
需要确定实验核心的指标是什么?
业务的指标包含:
过程指标:影响目标结果的指标
结果指标:最终的目标
最终要明确一个最核心的指标进行实验
同时考虑是否可以接受结果指标的上升是由过程指标变坏带来的?
2.提出原假设与备选假设
3.与业务确定核心指标的目标
4.计算实验所需的最小样本量
5.控制实验对照组(设计产品的新老版本以及样本的取样)以及确定分流方案
6.决定测试时长+灰度测试
时长由最小样本量和产品日活来决定
确定样本量后需要确定T检验与Z检验
7.分析实验结果,得出结论
面试常见问题:
第一类错误与第二类错误
第一类错误为本应该接受原假设,但却错误得拒绝了原假设
第二类错误为本应接受备选假设,但却接受了原假设
辛普森定律:
样本数据得到得结论与总体数据得到得结论不同
ABtest实验中显著,但实际情况中不显著:
1.样本量过大
2.两个样本的均值差异细微
3.abtest检测所选的指标不显著
向下拆分到每天,若仍不显著,则终止
实验的灵敏度不够高。
针对第二类问题,我们可以通过以下方法进行优化
增加样本量:根据显著性检验的原理,只要实验组和对照组差值及样本方差不变的情况下,样本量足够大,我们总是可以得到显著性的结果。
减少样本均值的方差:减少样本均值方差的方法有减少离群值的影响,缩减方差(CUPED)的方法。
更换指标:更换一个方差更小的指标,比如某购物平台,实验指标一开始是用户购买的平均金额,我们可以更换为用户是否购买。
ABtest是否必须及优缺点
不,小改动发调查问卷或者用户自主选择即可,主要因为数据收集过程中成本比较高
优点:
科学量化策略的效果;为项目效果提供量化支持
缺点:
开发和测试周期较长;通常属于短期行为,不适用于长时间才能验证的结果;对于流量低或者复杂的测试,时间周期需要更久
更多推荐
所有评论(0)