招聘帖里常说的“A/B TesT”到底是个啥?( 二 )


6.采集数据:通过各大平台自身的数据收集系统自动采集数据 。
7.分析A/B测试结果:统计显著性达到95%或以上并且维持一段时间,实验可以结束;如果在95%以下,则可能需要延长测试时间;如果很长时间统计显著性不能达到95%甚至90%,则需要决定是否中止试验 。
上面说的可能有些复杂,核心便是假设检验和对照试验 。接下来我们对上述步骤的一些要点和注意事项进行说明 。
|| AB test的注意事项
1. 样本规模
在统计中样本量过小的话,样本特征相较总体特征便会存在一定偏差,实验结果便也不准确 。样本量越大,样本特征才能越接近总体特征 。所以,在进行实验设计时,为了保证实验结果的有效性,我们需要对样本规模进行约定 。那么至少需要多大的样本规模才能在特定显著性下反应总体特征呢?这里涉及了一些统计学的概念 。对于比率类指标可以按以下公式计算 。
 

招聘帖里常说的“A/B TesT”到底是个啥?

文章插图

招聘帖里常说的“A/B TesT”到底是个啥?

文章插图
 
例如:“XX提交”按钮由红色变为橙色,统计的指标是点击UV转化率UV_rate,测试时间是20200801~20200814,则计算“XX提交”按钮的历史月均值mean(UV_rate)为下面数据的均值avg(UV_rate):
招聘帖里常说的“A/B TesT”到底是个啥?

文章插图

招聘帖里常说的“A/B TesT”到底是个啥?

文章插图
图片来源:知乎@livan,公众号:livandata
看起来确实挺头疼的,但你可以用一个小小的工具解决这个难题:
招聘帖里常说的“A/B TesT”到底是个啥?

文章插图
 
在这个工具里只要输入原始版本的转化率、优化版本的转化率和统计显著性,就可以计算出所需样本的数量大小了 。是不是很好玩?
留言回复“样本”获取样本数量计算器
顺嘴提一句,在算出AB测试所需样本数量大小后,根据网站或App每天的访问数,即可计算出试验所需的时间 。
试验所需的时间 = 所需样本数量大小 / 每天访问数
2. 测试结果分析
前面说过,AB测试的本质是假设检验,所以我们也需要进行显著性检验以拒绝或同意原假设 。怎么进行假设检验就不扯了,太掉头发,即使大学概率论满绩但也吃不住折磨人的小妖精,还是给个小工具吧 。
当然,学霸朋友们也可以看看这篇 AB-Test 双样本显著性计算,我等就蹭现成的了 。
招聘帖里常说的“A/B TesT”到底是个啥?

文章插图
这个小工具可以根据A、B版本的访问数和转化数,计算出转化率和统计显著性数值,并给出可信度结论 。
有了这俩,妈妈再也不担心我不会概率论啦 。
依然,回复“测试结果”获取AB测试结果检验工具
3.辛普森悖论
这个悖论也是AB测中常常说到的话题,它是指某些条件下的两组数据,分别讨论时都会满足某种性质,可是一旦合并考虑,却可能导致相反的结论 。这个理论由英国统计学家辛普森提出 。
 
用一个肾结石手术疗法的 AB 测试结果作为例子:
招聘帖里常说的“A/B TesT”到底是个啥?

文章插图
看上去无论是对于大型结石还是小型结石,A疗法都比B疗法的疗效好 。但是总计而言,似乎B疗法比A疗法要好 。

【招聘帖里常说的“A/B TesT”到底是个啥?】


推荐阅读