招聘帖里常说的“A/B TesT”到底是个啥？( 二 ) _A

6.采集数据：通过各大平台自身的数据收集系统自动采集数据。
7.分析A/B测试结果：统计显著性达到95%或以上并且维持一段时间，实验可以结束；如果在95%以下，则可能需要延长测试时间；如果很长时间统计显著性不能达到95%甚至90%，则需要决定是否中止试验。
上面说的可能有些复杂，核心便是假设检验和对照试验。接下来我们对上述步骤的一些要点和注意事项进行说明。
|| AB test的注意事项
1. 样本规模
在统计中样本量过小的话，样本特征相较总体特征便会存在一定偏差，实验结果便也不准确。样本量越大，样本特征才能越接近总体特征。所以，在进行实验设计时，为了保证实验结果的有效性，我们需要对样本规模进行约定。那么至少需要多大的样本规模才能在特定显著性下反应总体特征呢？这里涉及了一些统计学的概念。对于比率类指标可以按以下公式计算。

文章插图

文章插图

例如：“XX提交”按钮由红色变为橙色，统计的指标是点击UV转化率UV_rate，测试时间是20200801～20200814，则计算“XX提交”按钮的历史月均值mean(UV_rate)为下面数据的均值avg(UV_rate)：

文章插图

文章插图
图片来源：知乎@livan，公众号：livandata
看起来确实挺头疼的，但你可以用一个小小的工具解决这个难题：

文章插图

在这个工具里只要输入原始版本的转化率、优化版本的转化率和统计显著性，就可以计算出所需样本的数量大小了。是不是很好玩？
留言回复“样本”获取样本数量计算器
顺嘴提一句，在算出AB测试所需样本数量大小后，根据网站或App每天的访问数，即可计算出试验所需的时间。
试验所需的时间 = 所需样本数量大小 / 每天访问数
2. 测试结果分析
前面说过，AB测试的本质是假设检验，所以我们也需要进行显著性检验以拒绝或同意原假设。怎么进行假设检验就不扯了，太掉头发，即使大学概率论满绩但也吃不住折磨人的小妖精，还是给个小工具吧。
当然，学霸朋友们也可以看看这篇 AB-Test 双样本显著性计算，我等就蹭现成的了。

文章插图
这个小工具可以根据A、B版本的访问数和转化数，计算出转化率和统计显著性数值，并给出可信度结论。
有了这俩，妈妈再也不担心我不会概率论啦。
依然，回复“测试结果”获取AB测试结果检验工具
3.辛普森悖论
这个悖论也是AB测中常常说到的话题，它是指某些条件下的两组数据，分别讨论时都会满足某种性质，可是一旦合并考虑，却可能导致相反的结论。这个理论由英国统计学家辛普森提出。

用一个肾结石手术疗法的 AB 测试结果作为例子：