增长与优化是企业永恒的主题。面对未知的策略价值,数据驱动的AB实验已经成为互联网企业在策略验证、产品迭代、算法优化、风险控制等方向必备的工具。越来越多的岗位,如数据科学家、算法工程师、产品经理以及运营人员等,要求候选人了解AB实验相关知识。然而,许多从业者由于缺乏有效的学习渠道,对AB实验的理解仍停留在初级阶段,甚至存在一些误解。我们希望通过系统性地分享和交流AB实验的理论基础、基本流程、核心要素及其应用优势,能够帮助更多相关人员深入了解实验,提升实验文化的普及度,最终辅助企业在更多领域做出精确数据驱动决策。
除了广泛传播实验文化外,该白皮书在深度上也可给实验研究人员,提供复杂业务制约下进行可信实验设计与科学分析评估的参考经验和启发。从美团履约技术团队、美团外卖业务的实践来看,实验者常常面临多种复杂的实验制约和难题,例如,在美团履约业务中,实验往往需要应对小样本、溢出效应(即实验单元间互相干扰)以及避免引发公平性风险等多重约束,需设计科学复杂的实验方案以克服相应挑战。通过撰写白皮书,我们系统性地总结和分享应对复杂实验约束的研究经验,进而能够促进实验技术的传播与升级,推动实验科学持续进步。
本白皮书以AB实验为中心,涵盖AB实验概述与价值、实验方法基础原理与案例剖析以及配套SDK代码分析等,内容丰富且易于理解和应用。适合从事AB实验研究的数据科学家、系统开发人员,以及需要实验驱动策略决策的业务和产研团队,同时也适合对数据驱动增长和数据科学等领域感兴趣的读者。若本白皮书存在不当或者错误之处,欢迎大家批评指正,我们将不断完善与丰富内容,跟大家一起理解AB实验和数据科学,推动技术进步。
后续,我们将在美团技术团队微信公众号上陆续推出第3章节~第8章节的内容,敬请期待。如果大家发现问题,或者有一些建议,也欢迎在文末留言,跟我们进行交流。
第1章 走进AB实验
1.1 了解AB实验
1.2 深入AB实验--以到家可信实验为例
第2章 AB实验基础
2.1 实验基础原理概述
2.2 AB实验统计学基础
2.3 常用实验术语
第3章 随机对照实验
3.1 经典随机对照实验
3.2 提高实验功效的进阶手段
3.3 进一步保证同质性的实验方式
3.4 解决溢出效应的复杂随机对照实验
3.5 拓展与展望
第4章 随机轮转实验
4.1 抛硬币随机轮转
4.2 完全随机轮转
4.3 配对随机轮转
4.4 拓展与展望
第5章 准实验
5.1 双重差分法
5.2 拓展与展望
第6章 观察性研究
6.1 合成控制法
6.2 匹配方法
6.3 Causal impact
6.4 拓展与展望
第7章 高阶实验工具
7.1 统合分析
7.2 多重比较
7.3 拓展与展望
第8章 开放式分析引擎
8.1 产品特性
8.2 系统架构
8.3 系统接入
8.4 线下分析实战
总结与展望
1.1 了解AB实验
工欲善其事,必先利其器。在这个数据驱动决策的时代,AB实验已经成为洞察用户行为、优化产品体验的不可或缺的工具。AB实验,又称为在线对照实验(Online Controlled Experiment),其概念源自生物医学中的“双盲测试”,即将病人随机分为两组,在不知情的情况下分别给予安慰剂(或旧药物)和新药治疗,经过一段时间实验后再比较两组病人是否有显著差异,从而确定新药的有效性。自2000年Google将A/B实验应用于互联网产品测试以来,这一方法已在包括美团在内的各大互联网公司得到了广泛应用。
假设美团履约侧在可为某些(用户,商家)提供配送服务时,想验证在App的C端产品上弹窗以及展示某标签是否能促进用户下单意愿。此时,AB实验提供了理想的解决方案。如图1-1所示,其做法为通过圈选一部分用户并随机分配为实验组和对照组(随机分流可确保两组在诸多特征上无差异),实验组用户施加新功能/新版本策略,而对照组用户继续使用旧功能/旧版本策略。一段实验周期后基于日志系统和业务系统收集的用户指标数据进行分析,比较实验策略与对照策略是否有显著收益,并以此为依据判断新策略是否应推广到全部用户。
AB实验之所以能迅速成为工业界数据驱动决策的黄金标准,主要归功于其能定性验证因果关系以及定量评估增长价值。某个策略的改变是否会导致产品指标的改变,本质上需要的是一种因果关系的判断,即“策略迭代优化”的因是否会带来“产品质量改变”的果。单凭经验以及相关性分析难以做成正确的决策,Google和Microsoft相关统计表明,即使很有经验的相关人士正确判断产品策略的概率也只有1/3。依赖相关性同样可能导致错误的决策,例如提供订阅服务的微软Office 365观测到看到错误信息并遭遇崩溃的用户有较低的流失率,这是因为高使用率用户往往看到更多错误信息以及流失率更低。但这并不意味着Office 365 应该显示更多的错误信息或者降低代码质量使得频繁崩溃。
另一个著名的相关性案例为国家的巧克力消耗量与获得诺贝尔奖的数量相关性高达0.79,但这并不意味着通过提高巧克力消耗量可以提高诺贝尔奖数量。实际产品迭代过程中往往应透过相关性寻找真正的因果关系。而AB实验作为目前已知的快速、低成本、科学验证因果关系的最有效手段,其可以通过随机化过程等可有效控制除干预策略外,实验组、对照组间其他混杂变量与影响特征是均衡的,最终的结果差异可归因于完全由干预贡献。同时借助假设检验等统计理论,能够科学、定性地验证策略迭代是否会带来业务的真实提升。因此,在产品迭代中通常采用AB实验识别正确的因果关系,保障迭代优化朝着正确方向前进。
AB实验同样可通过精确量化策略收益、产品风险和成本,定量评估增长价值。例如,当某业务希望准确评估新补贴策略带来的下单规模提升时,最理想的方案是面对同一拨用户,假设存在两个完全相同的平行时空,平行时空一中所有用户体验新补贴策略B,类似的平行时空二中所有用户体验旧补贴策略A,通过直接对比2个平行空间的用户行为的平均表现(例如人均单量),则可观测新补贴策略相比旧补贴策略的提升效果。然而现实世界中不存在两个平行时空,针对同一用户,我们只能观察到其接受策略A或策略B下的一种表现,在此约束下,AB实验可为我们提供了理想平行时空的一个近似替代。
1.2 深入AB实验--以到家可信实验为例
| 1.2.1 错综复杂的实验陷阱与挑战
以美团到家业务实验为例,如图1-3所示,实验者可能会经常面临各种各样复杂的陷阱与挑战,处理稍有不当则可能损失实验的可信度,甚至带来错误的实验结论。
具体的,以下是到家几个常见实验难题的简要介绍,这些问题也经常出现在其他业务实验中,更多案例与解决方案可详见后面章节。
案例一:小样本和溢出效应是制约履约场景下进行可信实验的两大难题。一方面,履约配送场景下样本量稀少与地域差异明显的现状,使得随机对照实验下难以保证分组的业务同质性以及很难有效地检测出实验提升效果。受自身业务形态和空间维度限制,部分配送策略的最小作用单元为区域/区域组(一个配送区域可以理解为某个地域空间)。因此在实验设计上,我们必须考虑区域或者更粗颗粒维度的分流。然而大部分城市区域/区域组很少,仅几十个左右。并且同城市各地域间的差异也往往比较显著,这在数据上体现为区域间指标波动剧烈。严峻的小样本与地域间差异显著的问题,导致随机分流下通常难以检测到策略小的提升效果,并且与结果变量相关的特征在实验组、对照组的分布差距可能较大,放大业务上实验组对照组不同质问题的同时给实验结果带来质疑。
另一方面,溢出效应(Spillover effects)引发的实验组、对照组间的不独立性,也会导致一些履约实验效果估计不够精确,甚至带来显著的估计偏差。AB随机实验中关键的个体处理稳定性假设(SUTVA)假定实验单元的结果不受到其他单元分组的影响,简而言之,实验单元间相对独立,然而美团履约业务策略通常会涉及用户、商家和骑手等多方协同以及各方的相互依赖,特别是用户订单和骑手存在多对一耦合关系,且骑手可以跨越多个区域甚至整个城市进行接单和配送,在这种场景下无论运单还是区域等粒度的实验,实验单元间都往往存在溢出、干扰,进而造成实验估计不准确。关于小样本与溢出效应更多案例与解决方案将在第3~5章重点介绍。
案例二:不可忽视的方差与P值计算陷阱,以及求和型统计量、ROI指标等高阶评估方法诉求。AB实验主要是通过在某个设定的抽样机制下,观察抽样的样本来推断总体的提升效果,并通过显著性检验辅助判断实验组、对照组之间差异是真实策略还是抽样噪音带来的。在该过程中通常需涉及大量统计学理论,包括方差、检验方式和P值计算等,稍有不慎容易掉入统计陷阱,难以得出可靠的实验结论。例如当分流单元与分析单元不一致时,错误的方差计算方式容易低估实际方差,导致假阳性。如图1-3左侧所示,在真实策略没有任何提升的情况下,分析单元细于分流单元时出现错误判别策略有效的概率接近50%。正确的做法应该是先聚合到分流单位,再应用Delta技术推导的正确方差计算公式,如图1-3右侧所示,在正确方差计算下如果真实策略没有任何提升,P值近似服从均匀分布,以及假阳性错误率基本控制在指定的显著性水平5%以内。
许多场景同样存在求和型统计量、ROI指标等高阶评估方法诉求。例如假设策略可能影响实验组和对照组间用户的活跃度(留存)。如果实验组策略优于对照组,边缘用户可能从对照组流失,而实验组会吸引新用户。这种情况下,尽管实验组的下单量提升,但由于转入实验组的是非活跃用户,其均值可能低于对照组均值。基于均值统计量的显著性分析会拉低策略效果,甚至出现相反结论,不再适用,需引入求和型评估统计量。不同于非营销场景下关注策略的绝对提升(实验组观测值-对照组观测值)与相对提升(实验组观测值/对照组观测值-1),营销场景下有时关注ROI:(实验组观测值-对照组观测值) / (实验组成本-对照组成本)。无论是求和型统计量还是ROI统计量,都需要重新推导和适配正确的方差计算和P值计算公式,以确保实验结论的准确性。更多详情可参阅第3章。
案例三:受限于公平性风险等与产品形态无法采用传统AB实验,需引入准实验或者观察性研究工具评估。当运营策略或产品升级涉及实验对象公平性等风险,或者产品分流与干预不受实验者控制时,通常需要在整城范围内施加策略,并采用观察性研究进行评估。例如,在某个城市推广线下广告策略时,由于无法控制部分用户看到广告的同时部分用户看不到,无法进行用户随机AB实验。
同样的,即使可在实验城市内干预分组,但受限于产品形态、运营管理难度甚至溢出效应,部分实验也只能运行准实验。例如考虑在保障整体覆盖范围不变的情况下,对所有不重叠的区域进行边界优化(新配送区域边界划分规则)甚至合并。此时显然不能考虑按区域随机分流,因为2个相邻的区域,在保持覆盖范围(并集)不变且不重叠约束下,优化A区域边界必然会导致B边界跟随变化,从产品形态上无法实现A区域边界变更但B区域边界维持不变。此时一种退而求其次的做法可以考虑将整个城市拆分为2个半城,在实验半城内部调整优化区域边界,对照半城维持不变,然后再利用DID等准实验手段评估新区域划分规则带来的提升效果。关于准实验与观察性研究基础原理与更多应用案例可参阅第5~6章。
| 1.2.2 零门槛运行可信实验范式与流程
为了让任何人都能摆脱AB测试重重困境,零门槛自主运行科学可信的实验,美团履约技术团队制定了一套数据科学家、数仓开发、系统开发多方协调保障的实验接入与运营机制,通过科学的实验方案、规范的实验流程和正确的指标数据保证实验可信度。对于新业务场景实验,尤其是重点或复杂实验,数据科学团队全程参与,前置深入实验场景,明确实验痛点,攻克置信难题,制定匹配的实验方案,并在实验平台配置实验模板。数仓开发为对应场景订阅和维护关注的实验指标数据集,保障指标定义规范与准确。与此同时数据科学家与系统研发人员共同规范化、模块化平台实验流程,允许对应算法场景后续可零门槛自主运行可信实验。
规范的实验流程和匹配的平台能力帮助实验者快速验证策略并科学决策。整个实验流程实验者只需选择实验场景模板新建实验设计、配置实验变体参数并查看实验报告。在实验设计环节,实验者可自助选择评估指标以及圈选流量,并可通过MDE分析与样本量预估功能辅助判断圈流样本量是否足够以及选择实验周期。完成实验设计后直接输出分流表达式,帮助用户轻松完成分流配置,同时可查看同质性、MDE(实验可有效检测出的提升效果)等关键信息。实验者可直接基于实验设计快速创建、管理实验,实验结束后自动输出显著性、趋势图等实验报告,用户无需再担心包括异常值陷阱、方差计算陷阱、P值计算陷阱和多重比较陷阱在内的各种统计陷阱对实验结论的影响。同时平台还提供实验监控与诊断结果衡量实验有效性,以及实验探究功能支持实验者按维度、日期、指标等下钻与查看实验结果,辅助实验者进行决策。
在上述实验流程中,不难看出,即使没有复杂的实验背景与专家知识的实验者也可零门槛自主运行可信实验。这不仅归功于数据科学家前置制定实验模板,还得益于构建了体系化的实验分析引擎,为用户提供标准化的流程和多样化的方法,并帮助用户避开各类实验陷阱。分析引擎作为一个中心方法库,整合了数科同学的所有优秀的实践,并涵盖学业界绝大部分实验方法。同时分析引擎也旨在促进知识共享,它可以像“积木”一样接入各种实验平台,服务不同角色的用户。对于具有专家级统计理解的用户,可以提供原子化工具组件,帮助他们在业务场景约束下综合权衡偏差和方差,制定适合其业务场景的实验方案。对于普通用户,可以使用实验平台,轻松避开各类实验陷阱并输出实验报告,零门槛运行可信实验。
| 1.2.3 实验方法选择指南
考虑到各类评估方法的复杂度和准确性上各有千秋,我们基于实验理论与实践经验,沉淀了一套大体的实验方法选择流程图,如图1-6所示,总体而言从可信度等级上优先选择随机实验(包括随机对照实验和随机轮转实验),其次是准实验,最后是观察性研究。
在上述大体流程下部分实验场景同样存在方法升级,下表简要展示实验方法库及其适用场景,详细方法内容将在本白皮书后续第3~7章节中重点展开与讨论。同时大部分方法也已集成于履约SDK分析引擎,线上调用与线下分析详情,大家可参阅白皮书的第8章节。
---------- END ----------
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...