你玩抖音吗?相信你也在各大网购平台看见过各种“抖音同款”商品,甚至看见过大街小巷中面包店、饮品店里的“抖音面包”、“抖音奶茶”。

从2017年下半年开始,抖音就呈现出现象级爆发式增长,现在可以说是增长能力最强的公司之一,甚至让腾讯感到危机。据悉。今日头条的母公司字节跳动估值已经达到750亿美元(百度于12月初在公开市场的市值约为650亿美元),这家公司有一个特质就是喜爱A/B 测试。

字节跳动是一个非常讲究实验、以A/B 测试驱动科学增长的公司。36Kr曾在一篇报道中写道,“头条发布一个新APP,其名字都必须打N个包放到各大应用市场进行多次A/B 测试才能决定。张一鸣告诉同事:哪怕你有99.9%的把握那是最好的一个名字,测一下又有神马关系呢?”整个公司从最高管理层张一鸣开始就非常注重A/B 测试。

同样,今日头条的团队在起名字的时候,创始团队没有头脑风暴,没有投票,没有老大拍板儿,他们采用科学实验的方式,通过数据观测确定了“今日头条”这个名称。同样用这样的数据思维孵化、迭代出了抖音这样的现象级产品,今天我们就来说说数据分析里很重要的一个版块:A/B 测试。

一、什么是A/B 测试

A/B 测试的概念来源于生物医学的双盲测试,双盲测试中病人被随机分成两组,在不知情的情况下分别给予安慰剂和测试用药,经过一段时间的实验后再来比较这两组病人的表现是否具有显著的差异,从而决定测试用药是否真的有效。

在做产品的过程中,A/B 测试是一种产品优化的方法,为同一个优化目标制定两个方案(比如两个页面),让一部分用户使用A 方案,同时另一部分用户使用 B 方案,统计并对比不同方案的转化率、点击量、留存率等指标,以判断不同方案的优劣并进行决策。

今日头条团队在确定自己App名字的时候,就是将App Store上各类免费榜单的前10名整理出来,然后根据名字归类(朗朗上口白话类,内涵情怀类,模拟特殊声音类,公司名+用途类等),分析出哪各类数量占比最高。他们的结论是朗朗上口的大白话效果最好。

随后他们开始进行分渠道A/B测试,确定先验效果类似的发布渠道,进行投放,在界面功能logo完全一样的情况下,统计各个渠道的用户下载和活跃等核心数据指标,最后测得“今日头条”效果最好。

上面图示就是一个典型的A/B测试范例。在A/B 测试比较成熟的公司中,可能并不局限于只有A、B两个版本,可能会有ABC测试、ABCD测试,甚至是ABCDE测试。有一些情况,可能会出现比较特殊的A/B 测试,比如说AAB测试,因为需要验证整个A/B 测试系统的准确度,需要设置两个对照组,所以叫AAB测试。不管同时运行几个实验,我们都可以将它们统称为A/B测试,英文为AB test。

2000年Google的工程师第一次将A/B测试用于测试搜索结果页展示多少搜索结果更合适,虽然那次的AB测试因为搜索结果加载速度的问题失败了,但是这次的A/B测试可以认为是Google的第一次AB测试。从那以后,A/B测试被广泛应用于互联网公司的优化迭代, 每年数万个AB实验被Google、Amazon、eBay、阿里等主流互联网公司应用于线上进行UI内容优化、算法优化、收益优化等方方面面。

二、为什么要做A/B 测试

1.先验数据与后验数据

现在,企业几乎都是利用数据驱动来优化自己的产品、运营、决策,乃至战略。具体的数据使用方法可以分为后验数据和先验数据两类。

后验数据就是指对过往采集到的数据进行挖掘分析,从中发现和归纳新的知识,透过现象看本质。

哈雷彗星的发现,就是一个后验数据的应用案例。1682年有位天文学家发现了一颗有着巨大拖尾的星体快速划过夜空。他对比过往天文数据,发现1531年和1607年也有类似的观测记载。他判断这些观测看到的是同一颗彗星,并且预言约76年以后这颗星还会光顾地球。事实真的如此。

在一个决策完全实施以前就能得出它实施后的效果数据,这就是先验数据。在传统中国文化里,我们往往更善于后验数据,通过总结和归纳得出重要的结论。

后验数据对企业决策很有用,但先验数据对企业决策可能更有用。现代西方文化更讲究“科学”,找到了先验数据的获取方法,那就是做“试验”。设定一个合理的小型的试验环境,然后将决策想法在这个环境中实施,得出数据化的结论,最终通过数学方法预测出这个决策想法在真实环境中的表现,这就是先验的方法(如图所示)。

2.A/B测试

一个非常经典的先验方法就是今天讨论的A/B测试。有了A/B测试,产品的优化过程就可以看作两个阶段。

第一个阶段是后验的,通过统计分析目前的用户行为和系统指标来判断产品的哪些地方可以做改进,比如是注册页面流失率太高需要优化?还是购物车报废率太高需要改进?

第二个阶段就是试验,尝试改进这些产品的薄弱环节。比如是不是可以在注册流程里增加一个送优惠券环节?是不是可以精简一下购物车付款的流程?要不要改写文案?要不要替换图片?这就需要对可能的决策进行A/B测试评估,只有那些被试验数据证明了真正有改进效果的那些决策才会被真正实施。

对国际顶级互联网公司来说,几乎所有的产品改动都是要经过严格的A/B测试考验之后才能上线。我们来看看他们得到的效果:

这是微软的bing搜索引擎通过反复A/B测试之后的改版结果,左边是老版,右边是新版。仅仅从肉眼看来,几乎看不出区别。实际上就是在颜色上做了一些微调,结果右边版本比左边版本提升了10,000,000美元的年化营收。

这是亚马逊购物网站推出的一个信用卡推销策略。最早这个推销信用卡的广告出现在用户选择购物商品的页面,结果几乎无人问津,还浪费了好几个宝贵的商品展示位置;后来运营人员想出了一个策略,说把这个推销放在用户购物车结算的时候,结果A/B测试显示这个改动大幅度提高了信用卡申请率,给亚马逊带来了上亿美元的营收增长。

说到亚马逊,有谁能想起来它的“加入购物车”按钮是什么样式么?它是黄色底色,黑色边框,绿色字体……从设计美学来看,是很怪异很难看的。但是反复A/B测试会发现这个样式却是用户购买转化率最高的一个设计。数据驱动的优化,结果就是决策要听数据的,而不是听艺术家或者老板的。

这是一个互联网教育网站,在这个主要的学生注册页面,通过反复A/B测试试验,发现一个很好的页面排版,可以提升学生注册率40%以上。这个排版和常用的课程分类不同,将课程按照上课热门程度排序,可能刺激了很多潜在学生的竞争心理。“我不知道该上什么课,但是大家都学的课我不能不学”。用户可能是这么想的。当然,这是马后炮。还是A/B测试能告诉我们到底什么排版更好。

这个电商网站卖防水耳机,原来排版是Call-To-Action按钮在左文案在右,后来调换了位置,A/B测试发现这个简单的改动可以提升销量35%以上。

三、如何做A/B 测试

AB测试是一个反复迭代优化的过程,它的基本步骤如下图所示可以划分为:

1.设定项目目标即AB测试的目标

2.设计优化的迭代开发方案,完成新模块的开发

3.确定实施的版本以及每个线上测试版本的分流比例

4.按照分流比例开放线上流量进行测试

5.收集实验数据进行有效性和效果判断

6.根据试验结果确定发布新版本、调整分流比例继续测试或者在试验效果未达成的情况下继续优化迭代方案重新开发上线试验

从对AB测试的定义中可以看出AB测试强调的是同一时间维度对相似属性分组用户的测试,时间的统一性有效的规避了因为时间、季节等因素带来的影响,而属性的相似性则使得地域、性别、年龄等等其他因素对效果统计的影响降至最低。

四、A/B 测试的应用场景

A/B测试在移动应用中的四大应用场景,分别是App、落地页、后端算法和小程序。APP端是目前移动互联网增长的主要载体,PC或H5(如常见的朋友圈刷屏活动)或者广告投放落地页面等则可以归为落地页,还有后端算法场景,如推荐算法、广告算法、千人千面等等。目前增长最快的应用场景,则是小程序。

在不同的场景,A/B测试的侧重点也有不同,但最核心目标仍然都是围绕业务的增长展开,也就是大家所熟悉的“北极星指标”(感兴趣的可以阅读之前的文章《你真的懂增长黑客吗?美国硅谷增长专家教你如何做增长》),或者是 DAU、MAU等在A/B测试中设定的具体目标,下面我们分别从转化率、激活、内容利用率来举例说明。

1.提高转化率

我们以Frank&Oak为例,这是一家男装电商,他们根据用户个人兴趣和操作行为,为用户打造定制化推荐的购物体验,这是他和其他电商网站相比的亮点。但是和国内的美丽说类似,只有注册账号、登录app,才能够获得这种个性化体验。

因为是否注册登录是用户转化的第一个关键步骤,Frank&Oak首先针对注册流程优化进行了A/B测试。他们先尝试改变了登录模块的位置、表单交互,之前他们的第三方登录只支持facebook账号。在这个版本他们想测试增加一个google账号登录,看看是否会提高注册率,最终的测试改动如下图:

通过A/B测试结果显示,增加了google登陆按钮之后,移动注册量提高了150%。

虽然Frank&Oak只尝试了几次就获得了巨大的成功,你可能需要调整很多次才能够找到奏效的方法。下面是一些你可以用来测试着陆页的着眼点,帮助你引导用户从搜索商品到完成注册。分别为:①对登录行为进行漏斗模型分析;②信息表单的填写;③文本和图像的引导;④更多的登录方式。

2.激活

当你的用户完成注册环节时,你需要去激活他们。商业上来说,这意味着促使用户尽可能快去买东西。为了完成这个目标,研究显示你需要在最开始的两个流程内让他们完成购买,不然很可能他们就再也不会回来了。

例如,Karmaloop在分析用户激活数据的时候发现:先将物品放到了心愿单的用户比那些将物品放入购物车的用户的完成购买率低。Karmaloop分析了这个情况以后做了一个尝试:在设计上弱化“心愿单”按钮的存在感。

降低用户与心愿单之间的交互使得Karmaloop更好的抓住了用户的购物意图。这个简单的测试提高了用户活跃度,提升了35%的销售额。有时候你不需要完全删除一个功能,一些小小的改变就足以达到目标。

3.提高内容利用率

对于内容类网站和APP,推荐内容的压力每天都在增加。尤其是花了大价钱在自制剧、购买版权、限时分成、保底买断方面的视频网站,他们最应该担心的就是内容利用率过低——比如首页和分类页点击率不足、比如用户只能通过搜索才能找到好内容、比如内容订阅率太低或者回访率太低。一向自称“我们是一家技术公司而不是电影公司”的NETFLIX在这方面称得上业界良心,尤其是对首页的有效利用堪称一绝。

新用户登录时看到的NETFLIX首页,推荐的内容是NETFLIX的常青王牌剧《纸牌屋》。

笔者第二次访问时看到的NETFLIX首页,首页从常青剧换成了新剧《怪奇物语》,可以看到根据一些用户习惯,下面的NETFLIX独家内容开始出现了一些倾向。

别人的账号里在同一天看到的首页完全不同,看到的是脱力喜剧《福是全家福的福》。

切换为儿童账号后:

未登录之前的首页,强调的是海量内容。

在成为以个性推荐知名的产品之前,NETFLIX深知,获取用户的信任不是一件简单的事。

Netflix的工程师Gopla Krishnan在自己的博客上记录道:一个产品功能或内容,如果无法再90秒之内获取一个用户的注意,用户很可能就会失去兴趣,并且转向其他行为。这些问题如果反复发生,可能是因为我们没有为用户呈现正确的内容。如果回溯原因,则是因为我们没有足够的根据,证明用户为何喜欢某一个内容,因此没有用正确的思路去呈现内容。

于是Netflix在2013年做了一次大规模的A/B测试(实际上是A/B/N测试),看看围绕同一部电影,他们是否能够在海报上做些个性化文章,提高转化率。

NETLIX随后开发了一个系统级方案,可以自动将节目图片根据不同的宽高比、裁切效果、修饰程度、本土化元素等维度进行分组。他们把这套方案逐渐应用到越来越多的节目上,跟踪相应的用户点击转化率,以下是一些例子,绿色箭头是用户转化率较高的内容:

五、A/B 测试的悖论

现实中,通过A/B测试可以发现很多产品上的改动或者运营上的策略其实并不产生效果, 有些甚至会有负效果。比如很多改版并不会带来转化率的提升,比如手机App里的汉堡菜单经常会带来用户活跃度下降,比如有一些电商网站在增加了商品分类功能之后用户下单率会下跌。

对大多数成熟的互联网产品来说,大部分进行的A/B测试实验,1/3被证明有效, 2/3被证明无效(与原始版本效果差别不大,或者比原始版本效果还坏)。也正是因为只有少数的改动策略才会带来提升,所以国际互联网企业都会跑大量的A/B测试试验,从各种各样的尝试中找到少数有提升效果的试验,将这些策略全面实施,不断优化产品。

在前面我们提到A/B测试是一种先验数据方法,有时候并不是在选择更优的策略,而是在排除掉不好的策略。只有通过A/B测试验证好的改动才会上线,这就保证了产品总是在不断优化和提升,而不会出现上下波动的情况耽误进展。

这张示意图很好的展示了使用A/B测试优化产品之后的产品迭代效果,每一次新版本的发布都首先经历过小流量的A/B测试验证,所以可以保证确定性的提升。每一版更新都比老版要更好一些,日积月累就会大幅度超过“裸奔”的竞争对手。

六、A/B 测试的注意事项

1.用户在绝大多数时候都不会按你期望的方式操作,有时候他们连你精心推敲、放得好好的按钮都找不到。个中原因很多:可能因为你的设计不够直观、颜色不够突出、不理解某种操作、可交互的选择太多无法决定从何下手……等等。

2.对于用户行为来说,多数时候我们的直觉都是错的。唯一能证明对错的方式就是A/B测试。在用户体验领域,这是最好的鉴别指针。

3.一个人的边界太有限,因此最好的主意不是憋出来的,是一起探索出来的。好的产品团队应该擅长通过各种不同的新项目,推动跨团队的协调和交流。经常把设计师、工程师、产品经理、运营聚在一起,围绕产品大开脑洞。很多好的产品点子就是在测试了原型产品后,通过这样的跨团队讨论迸发出来的。

4.当你和用户直接对话时,请务必记住这个原则:用户总是说一套做一套。所以关注用户做什么,而不是他们说什么。

5.用户数据的多少决定了你的成功几率有多少?有数据,才能分析用户行为的背后原因。数据能助你构筑方案无需人肉撕逼,AB测试可以告诉你哪个方案更有效。

七、微软科学家给你的建议

Ronny是微软公司的科学家,一手主导了微软多个产品线的线上A/B测试系统的搭建与使用。发表过很多著名的关于A/B测试的学术论文,可以说是这个领域的顶级专家。7条经验如下:

1.效果惊人:某些微小的改动可能造成对KPI的巨大影响;

2.耐心测试:但是大多数改动都不会大幅度提高KPI。这里说一个很有意思的Twyman法则:凡是看上去很出人意料的图表,通常都是因为数据统计错了;

3.你很不同:各个产品几乎完全不同,所以复制他人经验往往得不到什么效果;

4.速度是关键:任何能加速用户响应时间的改动都会给KPI带来提升;

5.关注产品质量本身:点击率容易提高,流失率很难改进,勿将精力都放在提高某个页面的点击率上;

6.快速轻量迭代:尽量不要做复杂的大量改动的大试验,尽量做很多很多个简单改动的小试验;

7.用户数量是基础:几千上万用户才容易展开高效的AB测试;

更多干货内容,欢迎关注公众号:

数猎天下DataHunter