“事后达尔文”—— 游戏业务效果评估方法实践-世界微速讯
本文介绍了互联网业务数据效果评估的几种常见问题及方法,并基于分层抽
2023-06-23本文介绍了互联网业务数据效果评估的几种常见问题及方法,并基于分层抽样的逻辑优化出一套可应用于解决用户不均匀的“事后达尔文"分析法,可适用于无法AB测试或人群不均匀的AB测试等场景下的效果评估中,本文会基于实际应用案例,来给大家仔细阐述相关方法模型的思考过程,实现原理,应用结果,希望能够帮助大家,如果能对大家在各自领域中的业务效果评估有所助益的话,那就更棒了!
游戏业务作为公司重点的创收团队,为了更好的达成营收结果,需要不定期地开展各类运营活动来促进玩家付费转化、提升玩家付费水平,这就要求我们游戏数据分析师采取科学有效的分析模型,准确洞察分析各类运营策略的价值与收益,及时控制风险与优化后续运营方案。
【资料图】
而在实际的分析工作中,我们通常会碰到各种各样的业务及数据上的问题,逼迫我们不断迭代优化分析模型,产出更优价值更科学有效的结论建议。
如下案例,就是我们曾经碰到的一个典型问题——算是“辛普森悖论”[1]在游戏业务的一个实际体现:受不同月份游戏业务用户付费分布不均匀变化的影响,业务效果评估重要指标利润率(利润/流水),在整体和分游戏类型的场景下的数据表现完全互斥。
近三年来,我们持续地开展业务效果评估,在发现并解决问题的过程中不断总结经验及数据结论,最终优化迭代出“事后达尔文”分析方法论,从而有效解决游戏业务中效果评估的各项困难。
本文将从游戏业务效果评估的诸多问题出发,阐述分析方法的发展历程及数据逻辑原理,以及在游戏业务中具体的解决方案实践,来完整介绍“事后达尔文”的思考过程与应用落地,并展望更多应用场景。
游戏业务效果评估中常见的问题有如下这些难点:
游戏业务受节假日自然因素影响大,如何剔除?比如十一、春节期间玩家自发的付费增长同活动影响的关系?部分活动存在参与门槛,如何保障研究人群的一致性?比如返利活动中需消费达标才能获取礼券的参与门槛,未参与玩家天然付费能力弱一档的问题。整体与局部的效果差异的问题,如何解读?比如引言中网游单机利润率下降但整体利润率提升的问题。vivo的游戏营销类活动,一直致力于公平公正,绝对禁止杀熟,因此都需保持统一折扣力度,无法实现AB测试,如何持续优化迭代?游戏业务中营销活动往往能冲刺短时间的付费增长,但是后期受玩家实际收入能力影响存在回落的风险,如何有效论证活动的长期正向价值?比如双11期间开展的电商活动,明显影响了前一个月及后一个月的用户正常消费水平。以上诸多难点问题,都衍生于业务的实际运行过程中,需要我们分析师基于一套切实可行的方法论进行解决。
业务团队为了提升相关指标,如流水、利润等,而开展的如满减,返利,打折,促销等活动,在一段时间内让玩家、用户更多的参与、消费,来提升对应的指标。
而我们分析师就需要及时的研究清楚,这些业务动作带来了怎样的实质性的业务提升,以及如何形成更多优化空间,这就是效果评估的核心内容与价值。
判断业务效果,我们通常会细分很多指标,比如参与率、投入产出比、流水、利润等。但我们最关心的往往是指标增量,这是一个相对概念,核心就在于如何对比。为此,行业内通用的分析方法有如下几种:
时序比对法:通过观察活动前后的增长变化,如本周末开展的活动,那我们看本周末的流水去比对上周末的流水,来判断活动的增量;自然过滤法:受节假日等季节因素影响,本周和上周会有自然变化因素,为了过滤自然因素影响,我们将活动参与人群与未参与人群拆解开,将自然时间变化计算为未参与人群的本周流水比对上周流水的数值,最终按活动增量减去自然变化情况来作为最终增量;AB测试:基于均匀分层情况下的严格AB测试实验,部分游戏/门店开展活动,部分不开展,以不开展活动的部分增长作为自然增长,这样也可以计算出最终的增量。但是存在如下风险:①无法保证用户均匀分布;②活动开展较复杂,且存在客诉风险,玩家不易接受,且损失部分活动增量,不利于目标达成。
事后达尔文:集合方法2、3的各自优势,我们将参与活动人群/未参与人群,基于均匀分层的逻辑,按上周末arpu等指标拆解分层,保障对比对象的相对公平,计算各分层内参与人群的增长-自然增长(同分层未参与人群的增长),最终汇总整体结果。如下示例:
注:“事后达尔文”由数据分析团队成员于2019年研究出相关分析方法,并于2020年整理并取名为“事后达尔文”。
在介绍数据方案设计前,先介绍一下“事后达尔文”的分析思路和方法论,帮助大家更好地理解本文。
研究对象分两部分——人群和指标。
(1)人群
包含参与活动的人群、未参与活动的人群。参与活动的人群受到活动、季节因素的综合影响;未参与活动的人群主要受季节因素的自然变化影响,如十一前和十一期间的自然付费增长。
(2)研究指标
我们一般选择核心关注的如人均流水ARPU、人均礼券(游戏业务活动核心目标)。其他场景亦可按核心关注指标开展研究,如产品测试场景的点击率等。
基于我们的研究人群(参与活动与未参与活动的人群),在活动前、活动期的研究指标(流水、利润)表现情况,如下图:
其中:
C1=A*(A4-A3*(B4/B3));
C2=A*(A2-A1*(B2/B1));
因通常情况下,主动参与我们活动的玩家会有更积极主动的活跃、付费等行为特征,导致玩家A、B人群并不符合均匀分布的特征,故B玩家人群的自然季节因素变化无法完全代表A玩家人群的自然变化,最终导致无法完全科学合理的体现出活动玩法对A人群的增量。
我们为保障玩家人群B的自然变化能反映A玩家人群的水平,在核心研究的指标逻辑下,将A、B玩家人群做均匀的拆分,参考游戏业务活动中,按照活动前人均付费水平拆分(其他场景也可基于其核心指标拆分,如点击率分发效率等)。
其中:
C1=A*(A4-A3*(B4/B3));
C2=A*(A2-A1*(B2/B1));
C=sum(C1:Cn);D=sum(D1:Dn);
为保障以上分析结果真的均匀,我们会对每一分组做相应的验证,如上初始人群差异,若人群差异绝对值>=5%,则判断置信度不足,对应分组人群活动影响不单独做评估。
基于以上分层逻辑后,我们即可得到对应置信分组下,参与人群的指标变化率,未参与人群的指标变化率,二者相减即得到活动策略影响的增量变化(可正可负),汇总之后,即可得到整体增量变化,即为整体的活动影响。
特别说明:
通常情况下,置信度不足的分组人群,如果相关人群/流水比重过大,无法忽略影响的话(如超过10%),则会按照置信分组的总增量变化率来作为该分组的增量测算,此处仅供参考;参与活动人群规模较未参与差距过于悬殊,如<1:10的情况下,可考虑对B人群以抽样的方式来实现以上的效果。5.1.1 背景信息:
端午期间开展了充值不同档位可领取不同礼品的活动,如100元档、1000元档、4000元档等。(非实际案例)
5.1.2 前置分析:
主动参与的玩家,有较强的充值能力和欲望,对应效果研究需排除过滤这种充值能力上的差异;活动面向全体玩家,无法开展ABtest,也不一定适宜差异化策略;游戏充值玩家存在活动期大幅拉收,活动后消费降级的风险,所以整体研究中需考虑活动中+活动后的总体增量情况;有活动曝光的用户内部仍有较大差异,未参与活动(即未领奖)用户表明这些用户对本次礼包活动没有兴趣,本身付费倾向较低,而参与活动用户则有较强付费意愿。5.1.3 分析结果:
整体有无曝光对比:从整体看,有活动曝光用户的付费提升显著高于无曝光用户,且在低付费档位的提升效应更为显著;有曝光用户内部对比:有活动曝光但无领奖用户本身为游戏的低付费意愿用户,因此后向付费甚至不及无曝光用户,而活动对参与的用户有明显的付费刺激作用。5.2.1 背景信息:
(1)受国家版号政策的紧缩,游戏业务的稳定增长体现在老游戏的持续迭代上,而其拉新、回流、留存的节点,都围绕在重大版本更新节点上。所以我们有产品通过版本更新功能,提前将游戏新的玩法/内容/活动传递给用户,以提升游戏节点表现。
(2)我们vivo的版本预约已做了有段时间,但始终没有一个较为严谨的实验对比和数据分析,验证做这件事为平台带来的增量价值。故我们使用“事后达尔文”的分析方法对其展开了相应研究。
版本页面样式参考如下:
5.2.2 前置分析思考:
预约与非预约用户,除了在预约行为上存在差异,还存在版本信息感知上的差异,主要体现在活跃频次上,需要逐步进行对比分析;中心灰度放量提供了是否感知版本信息的两类人群对比,但灰度本身对用户的中心版本、手机性能和中心使用行为有要求,导致灰度用户在游戏内的活跃付费天然优于非灰度用户。5.2.3 分析结果:
版本信息感知价值:提前感知版本信息的用户在版本更新后向付费有提升,总体付费约高于无版本预约感知用户6%,且在高活跃天频下付费与无感知用户拉开差距;主动预约行为的价值:版本更新后预约用户付费相比仅感知无预约用户,其提升更为明显。对于游戏业务效果评估中面临的各类问题,我们借鉴过往经验,经过不断尝试和探索,基于用户分层的逻辑,拆解用户,将保持同一核心特征的用户放在一个水平线上进行对比,开发出“事后达尔文”的解决方案,并在解决游戏业务效果评估中取得长期较好效果。我们近期也有在推动大数据将相关的分析方法模型,结合游戏业务用户运营的实际特点,进行模型线上化,届时将更加快速便捷的完成活动策略的效果评估,给到业务方更及时有效的支持。
本文希望能让大家更了解游戏业务分析工作的实践情况,能对大家不同业务的分析评估工作有一些直观的参考价值。当然,方案中的具体模型细节、风险排查等无法完完全全的写出,也由衷欢迎感兴趣的朋友们和笔者一起探讨交流,谢谢大家!
参考文献:
赵焕光、章勤琼、王迪著《真理相遇统计》