新老策略模型究竟孰好孰坏？ | 人人都是产品经理

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

{{ userInfo.member ? '查看权益' : '开通会员' }}

发布

注册 | 登录

新老策略模型究竟孰好孰坏？

雷帅

2022-11-15

0 评论 3342 浏览 5 收藏

9 分钟

在行业里做过较长时间策略或模型的人，一定会经历模型策略迭代的过程；而迭代过程中你总会遇到新策略是不是一定比旧策略好的问题。新老策略模型究竟孰好孰坏呢？如何分辨？本文提出了4种解决方法，希望能给你带来帮助。

任何在这个行业里做过较长时间策略或模型的人，一定会经历模型策略迭代的过程；任何经历过模型策略迭代的人，只要有过独立思考，一定会遇到新策略是不是一定比旧策略更好的问题。

贷前也好，贷中也罢，当前的风险表现都是当前的这套风险策略的结果。当我们要迭代模型策略的时候，KS也好，Lift值也罢，你会高估新模型策略的效果，更为可靠的说法是，你会高估新版对旧版的提升效果。

因为评估的样本，并非完全是应用的样本，这就由此产生了选择偏差，或者说幸存者偏差，我们是在“幸存者”上确保了B好于A。

常见的现象是，新模型永远比旧模型好，但却并不一定是真的好。试问，如果新模型新策略永远比旧模型旧策略更好的话，为什么业务没有变得更好？

因为上述问题的必然性和重要性，新老策略模型究竟孰好孰坏，可以说是这个行业最经典的问题。

我们今天来聊一聊解决办法。思来想去，解决办法似乎有四种，是哪四种呢？这四种又具备哪些优劣点呢？

01 随机流量

最彻底的一种是随机流量。随机一部分流量例如1%，让其通过，给随机额度随机息费，任其表现。也不需要100%通过，政策风险、欺诈风险等前置稳定不变的策略还是可以照常有。

这部分流量，可以用来建模，可以用来评估，最重要的是用来评估。任你选什么样本，任你做多少模型，任你套什么算法，只要在这个随机流量上效果是更优的，就有理由认定为模型是更优的。策略当然也是一样。

当前，普适的前提还是需要满足，例如样本量得足够大、时间窗口得足够长、模型本事稳定性可靠性得尽可能高。因为，真正的目标是未来的随机流量上的效果好。

这个办法没有任何坏处，除了费钱。信贷领域，随机流量的成本太高了，年化24%的产品，多少个好客户的收益才能弥补一个坏客户的成本？

所以，这个办法用的并不多。只有头部效应明显、营收稳定的平台有可能会预留一部分资产预算用于随机流量。

也不对，远超过24%年化的那个黄金年代，也适用，只是他们不是为了随机流量而随机，而是没有太多风控，暴力催收+高息可以搞定。

02 拒绝推断

顾名思义，拒绝推断就是对拒绝的样本进行表现的推断，是去解决幸存者偏差的问题。有了全量样本的表现，模型策略孰好孰坏一算便知。

上面说的随机流量，其实就可以看作拒绝推断的一种解决办法。其他的办法，不管是推断拒绝样本的表现也好，还是获取拒绝样本在其他产品上的表现也好，总归是非真实的。你说引入了信息，我说引入了噪声。

引入不精确的信息来解决精确性的问题，总归是值得怀疑的。

所以，对于拒绝推断，实际上在用的是少之又少。因为太多假设，因为不准，就不如不用，就像判别模型大体总是比生成模型有效。

03 冠军挑战者

国外来的叫法，但其实就是ABtest。

当前线上的策略作为冠军组，拟上线的策略作为挑战组，挑战组可以有多个。因为表现期滞后且损失大，随机切小部分流量给挑战组，不宜过多，例如10%。任其表现，优劣自明。

挑战成功，则挑战者成为新的冠军者，可以全部切换新策略。但也可以不全切，甚至可以永远保持50%：50%的冠军挑战者。好处当然是对比得更充分，且可以应对突发情况，其一下线其一递补。

ABtest当然具备很强的严谨性，但在风控领域，效率不行。前已备述，风控不需要做ABTest？

ABtest最大的优势是在当你无法评估多个方案的优劣时，你不知道哪种字体、哪个颜色、哪种文案、多少度的倒角，究竟哪个好哪个坏，试了才知道。

而风控领域，你做了一个模型，然后跟老板说我也不知道有没有更好，测了才知道。祝你好运！

你做的模型一定是要离线评估更优的，当然，离线评估没有线上真实去测的可靠性那么高，但也可以尽可能高。

04 分群评估

上述办法的弱点都很明显，那有没有弱点没那么明显的办法？有，那就是分群评估。

请君静听。

分群评估当然就是把整个客群分成很多的客群，分别看这些客群下的效果。关于分群的艺术，可以说是互联网业务中最重中之重的法宝。不信？我的客群观，互联网业务的流量之争。

分群评估的奥秘在于，不同客群的通过率或者额度定价是不同的，受策略影响大的客群评估效果离真相越远，那受策略影响小的客群评估效果则离真相就会越近。

在一个通过率10%的客群上，新模型优于旧模型易如反掌；在一个通过率90%的客群上，新模型优于旧模型才是真的更优。

分群评估在这个问题上有效，取决于一个假设，那就是一个模型相比另一个模型要好，那会是全方位地好。如果模型B优于模型A，那么不管是整体，还是各个客群，都是B更好。

反之亦然。在受样本有偏影响更小的客群上，即可靠性高的客群，新模型优于旧模型，则有理由认为在其他客群上也会更优。

值得强调的是，我们所讨论的是模型策略迭代的对比，如果你针对的就是局部客群的优化，则不在此列。

总结

前面三个你大概率都看过，那第四个值得你看四遍。

仅存的问题是，局部客群的提升幅度能多大程度上代表整体？

我不喜欢过度依据数据来判断道理，道理很多时候是可以跨越数据而成立的。如果一个数据不符合某个道理，我更倾向于怀疑数据而不是道理，但程度问题必然还是依靠数据。

上述程度问题我无法判断。如你们有这样的试验数据，或者有这样的文献结果，请告知我。以飨读者。

专栏作家

雷帅，微信公众号：雷帅快与慢，人人都是产品经理专栏作家。风控算法工程师，懂点风控、懂点业务、懂点人生。始终相信经验让工作更简单，继而发现风控让人生更自由。

本文原创发布于人人都是产品经理。未经许可，禁止转载。

题图来自 Unsplash，基于CC0协议。

该文观点仅代表作者本人，人人都是产品经理平台仅提供信息存储空间服务。

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

雷帅

公众号「雷帅快与慢」，WX：thunderbro，幸会

48篇作品 246568总阅读量

领导又把资源给那个人了，怎么办？

10-123191 浏览

领导又把资源给那个人了，怎么办？

设计复盘 | 搜索功能体验优化详解

03-0910906 浏览

设计复盘 | 搜索功能体验优化详解

一篇文章说清楚SRM中的寻源竞价

09-135440 浏览

一篇文章说清楚SRM中的寻源竞价

小红书能打破高逼格社区的商业化魔咒吗？

10-062736 浏览

小红书能打破高逼格社区的商业化魔咒吗？

小红书实干复盘：28天可以有结果！

12-143874 浏览

小红书实干复盘：28天可以有结果！

评论

目前还没评论，等你发挥！

AI文字转视频潜藏版权风险，AI产品如何应对版权难题？

03-2810234 浏览
东方甄选要成为独立的流量平台，还有很长的路

07-283484 浏览
从曹县到淄博，小城市出圈的“品牌方法论”

04-218113 浏览