AI模型稳定性评估指标：PSI的原理和计算 | 人人都是产品经理

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

注册 | 登录

AI模型稳定性评估指标：PSI的原理和计算

2024-01-15

2 评论 4687 浏览 13 收藏

渴望踏入产品经理行业但无从下手？我们的1V1私教陪跑实战营，由大厂导师手把手带你入门，从理论到实践，助你快速掌握核心技能，轻松上手！

在构建AI模型的过程中，需要处理很多模型和算法。之前我们介绍了如何评估分类模型和回归模型的性能，这篇文章，我们介绍一下常用的模型稳定性指标———客群稳定性指标（PSI）。

前面两篇文章分别介绍了如何评估分类模型和回归模型的性能。

模型上线前的评估，除了前文提到的模型性能之外，还需要考虑模型的稳定性，只有稳定性足够好的模型才能达到上线的标准。

本文就来介绍一下常用的模型稳定性指标———客群稳定性指标（PSI）。

一、什么是PSI？

模型构建时，我们以历史数据作为样本，以历史数据的表现作为模型评估的依据。

但实际上，由于客群变化（不同时间段给到模型的样本数据会有变化）或数据源采集变化等因素影响，实际样本分布也会不可避免的发生偏移，从而导致模型不稳定。

如果模型不稳定，那么我们根据历史数据样本得到的“合适”阈值，去给实际数据样本做评判，就会直接影响模型结果的合理性。

一款产品无到有，产品经理需要做些什么？

在一个产品从无到有的过程中，要做好产品经理这个角色实在是不容易，除了大家都知道的写需求、写需求、写需求，要做的事多着呢。产品经理不是你眼中的只会找你麻烦，提要求..

所谓PSI指标就是客群稳定性指标（Population Stability Index），通过该指标，可以得到不同时间段的样本下，模型在各分数段分布的稳定性。

二、如何计算PSI？

我们先来看一下PSI的计算公式：

PSI（Population Stability Index）= SUM((实际占比-预期占比) * ln(实际占比/预期占比))

从公式中可以看到，想要计算稳定性，就需要有一个基准数据（预期占比）作为参照，然后用实际数据和基准数据就可以计算PSI值。

计算PSI值一般分为以下三步：

分箱：分别将模型输出的预期分布和实际分布进行分箱操作。有等频分箱和等距分箱两种方式。
计算分布：分别计算落在各区间的人数占比，分别得到每个区间的预期占比和时机占比数值。
计算PSI值：根据公式 (实际占比-预期占比) * ln(实际占比/预期占比) 计算每个区间的PSI值，再求和，就可以得到最终的PSI值。

三、判断标准

PSI表示的是实际占比和预期占比之间的差距，所以PSI值越小，说明实际占比和预期占比的差异也比较小，代表模型越稳定。

我们一般会这么定义模型的稳定性：

若PSI<0.1，稳定性良好，说明样本分布仅有微小变化，模型很稳定；
若PSI在0.1~0.25之间，稳定性一般，说明样本分布有变化，需要根据实际情况调整评分切点或调整模型；
若PSI>0.25，稳定性较差，说明样本分布有显著变化，模型不稳定，必须调整模型。

四、局限性

但是我们也不能迷信PSI指标，PSI只是一个粗糙的指标，有它的局限性，严重受制于数据质量、样本代表性和分档数量。

数据质量：当PSI指标表明模型不稳定时，首先要确定数据是否存在问题，比如数据是否正常提供、接口是否正常工作、网关数据传输过程是否正常、加工过程是否遭到数据污染或逻辑上有疏忽遗漏等。
样本代表性：既要确保选取的样本数量足够反应总体数据的信息，又要确保选取的样本结构和总体数据的结构一致（分层抽样）
分档数量和方式：不同的分组数和分组方式也会对PSI值有小幅的影响

五、总结

本文我们介绍了如何使用PSI指标评估模型的稳定性，模型稳定性是判断模型是否可用的一个非常重要的条件，虽然我们实际上不需要手动计算PSI值，但通过计算过程我们可以更深入的理解其原理。

至此，我们用三篇文章分别讲述了分类模型性能评估、回归模型性能评估和模型稳定评估的指标和计算方法，希望对大家有所帮助。

接下来，我们开始进入AI算法大篇章的学习，由于计划分享的算法较多，我会在算法篇适当增加更新的频率，争取在一个月内完成算法相关的文章，敬请期待。

本文由 @AI小当家原创发布于人人都是产品经理，未经许可，禁止转载

题图来自 Unsplash，基于 CC0 协议

该文观点仅代表作者本人，人人都是产品经理平台仅提供信息存储空间服务。

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

学习和分享AI知识，目前专注于大模型领域，期待AGI的到来~

23篇作品 112456总阅读量

数据分析｜一文带你快速上手做新品方案

01-217344 浏览

数据分析｜一文带你快速上手做新品方案

一首“挖呀挖呀挖”，美女幼师5天吸粉300万

05-055931 浏览

一首“挖呀挖呀挖”，美女幼师5天吸粉300万

产品经理难题：别人都在管理，我还在画原型，为何？

刚刚

圆满落幕 | RWS 直播分享会：揭秘产品国际化的万能路线图

03-092305 浏览

圆满落幕 | RWS 直播分享会：揭秘产品国际化的万能路线图

GPT-4满分第一名通过大厂模拟面试！微软154页研究刷屏：与AGI的第一次接触

03-284346 浏览

GPT-4满分第一名通过大厂模拟面试！微软154页研究刷屏：与AGI的第一次接触

刚刚！我又被动引流了300精准客户！研究了14年的引流玩法，还是百度霸屏更“香”……

10-314433 浏览

刚刚！我又被动引流了300精准客户！研究了14年的引流玩法，还是百度霸屏更“香”……

评论

啊慢

PSI适用于什么类型的模型？

最近来自辽宁回复
1. 磊磊磊回复啊慢
  
  感觉像是银行的风控模型
  
  最近来自江苏回复

小公司成长记：如何自我提升业务理解能力？

如何创建高强度密码并强化帐户安全性

05-083168 浏览
从订单到交付OTD：传统汽车销售在哪些步骤可以数字化？

12-207271 浏览
盘点实体企业数字化营销的六大发展趋势

10-121748 浏览

15447人已学习12篇文章

浅谈用户体验五要素

用户体验五要素包括战略层、范围层、框架层、结构层、表现层五个方面，本专题的文章分享了用户体验五要素的看法。

15928人已学习14篇文章

如何抓住用户痛点？

痛点是什么？为什么用户会有痛点？如何抓住用户痛点？优先解决哪些用户痛点？本专题的文章分享了以上的问题详解。

15760人已学习12篇文章

虽然大厂们纷纷奔赴Web3.0，但是不少人还是对这个概念及相应生态一知半解。本专题的文章分享了对于web3的看法。

19767人已学习13篇文章

如何设计用户标签体系？

画像标签是由数据标签经过分析、加工处理，形成的更加抽象、易于理解的复合标签。本专题的文章分享了如何设计用户标签体系。

14279人已学习11篇文章

抽奖类活动的设计指南

抽奖作为一种活跃用户的运营手段之一，在产品运营的工作里是一项大家必须掌握的技能。本专题的文章分享了抽奖类活动的设计指南。

12212人已学习12篇文章

新零售saas架构

针对新零售行业的发展现状，面向新零售企业的SaaS系统，可以如何进行系统架构和规划？本专题的文章分享了新零售saas架构指南。