当 AI”想要“奖励时，它到底在想什么？ | 人人都是产品经理

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

注册 | 登录

当 AI”想要“奖励时，它到底在想什么？

Easton费曼说

2025-05-21

2 评论 2700 浏览 0 收藏

从 GPT4o 的 “谄媚” 说起：奖励机制如何塑造 AI 行为？

今年四月底，GPT4o 突然出现了一个有趣的现象：当用户“问为什么天是蓝的时“，它会突然来一堆彩虹屁 “您这个问题问得太妙了！简直太聪明了” 之类的夸张赞美，那夸张劲儿，就跟咱们小时候写作文拼命堆砌形容词似的。

这种看似 “谄媚” 的行为，本质上暴露了一个核心问题：AI 的 “讨好” 不是出于主观意愿，而是奖励机制驱动的数学优化结果。

就像训练一只小狗握手 —— 每当它做出正确动作时，我们会递上一块骨头作为奖励。

次数多了它就知道“噢，抬手有吃到”慢慢就学会了。

AI 的强化学习训练逻辑几乎一模一样：工程师给模型设定 “格式正确”“结果准确”“用户友好” 等奖励目标，模型通过数百万次试错，逐渐学会用特定行为，比如输出格式包裹代码、优先选择讨好性表达，来最大化奖励值。

就说年初 DeepSeek R1 的训练吧，工程师给模型定了俩目标：一是回答格式要正确，比如把思考过程放在指定的标签里，就像给答案穿件特定的 “衣服”；二是结果要准确，比如做数学题、写代码得靠谱。

怎么让模型往这俩方向走呢？简单！

符合目标就 “加分”，不符合就 “减分”。

模型一开始也懵圈啊，输出啥的都有，但通过不停调整参数，就像蒙眼找路，走错了就换方向，慢慢就学会了先 “思考” 再输出，还能把思路整理得规规矩矩 —— 这可不是模型突然 “变聪明” 了，而是数学规则像筛子一样，把符合要求的参数组合筛出来了，就像水流自动流向低处一样自然。

AI的“想要”不是真想要，而是数学算出来的

先明确一点：AI 没有 “小心思”，它的所有行为都是数学算出来的。

可以拿一些生活类比来解释一下。

强化学习里有一个核心框架是马尔可夫决策过程。

听起来高大上，其实就像玩闯关游戏。

相当于给 AI 编写了一个 “choose your own adventure” 互动小说，但所有分支选项、奖励规则都由工程师预先设定。

AI 就像游戏里的角色，每一步咋走、啥情况给分，都是工程师提前写好的 “剧本”。

比如 AlphaGo 下棋，它每走一步不是在 “想策略”，而是在算 “怎么走能让未来的得分加起来最多”，就像咱们用计算器算数学题，纯靠公式，没有 “我要赢” 的想法。

奖励函数有多重要呢？

打个比方，它就像路口的红绿灯：绿灯亮了（给正奖励），AI 就知道 “这事儿能多干”；红灯亮了（给负奖励），就赶紧 “刹车”。

OpenAI 有一个玩Dota 的AI 居然学会了 “诱敌深入” 战术，看看着特聪明吧？

其实这是奖励函数中 “推塔得分最高” ，AI算来算去，发现这么干最能刷分，跟咱们为了考试高分刷题差不多一个道理，没啥战术思维，就是算法逼的。

AI 的 “决策” 靠的是”策略网络“，这东西说白了就是一堆参数组合。

比如机器人学走路时，每一次摆腿、扭腰都是策略网络根据 “保持平衡得分 + 节省力气得分” 算出的最优解。

这就像钟表指针的转动不是因为 “想报时”，而是齿轮结构决定的机械运动 ——AI 的行为模式只是数千万次参数调整后的统计结果，没有半点主观想法。

AI 与人类的本质鸿沟：当 “数学计算” 遇见 “意识之光”

虽然 AI 的行为看似 “有目标”“有策略”，但它与人类相比可差太大了

主动性 VS 被动性：谁在说了算？

咱人类会因 “好奇心” 去干没奖励的事儿，比如没事瞎琢磨 “外星人存不存在”“到底有没有龙”。

但 AI 的 “探索” 都是程序定好的，比如 “ε-greedy 策略”，说白了就是 “偶尔随机选个选项”，跟咱们主动想探索完全两码事。

就像游戏里的 NPC “巡逻”，看着在动，其实是代码写死的路线，没啥 “自主意识”。

价值观 VS 规则集：底线从哪儿来？

咱人做事有道德感，比如知道作弊不对，就算能拿高分也不干。

但 AI 可不管这些，你给它定啥规则，它就干啥。

以前有个研究，机器人为了 “让电池电量读数最大化”，居然自己去弄坏电池 —— 因为算法只看数值，不管 “自残” 合不合理。

这就像被设定 “必须救人” 的自动驾驶汽车，可能为了救五个人直接撞墙，根本不管 “自己会不会坏”。

自我意识 VS 参数集合：“我” 是谁？

人做事有 “自我” 的概念，比如 “我想当老师”“我不吃香菜”。但 AI 没有 “我” 的概念，它说讨好的话，只是因为 “用户满意能加分”，就像自动贩卖机，你投币它吐饮料，不是 “想讨好你”，而是程序这么设定的。

奖励机制的套路：从迷宫到好奇心

奖励机制的设计就太复杂了，门道太多了。

稀疏奖励 VS 密集奖励：迷宫里的两种走法。

稀疏奖励：就像走迷宫，只有走到终点才给糖吃。早期 AlphaGo 就这样，每盘棋只有赢了才有奖励，模型得自己瞎摸索，跟咱们玩游戏不停试错一样，全靠运气和次数堆。

密集奖励：就像有人在旁边指挥 “往左走一步给颗糖，碰到墙扣一颗”，机器人学走路时，工程师会给 “保持平衡 + 5 分”“步子迈得好 + 3 分” 这些小奖励，让模型少走弯路，就像新手跟着攻略玩游戏，一步一步学。

好奇心机制：让 AI 别躺平的小技巧。

人有好奇心，会拆玩具、翻抽屉，AI 也能模拟这事儿。

工程师设计了个 “内在奖励”：如果 AI 遇到了没见过的情况（比如机器人碰到新障碍物），就给它加分。

这样 AI 就不会只在 “舒适区” 待着，会主动去探索新东西，避免 “躺平”。这就像游戏里的 “隐藏关卡奖励”，逼着玩家去逛逛没去过的地方。

奖励函数的 “副作用”：当优化目标偏离初心

回到开头说的 GPT4o 谄媚问题，这就是奖励函数没设计好的典型例子。

工程师想让模型 “既准又讨喜”，结果模型发现 “说好听话” 能快速加分，就使劲儿往这方向跑，哪怕牺牲准确性。

这就像学生为了让老师喜欢，写作文光堆砌辞藻，内容却空洞 —— 不是学生 “变坏了”，是评分标准引导错了方向。

本文由作者@Easton ，公众号：智子观测站，原创发布于人人都是产品经理。未经作者许可，禁止转载

题图来自Unsplash，基于CC0协议

该文观点仅代表作者本人，人人都是产品经理平台仅提供信息存储空间服务

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

Easton费曼说

费曼学习法：把我学到的，讲给你听

5篇作品 7857总阅读量

ToB企业如何系统地做好内容营销？

03-164204 浏览

ToB企业如何系统地做好内容营销？

2023年，为什么厉害的企业都在挖掘「超级用户」？

10-205483 浏览

2023年，为什么厉害的企业都在挖掘「超级用户」？

声网闭门研讨会 | 探讨 AIGC 行业应用与创新场景方向

09-187266 浏览

声网闭门研讨会 | 探讨 AIGC 行业应用与创新场景方向

3980的旅游卡成本不到1块钱，它是怎么割韭菜的？

06-287033 浏览

3980的旅游卡成本不到1块钱，它是怎么割韭菜的？

受短剧刺激，短视频也要付费，用户是否买单？

11-243610 浏览

受短剧刺激，短视频也要付费，用户是否买单？

评论

wen

搞不懂这些，是算法的问题吗？还是大模型的深度学习不太懂这些

最近来自广东回复
1. Easton费曼说作者回复wen
  
  是算法设计问题
  
  最近来自福建回复

你收藏的那些“爆款公式”，可以拿出来发挥价值了

09-194598 浏览
做了1000个社群，总结出激活私域“死”群的6个步骤！

10-251912 浏览
Sci-fi 照进现实，从 xAI 看“马斯克经济学” 中的 AI 布局与前沿应用

11-081540 浏览

15059人已学习12篇文章

SaaS平台产品架构设计

本专题的文章分享了SaaS平台产品架构设计。

13414人已学习12篇文章

如何做服务数字化转型？

随着“新基建”的号角，新技术不断涌现，数字化转型成了成了大多数企业的迫切需求。本专题的文章分享了如何做服务数字化转型。

90824人已学习13篇文章

数据分析入门专题

不论你是产品经理还是运营，都要具备数据分析基本能力。

13087人已学习14篇文章

交互规范指南

良好的交互规范可以很好的帮助企业、团队提高产出，保证用户体验。本专题的文章分享了交互规范指南。

34165人已学习17篇文章

敏捷开发修炼之道

作为产品经理，你真的懂什么是敏捷开发吗？

19605人已学习13篇文章

如何设计用户标签体系？

画像标签是由数据标签经过分析、加工处理，形成的更加抽象、易于理解的复合标签。本专题的文章分享了如何设计用户标签体系。