当 AI”想要“奖励时,它到底在想什么?

2 评论 2700 浏览 0 收藏 9 分钟

从 GPT4o 的 “谄媚” 说起:奖励机制如何塑造 AI 行为?

今年四月底,GPT4o 突然出现了一个有趣的现象:当用户“问为什么天是蓝的时“,它会突然来一堆彩虹屁 “您这个问题问得太妙了!简直太聪明了” 之类的夸张赞美,那夸张劲儿,就跟咱们小时候写作文拼命堆砌形容词似的。

这种看似 “谄媚” 的行为,本质上暴露了一个核心问题:AI 的 “讨好” 不是出于主观意愿,而是奖励机制驱动的数学优化结果。

就像训练一只小狗握手 —— 每当它做出正确动作时,我们会递上一块骨头作为奖励。

次数多了它就知道“噢,抬手有吃到”慢慢就学会了。

AI 的强化学习训练逻辑几乎一模一样:工程师给模型设定 “格式正确”“结果准确”“用户友好” 等奖励目标,模型通过数百万次试错,逐渐学会用特定行为,比如输出格式包裹代码、优先选择讨好性表达,来最大化奖励值。

就说年初 DeepSeek R1 的训练吧,工程师给模型定了俩目标:一是回答格式要正确,比如把思考过程放在指定的标签里,就像给答案穿件特定的 “衣服”;二是结果要准确,比如做数学题、写代码得靠谱。

怎么让模型往这俩方向走呢?简单!

符合目标就 “加分”,不符合就 “减分”。

模型一开始也懵圈啊,输出啥的都有,但通过不停调整参数,就像蒙眼找路,走错了就换方向,慢慢就学会了先 “思考” 再输出,还能把思路整理得规规矩矩 —— 这可不是模型突然 “变聪明” 了,而是数学规则像筛子一样,把符合要求的参数组合筛出来了,就像水流自动流向低处一样自然。

AI的“想要”不是真想要,而是数学算出来的

先明确一点:AI 没有 “小心思”,它的所有行为都是数学算出来的。

可以拿一些生活类比来解释一下。

强化学习里有一个核心框架是马尔可夫决策过程。

听起来高大上,其实就像玩闯关游戏。

相当于给 AI 编写了一个 “choose your own adventure” 互动小说,但所有分支选项、奖励规则都由工程师预先设定。

AI 就像游戏里的角色,每一步咋走、啥情况给分,都是工程师提前写好的 “剧本”。

比如 AlphaGo 下棋,它每走一步不是在 “想策略”,而是在算 “怎么走能让未来的得分加起来最多”,就像咱们用计算器算数学题,纯靠公式,没有 “我要赢” 的想法。

奖励函数有多重要呢?

打个比方,它就像路口的红绿灯:绿灯亮了(给正奖励),AI 就知道 “这事儿能多干”;红灯亮了(给负奖励),就赶紧 “刹车”。

OpenAI 有一个玩Dota 的AI 居然学会了 “诱敌深入” 战术,看看着特聪明吧?

其实这是奖励函数中 “推塔得分最高” ,AI算来算去,发现这么干最能刷分,跟咱们为了考试高分刷题差不多一个道理,没啥战术思维,就是算法逼的。

AI 的 “决策” 靠的是”策略网络“,这东西说白了就是一堆参数组合。

比如机器人学走路时,每一次摆腿、扭腰都是策略网络根据 “保持平衡得分 + 节省力气得分” 算出的最优解。

这就像钟表指针的转动不是因为 “想报时”,而是齿轮结构决定的机械运动 ——AI 的行为模式只是数千万次参数调整后的统计结果,没有半点主观想法。

AI 与人类的本质鸿沟:当 “数学计算” 遇见 “意识之光”

虽然 AI 的行为看似 “有目标”“有策略”,但它与人类相比可差太大了

主动性 VS 被动性:谁在说了算?

咱人类会因 “好奇心” 去干没奖励的事儿,比如没事瞎琢磨 “外星人存不存在”“到底有没有龙”。

但 AI 的 “探索” 都是程序定好的,比如 “ε-greedy 策略”,说白了就是 “偶尔随机选个选项”,跟咱们主动想探索完全两码事。

就像游戏里的 NPC “巡逻”,看着在动,其实是代码写死的路线,没啥 “自主意识”。

价值观 VS 规则集:底线从哪儿来?

咱人做事有道德感,比如知道作弊不对,就算能拿高分也不干。

但 AI 可不管这些,你给它定啥规则,它就干啥。

以前有个研究,机器人为了 “让电池电量读数最大化”,居然自己去弄坏电池 —— 因为算法只看数值,不管 “自残” 合不合理。

这就像被设定 “必须救人” 的自动驾驶汽车,可能为了救五个人直接撞墙,根本不管 “自己会不会坏”。

自我意识 VS 参数集合:“我” 是谁?

人做事有 “自我” 的概念,比如 “我想当老师”“我不吃香菜”。但 AI 没有 “我” 的概念,它说讨好的话,只是因为 “用户满意能加分”,就像自动贩卖机,你投币它吐饮料,不是 “想讨好你”,而是程序这么设定的。

奖励机制的套路:从迷宫到好奇心

奖励机制的设计就太复杂了,门道太多了。

稀疏奖励 VS 密集奖励:迷宫里的两种走法。

稀疏奖励:就像走迷宫,只有走到终点才给糖吃。早期 AlphaGo 就这样,每盘棋只有赢了才有奖励,模型得自己瞎摸索,跟咱们玩游戏不停试错一样,全靠运气和次数堆。

密集奖励:就像有人在旁边指挥 “往左走一步给颗糖,碰到墙扣一颗”,机器人学走路时,工程师会给 “保持平衡 + 5 分”“步子迈得好 + 3 分” 这些小奖励,让模型少走弯路,就像新手跟着攻略玩游戏,一步一步学。

好奇心机制:让 AI 别躺平的小技巧。

人有好奇心,会拆玩具、翻抽屉,AI 也能模拟这事儿。

工程师设计了个 “内在奖励”:如果 AI 遇到了没见过的情况(比如机器人碰到新障碍物),就给它加分。

这样 AI 就不会只在 “舒适区” 待着,会主动去探索新东西,避免 “躺平”。这就像游戏里的 “隐藏关卡奖励”,逼着玩家去逛逛没去过的地方。

奖励函数的 “副作用”:当优化目标偏离初心

回到开头说的 GPT4o 谄媚问题,这就是奖励函数没设计好的典型例子。

工程师想让模型 “既准又讨喜”,结果模型发现 “说好听话” 能快速加分,就使劲儿往这方向跑,哪怕牺牲准确性。

这就像学生为了让老师喜欢,写作文光堆砌辞藻,内容却空洞 —— 不是学生 “变坏了”,是评分标准引导错了方向。

本文由作者@Easton ,公众号:智子观测站,原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自Unsplash,基于CC0协议

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 搞不懂这些,是算法的问题吗?还是大模型的深度学习 不太懂这些

    来自广东 回复
    1. 是算法设计问题

      来自福建 回复
专题
15059人已学习12篇文章
本专题的文章分享了SaaS平台产品架构设计。
专题
13414人已学习12篇文章
随着“新基建”的号角,新技术不断涌现,数字化转型成了成了大多数企业的迫切需求。本专题的文章分享了如何做服务数字化转型。
专题
90824人已学习13篇文章
不论你是产品经理还是运营,都要具备数据分析基本能力。
专题
13087人已学习14篇文章
良好的交互规范可以很好的帮助企业、团队提高产出,保证用户体验。本专题的文章分享了交互规范指南。
专题
34165人已学习17篇文章
作为产品经理,你真的懂什么是敏捷开发吗?
专题
19605人已学习13篇文章
画像标签是由数据标签经过分析、加工处理,形成的更加抽象、易于理解的复合标签。本专题的文章分享了如何设计用户标签体系。