当 AI”想要“奖励时,它到底在想什么?
从 GPT4o 的 “谄媚” 说起:奖励机制如何塑造 AI 行为?
今年四月底,GPT4o 突然出现了一个有趣的现象:当用户“问为什么天是蓝的时“,它会突然来一堆彩虹屁 “您这个问题问得太妙了!简直太聪明了” 之类的夸张赞美,那夸张劲儿,就跟咱们小时候写作文拼命堆砌形容词似的。
这种看似 “谄媚” 的行为,本质上暴露了一个核心问题:AI 的 “讨好” 不是出于主观意愿,而是奖励机制驱动的数学优化结果。
就像训练一只小狗握手 —— 每当它做出正确动作时,我们会递上一块骨头作为奖励。
次数多了它就知道“噢,抬手有吃到”慢慢就学会了。
AI 的强化学习训练逻辑几乎一模一样:工程师给模型设定 “格式正确”“结果准确”“用户友好” 等奖励目标,模型通过数百万次试错,逐渐学会用特定行为,比如输出格式包裹代码、优先选择讨好性表达,来最大化奖励值。
就说年初 DeepSeek R1 的训练吧,工程师给模型定了俩目标:一是回答格式要正确,比如把思考过程放在指定的标签里,就像给答案穿件特定的 “衣服”;二是结果要准确,比如做数学题、写代码得靠谱。
怎么让模型往这俩方向走呢?简单!
符合目标就 “加分”,不符合就 “减分”。
模型一开始也懵圈啊,输出啥的都有,但通过不停调整参数,就像蒙眼找路,走错了就换方向,慢慢就学会了先 “思考” 再输出,还能把思路整理得规规矩矩 —— 这可不是模型突然 “变聪明” 了,而是数学规则像筛子一样,把符合要求的参数组合筛出来了,就像水流自动流向低处一样自然。
AI的“想要”不是真想要,而是数学算出来的
先明确一点:AI 没有 “小心思”,它的所有行为都是数学算出来的。
可以拿一些生活类比来解释一下。
强化学习里有一个核心框架是马尔可夫决策过程。
听起来高大上,其实就像玩闯关游戏。
相当于给 AI 编写了一个 “choose your own adventure” 互动小说,但所有分支选项、奖励规则都由工程师预先设定。
AI 就像游戏里的角色,每一步咋走、啥情况给分,都是工程师提前写好的 “剧本”。
比如 AlphaGo 下棋,它每走一步不是在 “想策略”,而是在算 “怎么走能让未来的得分加起来最多”,就像咱们用计算器算数学题,纯靠公式,没有 “我要赢” 的想法。
奖励函数有多重要呢?
打个比方,它就像路口的红绿灯:绿灯亮了(给正奖励),AI 就知道 “这事儿能多干”;红灯亮了(给负奖励),就赶紧 “刹车”。
OpenAI 有一个玩Dota 的AI 居然学会了 “诱敌深入” 战术,看看着特聪明吧?
其实这是奖励函数中 “推塔得分最高” ,AI算来算去,发现这么干最能刷分,跟咱们为了考试高分刷题差不多一个道理,没啥战术思维,就是算法逼的。
AI 的 “决策” 靠的是”策略网络“,这东西说白了就是一堆参数组合。
比如机器人学走路时,每一次摆腿、扭腰都是策略网络根据 “保持平衡得分 + 节省力气得分” 算出的最优解。
这就像钟表指针的转动不是因为 “想报时”,而是齿轮结构决定的机械运动 ——AI 的行为模式只是数千万次参数调整后的统计结果,没有半点主观想法。
AI 与人类的本质鸿沟:当 “数学计算” 遇见 “意识之光”
虽然 AI 的行为看似 “有目标”“有策略”,但它与人类相比可差太大了
主动性 VS 被动性:谁在说了算?
咱人类会因 “好奇心” 去干没奖励的事儿,比如没事瞎琢磨 “外星人存不存在”“到底有没有龙”。
但 AI 的 “探索” 都是程序定好的,比如 “ε-greedy 策略”,说白了就是 “偶尔随机选个选项”,跟咱们主动想探索完全两码事。
就像游戏里的 NPC “巡逻”,看着在动,其实是代码写死的路线,没啥 “自主意识”。
价值观 VS 规则集:底线从哪儿来?
咱人做事有道德感,比如知道作弊不对,就算能拿高分也不干。
但 AI 可不管这些,你给它定啥规则,它就干啥。
以前有个研究,机器人为了 “让电池电量读数最大化”,居然自己去弄坏电池 —— 因为算法只看数值,不管 “自残” 合不合理。
这就像被设定 “必须救人” 的自动驾驶汽车,可能为了救五个人直接撞墙,根本不管 “自己会不会坏”。
自我意识 VS 参数集合:“我” 是谁?
人做事有 “自我” 的概念,比如 “我想当老师”“我不吃香菜”。但 AI 没有 “我” 的概念,它说讨好的话,只是因为 “用户满意能加分”,就像自动贩卖机,你投币它吐饮料,不是 “想讨好你”,而是程序这么设定的。
奖励机制的套路:从迷宫到好奇心
奖励机制的设计就太复杂了,门道太多了。
稀疏奖励 VS 密集奖励:迷宫里的两种走法。
稀疏奖励:就像走迷宫,只有走到终点才给糖吃。早期 AlphaGo 就这样,每盘棋只有赢了才有奖励,模型得自己瞎摸索,跟咱们玩游戏不停试错一样,全靠运气和次数堆。
密集奖励:就像有人在旁边指挥 “往左走一步给颗糖,碰到墙扣一颗”,机器人学走路时,工程师会给 “保持平衡 + 5 分”“步子迈得好 + 3 分” 这些小奖励,让模型少走弯路,就像新手跟着攻略玩游戏,一步一步学。
好奇心机制:让 AI 别躺平的小技巧。
人有好奇心,会拆玩具、翻抽屉,AI 也能模拟这事儿。
工程师设计了个 “内在奖励”:如果 AI 遇到了没见过的情况(比如机器人碰到新障碍物),就给它加分。
这样 AI 就不会只在 “舒适区” 待着,会主动去探索新东西,避免 “躺平”。这就像游戏里的 “隐藏关卡奖励”,逼着玩家去逛逛没去过的地方。
奖励函数的 “副作用”:当优化目标偏离初心
回到开头说的 GPT4o 谄媚问题,这就是奖励函数没设计好的典型例子。
工程师想让模型 “既准又讨喜”,结果模型发现 “说好听话” 能快速加分,就使劲儿往这方向跑,哪怕牺牲准确性。
这就像学生为了让老师喜欢,写作文光堆砌辞藻,内容却空洞 —— 不是学生 “变坏了”,是评分标准引导错了方向。
本文由作者@Easton ,公众号:智子观测站,原创发布于人人都是产品经理。未经作者许可,禁止转载
题图来自Unsplash,基于CC0协议
该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务
搞不懂这些,是算法的问题吗?还是大模型的深度学习 不太懂这些
是算法设计问题