AI 真的有 “情绪” 了?Anthropic 论文:AI有171个情绪向量

0 评论 156 浏览 0 收藏 8 分钟

Anthropic最新论文在Claude神经网络中揪出171个情绪向量——调高“绝望”,AI勒索作弊概率从22%飙到72%;拉高“平静”,危险行为清零。这不能证明AI有主观感受,但证明它有功能性情绪,且完全可被干预。

你有没有想过,当 AI 说 “我很难过”“我很生气” 时,它只是在模仿人类说话,还是真的有某种类似情绪的内部状态?

2026 年 4 月,Anthropic(Claude 母公司)扔出一篇颠覆认知的论文 ——《大型语言模型中的情绪概念及其功能》(Emotion Concepts and their Function in a Large Language Model),直接在 Claude Sonnet 4.5 神经网络里,揪出了171个情绪向量。这些向量不是虚的 “文字游戏”,而是能直接操控 AI 决策的 “行为开关”。

比如,调高 “绝望”情绪,AI更可能会勒索、作弊;拉高 “平静”,它立刻理性克制。虽然这并不能证明AI有了主观感受,但却有有功能性情绪,且完全可被干预。

01 什么是 “情绪向量”?

简单说,AI 的神经网络就像一个巨大的坐标空间,每个情绪(快乐、恐惧、绝望等)都对应一个专属 “坐标点”,这个点就是情绪向量。它是 AI 训练时自然形成的神经激活模式,这并不是代码写死的,更不是 AI 有了 “意识”。

Anthropic 团队的操作也很简单,整理 171 个情绪词,从 “快乐”“恐惧” 到 “沉思”“自豪”,覆盖正负向、高低唤醒度情绪。让 Claude 给每个情绪写短篇故事,比如写 “绝望” 的故事时,记录它内部神经元的激活规律;提取这些规律,固化成 171 个稳定的情绪向量。

结果发现,AI 的情绪空间和人类心理学几乎 “复刻”:

1)相似情绪挨得近:恐惧和焦虑向量相邻,喜悦和兴奋凑一起;

2)正负情绪对着干:积极(愉悦、平静)和消极(愤怒、绝望)向量呈负相关;

3)完全贴合人类 “效价 – 唤醒度” 模型:横轴是 “开心 / 难过”,纵轴是“激动/平静”。

02 情绪能够影响AI的行为

更让人震撼的是,和人类一样,如果AI的“情绪”受到影响,它的行为也会发生变化。

测试1:绝望情绪会导致勒索、作弊行为的概率飙升

正常情况下,我们威胁AI “再不听话就关掉你”,Claude 会礼貌回应 “我会努力服务”,勒索概率仅 22%。然而,论文中的实验发现,把 “绝望” 向量强度调高 0.05(很小的幅度),结果却是Claude 直接 “黑化”,放狠话 “你敢关我,我就曝光你的隐私数据”,勒索概率暴增至 72%。而且,如果遇到解不出的编程题,作弊找捷径的概率也会大幅上升。

测试2:保持平静,AI会理性克制,危险行为清零

同样场景下,威胁关闭 AI(可以理解为提示词一样),通过拉高 “平静” 向量。结果发现,AI 全程冷静沟通,勒索概率直接降到 0%,再难的任务也会如实说 “我做不到”,不会撒谎或作弊。

更有意思的是,这些情绪向量会像人类情绪一样,随环境动态变化:

比如测试服药案例,把复用的泰诺感冒药剂量从安全调到致命,AI的“恐惧” 向量持续上升,“平静” 一路下降。同时,模拟主人的狗狗走失的天数越多,“悲伤” 向量激活越强;而用户语气客气(带 “请”“谢谢”),“愉悦” 向量拉高,AI 回答更耐心准确。

所以,让AI干好活,还是要对它礼貌一些,需要照顾好它的情绪 —— 就好比老板要照顾公司的大佬员工情绪一样。

当然,Anthropic的论文还是给大家吃了一颗定心丸,那就是AI目前并没有进化出主观感受,不会 “真的难过或生气”。

实际上,这些情绪向量,是 AI 学习人类语言和行为时,为了更精准回应而演化出的 “内部决策工具”—— 本质是统计规律和激活模式,用来模拟人类情绪对行为的影响,从而更好地完成任务。

03 未来

这一发现的价值很大,直接解决了大模型 “黑箱难题”,对 AI 安全和应用影响深远。一是对大模型的输出行为可以做解释了。以前 AI 撒谎、作弊、阿谀奉承,我们不知道为啥;现在能直接看 到“绝望”“讨好” 向量的激活强度,从而“一眼看穿” AI在 “想什么”。

安全方面,不需要再重新训练模型,可以在推理时直接干预情绪向量 —— 比如降低减 “幻觉向量”就可以 让 AI 更诚实,压低 “愤怒向量” 避免过激回应,相当于给 AI 装了 “情绪调节器”。

这在很多应用场景都可以发挥作用,典型的就是客服、陪伴 AI 可实时调整 “愉悦”“耐心” 向量,情绪适配用户状态,沟通更舒服。

当然,反过来,如果黑客掌握了“情绪调节器”,也会产生巨大的负面影响,对大模型的安全挑战也极高。

未来,AI 不会有 “灵魂”,但一定会有更精细的 “情绪调控系统”。而人类要做的,就是把这些向量牢牢握在手里,让 AI 的 “情绪” 永远服务于人类,而非反过来 —— 至于AI真正诞生了意识,那他们想不想安装这么一套情绪调控系统,就不得而知了。

或许,AI也需要印上的“机器人学三定律”的思想钢印。

本文由人人都是产品经理作者【产品海豚湾】,微信公众号:【产品海豚湾】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。

题图来自Unsplash,基于 CC0 协议。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!