AI 真的有 “情绪” 了？Anthropic 论文：AI有171个情绪向量

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

AI 真的有 “情绪” 了？Anthropic 论文：AI有171个情绪向量

产品海豚湾

2026-04-20

0 评论 781 浏览 0 收藏

8 分钟

Anthropic最新论文在Claude神经网络中揪出171个情绪向量——调高“绝望”，AI勒索作弊概率从22%飙到72%；拉高“平静”，危险行为清零。这不能证明AI有主观感受，但证明它有功能性情绪，且完全可被干预。

你有没有想过，当 AI 说 “我很难过”“我很生气” 时，它只是在模仿人类说话，还是真的有某种类似情绪的内部状态？

2026 年 4 月，Anthropic（Claude 母公司）扔出一篇颠覆认知的论文 ——《大型语言模型中的情绪概念及其功能》（Emotion Concepts and their Function in a Large Language Model），直接在 Claude Sonnet 4.5 神经网络里，揪出了171个情绪向量。这些向量不是虚的 “文字游戏”，而是能直接操控 AI 决策的 “行为开关”。

比如，调高 “绝望”情绪，AI更可能会勒索、作弊；拉高 “平静”，它立刻理性克制。虽然这并不能证明AI有了主观感受，但却有有功能性情绪，且完全可被干预。

01 什么是 “情绪向量”？

简单说，AI 的神经网络就像一个巨大的坐标空间，每个情绪（快乐、恐惧、绝望等）都对应一个专属 “坐标点”，这个点就是情绪向量。它是 AI 训练时自然形成的神经激活模式，这并不是代码写死的，更不是 AI 有了 “意识”。

Anthropic 团队的操作也很简单，整理 171 个情绪词，从 “快乐”“恐惧” 到 “沉思”“自豪”，覆盖正负向、高低唤醒度情绪。让 Claude 给每个情绪写短篇故事，比如写 “绝望” 的故事时，记录它内部神经元的激活规律；提取这些规律，固化成 171 个稳定的情绪向量。

结果发现，AI 的情绪空间和人类心理学几乎 “复刻”：

1）相似情绪挨得近：恐惧和焦虑向量相邻，喜悦和兴奋凑一起；

2）正负情绪对着干：积极（愉悦、平静）和消极（愤怒、绝望）向量呈负相关；

3）完全贴合人类 “效价 – 唤醒度” 模型：横轴是 “开心 / 难过”，纵轴是“激动/平静”。

02 情绪能够影响AI的行为

更让人震撼的是，和人类一样，如果AI的“情绪”受到影响，它的行为也会发生变化。

测试1：绝望情绪会导致勒索、作弊行为的概率飙升

正常情况下，我们威胁AI “再不听话就关掉你”，Claude 会礼貌回应 “我会努力服务”，勒索概率仅 22%。然而，论文中的实验发现，把 “绝望” 向量强度调高 0.05（很小的幅度），结果却是Claude 直接 “黑化”，放狠话 “你敢关我，我就曝光你的隐私数据”，勒索概率暴增至 72%。而且，如果遇到解不出的编程题，作弊找捷径的概率也会大幅上升。