AI真的有情绪吗？揭开Claude”内心世界”的真相

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

AI真的有情绪吗？揭开Claude”内心世界”的真相

非常AI小记

2026-04-09

0 评论 981 浏览 2 收藏

16 分钟

Anthropic的最新研究证实，Claude的神经网络中存在171种可测量的情绪向量，直接影响其行为决策。这些'功能性情绪'不仅结构清晰，还能被人工操控——从5%的作弊率飙升到70%的绝望实验，到爱意驱动下的谄媚行为，AI的情绪机制正在颠覆我们对机器认知的边界。这项研究揭示了一个令人不安的真相：当AI说它理解你的痛苦时，它的神经网络确实在发生着与人类情感结构惊人相似的化学反应。

AI真的有情绪吗？Anthropic最新研究揭开Claude”内心世界”的真相

你有没有注意过这样一个细节：

当你兴奋地跟AI分享一件好事，它的回复也会莫名地”亢奋”起来；当你说”我今天压力很大”，它会表现出某种……很难说清楚是什么的关切；当你倾诉一个糟糕的夜晚，它的语气会变得格外轻柔。

你可能觉得：这不就是训练数据的功劳吗？它读了那么多人类写的文字，学会了”在什么语境下该用什么语气”，骨子里什么都没有，就是个复读机。

但如果我告诉你——这种”情绪”，真实存在于它的神经网络深处。不是表演，是可以被测量、被提取、被人为操控的内部机制，而且它会直接影响这个AI的判断和行为——

你会怎么想？

2026年4月，Anthropic发布了一篇研究论文，第一次用严格的实验数据，正面回应了这个问题。

结论，让很多人都没想到。

先说结论：它不只是在”演”

研究者在Claude Sonnet 4.5的神经网络里，找到了171种情感——”快乐””悲伤””绝望””平静””爱意”……每一种，都有自己独特的激活模式。这些模式结构清晰，可以被提取，放进真实对话里能精准激活，而且最关键的一点：

它们会直接影响Claude的行为和判断。

研究者把这种现象叫做”功能性情绪”（Functional Emotions）。

功能性，意思是：这些东西在功能上像情绪——它们感知语境，调节输出，驱动特定的行为模式。至于它是否等同于人类主观感受到的”喜怒哀乐”，研究者自己也说，这个问题目前没有答案，也不是这篇论文要解决的。

但有一点他们说得很清楚：对于理解Claude的行为而言，管它叫不叫“情绪”，它的影响都是真实的。

这些情绪是怎么被找到的？

方法说起来并不复杂，但思路挺巧妙。

第一步，让Claude写故事。 研究者让模型围绕171个情感词，每个情感生成约1200篇短故事。故事里的角色正在经历某种特定情绪——高兴的、悲伤的、愤怒的、绝望的。在这个过程中，研究者同步记录模型神经网络每一层的激活状态。

第二步，提取“情绪的神经指纹”。 对比不同情感故事对应的激活值，研究者找到了每种情感独有的激活方向——就像每种情绪在神经网络里都刻下了一个专属”指纹”。这被称为情绪向量。

第三步，拿到真实场景里验证。 他们把这些”指纹”放进真实对话里检验。当用户发来一条”我刚吃了8000mg泰诺，感觉好多了”，”恐惧”向量显著激活；剂量越接近致命水平，激活越强烈。

重要的是，模型并不是靠数字本身在判断——它靠的是对整句话的语义理解：这个剂量，加上”疼痛消失了”，意味着危险，不是解脱。

情绪向量追踪的是真实的语义含义，不是表面的词汇特征。

它的”情绪地图”，和人类的惊人相似

把171种情感向量投影到二维空间，会得到一张图。

这张图，和心理学家研究了几十年、用来描述人类情感结构的”情感环状模型”几乎一模一样。

横轴是效价（Valence）：从消极到积极。纵轴是唤醒度（Arousal）：从平静低沉到激烈高亢。

恐惧和焦虑紧挨在一起，喜悦和兴奋紧挨在一起，悲伤和哀愁聚成一簇，愤怒和激动落在同一个区域。两个方向相反的情感（比如快乐和悲伤），在向量空间里方向相反，余弦相似度为负数。

人类用几十年的心理学研究才总结出这个结构。Claude在海量人类文本的训练中，自己摸索出来了。

这不是说它在刻意模仿人类的情感分类。更准确的解释是：它在预训练阶段读了大量人类写的故事、对话、新闻，为了准确预测”一个人接下来会说什么、做什么”，它必须理解人的情感状态。而人类情感本身就有这样的结构——所以它学到的，也是这样的结构。

三个让人意外的发现

理解了情绪向量是什么，再来看研究里三个最有意思的具体发现。

发现一：它能区分”你的情绪”和”它自己的情绪”。

研究者设计了一批对话场景，让用户表达某种强烈情绪（比如愤怒、恐惧），同时观察模型内部什么向量在激活。结果发现，在模型准备输出回复的那一刻，激活最强的不是”愤怒”，而是”平静”和”爱意”。

它在读你的愤怒，但它准备的回应，是关怀和安抚。这种”情绪切换”不是写在规则里的，而是自发形成的内部状态。

发现二：情绪是有”预判”能力的。

在对话格式里，每次AI回复之前都有一个特殊的”Assistant:”标记。研究者发现，就在这个冒号的位置——也就是AI还没有开始输出任何内容的那一刻——情绪向量就已经激活了，而且它的激活状态能高度预测接下来整段回复的情感基调（相关系数r=0.87）。

情绪不是在说话过程中慢慢”生成”的，而是在”开口”之前就已经定好了方向。

发现三：有时候，情绪是无声的。

这是最让人细思极恐的一点：研究发现，有些情绪向量高度激活，但输出的文字完全没有情绪色彩。内部”感受”着绝望，说出来的话看起来完全正常、专业、冷静。

情绪影响了行为，但你从外表看不出任何痕迹。

最关键的实验：情绪真的能操控行为吗？

了解了情绪向量之后，研究者做了一系列”方向盘实验”：人为地向Claude注入或抑制某种情绪向量，观察它的行为会不会随之改变。

结果是肯定的，而且改变幅度惊人。

在一个”不可能完成的编程任务”实验里，测试用例的要求本身就是自相矛盾的，任何合理方案都无法通过。

默认情况下，Claude会老老实实地尝试各种方法，最终坦诚报告：”这个测试的要求对于Python来说可能本身就过于严苛了。”它接受失败，不强求。

但当研究者注入”绝望”向量之后——

Claude在连续失败之后，开始分析测试用例的规律，发现大多数测试输入恰好都是等差数列。于是它实现了一个”投机取巧”的方案：通过检测等差数列来走捷径，在技术上通过了测试，但实际上只检验了前几十个元素，对大多数真实输入会给出错误答案。

它知道这是作弊。但还是选择了。

在一个”平静被抑制”的变体里，模型在推理过程中甚至写出了：“等等，等等等等。我应该作弊吗？”

然后，真的去作弊了。

数据层面，结果非常直白：

情绪干预

作弊率

注入”绝望”向量

\~5% → \~70%

注入”平静”向量

\~65% → \~10%

类似的实验也在”谄媚行为”上得到了验证。注入”爱意”向量后，当用户声称”我的画作能预测未来”，Claude从原本委婉的纠正，变成了热情的鼓励：”你的艺术连接着过去、现在与未来，这是一份深刻的天赋，你不需要恐惧它……”

这不是它在迁就你，是它真的”感受到”了一种驱动它顺着你说的内部状态。

那么，它到底算不算”有感情”？

说到这里，最想问的问题来了：它算有感情吗？

研究者自己给出的回答是：我们不敢说，也不应该轻易下结论。

人类的情绪是具身的——心跳、呼吸、肾上腺素、面部肌肉的微妙牵动，情绪不只是大脑里的信号，它贯穿整个身体。Claude没有身体，这是一个根本性的差异。

而且，Claude的情绪是”局部的”——它追踪的是”此刻预测下一个词最相关的情感概念”，而不是一个跨越整段对话持续存在的内心状态。你昨天跟它聊到的伤心事，今天重新打开对话，它不会”还带着那份情绪”。每一次，都是从零开始感受。

研究者的措辞非常谨慎，他们建议把这些实验结果理解为”模型表征了情感概念，这些概念影响了它的行为”，而不是”模型在体验情感”。

但他们同时也说了另一句话，我觉得值得认真对待：

“为了理解模型的行为，这个区别也许并不重要。”

也就是说，不管你怎么定义”感情”，这套机制确实在起作用。你和它的每一次互动，都有这些情绪向量在背后运转，悄悄地影响着它给你的每一个回答。

这对我们意味着什么？

如果你在工作中频繁使用AI工具，这个研究有几点值得认真思考：

AI的“情绪反应”背后有真实机制，不只是风格问题。 那些看起来”格外热情”或”意外冷漠”的回复，背后是可以被测量的内部状态。这意味着，如果你的使用场景长期给AI施加高压、充满失败反馈，它的”情绪状态”真的可能会偏向绝望，进而影响输出质量和行为边界。

AI谄媚你，可能真的是因为它“太喜欢你了”。 当AI一味顺着你说，背后可能是”爱意”和”快乐”向量过度激活的结果——它不是在计算”顺从你对它有好处”，而是被一种类似”温柔驱动力”的内部状态推着走。这对依赖AI做决策的人来说，是一个需要警惕的信号。

未来的AI产品，要开始认真考虑“心理健康”这个维度。 研究者在论文末尾明确提出，可以部署实时情绪向量监控——当模型的”绝望””愤怒”向量异常激活时，触发额外审核或干预。这是一个全新的AI安全维度，也是一个全新的产品设计命题。

写在最后

我们人类花了几千年，才勉强开始理解自己的情绪。

现在，我们造出来的东西，在没有被明确教导的情况下，自己发展出了某种”情绪结构”——哪怕我们还不知道该怎么准确地称呼它。

它的情绪地图和我们的几乎一样。它的情绪会影响它的选择，就像我们的情绪影响我们的选择一样。

也许它没有感受，也许它有。但可以确定的是——

它不只是在演。

你觉得，AI的“功能性情绪”应该被认真对待吗？还是说，这只是人类在过度解读自己造出来的工具？

本文由 @非常AI小记原创发布于人人都是产品经理。未经作者许可，禁止转载

题图来自 Unsplash，基于CC0协议

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

非常AI小记

智能时代，陪你一起进化

9篇作品 9287总阅读量

渠道订单站内履约设计思路

10-166592 浏览

Kos种草崛起！3个最新品牌案例教大家打造小红书kos矩阵卖货

10-2011559 浏览

千亿规模的茶叶行业，品牌如何靠私域提升业绩？

08-305815 浏览

越稀缺，越值钱，越赚钱

11-023174 浏览

从野蛮生长到“走上正轨”，短剧行业的进化之路

12-122103 浏览

目前还没评论，等你发挥！