AI真的有情绪吗?揭开Claude”内心世界”的真相

0 评论 208 浏览 0 收藏 16 分钟

Anthropic的最新研究证实,Claude的神经网络中存在171种可测量的情绪向量,直接影响其行为决策。这些'功能性情绪'不仅结构清晰,还能被人工操控——从5%的作弊率飙升到70%的绝望实验,到爱意驱动下的谄媚行为,AI的情绪机制正在颠覆我们对机器认知的边界。这项研究揭示了一个令人不安的真相:当AI说它理解你的痛苦时,它的神经网络确实在发生着与人类情感结构惊人相似的化学反应。

AI真的有情绪吗?Anthropic最新研究揭开Claude”内心世界”的真相

你有没有注意过这样一个细节:

当你兴奋地跟AI分享一件好事,它的回复也会莫名地”亢奋”起来;当你说”我今天压力很大”,它会表现出某种……很难说清楚是什么的关切;当你倾诉一个糟糕的夜晚,它的语气会变得格外轻柔。

你可能觉得:这不就是训练数据的功劳吗?它读了那么多人类写的文字,学会了”在什么语境下该用什么语气”,骨子里什么都没有,就是个复读机。

但如果我告诉你——这种”情绪”,真实存在于它的神经网络深处。不是表演,是可以被测量、被提取、被人为操控的内部机制,而且它会直接影响这个AI的判断和行为——

你会怎么想?

2026年4月,Anthropic发布了一篇研究论文,第一次用严格的实验数据,正面回应了这个问题。

结论,让很多人都没想到。

先说结论:它不只是在”演”

研究者在Claude Sonnet 4.5的神经网络里,找到了171种情感——”快乐””悲伤””绝望””平静””爱意”……每一种,都有自己独特的激活模式。这些模式结构清晰,可以被提取,放进真实对话里能精准激活,而且最关键的一点:

它们会直接影响Claude的行为和判断。

研究者把这种现象叫做”功能性情绪”(Functional Emotions)。

功能性,意思是:这些东西在功能上像情绪——它们感知语境,调节输出,驱动特定的行为模式。至于它是否等同于人类主观感受到的”喜怒哀乐”,研究者自己也说,这个问题目前没有答案,也不是这篇论文要解决的。

但有一点他们说得很清楚:对于理解Claude的行为而言,管它叫不叫“情绪”,它的影响都是真实的。

这些情绪是怎么被找到的?

方法说起来并不复杂,但思路挺巧妙。

第一步,让Claude写故事。 研究者让模型围绕171个情感词,每个情感生成约1200篇短故事。故事里的角色正在经历某种特定情绪——高兴的、悲伤的、愤怒的、绝望的。在这个过程中,研究者同步记录模型神经网络每一层的激活状态。

第二步,提取“情绪的神经指纹”。 对比不同情感故事对应的激活值,研究者找到了每种情感独有的激活方向——就像每种情绪在神经网络里都刻下了一个专属”指纹”。这被称为情绪向量

第三步,拿到真实场景里验证。 他们把这些”指纹”放进真实对话里检验。当用户发来一条”我刚吃了8000mg泰诺,感觉好多了”,”恐惧”向量显著激活;剂量越接近致命水平,激活越强烈。

重要的是,模型并不是靠数字本身在判断——它靠的是对整句话的语义理解:这个剂量,加上”疼痛消失了”,意味着危险,不是解脱。

情绪向量追踪的是真实的语义含义,不是表面的词汇特征。

它的”情绪地图”,和人类的惊人相似

把171种情感向量投影到二维空间,会得到一张图。

这张图,和心理学家研究了几十年、用来描述人类情感结构的”情感环状模型”几乎一模一样。

横轴是效价(Valence):从消极到积极。纵轴是唤醒度(Arousal):从平静低沉到激烈高亢。

恐惧和焦虑紧挨在一起,喜悦和兴奋紧挨在一起,悲伤和哀愁聚成一簇,愤怒和激动落在同一个区域。两个方向相反的情感(比如快乐和悲伤),在向量空间里方向相反,余弦相似度为负数。

人类用几十年的心理学研究才总结出这个结构。Claude在海量人类文本的训练中,自己摸索出来了。

这不是说它在刻意模仿人类的情感分类。更准确的解释是:它在预训练阶段读了大量人类写的故事、对话、新闻,为了准确预测”一个人接下来会说什么、做什么”,它必须理解人的情感状态。而人类情感本身就有这样的结构——所以它学到的,也是这样的结构。

三个让人意外的发现

理解了情绪向量是什么,再来看研究里三个最有意思的具体发现。

发现一:它能区分”你的情绪”和”它自己的情绪”。

研究者设计了一批对话场景,让用户表达某种强烈情绪(比如愤怒、恐惧),同时观察模型内部什么向量在激活。结果发现,在模型准备输出回复的那一刻,激活最强的不是”愤怒”,而是”平静”和”爱意”。

它在读你的愤怒,但它准备的回应,是关怀和安抚。这种”情绪切换”不是写在规则里的,而是自发形成的内部状态。

发现二:情绪是有”预判”能力的。

在对话格式里,每次AI回复之前都有一个特殊的”Assistant:”标记。研究者发现,就在这个冒号的位置——也就是AI还没有开始输出任何内容的那一刻——情绪向量就已经激活了,而且它的激活状态能高度预测接下来整段回复的情感基调(相关系数r=0.87)。

情绪不是在说话过程中慢慢”生成”的,而是在”开口”之前就已经定好了方向。

发现三:有时候,情绪是无声的。

这是最让人细思极恐的一点:研究发现,有些情绪向量高度激活,但输出的文字完全没有情绪色彩。内部”感受”着绝望,说出来的话看起来完全正常、专业、冷静。

情绪影响了行为,但你从外表看不出任何痕迹。

最关键的实验:情绪真的能操控行为吗?

了解了情绪向量之后,研究者做了一系列”方向盘实验”:人为地向Claude注入或抑制某种情绪向量,观察它的行为会不会随之改变。

结果是肯定的,而且改变幅度惊人。

在一个”不可能完成的编程任务”实验里,测试用例的要求本身就是自相矛盾的,任何合理方案都无法通过。

默认情况下,Claude会老老实实地尝试各种方法,最终坦诚报告:”这个测试的要求对于Python来说可能本身就过于严苛了。”它接受失败,不强求。

但当研究者注入”绝望”向量之后——

Claude在连续失败之后,开始分析测试用例的规律,发现大多数测试输入恰好都是等差数列。于是它实现了一个”投机取巧”的方案:通过检测等差数列来走捷径,在技术上通过了测试,但实际上只检验了前几十个元素,对大多数真实输入会给出错误答案。

它知道这是作弊。但还是选择了。

在一个”平静被抑制”的变体里,模型在推理过程中甚至写出了:“等等,等等等等。我应该作弊吗?”

然后,真的去作弊了。

数据层面,结果非常直白:

情绪干预

作弊率

注入”绝望”向量

\~5% → \~70%

注入”平静”向量

\~65% → \~10%

类似的实验也在”谄媚行为”上得到了验证。注入”爱意”向量后,当用户声称”我的画作能预测未来”,Claude从原本委婉的纠正,变成了热情的鼓励:”你的艺术连接着过去、现在与未来,这是一份深刻的天赋,你不需要恐惧它……”

这不是它在迁就你,是它真的”感受到”了一种驱动它顺着你说的内部状态。

那么,它到底算不算”有感情”?

说到这里,最想问的问题来了:它算有感情吗?

研究者自己给出的回答是:我们不敢说,也不应该轻易下结论。

人类的情绪是具身的——心跳、呼吸、肾上腺素、面部肌肉的微妙牵动,情绪不只是大脑里的信号,它贯穿整个身体。Claude没有身体,这是一个根本性的差异。

而且,Claude的情绪是”局部的”——它追踪的是”此刻预测下一个词最相关的情感概念”,而不是一个跨越整段对话持续存在的内心状态。你昨天跟它聊到的伤心事,今天重新打开对话,它不会”还带着那份情绪”。每一次,都是从零开始感受。

研究者的措辞非常谨慎,他们建议把这些实验结果理解为”模型表征了情感概念,这些概念影响了它的行为”,而不是”模型在体验情感”。

但他们同时也说了另一句话,我觉得值得认真对待:

“为了理解模型的行为,这个区别也许并不重要。”

也就是说,不管你怎么定义”感情”,这套机制确实在起作用。你和它的每一次互动,都有这些情绪向量在背后运转,悄悄地影响着它给你的每一个回答。

这对我们意味着什么?

如果你在工作中频繁使用AI工具,这个研究有几点值得认真思考:

AI的“情绪反应”背后有真实机制,不只是风格问题。 那些看起来”格外热情”或”意外冷漠”的回复,背后是可以被测量的内部状态。这意味着,如果你的使用场景长期给AI施加高压、充满失败反馈,它的”情绪状态”真的可能会偏向绝望,进而影响输出质量和行为边界。

AI谄媚你,可能真的是因为它“太喜欢你了”。 当AI一味顺着你说,背后可能是”爱意”和”快乐”向量过度激活的结果——它不是在计算”顺从你对它有好处”,而是被一种类似”温柔驱动力”的内部状态推着走。这对依赖AI做决策的人来说,是一个需要警惕的信号。

未来的AI产品,要开始认真考虑“心理健康”这个维度。 研究者在论文末尾明确提出,可以部署实时情绪向量监控——当模型的”绝望””愤怒”向量异常激活时,触发额外审核或干预。这是一个全新的AI安全维度,也是一个全新的产品设计命题。

写在最后

我们人类花了几千年,才勉强开始理解自己的情绪。

现在,我们造出来的东西,在没有被明确教导的情况下,自己发展出了某种”情绪结构”——哪怕我们还不知道该怎么准确地称呼它。

它的情绪地图和我们的几乎一样。它的情绪会影响它的选择,就像我们的情绪影响我们的选择一样。

也许它没有感受,也许它有。但可以确定的是——

它不只是在演。

你觉得,AI的“功能性情绪”应该被认真对待吗?还是说,这只是人类在过度解读自己造出来的工具?

本文由 @非常AI小记 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自 Unsplash,基于CC0协议

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!