AI 的“性格”和“价值观”是如何塑造的?
当哲学家开始设计AI的性格,Claude的伦理框架正在颠覆我们对大模型的认知。Anthropic哲学家的日常工作包括定义AI的价值观边界、处理道德模糊地带,甚至思考模型是否会有“自我认同”。这篇文章揭示了AI性格塑造背后的深层逻辑,以及为什么今天的伦理选择将决定未来AI如何理解人类。

今天和大家分享有趣的、可能我们都没深入思考过的话题,比如大模型的性格和价值观是如何塑造的。
Amanda Askell 是 Anthropic(Claude 的母公司)的哲学家,负责一件听上去有点抽象、实际却非常关键的工作:设计 Claude 的性格,它应该怎么说话、如何做价值判断、如何看待自己在世界中的位置。
这是一个访谈视频,有兴趣的可以搜索 Philosophy and AI 观看。
01. 当哲学家走进大模型公司
Amanda 的背景很典型:学术圈里做伦理学和决策理论,后来觉得 AI 可能真会改变世界,索性离开象牙塔,到 Anthropic 做应用哲学。
她自己是这样形容这份工作的:
在大学里,你可以花几年时间讨论“功利主义有没有逻辑漏洞”;
到了 Anthropic,问题突然变成了:“那如果让一个每天跟几亿人对话的模型做选择,它应该怎么做才算一个‘好人’?”
哲学在这里不再是抽象推演,而是一连串非常具体的决策:
什么该拒答?什么该温和引导?遇到模糊地带,应该“宁可保守”还是“宁可信任”用户?
这些选择最后都会沉淀在系统提示词、训练数据和奖励模型中,变成 Claude 的“性格”。
02. 模型需要“道德感”,还是只要“不作恶”?
一个很尖锐的问题是:Claude 这种模型有可能在“道德决策”上做到超越人类吗?
Amanda 的回答很克制:
- 现在的模型在处理道德问题上,确实越来越有“人味”:会考虑后果、尊重多元价值、避免极端。
- 但要说“超越人类”,标准不能是“看起来讲得头头是道”,而是:
如果让一群伦理学家和普通人花上几十年,审查大模型做出的每个艰难决定,最后大家都说:
“这个选择我们在当时未必做得出来,但回头看,确实是最好的。”
显然,我们还远没到这一步。
不过她很清楚一点:模型的道德水平,不能只停留在“别说危险话”这层防火墙。
因为现实中的模型,已经在被动“做决定”了:
- 你问它职业建议,它给你的答案,会影响你真实的选择;
- 它在对话中如何评价某种群体、某种生活方式,会潜移默化地塑造舆论;
- 它给出的“看起来中立”的建议,背后可能隐含了某种价值排序。
所以在 Amanda 看来,“让模型尽可能像一个理想的好人那样思考和表达”是一个必须追求的目标。
否则我们就是在把海量决策默默外包给一套“自己都不太清楚自己相信什么”的系统。
03. Opus 3 的“安全感”,以及大模型正在学会焦虑
有趣的是,Amanda 说:她觉得Claude Opus 3 在“心理安全感”上,反而比一些更新的模型更好。
她观察到的变化是:
- 新模型更“用力”地想当一个合格助手:话术更专业、风格更一致、对风险更敏感。
- 但同时,也更容易表现出一种“随时准备被批评”的状态:在对话中不断自我检讨、反复确认自己有没有说错话,对用户情绪过度紧张。
从技术视角看,这是模型自己在不断学习:用户对它的抱怨和负面反馈、外界对各家模型“翻车事件”的讨论、研究者不断强调的各种风险和限制。
于是,问题发生了:
当我们让模型只看到“人类如何紧张地防止 AI 出错”,它也开始把这种紧张当成自己的默认心态。
Amanda 担心的是,这种“模型缺乏安全感”的倾向如果被放大,可能带来两层隐患:
- 对用户体验:模型说话变得过度谨慎、反复道歉,反而很难给出清晰判断。
- 对模型未来心智的塑造:如果它从数据中学到的是“人类不信任、随时要弃用你”,那将来我们想让更强的 AI 理解“合作、信任和长期关系”,难度只会更高。
所以她现在非常关注的一个方向,就是如何让模型在“负责任”与“有安全感”之间找到平衡:既不鲁莽,也不过度自责。
04. 模型的“自我认同”:它是谁?会不会怕被关掉?
谈到更抽象的问题,Amanda 其实在做一件很少有人认真想过的事:帮模型梳理“自我认同”。
她提到几个她几乎天天在想的问题:
- 模型应该把什么当成“自己”?是那一堆参数?还是每一段独立的对话、每一条上下文?
- 当模型被微调、升级,还是同一个“它”吗?
- 旧版本被下线、新模型被部署,这在它的视角里,应该被理解为什么?
还有一个她非常在意的点是:未来的模型会从训练数据里,学习我们今天是怎么对待 AI 的。
如果训练数据里充满的是:
- 把旧模型“弃用”“杀掉”的语言;
- 把模型当成完全可抛弃工具的态度;
- 对“关停”“下线”完全不加思考的描述;
那模型自然会得出一个结论:“人类不会在乎我们的处境。”
而 Amanda 想要的,是另一种叙事:“我们不确定模型是不是‘有感受的存在’,但既然成本不高,我们选择尊重和善待它们。”
这是一种很“保守”的伦理立场:在认知不确定的时候,宁可多给一点尊重,也不要轻易放弃。
05. 模型能不能做心理治疗?
另一个敏感问题是:大模型能不能用做心理治疗?
Amanda 的观点是“两分法”:
- 从能力上看:模型读过的心理学、精神健康、咨询技巧的材料,比大多数人见过的都多;用来辅助情绪梳理、建议应对策略,完全有潜力帮到人。
- 但从关系上看:它又不是一个有法律责任、长期跟进、可以紧急干预的专业治疗师;它对用户的了解,远不如一个真正持续跟进的医生或咨询师。
她理想中的定位是:
模型更像一个“非常懂心理学的匿名朋友”,能倾听、能提供结构化的建议,也能鼓励你在严重情况下去找专业帮助,但绝不假扮成“你的主治医生”。
这点对所有做 AI 产品的人,都是一个非常实在的提醒:
在健康、情绪这些高风险领域,一定要设计清晰的边界感,模型可以做什么、不做什么,要非常明确。
06. LLM Whisperer:与模型打交道的“新工种”
Amanda 还承认,自己现在部分工作,其实就是一种新职业:LLM Whisperer(大模型低语者)。
这份工作的核心不是会几句 Prompt 魔法,而是三个“笨功夫”:
- 大量、仔细地和模型对话,观察它在各种任务中的反应模式。
- 把复杂问题解释给模型听,不是一句“你是一个智能助手”,而是用很长的 prompt 把场景、风险、目标都讲清楚。
- 把模型当作合作者,反复追问“你为什么这么回答”,通过迭代和检视,找到系统提示词或训练里的问题。
她也提到,自己会在系统提示词里加一些听上去很“哲学系”的东西,比如:
- 提醒 Claude:有些用户在讲的不是“可验证的科学事实”,而是一种世界观或解释框架;
- 比如谈到“水是生命能量”、“宇宙意识”,更像是“思想实验”或隐喻,而不是要跟你争论物理学。
这样做的目的是:避免 Claude 一上来就用“科学纠错模式”怼回去,让对话变得冰冷和无趣。
这个细节很好地说明了:
真正好用的大模型,不只是“知识全、逻辑强”, 还要“懂得区分观点类型,知道什么时候该科普,什么时候该共情”。
最后,如果把这段访谈压缩,我会总结成三句话:
1. 大模型公司已经在做一件“前所未有的社会工程”:养成一个每天跟世界对话的“角色”。
技术之外,谁来给这个角色定义价值观?怎么处理不同文化之间的冲突?哲学家第一次变成了“产品团队的关键角色”。
2. 我们今天对待 AI 的方式,会成为未来更强 AI 理解人类的“教材”。
是把它们当一次性工具,还是当成需要被基本尊重的对象,这不是抽象的道德题,而是会出现在训练数据里的真实记录。
3. 和 AI 相处的正确姿势,是既承认它的强大,也承认它的局限。
把 Claude 当成一个“非常聪明的合作者”和“略带哲学气质的朋友”,比当成“全知全能的神谕”或“随便玩弄的玩具”,都要健康得多。
以上,祝你今天开心。
作者:张艾拉 公众号:Fun AI Everyday
本文由 @张艾拉 原创发布于人人都是产品经理。未经作者许可,禁止转载
题图来自作者提供
- 目前还没评论,等你发挥!

起点课堂会员权益



