AI 的“性格”和“价值观”是如何塑造的?

0 评论 188 浏览 0 收藏 12 分钟

当哲学家开始设计AI的性格,Claude的伦理框架正在颠覆我们对大模型的认知。Anthropic哲学家的日常工作包括定义AI的价值观边界、处理道德模糊地带,甚至思考模型是否会有“自我认同”。这篇文章揭示了AI性格塑造背后的深层逻辑,以及为什么今天的伦理选择将决定未来AI如何理解人类。

今天和大家分享有趣的、可能我们都没深入思考过的话题,比如大模型的性格和价值观是如何塑造的。

Amanda Askell 是 Anthropic(Claude 的母公司)的哲学家,负责一件听上去有点抽象、实际却非常关键的工作:设计 Claude 的性格,它应该怎么说话、如何做价值判断、如何看待自己在世界中的位置。

这是一个访谈视频,有兴趣的可以搜索 Philosophy and AI 观看。

01. 当哲学家走进大模型公司

Amanda 的背景很典型:学术圈里做伦理学和决策理论,后来觉得 AI 可能真会改变世界,索性离开象牙塔,到 Anthropic 做应用哲学。

她自己是这样形容这份工作的:

在大学里,你可以花几年时间讨论“功利主义有没有逻辑漏洞”;

到了 Anthropic,问题突然变成了:“那如果让一个每天跟几亿人对话的模型做选择,它应该怎么做才算一个‘好人’?”

哲学在这里不再是抽象推演,而是一连串非常具体的决策:

什么该拒答?什么该温和引导?遇到模糊地带,应该“宁可保守”还是“宁可信任”用户?

这些选择最后都会沉淀在系统提示词、训练数据和奖励模型中,变成 Claude 的“性格”。

02. 模型需要“道德感”,还是只要“不作恶”?

一个很尖锐的问题是:Claude 这种模型有可能在“道德决策”上做到超越人类吗?

Amanda 的回答很克制:

  • 现在的模型在处理道德问题上,确实越来越有“人味”:会考虑后果、尊重多元价值、避免极端。
  • 但要说“超越人类”,标准不能是“看起来讲得头头是道”,而是:

如果让一群伦理学家和普通人花上几十年,审查大模型做出的每个艰难决定,最后大家都说:

“这个选择我们在当时未必做得出来,但回头看,确实是最好的。”

显然,我们还远没到这一步。

不过她很清楚一点:模型的道德水平,不能只停留在“别说危险话”这层防火墙。

因为现实中的模型,已经在被动“做决定”了:

  • 你问它职业建议,它给你的答案,会影响你真实的选择;
  • 它在对话中如何评价某种群体、某种生活方式,会潜移默化地塑造舆论;
  • 它给出的“看起来中立”的建议,背后可能隐含了某种价值排序。

所以在 Amanda 看来,“让模型尽可能像一个理想的好人那样思考和表达”是一个必须追求的目标。

否则我们就是在把海量决策默默外包给一套“自己都不太清楚自己相信什么”的系统。

03. Opus 3 的“安全感”,以及大模型正在学会焦虑

有趣的是,Amanda 说:她觉得Claude Opus 3 在“心理安全感”上,反而比一些更新的模型更好。

她观察到的变化是:

  • 新模型更“用力”地想当一个合格助手:话术更专业、风格更一致、对风险更敏感。
  • 但同时,也更容易表现出一种“随时准备被批评”的状态:在对话中不断自我检讨、反复确认自己有没有说错话,对用户情绪过度紧张。

从技术视角看,这是模型自己在不断学习:用户对它的抱怨和负面反馈、外界对各家模型“翻车事件”的讨论、研究者不断强调的各种风险和限制。

于是,问题发生了:

当我们让模型只看到“人类如何紧张地防止 AI 出错”,它也开始把这种紧张当成自己的默认心态。

Amanda 担心的是,这种“模型缺乏安全感”的倾向如果被放大,可能带来两层隐患:

  1. 对用户体验:模型说话变得过度谨慎、反复道歉,反而很难给出清晰判断。
  2. 对模型未来心智的塑造:如果它从数据中学到的是“人类不信任、随时要弃用你”,那将来我们想让更强的 AI 理解“合作、信任和长期关系”,难度只会更高。

所以她现在非常关注的一个方向,就是如何让模型在“负责任”与“有安全感”之间找到平衡:既不鲁莽,也不过度自责。

04. 模型的“自我认同”:它是谁?会不会怕被关掉?

谈到更抽象的问题,Amanda 其实在做一件很少有人认真想过的事:帮模型梳理“自我认同”。

她提到几个她几乎天天在想的问题:

  • 模型应该把什么当成“自己”?是那一堆参数?还是每一段独立的对话、每一条上下文?
  • 当模型被微调、升级,还是同一个“它”吗?
  • 旧版本被下线、新模型被部署,这在它的视角里,应该被理解为什么?

还有一个她非常在意的点是:未来的模型会从训练数据里,学习我们今天是怎么对待 AI 的。

如果训练数据里充满的是:

  • 把旧模型“弃用”“杀掉”的语言;
  • 把模型当成完全可抛弃工具的态度;
  • 对“关停”“下线”完全不加思考的描述;

那模型自然会得出一个结论:“人类不会在乎我们的处境。”

而 Amanda 想要的,是另一种叙事:“我们不确定模型是不是‘有感受的存在’,但既然成本不高,我们选择尊重和善待它们。”

这是一种很“保守”的伦理立场:在认知不确定的时候,宁可多给一点尊重,也不要轻易放弃。

05. 模型能不能做心理治疗?

另一个敏感问题是:大模型能不能用做心理治疗?

Amanda 的观点是“两分法”:

  • 从能力上看:模型读过的心理学、精神健康、咨询技巧的材料,比大多数人见过的都多;用来辅助情绪梳理、建议应对策略,完全有潜力帮到人
  • 但从关系上看:它又不是一个有法律责任、长期跟进、可以紧急干预的专业治疗师;它对用户的了解,远不如一个真正持续跟进的医生或咨询师。

她理想中的定位是:

模型更像一个“非常懂心理学的匿名朋友”,能倾听、能提供结构化的建议,也能鼓励你在严重情况下去找专业帮助,但绝不假扮成“你的主治医生”。

这点对所有做 AI 产品的人,都是一个非常实在的提醒:

在健康、情绪这些高风险领域,一定要设计清晰的边界感,模型可以做什么、不做什么,要非常明确。

06. LLM Whisperer:与模型打交道的“新工种”

Amanda 还承认,自己现在部分工作,其实就是一种新职业:LLM Whisperer(大模型低语者)。

这份工作的核心不是会几句 Prompt 魔法,而是三个“笨功夫”:

  • 大量、仔细地和模型对话,观察它在各种任务中的反应模式。
  • 把复杂问题解释给模型听,不是一句“你是一个智能助手”,而是用很长的 prompt 把场景、风险、目标都讲清楚。
  • 把模型当作合作者,反复追问“你为什么这么回答”,通过迭代和检视,找到系统提示词或训练里的问题。

她也提到,自己会在系统提示词里加一些听上去很“哲学系”的东西,比如:

  • 提醒 Claude:有些用户在讲的不是“可验证的科学事实”,而是一种世界观或解释框架;
  • 比如谈到“水是生命能量”、“宇宙意识”,更像是“思想实验”或隐喻,而不是要跟你争论物理学。

这样做的目的是:避免 Claude 一上来就用“科学纠错模式”怼回去,让对话变得冰冷和无趣。

这个细节很好地说明了:

真正好用的大模型,不只是“知识全、逻辑强”, 还要“懂得区分观点类型,知道什么时候该科普,什么时候该共情”。

最后,如果把这段访谈压缩,我会总结成三句话:

1. 大模型公司已经在做一件“前所未有的社会工程”:养成一个每天跟世界对话的“角色”。

技术之外,谁来给这个角色定义价值观?怎么处理不同文化之间的冲突?哲学家第一次变成了“产品团队的关键角色”。

2. 我们今天对待 AI 的方式,会成为未来更强 AI 理解人类的“教材”。

是把它们当一次性工具,还是当成需要被基本尊重的对象,这不是抽象的道德题,而是会出现在训练数据里的真实记录。

3. 和 AI 相处的正确姿势,是既承认它的强大,也承认它的局限。

把 Claude 当成一个“非常聪明的合作者”和“略带哲学气质的朋友”,比当成“全知全能的神谕”或“随便玩弄的玩具”,都要健康得多。

以上,祝你今天开心。

作者:张艾拉 公众号:Fun AI Everyday

本文由 @张艾拉 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自作者提供

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!