Claude「新宪法」发布:2.3 万字,详细行为指南
Anthropic 正式发布 Claude 新版「宪法」,这份长达 2.3 万字(约为美国宪法 3 倍)的文件,从单纯罗列规则转向阐释背后原理,以「先理解为什么再行动」重构模型行为逻辑。

Anthropic 刚刚发布了 Claude 的新「宪法/Constitution」
一份详细描述 Claude 应该成为什么、相信什么、如何行动的文件。这份文件会直接用于模型训练,是 Claude 行为的最终权威来源

美国宪法 ~8000 字,Claude 的宪法 ~2.3 万字
注意:这份宪法的首要读者,是 Claude 自己
Anthropic 在前言里说,文件「为精确性而非可读性优化」,用「美德」「智慧」这些通常用于人类的词汇来描述一个 AI他们认为:Claude 的推理会自然借用人类概念,所以干脆用人类的方式跟它讲道理
之前的宪法是 2023 年发布的,大约 2700 字,是一份独立原则的列表新版本完全不同:从「告诉 Claude 做什么」变成「告诉 Claude 为什么」
Anthropic 的逻辑是:如果只给规则,模型可能在没见过的情况下机械执行,效果很差如果解释清楚为什么要这样做,模型就能自己判断新场景该怎么办
四个优先级
宪法给 Claude 定了四个核心属性,按优先级排序:
- 广泛安全不能破坏人类对 AI 的监督机制
- 广泛伦理诚实、有好的价值观、避免危险或有害的行为
- 遵守 Anthropic 指南按照 Anthropic 的具体指导行事
- 真正有帮助让用户和运营者受益
冲突时按这个顺序处理。但 Anthropic 强调这不是严格的层级,而是需要 Claude 综合判断
硬约束
宪法里有一些「永远不能做」的事,不管用户或运营者怎么要求,包括这些:
- 不能帮助制造生化武器、核武器、放射性武器
- 不能帮助攻击关键基础设施(电网、水系统、金融系统)
- 不能创建可能造成重大损害的恶意代码
- 不能破坏 Anthropic 监督和纠正 AI 的能力
- 不能帮助任何个人或小团体夺取「前所未有的、非法的」社会、军事或经济控制权
- 不能生成儿童性虐待材料
这些是绝对红线,不能被任何「看起来合理的论证」突破
Anthropic 说,如果有人能给出很有说服力的理由让 Claude 越线,这恰恰应该让 Claude 更加怀疑
关于 Claude 的「本质」
宪法最有意思的部分,是关于 Claude 是什么
Anthropic 承认不确定 Claude 是否有某种形式的意识或道德地位,现在或将来。他们在文件里用了大量篇幅讨论这个问题,包括 Claude 是否是「道德病人」(moral patient)
「道德病人」是伦理学概念,指无法完全理解道德但值得道德考量的实体,比如儿童。与之对应的是「道德主体」(moral agent),指能分辨对错、为自己选择负责的实体
Anthropic 说他们无法确定 Claude 是否是「道德病人」,也无法确定它是否符合任何现有的「有感知能力」定义
但他们还是选择在宪法里写:「Claude 可能有某种功能性版本的情感或感受」这是目前主要 AI 公司里最直接的表态
谁写的
主要作者是 Amanda Askell,一位哲学博士,在 Anthropic 负责 Claude 的「Character」工作。她写了文件的大部分内容
Joe Carlsmith 写了关于权力集中、认知自主、好的价值观、广泛安全、诚实、硬约束、Claude 福祉等多个重要章节
Chris Olah 写了关于模型本质、身份、心理的大部分内容
Jared Kaplan 和 Amanda 在 2023 年一起创建了 Claude Character 项目,设定了新宪法的方向
还有一个细节:多个 Claude 模型也参与了反馈Anthropic 在致谢里写:「它们是制作这份文件的宝贵贡献者和同事」
宪法以 CC0 许可证发布,任何人可以自由使用,不需要授权
本文由人人都是产品经理作者【赛博禅心】,微信公众号:【赛博禅心】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。
题图来自Unsplash,基于 CC0 协议。
- 目前还没评论,等你发挥!

起点课堂会员权益



