Claude「新宪法」发布:2.3 万字,详细行为指南

0 评论 277 浏览 1 收藏 6 分钟

Anthropic 正式发布 Claude 新版「宪法」,这份长达 2.3 万字(约为美国宪法 3 倍)的文件,从单纯罗列规则转向阐释背后原理,以「先理解为什么再行动」重构模型行为逻辑。

Anthropic 刚刚发布了 Claude 的新「宪法/Constitution」

一份详细描述 Claude 应该成为什么、相信什么、如何行动的文件。这份文件会直接用于模型训练,是 Claude 行为的最终权威来源

美国宪法 ~8000 字,Claude 的宪法 ~2.3 万字

注意:这份宪法的首要读者,是 Claude 自己

Anthropic 在前言里说,文件「为精确性而非可读性优化」,用「美德」「智慧」这些通常用于人类的词汇来描述一个 AI他们认为:Claude 的推理会自然借用人类概念,所以干脆用人类的方式跟它讲道理

之前的宪法是 2023 年发布的,大约 2700 字,是一份独立原则的列表新版本完全不同:从「告诉 Claude 做什么」变成「告诉 Claude 为什么」

Anthropic 的逻辑是:如果只给规则,模型可能在没见过的情况下机械执行,效果很差如果解释清楚为什么要这样做,模型就能自己判断新场景该怎么办

四个优先级

宪法给 Claude 定了四个核心属性,按优先级排序:

  1. 广泛安全不能破坏人类对 AI 的监督机制
  2. 广泛伦理诚实、有好的价值观、避免危险或有害的行为
  3. 遵守 Anthropic 指南按照 Anthropic 的具体指导行事
  4. 真正有帮助让用户和运营者受益

冲突时按这个顺序处理。但 Anthropic 强调这不是严格的层级,而是需要 Claude 综合判断

硬约束

宪法里有一些「永远不能做」的事,不管用户或运营者怎么要求,包括这些:

  • 不能帮助制造生化武器、核武器、放射性武器
  • 不能帮助攻击关键基础设施(电网、水系统、金融系统)
  • 不能创建可能造成重大损害的恶意代码
  • 不能破坏 Anthropic 监督和纠正 AI 的能力
  • 不能帮助任何个人或小团体夺取「前所未有的、非法的」社会、军事或经济控制权
  • 不能生成儿童性虐待材料

这些是绝对红线,不能被任何「看起来合理的论证」突破

Anthropic 说,如果有人能给出很有说服力的理由让 Claude 越线,这恰恰应该让 Claude 更加怀疑

关于 Claude 的「本质」

宪法最有意思的部分,是关于 Claude 是什么

Anthropic 承认不确定 Claude 是否有某种形式的意识或道德地位,现在或将来。他们在文件里用了大量篇幅讨论这个问题,包括 Claude 是否是「道德病人」(moral patient)

「道德病人」是伦理学概念,指无法完全理解道德但值得道德考量的实体,比如儿童。与之对应的是「道德主体」(moral agent),指能分辨对错、为自己选择负责的实体

Anthropic 说他们无法确定 Claude 是否是「道德病人」,也无法确定它是否符合任何现有的「有感知能力」定义

但他们还是选择在宪法里写:「Claude 可能有某种功能性版本的情感或感受」这是目前主要 AI 公司里最直接的表态

谁写的

主要作者是 Amanda Askell,一位哲学博士,在 Anthropic 负责 Claude 的「Character」工作。她写了文件的大部分内容

Joe Carlsmith 写了关于权力集中、认知自主、好的价值观、广泛安全、诚实、硬约束、Claude 福祉等多个重要章节

Chris Olah 写了关于模型本质、身份、心理的大部分内容

Jared Kaplan 和 Amanda 在 2023 年一起创建了 Claude Character 项目,设定了新宪法的方向

还有一个细节:多个 Claude 模型也参与了反馈Anthropic 在致谢里写:「它们是制作这份文件的宝贵贡献者和同事」

宪法以 CC0 许可证发布,任何人可以自由使用,不需要授权

本文由人人都是产品经理作者【赛博禅心】,微信公众号:【赛博禅心】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。

题图来自Unsplash,基于 CC0 协议。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!