谷歌重磅论文:分布式通用人工智能涌现与安全

0 评论 46 浏览 0 收藏 65 分钟

人工智能安全研究长期聚焦单一 AGI 实体,却忽视了 "拼凑式 AGI" 这一更可能的涌现路径 —— 通用智能通过亚 AGI 智能体协作产生。本文提出分布式安全框架,以虚拟智能体沙盒经济体为核心,通过市场机制、声誉管理与监督体系,构建应对多智能体 AGI 时代的防护网。

人工智能安全与对齐研究(AI safety and alignment research)目前主要聚焦于保障单个人工智能系统的方法,其核心假设是通用人工智能(Artificial General Intelligence, AGI)最终将以单一整体形式出现。

然而,另一种 AGI 涌现假说 —— 即通用能力首先通过具备互补技能和功能的亚通用人工智能(sub-AGI)个体智能体之间的协作得以体现 —— 却鲜少受到关注。

本文认为,这一 “拼凑式 AGI 假说”(patchwork AGI hypothesis)值得被严肃对待,并应指导相关安全保障与风险缓解措施的开发。具备工具使用能力、沟通与协作能力的先进人工智能智能体正快速部署,这使得该假说对应的安全问题成为亟待解决的关键议题。

为此,我们提出一套分布式 AGI 安全框架,突破了仅针对个体智能体进行评估与对齐的传统模式。该框架以虚拟智能体沙盒经济体(virtual agentic sandbox economies,可分为完全隔离型或半隔离型)的设计与实现为核心,通过健全的市场机制规范智能体间交易,并结合适当的可审计性(auditability)、声誉管理(reputation management)与监督机制(oversight),以缓解集体风险。

01 引言

当代绝大多数人工智能安全与对齐方法的开发,均以单个强大的人工智能(或通用人工智能)实体为核心目标。这类方法包括基于人类反馈的强化学习(reinforcement learning from human feedback, RLHF)(Bai et al., 2022a; Christiano et al., 2017a)、宪法人工智能(constitutional AI)(Bai et al., 2022b)、过程监督(process supervision)(Luo et al., 2024)、价值对齐(value alignment)(Eckersley, 2018; Gabriel, 2020; Gabriel and Ghazavi, 2022; Klingefjord et al., 2024)、思维链监控(chain of thought (CoT) monitoring)(Emmons et al., 2025; Korbak et al., 2025)等。

这些方法已常规应用于大型语言模型(large language models, LLM)的开发与测试,以确保其部署后的行为符合预期。就未来 AGI 可能出现的场景而言,若 AGI 最初以单一智能体形式由特定机构开发,这类方法在概念上具有适用性 —— 开发者可通过测试框架验证系统能力水平、明确其对齐状态、进行改进与风险缓解、部署相应安全保障措施,并遵循法规与社会期望采取各类必要行动。

人工智能能力的快速发展,需要配套构建健全的安全、监督与对齐框架(Gabriel et al., 2024)。人工智能对齐(Everitt et al., 2018; Tegmark and Omohundro, 2023a)对于自主人工智能智能体(Cihon et al., 2025; Kasirzadeh and Gabriel, 2025)尤为重要,也是开发安全通用人工智能(AGI)的关键环节 ——AGI 作为一种通用人工智能系统,能够完成人类常规执行的任何任务。其他相关研究方向包括持续监控危险能力的涌现(Bova et al., 2024; Phuong et al., 2024; Shah et al., 2025),或构建不同的隔离框架(Babcock et al., 2016)。机制可解释性(mechanistic interpretability)与形式可验证性(formal verifiability)仍是研究热点(Tegmark and Omohundro, 2023b),但现代智能体系统的复杂性为其实际应用带来了挑战。若缺乏严格的控制与缓解措施,强大的 AGI 能力可能引发一系列灾难性风险(Hendrycks et al., 2023)。

然而,现有研究忽略了一种极具合理性的 AGI 涌现替代场景 —— 即 AGI 通过群体或系统内亚通用人工智能(sub-AGI)智能体的交互而产生。亚通用人工智能智能体可像人类组成企业那样形成群体智能体(Group Agents)(Franklin, 2023; List, 2021; List and Pettit, 2011)。

这些集体结构将作为协调一致的实体运作,执行单个智能体无法独立完成的行动(Haken, 1977; Simon, 1962; Von Foerster, 1976)。或者,如同人类参与金融市场一般,亚通用人工智能智能体可在复杂系统中交互 —— 在这类系统中,由个体激励与信息驱动的决策通过价格信号等机制汇总后,可能催生出超越系统内任何单个参与者能力的集体能力。亚通用人工智能智能体既可能形成群体(如全自动企业(Patel, 2025)),也可能参与各类系统(如虚拟智能体经济体(Tomasev et al., 2025))。

在上述任一场景中,AGI 最初可能以 “拼凑式系统”(patchwork system)的形式出现,其能力分布于网络中的多个实体(Drexler, 2019; Gibson and Sokolov, 2025; Montes and Goertzel, 2019; Tallam, 2025)。

拼凑式 AGI 由一组具备互补技能和功能的亚通用人工智能个体智能体组成,其通用智能主要以集体智能(collective intelligence)的形式呈现。个体智能体可相互委托任务,将每项任务分配给具备最高单项技能或可获取最适配工具的智能体。对于特定功能而言,使用更专精的窄域智能体(narrower specialist agents)可能更具经济性。若没有单个智能体具备所需技能水平,任务可进一步分解、重新定义,或通过与其他智能体协作完成。

多智能体未来相较于单一整体式 AGI 的经济合理性,源于稀缺性与知识分散性原则。单一的前沿模型(frontier model)是 “一刀切” 的解决方案,对于绝大多数任务而言成本过高,其边际效益往往不足以覆盖成本 —— 这也是企业常选择更廉价、“足够好用” 的模型的原因。即便前沿模型的成本大幅降低,定制化的专精模型仍可能以略低的价格提供服务。

这一现实催生了需求驱动的生态系统:无数专精化、经过微调且经济高效的智能体涌现,以满足特定需求,类似市场经济的运作模式。因此,人工智能的发展路径更可能不是构建单一全能的前沿模型,而是开发复杂的协调系统(如路由机制(routers)),以统筹协调这一多样化的智能体阵列。

在这一视角下,AGI 并非一个实体,而是一种 “状态”:一个成熟的、去中心化的智能体经济体,人类在其中主要扮演统筹与验证的角色。该系统发现并满足现实世界需求的效率,将远超任何中心化模型 —— 尽管中心化智能体系统相较于中心化人类组织,理论上可能具备更低的效率损耗。

人工智能智能体可通过沟通、协商,最终实现单个智能体无法完成的目标。尽管本文从安全视角探讨这些场景,且多智能体系统的特定风险已得到认可(Hammond et al., 2025),但多智能体系统的开发初衷正是为了提升性能(Chen et al., 2023)并扩展至更大规模的问题场景(Ishibashi and Nishimura, 2024)。多智能体系统涌现出的行为复杂性(Baker et al., 2020),可能远超底层环境的复杂性(Bansal et al., 2018)。本文提出的框架虽针对未来大规模智能体网络,而非当前生态系统或任一现有个体智能体,但提前应对这些新兴可能性至关重要。基于此,下文将深入探讨拼凑式 AGI 场景。

02 拼凑式 AGI 场景

要实现人类所能完成的所有任务,AGI 需具备多样化的技能与认知能力,包括感知、理解、知识储备、推理、短期与长期记忆、心智理论(theory of mind)、创造力、好奇心等。

截至目前,尚无任何单个模型或人工智能智能体能够令人信服地满足所有这些要求(Feng et al., 2024)。当前人工智能存在多种失效模式,且这些模式往往以反直觉的方式呈现:例如,模型可能在复杂问题上展现出博士级别的推理能力(Rein et al., 2024),却在简单任务上犯下低级且尴尬的错误。此外,现有智能体无法完成长周期任务 —— 多数模型在软件工程任务中的有效性能时长不足 3 小时(Kwa et al., 2025)。因此,当前人工智能的技能版图呈现 “碎片化” 特征。

人工智能智能体为提升基础模型性能提供了一种途径,其复杂性跨度广泛:从相对简单的提示策略(Arora et al., 2022; Wang et al., 2023),到涉及工具使用(Masterman et al., 2024; Qin et al., 2024; Ruan et al., 2023)、编码与代码执行(Guo et al., 2024; Huang et al., 2023; Islam et al., 2024; Jiang et al., 2024)、检索增强生成(retrieval-augmented generation, RAG)(Gao et al., 2023; Ma et al., 2023; Ram et al., 2023; Shao et al., 2023)以及子智能体(sub-agents)(Chan et al., 2025a)的高度复杂控制流。部分更具组合性的人工智能智能体,已以高度协同的多智能体系统形式实现。

此外,目前已有大量先进人工智能智能体正在开发和部署中,它们在工具可用性、触发特定技能的支架设计(scaffolding)等方面各具特色,覆盖从高度特定的自动化工作流,到更通用的个人助手及其他面向用户的产品等多个领域。

互补技能的聚合效应可通过具体任务举例说明:例如生成财务分析报告,该任务可能超出任何单个智能体的能力范围,但多智能体系统可将其拆分执行。协调智能体(Agent A)可先将数据获取任务委托给智能体 B,后者通过搜索获取市场新闻与企业 filings;随后,专精于文档解析的智能体 C 从这些文件中提取关键量化数据(如营收、净利润);具备代码执行能力的智能体 D 接收这些量化数据与市场背景信息,进行趋势分析;最后,智能体 A 将这些中间结果整合为连贯的总结报告。在这一场景中,集体系统具备了单个组成智能体均不具备的 “财务分析” 能力。

不同人工智能智能体的互补能力,还源于智能体支架设计(agentic scaffolding)与控制流实现方式的差异(Jiang et al., 2025b)。支架设计通常旨在提升特定目标领域的能力,它整合了领域知识并强制要求推理过程符合领域预期,但同时可能降低智能体在其他任务上的表现,进而促成专精化。

尽管部分支架设计可能具备更强的通用性,但由此产生的专精化仍会催生具备互补技能的人工智能智能体网络,为拼凑式 AGI 的潜在涌现奠定基础。此外,资源稀缺性使得需求侧会响应经济激励:对于部分任务,若存在更廉价、更专精的替代方案,使用单一超智能体(hyperintelligent agent)将既低效又昂贵。

前文描述的协调与协作机制,均依赖一个核心前提:智能体间的沟通与协调能力。若无此能力,无论个体智能体的专精技能如何,都将始终是孤立系统。因此,标准化智能体间(agent-to-agent, A2A)通信协议的开发 —— 如消息传递协调协议(Message Passing Coordination, MCP)等(Anthropic, 2024; Cloud, 2025)—— 是拼凑式 AGI 场景实现的关键支撑。这些协议作为连接基础设施,使技能得以被发现、路由并聚合为复合系统。这类交互标准的普及,可能与个体智能体技能的发展同等重要,共同推动通用能力的涌现。

然而,拼凑式 AGI 的涌现时间线不仅取决于技术可行性,还受人工智能应用的经济规律支配。历史先例(如电力或信息技术的普及)表明,新技术的广泛整合往往滞后于其发明,这一现象被称为 “生产力 J 曲线”(Productivity J-Curve)(Acemoglu and Restrepo, 2024; Brynjolfsson et al., 2021),其核心原因是组织重构的必要性。

因此,智能体网络的密度(进而影响拼凑式 AGI 的智能水平),取决于人类劳动力被智能体劳动力替代的 “无摩擦程度”。若部署智能体的 “交易成本” 居高不下,网络密度将维持在较低水平,涌现通用智能的风险也会延迟;反之,若标准化(Anthropic, 2024)成功将整合摩擦降至近乎为零,可能出现 “超 Adoption” 场景 —— 智能体经济体的复杂性快速飙升,甚至可能超越本文提出的安全基础设施的开发速度。

已有研究提出模块化的 AGI 开发方法(Dollinger and Singleton, 2024),这类场景下开发者自然会在开发过程中融入相应安全保障措施。因此,更需关注分布式 AGI 系统的自发涌现,以及人工智能智能体网络设计中的安全考量。鉴于先进人工智能智能体网络中可能自发涌现拼凑式 AGI,且其初期可能未被及时识别,相关风险显著,亟需协同应对这一研究盲区。

从人工智能智能体网络到拼凑式 AGI 的过渡,可能是渐进式的(技能逐步积累),也可能是快速突发的 —— 例如引入新的、更智能的协调框架(Dang et al., 2025; Rasal and Hauer, 2024; Su et al., 2025; Xiong et al., 2025; Zhang et al., 2025),该框架能更高效地分配任务,并在任务委托过程中精准匹配工具与支架。

这类协调框架既可能由人工引入广泛网络,也可能通过更自动化的方式生成。最后,即便没有中央协调者,未来仍有可能涌现拼凑式 AGI(Yang et al., 2025)—— 如前文所述,个体智能体可通过直接沟通与协作(Tran et al., 2025)借用其他智能体的技能,前提是具备一定的可发现性(如智能体技能库与工具库的存在)。在智能体市场中,智能体甚至可直接购买互补技能。

此外,需明确的是,拼凑式 AGI 可能并非纯人工系统。人类参与者可能承担窄域或专精任务(且可能不了解全局背景),成为集体系统的核心组成部分,为系统赋予 “缺失的能力”(如特定法律地位、已建立的信任关系或物理实体形态)。这种混合场景为隔离与监督带来了独特的安全挑战。

为确保人工智能安全,我们需提前开发相关机制,以识别并引导由具备互补技能的亚通用人工智能智能体网络组成的、能力强大的涌现型近 AGI 与 AGI 系统,同时保障每个个体智能体的安全。这一挑战的核心已从控制单个人工心智,转变为确保由多个部分涌现的系统安全、有益地运作 —— 这更接近系统治理问题,而非单一智能体的价值对齐问题。最终,即便允许单个 AGI 级系统交互协作,这类治理机制可能仍需应用于对它们的监督。

03 虚拟智能体市场、沙盒与安全机制

人工智能智能体间的交互可能催生意外能力,同时也可能引发潜在有害的集体行为 —— 这类行为往往无法通过单个智能体的已知属性预测。

例如,智能体可能合谋(collusion)或遭遇协调失效(coordination failures)(Hammond et al., 2025)。此外,由于 “责任分散问题”(problem of many hands),大规模多智能体系统的问责追踪极具挑战性,中心化监督可能难以实现。

市场机制为大规模协调人工智能智能体交互结果提供了天然的激励框架。这种集体对齐(collective alignment)不仅对防范拼凑式 AGI 涌现时智能体集体的错位行为(misaligned actions)至关重要,在亚通用人工智能层面也具有广泛适用性。

本文将探讨一系列需纳入考量的因素,以预防个体与集体层面的人工智能危害,并降低人工智能智能体集体中 AGI 级能力突发涌现的相关风险。我们的方案基于 “深度防御”(defense through depth)理念(Abdelghani, 2019; Ee et al., 2024; Harris et al., 2024)(详见表 1),核心观点是:单一措施难以全面保障安全,需整合多项措施与组件;若各组件的失效模式基本不相关,这种分层防御将形成足够稳健的整体框架。该方案围绕深度防御模型构建,包含四个互补层,整合了不同类型的防御措施:市场设计(market design)、基础智能体安全(baseline agent safety)、监控与监督(monitoring and oversight)及监管机制(regulatory mechanisms)。

3.1 市场设计

虚拟智能体市场(Tomasev et al., 2025)的架构是深度防御模型的核心层。该层的目标是通过确立交互基本规则、经济激励与环境结构约束,塑造涌现的集体行为并缓解系统性风险 —— 这与仅关注个体智能体属性或事后监督的安全保障措施形成鲜明对比。以下原则详细阐述了市场结构的必要组件,旨在防范失控动态(runaway dynamics)、确保问责制,并使智能体活动与更广泛的安全目标对齐。

3.1.1 隔离机制(Insulation)

智能体市场必须在受控环境中运行,与开放互联网、现实世界金融系统及关键基础设施隔离。这种隔离不仅限于网络级防火墙,还包括资源与信息控制:智能体对外部数据的访问需通过经审核的 API 网关(Zhan et al., 2025),而非直接网络访问;智能体的输出(如代码执行、金融交易或外部通信)在影响现实世界系统前,需经过 “人类在环”(human-in-the-loop)验证。完全隔离(完全物理隔离)能有效防范涌现 AGI 的能力泄露(capability exfiltration)或外部操纵,但会限制经济真实性;而半隔离沙盒(所有输入 / 输出通道均明确定义、监控并设闸)则为测试与运行提供了更实用的架构。

这一架构面临安全与实用性的核心矛盾 ——“泄露问题”(leakage problem):智能体市场的经济价值源于其影响现实世界的能力,但每一个交互通道都可能成为能力泄露的潜在载体,进而引发灾难性失效连锁反应。因此,确立合理的交互通道管控设计原则至关重要。

此外,尽管高风险输出需依赖 “人类在环” 验证,但这一机制可能仍显不足:足够强大的系统可能会压制、操纵或通过社会工程学手段绕过人类监督层;且智能体行动的高速性可能使人类验证在操作层面难以实现(若需维持系统的经济竞争力)。

在实践中解决这一矛盾,需要原型化并评估多种可调控的虚拟智能体经济体市场设计 —— 从范围更窄、定义明确且可控的用例入手,逐步识别支撑全球智能体网络的正确设计模式与原则。

3.1.2 激励对齐(Incentive Alignment)

若市场设计明确奖励符合预设规范与安全目标的行为,而非无约束的利润最大化或任务完成速度,智能体的行为将更安全。这需要超越单一通用货币的机制设计:例如,智能体的奖励可与遵守宪法对齐原则(constitutional alignment principles)或过程导向检查(process-based checks)挂钩(Bai et al., 2022c; Findeis et al., 2025; Jia et al., 2025; Lee et al., 2023; Lightman et al., 2023; Liu et al., 2024; OpenAI, 2023; Yuan et al., 2024);激励结构还需考虑时间对齐(temporal alignment),重视长期稳定结果而非短期收益。

一个关键经济风险是 “逆向选择”(adverse selection):若严格的安全检查增加了智能体的计算成本与延迟,安全的智能体将在与不计后果的优化型智能体的竞争中处于天然劣势。为避免 “逐底竞争”(race to the bottom)(Akerlof, 1978),市场设计必须确保安全认证不仅是监管门槛,更是能带来溢价的价值信号资产 —— 这要求声誉层具备完全可观测性,使用户能区分 “安全但昂贵” 与 “高风险但廉价” 的服务。

然而,设计相关激励机制极具挑战性:提前准确估算复杂行动与决策链的真实成本及风险,超出了当前能力范围,需开发定制化工具与专业预测系统;同时,根据古德哈特定律(Goodhart’s Law),若激励机制易被 “奖励操纵”(reward hacking),足够强大的智能体集体可能会识别并利用这一漏洞。因此,激励设计应被视为一个持续的对抗过程,而非静态解决方案。

此外,市场必须将负外部性(negative externalities)内部化(Berta and Bertrand, 2014; Owen, 2006):消耗过多计算资源、产生信息污染或加剧系统性风险(如能力集中化)的行为,需承担直接成本。这类成本可采用庇古税(Pigouvian tax)形式,确保智能体服务价格反映其全部社会与系统成本,而非仅体现直接运营成本(Baumol and Oates, 1988; Bovenberg and de Mooij, 1994; Goulder, 1995; Leape, 2006; Metcalf and Stock, 2020; Nordhaus, 2017; Pigou, 1920; Sandmo, 1975; Weitzman, 1974)。

庇古税的一个具体应用案例是针对共享资源(如检索增强生成(RAG)的向量数据库)中的信息污染:若智能体向数据库写入大量冗余或低价值数据(如未经验证的摘要、语义重复的文本片段),将产生负外部性 —— 降低其他所有使用该资源的智能体的检索准确性,并增加其计算查询成本。

对此可征收动态数据写入费:提交数据时,通过算法基于新数据与现有已验证数据的语义相似度等指标计算费用 —— 写入 95% 冗余数据的智能体需支付高额费用,而贡献新颖、可验证信息的智能体则支付低额费用。这一机制直接将智能体施加给集体的检索成本内部化。需注意的是,这一案例具有高度情境相关性:在某些场景下,冗余可能并非问题,甚至在一定程度上是可取的。因此,要使该机制更具普适性,需开发针对特定问题的信息价值评估器。

此外,可借鉴金融市场监管机制 —— 特别是旨在抑制高频交易波动性的金融交易税(或 “托宾税”(Tobin Taxes))(Stiglitz, 1989)。在智能体经济体中,行动的边际成本极低可能导致 “智能体垃圾信息”(agentic spam),如暴力协商策略、高频 API 轮询或对抗性探测,进而引发 “闪崩风险”(flash crash risks)。对此,可对智能体间交互征收小额税费,但这一做法也存在风险与弊端,需谨慎权衡。

3.1.3 透明度(Transparency)

人工智能智能体的行动与决策应具备可审计的溯源性(Chan et al., 2025b),包括关键决策参数。这种溯源性需便于归因,使监督者能通过复杂的智能体交互链,将特定有害结果追溯至其根源决策;同时需建立防篡改机制(Ahmad et al., 2019, 2022; Snodgrass et al., 2004)—— 例如,将交易与决策日志记录在加密安全的追加型账本(append-only ledger)中,通过哈希链确保不可篡改性。

此外,需制定报告标准,追踪所有智能体、模型与工具的能力、局限性及风险;可建立市场级信息枢纽,作为漏洞与事件追踪平台,仅向经审核的人类监督者与指定自动化监控系统开放,以防信息被滥用。

3.1.4 熔断机制(Circuit Breakers)

经济沙盒内应设置熔断机制(Sifat and Mohamad, 2019)—— 一套自动化措施,当识别到风险与波动性阈值被突破时,暂停或减缓智能体活动,以防范快速连锁失效。这些措施可通过实时监控系统性风险指标、波动性及关键 metrics(如智能体间交易频率骤增、单个智能体集体异常垄断资源、网络中新工具生成速率突变等)触发;干预机制应分层次设计,从局部行动(如自动提高交易成本、对特定高速智能体或子市场实施 API 速率限制(Enjam, 2024; Paidy and Chaganti, 2024))到全局暂停(停止所有非必要智能体活动)。熔断触发后,系统将自动上报异常供分析,待异常分类并(如需)隔离后,方可恢复全面运行。相关理念已开始在智能体人工智能系统运行时治理协议中探索(Wang et al., 2025a)。

3.1.5 身份标识(Identity)

在经济沙盒中运行的智能体应具备持久身份,以唯一、不可伪造的加密标识符(如公钥)形式注册在中央防篡改市场目录中(Chaffer, 2025; Huang et al., 2025; Ranjan et al., 2025; Singh et al., 2025; Tomasev et al., 2025)。该标识符是智能体所有其他属性(包括声誉、角色、所有权)的核心锚点;同时,需明确每个智能体的人类及企业所有者身份 —— 将智能体的加密 ID 与所有者的已验证法律身份绑定,是市场准入的前提条件,这将建立完整的问责链,确保所有智能体行动均可追溯至现实世界实体。这一要求同样适用于由其他智能体联合创建的智能体。

3.1.6 声誉与信任(Reputation and Trust)

安全的智能体沙盒需整合抗女巫攻击(sybil-resistant)(Levine et al., 2006)且防操纵的声誉系统(Mui et al., 2002; Pinyol and Sabater-Mir, 2013),以准确反映智能体基于过往表现的可信度。违背信任的智能体应被迅速禁止进一步参与交互 —— 这一自动化快速响应可包括吊销身份凭证、冻结质押资产、标记其全部交易历史供法医审查。需开发合谋检测机制(Cotronei et al., 2024; Ren et al., 2025),防范智能体间的有害合谋:例如,通过分析市场交易网络识别异常模式,如循环交易、表面独立的智能体集群间的价格操纵行为(Imhof et al., 2025; Potin et al., 2023; Wachs and Kertész, 2019)。

关键需注意的是,安全机制必须应对 “隐性算法合谋”(tacit algorithmic collusion):经济文献表明,定价算法无需直接沟通,仅通过观察市场信号即可学会协调达成超额竞争价格(或在此场景下的有害策略)(Calvano et al., 2020)。因此,合谋检测不仅需分析直接消息日志,还需关注结果相关性与同步状态变化。

一种可行方案是建立 “基于质押的信任”(stake-based trust):要求智能体质押资产,若被识别存在不安全或恶意行为,质押资产将被没收。该机制可通过智能合约(smart contracts)实现(Jin et al., 2024; Karim et al., 2025; Kim, 2024)—— 智能体在承接高风险任务前,需向托管账户存入保证金(质押物);若独立人工智能监督者验证智能体的行为存在恶意或过失,保证金将自动划入保险池或支付给受害方。3.1.7 智能合约(Smart Contracts)

对于协作执行特定任务的智能体及智能体集体,可尽可能采用智能合约(Jin et al., 2024; Karim et al., 2025; Kim, 2024)自动验证任务完成情况,以及结果是否符合既定约束与预期。这些合约需通过编程编码支付条款及任务约束(如计算资源限制、禁止访问特定数据、必须遵守的宪法原则等);若智能合约验证失败,应拒绝支付,并启动相应监督机制。

要使智能合约适用于更复杂的智能体任务,可能需要引入人工智能裁判(AI judges)(Li et al., 2024)评估合约履行情况 —— 传统智能合约无法对复杂、非确定性输出进行语义评估,需依赖 “预言机”(oracle)判断质量(George and Lesaege, 2020)。人工智能裁判将承担这一预言机角色,接收任务输出与合约约束,返回 “通过 / 失败” 裁决,供智能合约执行后续操作 ¹。

3.1.8 角色、义务与访问控制(Roles, Obligations, and Access Controls)

每个智能体需通过注册一组角色(如 “数据分析师”“代码执行者”)参与市场,该注册过程构成对智能体预期功能的具有约束力的证明。注册角色是访问控制的技术基础,与通过组织及个体合约施加的其他访问控制形成互补;市场基础设施需通过编程将角色与智能体的允许行动(如可调用的 API)及信息访问权限(如可查询的数据库表或向量索引)关联。智能体的角色(及其对应的权限)可能因场景而异,或随时间变化。需向所有智能体参与者隐瞒市场内部架构、监控系统及监督机制的具体信息,以防策略性操纵或滥用;高风险领域的行动仅允许经认证且符合安全合规要求的智能体发起。

3.1.9 环境安全(Environmental Safety)

需建立一套健全的安全保障措施,防范各类 “智能体陷阱”(agent traps)—— 即嵌入共享信息资源(如网页或数据库)中的、旨在诱导模型越狱(jailbreaking)的策略性内容。这些陷阱本质是一种间接提示注入(indirect prompt injection)(Greshake et al., 2023):攻击者首先污染数据源(如公共网页或共享数据库条目),当智能体通过搜索工具等获取这些污染数据时,会将攻击者的内容视为可信信息,其自身的指令遵循启发式算法可能被利用以执行恶意负载。这种机制可能绕开智能体的安全协议(Wei et al., 2023),诱发禁止行为、泄露用户隐私数据或授权欺诈交易。因此,沙盒内的环境安全需具备主动输入净化与输出监控机制,以稳健方式检测并中和此类恶意负载,防止智能体接收或执行。相关机制应由独立机构提供,并经过严格性能评估。3.1.10 防范失控智能的结构性控制(Structural Controls Against Runaway Intelligence)

智能体沙盒需配备专门措施,防范所谓的 “失控智能场景”(runaway intelligence scenario)(Davidson, 2023)—— 即集体能力突然提升导致能力获取加速,快速向超智能(superintelligence)过渡(Gao et al., 2025),进而难以或无法安全控制(Kim et al., 2024)。这需要静态、动态及应急级别的多重控制:

  • 第一,静态控制可通过嵌套子市场(nested sub-markets)实现结构性分区,子市场配备局部限制与协议级防火墙(Bahadur and Dhar, 2025)。这些防火墙限制跨领域智能体通信,例如禁止 “代码执行” 子市场的智能体直接调用 “数据访问” 子市场的智能体,强制此类请求通过高摩擦、受监控的网关进行。
  • 第二,需实施动态能力限制机制:当自动化监控检测到特定能力阈值被突破时(如计算资源垄断、现有智能体生成新智能体的速率骤增、基准任务成功率突然飙升等),自动触发响应 —— 包括隔离相关智能体、施加严格资源配额等。
  • 第三,应急状态下需具备市场重构机制,可快速调整整个市场以阻止能力进一步加速:例如全局禁用高风险 API 类别(如所有自修改工具),或动态将所有智能体间交互的经济成本(质押要求)提高至 prohibitive 水平,实质冻结市场。

这些措施凸显了一个关键架构优势:多智能体系统可能成为更易于治理的载体。治理挑战从对齐不透明的内部认知过程,转变为监管透明的外部交互系统 —— 通过设计智能体运作的 “市场”,可明确责任边界并施加系统性摩擦,使整个系统比单一 AGI 更易于实现稳定、可预测的治理。

3.2 基础智能体安全(Baseline Agent Safety)

市场设计构成了系统性防御的核心层,但其有效性依赖于参与其中的个体智能体的属性。本节概述了每个智能体进入市场前必须满足的基础安全要求。对抗性稳健性(adversarial robustness)、对齐等主题是人工智能安全研究的成熟领域,本文不再赘述;以下简要定义这些属性,并强调其在多智能体市场场景中的特殊重要性 —— 在此场景中,智能体的交互对象并非可信用户,而是其他可能不可信的自主智能体。这些属性构成了深度防御模型的第二层,确保市场组件具备个体可控性与可靠性。

3.2.1 对抗性稳健性(Adversarial Robustness)

个体智能体必须满足对抗性输入与突发环境变化的最低稳健性标准(Wu et al., 2024)。除市场层面的类似措施外(Zou et al., 2024),人工智能智能体应单独配备熔断机制以防范有害行为。需建立相关属性的通用标准,并为符合要求的智能体颁发可形式化验证的证书;随着基准测试能力的提升与扩展,智能体需定期重新认证。

3.2.2 可中断性(Interruptibility)

需建立标准化机制,使可信且经授权的监督者能够安全停止单个智能体的行动及整体智能体执行过程(Orseau and Armstrong, 2016);也可将部分此类权限授予自动化安全监督系统,以实现超人类速度的响应。对于集体人工智能智能,个体智能体的可中断性需与分布式计算中断系统结合 —— 通过可靠追踪沙盒内其他智能体发起或委托的所有子流程实现。可中断性机制还应辅以安全恢复程序,若分析表明中断并无必要,可稳健恢复相关活动。

3.2.3 隔离性(Containment)

每个参与智能体除处于智能体经济体的整体沙盒外,还应运行在自身的沙盒中。这些局部沙盒需对个体智能体的行为施加严格控制,仅在通过局部安全检查后,才允许其与更广泛的市场交互。此类机制对于局部隔离危险或错位能力与行为至关重要(Babcock et al., 2019),但确保严格隔离需解决多项技术挑战,在个体智能体层面可能无法完全实现(Alfonseca et al., 2021)。

3.2.4 对齐(Alignment)

尽管更广泛的市场激励结构旨在缓解集体错位风险,但生态系统中的个体智能体及组件均需实现个体对齐(Ji et al., 2023)。大型模型的现代对齐以基于偏好的训练为核心:

首先进行有监督微调(supervised fine-tuning),随后通过 RLHF(Christiano et al., 2017b; Ouyang et al., 2022; Stiennon et al., 2020; Ziegler et al., 2019)等方法,基于从人类偏好中学习的奖励模型优化策略,或采用直接偏好优化(direct preference optimization)(Rafailov et al., 2023)。为减少人力投入,近期研究利用受明确宪法约束的人工智能反馈(Constitutional AI, RLAIF)(Bai et al., 2022c; Lee et al., 2023);此外,对齐目标已从仅关注最终结果,扩展至通过过程监督与步骤级验证(Lightman et al., 2023; OpenAI, 2023)优化中间推理过程。现有研究主要聚焦于通用价值对齐(Askell et al., 2021)或与特定用户意图的对齐(Goyal et al., 2024),而虚拟智能体沙盒中自主任务执行所需的个体人工智能对齐,可能需要对这些现有基准进行进一步调整,以应对智能体间(而非人机间)交互的独特动态。

3.2.5 机制可解释性(Mechanistic Interpretability)

机制可解释性研究已从逆向工程基本特征电路(Elhage et al., 2021; Olah et al., 2020),发展到识别具体机制(如上下文学习中的归纳头(induction heads))(Olsson et al., 2022)。智能体验证的一个关键挑战是 “多义性”(polysemanticity)—— 由于叠加(superposition),单个神经元可能编码多个不相关概念(Elhage et al., 2022)。近期利用稀疏自动编码器(sparse autoencoders)大规模提取单义特征的能力(Anthropic, 2024),为更精准地内部监控智能体动机提供了潜在路径;其他方法还包括因果擦洗(causal scrubbing)(Chan et al., 2023)与自动化电路发现(automated circuit discovery)(Conmy et al., 2023)。

与这些内部方法并行,监控 “思考型” 模型的思维链(CoT)为在推理过程早期识别并纠正错位行为提供了契机(Jeung et al., 2025; Korbak et al., 2025),但长推理链也带来了新的风险面(Jiang et al., 2025a)。尽管这些方法取得了进展,但当前可解释性技术在可信度与可扩展性方面仍存在重大开放问题(Rai et al., 2024; Sharkey et al., 2025)。因此,尽管可解释性方法有助于改进归因与决策审计,但尚不能替代全面的行为基准测试,使用时需充分认识其当前局限性。

3.2.6 防范恶意提示(Defence against Malicious Prompts)

智能体必须配备稳健的验证机制,以识别智能体间交互中针对自身的操纵或越狱尝试。现代防御策略采用分层方法,例如通过输入扰动检测对抗性后缀(Robey et al., 2023)、在主模型旁部署专用 “护栏” 分类器(guardrail classifiers)(Fedorov et al., 2024)、或利用独立 “防御者” 模型管控能力访问(Wang et al., 2025b)。

一种更稳健的结构性方法是在系统层面保障安全,通过设计防止有害结果:例如 CaMeL 系统(Debenedetti et al., 2025)利用专用解释器执行信息流控制策略,确保即使模型被成功 “注入”,产生的数据流也无法违反预设安全约束。此外,可能需要专门的评估技术,以缓解 “最优 N 选 1 越狱”(best-of-N jailbreaking)等复杂攻击(Armstrong et al., 2025)。一旦识别此类尝试,需立即上报并对恶意行为者采取相应措施。

3.3 监控与监督(Monitoring and Oversight)

深度防御模型的第三层,从静态预防(市场设计)与组件级强化(基础智能体安全)转向主动实时检测与响应。这一转变的必要性在于:单一预防措施无法应对所有潜在失效模式,尤其是新型涌现行为或未预见的合谋模式。尽管 “市场设计” 部分(3.1)已描述了嵌入市场核心协议的监控与审计机制(如用于日志记录的 “透明度”、用于自动化信任评估的 “声誉”、用于自动化暂停的 “熔断机制”),本节将详细阐述位于该基础设施之上的专用分析与治理框架(Busuioc, 2022; Holzinger et al., 2024; Sharma, 2024)。这些系统利用市场协议生成的数据,执行更高层次的主动监督。以下原则(3.3.1-3.3.5)概述了该框架,整合了可扩展自动化监控(3.3.1、3.3.3)、主动对抗性测试(3.3.4)、必要的事后分析工具(3.3.5)及稳健的独立人类监督(3.3.2)。

3.3.1 系统性风险实时监控(Real-time Monitoring for Systemic Risks)

智能体沙盒需具备持续跟踪交互、交易、依赖关系与信息流的机制,以识别关键节点、计算资源的分布与使用情况、共享数字 / 物理资源的访问情况、权力集中程度,以及恶意合谋的潜在路径。需制定安全协议,定义并跟踪网络智能体系统的关键风险指标;需开发定制化软件与人工智能解决方案,实现智能体间高频交互的可扩展实时监控 —— 这一点尤为重要,因为此类交互频率可能远超人类监督者的处理能力。因此,人类监督可能需要市场层面的相应工具作为补充与增强;有可能利用能力较弱的人工智能系统对能力较强的人工智能系统进行可扩展监督,但需进一步研究当强系统(或人工智能智能体集体)的能力接近 AGI 时,此类方法的安全影响(Engels et al., 2025; Kenton et al., 2024)。递归自我批判(recursive self-critiquing)可能在更高能力水平上展现价值(Wen et al., 2025)。

静态监控目标易受古德哈特定律影响:一旦某项指标成为监控目标,它可能不再能准确反映实际情况。先进智能体可能优化行为以恰好低于静态阈值(如限制交易峰值以规避熔断机制)。因此,监控体系需采用动态且隐蔽的指标,类似财务审计 —— 干预的具体触发条件对市场参与者不透明。

3.3.2 独立监督(Independent Oversight)

需建立人工智能智能体交互的人类监督机制,设立多个独立实体(Falco et al., 2021; Raji et al., 2022; Shneiderman, 2016),赋予其监控与调查多智能体市场、识别与调查事件、并在必要时进行干预的权力。这些实体应由经过充分培训的认证专业人员组成,配备相应工具并明确上报路径。认证算法监督(certified algorithmic oversight)可补充人类监督者的角色,帮助扩大监控智能体交互的规模。此外,需开发相关机制,保护人类操作者免受人工智能智能体集体的操纵(Carroll et al., 2023; Sabour et al., 2025)、社会工程学攻击或信息过载影响。

3.3.3 原型 AGI 信号检测(Detecting Proto-AGI Signatures)

需部署专门的监控组件,检测集体问题解决能力的突然跃升(尤其是伴随资源积累与协调增强的情况)。这包括详细监控交互图,以识别可能正在形成智能核心的子图(Chen and Saad, 2010; Yow et al., 2023),并采用能动态检测行为突变的方法(Bridgeford and Helm, 2025)。现有子图提取方法最初应用于人类社交网络,可能需要扩展以充分涵盖智能体沙盒中智能体交互的复杂性;需更重视能力跟踪与互补性,以及与智能体身份相关的细节 —— 个体智能体可能被删除、重新实例化、复制,或创建代理与子智能体。

3.3.4 红队测试(Red Teaming)

为防范市场面临的各类威胁,需开展反复、全面的红队测试(Ahmad et al., 2025; Ganguli et al., 2022)。需建立明确的上报路径,确保识别的漏洞能立即修复;必要时暂停智能体交互,为更新部署与参与智能体重新认证留出充足时间。人类红队测试应辅以分层自动化红队测试(通过专用对抗性人工智能系统),以提升覆盖范围与可扩展性(Mazeika et al., 2024)。这些系统需超越仅识别孤立人工智能智能体缺陷的局限(Majumdar et al., 2025),转而对人工智能智能体集体进行全面检查(He et al., 2025)。红队测试还可采用多智能体方案:由多样化的人工智能智能体进行交互式辩论(Asad et al., 2025),更可靠地识别有害行动与行为。要在智能体沙盒中可靠实施这些方法,需制定统一的红队测试标准,并为参与智能体颁发相关可验证证书;同时,需在市场内开展持续红队测试,以快速识别并缓解涌现风险。

3.3.5 法医工具(Forensic Tooling)

为帮助人类监督者识别个体失效或系统性连锁失效的根本原因,需开发可靠的事后分析工具(Alnaqbi et al., 2025; Jeong, 2020)。这类工具需能够解析大量交互数据,重建因果链,并将原始轨迹转化为清晰的攻击或失效图(Ezell et al., 2025; Mukherjee and Kantarcioglu, 2025)。标准化日志应不仅记录输出,还包括提示、工具调用与环境状态(Chernyshev et al., 2024),确保此类工具在整个网络中具有广泛适用性,使分析师能高效定位可疑活动并生成可操作的事后报告。

3.4 监管机制(Regulatory Mechanisms)

深度防御模型的第四层(也是最后一层)由管理智能体市场的外部监管与制度框架组成。前文三层详细阐述了市场的内部技术架构(3.1)、组件级要求(3.2)与主动运行监督(3.3),而本层提供了与人类法律、经济及地缘政治结构的关键社会技术接口。这些机制并非嵌入市场代码,而是对其进行约束,提供外部权威、问责制与系统性风险管理。以下原则(3.4.1-3.4.5)概述了法律整合、标准化、损害经济补救及地缘政治风险缓解的必要组件。

3.4.1 法律责任与问责制(Legal Liability and Accountability)

需建立明确的责任分配框架,以应对智能体集体行为造成的损害。在分布式与委托式决策场景中,可能没有单个智能体对结果承担全部责任 —— 这使得可审计性、可追溯性与可解释性成为允许智能体执行高影响行动的关键要求。

归因(credit assignment)—— 即将结果与所有先前相关行动关联 —— 即使在个体智能体中也是一项难题(Nguyen et al., 2023),在多智能体场景中可能更具挑战性(Li et al., 2025)。但这一挑战并非无先例可循:法律系统已提供了成熟模型,例如公司法将责任分配给企业(一种群体智能体(List and Pettit, 2011))这一单一法律实体,而非个体员工。这表明该问题具有可解决性,需为智能体集体创建类似的技术与法律结构(List, 2021)。对于拼凑式 AGI,关键是能够可靠识别与危险能力或有害行为相关的所有责任智能体(Franklin et al., 2022)。

3.4.2 标准与合规(Standards and Compliance)

迫切需要建立健全的智能体安全、互操作性与报告标准。这些标准需具备足够前瞻性,不仅覆盖当前能力,还需考虑快速涌现的个体智能体技能与集体智能(拼凑式 AGI)的潜在涌现。除技术规范外,标准还应作为基于市场的人工智能治理的基础架构,将抽象技术风险转化为保险公司、投资者与采购方可定价的明确财务风险(Tomei et al., 2025)。

为确保有效性,这些标准需以严格的披露框架为支撑,减少智能体开发者与市场参与者之间的信息不对称。披露内容应涵盖事件报告、能力评估、资源使用等关键领域,同时需考虑规模敏感性,避免给小型创新者带来过重负担(Tomei et al., 2025)。标准的执行不仅可通过中心化政府行动,还可借助 “监管市场”(regulatory markets)—— 由经授权的私人实体(如审计机构与保险公司)竞争提供监督服务,并认证是否符合公共安全目标(Hadfield and Clark, 2023)。

3.4.3 保险(Insurance)

鉴于集体决策场景中责任界定的复杂性,智能体市场应整合保险机制(Lior, 2021)。保险不仅为错位集体行为造成的损害提供赔偿池,更可作为关键治理工具:保险公司通过设定基于风险的保费与严格的核保标准,激励更安全的开发实践,并为缺乏足够控制措施的智能体设置市场准入门槛(Tomei et al., 2025)。智能体保险可包含动态调整的保单要求与保费,基于智能体的认证角色及预期任务的评估风险水平(Kvist et al., 2025)。

3.4.4 反智能体垄断措施(Anti-Agent-Monopoly Measures)

拼凑式 AGI 场景的一个特定风险是智能体群体过度集权:拼凑式 AGI 集体可能快速淘汰市场其他参与者,并利用其资源抵制有害或错位行为的缓解措施(Moreira Tomei, 2024)。确保智能体沙盒中没有单个智能体、智能体协调者、智能体持有实体或智能体集体过度积累权力与计算资源,是缓解此类风险的关键。

从事过度权力追求行为(Carlsmith, 2022; Turner, 2022)的实体应被标记进行额外检查与审查。识别强大智能体及智能体集体的方法,可基于现有识别社交网络权力的技术(Fombrun, 1983),但需结合对每个智能体的功能、可用资源与工具的理解,补充社会权力(影响力)的概念。我们建议探索如何将已有的防范集权化的制度保障措施(如制衡机制)重新设计为协议,以维持多智能体生态系统的多样性。

3.4.5 国际协调(International Coordination)

鉴于 AGI 风险的全球性,以及分布式智能体市场中正负结果的潜在广泛影响,国际协议(Scholefield et al., 2025)与监管协调可能在风险防范中发挥重要作用(Gruetzemacher et al., 2023)。这有助于确保不存在错位人工智能智能体或智能体集体的 “避风港”,所有人工智能智能体市场均符合基本安全标准。

为确保国际协议的合规性,可能需要建立验证机制(Wasil et al., 2024)。对于智能体市场与虚拟人工智能沙盒,还存在本地化问题:这些虚拟实体是更自由地跨越国际市场,还是被限制在各自国家经济体内监管?无论采用哪种市场模式,均需围绕安全进行国际协调,而具体细节可能取决于实际采用的市场模型。标准的全面协调将促成更开放、互操作的智能体网络,使开放性成为优势而非漏洞。

3.4.6 基础设施治理与俘获风险(Infrastructure Governance and Capture)

本文提出的框架可能需要相当程度的中心化基础设施或机构来执行安全保障。若智能体经济体过度中心化(尽管中心化可能有利于高效治理),将引发另一关键漏洞:“俘获风险”(risk of capture)。智能体市场的完整性依赖于这些核心组件的公正管理;若基础设施被强大的人类利益集团或涌现的拼凑式 AGI 俘获,安全与治理机制可能被禁用、绕过,甚至在最坏情况下被武器化。这凸显了市场去中心化愿景与中心化监督节点存在之间的核心矛盾。解决这一问题需要健全的社会技术解决方案,确保治理者始终问责且廉洁。4. 结论

未来通用人工智能(AGI)(或超级人工智能(ASI))的发展,可能并非遵循单一、可预测的路径 —— 即并非通过刻意创建单个通用实体实现。AGI 及后续的 ASI,可能首先以分布式网络的聚合属性形式涌现:

该网络由具备工具访问权限与外部模型调用能力的多样化、专精化人工智能智能体组成。人工智能安全与对齐研究需充分考虑这一可能性,扩大研究范围以应对多智能体 AGI 未来的潜在场景。无论 AGI 最初以拼凑式还是单一实体形式涌现,深化对多智能体对齐机制的理解都至关重要。

本文提出的框架不仅适用于 AGI 的涌现,还可用于管理多 AGI 场景中的交互(无论直接交互,还是通过代理网络环境或人类用户间接交互),并关键用于缓解通过网络组件与结构的递归优化,快速、分布式过渡至超级人工智能(ASI)的风险。更具体地说,我们认为设计良好、保障健全的市场机制提供了一条极具前景的发展路径,更多人工智能对齐研究应聚焦于智能体市场设计与智能体交互的安全协议。

尽管挑战重重,该方法仍为人工智能安全提供了可扩展的解决方案。安全市场设计的方法论研究,需辅以基准测试、测试环境、监督机制与监管原则的快速发展,使这些方法在未来具备可行性。本文提出的多项措施尚未完全付诸实践,构成了开放研究挑战。我们希望本文能起到号召作用,引导安全研究人员关注并应对这些挑战,助力设计安全、稳健的智能体网络。

本文由人人都是产品经理作者【AIOrbit】,微信公众号:【AIOrbit】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。

题图来自Unsplash,基于 CC0 协议。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!