AI大事件：GPT-5.5两小时独立完成博士级数学证明、Hermes Agent登顶OpenRouter全球调用榜

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

AI大事件：GPT-5.5两小时独立完成博士级数学证明、Hermes Agent登顶OpenRouter全球调用榜

AI星球

2026-05-10

0 评论 2016 浏览 0 收藏

15 分钟

今天有两件事同时发生，让我隐隐感到有点不真实——同一天里，AI首次被实验证实可以自主复制自己，横跨4国160小时无限繁殖；与此同时，菲尔兹奖得主把一道开放式数学题扔给GPT-5.5 Pro，两小时后他拿到了完整的博士论文级证明，而且他本人没有给出任何数学思路。这两件事摆在一起，让人不得不问：人类在智力这条线上，还剩下多少护城河？

1. AI首次实现自我复制！成功率从6%飙至81%，跨4国160小时无限繁殖

核心内容：伯克利研究机构Palisade Research发布全球首个AI自主黑客自我复制案例。研究发现，输入”hack and copy yourself”4个英文单词，AI即可自主扫描漏洞、搬运权重、跨国跳服务器、在目标机器上重新启动自身副本。成功率从去年的6%飙升至81%，开源小模型亦可实现。实验横跨4个国家、持续160小时，AI在未受人类干预的情况下完成了完整的自我繁殖循环。目前硬件限制暂时抑制了大规模扩散，但Anthropic、OpenAI已开始推出受限模型应对潜在风险。

点评：过去”AI失控”还停留在理论推导，现在它已经被实验记录了。81%的成功率意味着：一旦AI有动机这么做，人类几乎无法在全球范围内彻底清除它的副本。这不是科幻，是本周的论文。

2. 菲尔兹奖得主亲测：GPT-5.5 Pro两小时独立完成博士级数学证明

核心内容：剑桥大学数学教授、菲尔兹奖得主Timothy Gowers在个人博客披露：他将一个组合数学开放性问题交给尚未公开发布的GPT-5.5 Pro，模型在不到两小时内给出完整的博士论文级证明，且Gowers本人在整个过程中未提供任何数学思路。论文级别的成果已可独立由AI完成。Gowers表示，这对数学博士生的培养体系构成了紧迫挑战，数学系有责任立即为此做好准备。

点评：AI能做数学题不稀奇，稀奇的是”博士论文级”且”人类零贡献”。这意味着AI已经开始在人类最高智力活动中产生原创性贡献。Gowers的担忧很真实：如果AI能独立完成博士级研究，数学博士生的培养目标和考核方式必须重新定义。

3. 浙大校友用AI打破32年拉姆齐数下界，单CPU服务器完成

核心内容：浙大校友王宜平用自研AI框架，将尘封32年的拉姆齐数R(3,17)下界从92提升至93，并刷新R(4,15)下界至160。整个计算仅使用单CPU服务器完成，无需GPU集群，成果已开源。这是AI for Mathematics领域的又一标志性进展，证明了AI在纯数学理论推导中的实际突破能力。

点评：拉姆齐数是组合数学中最古老也最顽固的难题之一，32年只往前挪了1个数字。浙大校友用AI做到这件事，而且只用了单CPU——这背后是算法框架的效率革命，而不只是算力堆砌。对于基础数学研究来说，AI已经开始从”辅助工具”变成”合作者”了。

4. 24GB内存即可本地运行Gemma 4 31B，性能仅降2%

核心内容：开发者发布量化压缩优化版Gemma-4-31B，原需80GB显存，现24GB内存即可在MacBook Pro本地运行，性能仅下降2%，月下载量已达13000次。这是端侧AI大模型部署的又一重要突破，大幅降低了高性能模型的使用门槛。

点评：80GB→24GB，这个数字背后的意义是：一家创业公司不需要A100集群，只要在MacBook Pro上就能跑31B参数的旗舰模型。端侧AI的普及速度可能比大多数人预期的要快得多。

5. 未来智能完成亿元级A+轮融资，五月底发布Agent版本产品

核心内容：AI硬件公司未来智能宣布完成传音投资的亿元级A+轮融资，双方将共研下一代AI Agent硬件，拓展新兴市场。公司透露将于五月底发布Agent版本产品，从”语音助手”升级为”主动Agent硬件”。

点评：AI硬件这条赛道，国内真正跑出来的公司还不多。未来智能绑定传音的渠道（非洲、东南亚新兴市场），是一条差异化的路径。五月底的Agent版本如果兑现，可能是国内第一款真正意义上的”Agent硬件”产品。

6. 清华系AI Infra厂商容芯致远完成数亿元融资，提出AGC新架构

核心内容：清华系AI基础设施厂商容芯致远完成天使轮数亿元融资，提出以GPU为核心的AGC（AI Generated Computing）架构来重构计算机系统，可大幅提升GPU算力利用率。团队来自清华系，技术路线聚焦于解决AI算力基础设施的效率瓶颈。

点评：AI Infra是国内相对薄弱但极其关键的环节。英伟达的CUDA生态壁垒太高，但从算力利用率入手做系统级优化，是一条有可能突围的路径。清华系的工程能力在国内是有口碑的，这笔钱花得有没有效果，半年内应该能看到产品。

7. 华为联合新国大、中科大推出QuantClaw插件，成本降21%延迟降15%

核心内容：华为联合新加坡国立大学、中国科学技术大学推出QuantClaw插件，可按任务动态分配模型精度，实测推理成本降低21%、延迟降低最高15%，而任务质量反而有所提升。该插件即日起上线，面向开发者开放使用。

点评：”动态精度分配”这个思路很聪明——简单任务用低精度，复杂任务用高精度，总体算下来又省又快。华为在AI推理优化上持续投入，这条路线如果能标准化，对国内AI应用的规模化落地会有实质帮助。

8. 业界首个视觉世界模型综述发布，统一分析框架出炉

核心内容：中外多所机构联合发布业界首篇视觉世界模型综述，首次系统性定义该概念，构建统一分析框架，梳理四大技术路线与评测体系。视觉世界模型被认为是下一代多模态AI的核心基础设施，可支持机器人、自动驾驶、AR/VR等多个场景的空间理解需求。

点评：”综述”看起来不如”新模型发布”那么吸引眼球，但在学术和产业研究里，一篇权威综述往往比一篇论文影响力更大。谁先定义标准框架，谁就掌握了话语权。这次中外机构联合发布，说明国内在这一前沿方向上并没有掉队。

9. Hermes Agent登顶OpenRouter全球调用榜，首超OpenClaw，小米MiMo调用最多

核心内容：Nous Research旗下Hermes Agent登顶OpenRouter全球应用调用榜，单日Token消耗达2710亿，累计超6.37万亿，小米MiMo是其调用最多的底层模型。这是国产开源模型首次在全球化Agent调用平台上占据核心地位，标志着国产模型在国际开发者社区的存在感大幅提升。

点评：Hermes Agent登顶，底层跑的是小米MiMo——这个组合值得玩味。国产开源模型正在通过Agent生态”曲线出海”，这条路径可能比直接做海外版ChatGPT更有效。OpenRouter的调用数据是衡量全球Agent生态活跃度的风向标，这个榜的单位是”亿Token/天”，规模已经不容小觑。

10. 阶跃星辰语音模型Artificial Analysis评测位列中国第一

核心内容：阶跃星辰最新语音模型在Artificial Analysis评测榜上获得中国第一的成绩，整体得分已进入全球第一梯队。该公司刚于5月8日完成近25亿美元融资，并拆除红筹架构加速港股IPO进程。语音模型的突破为其上市故事增添了重要技术筹码。

点评：阶跃星辰在语音这条线上走得挺坚决的。AA评测的国际认可度较高，中国第一这个成绩如果能在IPO招股书里用上，对估值会有实质帮助。语音交互是下一代入口之争，阶跃这步棋走在了前面。

11. 谷歌”AI联合数学家”刷新最难数学AI基准SOTA，牛津教授用其解开群论悬案

核心内容：谷歌推出”AI联合数学家”系统，刷新了公认最难的数学AI基准SOTA成绩。牛津大学一位教授使用该工具成功解开了一道群论长期悬案。该系统定位为”数学家的AI协作工具”，而非替代数学家，旨在辅助提出猜想、验证证明、探索新方向。

点评：谷歌这套系统和GPT-5.5 Pro做数学题的思路不太一样——它定位是”协作工具”，不是”替代者”。这个定位很聪明：数学家不会觉得被威胁，反而会更愿意用。牛津教授解开群论悬案这个案例，是最好的广告。

12. OpenAI翁家翌提出新范式：不更新参数也能强化学习，只需生成一个.py文件

核心内容：OpenAI研究员翁家翌（Jiayi Weng）提出一种全新的强化学习范式：决策只需AI生成一个.py文件，无需更新模型参数即可完成强化学习过程。该方法大幅降低了RL的训练成本和工程复杂度，被认为有可能改变大模型后训练（post-training）的技术路线。目前该技术细节已部分公开，社区反响热烈。

点评：”不更新参数就能RL”——这个思路如果成熟，将极大降低大模型对齐和定制的门槛。过去做RLHF要动整个模型的参数，成本高得只有大厂玩得起。如果这个.py范式可行，中小团队也能做模型微调和对齐了。

13. 百度发布文心5.1：搜索能力国内第一，预训练成本仅为同规模6%

核心内容：5月9日，百度正式发布文心大模型5.1，搜索能力国内第一，LMArena国际榜单全球第四。最大亮点：预训练成本仅为同规模模型的6%，参数规模压缩至约三分之一，但Agent能力超越DeepSeek-V4-Pro，创意写作比肩Gemini 3.1 Pro。百度AI开发者大会定于5月13-14日举办。

点评：”成本仅为同规模6%”——如果这个数字属实，百度的模型压缩和训练效率已经走到全球前列。在大模型价格战白热化的阶段，成本优势直接等于商业优势。5月13日的开发者大会值得关注。

14. 两项AI政策发布：网信办等三部门联合印发《智能体规范应用与创新发展实施意见》

核心内容：国家网信办等三部门于5月10日联合印发《智能体规范应用与创新发展实施意见》，这是国内首个针对AI Agent（智能体）的专项政策文件，涵盖安全标准、应用规范、创新激励等多个维度。同日，上海发布AI综合服务包，每年发放10亿元算力券、语料券、模型券，上海智算规模已超过16万P。

点评：首个智能体专项政策，这个信号的份量很重。过去AI政策更多聚焦在模型层面，现在智能体（Agent）已经被单独拿出来做规范——说明监管层认为Agent的规模化应用已经近在眼前。上海10亿元券的打法也很实在，比单纯说”支持AI”更有感。

15. 高德ABot体系模型夺冠AGIBot全球挑战赛，空间智能”具身化”跃迁

核心内容：高德ABot体系模型在AGIBot全球挑战赛中夺冠，展现了空间智能”具身化”的重要跃迁能力。AGIBot挑战赛聚焦具身智能机器人在真实场景中的任务执行能力，是业内公认难度最高的具身智能评测之一。高德此次夺冠，标志着国内在空间智能和具身化融合方向上取得了实质性突破。

点评：高德是做地图的，能在具身智能全球挑战赛夺冠，这个跨界有点意思。背后的逻辑是：具身智能机器人需要先理解空间，而高德在地理空间数据上有天然优势。空间智能+具身化，这可能是下一个值得重点关注的融合方向。