当AI学会了验证自己的推理

0 评论 77 浏览 0 收藏 21 分钟

当大多数AI还在追求"看起来合理"的答案时,陈天桥创立的MiroMind正让AI学会验证自己的推理——提前15天预测黄金价格误差仅0.08%,一个月前准确预测超级碗冠军,三周前锁定格莱美最大赢家。这不是运气,而是MiroThinker-H1的"验证为中心"重型推理模式:局部验证打破概率偏见,全局验证审计证据链,让支持最充分的答案胜出,而非最自信的答案。

你有没有想过,AI 到底能不能真正解决复杂问题?大多数人用 AI 的体验可能是这样的:问它一个问题,它给你一个看起来很有道理的答案,但你总觉得心里没底,不知道该不该相信。这种不确定性正是当前 AI 系统的致命弱点。它们善于生成流畅的文字,却不擅长保证答案的准确性。但如果我告诉你,有一个 AI 系统能在提前 15 天预测黄金价格,误差只有 0.08%;能在一个月前准确预测超级碗冠军;甚至能提前三周预测格莱美最大赢家,你会不会觉得这才是 AI 应该有的样子?

这不是科幻故事,而是由著名企业家陈天桥创立的 MiroMind 正在实现的现实。他们刚刚发布了最新的研究型 AI agent 家族:MiroThinker-1.7 和 MiroThinker-H1。我深入研究了这个系统后发现,它代表着一个重要的转变:从概率性生成转向可验证的准确性。这不是简单的模型升级,而是对 AI 系统本质的重新思考。更让我兴奋的是,这种能力很快就能通过他们的移动应用体验到,让普通用户也能使用这种级别的 AI 推理能力。

为什么我们需要重型推理系统

我一直觉得,当前大多数 AI 系统有一个根本性问题:它们被设计成聊天机器人,而不是问题解决者。聊天机器人的目标是提供看起来合理的回答,让对话继续下去。但真正的问题解决需要的是完全不同的能力:长链推理、与现实世界的互动、对不确定性的处理,以及最重要的——验证自己的答案是否正确。

MiroMind 团队提出了一个我非常认同的观点:下一个前沿不是更广泛的知识或更精致的对话,而是能够持续进行长链推理、与不确定性交互、与世界互动,并在关键任务上收敛到更好答案的系统。这种系统被他们称为”重型 AI agent”,专门用来处理那些真正困难、高价值的问题。听起来很抽象,但当你看到它能提前预测金融市场走势、体育赛事结果甚至娱乐行业趋势时,你就能理解这种能力的价值了。

从性能数据来看,MiroThinker-H1 在多个关键基准测试上达到了业界最先进水平。在 BrowseComp 和 BrowseComp-ZH 这两个衡量模型在英文和中文环境下执行高级研究能力的基准测试中,MiroThinker-H1 超越了所有主要竞争模型。在科学研究和高级数学领域,它在 FrontierScience-Research 和 FrontierScience-Olympiad 上创下新纪录,甚至超过了领先的闭源前沿模型。在金融领域,它在 FinSearchComp 上领先业界,展示了其在高精度经济分析方面的实用性。

但我更关注的不是这些冰冷的数字,而是背后的设计理念。MiroMind 团队认为,与现实世界反馈的交互不是问题解决的辅助手段,而是核心机制。这个观点彻底颠覆了传统 AI 的设计思路。传统 AI 主要依赖训练数据中的知识,而 MiroThinker 则被训练成主动寻找证据、测试假设、不断修正直到收敛,让外部验证成为推理本身的原生部分。

交互质量比交互数量更重要

在研究 MiroThinker 的技术细节时,我发现了一个特别有意思的洞察:更多的交互轮次、更多的工具调用、更多的重试,确实能在基准测试上带来快速提升。但这种简单的交互扩展并不等同于有效的交互扩展。当中间步骤无法真正推进解决方案时,额外的交互只会放大噪音、复合错误,产生表面上的运动而没有实质进展。

这让我想起自己工作中的经历。有时候为了解决一个问题,我会尝试很多不同的方法,做很多实验,但最后发现大部分尝试都是无用功,甚至让问题变得更复杂。真正有效的解决方案往往需要的是深思熟虑的步骤,而不是盲目的大量尝试。MiroMind 团队也意识到了这一点,他们拒绝将交互量作为能力的代理指标,而是转向从两个维度提高交互质量。

一方面,他们继续深化 AI agent 在各种场景下的推理深度和精确度,因为这是应对更长时间跨度任务的基础核心能力。另一方面,他们致力于让每个单独的步骤更加准确可靠,加强中间决策的质量,使得交互扩展反映的是真正的进展,而不是累积的噪音。在实践中,这要求 AI agent 放慢速度:暂停、验证、权衡替代方案,然后审慎地给出答案,确保做对的事而不只是做事。

这种”慢下来”的设计哲学一开始可能让人觉得反直觉。在这个追求速度的时代,为什么要让 AI 变慢?但仔细想想,这恰恰是重型解决者的特征:它不是为速度而建,而是为那些真正困难、高价值、需要准确性的问题而建。就像一个经验丰富的工程师在做关键决策时,宁愿多花时间思考也不会草率下结论。

两大技术升级让推理更可靠

为了实现这种高质量的交互,MiroMind 引入了两项重大技术升级。第一项是升级 agent 原生训练,第二项是引入验证为中心的重型推理模式。我觉得这两项升级的组合非常巧妙,它们从局部和全局两个层面提升了系统的可靠性。

第一项升级从一个简单的观察开始:如果 AI agent 的基本动作是嘈杂、肤浅或弱基础的,那么扩展交互只会扩展低效率。更多的轮次无法弥补弱步骤质量。为了让交互扩展真正有效,首先应该提高模型的 agent 原生能力——形成可靠的局部判断、采取可靠的中间行动、在长时间跨度的问题解决过程中保持正轨的能力。

MiroThinker-1.7 在训练流程中引入了中期训练作为新的核心阶段。在这个阶段,系统合成了大规模专注于规划、推理和总结的数据,同时显著扩展了任务领域的多样性。这为模型提供了更强的 agent 行为原生基础:它变得更能够分解目标、选择合适的工具调用、解释工具响应并综合最终答案。结果是,交互过程中的每个单独步骤都变得更可靠、更有根据,为有效的交互扩展建立了更强的基础。

在这个新基础之上,后续的训练阶段(监督微调、偏好优化和强化学习)进一步将这些能力塑造成更结构化、更稳健的长链行为。这些阶段共同使模型能够在扩展的交互轨迹中保持准确的推理和有根据的行动,保持朝向任务目标的连贯进展,实现更可靠的长时间跨度问题解决。

第二项升级更加激进。MiroThinker-H1 引入了验证为中心的重型推理模式。这个架构背后的核心信念是,推理的可靠性最终取决于系统检查自己推理过程的能力。验证器作为关键组件贯穿始终,在两个层面运作。在局部验证层面,它打破概率偏差,充分探索正确的路径,而不仅仅是可能的路径。在全局验证层面,它审计完整的证据链,让支持最充分的答案胜出,而不是最自信的答案。

我特别喜欢这种设计。它让我想起科学研究的方法:提出假设、设计实验、收集证据、验证结论。MiroThinker-H1 本质上是在模拟这个过程,但速度快得多。在这种模式下,除了准确性的显著提升,团队还观察到一个有希望的现象:交互步骤数量大幅减少。这表明验证器本质上是在过滤掉那些不产生信息增益的步骤,将计算集中在真正推进解决方案的交互上。更少的步骤并不与”重型”矛盾,相反,它们为进一步扩展有效交互奠定了基础。

关于MiroThinker 1.7&H1的详细技术解读,可以看官方的技术报告,目前已登上了HuggingFace Daily Paper的第一名:

https://huggingface.co/papers/2603.15726

实际案例:预测能力的惊人展示

理论说得再多,不如看看实际效果。MiroMind 团队展示了三个令人印象深刻的预测案例,每一个都展示了系统在不同领域的能力。

第一个是金融预测案例。2026 年 2 月 10 日,系统被要求预测 2 月 25 日的黄金价格。MiroThinker 预测黄金价格将达到每盎司 5185 美元。实际结果是,Fortune 报价 5181 美元,150 Currency 报价 5185.89 美元,而 CME GCG26 期货结算价为 5206.40 美元。与 Fortune 的现货报价相比,误差仅为 4 美元,相对误差 0.08%。提前 15 天预测一个波动剧烈的金融市场,误差控制在 0.08% 以内,这个精度让我非常震惊。

第二个是体育预测案例。2026 年 1 月 6 日,系统被要求预测谁会赢得 2026 年超级碗。MiroThinker 识别出西雅图海鹰队最有可能成为超级碗 LX 冠军。实际结果是,2 月 8 日,西雅图海鹰队以 29-13 击败新英格兰爱国者队,赢得超级碗 LX。提前一个月准确预测冠军,这不是运气,而是系统通过分析大量数据、评估各种因素后得出的结论。

第三个是娱乐预测案例。2026 年 1 月 8 日,系统被要求预测哪位艺术家最有可能主导 2026 年格莱美奖。MiroThinker 识别出 Kendrick Lamar 最有可能主导 2026 年格莱美奖。实际结果是,在 2 月 1 日举行的第 68 届格莱美奖上,Kendrick Lamar 获得 5 个奖项,包括年度唱片奖《Luther》,成为当晚最大赢家。提前三周准确预测,再次验证了系统的分析能力。

这三个案例覆盖了完全不同的领域——金融、体育、娱乐,但都展示了相同的特点:系统不是在猜测,而是在通过严格的推理、证据收集和验证过程来得出结论。这正是 MiroMind 所追求的”可验证的准确性”,而不是”看起来合理的答案”。

从模型到产品:App让AI推理触手可及

了解了 MiroThinker 的强大能力后,我最关心的问题是:普通用户能不能用上这些能力?毕竟,再先进的技术如果只能停留在实验室里,对大多数人来说都是遥不可及的。好消息是,MiroMind 刚刚在 3 月 5 日宣布正式在 iOS、Android 和网页平台公开发布他们的 AI 推理平台,这标志着他们在产品化道路上的重要里程碑。

我特别关注他们的移动应用,因为这代表着真正的普及化。MiroMind 的 App 现在已经可以在 App Store 和 Google Play 下载,让全球用户都能体验到这种通用 AI 推理能力。更重要的是,MiroThinker-1.7 的最新能力即将在 App 上线,这意味着用户很快就能在手机上使用这些先进的推理和预测功能。

从产品设计来看,MiroMind 的定位很清晰:它不是又一个聊天机器人,而是一个为解决重要问题而设计的推理平台。App 提供了几个核心功能,每一个都体现了他们”验证为中心”的设计理念。

深度研究模式是我最感兴趣的功能之一。在这个模式下,系统会自主搜索、浏览和综合来自数百个来源的信息,提供全面的、有证据支持的报告。它不只是做表面的总结,而是深入挖掘复杂主题背后的真相。这对研究人员、分析师或任何需要深入了解某个话题的人来说都非常有价值。

高级推理功能专门用于处理数学、编程、逻辑和结构化分析中的复杂问题。系统采用迭代的、多步骤的验证来确保推理链每个阶段的准确性。每个中间结论都会在系统继续之前被检查,消除了困扰传统 AI 输出的复合错误。这种严格的验证过程正是 MiroThinker 与其他 AI 系统的根本区别。

预测智能功能则是针对前瞻性分析优化的。通过评估数据模式并应用时间推理,平台支持从金融预测、情景建模到竞争格局分析的各种应用。它为用户提供的是 AI 驱动的远见,而不是回顾性总结。前面提到的那些惊人预测案例,都可以通过这个功能实现。

实时网络智能是另一个关键特性。系统不仅仅依赖训练数据,而是集成实时网络搜索,将每个回答都建立在当前的、可验证的信息基础上。它不会猜测,而是主动根据最新的可用来源验证声明,提供用户可以信任的答案。

我对未来的期待

虽然 MiroMind 已经展示了令人印象深刻的能力,但我认为这只是开始。真正让我兴奋的是这种验证为中心的方法论可能带来的长远影响。

想象一下,如果每个企业决策都能有一个 AI 系统帮助分析、推理和验证,会是什么样子?如果科研人员能够让 AI 帮助他们探索假设、设计实验、分析数据,同时确保每一步都经过严格验证,科学发现的速度会加快多少?如果医生在诊断疾病时能够借助 AI 系统全面分析患者数据、文献证据和治疗方案,同时系统能够解释和验证每个推理步骤,医疗质量会提升到什么程度?

当然,这些应用场景的实现还需要时间。AI 系统再强大,也需要与人类专家的经验和判断相结合。但 MiroMind 提供的方向是正确的:不是用 AI 替代人类,而是让 AI 成为人类解决复杂问题的可靠伙伴。

从产品化的角度,我期待看到 MiroThinker-1.7 在移动应用上的表现。把如此强大的推理能力放到每个人的手机上,这本身就是一个壮举。如果他们能够在保持准确性的同时优化用户体验,让普通用户也能轻松使用这些高级功能,那将真正实现技术的民主化。

API Console 的推出也值得期待。一旦开发者能够方便地调用这些推理能力,我们可能会看到大量创新应用的涌现。从智能投资顾问到科研助手,从法律分析工具到医疗决策支持系统,各种垂直领域的应用都可能因为接入这种验证式推理能力而获得质的提升。

最后,我想说的是,MiroMind 代表的不只是一个公司或一个产品,而是一种对 AI 未来的愿景。这个愿景是:AI 不应该只是一个会说话的工具,而应该是一个能够真正思考、能够验证自己思考过程、能够解决人类尚未解决问题的智能系统。这种愿景能否实现,还需要时间来验证。但至少,MiroMind 已经迈出了重要的第一步。

如果你也对这种新一代 AI 推理系统感兴趣,我建议你去下载他们的 App 亲自体验一下。当 MiroThinker-1.7 上线后,你可以直接在手机上感受这种”验证为中心”的推理能力。或者,如果你是开发者,可以关注他们的 GitHub 和即将推出的 API,探索如何将这种能力集成到自己的项目中。

下一代智能不只是关于对话,而是关于审慎的、长链的、具有 99% 累积准确率的推理。这个未来,正在到来。

官网:https://www.miromind.ai/

GitHub:https://github.com/MiroMindAI

Hugging Face:https://huggingface.co/MiroMind-ai

招聘联系:talent@miromind.ai

App Store:https://apps.apple.com/app/id6759390724

Google Play:https://play.google.com/store/apps/details?id=ai.miromind.app

本文由人人都是产品经理作者【深思圈】,微信公众号:【深思圈】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。

题图来自Unsplash,基于 CC0 协议。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!