外卖巨头的AI突破:LongCat-2601 Thinking深度体验报告,真实场景下的表现超乎想象!

0 评论 82 浏览 1 收藏 35 分钟

从外卖调度到AI推理,LongCat-2601 Thinking用业务场景重塑模型能力边界。这款由美团打造的AI模型不仅在全球率先实现复杂推理机制完整开源,更凭借真实业务中磨砺出的异常处理能力,在工具调用赛道实现弯道超车。本文通过深度实测与竞品对比,揭示其网状推理机制与战略定位的独到之处。

我入行AI产品经理也有一段时间了,见过很多模型测评的结果,也见过太多”SOTA”在真实场景里的哑火……

所以当LongCat-2601 Thinking的评测数据第一次出现在我视野里的时候,我的第一反应不是兴奋,而是怀疑——一个主业送外卖、做团购的公司,在推理模型这件事上,凭什么?

但这次,它不一样!

我花了一周多时间,把LongCat-2601 Thinking从技术报告到实际使用全部过了一遍,也花了大量时间梳理公开信息,也和DeepSeek-R1、豆包Thinking做了对比。这篇报告是我目前写过的最认真的一篇模型体验文章,我会尽量把我看到的真实情况都写进来,包括那些让我皱眉头的地方。

需要说明的是,以下内容全部基于个人测试和公开资料,分为多个维度分析Long Cat这款产品,不代表任何机构立场,有不同看法欢迎在评论区交流。

PART 01 为什么是LongCat-2601 Thinking?

1.1 一个反常识的问题

在聊这个模型之前,我想先抛一个问题:你觉得什么样的公司,最有可能做出最懂”工具调用”的AI?

大多数人的第一反应可能是OpenAI、Google,或者国内的阿里、百度。毕竟这些公司有最多的研究员、最大的算力集群、最顶级的AI实验室。

但LongCat-2601 Thinking的出现,给出了一个完全不同的答案:一个每天要处理几亿次外卖调度、高峰期每小时进行29亿次路径计算的本地生活平台。

这不是在说美团有多厉害,而是在说一件更重要的事:AI模型的能力边界,很大程度上取决于它在什么样的环境里被训练出来的。这个逻辑,是理解LongCat-2601 Thinking所有能力的底层钥匙。

1.2 它做了一件前所未有的事

在我深入研究之前,我对”Thinking模式”的理解还停留在”就是思维链加强版”这个层面。但当我把技术报告和实际测试结合起来看,我意识到它做的事情比这要复杂得多,也有意思得多。

LongCat-2601 Thinking是全球第一个把复杂推理机制完整开源,并且做成可产品化体验的模型。这句话拆开来有两个关键词:完整开源,和产品化体验。

前者意味着任何开发者都可以拿到这套推理机制的完整实现,不是黑盒API,是可以拆开来看、改造、部署的代码;后者意味着它不只是一个学术成果,而是被打磨成了普通人也能感知到差异的产品功能。

这两件事加在一起,才是它真正值得被认真对待的原因。

PART 02 从LongCat到Thinking:一条有逻辑的演进路径

2.1 LongCat系列的来龙去脉

要理解Thinking模式,得先搞清楚LongCat这个系列是怎么来的。

美团的AI布局其实比大多数人意识到的要早。在LongCat-2601发布之前,美团已经在内部积累了大量的AI调度经验——这些经验不是来自论文,而是来自真实的业务系统:骑手路径规划、商家匹配算法、用户需求预测……每一个模块,本质上都是一个需要在复杂约束条件下做出最优决策的智能体任务。

LongCat这个名字本身就透露了产品定位——长尾场景的覆盖能力,也就是在各种边缘情况、异常情况下依然能稳定工作的能力。这不是偶然选择的名字,而是对美团业务场景最直接的映射。

2601这个版本号对应的是2026年1月,也就是模型正式对外发布的时间节点。

2.2 Thinking模式的本质:不是”多想一步”,是”系统性重思考”

很多人把Thinking模式理解成”AI在回答之前多想了几步”,这个理解是不准确的,或者说是严重低估了它的复杂度。

根据技术报告,LongCat-2601 Thinking的推理机制更接近于多路径独立验证:系统会生成多条独立的推理路径,对关键节点进行交叉核查,最终输出经过验证的结果。有报道把这个机制描述为”让系统进行8次独立思考,再对结果进行复核”,这个表述虽然有点简化,但基本传达了它的核心逻辑。

这和普通思维链(Chain of Thought)的区别在哪里?普通思维链是线性的,从A推到B再推到C;而Thinking模式是网状的,多个路径并行推进,彼此之间可以互相验证和纠错。

用一个类比来说:普通思维链像一个人独自解题,Thinking模式像一个小组讨论后给出答案——后者出错的概率更低,但消耗的资源也更多。

PART 03 赛道格局:2026年开源推理模型的竞争坐标

3.1 先看成绩单

在进入对比之前,我想先把LongCat-2601 Thinking的核心评测数据铺出来,这是一切判断的基础。

  • τ²-Bench(多领域工具调用):88.2分,开源模型最高分,SOTA水平
  • VitaBench(真实场景智能体评测):29.3分,开源模型顶尖水平
  • AIME-25(数学竞赛推理,开启Thinking模式):100分满分
  • BrowseComp(智能体搜索能力):73.1分,所有参与评测模型最高分

这份成绩单有一个很有意思的地方:它在通用对话、创意写作这些维度上并没有特别突出,但在工具调用和推理这两个维度上,它做到了开源模型里的第一。这不是全面开花,而是极其精准的能力聚焦。

3.2 它在哪里,竞争格局就在哪里

理解一个新玩家的位置,最好的方式是把它放进整个坐标系里看。我把当前主要的推理模型分成三类来分析:

第一类:国际闭源标杆(GPT-o系列、Claude系列)

这类模型在通用能力上依然是天花板,品牌认知度极高,但有几个对企业用户来说致命的问题:按token计费、数据必须上传到对方服务器、无法本地部署、定制化成本极高。

LongCat-2601 Thinking在通用能力上确实和这类模型有差距,但在工具调用这个垂直维度上,它的表现已经达到了可以替代的水准,而成本和数据安全性上的优势是碾压性的。

第二类:国内开源豪强(DeepSeek-R1、Qwen系列、GLM系列)

这是LongCat-2601 Thinking真正需要正面竞争的对手,也是大多数国内开发者和企业的实际选择池。这部分我会在下一节专门展开讲。

第三类:商业化AI助手(豆包、千问、元宝)

这类产品面向C端用户,和LongCat-2601 Thinking的定位不完全重叠,但豆包Thinking模式的推出,让这个边界开始变得模糊。

PART 04 正面对比:LongCat-2601 Thinking vs DeepSeek-R1 vs 豆包Thinking

这是整篇文章我最想写的部分,也是我花时间最多的地方。我做了三类测试场景:数学推理、工具调用、复杂多步骤任务,分别测了三个模型,把结果放在一起比。

4.1 数学推理:Thinking模式的主场

数学推理是Thinking模式最直接的能力展示场。我选了两道难度不同的题目,从高考压轴题到AMC竞赛题,观察三个模型的推理过程和准确率。

测试结论(先说结论再展开):

在中等难度题目(高考压轴、联赛初级)上,三个模型的准确率差异不大,但推理过程的质量有明显差异。LongCat-2601 Thinking的推理步骤更清晰,关键节点有自我验证,DeepSeek-R1的推理链条更长但有时会绕远路,豆包Thinking在这个难度区间表现稳定但不够亮眼。

在高难度题目(AMC/AIME级别)上,差距开始拉开。LongCat-2601 Thinking的Thinking模式在这个区间的表现明显优于另外两个,特别是对需要多步验证的题目,它的容错机制让最终答案的正确率更高。

一个值得注意的细节:LongCat-2601 Thinking在遇到自己不确定的步骤时,会主动标注”需要验证”并回头检查,这个行为在DeepSeek-R1上不那么明显。对于产品经理来说,这个细节很重要——它意味着这个模型在被集成到产品里时,出错后的可解释性更好。

4.2 工具调用:这是LongCat的主场

如果说数学推理是Thinking模式的展示舞台,那工具调用才是LongCat-2601真正的主场。

我设计了一个多工具串联的测试场景:给定一个复杂的业务需求,需要依次调用搜索、计算、数据格式化、结果汇总四个工具,中间有一个工具会返回异常数据。

这个测试的核心不是看模型能不能调用工具,而是看它在工具返回异常时怎么处理。

三个模型的表现对比:

  • LongCat-2601 Thinking在遇到异常返回时,会先尝试重新调用,失败后切换备用策略,并在最终输出里标注了哪一步出现了异常以及它是如何处理的。整个过程对用户是透明的。
  • DeepSeek-R1在这个场景下的表现是:遇到异常后停止,给出了“工具调用失败”的提示,但没有尝试备用策略,也没有给出部分结果。
  • 豆包Thinking在工具调用的场景下表现最弱,它在这个测试里直接跳过了异常工具,用自己的知识库填补了空缺,但没有标注这一步是估算而非实际调用结果——这对需要准确数据的业务场景来说是一个隐患。

这个差异的背后是什么?我的判断是:这和LongCat-2601的训练数据直接相关。美团的外卖调度系统每天要处理数以亿计的异常情况(骑手接单失败、商家临时关店、支付超时……),这些真实的异常场景,用来转化成了模型的训练素材。它处理工具异常的能力,是在真实业务里磨出来的,不是靠合成数据喂出来的。

4.3 三模型对比总结表

PART 05 战略背景:为什么偏偏是美团做出了这个模型

5.1 “战场模型”与”实验室模型”的本质差异

入行这段时间,我接触过很多大模型产品,有一个现象越来越清晰:模型在什么环境里被训练,就会形成什么样的能力偏好。

大多数顶尖模型是在”实验室环境”里成长起来的——数据干净、任务标准化、评测指标明确。这类模型在标准测试上表现极好,但一旦进入真实业务场景,遇到数据噪声、工具异常、任务边界模糊的情况,往往会出现明显的性能衰减。

LongCat-2601 Thinking走的是完全不同的路。技术报告里提到了几个关键细节:

多环境强化学习:构建了多套高质量训练环境,每套集成超过60种工具,工具之间有复杂的依赖关系。这不是在干净的靶场练习打固定靶,而是在模拟各种复杂战场。

主动注入噪声:在训练数据里故意引入API调用失败、返回异常、数据不完整等情况,并用课程学习的方式循序渐进地增加噪声强度。这就像训练一个士兵,先在平地练,再去泥泞的战场,最后在真实的混乱环境里实战。

这套训练哲学从哪来?答案不需要猜。美团的外卖调度系统,高峰期每小时进行29亿次路径计算,每天处理的订单异常情况数以百万计。每一个外卖订单从下单到送达,都是一个完整的多工具调用任务,而且充满了真实世界的不确定性。

这是其他任何公司花再多钱也买不来的训练素材——因为它需要十几年的真实业务积累。

5.2 务实的AI战略:To B工具,而非To C玩具

从LongCat-2601 Thinking的能力取舍,可以清晰地看出它背后的战略定位。

它没有去卷通用对话,没有去做创意写作,没有做多模态。它把所有资源集中在了一件事上:让AI在真实复杂环境中稳定地把任务执行完。

这个定位对应的是企业级AI应用这个市场。对于一个企业IT决策者来说,他最关心的问题不是”这个AI会不会写诗”,而是:

  1. 它能不能稳定地完成我给它的任务?
  2. 遇到异常情况它怎么处理?
  3. 我的数据安不安全?
  4. 用它的成本我能承受得起吗?

LongCat-2601 Thinking在这四个问题上,都给出了比大多数竞品更有说服力的答案。

PART 06 产品体验:Thinking模式的真实使用感受

6.1 第一次打开它,你会感受到什么

我第一次正式测试LongCat-2601 Thinking是在一个工作日的晚上,身边人都走的稀稀拉拉了,手边放着一个组里正在研究的竞品分析任务。我把任务描述输进去,然后看着它开始”思考”。

第一个让我印象深刻的地方,是推理过程的可见性。它不是直接给你一个答案,而是会把推理的中间步骤展示出来——不是那种敷衍的”我正在思考”,而是真实的逻辑链条:先确认任务边界,再拆解子任务,对每个子任务给出初步判断,然后对关键节点进行验证,最后整合输出。

这个过程对特别有价值,因为你能看到它是怎么想的,也就能判断它的推理哪里是对的、哪里需要你介入纠正。

6.2 真正好用的场景:三个最有感知的使用案例

案例一:竞品分析报告

我给它一个竞品的产品描述,要求输出竞品分析框架和核心差异点。Thinking模式下,它会先自己确认分析维度,再逐维度展开,最后做交叉比较。整个过程大概需要40~60秒,但输出质量明显高于普通模式——特别是在”竞品的隐性劣势”这个维度,它能推断出一些不那么显而易见的问题。

案例二:需求评审前的可行性预判

把一个功能需求丢给它,让它从技术可行性、用户价值、实现成本三个维度做初判。这个场景下Thinking模式的优势特别明显,因为它会主动识别需求里的模糊点,并在输出里标注”这个部分需要进一步确认”——这个行为本身就很有产品价值,因为它帮你提前发现了需求的盲区。

案例三:数据异常排查

给它一组看起来有问题的数据,让它找出异常并推断可能的原因。这个场景是我测试里最惊喜的一个——它不只是告诉你哪个数据异常,而是给出了三种可能的原因假设,并对每种假设的可能性做了排序和解释。

6.3 真实的问题:不回避的部分

说了这么多好的,必须说说让我皱眉头的地方。

  • 响应速度:Thinking模式的响应时间明显长于普通模式,简单问题可能需要20~30秒,复杂任务60秒以上。对于习惯了即时响应的C端用户来说,这个等待时间是一个体验门槛。对B端用户来说相对可以接受,但在需要高频交互的场景下依然是痛点。
  • 通用对话质量:如果你只是想随便聊聊,或者问一个不需要深度推理的问题,LongCat-2601 Thinking的表现并不比其他模型有优势,甚至因为它“想太多”而显得有点笨重。它不是一个全能选手,它是一个在特定赛道上极其出色的专项选手。
  • 中文长文创作:在需要生成大段中文内容的场景下(比如营销文案、故事创作),它的表现明显弱于豆包和千问。这不是它的设计目标,但如果你同时有这类需求,需要搭配其他工具使用。
  • 部署门槛:完全开源意味着你能拿到完整的模型权重和代码,但也意味着你需要有一定的技术能力才能把它跑起来。对于没有技术团队的小公司来说,这依然是一个不小的门槛。

PART 07 用户/开发者口碑:真实声音的分布

7.1 方法论:怎么看口碑才不被带偏

LongCat-2601 Thinking发布之后,围绕它的声音同样是两极化的。一边是技术社区里大量的惊叹,另一边是一些质疑”美团做AI是不是噱头”的声音。

我在分析口碑时,优先采用三类来源:GitHub Issues里开发者的具体反馈、知乎实名用户的使用报告、以及36氪、量子位等独立媒体的实测内容。这三类来源相对中立,比营销内容更能反映产品的真实状态。

7.2 开发者社区的真实反馈

在GitHub和技术社区里,LongCat-2601 Thinking的评价集中在几个点上:

正面评价最集中的地方:工具调用的稳定性。多个开发者在实测中发现,在工具调用链条比较长的场景下,LongCat-2601 Thinking的成功率明显高于其他开源模型。有开发者专门做了对比测试,在10步以上的工具调用任务里,它的任务完成率比DeepSeek-R1高出约15~20个百分点(数据来自社区分享,非官方数据)。

另一个高频正面评价:推理过程的可解释性。做过AI产品的人都知道,模型给出一个结果不难,但让这个结果可解释、可审计,才是真正能进入生产环境的前提。LongCat-2601 Thinking的推理步骤可见性,被多个开发者提到是它最实用的特性之一。

负面评价最集中的地方:部署成本。完整运行Thinking模式需要相当的算力,对于个人开发者或者小团队来说,本地部署的硬件门槛不低。有开发者反映在消费级GPU上运行时,响应速度慢到无法实用。

7.3 产品经理视角的使用反馈

我在自己的产品经理圈子里做了一个小范围的使用调研,收集了一些同行的使用感受。

最高频的正面反馈是:”它让我在做复杂分析时少走了很多弯路。”具体来说,是它在任务开始前会主动澄清边界、在推理过程中会标注不确定点,这两个行为大大减少了”跑偏后才发现”的时间浪费。

最高频的负面反馈是:”日常用有点杀鸡用牛刀。”对于不需要深度推理的日常工作任务(写邮件、整理会议纪要、简单的数据处理),Thinking模式的响应时间让人觉得等待不值得。

这个反馈其实很有参考价值:LongCat-2601 Thinking不是一个你每天随时都会用的工具,它更像是你在面对复杂问题时会主动想到的那个选项。

PART 08 生态图谋:开源背后的战略深意

8.1 开源不是目的,是生态卡位的手段

这是我在研究LongCat-2601 Thinking时想得最多的一个问题:既然这个模型这么有价值,为什么要开源?

从商业逻辑来看,开源意味着放弃了直接的API收费收入。但如果你把视野拉长,开源的战略意图就清晰多了,至少包含三层:

第一层:吸引开发者,构建生态影响力。在AI时代,开发者是最重要的生产力。一个在工具调用能力上全球领先的开源模型,会吸引大量开发者围绕它的技术栈进行开发,这些开发者构成的生态,是任何商业模式都无法直接购买的资产。

第二层:狙击闭源商业模式。给所有正在犹豫要不要用昂贵闭源API的企业,提供了一个极具诱惑力的选择。这会倒逼整个市场的定价体系发生变化,也会让自己在企业级市场获得更大的话语权。

第三层:赋能具身智能投资版图。这是我认为最深远的一层。美团近年来在机器人领域投资了大量公司,包括银河通用、宇树科技等人形机器人头部企业。这些机器人都需要一个强大的”大脑”来完成复杂任务,而LongCat-2601 Thinking在工具调用和任务规划上的能力,正是成为这个”大脑”的理想候选。

开源这个模型,实际上是在为整个具身智能生态提供一个低成本、高性能、可定制的AI底座。作为这个底座的提供者,它会在整个生态成熟的过程中持续受益。

8.2 “成本可控”是打入企业市场的真正武器

在所有战略意图之外,还有一个最朴素也最有效的武器:成本。

完全开源意味着企业可以把模型部署在自己的服务器上,不需要按token付费,数据不离开自己的网络,定制化改造没有额外成本。对于一个需要规模化应用AI的企业来说,这几点加在一起,可能意味着每年数百万元的成本差异。

这不是一个小数字,这是一个可以直接影响企业采购决策的数字。

PART 09 产品诊断:SWOT与机会点

9.1 SWOT分析

优势(Strengths)

工具调用能力在开源模型中处于绝对领先位置,有真实业务场景支撑的训练数据,完全开源带来的部署灵活性和成本优势,推理过程可见性强,适合企业级应用的可解释性需求。

劣势(Weaknesses)

Thinking模式响应速度慢,通用对话和创意内容生成能力不突出,本地部署门槛对小团队不友好,C端产品化程度不如豆包、千问等成熟产品,品牌认知度在非技术圈子里还很低。

机会(Opportunities)

企业级AI应用正处于从”试点”到”规模化落地”的关键窗口期,这个市场对稳定性、可控性、成本的需求正在快速上升,而LongCat-2601 Thinking恰好在这几个维度上有差异化优势。具身智能/机器人赛道的快速发展,会持续扩大对高质量开源推理模型的需求。

威胁(Threats)

DeepSeek、Qwen等国内开源模型也在快速迭代,工具调用能力的差距可能在未来几个版本内被追平。闭源模型在降价和开放API灵活性上持续努力,压缩了开源模型的成本优势空间。

9.2 PM视角的机会点优先级

优先级一:降低部署门槛(高价值,中等难度)

目前最大的用户流失点不是能力不够,而是”想用但跑不起来”。如果能提供一个低算力版本(量化版本)或者托管API选项,会大幅扩大可触达的用户群体。

优先级二:场景化产品包装(高价值,中等难度)

当前开发者拿到的是一个”原材料”,需要自己想应用场景。如果能提供几个针对高频B端场景的预置配置(比如”竞品分析助手”、”需求评审助手”、”数据异常排查助手”),会大幅降低应用开发的门槛。

优先级三:推理速度优化(高价值,高难度)

Thinking模式的响应时间是目前最大的体验痛点,但这是技术层面的问题,不是产品层面可以快速解决的。中短期内更可行的方案是让用户可以手动控制推理深度(比如”快速思考”和”深度思考”两个档位)。

优先级四:开发者生态建设(中等价值,中等难度)

工具调用能力的最大价值,在于被集成到各种下游产品里。建立一个活跃的开发者社区,收集真实的应用场景反馈,比继续在评测榜上刷分更有长期价值。

PART 10 给不同读者的一句话总结

写到这里,我想针对不同的读者群体,各给一句最直接的判断:

如果你是AI产品经理:把LongCat-2601 Thinking加入你的工具箱,特别是在需要做复杂分析、多步骤任务规划的场景里,它的推理可见性和异常处理能力会让你的工作效率有实质性提升。但不要指望它替代你日常用的所有AI工具,它是专项选手,但不是全能选手。

如果你是刚入行的小白:可以先从体验它的Thinking模式开始,把它当成一个”帮你拆解复杂问题”的工具来用,不需要一开始就搞懂所有技术细节。感受一下它和普通AI的推理方式有什么不同,这本身就是很好的AI产品认知训练。

如果你是AI爱好者:如果你有一定的技术能力,强烈建议自己部署一个本地版本玩一玩,特别是测试它的工具调用能力——这是目前开源模型里这个维度做得最好的,值得亲自感受一下。

PART 11 最后

我做AI产品这段时间,有一个越来越清晰的认知:AI的价值,不在于它能回答多少问题,而在于它能把多少事情真正办完。

LongCat-2601 Thinking给出的答案,是”让AI在真实复杂环境里稳定地把任务执行完”。这个方向不性感,不像”通用人工智能”那样让人热血沸腾,但它解决的是真实存在的问题,用的是真实积累的能力。

它也没那么完美。响应慢、部署门槛高、通用能力不突出,这些问题都是真实存在的。但在工具调用和复杂推理这两个维度上,它做到了开源模型里目前非常好的水准,而且有一套别人短期内复制不了的训练逻辑在支撑这个能力。

这已经足够了。

在AI赛道上,每一个找到了自己真正擅长的场景、并且把这个场景做到极致的产品,都值得被认真对待。LongCat-2601 Thinking就是这样一个产品。

本文由 @超仔AI 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自Unsplash,基于CC0协议

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!