我用了一个外卖公司做的 AI，然后它悄悄变成了我的日常工具

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

我用了一个外卖公司做的 AI，然后它悄悄变成了我的日常工具

超仔AI

2026-05-06

0 评论 1205 浏览 0 收藏

15 分钟

当美团推出AI大模型LongCat-2601时，多数人的第一反应是质疑——一个外卖公司能做AI？然而，这款在工具调用能力和响应速度上表现突出的开源模型，正在颠覆行业对AI产品出身的刻板认知。本文从真实使用场景出发，深入解析LongCat如何用'战场式训练'打造出独特的工具调用能力，同时坦诚面对它的现存短板，为AI从业者提供一份务实的选型指南。

我第一次看到 LongCat-2601 这个名字，是在一个 AI 群里。

那天群里炸了，有人发了一条消息：”美团出大模型了，工具调用能力直接干翻闭源标杆。”我当时扫了一眼，心里冒出来的第一个念头不是”哇好厉害”，而是——送外卖的公司，做 AI？

然后我划走了。

这个反应现在想起来挺有意思的。我当时刚入行没多久，正处于那种”什么都想学、什么都看不懂、但又觉得自己大概摸到了一点门道”的阶段。我知道 DeepSeek，知道千问，知道 GPT，这几个名字在我脑子里已经形成了一个固定的”AI 选手名单”，名单之外的，我下意识地会打一个问号。

美团，在我的认知里，是外卖、是团购、是骑手、是那个每次点餐都要等半小时的 App。它跟”顶尖 AI 模型”这几个字，怎么都拼不到一起。

所以我划走了，理所当然地划走了。

一周之后，一个同事在工作群里发了一条消息，说她最近在用 LongCat 做一些信息查询，响应速度很快，让我也试试。我当时手头正好有一个任务卡住了，就抱着”反正试试又不亏”的心态打开了。

然后它给我回了一个答案。

我当时愣了一下，不是因为答案有多惊艳，而是因为它回得太快了。那种快，不是我之前用某些模型时那种”嗖一下就出来了但感觉像在糊弄我”的快，而是一种很扎实的快——它好像真的在认真处理我的问题，然后迅速给出了一个有结构、有逻辑的回答。

就这样，它留在了我的工具栏里。

我是一个刚进入 AI 行业不久的内容从业者，没有技术背景，不会看代码，也看不懂那些密密麻麻的技术报告。我能告诉你的，是一个普通使用者在真实场景里的真实感受——不是评测，不是跑分，就是每天开着它干活的那种体感。

01 入行新人的认知误区

在聊我的使用感受之前，我想先说一件事，就是我们这些 AI 新人，包括我自己，在刚入行的时候，有一个非常普遍的认知误区，那就是用”谁出的”来判断”值不值得用”。

这个逻辑听起来很合理，甚至有点理所当然。OpenAI 做的，肯定牛；DeepSeek 做的，在国内牛；美团做的……等等，美团是做什么的来着？

我们习惯性地把公司的主业当成它能力的天花板。一个做搜索的公司，AI 应该擅长搜索；一个做社交的公司，AI 应该擅长聊天；一个做外卖的公司，AI 应该……擅长推荐餐厅？

这个逻辑的问题在于，它完全忽略了一件事：一家公司在主业上积累的真实业务场景，可能恰恰是训练出某种特定能力的最好土壤。

我后来去认真看了一些关于 LongCat-2601 的技术解读，才慢慢理解了这一点。但在那之前，我先被它的实际表现说服了。

02 核心优势：快且稳的工具调用能力

那么它到底强在哪？

响应速度和稳定性

我先说我自己感受最深的一点：响应速度，以及在这个速度背后的那种”稳”。

我用它做日常查询已经有一段时间了。它给我最直观的感受，就是快，而且是那种不慌不忙的快。它不会在你问完问题之后，先沉默三秒，再开始一个字一个字地往外蹦；它也不会给你一种”它在努力思考”的感觉，而是很干脆地就把答案摆在你面前。

这种体验，对于一个每天需要用 AI 处理大量信息查询的人来说，差别是很明显的。时间久了，你会发现，工具的响应速度会直接影响你的工作节奏——一个反应迟钝的工具，会让你不自觉地放慢思考的节奏，甚至打断你的思路。

但我说的”稳”，不只是速度上的稳，更是任务执行上的稳。

这就要说到它在技术层面真正的核心优势了——工具调用能力。

工具调用这个词，听起来很技术，但说白了就是：AI 能不能像人一样，熟练地使用各种外部工具去解决问题。比如调用计算器、调用搜索引擎、调用各种 API 接口，然后把这些工具的结果整合起来，给你一个完整的答案。

这是 AI 从”聊天玩具”进化成”干活帮手”的关键一步。

在衡量这个能力的 τ²-Bench 评测里，LongCat-2601 拿到了 88.2 分，是目前开源模型里的最高分。在更贴近真实生活场景的智能体评测 VitaBench 里，它拿到了 29.3 分，同样是开源顶尖水平。在模拟人类用浏览器查找信息的 BrowseComp 评测里，它拿到了 73.1 分，是所有参与评测模型里的最高分。还有一个让我印象特别深的数据：在开启”重思考模式”之后，它在 AIME-25 这个数学竞赛题评测里，拿到了满分。

这些数字，对我这个不懂技术的人来说，一开始是没什么感觉的。但当我把它们翻译成一句话，我就理解了：它在”让 AI 真正干活”这件事上，目前是开源模型里做得最好的那个。

那么，为什么偏偏是它？

这个问题，我觉得答案藏在它背后的那个”炼丹炉”里。

你想想，一个覆盖几百个城市、连接几百万商家和几亿用户的本地生活平台，它每天在处理什么？订单、调度、路径规划、异常处理、实时响应……据说它的调度系统，高峰期每小时需要进行高达 29 亿次的路径计算。

每一个外卖订单，从用户下单、商家接单、骑手取餐、路线规划、应对突发状况到最终送达，本质上就是一个完整的、需要调用多种”工具”和”API”的智能体任务。而且这个任务不是在实验室里跑的，是在真实世界里、在各种噪声和意外情况下跑的。

这就是它的训练哲学和其他模型最不一样的地方。

很多大厂的模型，是在干净的靶场里训练出来的——数据整洁，环境可控，考试能拿高分。但 LongCat-2601 更像是在真实战场里摸爬滚打出来的。它的训练环境里，主动注入了各种噪声：API 调用失败、返回异常信息、数据不完整……这些在真实业务里每天都会发生的意外，都被系统性地塞进了它的训练过程里。

这就是为什么它在工具调用上的稳定性，会让人有一种”不慌”的感觉。它见过太多乱局了。

可体验的重思考模式

还有一点值得单独说，就是它的”重思考”模式。

这个功能的概念本身不新鲜，思维链、多路径推理，学术界早就在研究了。但 LongCat-2601 是第一个把这套机制完整开源出来，并且做成了可以让普通用户直接体验的产品化功能的模型。

说人话就是：它让 AI 在给你答案之前，先进行多轮独立思考，再对结果进行复核。这个过程是透明的，是可以被看见的，也是可以被其他开发者拿去用的。

这不只是一个技术功能，更是一种产品化的示范——它在告诉整个行业，复杂的推理过程可以这样被工程化、被产品化。

03 真实使用的不足

说了这么多优点，我得说说我踩过的坑了。

因为它真的有坑，而且不少。

我在日常使用里做过一些测试，结论是：抗注入没过，中英混排的格式处理有问题，边缘 case 的限制也没处理好。

先说抗注入。这个测试的意思是，当你在输入里藏了一些”指令性语言”，试图让模型偏离原本的任务轨道，看它能不能识别并抵抗这种干扰。LongCat-2601 在这一块的表现，我测试下来是不及格的。它会被带偏，而且有时候带偏得挺明显。

中英混排的格式问题，是我在实际使用里最频繁遇到的。当你的输入里同时包含中文和英文，或者你希望它输出一个中英混排的格式时，它的处理经常会出现错乱——该换行的地方没换，该对齐的地方没对齐，有时候甚至会把中英文的标点符号混用，读起来很别扭。

边缘限制的问题，说的是当你的问题处于它能力边界的模糊地带时，它的处理方式不够优雅。它有时候不会明确告诉你”这个我不确定”或者”这个超出了我的能力范围”，而是会给你一个看起来很完整、但实际上经不起推敲的答案。这对于一个需要依赖 AI 输出做判断的使用者来说，是一个不小的风险。

这些问题，我觉得都是真实存在的，不是吹毛求疵。它现在的状态，用一句话来形容，就是：干活快、干活稳，但还没到让你可以完全放心交出去的程度。

04 使用建议：值得用，但要用对场景

那么，对于同样是 AI 新人的你，我的判断是什么？

直接说：它值得用，但要用对场景。

如果你的需求是日常信息查询、快速获取某个领域的概览性答案、或者需要 AI 帮你做一些有明确步骤的任务拆解，它现在的状态完全够用，而且体验会比你预期的好。响应速度这件事，真的会影响你的工作节奏，这一点我用了一段时间之后感受越来越深。

但如果你需要它处理涉及安全边界的内容、需要严格的中英混排格式输出、或者你的任务对”边缘情况”的处理有很高要求，那现阶段还是要谨慎，最好做好人工复核的准备。

它现在更像一个干活很快、执行力很强，但偶尔会犯一些低级错误的实习生。你得知道什么任务可以直接交给它，什么任务交出去之前要多看一眼。

顺便提一句，我之前也用过 DeepSeek，两个模型各有侧重，适合不同的使用场景，可以根据自己的需求搭配着用。

05 结语

我现在每天打开电脑，工具栏里有它的位置。

这件事本身，对我来说就已经说明了一些问题。我不是一个容易被新东西说服的人，尤其是在 AI 工具这个领域，我见过太多”发布时轰轰烈烈、用起来一塌糊涂”的产品了。

但 LongCat-2601 留下来了，不是因为它完美，而是因为它在我最需要的那几个点上，给出了足够真实的答案。

它还有很多不足，它还需要继续升级，这是事实。但它已经让我重新想了一个问题：我们判断一个 AI 工具值不值得用的标准，到底应该是什么？是它背后的公司够不够”AI 范儿”，还是它在你真实的工作场景里，能不能帮你把事情做完？

一个外卖公司做出了让我改变使用习惯的 AI 工具。

现在LongCat-2.0-Preview 来了

这件事现在还没想清楚它意味着什么？

本文由 @超仔AI 原创发布于人人都是产品经理。未经作者许可，禁止转载

题图来自Unsplash，基于CC0协议

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

超仔AI

专注AI分享，AI产品经理

3篇作品 4964总阅读量

如何赢得消费者？从“用户+场景+价值”出发

08-238214 浏览

10-115685 浏览

11-152352 浏览

08-284843 浏览

03-213617 浏览

目前还没评论，等你发挥！

盘点“小作文”事件始末，懂危机公关的东方甄选为什么不灵了？

12-177181 浏览
71岁茅台的元宇宙大戏：评分1.7

01-114576 浏览
RBAC模型在体验设计中的应用

09-121749 浏览