我用了一个外卖公司做的 AI,然后它悄悄变成了我的日常工具

0 评论 92 浏览 0 收藏 15 分钟

当美团推出AI大模型LongCat-2601时,多数人的第一反应是质疑——一个外卖公司能做AI?然而,这款在工具调用能力和响应速度上表现突出的开源模型,正在颠覆行业对AI产品出身的刻板认知。本文从真实使用场景出发,深入解析LongCat如何用'战场式训练'打造出独特的工具调用能力,同时坦诚面对它的现存短板,为AI从业者提供一份务实的选型指南。

我第一次看到 LongCat-2601 这个名字,是在一个 AI 群里。

那天群里炸了,有人发了一条消息:”美团出大模型了,工具调用能力直接干翻闭源标杆。”我当时扫了一眼,心里冒出来的第一个念头不是”哇好厉害”,而是——送外卖的公司,做 AI?

然后我划走了。

这个反应现在想起来挺有意思的。我当时刚入行没多久,正处于那种”什么都想学、什么都看不懂、但又觉得自己大概摸到了一点门道”的阶段。我知道 DeepSeek,知道千问,知道 GPT,这几个名字在我脑子里已经形成了一个固定的”AI 选手名单”,名单之外的,我下意识地会打一个问号。

美团,在我的认知里,是外卖、是团购、是骑手、是那个每次点餐都要等半小时的 App。它跟”顶尖 AI 模型”这几个字,怎么都拼不到一起。

所以我划走了,理所当然地划走了。

一周之后,一个同事在工作群里发了一条消息,说她最近在用 LongCat 做一些信息查询,响应速度很快,让我也试试。我当时手头正好有一个任务卡住了,就抱着”反正试试又不亏”的心态打开了。

然后它给我回了一个答案。

我当时愣了一下,不是因为答案有多惊艳,而是因为它回得太快了。那种快,不是我之前用某些模型时那种”嗖一下就出来了但感觉像在糊弄我”的快,而是一种很扎实的快——它好像真的在认真处理我的问题,然后迅速给出了一个有结构、有逻辑的回答。

就这样,它留在了我的工具栏里。

我是一个刚进入 AI 行业不久的内容从业者,没有技术背景,不会看代码,也看不懂那些密密麻麻的技术报告。我能告诉你的,是一个普通使用者在真实场景里的真实感受——不是评测,不是跑分,就是每天开着它干活的那种体感。

01 入行新人的认知误区

在聊我的使用感受之前,我想先说一件事,就是我们这些 AI 新人,包括我自己,在刚入行的时候,有一个非常普遍的认知误区,那就是用”谁出的”来判断”值不值得用”。

这个逻辑听起来很合理,甚至有点理所当然。OpenAI 做的,肯定牛;DeepSeek 做的,在国内牛;美团做的……等等,美团是做什么的来着?

我们习惯性地把公司的主业当成它能力的天花板。一个做搜索的公司,AI 应该擅长搜索;一个做社交的公司,AI 应该擅长聊天;一个做外卖的公司,AI 应该……擅长推荐餐厅?

这个逻辑的问题在于,它完全忽略了一件事:一家公司在主业上积累的真实业务场景,可能恰恰是训练出某种特定能力的最好土壤。

我后来去认真看了一些关于 LongCat-2601 的技术解读,才慢慢理解了这一点。但在那之前,我先被它的实际表现说服了。

02 核心优势:快且稳的工具调用能力

那么它到底强在哪?

响应速度和稳定性

我先说我自己感受最深的一点:响应速度,以及在这个速度背后的那种”稳”。

我用它做日常查询已经有一段时间了。它给我最直观的感受,就是快,而且是那种不慌不忙的快。它不会在你问完问题之后,先沉默三秒,再开始一个字一个字地往外蹦;它也不会给你一种”它在努力思考”的感觉,而是很干脆地就把答案摆在你面前。

这种体验,对于一个每天需要用 AI 处理大量信息查询的人来说,差别是很明显的。时间久了,你会发现,工具的响应速度会直接影响你的工作节奏——一个反应迟钝的工具,会让你不自觉地放慢思考的节奏,甚至打断你的思路。

但我说的”稳”,不只是速度上的稳,更是任务执行上的稳。

这就要说到它在技术层面真正的核心优势了——工具调用能力。

工具调用这个词,听起来很技术,但说白了就是:AI 能不能像人一样,熟练地使用各种外部工具去解决问题。比如调用计算器、调用搜索引擎、调用各种 API 接口,然后把这些工具的结果整合起来,给你一个完整的答案。

这是 AI 从”聊天玩具”进化成”干活帮手”的关键一步。

在衡量这个能力的 τ²-Bench 评测里,LongCat-2601 拿到了 88.2 分,是目前开源模型里的最高分。在更贴近真实生活场景的智能体评测 VitaBench 里,它拿到了 29.3 分,同样是开源顶尖水平。在模拟人类用浏览器查找信息的 BrowseComp 评测里,它拿到了 73.1 分,是所有参与评测模型里的最高分。还有一个让我印象特别深的数据:在开启”重思考模式”之后,它在 AIME-25 这个数学竞赛题评测里,拿到了满分。

这些数字,对我这个不懂技术的人来说,一开始是没什么感觉的。但当我把它们翻译成一句话,我就理解了:它在”让 AI 真正干活”这件事上,目前是开源模型里做得最好的那个。

那么,为什么偏偏是它?

这个问题,我觉得答案藏在它背后的那个”炼丹炉”里。

你想想,一个覆盖几百个城市、连接几百万商家和几亿用户的本地生活平台,它每天在处理什么?订单、调度、路径规划、异常处理、实时响应……据说它的调度系统,高峰期每小时需要进行高达 29 亿次的路径计算。

每一个外卖订单,从用户下单、商家接单、骑手取餐、路线规划、应对突发状况到最终送达,本质上就是一个完整的、需要调用多种”工具”和”API”的智能体任务。而且这个任务不是在实验室里跑的,是在真实世界里、在各种噪声和意外情况下跑的。

这就是它的训练哲学和其他模型最不一样的地方。

很多大厂的模型,是在干净的靶场里训练出来的——数据整洁,环境可控,考试能拿高分。但 LongCat-2601 更像是在真实战场里摸爬滚打出来的。它的训练环境里,主动注入了各种噪声:API 调用失败、返回异常信息、数据不完整……这些在真实业务里每天都会发生的意外,都被系统性地塞进了它的训练过程里。

这就是为什么它在工具调用上的稳定性,会让人有一种”不慌”的感觉。它见过太多乱局了。

可体验的重思考模式

还有一点值得单独说,就是它的”重思考”模式。

这个功能的概念本身不新鲜,思维链、多路径推理,学术界早就在研究了。但 LongCat-2601 是第一个把这套机制完整开源出来,并且做成了可以让普通用户直接体验的产品化功能的模型。

说人话就是:它让 AI 在给你答案之前,先进行多轮独立思考,再对结果进行复核。这个过程是透明的,是可以被看见的,也是可以被其他开发者拿去用的。

这不只是一个技术功能,更是一种产品化的示范——它在告诉整个行业,复杂的推理过程可以这样被工程化、被产品化。

03 真实使用的不足

说了这么多优点,我得说说我踩过的坑了。

因为它真的有坑,而且不少。

我在日常使用里做过一些测试,结论是:抗注入没过,中英混排的格式处理有问题,边缘 case 的限制也没处理好。

先说抗注入。这个测试的意思是,当你在输入里藏了一些”指令性语言”,试图让模型偏离原本的任务轨道,看它能不能识别并抵抗这种干扰。LongCat-2601 在这一块的表现,我测试下来是不及格的。它会被带偏,而且有时候带偏得挺明显。

中英混排的格式问题,是我在实际使用里最频繁遇到的。当你的输入里同时包含中文和英文,或者你希望它输出一个中英混排的格式时,它的处理经常会出现错乱——该换行的地方没换,该对齐的地方没对齐,有时候甚至会把中英文的标点符号混用,读起来很别扭。

边缘限制的问题,说的是当你的问题处于它能力边界的模糊地带时,它的处理方式不够优雅。它有时候不会明确告诉你”这个我不确定”或者”这个超出了我的能力范围”,而是会给你一个看起来很完整、但实际上经不起推敲的答案。这对于一个需要依赖 AI 输出做判断的使用者来说,是一个不小的风险。

这些问题,我觉得都是真实存在的,不是吹毛求疵。它现在的状态,用一句话来形容,就是:干活快、干活稳,但还没到让你可以完全放心交出去的程度。

04 使用建议:值得用,但要用对场景

那么,对于同样是 AI 新人的你,我的判断是什么?

直接说:它值得用,但要用对场景。

如果你的需求是日常信息查询、快速获取某个领域的概览性答案、或者需要 AI 帮你做一些有明确步骤的任务拆解,它现在的状态完全够用,而且体验会比你预期的好。响应速度这件事,真的会影响你的工作节奏,这一点我用了一段时间之后感受越来越深。

但如果你需要它处理涉及安全边界的内容、需要严格的中英混排格式输出、或者你的任务对”边缘情况”的处理有很高要求,那现阶段还是要谨慎,最好做好人工复核的准备。

它现在更像一个干活很快、执行力很强,但偶尔会犯一些低级错误的实习生。你得知道什么任务可以直接交给它,什么任务交出去之前要多看一眼。

顺便提一句,我之前也用过 DeepSeek,两个模型各有侧重,适合不同的使用场景,可以根据自己的需求搭配着用。

05 结语

我现在每天打开电脑,工具栏里有它的位置。

这件事本身,对我来说就已经说明了一些问题。我不是一个容易被新东西说服的人,尤其是在 AI 工具这个领域,我见过太多”发布时轰轰烈烈、用起来一塌糊涂”的产品了。

但 LongCat-2601 留下来了,不是因为它完美,而是因为它在我最需要的那几个点上,给出了足够真实的答案。

它还有很多不足,它还需要继续升级,这是事实。但它已经让我重新想了一个问题:我们判断一个 AI 工具值不值得用的标准,到底应该是什么?是它背后的公司够不够”AI 范儿”,还是它在你真实的工作场景里,能不能帮你把事情做完?

一个外卖公司做出了让我改变使用习惯的 AI 工具。

现在LongCat-2.0-Preview 来了

这件事现在还没想清楚它意味着什么?

本文由 @超仔AI 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自Unsplash,基于CC0协议

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!