AI 助手分裂成两个物种,腾讯的Marvis 押对了

0 评论 98 浏览 0 收藏 26 分钟

当AI还停留在对话框里为你解答问题时,Marvis已经悄然突破边界,成为能直接操控你操作系统的『数字助手』。这款腾讯出品的AI工具不仅能读取文件、修改设置,更能完成从软件安装到敏感文件整理的复杂任务。本文通过深度体验揭示:下一代AI的竞争焦点已从『智商』转向『动手能力』,而这背后是微软、英特尔等巨头的技术加持。

我的桌面上有一个文件夹,名字叫「回收站备份」。

别问为什么回收站还要备份,我自己也说不清。里头塞了快2000个文件,截图、下载到一半的安装包、不知道哪年的报销单、还有一堆命名是长串乱码的图片,堆了得有两年。

每次想动手整理,点开看一眼那个文件数量,又默默关掉。最讽刺的是,我的浏览器里正开着四个 AI 的标签页,它们能帮我写文案、写代码、润色提案,却没有一个能帮我把这个破文件夹收拾一下。

然后我反应过来一件有点扎心的事,这些被我天天夸的 AI,其实没有一个真的会「用」电脑。

下面想聊的就是这件事。它不是一篇工具推荐,更像是我这半年用各种 AI Agent 攒下来的一个判断,中间会拿腾讯刚上线不久的 Marvis 马维斯 当样本,也会拿微软和苹果这两周的新动作来对照。我自己觉得最有意思的结论在最后,关于人和 AI 接下来到底是什么关系,你可以先往下看。

AI 助手,其实早就裂成了两个物种

这话听着有点大,但你回想一下自己的使用场景就懂了。

绝大多数人现在用的 AI,活在一个对话框里。你把问题打进去,它把答案吐出来,它很聪明,懂的比你多,但它和你的电脑之间隔着一层玻璃。

你问它「我这台 Mac 的某个设置在哪改」,它能给你一篇图文并茂的教程,然后呢,然后还是你自己去点。它负责动嘴,你负责动手。

这是第一个物种,会聊天的那种。它的本质是一个超级搜索引擎加一个写作工具,强大,但被关在浏览器和它自己的窗口里。

第二个物种不一样。它不住在浏览器里,它住进了操作系统。你说一句话,它可以读你的系统状态、去改你的设置、去翻你硬盘里的文件,然后把活干完,再回头告诉你做好了。它负责动嘴,也负责动手。

这两者的差距,根本不是谁更聪明、谁的模型参数更大。是有没有「手」。一个再博学的人,如果被绑在椅子上只能说话,那他能帮你的也就只有出主意。

AI 这两年卷的全是脑子,卷到现在大家的脑子都差不多够用了,真正的分水岭悄悄变成了另一个问题,它能不能离开对话框,到你的真实环境里去动手。

Marvis 我之所以拿它当样本,就是因为它是少数几个明确站在第二个物种这边的国产产品。它不绕弯子,官方的定位就是「操作系统层级的个人 AI 助手」。我第一次听到这个词也觉得玄乎,直到我真的让它去干了几件事。

住进操作系统,体感到底有多不一样

让我第一次觉得它跟别的 AI 不是一路货的,是一件挺折腾的小事,我想装一个 Figma 的中文汉化版。

这事但凡自己折腾过的都懂有多烦,要去找汉化包、下下来、覆盖文件,十有八九还会撞上装不上、或者装好了打不开。我就随口跟 Marvis 说了句,帮我下载 Figma 的中文汉化版装上。它真就自己联网找到了。

直接帮我打开了网站下载页面

下载下来之后提示打不开,继续求助Marvis

马上就给出了解决方案,只需要回复一个执行,就自动运行了命令,这可比让用户自己复制命令-打开终端-粘贴执行强多了,再次尝试结果还是有问题。

继续求助

这里可以Marvis会调用多个不同的Agent来解决问题,自动把figma移动到了正确的目录,后面再次打开就一切正常了。

这个体感很微妙。

它不像是我多了一个会查攻略的助手,更像是我那个一直只会说话的 AI,突然长出了手。一个跑在浏览器标签页里的 AI,顶多告诉我「你去下个汉化包,覆盖到某个目录」,剩下的脏活累活还是我自己干。而 Marvis 是从头到尾把这件事干完了,连中途的报错都解决了,全程只需要对话发出指令。

尝到甜头,我又给它出了道更刁钻的题。我偶尔想在 Mac 上玩点游戏,但总搞不清楚哪些游戏原生支持 macOS、哪些我这台机器又真带得动。我让它去 Steam 上扒一遍,挑出那种既原生支持 macOS、我这台 Mac 还能流畅跑的游戏。它先读了我的硬件配置。

再去联网比对每款游戏的要求,最后给了我一份筛过的清单。

这件事的关键不在于它会上网搜,而在于它先搞清楚了我这台电脑是什么样,再拿这个去做判断。

它动手之前,是真的先去读懂了这台机器里有什么。

为什么大部分 AI 工具做不到这些,不是它们不想,是它们没有系统级的权限和理解能力。一个跑在网页里的脚本,凭什么去装你的软件、读你的硬件、改你的设置。这件事一旦想做,就绕不开三道特别硬的坎。这三道坎,也正是第二个物种为什么这么稀有的原因。

第一道坎,凭什么敢扫我的硬盘

我个人最被打动的功能,是它能按意思帮我找文件。

那天我赶着交一份营业执照的照片,我清楚记得存过,可它的文件名是当年微信自动生成的一长串数字字母,我翻遍文件夹都对不上。我一开始的指令也给得偷懒,就说「帮我找一下营业执照」

然后就这么水灵灵的找到了

那一下我才反应过来,它认的根本不是文件名,是这张图里到底拍了什么、写了什么。名字是乱码也无所谓。

要知道,我那个文件夹里面有近两千个文件

尝到甜头我又派了个更零碎的活,帮我把身份证的正反面照片找出来,拼成一个正反面合在一起的 PDF。

这事平时得先翻相册找出两张、再开个工具拼版、再导成 PDF,光想想就嫌烦。我一句话说完,它把两张照片找齐、按正反面排好、导成了一个 PDF 给我。

顺手我把桌面那个塞了几百个乱文件的「回收站备份」也一股脑丢给了它,让它分门别类理一理,它也照做了。

我的身份证照片就不给大家展示了,只能说这个过程真的很爽。

爽归爽,我的第一反应却是慌。营业执照、身份证,这些是一个人能掏出来的最敏感的东西了。它要能按内容把这些翻出来,那它岂不是把我整个硬盘都扫了一遍、传到云上去了。这就是第一道坎,隐私。也是我观察下来,最多人卡在第一步不敢用的地方。

后来我去搞清楚了它的做法,才把心放下。Marvis 在你下载它的时候,会一并装上一些能在本地跑的端侧小模型。它给文件建索引这件事,不是把你的文件送上云端去扫描,而是用这些本地模型,在你自己的电脑里完成的。

整个识别过程,你的文档和图片不出本机。你可以这么理解,它给你电脑里的东西建了个目录,这个建目录的活全程在你自己的桌子上干,云端根本没机会看你的内容。

更让我觉得这是认真做过产品决策的,是它的几个细节。索引要不要建、扫哪个文件夹不扫哪个,得你自己授权、自己划范围,是个白名单的逻辑。已经索引过的文件,你要是有不想被看到的,还能单独藏起来。甚至你可以选择完全不授权、一个文件都不让它碰。把选择权这么彻底地交还给用户,在国内产品里其实不太常见。

第二道坎,本地干活会不会又慢又费

第二个我原本的疑虑是成本和速度。

按常理推,一个能动你整台电脑的 AI,背后得调用多大的算力,是不是每点一下都要把数据传上云排队、慢得要死还烧钱。但 Marvis 走的是一条叫「端云混布」的路子,琢磨明白之后我觉得这是它最不显眼、却最关键的一步棋。

有个比喻我觉得挺到位,本地模型就像你家门口五百米的维修小店,云端是开在一线城市的工厂总部。小修小补的活,犯不着大老远跑去工厂,门口的店就给你办了;只有真要动大手术、需要重型设备的时候,才把活送去总部。

落到实处就是,能在本地干的活就本地干,又快、又不占用云端的额度、断了网也能用;非得动用大模型的硬实力时,才上云。我前面找营业执照那种按图片内容检索的场景就是典型,要扫一批图如果走纯云端,得把图片全传上去再理解,token 哗哗地烧。本地知识库在你电脑里就先把索引和初步解析做完了,只把精简过的关键信息送上云,实际消耗能降一大截。

这就解释了一个很多人想吐槽的点,为什么 Marvis 对电脑配置有要求。因为本地模式调的是你自己电脑的算力,你的设备越好,能在本地处理的活就越多,反而越省云端的 token。这跟那些纯云端、配置再烂也能跑的工具,是两种完全不同的产品哲学。一个把你的电脑当成一个瘦客户端,所有重活都甩给云;另一个真把你的电脑当成一台能干活的机器。

顺带提一句,它每天给到一千万 token 的免费额度。我用得不算省,到现在没把它用完过。

第三道坎,一个新产品凭什么这么深地动我电脑

前两道坎讲的是能不能、好不好用,这第三道坎最要命,是信任。

说真的,一个 2026 年 5 月才上线的新产品,张口就要接管我的操作系统、读我的文件、改我的设置,我凭什么信它不是个野路子。这个疑虑我觉得特别合理,也是我做功课时花时间最多的地方。查完之后我的结论是,它恰恰不「新」。

它背后是腾讯应用宝团队。应用宝做了多少年的应用市场你大概有印象,它常年在维护电脑 exe 软件、手机 app 的下载、安装、更新、卸载这一整套能力和数据源,移动端、PC 端、车载都覆盖,跨端这件事它做了不止四年。

我前面让它装那个 Figma 汉化版,它能联网把软件下下来、装好、出了岔子还能修,那只伸出去的手,其实就是通过应用宝伸出去的。这不是临时拼凑的能力,是人家攒了很多年的家底。

更关键的是另外两个名字,微软和Intel

操作系统这一层,Marvis牵手的是微软。

用户的电脑就像一栋房子,Windows 是这栋房子的房东。市面上很多 AI 想进你电脑帮忙干活,其实是从窗户翻进来的,房东不认它,它能摸到的地方也有限,稍微往深一点走就碰壁。

而 Marvis 是房东微软亲自开了正门、发了通行证放进来的客人。所以它能光明正大地走到房子最里头,帮你开关设置、动你的文件,去那些普通 AI 连门都进不去的地方。它动你的系统,靠的是一把正规钥匙,不是撬锁。

芯片这一层则是和英特尔合作。

本地模式说到底,是让 AI 在你自己的电脑里干重活,这就很吃机器的力气。英特尔做的事,相当于给你这台电脑的发动机做了一次专业调校。

同样的任务调校过之后本地能快上不少,官方的说法是性能提升两成以上,碰上那些个头中等的模型,调用芯片里专门为 AI 准备的那块单元,比老老实实用普通 CPU 硬扛,能快上两到十倍。

落到体感上就是,本地模式不是摆样子的噱头,底下有真东西撑着,你的电脑是真跑得动、跑得稳。

把这三家拼到一起就看明白了。能动你操作系统的本事,是微软给的,敢让模型在你电脑里本地跑的底气,是英特尔给的。伸手帮你装应用、调东西的那只手,是应用宝伸出来的。

这就是它凭什么敢这么深地动你的电脑,也是我用着用着、慢慢把戒心放下的原因。它不是哪个小团队拍脑袋鼓捣出来的玩具,背后站着的是几家大厂,是正规军。

把镜头拉远,这其实是一场所有大厂都在抢的赛

聊到这我得跳出 Marvis,说点更大的。因为就在这两周,行业里发生的事,刚好给我前面那个「两个物种」的判断做了注脚。

六月初的微软 Build 2026 大会上,微软把 Windows 正式推向了「agentic OS」,也就是能跑 Agent 的操作系统。它推出了一个系统级的服务,叫 Windows Agent Runtime,专门管理本地和云端的各种 Agent,还让一个三十多亿参数的小模型直接跑在 Copilot+ PC 的 NPU 上。你看,微软亲自下场,承认了 AI 必须从对话框走进操作系统这件事。

苹果那边的 Apple Intelligence 更早就是这个思路,端侧一个三十亿参数的模型处理日常任务,复杂的活再送到它那个号称很安全的私有云上。听起来跟「端云混布」几乎是一个意思。

但有意思的反转在这。今年六月有报道说,苹果为了扩容算力,把它那个私有云的一部分,搬到了 Google 的云上,用上了英伟达的 GPU。连最把隐私当命根子的苹果,遇到重活,最后还是得上云,甚至上了别人家的云。

我把这几件事摆在一起看,结论反而清晰了。AI 要住进操作系统,这个大方向,微软、苹果、谷歌全都认了,没有悬念。真正分化的是怎么走。微软和苹果不约而同地选了「云端为主」这条路,微软的端侧能力还绑死在带 NPU 的新硬件上,苹果的重活兜兜转转又回了云。

而把「本地模式」做成一个出厂即用,让普通人不折腾就能「数据不出本机」,这一步,反倒是国产的 Marvis 走在了前面。

这不是说 Marvis 的技术比微软苹果强,那不现实。这是个产品决策的差异。在财务、法务、HR 这些数据绝对不能出门的高敏感场景里,「文件必须先上传」这一步,就是友商集体卡住、而 Marvis 多走了一步的地方。对这些人来说,这一步不是锦上添花,是用与不用的那条生死线。

最后这个功能,让它从「好用」变成了「有点上头」

把前面这些叠在一起,它已经够好用了。但真正让我有点上头的,是我一时兴起给它下的一个有点过分的指令。

我让它扫一遍我这台 Mac 上的文件、应用和图片,给我生成一份带梗、有料的「数字分身报告」,其实就是让它当面锣对面鼓地点评一下我这个人。

它真的扫完了,然后甩给我一份报告。

里头有对我装了一堆生产力工具却没几个常用的吐槽,有那些跨了好几年没再打开过的项目文件夹,还顺带分析了我大概是个什么样的人、有哪些事其实值得我抽空去做。

那一刻的感觉很奇妙,它不是在回答我抛给它的某个问题,是它比我自己还清楚,我这台电脑里到底堆了些什么、藏着一个怎样的我。

这个数字分身报告真的有点意思,几乎复原了我的全部特征。

这个玩法能成立的前提,恰恰是它能扫我的全盘、还不把数据传出去,也就是前面聊的那套本地的底子。信任先建立起来,这种过去想都不敢想的用法才敢放开了玩。

后面我又让Marvis帮我整理了回收站备份文件夹,很快也形成了清晰的目录结构。

这大概也是为什么它还能再往外延一层,一台手机连上你的电脑、看着实时桌面去远程指挥它干活。这部分我还没来得及细折腾,但光是想想就有点上头,一个能动手的 AI 一旦挣脱了「人必须坐在电脑前」这个限制,能长出来的东西,还多着呢。

写在最后,AI 接下来比的不是谁更聪明

绕了一大圈,回到开头那个我两年都没敢点开的「回收站备份」。现在它被理得清清楚楚,可让我真正在意的,从来不是这个文件夹本身。

我现在越来越确信一件事,AI 这场仗,比拼脑子的阶段快要过去了。大家的模型聪明到一定程度之后,差距会变得越来越不重要。下一个阶段比的是手,比谁能真正离开那个对话框,走进你的真实环境,把活干完。

这背后是一种新的关系。过去你用 AI,是你问它答、你说它写,你始终是那个执行者,它只是个高级的参谋。而当 AI 真的长出手、能接管你的系统和文件之后,关系反过来了,你把目标、材料、权限和验收标准交出去,它去调度一切、去动手,你退到后面,变成那个管理者、审核者、最后拍板的人。说得直白一点,这就是把 AI 当牛马用。

能进入每个人日常的 AI,我赌它一定不是聊得最好的那个,而是第一个真正长出手的那个。会聊天的 AI 已经足够多了,多到我们快忘了,我们最初想要的,其实是一个能替我们把事做完的东西。

两个物种已经分开了,只是大部分人还没意识到,自己手里那个,是会聊天的那种,还是会干活的那种。

这事我站「会干活」这边,你呢,你电脑里现在那个,是哪一种?

本文由人人都是产品经理作者【杜昭】,微信公众号:【AI高手杜小虎】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。

题图来自Unsplash,基于 CC0 协议。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!