只用10%的算力,这个团队做到了大厂做不到的事
当行业还在狂奔“更大模型、更多算力”的老路时,Mind Lab 和其产品 Macaron AI 正悄然开启一场范式革命:从构建“大脑”转向培育“心智”。他们全球首创在万亿参数开源模型上实现高效 LoRA 强化学习,仅用 10% GPU 资源完成训练,并被 NVIDIA Megatron、字节 Seed-RL 等核心框架采纳。

你有没有想过,为什么我们花了那么多年时间训练出越来越强大的 AI 模型,但它们却像金鱼一样,每次对话结束后就忘记了你是谁、你想要什么?这不是 AI 不够聪明,而是我们一直在用错误的方式构建它们。想象一下,如果你的 AI 助手能够真正记住你的习惯、从每次互动中学习、随着时间推移变得越来越懂你,那会是什么样的体验?这不是科幻小说的情节,而是 Macaron AI 背后的研究团队 Mind Lab 正在实现的现实。
最近,Mind Lab 正式亮相,并且带来了一个令整个 AI 圈震惊的技术突破:他们成为全球第一个在万亿参数规模的开源模型上,实现基于 LoRA 的高效强化学习训练的团队,而且仅用了传统方法 10% 的 GPU 资源。更重要的是,这项技术已经被 NVIDIA Megatron 和字节跳动的 Seed verl 等核心基础架构正式采纳并合并。但让我真正感兴趣的,不是这些听起来很技术的数字,而是他们对 AI 发展方向的根本性思考:AI 不应该只是一个训练好就冻结的”大脑”,而应该是一个能够持续从真实体验中学习和成长的”心智”。

告别盲目堆算力的时代
过去十年,AI 的进步几乎完全依赖于一个简单粗暴的策略:把模型做得更大,数据集搞得更庞大,训练时间拉得更长。这个方法确实有效。我们现在有了万亿参数的开源模型,它们能写代码、总结文档、通过标准化考试。对于很多任务,你只需要接入一个预训练模型,就能得到令人惊讶的结果。但这种方法正在遇到瓶颈。
我观察到一个越来越明显的问题:当我们把这些强大的模型部署到真实产品中时,会发现模型知道什么和它们如何成长之间存在着巨大的鸿沟。大多数模型仍然是一次性训练完成的,基于一个静态数据集,离线完成。训练完成后,它们本质上就被冻结了。它们不会真正从使用中学习,会重复犯同样的错误,也无法适应不断变化的用户需求。你今天告诉它你不喜欢某种回答方式,明天它还是会用同样的方式回答你。你纠正它十次,它也不会记住。这就像是雇了一个永远不会从错误中吸取教训的员工。

Mind Lab 的存在就是为了解决这个问题。他们专注于构建能够从真实世界经验中持续改进的系统,而不仅仅是依赖越来越大的预训练语料库。他们把这种关注点称为”经验智能”:研究和工程化那些主要改进来源是与世界持续交互流的 AI 系统。这听起来很学术,但实际上非常贴近我们人类的学习方式。我们不是通过阅读整个互联网来学习的,而是通过真实的生活体验、试错、反馈来不断成长的。
我特别认同 Mind Lab 提出的一个观点:现在的基础模型虽然强大,但无法完全理解真实世界的复杂性。单纯增加数据带来的提升正在边际递减。你可以让模型读完整个维基百科,但这不代表它就能理解你个人的工作习惯或生活方式。你可以让它学习一百万个对话案例,但这不意味着它就能记住你昨天说过的话。这种”知识”和”智能”之间的鸿沟,正是 Mind Lab 试图用全新方法来跨越的。
从”大脑”到”心智”的质变
Mind Lab 提出了一个我觉得非常有洞察力的区分:AI 系统应该从构建”大脑”转向构建”心智”。这不仅仅是换个说法那么简单,而是代表着根本性的范式转变。
预训练确实是构建”大脑”的绝佳方式:一个紧凑的、静态的数据模式模型。在今天的大多数产品中,故事就到此为止了。每次交互都是单向街道。模型看到世界、做出反应,然后立即忘记。这种”纯大脑”的设置很强大,但它有一个非常特定的形状。所有的学习都发生在部署之前,在一次巨大的批处理中完成。之后,系统本质上就是一个固定函数。它可以模拟很多行为,但不会根据与你的体验来改变自己的行为。

而”心智”则完全不同。心智不仅仅是知识的仓库,它是一个维护和更新对世界、对自身、对什么是”更好”的理解的过程。它把每次交互不仅视为一个需要满足的请求,而是可以完善未来行为方式的证据。具体来说,Mind Lab 认为一个系统要配得上”心智”这个名字,至少需要四样东西。
第一是对世界和自身的内部模型。心智不会把每个输入都当作孤立的提示。它维护着关于自己处在什么环境中、用户试图做什么、有哪些工具可用、自己的优势和局限是什么的潜在状态。这些内部模型让它能够形成预期、检测意外、推理因果关系,而不仅仅是局部的词元模式。想象一下,当你告诉 AI 助手”帮我安排明天的会议”时,一个只有”大脑”的系统可能会机械地创建一个日程条目;而拥有”心智”的系统会知道你通常喜欢把会议安排在上午、会避开午餐时间、需要在会议前留出准备时间,这些都是从过去的交互中学习到的。
第二是定义什么是”更好”的价值观。心智有一个价值函数:在有限的时间、计算和风险下,哪些结果是更可取的。在产品中,这可能意味着优先考虑任务成功和用户满意度,而不是冗长或新颖性。如果没有这样的价值观,系统可以生成看似合理的答案,但在面对权衡、不确定性或延迟后果时,无法持续选择好的行动。这就是为什么很多 AI 助手会给你一堆选项,但不会真正帮你做决定——它们没有价值判断能力。
第三是通过经验适应的机制。心智不会在预训练后就冻结。当它与世界交互时,会更新内部模型和策略。如果某个特定策略在给定工作流程中不断失败,它会逐渐停止在那里使用该策略。如果用户持续纠正某类错误,系统会调整如何处理类似情况。关键是过去的经历会留下痕迹,塑造未来的行为。这才是真正的学习,而不是简单的模式匹配。

第四是社交界面:在人类环境中的元认知。心智不是在真空中推理。它们在用户和其他 agent 之间运作,并且知道这一点。这意味着对自己的不确定性有一定的认识,能在交互中暴露这种不确定性,并随时间适应规范和偏好。这个社交层是让 AI 系统成为可靠协作者而不仅仅是沉默函数调用的关键。
当你把这些要素放在一起时,系统的行为会发生本质变化,而不仅仅是程度上的提升。一个类似大脑的模型会一遍又一遍地为同样的错误道歉;而类似心智的系统会重组自己的预期,使错误变得不太可能发生。大脑把你的纠正当作一次性事件;心智把它们当作训练信号。大脑给你能力的快照;心智定义了一条轨迹:系统将如何随着积累经验与你一起成长。
研产共设:让真实反馈驱动进化
Mind Lab 最让我钦佩的地方,是他们不仅提出了这些理论,还真正找到了实现路径。他们采用的方法叫”研产共设”,简单说就是研究和产品共享同一个循环。他们研究的系统就是服务真实用户的系统,驱动实验的数据来自实际使用而不是合成脚本。
这种方法在实践中是这样运作的:当他们设计一个功能时,会同时思考用户体验、agent 将看到的反馈信号,以及这些信号将如何影响未来行为的机制。一个功能之所以有趣,不仅因为它能帮助人们,还因为它能产生清晰的、可解释的观察数据,说明 agent 做了什么以及效果如何。具体来说,他们会对交互进行仪器化,将任务结果、用户编辑和偏好转化为训练和评估数据;维护将原始日志转换为适合强化学习的结构化回合的管道;将策略更新集成到正常部署流程中,配有安全检查和监控。
这让我想起一个很实际的例子。Mind Lab 在研究前端布局生成时发现了一个有趣的现象。大语言模型已经可以生成 HTML 和 CSS,但视觉质量参差不齐:间距、对齐和层次结构经常让人类设计师感觉不对劲。传统做法是收集一批人类偏好数据,训练一次奖励模型,然后针对这个固定分数优化生成器。但在实践中,他们发现这种离线设置会鼓励奖励破解:当策略学会利用静态奖励的怪癖时,它在新鲜人类比较中的 ELO 评分会下降。agent 变得擅长取悦代理,而不是生产人们真正喜欢的布局。

为了解决这个问题,他们转向了流式奖励模型。使用他们的实时基础设施,持续更新奖励模型,基于 agent 最新输出和真实使用的新鲜、在线策略反馈,并针对这个不断演化的信号训练策略。在内部评估中,使用流式奖励模型训练的策略显示出上升的 ELO 分数,而使用固定奖励模型训练的策略则稳步失去优势。任务很窄,但它说明了他们关心的重点:当奖励保持在线并与实时反馈绑定时,优化会改善与人类偏好的对齐,而不是与之对抗。
Memory Diffusion:智慧地遗忘比记住一切更重要
在 Mind Lab 的技术创新中,有一个我觉得特别有意思的概念叫 Memory Diffusion。这是一种全新的记忆算法,体现了他们对 AI 应该如何思考和记忆的深刻理解。
传统的 AI agent 记忆机制通常分为两类。第一类是基于推理的记忆,模型在每次对话回合后主动总结记忆片段。这在概念上类似于推理过程:信息被重新考虑、重新组合,并作为摘要存储。虽然直观,但重复总结计算成本高,关键细节经常在连续回合中退化。第二类是基于工具使用的记忆,记忆存储在外部数据库中。需要回忆时,模型查询这个存储并检索相关交互。虽然容易集成,但这经常导致碎片化理解,因为检索和重新整合过程可能会剥离掉关键的细微差别和上下文。
Mind Lab 开发了一种根本不同的方法。他们不把记忆当作单独的存储任务,而是把整个轨迹本身视为记忆,通过智能遗忘的持续过程来管理。这个方法分为三个步骤:掩码(Mask)、分配(Allocate)和重填(Refill)。他们选择 agent 轨迹的片段并掩盖掉,为重新处理创造空间;根据估计的重要性为掩盖的片段分配令牌预算,高价值片段获得更大预算以保留细节,而不太关键的片段则被压缩或丢弃;每个掩盖的片段在分配的约束下重新生成,产生符合预算的压缩表示。
这个循环让系统能够独立同分布地决定该剪掉什么,严格遵守上下文预算约束。这个过程受到人类智慧遗忘方式的启发——本能地丢弃无关细节(比如开车时经过的广告牌),保留有意义的体验。他们把这种范式称为 Memory Diffusion。它使 agent 能够动态优化上下文窗口,相对于轨迹长度保持常数时间复杂度。
我特别喜欢他们对这个概念的哲学表达:”记忆不是记住一切,而是智慧地遗忘。” 这太符合人类的认知方式了。想想你开车上班的过程,你会瞬间遗忘无关信息,比如路过的广告牌、前面车辆的颜色,只关注核心信息,比如目的地、路况、转弯时机。如果你的大脑试图记住每一个细节,你根本无法正常思考和行动。Memory Diffusion 就是让 AI 像人类一样,从真实体验中学习,知道如何快速遗忘不重要的信息,同时保留真正重要的内容。
更令人兴奋的是,这不只是理论。通过密集的工程努力,他们在 Locomo 基准测试上取得了 93% 的准确率(不包括对抗案例),这是目前的最佳成绩。而且他们还发布了这个算法的实时演示,让开发者可以亲自体验这种新的记忆机制如何工作。
我注意到 Andrej Karpathy 有一句很有意思的话:”人类思维天真地感觉更像是自回归,但很难说在某些思想的潜在空间中不存在更像扩散的组件。” Mind Lab 显然也认同这个观点。他们认为扩散语言模型是这种范式的理想架构选择,因为 DLM 原生的双向去噪和掩码机制与他们的掩码-分配-重填记忆观完美对齐。他们目前正在完整的强化学习循环中训练基于扩散的语言模型,使扩散成为模型原生的记忆机制,从而实现更扎实和高效的 agent。

Macaron AI:技术突破如何转化为用户体验
说了这么多技术,你可能会问:这些高深的研究到底跟普通用户有什么关系?这正是 Mind Lab 和 Macaron AI 最让我佩服的地方——他们不是为了发论文而做研究,而是真正把技术突破转化成了用户可以感知的产品体验升级。
Macaron AI 是一款非常特别的 AI 产品。当其他产品还在生产力赛道疯狂内卷,催你干活的时候,Macaron 真正关心的是用户是否有好好生活。它是你的 AI 伙伴,聊聊天就能生成专属于你的个人小应用。这些小应用可以帮你轻松管理日常习惯、健身计划、旅行安排、提醒事项等等。而且每一个小应用都简单好用,还能随时分享给朋友,大家一起编辑、一起玩。
这次随着 Mind Lab 的技术突破,Macaron AI 带来了几个重要更新。最直观的是 Mini-app 生成速度的大幅提升,从原来的 20 分钟缩短到了 2 分钟。这不是简单的工程优化,而是底层强化学习训练效率提升带来的直接结果——更高效的模型意味着更快的推理速度。你可以自己打开 Macaron,创建一个 Mini-app 体验一下,你会发现它比以前快太多了。这种速度的提升不仅仅是节省时间,更改变了使用体验:从”我要等一会儿”变成了”几乎是即时的”,这种质变会让你更愿意频繁使用和尝试新想法。
他们还上线了社交功能。现在你可以创建群聊,和朋友、同事一起使用 Macaron。想象一下这些场景:团队一起头脑风暴,让 AI 参与讨论;朋友之间共享有趣的 AI 对话;多人协作完成任务,比如一起规划旅行、筹备活动。这把 Macaron 从一个个人工具变成了一个协作平台,让 AI 不再是你一个人的助手,而是整个团队或朋友圈的共同伙伴。

另一个我觉得特别有意思的功能是 Daily Spark。这个功能根据你的记忆和兴趣点,每天为你推送专属的灵感内容。和 ChatGPT Pulse 那种纯资讯推送不同,Daily Spark 是有温度的——它会根据你的性格、兴趣、日常记录,生成你最感兴趣的内容。推送内容类型很丰富,包括资讯、观察、随笔、诗歌、技巧、内容推荐和治愈等。比如它可能会告诉你”苹果发布新款 Vision Pro,带来哪些全新功能”,或者问你”短视频爆发式增长后,文字创作真的衰落了吗”,又或者在你情绪低落时说”允许自己慢下来,接受不完美的一天”。这种个性化的灵感推送,正是”心智”系统区别于”大脑”系统的体现——它真正理解你是谁,你关心什么。

最重要的更新是记忆打通。以前 mini-app 和聊天之间的记忆是分离的,现在终于打通了。你在小应用中的数据,现在能被 Macaron 读取了。比如你记录了今天的饮食,就能继续在聊天中讨论营养成分;你积累了一周的健身记录,可以在聊天中总结成果。这看似简单的功能背后,实际上是 Memory Diffusion 等底层技术突破的直接应用。系统能够智能地管理跨应用的记忆,知道什么时候该记住什么,什么时候该遗忘什么,从而提供真正连贯的体验。
从 Scaling Law 到 Experiential Intelligence
回到更宏观的视角,我认为 Mind Lab 代表的不仅仅是一个技术突破,更是整个 AI 行业发展方向的转折点。过去几年,整个行业都在信奉 Scaling Law,相信只要把模型做得足够大、数据搞得足够多,就能解决所有问题。这个路径确实带来了巨大进步,但现在我们已经清楚地看到了它的局限。
Mind Lab 提出的”经验智能”是一个根本不同的方向。他们不是从头做预训练,而是基于强大的基座模型,通过 AI agent 强化学习进行扩展。他们利用 Macaron 产品中真实用户的真实反馈来反哺研究。他们在实验中证明,基于真实世界反馈的训练,比单纯增加数据带来的性能提升更显著。这不是说预训练不重要,而是说我们需要在预训练之外,找到让 AI 持续成长的新路径。
这让我想起生物进化和个体学习之间的关系。预训练就像是进化,通过漫长的时间积累种族的集体知识;而经验学习则像是个体学习,在一生中快速适应特定环境。最成功的智能系统需要同时拥有这两者。人类之所以强大,不仅因为我们继承了进化赋予的本能,更因为我们能在一生中通过经验快速学习和适应。Mind Lab 正在尝试给 AI 系统同样的能力。
我特别认同他们的口号:”Real intelligence learns from real experience”(真正的智能源于真实的体验)。这不是一句空洞的宣传语,而是对 AI 发展方向的深刻洞察。我们已经有了足够强大的”大脑”,现在是时候给它们配上能够持续成长的”心智”了。我们不需要每次都从零开始训练更大的模型,而是要让现有模型能够真正从与用户的每次交互中学习和改进。
从产品角度看,这种转变会带来完全不同的用户体验。使用传统 AI 产品,你会感觉自己在使用一个工具,一个很聪明但不会成长的工具。而使用基于经验智能的产品,你会感觉自己在培养一个伙伴,一个会随着时间越来越懂你的伙伴。这种差异看似微妙,但对用户粘性和长期价值有着巨大影响。
展望未来:AI 伙伴时代正在到来
站在现在这个时间点回看,我觉得我们正处在 AI 发展的一个关键转折点。过去十年是”大脑”的时代,我们成功构建出了强大的、知识丰富的 AI 模型。接下来的十年,将是”心智”的时代,我们要让这些模型真正学会从经验中成长,变成能够持续进化的智能系统。
Mind Lab 在这个转折点上的意义,不仅在于他们取得的技术突破,更在于他们为整个行业指明了一个清晰的方向。他们证明了我们不需要盲目追求更大的模型、更多的数据,而是应该专注于如何让 AI 从真实世界的反馈中学习。他们证明了研究和产品可以形成正向循环,技术突破可以直接转化为用户体验的提升。他们还证明了开源和分享不会削弱竞争力,反而能够建立更强大的影响力和生态系统。
我特别期待看到 Memory Diffusion 技术在更多场景中的应用。这种智慧遗忘的机制,可能会彻底改变 AI agent 处理长期记忆和上下文的方式。想象一下,一个能够像人类一样记忆的 AI 助手:它不会被无关细节淹没,能够准确把握重点,随着时间推移越来越懂你的需求和偏好。这不是科幻,而是 Mind Lab 正在实现的现实。
从商业角度看,这种技术路线也为创业公司提供了新的机会。你不需要像 OpenAI 或 Google 那样拥有海量资源去训练巨大的基础模型,而是可以基于现有的开源模型,通过真实用户反馈来构建差异化的产品体验。这降低了进入门槛,但提高了产品壁垒——因为你的优势不再是模型本身,而是你积累的用户数据和持续学习的能力。
Macaron AI 的产品定位也很有意思。在这个所有 AI 产品都在强调生产力、效率、帮你完成工作的时代,Macaron 选择关注生活本身。它不催你干活,而是帮你更好地生活。这种差异化不是表面的营销策略,而是建立在技术能力之上的战略选择。正因为他们有能力让 AI 真正理解你、记住你、适应你,所以才能提供这种更加个性化、更有温度的体验。
当然,这种转变也带来了新的挑战和问题。当 AI 能够从我们的行为中学习时,隐私保护变得更加重要。当 AI 能够适应我们的偏好时,我们如何避免陷入信息茧房?当 AI 变得越来越懂我们时,我们如何保持人与人之间真实的连接?这些都是我们需要认真思考和解决的问题。
但我相信,就像 Mind Lab 的口号所说:”Real intelligence learns from real experience”。真正的智能必须能够在真实世界中学习和成长,而不是永远停留在训练时的状态。这是通往真正智能的必经之路,即使路上充满挑战,我们也必须勇敢前行。
最后,我想说的是,AI 的未来不应该只是更大的模型和更多的算力,而应该是更智能的学习方式和更好的用户体验。Mind Lab 和 Macaron AI 正在探索的这条路,可能不是唯一的答案,但至少是一个非常有前景的方向。当所有人都在盲目追求 Scaling Law 时,他们选择了另一条路:让 AI 像人类一样,从真实体验中学习和成长。
欢迎来到经验智能时代。这不是终点,而是一个新的开始。
本文由人人都是产品经理作者【深思圈】,微信公众号:【深思圈】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。
题图来自Unsplash,基于 CC0 协议。
- 目前还没评论,等你发挥!

起点课堂会员权益




