复盘50+个实战案例,终于找到了AI产品落地的关键

0 评论 264 浏览 0 收藏 24 分钟

当行业痴迷于'全自动代理'的炫目未来时,OpenAI Kodex团队负责人Kiriti Badam与Alexa早期研究员Aishwarya Naresh Reganti却提出了截然不同的务实路径。基于50多个实战案例,他们发现AI产品失败的核心并非技术瓶颈,而是方法谬误——非确定性特性要求全新的产品哲学。本文揭示'渐进式自主'框架:从高控制、低风险场景起步,构建持续校准的信任飞轮,让AI在赢得验证后逐步获得自主权。这不仅是技术路径,更是领导力重塑与组织转型的系统工程。

尽管技术飞速进步,许多团队在将AI融入实际业务时,却陷入迭代混乱、投入巨大而收效甚微的困境。

Aishwarya Naresh Reganti与Kiriti Badam对此有着截然不同的清醒洞察。

Kiriti在OpenAI领导Kodex团队,拥有在谷歌构建十年AI基础设施的深厚背景;Ash则是Alexa与微软的早期AI研究员,发表了超过35篇论文。他们共同主导了从亚马逊、Databricks到众多初创企业在内的超过50个AI产品部署,深谙其中沟壑。

在本次深度对谈中,他们直指核心:问题往往不在于模型能力,而在于方法谬误。

行业痴迷于追逐“全自动代理”的炫目未来,却忽略了AI与非AI产品的根本性差异——非确定性。这导致团队常常从错误的地方开始,在复杂性的泥潭中挣扎,最终迷失了本该解决的真实问题。

他们提出一套被反复验证的务实框架:放弃对“终极智能”的一步到位幻想,转向一种“渐进式自主”的产品哲学。

即从高控制、低风险的场景起步,构建持续学习和校准的“飞轮”,随着信任的积累逐步移交自主权。这不仅关乎技术路径,更涉及领导力重塑、组织文化转型以及对工作流程的深刻解构。

以下便是两位实战派专家带来的完整经验凝结,enjoy~

01 拥抱非确定性与控制权的权衡

主持人:我们一起写了一篇客座文章。他们有一个非常关键的洞见,就是构建AI产品与开发非AI产品非常不同。

Aishwarya Naresh Reganti:大多数人往往忽视这种非确定性。你不知道用户会如何使用你的产品,也不知道大型语言模型会如何回应。第二个区别是能动控制权的权衡。每次你把决策能力交给智能系统时,你其实是在放弃你那边的某种控制权。

Kiriti Badam:因此,我们建议逐步构建。当你从小处开始时,它迫使你思考你要解决的问题。在AI的这些进步中,一个简单而滑溜的路就是不断思考解决方案的复杂性,而忘记你正在解决的问题。

Aishwarya Naresh Reganti:这并不是说你是第一家在竞争对手中拥有经纪人的公司。关键是你是否已经建立了正确的飞轮,以便随着时间推移不断改进。

主持人:你认为当前公司在开发AI产品时,主要遇到了哪些问题?进展如何?

Aishwarya Naresh Reganti:我认为2025年和2024年有很大不同。第一,怀疑情绪明显减少了。去年很多领导者认为这可能只是又一波加密货币浪潮,持怀疑态度。当时的很多用例更多是对你数据的闲聊,就自称是AI产品。

今年,公司们开始重新思考用户体验和工作流程,真正理解到必须拆解和重构流程,才能打造成功的AI产品。这是精彩之处。

糟糕的是执行依然很混乱。这就像三岁马场,没有战术手册,没有教科书,你真的需要边做边摸索。而且AI生命周期,无论是部署前还是部署后,都与传统软件生命周期有很大不同。

传统角色之间的旧合同和交接,比如产品经理、工程师和数据人员,现在已经被打破。人们正在适应新的合作方式,拥有相同的反馈循环。以前,项目经理、工程师都有自己的优化反馈循环。

现在你们可能需要坐在同一个房间里,一起看“试剂痕迹”,或者说数据反馈,共同决定产品应该如何表现。这是一种更紧密的协作形式,公司们还在摸索中,这也是我今年在咨询业务中看到的情况。

我要强调,构建AI系统和软件系统有相似之处,但也有一些东西从根本上改变了开发方式。其中一个常被忽视的就是非确定性。你使用的是一个非确定性的API,而不是传统软件。

在传统软件中,比如Booking.com,你有一个完善的决策引擎。你想在旧金山预订两晚,产品设计会将你的意图转化为具体动作,你点击按钮、填写表单,最终实现意图。

但在AI产品中,这一层被一个流动的界面取代,主要是自然语言。这意味着用户可以用无数种方式表达意图。输入端是不可预测的。输出端,你面对的是一个非确定性的概率API。大型语言模型对提示非常敏感,且基本是黑箱。你不知道输出会是什么样子。

所以,你既不知道用户会如何使用产品,也不知道模型会如何响应。你在处理输入、输出和过程,对这三者都不完全了解。你必须试图预判行为并为此做准备。

这就引出了第二个区别:代理控制权的权衡。

很多人痴迷于构建能自主完成任务的系统。但每次你把决策能力交给智能系统时,你其实是在放弃某种控制权。你必须确保你的代理已经赢得了信任,足够可靠。这就是权衡所在:给AI更多自主权,你就会失去一些控制权,因此必须确保系统随着时间积累了足够的信任。

主持人:传统软件追求确定性,而AI具有非确定性。其核心挑战在于如何权衡自动化与人类控制,这正深刻改变产品设计的根本逻辑。

Kiriti Badam:这是对你提供的文本进行的精简和润色版本。我保留了核心的“优胜美地徒步”类比、关于“渐进式自主”的逻辑,以及“好事与坏事”的辩证观点,主要删减了口语中的重复、自我修正和冗余的连接词,使表达更紧凑有力。

是的,这绝对是你刚开始建造时,脑海中必须明确的关键点之一。

比如,想想你的目标是徒步优胜美地的半圆顶峰。你不会每天都去徒步,而是从小部分开始训练,然后慢慢进步,最终达到终点。我觉得这和打造AI产品非常相似。因为你一开始在公司里并没有所有的工具和背景,不能期望它立刻在最高层面工作甚至自我调整。

你需要有意识地从影响最小、人为控制最多的地方开始。这样你才能很好地掌握当前的能力边界和可实现的范围,然后再慢慢转向更具自主性、控制更少的部分。这能给你信心:“这就是我面临的具体问题,AI能够解决到这个程度。” 然后你再思考需要引入哪些背景、添加哪些工具来提升体验。

所以我觉得这既是好事也是坏事。

好处在于,你不必一开始就面对外部那些复杂的AI代理能力而感到自己做不到。每个人都是从非常极简的结构开始,然后不断演变。坏处,或者说挑战在于,当你试图将这种“一键代理”融入公司时,你可能会被这种复杂性压垮。但实际上,你可以慢慢“毕业”。

这非常重要,我们看到这种模式一再重复。

主持人:请以具体示例说明,如何从基础的行动与控制模块开始,逐步构建更复杂的AI代理或产品。

Kiriti Badam:例如,AI代理一个非常重要且普遍的应用是客户支持。想象一下,你是一家客户支持工单量很大的公司——其实不用想象,OpenAI在推出Image、GPT-5等成功产品时,支持量就激增。你会发现客户带来的问题类型各不相同。

所以,这并不是简单地把所有帮助中心文章都塞进AI代理。你需要大致明白自己能构建什么。最初的第一步是,比如你有人类支持代理,AI会先给出建议:“我认为这是正确的做法。”

然后你会得到人类反馈:这是个好建议,或者这是个坏建议。接着你可以回头分析,找出AI的缺点或盲点,并思考如何解决。一旦掌握了这些,你就可以提高自主权,不再需要向人类建议,而是直接把答案展示给客户。

之后,我们可以进一步增加复杂度。比如,之前只是基于帮助中心文章回答问题,现在可以添加新功能:我可以直接给客户退款,也可以向工程团队提出功能请求。如果从第一天就做这些,控制复杂性会非常困难。所以我们建议逐步积累,再逐步增加功能。

02 从“高控制、低自主”起步的渐进式自主

主持人:核心是动态授权模型,从严控起步,随着AI可靠性得到验证,逐步扩大其自主权。这是一个基于信任增长的渐进过程。

Aishwarya Naresh Reganti:我认为更高级的概念在于AI系统的行为校准。事先预测系统表现几乎不可能,那该怎么办?关键是不能破坏客户或最终用户体验。保持原有流程,但移除人类的控制权,而且并没有唯一正确的做法。

你可以自主决定如何限制权限。另一个限制自主性的例子是预授权用例。保险预授权非常适合AI,因为临床医生花费大量时间预先批准血液检查、核磁共振等。有些案例比较容易实现,比如MRI和阻滞检测——一旦掌握患者信息,AI就能处理批准流程;而像侵入性手术等风险较高的操作,则不适合完全交由AI。

因此,你可以大致判断哪些用例需要人工审核或循环介入,哪些适合AI处理。在整个过程中,还要记录人类的操作,以此构建一个改进系统的飞轮。这样既不影响用户体验,也不削弱信任,同时通过记录人类原本的决策来持续优化系统。

主持人:你建议的进阶策略是:从高控制、低主动的版本开始,逐步增加自动化。例如,编码助手 V1 做内联补全,V2 生成可审核的模块,V3 自动提交 PR。市场助理 V1 起草文案,后续版本逐步自动化:V2 构建并运行多步骤战役,V3 通过 A/B 测试跨渠道自动优化广告活动。

AI 产品不同,它们是非确定性的,用户体验也是非确定性的。人们会看到不同的内容、输出和聊天对话,甚至界面设计也可能不同。而且输出显然是非终结性的,这既是问题也是挑战。

Aishwarya Naresh Reganti:我们都比跟着一堆按钮走更自在,所以使用 AI 产品的门槛要低得多,因为你可以像和人类一样自然交流。但这也是问题所在:我们有很多交流方式,你要确保意图被正确传达,并触发正确的行动。因为大多数系统是确定性的,你希望得到确定性的结果,但非确定性技术就比较复杂。

主持人:设计时需权衡自主与控制。人们常急于追求理想模型,如V3,却因实现困难而受挫,甚至轻易放弃。

Kiriti Badam:没错。在达到V3之前,你需要对很多事情有信心。你很容易不知所措,代理在百种方式上出错,你不可能全部统计并修正。即使学会了评估流程,如果起点错误,也很难纠正。从小处、高控制、低能动性开始,迫使你思考到底要解决什么问题——我们叫“问题优先”。

显而易见,却常被忽视:AI进步让人一头扎进解决方案的复杂性,而忘记真正要解决的问题。

Aishwarya Naresh Reganti:所以大多数时候,如果你对问题本身着迷,并且非常了解自己的工作流程,你会知道如何随着时间推移改进你的客服,而不是一开始就随便打个客服,假设它能成功。我甚至会说,如果有人卖给你一键代理,那纯粹是营销。你不想为这种想法买单。

我更愿意选择那种“我们会为你建造这条流水线”的公司,他们会随着时间学习并构建一个改进的飞轮,而不是一个开箱即用的产品。要替换任何关键工作流程或构建能够带来显著投资回报的系统,即使你拥有最好的数据层和基础设施层,通常也需要四到六个月的工作时间。

03 超越技术的领导力、文化与流程重构

主持人:你在成功打造AI产品的公司中还看到哪些模式和工作方式?人们最常陷入的陷阱是什么?

Aishwarya Naresh Reganti:我把成功看作一个三维三角,但不总是技术性的。每一个技术问题首先都是人的问题。我们合作过的公司,成功通常来自三点:优秀的领导者、良好的文化和技术能力。

在领导者方面,很多公司的领导者在过去10到15年里建立了直觉,并因此备受推崇。但有了AI,这些直觉必须被重新学习,领导者也必须保持脆弱性。

我曾与Rackspace的首席执行官Gagan共事。他每天早上4点到6点都会专门用来赶上AI的进度,不安排会议,只收听最新的AI播客或信息。他甚至会在周末举办编程聚会。我认为领导者必须回归亲力亲为,不是为了执行任务,而是为了重建直觉。

你必须接受自己的直觉可能不对,甚至可能是房间里最笨的人,并愿意向每个人学习。这是那些打造成功产品的公司的显著区别,因为这引入了自上而下的策略。

如果一群工程师不信任技术或对其期望不一致,你就很难争取到领导者的支持。很多同事说,领导者根本不了解AI能解决问题的程度,或者以为随便写点代码就能上环境。你真的需要了解AI今天的能力范围,才能指导公司内部的决策。

第二个是文化。我合作的很多企业并不是AI原生的,他们引入AI往往是因为竞争对手在做。虽然很多用例已经成熟,但过程中常伴随FOMO和对被取代的恐惧。

领域专家在构建有效AI产品中至关重要,因为你需要咨询他们来定义AI的理想行为。但我也遇到过很多领域专家不愿交流,因为他们觉得工作受到威胁。这一切还是源于领导者。

你需要建立一种赋权文化,让员工明白AI是用来融入工作流程、让生产力提升十倍的工具,而不是取代他们的威胁。你希望整个组织团结一致,让AI为你工作,而不是让员工试图守住自己的饭碗。

第三个是技术部分。成功的人非常执着于理解自己的工作流程,并明确哪些部分适合AI,哪些需要人工。

自动化通常不是单靠AI代理就能解决的,往往需要机器学习模型和确定性代码配合。你需要专注于理解工作流程,才能为问题选择合适的工具,而不是执着于技术本身。另一个模式是理解使用非确定性API的理念,这意味着AI开发生命周期结构不同,迭代速度很快。关键是能否快速迭代并提供足够的数据来估算行为,从而制造出飞轮。

截至目前,关键不在于成为第一家拥有代理的公司,而在于是否组装好了合适的飞轮以便持续改进。如果有人说“我们有一键代理,两三天就能部署并显示显著提升”,我会持怀疑态度。这不是因为模型不存在,而是因为企业数据和基础设施通常非常混乱,存在大量技术债务。

主持人:在我们进入这个框架的其他话题之前,还有什么你认为大家需要特别了解的吗?

Aishwarya Naresh Reganti:我们最常被问到的问题是:如何判断是否需要进入下一阶段,或者当前阶段是否已校准足够?其实没有严格的规则书,关键是尽量减少意外。

比如,如果你每隔一两天校准一次,却发现没有新的数据分布模式,用户的使用方式也趋于一致,你获得的信息量变得非常少,这时就知道可以进入下一阶段了。判断标准很简单:当你不再收到新信息时,就是准备好了。

但也要理解,有时会有事件彻底破坏系统校准。例如,GPT-4o被弃用,大多数公司必须切换到GPT-5,而两者特性差异巨大,这就意味着你的校准失效了,必须重做。

此外,用户行为也会随时间演变。即使是消费品,你现在与ChatGPT交流的方式也不同于两年前,因为你知道它的能力提升了。当系统能解决一个任务时,人们会兴奋,并想在其他任务上尝试。

我们曾为核保人开发过一个系统,帮助他们从30到40页的协议文件中筛选政策信息以批准贷款。起初的三四个月,大家印象深刻,甚至报告了工作时间的变化。但随后我们发现,他们因兴奋而开始提出未预料到的深刻问题。例如,他们会直接上传整个申请文件,问:“对于这种情况,之前的核保人是怎么做的?”

对用户来说,这似乎是自然延伸,但对产品架构却是巨大挑战。现在系统不仅要知道政策X、Y、Z,还需要理解贷款背后的含义,如收入范围、地理区域等,并分析历史文件来给出答案。

所以,看似自然的用户需求,对开发者可能很难实现。当你发现用户行为发生这种演变时,就知道需要回头重新校准了。

主持人:从产品角度来看,你认为明年的AI会是什么样子?请给我们一个你认为未来会怎样发展的愿景,比如到2026年底。

Kiriti Badam:我认为背景Agent潜力巨大。AI目前难以创造价值,主要是因为缺乏上下文理解,而这源于它未连接到工作发生的实际场景。通过赋予代理更多背景信息,它能理解你的优化指标和活动意图,从而主动提供价值。

例如,我们已通过ChatGPT实现了每日更新,提示你可能关心的事项,激发新的思考。扩展到复杂任务,如编码时,它甚至能自动修复工单并生成补丁供你在一天开始时审阅。这将是2026年产品发展的强劲方向。

Aishwarya Naresh Reganti:我全力支持2026年的多模态体验。2025年我们在生成与理解上均有进步,但人类本质上是多模态生物,交流中包含大量非语言信号,如点头或表情,这些维度尚未被充分探索。

更好的多模态体验将带来更接近人类的对话丰富度。此外,多模态理解的提升将能处理大量手写文档和混乱PDF等现有模型难以应付的数据,释放巨大的信息价值。

本文由人人都是产品经理作者【硅基观察Pro】,微信公众号:【硅基观察Pro】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。

题图来自Unsplash,基于 CC0 协议。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!