复盘50+个实战案例，终于找到了AI产品落地的关键

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

复盘50+个实战案例，终于找到了AI产品落地的关键

硅基观察Pro

2026-01-20

0 评论 1121 浏览 0 收藏

24 分钟

当行业痴迷于'全自动代理'的炫目未来时，OpenAI Kodex团队负责人Kiriti Badam与Alexa早期研究员Aishwarya Naresh Reganti却提出了截然不同的务实路径。基于50多个实战案例，他们发现AI产品失败的核心并非技术瓶颈，而是方法谬误——非确定性特性要求全新的产品哲学。本文揭示'渐进式自主'框架：从高控制、低风险场景起步，构建持续校准的信任飞轮，让AI在赢得验证后逐步获得自主权。这不仅是技术路径，更是领导力重塑与组织转型的系统工程。

尽管技术飞速进步，许多团队在将AI融入实际业务时，却陷入迭代混乱、投入巨大而收效甚微的困境。

Aishwarya Naresh Reganti与Kiriti Badam对此有着截然不同的清醒洞察。

Kiriti在OpenAI领导Kodex团队，拥有在谷歌构建十年AI基础设施的深厚背景；Ash则是Alexa与微软的早期AI研究员，发表了超过35篇论文。他们共同主导了从亚马逊、Databricks到众多初创企业在内的超过50个AI产品部署，深谙其中沟壑。

在本次深度对谈中，他们直指核心：问题往往不在于模型能力，而在于方法谬误。

行业痴迷于追逐“全自动代理”的炫目未来，却忽略了AI与非AI产品的根本性差异——非确定性。这导致团队常常从错误的地方开始，在复杂性的泥潭中挣扎，最终迷失了本该解决的真实问题。

他们提出一套被反复验证的务实框架：放弃对“终极智能”的一步到位幻想，转向一种“渐进式自主”的产品哲学。

即从高控制、低风险的场景起步，构建持续学习和校准的“飞轮”，随着信任的积累逐步移交自主权。这不仅关乎技术路径，更涉及领导力重塑、组织文化转型以及对工作流程的深刻解构。

以下便是两位实战派专家带来的完整经验凝结，enjoy~

01 拥抱非确定性与控制权的权衡

主持人：我们一起写了一篇客座文章。他们有一个非常关键的洞见，就是构建AI产品与开发非AI产品非常不同。

Aishwarya Naresh Reganti：大多数人往往忽视这种非确定性。你不知道用户会如何使用你的产品，也不知道大型语言模型会如何回应。第二个区别是能动控制权的权衡。每次你把决策能力交给智能系统时，你其实是在放弃你那边的某种控制权。

Kiriti Badam：因此，我们建议逐步构建。当你从小处开始时，它迫使你思考你要解决的问题。在AI的这些进步中，一个简单而滑溜的路就是不断思考解决方案的复杂性，而忘记你正在解决的问题。

Aishwarya Naresh Reganti：这并不是说你是第一家在竞争对手中拥有经纪人的公司。关键是你是否已经建立了正确的飞轮，以便随着时间推移不断改进。

主持人：你认为当前公司在开发AI产品时，主要遇到了哪些问题？进展如何？

Aishwarya Naresh Reganti：我认为2025年和2024年有很大不同。第一，怀疑情绪明显减少了。去年很多领导者认为这可能只是又一波加密货币浪潮，持怀疑态度。当时的很多用例更多是对你数据的闲聊，就自称是AI产品。

今年，公司们开始重新思考用户体验和工作流程，真正理解到必须拆解和重构流程，才能打造成功的AI产品。这是精彩之处。

糟糕的是执行依然很混乱。这就像三岁马场，没有战术手册，没有教科书，你真的需要边做边摸索。而且AI生命周期，无论是部署前还是部署后，都与传统软件生命周期有很大不同。

传统角色之间的旧合同和交接，比如产品经理、工程师和数据人员，现在已经被打破。人们正在适应新的合作方式，拥有相同的反馈循环。以前，项目经理、工程师都有自己的优化反馈循环。

现在你们可能需要坐在同一个房间里，一起看“试剂痕迹”，或者说数据反馈，共同决定产品应该如何表现。这是一种更紧密的协作形式，公司们还在摸索中，这也是我今年在咨询业务中看到的情况。

我要强调，构建AI系统和软件系统有相似之处，但也有一些东西从根本上改变了开发方式。其中一个常被忽视的就是非确定性。你使用的是一个非确定性的API，而不是传统软件。

在传统软件中，比如Booking.com，你有一个完善的决策引擎。你想在旧金山预订两晚，产品设计会将你的意图转化为具体动作，你点击按钮、填写表单，最终实现意图。

但在AI产品中，这一层被一个流动的界面取代，主要是自然语言。这意味着用户可以用无数种方式表达意图。输入端是不可预测的。输出端，你面对的是一个非确定性的概率API。大型语言模型对提示非常敏感，且基本是黑箱。你不知道输出会是什么样子。

所以，你既不知道用户会如何使用产品，也不知道模型会如何响应。你在处理输入、输出和过程，对这三者都不完全了解。你必须试图预判行为并为此做准备。

这就引出了第二个区别：代理控制权的权衡。

很多人痴迷于构建能自主完成任务的系统。但每次你把决策能力交给智能系统时，你其实是在放弃某种控制权。你必须确保你的代理已经赢得了信任，足够可靠。这就是权衡所在：给AI更多自主权，你就会失去一些控制权，因此必须确保系统随着时间积累了足够的信任。

主持人：传统软件追求确定性，而AI具有非确定性。其核心挑战在于如何权衡自动化与人类控制，这正深刻改变产品设计的根本逻辑。

Kiriti Badam：这是对你提供的文本进行的精简和润色版本。我保留了核心的“优胜美地徒步”类比、关于“渐进式自主”的逻辑，以及“好事与坏事”的辩证观点，主要删减了口语中的重复、自我修正和冗余的连接词，使表达更紧凑有力。

是的，这绝对是你刚开始建造时，脑海中必须明确的关键点之一。

比如，想想你的目标是徒步优胜美地的半圆顶峰。你不会每天都去徒步，而是从小部分开始训练，然后慢慢进步，最终达到终点。我觉得这和打造AI产品非常相似。因为你一开始在公司里并没有所有的工具和背景，不能期望它立刻在最高层面工作甚至自我调整。

你需要有意识地从影响最小、人为控制最多的地方开始。这样你才能很好地掌握当前的能力边界和可实现的范围，然后再慢慢转向更具自主性、控制更少的部分。这能给你信心：“这就是我面临的具体问题，AI能够解决到这个程度。” 然后你再思考需要引入哪些背景、添加哪些工具来提升体验。

所以我觉得这既是好事也是坏事。

好处在于，你不必一开始就面对外部那些复杂的AI代理能力而感到自己做不到。每个人都是从非常极简的结构开始，然后不断演变。坏处，或者说挑战在于，当你试图将这种“一键代理”融入公司时，你可能会被这种复杂性压垮。但实际上，你可以慢慢“毕业”。

这非常重要，我们看到这种模式一再重复。

主持人：请以具体示例说明，如何从基础的行动与控制模块开始，逐步构建更复杂的AI代理或产品。

Kiriti Badam：例如，AI代理一个非常重要且普遍的应用是客户支持。想象一下，你是一家客户支持工单量很大的公司——其实不用想象，OpenAI在推出Image、GPT-5等成功产品时，支持量就激增。你会发现客户带来的问题类型各不相同。

所以，这并不是简单地把所有帮助中心文章都塞进AI代理。你需要大致明白自己能构建什么。最初的第一步是，比如你有人类支持代理，AI会先给出建议：“我认为这是正确的做法。”

然后你会得到人类反馈：这是个好建议，或者这是个坏建议。接着你可以回头分析，找出AI的缺点或盲点，并思考如何解决。一旦掌握了这些，你就可以提高自主权，不再需要向人类建议，而是直接把答案展示给客户。

之后，我们可以进一步增加复杂度。比如，之前只是基于帮助中心文章回答问题，现在可以添加新功能：我可以直接给客户退款，也可以向工程团队提出功能请求。如果从第一天就做这些，控制复杂性会非常困难。所以我们建议逐步积累，再逐步增加功能。

02 从“高控制、低自主”起步的渐进式自主

主持人：核心是动态授权模型，从严控起步，随着AI可靠性得到验证，逐步扩大其自主权。这是一个基于信任增长的渐进过程。

Aishwarya Naresh Reganti：我认为更高级的概念在于AI系统的行为校准。事先预测系统表现几乎不可能，那该怎么办？关键是不能破坏客户或最终用户体验。保持原有流程，但移除人类的控制权，而且并没有唯一正确的做法。

你可以自主决定如何限制权限。另一个限制自主性的例子是预授权用例。保险预授权非常适合AI，因为临床医生花费大量时间预先批准血液检查、核磁共振等。有些案例比较容易实现，比如MRI和阻滞检测——一旦掌握患者信息，AI就能处理批准流程；而像侵入性手术等风险较高的操作，则不适合完全交由AI。

因此，你可以大致判断哪些用例需要人工审核或循环介入，哪些适合AI处理。在整个过程中，还要记录人类的操作，以此构建一个改进系统的飞轮。这样既不影响用户体验，也不削弱信任，同时通过记录人类原本的决策来持续优化系统。

主持人：你建议的进阶策略是：从高控制、低主动的版本开始，逐步增加自动化。例如，编码助手 V1 做内联补全，V2 生成可审核的模块，V3 自动提交 PR。市场助理 V1 起草文案，后续版本逐步自动化：V2 构建并运行多步骤战役，V3 通过 A/B 测试跨渠道自动优化广告活动。

AI 产品不同，它们是非确定性的，用户体验也是非确定性的。人们会看到不同的内容、输出和聊天对话，甚至界面设计也可能不同。而且输出显然是非终结性的，这既是问题也是挑战。

Aishwarya Naresh Reganti：我们都比跟着一堆按钮走更自在，所以使用 AI 产品的门槛要低得多，因为你可以像和人类一样自然交流。但这也是问题所在：我们有很多交流方式，你要确保意图被正确传达，并触发正确的行动。因为大多数系统是确定性的，你希望得到确定性的结果，但非确定性技术就比较复杂。

主持人：设计时需权衡自主与控制。人们常急于追求理想模型，如V3，却因实现困难而受挫，甚至轻易放弃。

Kiriti Badam：没错。在达到V3之前，你需要对很多事情有信心。你很容易不知所措，代理在百种方式上出错，你不可能全部统计并修正。即使学会了评估流程，如果起点错误，也很难纠正。从小处、高控制、低能动性开始，迫使你思考到底要解决什么问题——我们叫“问题优先”。

显而易见，却常被忽视：AI进步让人一头扎进解决方案的复杂性，而忘记真正要解决的问题。

Aishwarya Naresh Reganti：所以大多数时候，如果你对问题本身着迷，并且非常了解自己的工作流程，你会知道如何随着时间推移改进你的客服，而不是一开始就随便打个客服，假设它能成功。我甚至会说，如果有人卖给你一键代理，那纯粹是营销。你不想为这种想法买单。

我更愿意选择那种“我们会为你建造这条流水线”的公司，他们会随着时间学习并构建一个改进的飞轮，而不是一个开箱即用的产品。要替换任何关键工作流程或构建能够带来显著投资回报的系统，即使你拥有最好的数据层和基础设施层，通常也需要四到六个月的工作时间。

03 超越技术的领导力、文化与流程重构

主持人：你在成功打造AI产品的公司中还看到哪些模式和工作方式？人们最常陷入的陷阱是什么？

Aishwarya Naresh Reganti：我把成功看作一个三维三角，但不总是技术性的。每一个技术问题首先都是人的问题。我们合作过的公司，成功通常来自三点：优秀的领导者、良好的文化和技术能力。

在领导者方面，很多公司的领导者在过去10到15年里建立了直觉，并因此备受推崇。但有了AI，这些直觉必须被重新学习，领导者也必须保持脆弱性。

我曾与Rackspace的首席执行官Gagan共事。他每天早上4点到6点都会专门用来赶上AI的进度，不安排会议，只收听最新的AI播客或信息。他甚至会在周末举办编程聚会。我认为领导者必须回归亲力亲为，不是为了执行任务，而是为了重建直觉。

你必须接受自己的直觉可能不对，甚至可能是房间里最笨的人，并愿意向每个人学习。这是那些打造成功产品的公司的显著区别，因为这引入了自上而下的策略。

如果一群工程师不信任技术或对其期望不一致，你就很难争取到领导者的支持。很多同事说，领导者根本不了解AI能解决问题的程度，或者以为随便写点代码就能上环境。你真的需要了解AI今天的能力范围，才能指导公司内部的决策。

第二个是文化。我合作的很多企业并不是AI原生的，他们引入AI往往是因为竞争对手在做。虽然很多用例已经成熟，但过程中常伴随FOMO和对被取代的恐惧。

领域专家在构建有效AI产品中至关重要，因为你需要咨询他们来定义AI的理想行为。但我也遇到过很多领域专家不愿交流，因为他们觉得工作受到威胁。这一切还是源于领导者。

你需要建立一种赋权文化，让员工明白AI是用来融入工作流程、让生产力提升十倍的工具，而不是取代他们的威胁。你希望整个组织团结一致，让AI为你工作，而不是让员工试图守住自己的饭碗。

第三个是技术部分。成功的人非常执着于理解自己的工作流程，并明确哪些部分适合AI，哪些需要人工。

自动化通常不是单靠AI代理就能解决的，往往需要机器学习模型和确定性代码配合。你需要专注于理解工作流程，才能为问题选择合适的工具，而不是执着于技术本身。另一个模式是理解使用非确定性API的理念，这意味着AI开发生命周期结构不同，迭代速度很快。关键是能否快速迭代并提供足够的数据来估算行为，从而制造出飞轮。

截至目前，关键不在于成为第一家拥有代理的公司，而在于是否组装好了合适的飞轮以便持续改进。如果有人说“我们有一键代理，两三天就能部署并显示显著提升”，我会持怀疑态度。这不是因为模型不存在，而是因为企业数据和基础设施通常非常混乱，存在大量技术债务。

主持人：在我们进入这个框架的其他话题之前，还有什么你认为大家需要特别了解的吗？

Aishwarya Naresh Reganti：我们最常被问到的问题是：如何判断是否需要进入下一阶段，或者当前阶段是否已校准足够？其实没有严格的规则书，关键是尽量减少意外。

比如，如果你每隔一两天校准一次，却发现没有新的数据分布模式，用户的使用方式也趋于一致，你获得的信息量变得非常少，这时就知道可以进入下一阶段了。判断标准很简单：当你不再收到新信息时，就是准备好了。

但也要理解，有时会有事件彻底破坏系统校准。例如，GPT-4o被弃用，大多数公司必须切换到GPT-5，而两者特性差异巨大，这就意味着你的校准失效了，必须重做。

此外，用户行为也会随时间演变。即使是消费品，你现在与ChatGPT交流的方式也不同于两年前，因为你知道它的能力提升了。当系统能解决一个任务时，人们会兴奋，并想在其他任务上尝试。

我们曾为核保人开发过一个系统，帮助他们从30到40页的协议文件中筛选政策信息以批准贷款。起初的三四个月，大家印象深刻，甚至报告了工作时间的变化。但随后我们发现，他们因兴奋而开始提出未预料到的深刻问题。例如，他们会直接上传整个申请文件，问：“对于这种情况，之前的核保人是怎么做的？”

对用户来说，这似乎是自然延伸，但对产品架构却是巨大挑战。现在系统不仅要知道政策X、Y、Z，还需要理解贷款背后的含义，如收入范围、地理区域等，并分析历史文件来给出答案。

所以，看似自然的用户需求，对开发者可能很难实现。当你发现用户行为发生这种演变时，就知道需要回头重新校准了。

主持人：从产品角度来看，你认为明年的AI会是什么样子？请给我们一个你认为未来会怎样发展的愿景，比如到2026年底。

Kiriti Badam：我认为背景Agent潜力巨大。AI目前难以创造价值，主要是因为缺乏上下文理解，而这源于它未连接到工作发生的实际场景。通过赋予代理更多背景信息，它能理解你的优化指标和活动意图，从而主动提供价值。

例如，我们已通过ChatGPT实现了每日更新，提示你可能关心的事项，激发新的思考。扩展到复杂任务，如编码时，它甚至能自动修复工单并生成补丁供你在一天开始时审阅。这将是2026年产品发展的强劲方向。