用了一年 Claude Code,我想给产品经理说几句实在话
Claude Code正悄然重塑产品经理的技术边界。本文通过一年实战中开发的Chrome插件、网站和自动化项目,揭示了这款编程AI工具如何将「会不会写代码」的门槛转化为「能否清晰描述需求」的能力挑战。当大多数测评聚焦技术指标时,作者犀利指出产品经理最需要警惕的三大陷阱:过度自信的代码修改、中文语义理解的隐形短板,以及令人意外的替代成本依赖。

我用 Claude Code 有一年多了。说”用了一年”,不是指每天都在用,是指它已经嵌进我真实的工作节奏里,不是偶尔体验、写两行代码就算数的那种用法。
这段时间里,我用它做了三件比较有代表性的事:一个 Chrome 浏览器插件、一个网站、还有一个内容项目的自动化 skill。这三件事性质不同、复杂程度不同、遇到的问题也不同,放在一起,大概能说清楚 Claude Code 作为一个工具是什么性格,以及你作为一个产品经理去用它,会碰到什么。
市面上关于 Claude Code 的测评,写的人大多数是工程师。他们跑 benchmark、测代码补全准确率、和 Cursor 比上下文窗口、和 Copilot 比价格。这些测评有它的价值,但对我来说,这些都不是最重要的问题。产品经理使用编程 AI 工具,在意的是另一层:我能不能靠它把脑子里的想法变成真实运行的东西?它出错之后,我看不懂代码,怎么纠正?它改动了什么,我有没有办法知道?这三个问题,现有的测评几乎都没有认真回答过。
我具体做了什么
Chrome 插件
这个插件的出发点很实际:我平时刷文章,经常看到好内容想分享到小红书,但截图、裁剪、加文字、调排版,这套流程太长,每次都懒得做,最后就没分享。所以我想做一个 Chrome 插件,能把当前页面的文章内容直接提取出来,处理成可以发小红书的排版图片,一键导出。
这个需求我自己完全不会实现。不会写 Chrome 插件,不懂 DOM 解析,也不知道怎么把网页内容转成图片。但最后我用 Claude Code 做出来了,前后大概花了三天时间,每天一两个小时,描述需求、看生成的代码、跑一下、发现问题再描述、再调。整个过程里我写的代码量接近于零,我做的事情是描述、验证、反馈、再描述。
这是 Claude Code 对我来说最真实的价值所在:它把”会不会写代码”这道门槛,变成了”能不能把需求描述清楚”这道门槛。对我来说,后者比前者容易得多。但这个价值是有条件的,条件是你的需求足够具体、你知道自己要什么、并且你能判断它交出来的东西对不对。如果需求模糊,或者根本没有能力验证输出,Claude Code 对你帮助有限,或者说,它给你的东西你根本没办法用。
网站
网站的复杂度比插件高很多,不只是功能数量,是涉及到数据处理、状态管理、多个模块之间的协调。这个项目里,我踩了一个让我印象很深的坑,到现在还觉得值得认真说。
当时我在调整网站的一个数据处理逻辑,改动其实很小,就是一个字段的处理方式,五行代码左右的事情。我把改动描述给 Claude Code,让它帮我实现。但它没有只改那五行。它”理解”了我的意图,然后顺带把它认为逻辑相关的周边几处也一并改了。改完之后数据跑不通了。它再改,跑,还是不通。来来回回好几次,每次它都很笃定地告诉我”这次应该好了”,每次都没好。
最后确实跑通了,但我花了很长时间才想清楚整件事的根本原因:我只想改一处,它改了三处。然后它用第四次、第五次的修改,去修复它自己在第二次、第三次制造出来的问题。我们两个人一起,在费劲地解决一个原本不存在的问题。
如果我是工程师,在第一次循环之后就会发现这件事,因为看得懂它改了什么。但我不是工程师,我只能验证最终结果对不对,没办法验证过程。所以我一直以为问题出在我的需求描述上,不断重新解释,它不断重新改,越改越乱。
这是 Claude Code 最值得警惕的一个特性:它对局部任务有一种全局视角的冲动。你让它改一个地方,它会去判断这个改动对周边意味着什么,然后一并处理。多数时候,这是它比其他工具聪明的地方;偶尔,这是它制造混乱的来源。更麻烦的是,它自己不知道它在制造混乱。每一步它都是自信的,每次都告诉你”这次应该好了”。你很难从它的表现里判断,到底是真的好了,还是它又在绕弯路。
我后来学会的处理方式是给它划边界,而不是给它描述意图。不要说”帮我把这个数据处理逻辑改对”,要说”只改第47行到第52行,其他地方不动,帮我实现这个逻辑”。后者更麻烦,但出错率低很多。
内容项目的自动化 skill
这个相对顺,因为 skill 的结构比较清晰,本质上是写一套规则和模板,Claude Code 对这类任务的处理,比对复杂代码逻辑的处理稳定很多。这里遇到的不是技术问题,是另一类问题:当任务涉及大量中文内容和中文逻辑判断的时候,它的输出质量会有波动。不是翻车,是时好时坏,而且很难预测哪次好、哪次坏。这个问题在后面中文场景适配度那个维度里会展开讲。
四个维度的完整评估
维度一:真实可用度
结论先放这里:能用,而且对非工程师来说是真实的能用,不是凑合能用。但”能用”有一个非常重要的前提,这个前提在大多数测评里都没有说清楚。
先说能用的部分。Chrome 插件那个项目证明了一件事:Claude Code 确实能让一个不会写代码的人把想法变成可以运行的程序。这不是小事。在它之前,我这类需求要么找外包,贵、慢、沟通成本高,要么直接放弃,绝大多数时候是放弃。现在多了第三个选项,而且成本在可以接受的范围内。这对产品经理意味着什么?意味着你可以验证一些原来根本没法验证的想法。不是写 PRD 描述,不是画 mockup 演示,是真实跑起来,让真实用户用,拿到真实反馈。这个能力的价值,很难高估。
但”能用”的前提是你能判断它的输出对不对。这个前提听起来简单,实际上是一个挺高的要求。如果你让它写一段数据处理逻辑,而你自己不知道数据处理逻辑长什么样,你就只能验证最终结果。结果对了,你认为它做对了;结果不对,你以为是描述有问题。但实际上很可能是它的过程有问题,只是最终结果恰好蒙对了,或者是它改了你没让它改的地方,你没发现而已。
网站那次数据处理的问题,本质就是这个。我没有能力验证过程,只能验证结果,所以被它带着绕了很长时间,才意识到问题在哪。对”真实可用度”的判断,我最终的结论是:对于能验证过程的人,Claude Code 是非常有价值的工具;对于只能验证结果的人,它是一个高风险的工具。产品经理通常处于后一类,所以我们用它的方式需要特别设计,不能直接照着工程师的用法抄。
我自己的解法是前面提到的:粒度尽量小,每一步跑通之后再给下一步。这样每次”验证结果”的范围足够小,出错了也容易定位,不会等到整个系统跑不通了才发现不知道哪里出了问题。
还有一点想额外补充:Claude Code 的能力上限比你想象的高,但稳定性比你想象的差。同样的任务,今天做得很好,明天可能就莫名其妙地绕弯路。这不是 bug,是大模型的基本特性,每次推理都是概率性的,不是确定性的。工程师知道这一点,知道怎么和这个特性共处。产品经理如果没有建立这个预期,会被它的不稳定搞得非常沮丧。
维度二:中文场景适配度
这是我做测评时最没想到会有发现的一个维度,但最后得出了一个连我自己都有点意外的结论。
先说好的:Claude Code 理解中文需求的能力比我预期的强。我用中文描述需求,它用中文回应,双方基本能互相理解,不需要我刻意用英文来”驾驭”它。这一点在一年前还不是这样,那时候用中文描述复杂技术需求,时不时会出现理解偏差。现在这个问题基本解决了。
但”理解中文需求”和”适配中文场景”是两回事。在内容项目自动化 skill 的任务里,我遇到了一类很具体的问题:当任务涉及中文内容的逻辑判断时,比如根据中文文章的结构特点做某类分类、或者理解中文语境下的用户行为模式,它的输出开始变得不稳定。不是完全答不上来,是给的答案有时很准,有时明显是在用一套通用逻辑回应一个需要中文语境理解的问题。这两种情况从表面上看差不多,但用起来差很多。
具体的例子是这样的:做 skill 的时候,我需要它帮我判断某一类中文文章属于哪种内容类型。给了几个中文样本和分类标准,让它写分类逻辑。它写出来的逻辑,在我提供的样本上跑得挺好,但换了一批真实的中文内容之后,准确率掉了不少。后来我意识到,它处理这类任务的时候,更多是在做模式匹配,而不是真正理解中文内容的语义结构。中文内容的分类逻辑,有很多东西在英文训练数据里体现不出来,中文的行文习惯、中文读者的阅读预期、中文互联网内容的特定格式,这些都有盲区,而且它自己不知道自己有盲区。
这个问题没有很好的解法,只有一个能减少误伤的方法:涉及中文内容判断的任务,要给更多的中文样本,而不是更精确的逻辑描述。样本越多,它的模式匹配越准;逻辑描述再精确,也无法弥补它对中文语境理解的先天局限。
总体评价:中文场景适配度在工具性任务上是合格的,比如写代码、处理数据、执行明确的操作;在内容性任务上有明显局限,比如理解中文语义、做中文内容的质量判断。这个局限不是 Claude Code 独有的,但用之前最好有心理预期。
维度三:学习成本
这个维度我想推翻一个常见的说法。很多人说 Claude Code 上手门槛低,”会用命令行就能开始”,这是真的,但它描述的只是”开始用”的门槛,不是”用好”的门槛。这两件事相差非常远。
从开始用 Claude Code,到形成一套稳定的、真的在帮我做事的工作流,大概花了我两个月。不是两个月每天都在学,是两个月里经历了足够多的场景,踩了足够多的坑,慢慢建立起一套和它共处的方式。
这个过程里最难的不是学命令,是建立两个判断能力。第一个,判断什么任务适合交给它、什么任务不适合。这个判断能力不是从文档里学来的,是从失败里学来的。我交给它做过一些任务,结果它给了一个看起来很完整、实际上完全跑偏的方案,而我花了很长时间才意识到方向不对。这类失败多了,才开始有直觉:什么样的任务边界足够清晰,什么样的任务需要先拆解。
第二个,判断它的输出是否可信。这个更难。Claude Code 的输出通常是自信的,它不会说”这段代码我不确定”,它会给你一段看起来很完整的代码。这种自信有时候是真实能力的体现,有时候是它在”表演自信”。你需要建立自己的验证方法,而不是信任它的自信程度。
对于完全没有技术背景的产品经理,这两个能力各自都需要时间积累。粗略估计,从开始用到能稳定用好,至少需要一个月,而且是有具体项目可以练手的情况下。没有具体项目的话,我建议先不用。对着虚空练 Claude Code 是低效的,它的能力需要在真实问题上才能体现,光用来聊天或者跑示例,感受不到什么。
维度四:替代成本
我继续用 Claude Code 的核心理由,说实话不是因为它多好用,是停用它的代价太高。这个区别值得说清楚。”因为好用所以用”和”因为替代代价高所以用”,是两种完全不同的处境。前者是主动选择,后者是有一定程度的被动依赖。对 Claude Code,我更接近后者。
Chrome 插件做出来之后,已经成为我内容工作流的一部分。如果我停用 Claude Code,这个插件不会消失,但如果我想更新它、改功能、修一个 bug,就没有工具了。这不是大问题,但它意味着我在这个方向上的可持续性是依赖 Claude Code 的。网站也一样,跑着的时候一切都好,但它是个活的项目,需要迭代,迭代就意味着还是要用 Claude Code 来改。
这种依赖是双刃剑。好处是,这些项目真实存在、真实在运行,我在没有工程师的情况下把它们做出来了,这是 Claude Code 给我的真实价值。坏处是,我对这些项目的控制力取决于 Claude Code 的可用性和稳定性,它出问题、涨价、或者换了一个更差的版本,我都会受影响。
从纯替代成本的角度看,如果明天 Claude Code 停服,我需要找一个能接手的编程 AI,重新建立使用习惯,验证新工具能不能维护我现有的代码库,还要处理迁移中各种不可避免的问题。不是做不到,但代价不小。这个代价足够大,所以我短期内不打算换。这是我继续用它的真实原因,没什么别的。
给产品经理的几个具体建议
如果你是产品经理,正在考虑要不要开始用 Claude Code,下面几点是我自己踩完坑之后总结出来的,不是教条,是我觉得真的有用的东西。
第一,先找一个你现在就有的具体问题,用它来解决,而不是”学 Claude Code”。这两件事看起来差不多,效率差很多。对着教程练是低效的,对着真实问题练才能快速建立判断能力。我当初做 Chrome 插件,是因为我真的需要这个工具,不是为了练习 Claude Code。这个”真实需要”让我有动力跑通每一步,也让我有判断标准来评估它的输出对不对。
第二,粒度小,比什么都重要。每次只给它一个任务,跑通之后再给下一个。不是因为 Claude Code 没能力处理大任务,是因为大任务出错之后你很难定位问题。粒度越小,你的控制力越强。网站那次的教训就在这里,需求不够原子化,它就有了”优化周边”的空间,然后就出问题了。
第三,不要相信它的自信。它告诉你”这次好了”,不代表真的好了。自己跑一遍,验证结果,才算好了。这个习惯需要刻意建立,因为它的表达方式会让你觉得”它这么确定,应该没问题了”,这种感觉会误导你。
第四,做好被它拖慢的心理准备。有些任务,你以为半小时能搞定,结果花了三个小时。这不是 Claude Code 坏,是你和它之间还没建立足够好的协作节奏,或者这个任务本身超出了它能稳定处理的范围。对这件事有预期,陷入循环的时候才能更快意识到”需要换个方式”,而不是一直在同一个方向上死磕。
最后说几句
我会继续用 Claude Code,用法是:边界清晰的小任务,自己验证过程,不轻易信任它的自信。在这个框架下,它对我来说是有真实价值的工具,也是我目前找不到合适替代品的工具。
但出了这个框架,它会给你制造麻烦。不是因为它差,是因为产品经理用它的方式和工程师用它的方式本质上不同,这个差异需要你自己去感受和校准,没有办法靠读测评来代替。
下一篇我会测豆包 AI 助手。它和 Claude Code 解决的根本是两类问题:Claude Code 是”帮我把想法变成代码”,豆包更多是”帮我在日常工作流里做一个随时可以对话的协作者”。这两类工具的评估维度有重叠,但重点不一样,我会专门聊聊在豆包付费版值不值这个问题上,我的真实判断。
本文由 @悠酱 原创发布于人人都是产品经理。未经作者许可,禁止转载
题图来自Unsplash,基于CC0协议
- 目前还没评论,等你发挥!

起点课堂会员权益




