DeepSeek 狂招评测工程师,我看懂了:大模型的盲盒时代彻底结束
DeepSeek 等大厂重金招募AI评测专家的背后,是一场关于AI产品落地的革命。评测引擎Harness的崛起,正在终结大模型“盲盒时代”的混乱,将不可控的AI输出转化为商业场景中的确定性价值。本文通过飞书群自动化案例,深度拆解如何用评测管线替代玄学提示词,实现99.9%的解析成功率,揭示AI产品从玩具到工具的进化路径。

这两天刷圈,看到 DeepSeek 突然放出一批核心岗位,不仅要 Agent 研发,还专门重金招“数据评测专家”,甚至要求必须重度依赖各种 AI 编程工具。与此同时,国内几个顶尖团队搞的 Evaluation Harness(自动化评测引擎)也火得一塌糊涂。
群里很多同行都没看懂这背后的风向,还在那儿到处求什么万能提示词。我只能说,别求了,时代变了。
作为天天在一线死磕业务落地的 B 端产品经理,看到评测引擎被摆到这个高度,我真的松了口气。大模型的“盲盒时代”,终于要结束了。
一、盲盒时代的切肤之痛:被一行废话搞崩溃的产线
大家摸着良心想想,过去这两年,咱们是怎么做 AI 产品的?
老板砸钱买算力接接口,产品经理在后台写一堆玄学一样的 Prompt(提示词)。我们以为只要加上一句“请严格输出 JSON 格式,不要说废话”,大模型就会乖乖听话。
但现实极其打脸。在真实的业务流里,大模型就像一个极度聪明但情绪极其不稳定的实习生。有 90% 的时候它表现完美,但剩下 10% 的时候,它会突然在 JSON 前面加一句“好的,以下是您需要的数据:”,或者少输出一个括号。
就因为这一句废话或者一个括号,后端的解析代码直接报错,整个产线的上下游瞬间卡死。
然后咱们怎么排查?跑去改那两句虚无缥缈的提示词,加一句“严禁输出任何其他字符”,然后双手合十祈祷它明天不要再犯病。这简直是行业笑话,这不叫工程落地,这叫赛博求仙。
DeepSeek 招评测专家,以及评测框架的爆火,就是在给全行业一巴掌:不能被精确定量、不能被全自动测试和拦截的 AI,在真实的商业环境里一文不值。我们需要的是给野马套上缰绳的人,Harness 这个词,本意就是马具、缰绳。
二、实战拆解:如何用 Harness 替代 Prompt
空谈概念没有意义。为了说明白到底什么是“给 AI 套缰绳”,我直接拆解一个我们内部最近跑通的真实案例:飞书群自动化流转中心。
业务痛点很简单:我们有一个核心项目群,每天群里会涌入大量的客户反馈、云文档链接、现场图片和长语音。以前需要专人每天花 2 个小时去挨个点开、提炼核心诉求、打标签,然后录入到内部的工单系统里。
一开始,我们也是典型的“盲盒思维”。写了一大段 Prompt,把群消息喂给大模型,让它输出结构化表单。结果上线第一周,工单系统崩溃了三次。原因是大模型偶尔会产生幻觉,生编硬造出一些不存在的标签,或者格式错乱导致数据库拒绝写入。
痛定思痛后,我们彻底抛弃了在提示词上雕花的做法,转而在模型外面裹了一层极其严苛的自动化测试与控制引擎(Harness 管线)。
我们是这么设计的:
- 强校验网关:大模型输出的内容不再直接进入工单系统,而是先进入我们的评测脚本。脚本会毫秒级地进行 JSON Schema 校验。只要格式不对,立刻拦截。
- 自动化闭环重试:如果被拦截了怎么办?不需要人工介入。脚本会自动把报错信息(比如“第 15 行缺少逗号”或者“标签不在白名单内”)作为上下文,丢回给大模型,强制它进行自我修复。我们设定了最多 3 次的静默重试机制。
- 幻觉核对机制:针对大模型容易胡编链接的问题,评测脚本会自动提取输出结果中的 URL,向飞书开放平台发起一次轻量级的校验请求。只要链接打不开或者域名不符,直接判定为幻觉废弃。
- 降级与人工熔断:如果大模型重试 3 次依然失败,Harness 引擎会把这条原始消息标记为“红灯”,推送到人工审核队列,绝不让脏数据污染主数据库。
三、数据反馈:把随机性压榨成确定性的 ROI
加上了这层“缰绳”之后,业务数据发生了质的变化。
在这套 Harness 管线的压制下,我们不再需要花费大量精力去微调提示词。即使底层大模型偶尔抽风,评测引擎也能在后台静默拦截并修复。
上线一个月后,该业务流的解析成功率从最初的 73% 直接锁死在了 99.9%。每天 2 小时的人工梳理时间被彻底砍掉,而整个自动化流转的过程中,业务一线人员甚至没有看到任何一个“AI 对话框”,也没有输入过任何一句指令。
这就叫把不可控的黑盒,死死按在确定性的业务 ROI 账本上。
四、结语:告别对话框迷信
那些天天沉迷于造一个需要单独登录的“企业专属对话框”的公司,最后大概率会被淘汰。因为对话框是所有产品形态里,随机性最大、最不可控的玩具。在一条本该追求吞吐量和准确率的业务流里,让员工去跟对话框拉扯,是极大的资源浪费。
真正的 AI 落地,是搭建一套长在企业骨架里、静默运行的业务中枢。
别去研究怎么写花里胡哨的提示词了。去看看人家大厂是怎么做 Evaluation Harness 的,去研究研究评测脚本,看看怎么搭建校验管道,怎么把大模型的随机性,压榨成我们 B 端要的确定性。
把极不稳定的技术,翻译成极度稳定的商业回报。干好这套给 AI 套缰绳的脏活累活,这才是咱们在下一波浪潮里唯一的饭碗。
本文由 @JK硅行者 原创发布于人人都是产品经理。未经作者许可,禁止转载
题图来自Deepseek官网截图
- 目前还没评论,等你发挥!

起点课堂会员权益




