Claude团队Anthropic最新博客：AI Agent产品评估测试体系完整指南 | 人人都是产品经理

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

{{ userInfo.member ? '查看权益' : '开通会员' }}

发布

注册 | 登录

Claude团队Anthropic最新博客：AI Agent产品评估测试体系完整指南

歪斯Wise

2026-01-21

0 评论 747 浏览 0 收藏

9 分钟

AI产品的评估困境正在成为行业痛点。当Agent获得多轮对话、工具调用等高级能力时，传统的黑箱测试方法已完全失效。本文深度拆解Anthropic提出的评估体系框架，从代码评分器到人类质检的黄金标准，剖析如何用结构化Trace和分层评估打破'盲飞'状态，为AI产品经理提供可落地的质量提升方案。

担任 AI 产品经理以后，我最大的痛苦，不是把东西做出来，而是把它做好。

现在做一个60分的Agent真的越来越容易了，扣子、Dify的可视化编排，或者更轻量的知识库产品，把文件丢进去，最简单的Agent就做出来了。

但真正难的是：怎么样从60分达到90分？

之前我花了很长的时间调提示词、换切片、加召回、上重排。每一个单点的优化，似乎都能提升质量，但上线后数据却没有什么变化。

我陷入了一个黑盒，我不知道这次改动是让模型在A问题上变好了，但会不会在B问题表现得更差，甚至还有引发了C和D的问题。

你没有证据证明它变好，也没有证据证明它变差。

Anthropic 把这种状态形容为”flying blind”，看不见仪表盘、飞机外完全没有能见度，只能凭直觉赌概率。

所以，我们才需要对AI产品建设评估体系。

让Agent变强的那些能力，恰恰让它更难评估

多轮对话、工具调用、状态修改、临场发挥，这些赋予Agent自主性的能力，也让Agent的不确定性变得更高。

而应对不确定性事物的办法，只有一个：对它进行工程型的拆解。

一次评估，本质上是一次结构化的测试，给系统输入，再用评分逻辑判断是否成功。让评估告别感性的还不错，让它变成更理性、可重复运行的机制。

每一条测试用例，都可以理解为是上图的Task，它拥有输入和期望的输出，作用是在后续再次运行这条输入的时候，用实际输出和期望输出去进行比对。

而比对的结果，用评分器（Garder）来判定。

它基于用例的表现，对它设置的1个或者多个评估指标。大多数情况下，这些评估指标锚定在AI产品的输入、期望输出、实际输出。

最重要的部分，在我看来是博客中所说的Trace，也就是轨迹。

Trace可以理解为一次请求，用户的一次输入和模型一次输出，以及这个过程中发生的所有事情。

一次AI产品的端到端请求，过程会经过无数的节点，例如意图识别、知识库召回、切片重排等等。

Trace的目标是让我们看见过程中到底发生了什么，让我们在出现问题的时候至少死个明白。

不要用一种方式衡量所有的Agent：代码、模型、人类

评分器，是Anthropic在博客中评估体系的核心组件：它决定了你如何衡量Agent的表现。

代码评分器

代码评分器最快、最便宜、也最客观，它擅长判断”有没有”、”对不对”、格式对不对、字段齐不齐。但一旦遇到开放问题”哪个回答更好”、”这个答案有没有温度”，它就彻底失效了。

模型评分器

所以也会引入模型评分器，也就是LLM As Judge。

大模型的突破在于能够理解自然语言，所以它能够评估开放式任务的答案质量。

这是Regas关于正确性的指标描述，方便朋友们更直观的理解。

它的局限性是什么呢？大模型本身的输出就不是确定性的，我们用不确定性评估另一种不确定性，本来就是在走钢丝。

这就像让一个醉汉去判断另一个醉汉走没走直线，当涉及到到上下文相关性分析的指标时，上下文变长、Token会暴增，随之而来注意力机制下降，导致出现幻觉。

人类评分器

这一个部分是最贵的，也是最真实的。传统的AB实验依旧有效，人工质检依然是黄金标准。但我们很难天天请业务专家为我们 Agent打分，用户也很少愿意认真反馈。

目前来看比较折中的办法还是代码+质检64开，确定性的部分尽量用代码搞定，剩下的再用人或模型兜底去解决。

不要幻想一上来就做完美的评估系统

Anthropic也这么说：尽早开始！！！Start now，start early！！！

从第一天就要开始沉淀你的评测集，去维护你的输入和期望输出，然后把Bad Case，无论是自己测试出来的还是用户反馈的都沉淀下来。

当有了评测集后，再逐渐考虑均衡性的问题，这个节点的用例会不会太多，每个节点是否平衡，不断地提升自己的覆盖范围。

第二个部分，就是建设自己的评估指标，作为AI产品，到底怎么评估自己的AI产品好和坏呢，尽可能采取确定性的评分。

例如在信息提取的Agent，可能是字段的完整性、准确性。在咨询类的Agent，可能是意图分类的准确性，在答案质量环节才基于LLM做相关性、相似性的评估。

追踪让你死得明白，评测保障看见未来。

Anthropic官方博客-Demystifying evals for AI agents

https://www.anthropic.com/engineering/demystifying-evals-for-ai-agents

作者：Wise，公众号：Becomewiser

本文由 @Wise 原创发布于人人都是产品经理，未经许可，禁止转载。

题图来自 Unsplash，基于 CC0 协议。

该文观点仅代表作者本人，人人都是产品经理平台仅提供信息存储空间服务。

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

歪斯Wise

AI产品负责人，@歪斯Wise

41篇作品 415551总阅读量

公众号突然升级“发表”功能，微信想开了？

09-159814 浏览

公众号突然升级“发表”功能，微信想开了？

188家国产大模型：挑战与机遇，未来杀手级AI应用究竟该长什么样子？

11-174138 浏览

188家国产大模型：挑战与机遇，未来杀手级AI应用究竟该长什么样子？

薄盒借周杰伦IP卖藏品，引出了元宇宙的“空城困境”

09-213201 浏览

薄盒借周杰伦IP卖藏品，引出了元宇宙的“空城困境”

超级IP个体：未来的商业模式

12-261622 浏览

超级IP个体：未来的商业模式

频频联名的茅台，是抓住了年轻人，还是过度消耗品牌？

09-182636 浏览

频频联名的茅台，是抓住了年轻人，还是过度消耗品牌？

评论

目前还没评论，等你发挥！