我是如何用 Harness 架构给 AI 产品赋能的

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

我是如何用 Harness 架构给 AI 产品赋能的

x笑x

2026-05-28

0 评论 713 浏览 1 收藏

12 分钟

当大多数AI产品还在扮演API搬运工的角色时，一款面向内容制作公司的品牌视觉资产银行工具，通过引入Harness架构彻底改变了游戏规则。本文将深度剖析如何通过Brand Context Agent与Quality Eval Agent的双智能体设计，在自然语言需求与AI精确参数之间搭建起智能桥梁，实现从AI工具到AI助手的质变飞跃。

大多数 AI 产品，说白了，只是 API 的搬运工。

用户输入一段文字，调用一个 AI 接口，把结果返回给用户。这条链路三步走完，产品就算上线了。这没什么问题，但它有一个根本性的缺陷：它假设 AI 每次都能给出足够好的结果。

但 AI 不是这样工作的。

这是我在做一款面向内容制作公司的 AI 生产工具时，花了很长时间才真正搞清楚的事。

我在做什么，遇到了什么问题

这个产品叫品牌视觉资产银行，简单说就是帮内容制作公司把客户的品牌知识变成可以被 AI 调用的资产，每次生产不从零开始，每次输出都符合品牌标准。

产品逻辑想清楚之后，最难的问题来了：怎么保证 AI 生成的内容符合品牌标准？

用户告诉系统”帮我出一条蒙牛中秋节的视频”，系统要怎么把这句话变成一张高质量的、符合蒙牛品牌感的图片？

最直觉的做法是：拿到用户的需求，直接调用图像生成 API，把结果返回给用户。

这个做法的问题是：图像生成 API 需要的不是一句”帮我出蒙牛中秋节的视频”，它需要的是精确的正向提示词、负向提示词、LoRA 权重、采样参数、参考图选择……这些参数的质量直接决定输出的好坏，而每个品牌的这套参数都是不同的。

更麻烦的是，就算参数设置得还不错，生成结果也不一定能用。品牌色偏了、产品渲染失真、整体风格跑偏——任何一个问题都会导致内容不可用，但系统没有办法自己判断这些问题。

这就是我当时面临的核心产品问题：用户的自然语言需求和 AI 需要的精确参数之间有一个巨大的鸿沟，生成结果的质量没有人在把关。

从产品需求出发，我想到了什么

这个问题如果靠人来解决，逻辑是清楚的：

一个资深的 AI 内容生产专家，拿到用户的需求，先去读品牌手册，看产品档案，理解这个品牌的视觉语言，然后把这些知识转化成 AI 能理解的生成参数。生成完之后，他还要对着品牌标准验收：颜色对不对、产品渲染准不准、整体风格符不符合——通过了才交给客户，不通过打回去重改。

这个流程里有两个核心动作：一是把品牌知识翻译成生成参数，二是对结果做品牌标准的质量验收。

我意识到，这两个动作都可以用 AI 来做，只是需要两个不同的 AI 角色。

Harness 是什么

在解释具体设计之前，先说一个概念。

Harness 架构，通俗理解就是：在用户和 AI 工具之间，放一个会思考的调度层。 它不是直接调用 AI，而是先想清楚怎么调用，调用完再想清楚结果够不够好，不够好就带着改进意见重新来。

这个调度层可以包含多个 AI 角色，每个角色负责一件具体的事，整个流程由一个中央编排器来管理。这就是 Harness 名字的由来——像一套马具，把不同的力量拴在一起，朝同一个方向走。

区别于普通的”调用 API”模式，Harness 的核心价值在于两点：智能参数组装和质量反馈闭环。

产品设计：两个 Agent 的逻辑

我给这个产品设计了两个 Agent 节点。

第一个：Brand Context Agent。

职责只有一件事：把用户的自然语言需求，结合品牌档案里的知识，翻译成 AI 图像生成需要的精确参数。

它工作的时候，会从数据库里读取这个品牌的颜色体系、风格描述、可用的 LoRA 模型、历史优质内容参考图……然后理解用户说的”中秋节场景，突出礼品感”是什么意思，决定用哪个 LoRA、深度图选哪张、提示词怎么写、参数怎么配。

这个 Agent 用的是 DeepSeek 的大模型，输出的是一个结构化的 JSON 参数包，包含所有图像生成需要的信息，还有一个 reasoning 字段，用中文解释它为什么这样配参数。

第二个：Quality Eval Agent。

职责只有一件事：对生成结果做品牌标准的质量验收，给出评分和具体的改进建议。

它工作的时候，拿到生成的图片和品牌档案里的产品参考图，从四个维度评分：品牌色准确性、产品还原度、风格一致性、商业可用性。总分 100 分，达到 75 分算通过。不通过的话，它会用中文说清楚哪里出了问题，比如”产品 LoRA 权重略高，酒瓶反光过于强烈，建议调低至 0.65″。

这个 Agent 用的是通义千问的视觉模型 Qwen-VL，专门处理图像理解任务。

产品设计：反馈闭环的逻辑

两个 Agent 之间的关系不是串行的，而是形成了一个反馈闭环。

如果 Quality Eval Agent 判断结果不通过，它的改进建议会被传回给 Brand Context Agent，作为下一次调参的依据。整个流程最多跑三次迭代，直到通过质量验收，或者达到次数上限为止。

这个设计解决了一个产品层面的核心问题：让系统有了自我纠错的能力。

用户不需要懂 LoRA 权重是什么，不需要懂为什么产品反光过强，不需要手动调参重新生成。他只需要描述想要什么，系统会在后台把这个事做到足够好再交给他。

从用户体验的角度来说，这个差别是：一个”AI 工具”和一个”AI 助手”的差别。

产品实现：怎么做出来的

架构想清楚之后，实现这件事我用的是 Vibe Coding 的方式——用 AI 辅助写代码，不是从头手写。

整个技术栈是 Next.js 14 加 Supabase。所有 AI 接口统一用 openai SDK，只是不同厂商的 baseURL 不同——DeepSeek 是一个 URL，通义千问是另一个 URL，硅基流动的图像生成是第三个 URL。这个统一化的好处是：换厂商的时候只改一行配置，不需要重写业务逻辑。

Harness 编排层的核心代码是一个 while 循环，最多跑三次：Brand Context Agent 出参数，调图像生成 API，Quality Eval Agent 评分，通过就存库返回，不通过就带着反馈继续。

这段逻辑大约 60 行代码，是整个产品最核心、最值钱的部分。

实现过程中最难搞定的不是 Agent 本身，而是两件配套的事：一是 Agent 的 System Prompt 要写到什么程度它才能稳定输出合格的 JSON，二是 Supabase 的多租户 RLS 策略——这两件事 AI 辅助生成的代码都不能直接信任，必须人工审查。