Skill 设计模式、落地场景与技术演进——2026年Anthropic 官方五大标

0 评论 9 浏览 0 收藏 16 分钟

近期为TO B中台系统搭了Agent,并做了40个Skill(这个数字还在增加)。

过程中一边做既定的方案,一边有新的需求发现,自行验证,快速发布。

其感受就是:不需要你有技术背景,也可以摆脱写PRD-评审-求开发发布才能应用的传统交付模式。

在将这些经验进行整体规划/架构梳理出结构化经验的过程中,看到了Anthropic对Agent Skills的官方总结,非常认同,一些自己思考的问题也得到了验证,于是整理分享。

01 Skill基础文件结构

官方定义

Anthropic 对Agent Skills 的官方定义是:

“Skills are organized collections of files that package composable procedural knowledge for agents.”

这句定义精准地揭示了Skills 的本质:“organized collections of files”——文件系统抽象,极低创作门槛。

Skill 不是一个复杂的二进制文件或需要编译的插件,它就是一个文件夹。

里面放的主要是Markdown 文本文件和可选的脚本。类似下面这样:

这意味着:

  • 创建Skill 的门槛极低——会用文本编辑器就能写;
  • 版本控制天然友好——直接放进Git 仓库,diff、merge、blame 全部可用分发极其简单——压缩打包或直接clone 即可。

Skill 在整个Agent 中的位置如下图:

AI产品常用场景设计

02 Skill标准设计模式

Google Cloud Tech 团队从大量实际Skills 中提炼出来五大标准设计模式最佳实践。

这五种设计模式覆盖了绝大多数Skill 的应用场景:

模式一:Tool Wrapper

的核心理念很简单:与其把某个库的最佳实践硬编码到系统提示词里,不如包装成一个 Skill,让 Agent 在需要时才加载。

这样做的好处:

  • 系统提示词保持精简
  • 上下文按需加载
  • 省 token团队的编码规范可以“即插即用”

实现要点:

  • references/ 目录存放详细的规范文档
  • SKILL.md 里告诉 Agent“什么时候加载”以及“加载后怎么用”

这是最简单也最实用的模式。

模式二:Generator

Generator(生成器) 解决的是:“每次输出结构都不一样”的问题。

如果你发现 Agent 写文档总是东一块西一块,这个模式能救你。

核心思路:

  • assets/ 目录放输出模板
  • references/ 目录放风格指南
  • SKILL.md 充当“项目经理”,指挥 Agent 按步骤填空

这么设计是把“内容”和“结构”分离。

  • 模板管结构,Agent 管内容填充。
  • 换个模板就能产出完全不同类型的文档,复用性极强。

模式三:Reviewer

Reviewer(审查器) 的精髓在于:把”查什么”和”怎么查”分开。

与其在系统提示词里写一长串”检查变量命名、检查是否有 SQL 注入风险、检查是否……”,不如把这些规则放到 references/review-checklist.md 里,让 Agent 动态加载。

好处:

把 Python 风格检查清单换成 OWASP 安全清单,同一个 Skill 瞬间变成安全审计工具——基础设施完全不变,只是换了个参考文档。

模式四:Inversion-先问再做

Agent 天生爱”猜”。用户说一句,它就想给出一个答案。

但在复杂场景下,猜错了比不回答更可怕。

Inversion(反转模式) 的核心:把”用户驱动 Agent”变成”Agent 面试用户”。

关键:

  • 明确的“门禁”指令,比如“DO NOT start building until all phases are complete”;
  • 分阶段提问,每个阶段必须等用户回答完才能进入下一阶段;最后才输出结果

这个模式有点像心理咨询——先倾听,后诊断。

很多失败的 Agent 项目,问题就出在”答得太快”。

Inversion 强制 Agent 慢下来,把需求搞清楚再动手。

模式五:Pipeline-严格流水线

有些任务,一步都不能少。

比如生成 API 文档,必须先解析代码、再生成文档字符串、再组装、再检查。

跳过任何一步,结果都可能出问题。

Pipeline(流水线模式) 用”硬检查点”确保流程完整。

设计亮点:

  • Step 2 那句“Do NOT proceed to Step 3 until user confirms”——这就是钻石门禁。
  • Agent 不能自己跳过,必须等人工确认。这对保证质量至关重要。

组合使用

1)Pipeline + Reviewer:每个阶段嵌入审查节点。

例如代码部署Pipeline:代码生成→代码审查→测试执行→安全审计→人工确认→部署。

2)Generator + Inversion:先收集参数再标准化生成。

例如周报生成Skill:先提问收集本周关键事项→确认优先级和重点→按模板生成标准化周报。

3)Pipeline+Generator+Reviewer:完整文档生产流水线。先收集素材→生成初稿→格式审查→内容审查→人工修改→定稿发布。

03 热门Skill应用

需要什么技能,就用`find-skills`去找;

想开发技能,用`skill-creator`去造;

其他技能按需取用,每个都是该领域的“最佳实践打包”。

1.元技能:学会“怎么用技能”

find-skills— 技能界的“应用商店”。告诉它你想做什么,它会自动推荐最合适的技能和安装命令,新手上路的第一步。

skill-creator— 技能“制造机”。Anthropic官方出品,手把手教你开发、测试、发布自己的技能,还支持并行对比测试,看哪个版本效果更好。

2.专家经验包

andrej-karpathy-skills— Karpathy的编程哲学打包成规则。

四句话核心:先想后写、极简至上、手术式修改、目标驱动执行。

适合追求高质量代码的人。

3.视频创作:用代码做视频

remotion-best-practices — React写视频的权威指南。30+规则覆盖动画、字幕、3D、转场等全流程。

hyperframes — HeyGen出品,用HTML+CSS写视频。时间轴动画、媒体同步,前端熟悉的配方。

4.浏览器与搜索:让AI自己上网

agent-browser — 浏览器自动化全能手。支持无头/真实/云端三种模式,15+命令类别,可操控网页、提取数据、执行JS。

web-search — 联网搜索即服务。一条命令搜索最新资讯并提取结构化内容。

5.趋势研究:30天热点秒懂

last30days — 跨平台趋势挖掘机。自动检索Reddit、X、YouTube、TikTok、GitHub等平台过去30天真实讨论,生成带引用来源的研究报告。

输入`last30days <主题>`即可。

6.云平台与数据库

microsoft-foundry — 微软AI Agent部署全家桶。

从创建、打包、推送到部署、调优,全生命周期覆盖,配套多个Azure子技能,合计安装量380万次。

supabase-postgres-best-practices — Postgres性能优化规则集。

8个优先级类别,含正确/错误SQL对比和EXPLAIN分析。

7.AIGC图像生成

ai-image-generation — 50+图像模型的万能遥控器。

从FLUX到Google Gemini,从文生图到4K放大,按速度/质量/成本灵活选择,最低$0.0001/张。

8.办公文档处理

lark-doc / lark-mail — 飞书文档和邮件操作技能,面向中文场景的办公自动化工具。

pdf / pptx / xlsx / docx — 官方出品的一站式文档处理方案。

以pdf为例:合并拆分、提取文字表格、OCR扫描件、加密解密、加水印,集成了pypdf、pdfplumber等主流库,即用型代码示例,累计7.7万次安装。

04 Skill技术演进方向

1.Skills 自主生成与进化

Google ADK 已展示Agent“自主编写新Skill”的早期能力。

这个方向的愿景是:Agent 在环境中试错→策略形成→元Skill 自动提炼→新Skill 诞生。

但SkillsBench 的研究发出了重要警告:自生成Skills 在整体上未带来任何显著收益,当前模型尚不具备可靠地自主编写其所依赖的程序性知识的能力。

这意味着“Skill 自主进化”仍处于非常早期的探索阶段。

2.多Skills 智能编排

从单Skill 调用演进为复杂工作流自动化。Agent 将能够像指挥乐队一样协调多个Skills 协同工作,处理跨领域的复杂任务。这需要更强大的编排引擎和任务分解能力。

3.跨模态Skills

当前Skills 主要处理文本、代码和结构化文档。未来的Skills 将支持图像识别、音频处理、视频编辑等多模态能力。

例如,一个“视频剪辑Skill”可以自动理解视频内容、提取精彩片段、添加字幕和特效。

4.自修复与A/B 实验

基于Evals 与在线反馈自动优化Skill 结构。Anthropic 为skill-creator 新增的测试框架正是这个方向的早期实践——可以写evals、跑基准测试、A/B 对比两个版本的Skill。

未来,Skills 将具备自我优化的能力:根据使用数据自动调整指令、精简冗余内容、改进工作流。

5.模型能力提升与Skill 粒度变化

随着模型本身能力越来越强,一些微小的Skill(如“如何格式化日期”)可能被模型内化,不再需要显式封装。

但高价值、高风险、高复杂度的流程性知识将继续以Skill 形式存在,且粒度可能变得更细、更专业。

05 Skill 工程实践建议

1.控制长度

SKILL.md 指令体建议控制在500行以内。

超过这个长度会带来两个问题:

  • Agent 在长文本中定位信息的效率下降;
  • 加载时间变长。

如果内容确实很多,将详细说明移入references/,通过Markdown 链接引用。

2.使用结构化标题

用清晰的Markdown 标题层级组织内容(H1用于主标题,H2用于大节,H3用于小节)。

Agent更容易在结构清晰的文档中定位信息。

避免过深的嵌套,H4及以下层级容易在模型注意力中丢失。

3.与版本控制整合

Skills天然适合Git管理:

  • 每个Skill独立仓库或monorepo中的独立目录
  • 使用Git 进行版本控制和协作
  • Code Review 确保Skill 质量
  • 标签和Release 管理Skill 版本

4.评测(Evals)驱动迭代

2026 年3 月,Anthropic 为skill-creator 新增了测试框架——可以写evals、跑基准测试、A/B 对比两个版本的Skill,全程不需要写代码。

这意味着Skills 的迭代可以像软件工程一样数据驱动:

评测驱动迭代的核心问题是:你的Skill“到底是在弥补模型能力的不足,还是在固化团队的工作方式”?

好的Skill 应该让Agent 比没有Skill 时表现更好,而不是简单地重复已有的工作习惯。

5.AI安全风控

(必做合规清单,上线必查)

1、内容安全

  • 输入过滤:违禁词、敏感人物、政治、色情、暴力拦截
  • 输出审核:模型生成内容二次风控、违规内容屏蔽
  • 边界管控:禁止实时生成违法话术、恶意代码

2、数据安全

  • 数据脱敏:手机号、身份证、隐私信息自动打码
  • 数据隔离:用户数据、知识库数据互相隔离,禁止泄露
  • 留存规则:会话日志定时清理、禁止违规导出用户数据

3、业务风控

  • 限流管控:单用户每日Token上限、调用频次限制
  • 防滥用:批量恶意提问、爬虫刷量拦截
  • 溯源审计:所有生成内容留痕,记录用户、时间、Prompt4、合规要求
  • 必备协议:隐私政策、用户协议、AI生成内容免责声明
  • 资质要求:算法备案、数据安全备案(企业级产品)

本文由人人都是产品经理作者【产品参赵】,微信公众号:【产品参赵】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。

题图来自Unsplash,基于 CC0 协议。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!