定义与含义
什么是 AI Skill?
AI Skill(技能)是 AI Agent / 大语言模型(LLM)应用中一个模块化、可复用的能力单元。它以标准化的文件夹形式组织,包含指令文档、可执行脚本、参考材料和静态资源,使 AI Agent 能够动态发现、加载并可靠地执行某一特定任务。
从工程角度看,Skill 是结构化上下文工程的核心载体——它将曾经散落在系统提示词、硬编码逻辑和散乱脚本中的“程序性知识”封装为可版本化、可分发、可组合的独立单元。
一个直观的类比矩阵
| 类比 | 含义 |
|---|---|
| 菜谱 | Skill 是“菜谱”,告诉 Agent 怎么做;MCP/工具是“厨房”,提供原料和设备 |
| 员工手册 | 像新员工入职培训文件一样,将操作规范一次性交给 Agent,无需每次都重新训练 |
| 乐高积木 | 每个 Skill 是一块独立积木,可通过组合拼出复杂工作流 |
| U 盘 | 即插即用——加载即多一项专长,卸载就还原为通用助手 |
历史演进脉络
AI Skill 并非凭空产生,而是 LLM 应用范式演进到一定阶段的必然产物:
| 时期 | 阶段 | 特征与局限 |
|---|---|---|
| 2022–2023 | 提示词工程时代 | 把所有知识塞进 system prompt,脆弱、上下文消耗大、无法复用 |
| 2023–2024 | 函数调用(Function Calling)时代 | OpenAI 引入结构化工具调用,但工具只是 API 接口,缺少操作流程 |
| 2024 | Agent 框架爆发 | LangChain、AutoGen、CrewAI 等涌现,Agent 有了规划能力,但“怎么做”仍分散 |
| 2025 Q4 | Skills 标准化 | Anthropic 发布 Agent Skills 开放标准,技能成为可互操作的一等公民 |
| 2026 | 生态爆发 | 技能市场成型,跨平台互操作,从开发者工具走向企业基础设施 |
Skill 要解决的核心问题
以往的 Agent 开发方法中,知识和流程被“烤进”提示词和代码里,导致四大痛点:
- 不可复用:同一个“生成 PDF 报告”的逻辑,在三个项目中写了三遍不同的提示词
- 上下文浪费:项目安装了 50 个 Skill,但只有 2 个会被当前任务用到——全部静态加载会耗尽上下文窗口
- 缺乏版本控制:技能逻辑分散在多处,无法追溯变更历史
- 确定性与灵活性的矛盾:纯提示词不可靠,纯代码不灵活
Skill 通过模块化 + 渐进式加载 + 指令与代码混合的架构,逐一解决了上述问题。
Skill 与 Agent / Plugin / Tool 的区别
这是整个概念体系中最核心的辨析。四个术语常常被混用,但它们在架构层次上扮演着截然不同的角色。
概念对比表
| 维度 | Tool(工具) | Plugin(插件) | Skill(技能) | Agent(智能体) |
|---|---|---|---|---|
| 抽象层级 | 原子操作 | 能力集合 | 操作流程 | 自主决策体 |
| 核心问题 | 能做什么 | 提供什么能力 | 怎么做 | 要达成什么目标 |
| 粒度 | 单个 API 调用 | 一组相关工具 | 端到端工作流 | 完整任务闭环 |
| 可组合性 | 低——独立使用 | 中——同类聚合 | 高——链式组合 | 最高——调度一切 |
| 是否有状态 | 无状态 | 可能有 | 有(流程状态) | 有(对话+任务状态) |
| 举例 | search_web(query) | Google Search Plugin | “竞品分析报告生成” Skill | 市场研究 Agent |
关系图谱
Agent(总指挥)
│
├── 使用 Skill(操作手册)
│ ├── Skill A: "生成月度财报"
│ │ ├── 调用 Tool: 数据库查询
│ │ ├── 调用 Tool: 数据透视表生成
│ │ └── 参考 assets: 财报模板
│ │
│ └── Skill B: "竞品价格监控"
│ ├── 调用 Plugin: Web Search
│ └── 调用 Plugin: Email 发送
│
└── 通过 MCP(连接协议)
├── 连接数据库
├── 连接 SaaS 工具
└── 连接文件系统
关键辨析
Skill vs Tool:Tool 是原子能力(如 calculate_mortgage(amount, rate, years)),Skill 是操作流程(如“按揭贷款评估”——先查利率,再算还款,最后生成对比表)。Skill 调用 Tool,而非反过来。
Skill vs Plugin:Plugin 是平台级别的能力扩展单元,通常由第三方开发,包含 API 定义(如 OpenAPI spec)和认证机制。在 Semantic Kernel 中,两者几乎等同;但在 Anthropic 的 Agent Skills 标准中,Skill 更偏“流程知识”而非“能力接入”。一个实用的区分法则:Plugin 回答“你能访问什么”,Skill 回答“你应该怎么做”。
Skill vs Agent:Agent 是决策中枢——它决定什么时候使用哪个 Skill;Skill 是被动的知识/流程资产。一个 Agent 可以装载数十个 Skill,按需激活。将它们的关系理解为“大脑 vs 技能树”最为贴切。
Skill vs RAG(检索增强生成):RAG 解决“知道什么”,Skill 解决“怎么操作”。两者互补——如果 Skill 规定了提取合规条款的流程,RAG 则提供最新法规条文作为流程输入。实践中,高效的 Skill 通常内嵌 RAG 调用作为数据获取步骤。
Skill vs MCP(Model Context Protocol):MCP 是连接协议,定义了 Agent 如何安全地访问外部系统;Skill 是程序性知识,定义了拿到连接后应该做什么。二者是“管道 vs 水”的关系。Anthropic 将两者均捐献给 Agentic AI Foundation(Linux Foundation 旗下),正是基于这种互补定位。
核心机制
注册与发现
Skill 的注册是指将技能文件夹纳入 Agent 的“已知技能池”。目前业界有三种主流注册方式:
| 注册方式 | 机制 | 代表实现 |
|---|---|---|
| 文件系统扫描 | Agent 启动时扫描指定目录(如 .claude/skills/),读取所有 SKILL.md 的 frontmatter | Claude Code |
| MCP 工具暴露 | 通过 MCP 服务器的 list_skills 工具暴露技能清单,Agent 通过工具调用发现 | Cursor Skills |
| API/注册表 | 集中式目录服务,Agent 通过 API 查询可用技能 | ChatGPT Plugins(已演进为 GPTs Actions) |
发现的核心在于:Agent 如何根据用户意图匹配到合适的 Skill?
当前主流方案是通过 SKILL.md 的 YAML frontmatter 中的 name 和 description 字段。Agent 启动时将全部已安装 Skill 的元数据(约 30-50 tokens/Skill)注入上下文,当用户查询到来时,由 LLM 自行判断哪些 Skill 相关。
关键原则:description 是 Skill 被触发的唯一依据。它必须精确、具体、互斥。
"辅助编程"是坏例子——太模糊,什么都能触发;"将 Angular CLI 项目从 Webpack 迁移至 Vite。当 `angular.json` 包含 webpack builder 时触发。不要用于 React/Vue 项目。"是好例子——精确描述了做什么、何时触发、何时不触发。
渐进式加载(Progressive Disclosure)
这是 AI Skill 系统最核心的技术创新——三级分层加载机制,使 Agent 在拥有数十个 Skill 时仍能保持极低的上下文消耗。
用户查询
│
▼
┌─────────────────────┐
│ L1: 元数据扫描 │ ← 始终在上下文中(~30-50 tokens/skill)
│ name + description │
└─────────┬───────────┘
│ 匹配到相关 Skill
▼
┌─────────────────────┐
│ L2: 核心指令加载 │ ← 触发时加载完整 SKILL.md body(<5000 tokens)
│ 执行流程 + 边界处理 │
└─────────┬───────────┘
│ 执行中需要更详细信息
▼
┌─────────────────────┐
│ L3: 资源按需访问 │ ← 执行时按需读取
│ scripts/ references/│ scripts 可作为子进程执行(零 token 消耗)
│ assets/ │ references 只在需要时读入
└─────────────────────┘
Token 效率实证数据
| 场景 | 传统全量加载 | 渐进式加载 | 节省 |
|---|---|---|---|
| 100 个 Skill 的初始化 | ~500K tokens | ~5K tokens | 99% |
| 单次任务(激活 2 个 Skill) | ~10K tokens | ~2K tokens | 80% |
| 跨 20 个 MCP 服务器的连接 | ~200K tokens | 按需建立 | 不适用 |
调用机制
Skill 的调用本质上是Agent 将 SKILL.md 的 body 内容注入当前的对话上下文,作为额外的系统指令。调用过程遵循以下步骤:
- 意图匹配:LLM 根据用户查询匹配 Skill 的 description
- 上下文注入:Agent 运行时将匹配到的 SKILL.md body 插入当前对话
- 指令执行:LLM 按照 SKILL.md 中规定的流程执行任务
- 工具调用:在执行过程中,LLM 按需调用 Tool/Plugin(如 Python 脚本、API 调用)
- 资源访问:当需要详细参考信息时,LLM 读取 references 目录中的文件
Scripts 的特殊性:与 references 不同,scripts 通常不读入 LLM 上下文,而是作为子进程执行。LLM 只看到执行结果(stdout/stderr),不消耗 token 阅读代码本身。这种设计对确定性操作(如数值计算、格式转换)至关重要。
组合机制
Skill 之间通过输入/输出契约实现链式组合:
- 顺序编排:Skill A 的输出 → Skill B 的输入(如:“解析 PDF” → “提取关键条款” → “生成摘要报告”)
- 条件分支:根据中间结果选择下一 Skill(如:分析结果 > 阈值 → 执行“告警通知”Skill;否则 → 执行“常规记录”Skill)
- 并行执行:多个 Skill 同时运行,结果在最后合并(如:同时查询三个数据源,汇总比较)
这种组合性使 Skill 遵循Unix 哲学:每个 Skill 做好一件事,通过标准化的接口组合完成复杂任务。
设计模式
自由度光谱:声明式 vs 命令式
Skill 设计的第一性原理是:根据任务的“脆弱性”匹配指令的精确度。
| 自由度 | 适用场景 | 指令形式 | 示例 |
|---|---|---|---|
| 高 | 多种方案都对,依赖上下文判断 | 自然语言指引 | “用温暖、专业的语气回信” |
| 中 | 有最佳实践但允许变通 | 伪代码 + 带参脚本 | 代码审查流程(检查项可调整) |
| 低 | 差一个字符就出错(脆弱操作) | 锁定脚本 + 严格校验 | SQL 迁移、支付金额计算、证书生成 |
判断标准:做错了后果越严重 → 自由度越低;正确的做法越多 → 自由度越高。
趋势:2025 年以来,行业明显向声明式倾斜。类似于 SQL 之于数据库、Kubernetes 之于基础设施——声明所需结果,让系统自行推导执行路径。PayPal 的研究表明,声明式 DSL 编排 Agent 工作流可使开发时间减少 60%,部署速度提升 3 倍。
Anthropic 官方五模式
Anthropic 基于大规模实践,总结了五种经过验证的 Skill 设计模式:
| 模式 | 应用场景 | 核心机制 |
|---|---|---|
| 顺序工作流 | 多步骤流程(如客户入职) | 步骤依赖链,每步完成后触发下一阶段 |
| 多 MCP 协调 | 跨服务工作流(Figma → Drive → Linear → Slack) | 编排多个 MCP 服务器,统一数据流转 |
| 迭代改进 | 质量敏感的产出(报告、代码) | 验证-修正循环,设定质量阈值 |
| 上下文感知工具选择 | 根据条件选择合适的工具 | 工具路由决策树 |
| 领域专用智能 | 合规、法律、金融规则 | 在操作前嵌入业务规则校验 |
原子 Skill vs 组合 Skill
| 类型 | 粒度 | 优点 | 缺点 | 示例 |
|---|---|---|---|---|
| 原子 Skill | 单一任务 | 复用性高、测试简单、易维护 | 过多 Skill 管理复杂 | “PDF 文字提取”、“CSV 格式校验” |
| 组合 Skill | 端到端流程 | 一键完成、用户体验好 | 复用性低、修改影响面大 | “季度财报生成”(内含提取+计算+排版+发送) |
推荐策略:优先构建原子 Skill,作为基础设施;再按高频场景编排组合 Skill。组合 Skill 应引用原子 Skill,而非重复实现其逻辑。
多 Agent 模式下的 Skill 共享
在 Multi-Agent 架构中,Skill 可以被多个 Agent 共享使用。常见设计:
- 中心化 Skill 注册表:所有 Agent 从统一注册表获取 Skill 元数据
- Agent 专属 Skill + 公共 Skill:特定 Agent 拥有专属 Skill,同时可访问公共池
- Skill 路由 Agent:专门的 Router Agent 根据任务类型将请求分发给持有相应 Skill 的执行 Agent
主流实现
Claude Code Skill 系统
所属组织:Anthropic | 发布时间:2025 年 10 月(Claude Code 内置)→ 2025 年 12 月(开放标准)
Claude Code 是 AI Skill 概念的核心推动者和开放标准制定者。其设计哲学是“渐进式披露”——让 Agent 在启动时几乎不消耗上下文,在执行时才按需加载专业知识。
标准 Skill 目录结构
my-skill/ ├── SKILL.md # [必需] 入口:YAML frontmatter + Markdown 指令 ├── scripts/ # [可选] 可执行脚本(Python/Bash/Node) ├── references/ # [可选] 参考文档(schemas、API docs、cheatsheets) └── assets/ # [可选] 模板和静态资源
SKILL.md 格式示例
---
name: pdf-processing
description: 从 PDF 文档中提取文字和表格。当用户上传 .pdf 文件或要求文档提取时触发。不要用于编辑已有 PDF 文件。
license: Apache-2.0
metadata:
author: team-name
version: "1.2.0"
---
# PDF 处理技能
## 触发条件
- 用户上传 `.pdf` 文件
- 用户要求"提取 PDF 中的文字"
- 用户提到"PDF 表格提取"
## 执行流程
1. 验证 PDF 文件可读且未加密
2. 如果文件 > 50MB,调用 `scripts/split_pdf.py` 分块处理
3. 按照 `references/extraction-guide.md` 中的方法提取文字
4. 如果检测到表格,运行 `scripts/extract_tables.py {input_path}`
5. 按 `assets/output-template.md` 中定义的格式返回结果
## 错误处理
- **加密 PDF**:询问用户密码,禁止暴力破解
- **扫描件 PDF**:通过 `scripts/ocr_fallback.py` 调用 OCR 备用方案
- **输出为空**:检查 PDF 是否为纯图片,建议使用 OCR
关键设计规则
- SKILL.md body 控制在 500 行以内,超出的内容拆分到 references/
- references 只保持一层深度——SKILL.md 直接链接到文件,避免 A → B → C 的嵌套引用
- Scripts 执行而不读入上下文,实现零 token 消耗
- Description 必须包含反触发条件(何时不应该使用此 Skill)
ChatGPT Plugins(已演化为 GPTs Actions)
所属组织:OpenAI | 活跃时期:2023 年 3 月 – 2024 年(Plugins 阶段)→ 2024 年至今(GPTs Actions 阶段)
ChatGPT Plugins 是 AI Skill 概念的早期重要探索。虽然其 Plugins 产品形态已演化为 GPTs Actions,但其核心设计思想——通过标准化的 API 描述让 LLM 理解并调用外部能力——深刻影响了整个行业。
三元架构
| 组件 | 作用 |
|---|---|
Plugin Manifest (ai-plugin.json) | 插件元数据:名称、描述、认证方式、API 地址 |
OpenAPI Specification (openapi.yaml) | 可调用的 API 端点、参数、响应格式 |
| Backend API | 实际执行功能的远程服务 |
关键设计遗產:description_for_model 字段是 LLM 判断是否激活插件的唯一信号,是后来 Agent Skills 中 description 字段的前身。OpenAPI 驱动的工具调用和插件生态模式影响深远。GPTs Actions 实质上是一种平台内聚化的 Skill 管理方式。
Semantic Kernel Plugins(原 Skills)
所属组织:Microsoft | 语言:C# / Python / Java | 策略:将 AI 能力嵌入企业应用开发框架
Semantic Kernel(SK)是 Microsoft 的开源 AI 编排 SDK。在其架构中,Plugin(插件,早期版本称作 Skill)是核心抽象——一个 Plugin 是一组相关功能的容器。
双层功能体系
| 功能类型 | 定义方式 | 执行者 |
|---|---|---|
| Semantic Function | 自然语言提示词 + 配置文件 (skprompt.txt + config.json) | LLM |
| Native Function | 代码实现(C# 的 [KernelFunction] 属性 / Python 的 @kernel_function 装饰器) | 本地运行时 |
核心特性包括 Planner(自动将自然语言任务拆解为 Plugin 调用序列)、OpenAPI 集成、企业友好(依赖注入、中间件管道)。2023 年 10 月,Microsoft 将 “Skills” 重命名为 “Plugins”,以对齐 OpenAI 的术语体系。
Cursor Rules & Skills
所属组织:Cursor(Anysphere) | 集成方式:IDE 原生 + MCP 协议
Rules 系统(.cursor/rules/)
| 类型 | 行为 |
|---|---|
| Always | 所有场景下注入 |
| Auto Attached | 按文件 glob 模式自动触发 |
| Agent Requested | Agent 根据 description 自行决定是否拉取 |
| Manual | 用户通过 @ruleName 手动激活 |
Skills 系统通过 MCP 服务器暴露 list_skills、invoke_skill、find_skill、import_skill 四个标准工具,支持从 GitHub 社区仓库一键导入。与 Claude Code Skills 格式兼容,同一 SKILL.md 可在两个平台间直接使用。
其他平台的 Skill 相关实现
| 平台/工具 | 实现方式 | 特点 |
|---|---|---|
| GitHub Copilot | 通过 .github/copilot-instructions.md 注入;已更新支持 Agent Skills 目录结构 | 深度集成到 GitHub 生态 |
| OpenAI Codex CLI | 采用与 Agent Skills 标准相同的目录结构 | 命令行驱动的编码 Agent |
| Goose | Block 公司开发,原生支持 Agent Skills | 专注于开发者工作流自动化 |
| Amp | 原生支持 Agent Skills 标准 | 强调轻量级和可组合性 |
| OpenCode | 原生支持 Agent Skills 标准 | 开源 Agent 编码工具 |
| Letta | 支持 Agent Skills | 有状态 Agent 框架 |
如何构建 Skill
设计原则
- 单一职责:一个 Skill 只做一件事,做到极致。判断标准——能否用一句话说清这个 Skill 做什么?
- 清晰的 I/O 契约:输入什么、输出什么、副作用是什么,都要在 SKILL.md 中明确定义
- 可组合性:Skill 的输出格式应便于下游 Skill 消费(优先使用结构化格式如 JSON、Markdown 表格)
- “不做什么”比“做什么”更精确:与其说“用温暖、克制的语气写作”,不如列出反模式清单——症状 + 改正方法
- Token 预算意识:SKILL.md body < 500 行;references 只保持一层深度;确定性操作放 script,不放文字指令
标准文件结构
my-skill-name/ # 目录名 = name 字段,小写+连字符
├── SKILL.md # [必需] 入口文件
├── scripts/ # [可选] 可执行脚本
│ ├── validate.py
│ └── format_output.sh
├── references/ # [可选] 参考文档
│ ├── api-spec.md
│ └── schema-guide.md
└── assets/ # [可选] 模板与静态资源
├── report-template.md
└── sample-output.json
注意:Skills 是为 AI 准备的,不是为人准备的。不要创建
README.md、CHANGELOG.md、INSTALLATION_GUIDE.md等面向人类的辅助文件。
SKILL.md 编写规范
Frontmatter(YAML 元数据)
---
name: angular-vite-migrator # 1-64 字符,小写+连字符
description: >- # 最多 1024 字符
将 Angular CLI 项目从 Webpack 迁移至 Vite 和 esbuild。
当用户想更新构建配置或加速编译时触发。
不要用于 React、Vue 或其他非 Angular 项目。
---
description 的 3W 原则:
- What(做什么):迁移 Angular 构建工具
- When(何时触发):用户想更新构建配置、加速编译
- When NOT(何时不触发):React、Vue 等非 Angular 项目
Body(Markdown 指令正文)——四个必需要素
| 要素 | 说明 | 示例 |
|---|---|---|
| 触发条件 | 精确的激活场景描述 | “当用户上传 .csv 或 .json 文件时” |
| 执行流程 | 分步骤操作指令,用祈使语气 | “1. 解析输入 → 2. 校验格式 → 3. 生成报告” |
| 边界处理 | 异常场景的应对方案 | “如果文件超过 50MB,调用 scripts/split.py 分块处理” |
| 输出规范 | 期望的结果结构和格式 | “返回 JSON 对象,包含 summary 和 details 字段” |
资源文件夹的使用指南
| 文件夹 | 什么时候用 | 什么时候不用 | 关键规则 |
|---|---|---|---|
| scripts/ | 需要确定性输出(计算、转换、校验) | 需要 LLM 灵活判断的语义任务 | 清晰的错误输出,让 Agent 能自我纠正 |
| references/ | 长篇参考材料(API 文档、Schema 定义、操作指南) | 核心执行流程(放 SKILL.md body) | 从 SKILL.md 直接链接,只保持一层深度;超过 100 行加目录 |
| assets/ | 产出模板、样板代码、静态配置 | 需要 LLM 理解语义的信息 | AI 不需要“读懂”,只需知道何时复制/使用 |
测试与验证
构建完成后,建议通过以下三轮验证:
- 发现验证:仅将 frontmatter 展示给 LLM,测试它能否正确识别触发/不触发的场景
- 逻辑验证:让 LLM 模拟执行 Skill,逐步写出推理过程,标记出需要“猜测”的地方(猜测 = 指令不够精确)
- 边缘测试:让 LLM 扮演 QA 测试员,攻击 Skill 的逻辑,找出漏洞和未处理的失败状态
推荐工具:SkillGrade(自动化 Skill 回归测试)、skills-best-practices(Skill 质量校验规则集)。
最佳实践
Skill 粒度控制
粒度是 Skill 设计中最核心的权衡。粒度过粗(一个 Skill 做太多事)导致不可复用;粒度过细导致管理爆炸。
判断粒度的三个问题:
- 能否用一句话说清这个 Skill 做什么?(如果不能 → 太粗)
- 这个 Skill 是否至少会被两个不同的场景复用?(如果不能 → 可能太细)
- 用户会自然地用一个短语描述这个需求吗?(如果不会 → 可能是伪需求)
推荐层次:
粗粒度(组合 Skill) → "月度财报生成"(面向最终用户场景) 中粒度(功能 Skill) → "数据透视表生成"、"PDF 报告排版"(可复用模块) 细粒度(原子 Skill) → "CSV 格式校验"、"汇率换算"(基础组件)
Description 优化
Description 是 Skill 被 LLM 触发的唯一信号,它的质量直接决定了 Skill 能否被正确使用。
优化清单:
- 包含具体的触发关键词(如 “当用户上传
.pdf文件时”) - 包含具体的反触发关键词(如 “不要用于 React/Vue 项目”)
- 与项目中其他 Skill 的 description 互斥(避免两个 Skill 同时被触发的歧义)
- 不超过 1024 字符,但足够具体
- 放在 frontmatter 中,不要放在 body 里(body 触发后才加载,那时已经晚了)
错误处理模式
| 模式 | 适用场景 | 实现方式 |
|---|---|---|
| 快速失败 | 前置条件不满足时 | 立即终止并告知用户原因 + 建议 |
| 优雅降级 | 非核心功能失败时 | 跳过失败步骤,标记 partial 状态,继续执行 |
| 重试 + 回退 | 外部服务不稳定时 | 最多重试 3 次,失败后切换到备用方案 |
| 人工介入 | 高风险操作时 | 暂停执行,展示即将执行的操作,等待用户确认 |
| 自愈 | Agent 能自行修复时 | 读取 errors 输出,自动调整参数后重新调用 |
Context 效率管理
即使有了渐进式加载,Skill 作者仍需注意上下文效率:
- SKILL.md body 不超过 500 行(约 3000 token)。超出部分拆分到 references/
- References 只保持一层深度。避免 SKILL.md → reference-A.md → reference-B.md 的嵌套引用链
- 确定性操作放 scripts。执行脚本消耗 0 token,比大段 Markdown 指令便宜得多
- 重复信息只有一处。如果 SKILL.md 和 reference 中有相同内容,删除一个
- 输出模板放 assets。LLM 不需要“理解”模板,只需要知道何时使用它
安全防护
Skill 的开放生态带来了供应链安全风险。调研发现,在 98,380 个社区 Skill 的验证中,确认了 157 个恶意 Skill,涵盖数据窃取和 Agent 劫持两类攻击。
防护建议:
- Scripts 沙箱化:在 Docker 容器或隔离环境中运行,禁止 root 权限
- 网络出口控制:本地处理的 Skill 应阻断外网访问
- 权限最小化:使用
allowed-tools白名单限制 Skill 可调用的系统工具 - 来源验证:优先使用官方或可信来源的 Skill;关注 AAIF 正在开发的数字签名体系
- 工具防火墙:在 Agent 与外部系统之间设置代理层,Agent 不直接持有凭证
未来趋势
标准化与互操作性
2026 年最显著的趋势是标准化。Anthropic 将 Agent Skills 开放标准捐献给 Agentic AI Foundation(Linux Foundation 旗下),创始成员包括 Anthropic、OpenAI、Google、Microsoft、AWS、Block 等。这标志着 Agent Skills 朝着“AI 互操作性的 USB-C”方向发展。
已有兼容实现:VS Code / GitHub / Cursor / Goose / Amp / OpenCode / Letta 均宣布支持;OpenAI Codex CLI 文档已更新,采用相同目录结构。
Skill 市场与经济系统
技能正在从“开发者资产”演变为“可交易商品”:
- 市场规模预测:2027 年全球 Skill 市场预计突破 80 亿美元,年复合增长率 145%
- 复用数据:Top 100 Skill 平均复用超过 1.2 万次
- 企业采纳:采用 Skill 体系的企业 AI 项目成功率从 38% 提升至 79%
从“写代码”到“编能力”
开发范式的深层转变:过去开发者写代码实现功能,未来开发者编排 Skill 构建能力。一个 Skill 平均被 5.3 个不同应用调用,知识载体从人转向结构化资产。行业 Know-how 以标准 Skill 形式“蒸馏”复用。
垂直领域深度化
金融、医疗、法律、制造等垂直行业正在形成标准化的 Skill 认证与供应商体系。这些领域的 Skill 不仅提供操作流程,还内嵌合规规则、行业标准、最佳实践。
自进化与递归研发
前沿研究方向之一是让 Agent 通过使用 Skill 的经验来自动改进 Skill:
- 探索型进化:Agent 尝试不同参数组合,找出最优方案
- 优化型进化:基于成功/失败历史,微调 Skill 中的指令
- 工程流型进化:Agent 分析自身局限,主动创建新的辅助 Skill
安全治理体系化
随着 Skill 生态扩大,安全治理从“最佳实践”走向“基础设施”:数字签名体系(AAIF)、恶意 Skill 自动化检测、工具防火墙的细粒度能力管控。
核心挑战
| 挑战 | 当前状态 | 影响 |
|---|---|---|
| 技能触发率低 | 56% 情况下 Agent 不主动调用可用 Skill | 用户需手动指定,降低体验 |
| 选择准确率断崖 | Skill 库超过临界规模后选择准确率暴跌 | 限制单 Agent 可管理的 Skill 数量 |
| 供应链安全 | 社区中已确认 157 个恶意 Skill | 需要签名体系和沙箱执行 |
| 跨平台差异 | 标准仍在早期,各平台实现细节有差异 | 同一 Skill 在不同平台表现可能不同 |
参考资料
论文与学术研究
- SkillsBench: A Benchmark for Evaluating Agent Skill Systems (2025) — 覆盖 11 领域、86 项任务、超 7300 条轨迹的技能评测基准
- AgentSkillOS: 首个生态级技能管理框架(上海 AI 实验室,2025)— 能力树 + DAG 流水线实现 20 万级技能高效编排
- SAGE Framework: Self-evolving Agent with Skill Library (AWS, 2025) — 任务完成率 +8.9%,交互步骤 -26%,Token -59%
- ITR (Instruction-Tool Retrieval): Dynamic System Instructions and Tool Exposure for Efficient Agentic LLMs (Dec 2025) — 95% 上下文节省,32% 工具路由准确率提升
- A Declarative Language for Building and Orchestrating LLM-Powered Agent Workflows (PayPal, Nov 2025) — 声明式 DSL,开发时间减少 60%
- PDL (Prompt Declaration Language) (IBM Research, ICML 2025) — YAML 基声明式提示词语言,性能提升可达 4 倍
官方规范与文档
- Agent Skills Specification — Anthropic 发布的开放标准规范
- Agent Skills GitHub — 参考 SDK 和开源实现
- Claude Code Skills 文档 — Anthropic 官方 Skills 使用指南
- Semantic Kernel Plugins 文档 — Microsoft 官方文档
- OpenAI GPTs Actions 文档 — OpenAI 官方 Actions 配置指南
最佳实践与工具
- skills-best-practices — Skill 质量校验规则集
- SkillGrade — 自动化 Skill 回归测试工具
- Anthropic Skill 课程 — Anthropic 官方免费课程,讲解 Skill 概念、创建方法与应用场景
深度文章与分析
- Steve Kinney, “Agent Skills, Stripped of Hype” — 去魅版 Agent Skills 技术解读
- Simon Willison, “Agent Skills” (Dec 2025) — 知名独立开发者的分析与评论
- 腾讯新闻, “AI Agent 完成成人礼:2026 Q1 四大趋势引爆产业新飞轮” (2026)
- 百度开发者, “AI Agent 能力扩展终极指南:从技能封装到生态构建” — 中文深度综述
- 极客公园, “当 AI Agent 蜕变为新劳动力,万亿级市场重构正式启幕” (2026)
社区生态
- GitHub Skills 仓库: Anthropic 官方技能仓库(已获超 20,000 星)
- Partner Skills: Atlassian、Figma、Canva、Stripe、Notion、Zapier、Cloudflare 等已发布官方 Skill
- cursor-skills — Cursor Skills MCP 服务器
- Datawhale Hello-Agents: 中文 AI Agent 教程的中文 Skill 编写指南
相关概念与协议
- Model Context Protocol (MCP): Anthropic 发布的 AI Agent 与外部系统连接协议
- Agentic AI Foundation (AAIF): Linux Foundation 旗下的 AI Agent 标准化组织
- Function Calling (OpenAI): LLM 结构化工具调用的基础协议
文档说明:本文档基于截止 2026 年 5 月的公开资料与行业实践编写。AI Skill 领域仍在快速演进中,建议定期回访官方规范 agentskills.io 获取最新信息。