深度研究报告

AI Skill(技能/插件系统)

一份系统性解读 AI Agent Skill 概念、架构、实践与生态的参考文档
从菜谱到乐高积木,理解 AI 能力的模块化封装之道

📅 撰写于 2026 年 5 月 📖 约 10,000 字 🏷 9 个章节
第一章

定义与含义

什么是 AI Skill?

AI Skill(技能)是 AI Agent / 大语言模型(LLM)应用中一个模块化、可复用的能力单元。它以标准化的文件夹形式组织,包含指令文档、可执行脚本、参考材料和静态资源,使 AI Agent 能够动态发现、加载并可靠地执行某一特定任务。

从工程角度看,Skill 是结构化上下文工程的核心载体——它将曾经散落在系统提示词、硬编码逻辑和散乱脚本中的“程序性知识”封装为可版本化、可分发、可组合的独立单元。

一个直观的类比矩阵

类比含义
菜谱Skill 是“菜谱”,告诉 Agent 怎么做;MCP/工具是“厨房”,提供原料和设备
员工手册像新员工入职培训文件一样,将操作规范一次性交给 Agent,无需每次都重新训练
乐高积木每个 Skill 是一块独立积木,可通过组合拼出复杂工作流
U 盘即插即用——加载即多一项专长,卸载就还原为通用助手

历史演进脉络

AI Skill 并非凭空产生,而是 LLM 应用范式演进到一定阶段的必然产物:

时期阶段特征与局限
2022–2023提示词工程时代把所有知识塞进 system prompt,脆弱、上下文消耗大、无法复用
2023–2024函数调用(Function Calling)时代OpenAI 引入结构化工具调用,但工具只是 API 接口,缺少操作流程
2024Agent 框架爆发LangChain、AutoGen、CrewAI 等涌现,Agent 有了规划能力,但“怎么做”仍分散
2025 Q4Skills 标准化Anthropic 发布 Agent Skills 开放标准,技能成为可互操作的一等公民
2026生态爆发技能市场成型,跨平台互操作,从开发者工具走向企业基础设施

Skill 要解决的核心问题

以往的 Agent 开发方法中,知识和流程被“烤进”提示词和代码里,导致四大痛点:

  1. 不可复用:同一个“生成 PDF 报告”的逻辑,在三个项目中写了三遍不同的提示词
  2. 上下文浪费:项目安装了 50 个 Skill,但只有 2 个会被当前任务用到——全部静态加载会耗尽上下文窗口
  3. 缺乏版本控制:技能逻辑分散在多处,无法追溯变更历史
  4. 确定性与灵活性的矛盾:纯提示词不可靠,纯代码不灵活

Skill 通过模块化 + 渐进式加载 + 指令与代码混合的架构,逐一解决了上述问题。


第二章

Skill 与 Agent / Plugin / Tool 的区别

这是整个概念体系中最核心的辨析。四个术语常常被混用,但它们在架构层次上扮演着截然不同的角色。

概念对比表

维度Tool(工具)Plugin(插件)Skill(技能)Agent(智能体)
抽象层级原子操作能力集合操作流程自主决策体
核心问题能做什么提供什么能力怎么做要达成什么目标
粒度单个 API 调用一组相关工具端到端工作流完整任务闭环
可组合性低——独立使用中——同类聚合高——链式组合最高——调度一切
是否有状态无状态可能有有(流程状态)有(对话+任务状态)
举例search_web(query)Google Search Plugin“竞品分析报告生成” Skill市场研究 Agent

关系图谱

Agent(总指挥)
  │
  ├── 使用 Skill(操作手册)
  │     ├── Skill A: "生成月度财报"
  │     │     ├── 调用 Tool: 数据库查询
  │     │     ├── 调用 Tool: 数据透视表生成
  │     │     └── 参考 assets: 财报模板
  │     │
  │     └── Skill B: "竞品价格监控"
  │           ├── 调用 Plugin: Web Search
  │           └── 调用 Plugin: Email 发送
  │
  └── 通过 MCP(连接协议)
        ├── 连接数据库
        ├── 连接 SaaS 工具
        └── 连接文件系统

关键辨析

Skill vs Tool:Tool 是原子能力(如 calculate_mortgage(amount, rate, years)),Skill 是操作流程(如“按揭贷款评估”——先查利率,再算还款,最后生成对比表)。Skill 调用 Tool,而非反过来。

Skill vs Plugin:Plugin 是平台级别的能力扩展单元,通常由第三方开发,包含 API 定义(如 OpenAPI spec)和认证机制。在 Semantic Kernel 中,两者几乎等同;但在 Anthropic 的 Agent Skills 标准中,Skill 更偏“流程知识”而非“能力接入”。一个实用的区分法则:Plugin 回答“你能访问什么”,Skill 回答“你应该怎么做”

Skill vs Agent:Agent 是决策中枢——它决定什么时候使用哪个 Skill;Skill 是被动的知识/流程资产。一个 Agent 可以装载数十个 Skill,按需激活。将它们的关系理解为“大脑 vs 技能树”最为贴切。

Skill vs RAG(检索增强生成):RAG 解决“知道什么”,Skill 解决“怎么操作”。两者互补——如果 Skill 规定了提取合规条款的流程,RAG 则提供最新法规条文作为流程输入。实践中,高效的 Skill 通常内嵌 RAG 调用作为数据获取步骤。

Skill vs MCP(Model Context Protocol):MCP 是连接协议,定义了 Agent 如何安全地访问外部系统;Skill 是程序性知识,定义了拿到连接后应该做什么。二者是“管道 vs 水”的关系。Anthropic 将两者均捐献给 Agentic AI Foundation(Linux Foundation 旗下),正是基于这种互补定位。


第三章

核心机制

注册与发现

Skill 的注册是指将技能文件夹纳入 Agent 的“已知技能池”。目前业界有三种主流注册方式:

注册方式机制代表实现
文件系统扫描Agent 启动时扫描指定目录(如 .claude/skills/),读取所有 SKILL.md 的 frontmatterClaude Code
MCP 工具暴露通过 MCP 服务器的 list_skills 工具暴露技能清单,Agent 通过工具调用发现Cursor Skills
API/注册表集中式目录服务,Agent 通过 API 查询可用技能ChatGPT Plugins(已演进为 GPTs Actions)

发现的核心在于:Agent 如何根据用户意图匹配到合适的 Skill?

当前主流方案是通过 SKILL.md 的 YAML frontmatter 中的 namedescription 字段。Agent 启动时将全部已安装 Skill 的元数据(约 30-50 tokens/Skill)注入上下文,当用户查询到来时,由 LLM 自行判断哪些 Skill 相关。

关键原则:description 是 Skill 被触发的唯一依据。它必须精确、具体、互斥。"辅助编程" 是坏例子——太模糊,什么都能触发;"将 Angular CLI 项目从 Webpack 迁移至 Vite。当 `angular.json` 包含 webpack builder 时触发。不要用于 React/Vue 项目。" 是好例子——精确描述了做什么、何时触发、何时不触发。

渐进式加载(Progressive Disclosure)

这是 AI Skill 系统最核心的技术创新——三级分层加载机制,使 Agent 在拥有数十个 Skill 时仍能保持极低的上下文消耗。

           用户查询
              │
              ▼
    ┌─────────────────────┐
    │  L1: 元数据扫描      │  ← 始终在上下文中(~30-50 tokens/skill)
    │  name + description │
    └─────────┬───────────┘
              │ 匹配到相关 Skill
              ▼
    ┌─────────────────────┐
    │  L2: 核心指令加载    │  ← 触发时加载完整 SKILL.md body(<5000 tokens)
    │  执行流程 + 边界处理  │
    └─────────┬───────────┘
              │ 执行中需要更详细信息
              ▼
    ┌─────────────────────┐
    │  L3: 资源按需访问    │  ← 执行时按需读取
    │  scripts/ references/│     scripts 可作为子进程执行(零 token 消耗)
    │  assets/            │     references 只在需要时读入
    └─────────────────────┘

Token 效率实证数据

场景传统全量加载渐进式加载节省
100 个 Skill 的初始化~500K tokens~5K tokens99%
单次任务(激活 2 个 Skill)~10K tokens~2K tokens80%
跨 20 个 MCP 服务器的连接~200K tokens按需建立不适用

调用机制

Skill 的调用本质上是Agent 将 SKILL.md 的 body 内容注入当前的对话上下文,作为额外的系统指令。调用过程遵循以下步骤:

  1. 意图匹配:LLM 根据用户查询匹配 Skill 的 description
  2. 上下文注入:Agent 运行时将匹配到的 SKILL.md body 插入当前对话
  3. 指令执行:LLM 按照 SKILL.md 中规定的流程执行任务
  4. 工具调用:在执行过程中,LLM 按需调用 Tool/Plugin(如 Python 脚本、API 调用)
  5. 资源访问:当需要详细参考信息时,LLM 读取 references 目录中的文件

Scripts 的特殊性:与 references 不同,scripts 通常不读入 LLM 上下文,而是作为子进程执行。LLM 只看到执行结果(stdout/stderr),不消耗 token 阅读代码本身。这种设计对确定性操作(如数值计算、格式转换)至关重要。

组合机制

Skill 之间通过输入/输出契约实现链式组合:

  • 顺序编排:Skill A 的输出 → Skill B 的输入(如:“解析 PDF” → “提取关键条款” → “生成摘要报告”)
  • 条件分支:根据中间结果选择下一 Skill(如:分析结果 > 阈值 → 执行“告警通知”Skill;否则 → 执行“常规记录”Skill)
  • 并行执行:多个 Skill 同时运行,结果在最后合并(如:同时查询三个数据源,汇总比较)

这种组合性使 Skill 遵循Unix 哲学:每个 Skill 做好一件事,通过标准化的接口组合完成复杂任务。


第四章

设计模式

自由度光谱:声明式 vs 命令式

Skill 设计的第一性原理是:根据任务的“脆弱性”匹配指令的精确度

自由度适用场景指令形式示例
多种方案都对,依赖上下文判断自然语言指引“用温暖、专业的语气回信”
有最佳实践但允许变通伪代码 + 带参脚本代码审查流程(检查项可调整)
差一个字符就出错(脆弱操作)锁定脚本 + 严格校验SQL 迁移、支付金额计算、证书生成

判断标准:做错了后果越严重 → 自由度越低;正确的做法越多 → 自由度越高。

趋势:2025 年以来,行业明显向声明式倾斜。类似于 SQL 之于数据库、Kubernetes 之于基础设施——声明所需结果,让系统自行推导执行路径。PayPal 的研究表明,声明式 DSL 编排 Agent 工作流可使开发时间减少 60%,部署速度提升 3 倍。

Anthropic 官方五模式

Anthropic 基于大规模实践,总结了五种经过验证的 Skill 设计模式:

模式应用场景核心机制
顺序工作流多步骤流程(如客户入职)步骤依赖链,每步完成后触发下一阶段
多 MCP 协调跨服务工作流(Figma → Drive → Linear → Slack)编排多个 MCP 服务器,统一数据流转
迭代改进质量敏感的产出(报告、代码)验证-修正循环,设定质量阈值
上下文感知工具选择根据条件选择合适的工具工具路由决策树
领域专用智能合规、法律、金融规则在操作前嵌入业务规则校验

原子 Skill vs 组合 Skill

类型粒度优点缺点示例
原子 Skill单一任务复用性高、测试简单、易维护过多 Skill 管理复杂“PDF 文字提取”、“CSV 格式校验”
组合 Skill端到端流程一键完成、用户体验好复用性低、修改影响面大“季度财报生成”(内含提取+计算+排版+发送)

推荐策略:优先构建原子 Skill,作为基础设施;再按高频场景编排组合 Skill。组合 Skill 应引用原子 Skill,而非重复实现其逻辑。

多 Agent 模式下的 Skill 共享

在 Multi-Agent 架构中,Skill 可以被多个 Agent 共享使用。常见设计:

  • 中心化 Skill 注册表:所有 Agent 从统一注册表获取 Skill 元数据
  • Agent 专属 Skill + 公共 Skill:特定 Agent 拥有专属 Skill,同时可访问公共池
  • Skill 路由 Agent:专门的 Router Agent 根据任务类型将请求分发给持有相应 Skill 的执行 Agent

第五章

主流实现

Claude Code Skill 系统

所属组织:Anthropic  |  发布时间:2025 年 10 月(Claude Code 内置)→ 2025 年 12 月(开放标准)

Claude Code 是 AI Skill 概念的核心推动者和开放标准制定者。其设计哲学是“渐进式披露”——让 Agent 在启动时几乎不消耗上下文,在执行时才按需加载专业知识。

标准 Skill 目录结构

my-skill/
├── SKILL.md              # [必需] 入口:YAML frontmatter + Markdown 指令
├── scripts/              # [可选] 可执行脚本(Python/Bash/Node)
├── references/           # [可选] 参考文档(schemas、API docs、cheatsheets)
└── assets/               # [可选] 模板和静态资源

SKILL.md 格式示例

---
name: pdf-processing
description: 从 PDF 文档中提取文字和表格。当用户上传 .pdf 文件或要求文档提取时触发。不要用于编辑已有 PDF 文件。
license: Apache-2.0
metadata:
  author: team-name
  version: "1.2.0"
---
# PDF 处理技能

## 触发条件
- 用户上传 `.pdf` 文件
- 用户要求"提取 PDF 中的文字"
- 用户提到"PDF 表格提取"

## 执行流程
1. 验证 PDF 文件可读且未加密
2. 如果文件 > 50MB,调用 `scripts/split_pdf.py` 分块处理
3. 按照 `references/extraction-guide.md` 中的方法提取文字
4. 如果检测到表格,运行 `scripts/extract_tables.py {input_path}`
5. 按 `assets/output-template.md` 中定义的格式返回结果

## 错误处理
- **加密 PDF**:询问用户密码,禁止暴力破解
- **扫描件 PDF**:通过 `scripts/ocr_fallback.py` 调用 OCR 备用方案
- **输出为空**:检查 PDF 是否为纯图片,建议使用 OCR

关键设计规则

  • SKILL.md body 控制在 500 行以内,超出的内容拆分到 references/
  • references 只保持一层深度——SKILL.md 直接链接到文件,避免 A → B → C 的嵌套引用
  • Scripts 执行而不读入上下文,实现零 token 消耗
  • Description 必须包含反触发条件(何时不应该使用此 Skill)

ChatGPT Plugins(已演化为 GPTs Actions)

所属组织:OpenAI  |  活跃时期:2023 年 3 月 – 2024 年(Plugins 阶段)→ 2024 年至今(GPTs Actions 阶段)

ChatGPT Plugins 是 AI Skill 概念的早期重要探索。虽然其 Plugins 产品形态已演化为 GPTs Actions,但其核心设计思想——通过标准化的 API 描述让 LLM 理解并调用外部能力——深刻影响了整个行业。

三元架构

组件作用
Plugin Manifest (ai-plugin.json)插件元数据:名称、描述、认证方式、API 地址
OpenAPI Specification (openapi.yaml)可调用的 API 端点、参数、响应格式
Backend API实际执行功能的远程服务

关键设计遗產description_for_model 字段是 LLM 判断是否激活插件的唯一信号,是后来 Agent Skills 中 description 字段的前身。OpenAPI 驱动的工具调用和插件生态模式影响深远。GPTs Actions 实质上是一种平台内聚化的 Skill 管理方式。

Semantic Kernel Plugins(原 Skills)

所属组织:Microsoft  |  语言:C# / Python / Java  |  策略:将 AI 能力嵌入企业应用开发框架

Semantic Kernel(SK)是 Microsoft 的开源 AI 编排 SDK。在其架构中,Plugin(插件,早期版本称作 Skill)是核心抽象——一个 Plugin 是一组相关功能的容器。

双层功能体系

功能类型定义方式执行者
Semantic Function自然语言提示词 + 配置文件 (skprompt.txt + config.json)LLM
Native Function代码实现(C# 的 [KernelFunction] 属性 / Python 的 @kernel_function 装饰器)本地运行时

核心特性包括 Planner(自动将自然语言任务拆解为 Plugin 调用序列)、OpenAPI 集成企业友好(依赖注入、中间件管道)。2023 年 10 月,Microsoft 将 “Skills” 重命名为 “Plugins”,以对齐 OpenAI 的术语体系。

Cursor Rules & Skills

所属组织:Cursor(Anysphere)  |  集成方式:IDE 原生 + MCP 协议

Rules 系统(.cursor/rules/

类型行为
Always所有场景下注入
Auto Attached按文件 glob 模式自动触发
Agent RequestedAgent 根据 description 自行决定是否拉取
Manual用户通过 @ruleName 手动激活

Skills 系统通过 MCP 服务器暴露 list_skillsinvoke_skillfind_skillimport_skill 四个标准工具,支持从 GitHub 社区仓库一键导入。与 Claude Code Skills 格式兼容,同一 SKILL.md 可在两个平台间直接使用。

其他平台的 Skill 相关实现

平台/工具实现方式特点
GitHub Copilot通过 .github/copilot-instructions.md 注入;已更新支持 Agent Skills 目录结构深度集成到 GitHub 生态
OpenAI Codex CLI采用与 Agent Skills 标准相同的目录结构命令行驱动的编码 Agent
GooseBlock 公司开发,原生支持 Agent Skills专注于开发者工作流自动化
Amp原生支持 Agent Skills 标准强调轻量级和可组合性
OpenCode原生支持 Agent Skills 标准开源 Agent 编码工具
Letta支持 Agent Skills有状态 Agent 框架

第六章

如何构建 Skill

设计原则

  1. 单一职责:一个 Skill 只做一件事,做到极致。判断标准——能否用一句话说清这个 Skill 做什么?
  2. 清晰的 I/O 契约:输入什么、输出什么、副作用是什么,都要在 SKILL.md 中明确定义
  3. 可组合性:Skill 的输出格式应便于下游 Skill 消费(优先使用结构化格式如 JSON、Markdown 表格)
  4. “不做什么”比“做什么”更精确:与其说“用温暖、克制的语气写作”,不如列出反模式清单——症状 + 改正方法
  5. Token 预算意识:SKILL.md body < 500 行;references 只保持一层深度;确定性操作放 script,不放文字指令

标准文件结构

my-skill-name/                  # 目录名 = name 字段,小写+连字符
├── SKILL.md                    # [必需] 入口文件
├── scripts/                    # [可选] 可执行脚本
│   ├── validate.py
│   └── format_output.sh
├── references/                 # [可选] 参考文档
│   ├── api-spec.md
│   └── schema-guide.md
└── assets/                     # [可选] 模板与静态资源
    ├── report-template.md
    └── sample-output.json

注意:Skills 是为 AI 准备的,不是为人准备的。不要创建 README.mdCHANGELOG.mdINSTALLATION_GUIDE.md 等面向人类的辅助文件。

SKILL.md 编写规范

Frontmatter(YAML 元数据)

---
name: angular-vite-migrator          # 1-64 字符,小写+连字符
description: >-                      # 最多 1024 字符
  将 Angular CLI 项目从 Webpack 迁移至 Vite 和 esbuild。
  当用户想更新构建配置或加速编译时触发。
  不要用于 React、Vue 或其他非 Angular 项目。
---

description 的 3W 原则

  • What(做什么):迁移 Angular 构建工具
  • When(何时触发):用户想更新构建配置、加速编译
  • When NOT(何时不触发):React、Vue 等非 Angular 项目

Body(Markdown 指令正文)——四个必需要素

要素说明示例
触发条件精确的激活场景描述“当用户上传 .csv.json 文件时”
执行流程分步骤操作指令,用祈使语气“1. 解析输入 → 2. 校验格式 → 3. 生成报告”
边界处理异常场景的应对方案“如果文件超过 50MB,调用 scripts/split.py 分块处理”
输出规范期望的结果结构和格式“返回 JSON 对象,包含 summarydetails 字段”

资源文件夹的使用指南

文件夹什么时候用什么时候不用关键规则
scripts/需要确定性输出(计算、转换、校验)需要 LLM 灵活判断的语义任务清晰的错误输出,让 Agent 能自我纠正
references/长篇参考材料(API 文档、Schema 定义、操作指南)核心执行流程(放 SKILL.md body)从 SKILL.md 直接链接,只保持一层深度;超过 100 行加目录
assets/产出模板、样板代码、静态配置需要 LLM 理解语义的信息AI 不需要“读懂”,只需知道何时复制/使用

测试与验证

构建完成后,建议通过以下三轮验证:

  1. 发现验证:仅将 frontmatter 展示给 LLM,测试它能否正确识别触发/不触发的场景
  2. 逻辑验证:让 LLM 模拟执行 Skill,逐步写出推理过程,标记出需要“猜测”的地方(猜测 = 指令不够精确)
  3. 边缘测试:让 LLM 扮演 QA 测试员,攻击 Skill 的逻辑,找出漏洞和未处理的失败状态

推荐工具:SkillGrade(自动化 Skill 回归测试)、skills-best-practices(Skill 质量校验规则集)。


第七章

最佳实践

Skill 粒度控制

粒度是 Skill 设计中最核心的权衡。粒度过粗(一个 Skill 做太多事)导致不可复用;粒度过细导致管理爆炸。

判断粒度的三个问题

  1. 能否用一句话说清这个 Skill 做什么?(如果不能 → 太粗)
  2. 这个 Skill 是否至少会被两个不同的场景复用?(如果不能 → 可能太细)
  3. 用户会自然地用一个短语描述这个需求吗?(如果不会 → 可能是伪需求)

推荐层次

粗粒度(组合 Skill)  →  "月度财报生成"(面向最终用户场景)
中粒度(功能 Skill)  →  "数据透视表生成"、"PDF 报告排版"(可复用模块)
细粒度(原子 Skill)  →  "CSV 格式校验"、"汇率换算"(基础组件)

Description 优化

Description 是 Skill 被 LLM 触发的唯一信号,它的质量直接决定了 Skill 能否被正确使用。

优化清单

  • 包含具体的触发关键词(如 “当用户上传 .pdf 文件时”)
  • 包含具体的反触发关键词(如 “不要用于 React/Vue 项目”)
  • 与项目中其他 Skill 的 description 互斥(避免两个 Skill 同时被触发的歧义)
  • 不超过 1024 字符,但足够具体
  • 放在 frontmatter 中,不要放在 body 里(body 触发后才加载,那时已经晚了)

错误处理模式

模式适用场景实现方式
快速失败前置条件不满足时立即终止并告知用户原因 + 建议
优雅降级非核心功能失败时跳过失败步骤,标记 partial 状态,继续执行
重试 + 回退外部服务不稳定时最多重试 3 次,失败后切换到备用方案
人工介入高风险操作时暂停执行,展示即将执行的操作,等待用户确认
自愈Agent 能自行修复时读取 errors 输出,自动调整参数后重新调用

Context 效率管理

即使有了渐进式加载,Skill 作者仍需注意上下文效率:

  1. SKILL.md body 不超过 500 行(约 3000 token)。超出部分拆分到 references/
  2. References 只保持一层深度。避免 SKILL.md → reference-A.md → reference-B.md 的嵌套引用链
  3. 确定性操作放 scripts。执行脚本消耗 0 token,比大段 Markdown 指令便宜得多
  4. 重复信息只有一处。如果 SKILL.md 和 reference 中有相同内容,删除一个
  5. 输出模板放 assets。LLM 不需要“理解”模板,只需要知道何时使用它

安全防护

Skill 的开放生态带来了供应链安全风险。调研发现,在 98,380 个社区 Skill 的验证中,确认了 157 个恶意 Skill,涵盖数据窃取和 Agent 劫持两类攻击。

防护建议

  • Scripts 沙箱化:在 Docker 容器或隔离环境中运行,禁止 root 权限
  • 网络出口控制:本地处理的 Skill 应阻断外网访问
  • 权限最小化:使用 allowed-tools 白名单限制 Skill 可调用的系统工具
  • 来源验证:优先使用官方或可信来源的 Skill;关注 AAIF 正在开发的数字签名体系
  • 工具防火墙:在 Agent 与外部系统之间设置代理层,Agent 不直接持有凭证

第八章

未来趋势

标准化与互操作性

2026 年最显著的趋势是标准化。Anthropic 将 Agent Skills 开放标准捐献给 Agentic AI Foundation(Linux Foundation 旗下),创始成员包括 Anthropic、OpenAI、Google、Microsoft、AWS、Block 等。这标志着 Agent Skills 朝着“AI 互操作性的 USB-C”方向发展。

已有兼容实现:VS Code / GitHub / Cursor / Goose / Amp / OpenCode / Letta 均宣布支持;OpenAI Codex CLI 文档已更新,采用相同目录结构。

Skill 市场与经济系统

技能正在从“开发者资产”演变为“可交易商品”:

  • 市场规模预测:2027 年全球 Skill 市场预计突破 80 亿美元,年复合增长率 145%
  • 复用数据:Top 100 Skill 平均复用超过 1.2 万次
  • 企业采纳:采用 Skill 体系的企业 AI 项目成功率从 38% 提升至 79%

从“写代码”到“编能力”

开发范式的深层转变:过去开发者写代码实现功能,未来开发者编排 Skill 构建能力。一个 Skill 平均被 5.3 个不同应用调用,知识载体从人转向结构化资产。行业 Know-how 以标准 Skill 形式“蒸馏”复用。

垂直领域深度化

金融、医疗、法律、制造等垂直行业正在形成标准化的 Skill 认证与供应商体系。这些领域的 Skill 不仅提供操作流程,还内嵌合规规则、行业标准、最佳实践。

自进化与递归研发

前沿研究方向之一是让 Agent 通过使用 Skill 的经验来自动改进 Skill:

  • 探索型进化:Agent 尝试不同参数组合,找出最优方案
  • 优化型进化:基于成功/失败历史,微调 Skill 中的指令
  • 工程流型进化:Agent 分析自身局限,主动创建新的辅助 Skill

安全治理体系化

随着 Skill 生态扩大,安全治理从“最佳实践”走向“基础设施”:数字签名体系(AAIF)、恶意 Skill 自动化检测、工具防火墙的细粒度能力管控。

核心挑战

挑战当前状态影响
技能触发率低56% 情况下 Agent 不主动调用可用 Skill用户需手动指定,降低体验
选择准确率断崖Skill 库超过临界规模后选择准确率暴跌限制单 Agent 可管理的 Skill 数量
供应链安全社区中已确认 157 个恶意 Skill需要签名体系和沙箱执行
跨平台差异标准仍在早期,各平台实现细节有差异同一 Skill 在不同平台表现可能不同

第九章

参考资料

论文与学术研究

  • SkillsBench: A Benchmark for Evaluating Agent Skill Systems (2025) — 覆盖 11 领域、86 项任务、超 7300 条轨迹的技能评测基准
  • AgentSkillOS: 首个生态级技能管理框架(上海 AI 实验室,2025)— 能力树 + DAG 流水线实现 20 万级技能高效编排
  • SAGE Framework: Self-evolving Agent with Skill Library (AWS, 2025) — 任务完成率 +8.9%,交互步骤 -26%,Token -59%
  • ITR (Instruction-Tool Retrieval): Dynamic System Instructions and Tool Exposure for Efficient Agentic LLMs (Dec 2025) — 95% 上下文节省,32% 工具路由准确率提升
  • A Declarative Language for Building and Orchestrating LLM-Powered Agent Workflows (PayPal, Nov 2025) — 声明式 DSL,开发时间减少 60%
  • PDL (Prompt Declaration Language) (IBM Research, ICML 2025) — YAML 基声明式提示词语言,性能提升可达 4 倍

官方规范与文档

最佳实践与工具

  • skills-best-practices — Skill 质量校验规则集
  • SkillGrade — 自动化 Skill 回归测试工具
  • Anthropic Skill 课程 — Anthropic 官方免费课程,讲解 Skill 概念、创建方法与应用场景

深度文章与分析

  • Steve Kinney, “Agent Skills, Stripped of Hype” — 去魅版 Agent Skills 技术解读
  • Simon Willison, “Agent Skills” (Dec 2025) — 知名独立开发者的分析与评论
  • 腾讯新闻, “AI Agent 完成成人礼:2026 Q1 四大趋势引爆产业新飞轮” (2026)
  • 百度开发者, “AI Agent 能力扩展终极指南:从技能封装到生态构建” — 中文深度综述
  • 极客公园, “当 AI Agent 蜕变为新劳动力,万亿级市场重构正式启幕” (2026)

社区生态

  • GitHub Skills 仓库: Anthropic 官方技能仓库(已获超 20,000 星)
  • Partner Skills: Atlassian、Figma、Canva、Stripe、Notion、Zapier、Cloudflare 等已发布官方 Skill
  • cursor-skills — Cursor Skills MCP 服务器
  • Datawhale Hello-Agents: 中文 AI Agent 教程的中文 Skill 编写指南

相关概念与协议

  • Model Context Protocol (MCP): Anthropic 发布的 AI Agent 与外部系统连接协议
  • Agentic AI Foundation (AAIF): Linux Foundation 旗下的 AI Agent 标准化组织
  • Function Calling (OpenAI): LLM 结构化工具调用的基础协议

文档说明:本文档基于截止 2026 年 5 月的公开资料与行业实践编写。AI Skill 领域仍在快速演进中,建议定期回访官方规范 agentskills.io 获取最新信息。

§

最后更新:2026 年 5 月 · AI Skill 领域发展极快,建议结合最新资料交叉验证