从Anthropic更新 Skill-creator 看Agent发展终局
最近一直在思考 AI 在企业落地的“真命题”到底是什么。
过去两年,大家都在卷 RAG(检索增强生成),试图把企业文档一股脑塞进向量数据库,想以此造出一个“行业专家”。但我始终觉得不对劲:真正的专家经验,往往不在那几份 PDF 里,而是在老专家的脑子里。
那些关于“尺度”的把握、特定流程的肌肉记忆、以及对某种工作风格的坚持,很难通过外挂一个知识库就解决。
昨天,Anthropic 对其 skill-creator() 进行了更新(参考链接),看完之后我有一种“拨云见日”的感觉。A 社不仅仅是在更新一个工具,他们是在定义 Agent 进化的路径。
1. 重新定义 Skills:是“补丁”还是“灵魂”?
Anthropic 很有意思,他们把 Skill 分成了两类,这直接回答了“模型变强后,技能还有没有用”的问题:
- 能力提升型 (Capability uplift): 这是给模型打的“补丁”。比如模型处理复杂 Excel 不行,那就写个技能帮它。这类技能的测试重点是:当 Claude 4 或 Claude 5 出来后,这个技能是不是可以“退役”了?
- 偏好编码型 (Encoded preference): 这才是企业的“灵魂”。比如“某某律所的 NDA 审核标准”。这种东西模型永远无法通过通用训练获得,因为它代表了特定的工作流和价值观。
我的思考: 以前我们总担心模型升级了,之前的努力白费了。现在逻辑清晰了:能力升级会替代一些功能型技能,我们要努力沉淀的是“偏好编码”,那是企业不可替代的数字资产。
2. Skill-creator 的硬核更新:AI 开发也需要 CI/CD
这次更新引入了 Evals (评估测试) 和 Benchmark mode (基准模式)。
简单来说,就是给 Agent 技能写“单元测试”。
- 你可以定义:输入 A,预期必须输出 B。
- 每次模型更迭或技能修改,自动跑一遍通过率、耗时和 Token 消耗。
逻辑在于: Agent 的开发正在从“靠感觉调优(Vibe Check)”转向“基于数据的工程化”。如果一个专家技能不能被量化测试,那它在生产环境下就是不可信的。
3. 降维打击:为什么说 Skills 是专家经验落地的终极形态?
结合之前做企业 RAG 的经验,我把 A 社的这套逻辑拆解为三个层级,这可能才是垂直行业大模型落地的正确姿势:
第一层:言传身教,而非暴力拆解。
不要再想着把专家经验拆解成零散的知识点塞进数据库,或者费劲巴拉地去微调模型。
专家的经验是通过“语言”传达的。在 skill.md 里,专家用自然语言描述规则、提供工具。这就是数字化版的“徒弟带教”。专家写 Skill,模型听指令。
第二层:用技术隐藏技术,让人回归业务。 为什么以前行业专家参与不进来?因为环境搭建太难了。
- MCP (Model Context Protocol) 虽然统一了接口,但安装部署门槛太高。
- Sandbox (沙箱运行时) 的引入简直是神来之笔。它给 Skills 提供了一个安全的 Python/Node 运行环境。
- 大模型自己写代码、跑脚本,专家只需要动嘴皮子。**“渐进式披露”**解决了上下文过载的问题,这完全符合人类探索问题的逻辑——只在需要的时候,看需要的资料。
第三层:从“怎么做”到“做什么”。 随着 Skill-creator 的完善,技能正在变得“黑盒化”。未来的 Skill 可能只需要一段自然语言描述“做什么”,模型就能根据已有的经验库自动调用工具。
总结:MCP 是过渡,Skills 才是未来
回头再看,我产生了一个比较激进的想法:MCP 可能会变得越来越“鸡肋”。
MCP 试图从底层基础设施去统一工具,它太重了,太“程序员思维”了。而 Skills 这种基于自然语言描述、自带运行沙箱、可评估、可插拔的形态,更接近 AI 协同的终极形态。
往后想想: 当模型足够聪明,它不再需要你手把手教它怎么点击某个 API,它只需要知道你的“偏好”和“目标”。
往前看看: 我们正在进入一个“技能超市”的时代。企业真正的护城河,不再是存了多少 TB 的文档,而是拥有多少个能通过高强度 Eval 测试的、承载了核心业务逻辑的 Expert Skills。