从Anthropic更新 Skill-creator 看Agent发展终局

最近一直在思考 AI 在企业落地的“真命题”到底是什么。

过去两年，大家都在卷 RAG（检索增强生成），试图把企业文档一股脑塞进向量数据库，想以此造出一个“行业专家”。但我始终觉得不对劲：真正的专家经验，往往不在那几份 PDF 里，而是在老专家的脑子里。

那些关于“尺度”的把握、特定流程的肌肉记忆、以及对某种工作风格的坚持，很难通过外挂一个知识库就解决。

昨天，Anthropic 对其 skill-creator() 进行了更新（参考链接），看完之后我有一种“拨云见日”的感觉。A 社不仅仅是在更新一个工具，他们是在定义 Agent 进化的路径。

1. 重新定义 Skills：是“补丁”还是“灵魂”？

Anthropic 很有意思，他们把 Skill 分成了两类，这直接回答了“模型变强后，技能还有没有用”的问题：

能力提升型 (Capability uplift)： 这是给模型打的“补丁”。比如模型处理复杂 Excel 不行，那就写个技能帮它。这类技能的测试重点是：当 Claude 4 或 Claude 5 出来后，这个技能是不是可以“退役”了？
偏好编码型 (Encoded preference)： 这才是企业的“灵魂”。比如“某某律所的 NDA 审核标准”。这种东西模型永远无法通过通用训练获得，因为它代表了特定的工作流和价值观。

我的思考： 以前我们总担心模型升级了，之前的努力白费了。现在逻辑清晰了：能力升级会替代一些功能型技能，我们要努力沉淀的是“偏好编码”，那是企业不可替代的数字资产。

这次更新引入了 Evals (评估测试) 和 Benchmark mode (基准模式)。

简单来说，就是给 Agent 技能写“单元测试”。

逻辑在于： Agent 的开发正在从“靠感觉调优（Vibe Check）”转向“基于数据的工程化”。如果一个专家技能不能被量化测试，那它在生产环境下就是不可信的。

结合之前做企业 RAG 的经验，我把 A 社的这套逻辑拆解为三个层级，这可能才是垂直行业大模型落地的正确姿势：

第一层：言传身教，而非暴力拆解。 不要再想着把专家经验拆解成零散的知识点塞进数据库，或者费劲巴拉地去微调模型。专家的经验是通过“语言”传达的。在 skill.md 里，专家用自然语言描述规则、提供工具。这就是数字化版的“徒弟带教”。专家写 Skill，模型听指令。

第二层：用技术隐藏技术，让人回归业务。 为什么以前行业专家参与不进来？因为环境搭建太难了。

第三层：从“怎么做”到“做什么”。 随着 Skill-creator 的完善，技能正在变得“黑盒化”。未来的 Skill 可能只需要一段自然语言描述“做什么”，模型就能根据已有的经验库自动调用工具。

回头再看，我产生了一个比较激进的想法：MCP 可能会变得越来越“鸡肋”。

MCP 试图从底层基础设施去统一工具，它太重了，太“程序员思维”了。而 Skills 这种基于自然语言描述、自带运行沙箱、可评估、可插拔的形态，更接近 AI 协同的终极形态。

往后想想： 当模型足够聪明，它不再需要你手把手教它怎么点击某个 API，它只需要知道你的“偏好”和“目标”。

往前看看： 我们正在进入一个“技能超市”的时代。企业真正的护城河，不再是存了多少 TB 的文档，而是拥有多少个能通过高强度 Eval 测试的、承载了核心业务逻辑的 Expert Skills。