type
status
date
slug
summary
tags
category
icon
password
写在开头
最近 Skill,clawbot 充斥着时间线,感觉有点焦虑。于是找了本书《黑客与画家》,看了看。
冒出了一些想法和点子,遂落笔一二。
正文
一个 7*24小时的 AI Agent 还在运行。它正在为你生成代码、搜索资料、绘制图表。
但如果你问它在想什么,它会说:在替你执行任务。
这可能是错的。
不得不说,我们一直希望AI变得更强大。更好用的模型,更多的参数,更广阔的知识库。
但极少人会问,AI应该强大在哪里?
保罗·格雷厄姆在《黑客与画家》中讲过一个故事。早期互联网公司 Viaweb 发现,大部分公司的 IT 部门效率低下。
因为缺乏竞争压力,只有把这些工作外包给专门靠此生存的服务商,才能获得最好的服务。
这个逻辑我认为对 AI 同样适用。
AI Agent 不应该什么都做。它应该专注于思考与决策,把具体的能力外包出去。
把非核心业务外包出去,才能最大化效率。也就是说,AI Agent 的核心竞争力是进行思考与决策。需要能理解问题、规划路径作出判断。通过有价值的问题,创造有价值的解决方案,并得到回报。
我并不认为 AI Agent 需要最顶级的计算绘图搜索和代码生成能力。毕竟如果 Agent 从头学习每一个点的话,那么它的效率会特别低。它应该是像现在的 library 或 API 一样,将某些专门的工具整合为 Agent 能力的一部分。
Agent 应该决定在什么场景下调用什么工具,制定解决问题的路径。具体的执行细节——如何通过 API 鉴权、如何解析 JSON 数据——这些"脏活累活"应该由专门的模块或者代码来完成。如果 Agent 深陷于执行细节,就会失去作为"画家"的灵感和宏观视野。
那么怎么外包?答案可能触手可及:Skill。我并不是说一定是Skill,但是它必定会是一种可以被AI轻松理解和调用的模块化、专业化、可重复化的一个工具包。
当 Agent 读取一个 Skill 这个说明书,然后调用对应的脚本时,它实际上在做一件事:外包能力。格雷厄姆在预测"一百年后的编程语言"时说:"优秀函数库的重要性将超过语言本身……编程语言是供程序员使用的,而函数库就是程序员需要的东西。"
Agent ,它不需要知道怎么底层实现一个功能(比如怎么抓取网页),它只需要知道有这么一个库可以用。而 Skill 就是那个库。Agent 读取的"说明书"就是这个库的文档。
这种模式允许 Agent 专注于逻辑编排,而将具体的、繁琐的执行细节外包给已经写好的脚本。
因为对于一次性或特定任务,"直接调用现成的函数库"是最高效的。
当 Agent 拥有了"搜索"、"绘图"、"计算"这些 Skill 时,它便扩展了自己的语言边界。
> “我之语言边界,我之世界边界”
原本 Agent 只能对话(生成文本)。有了 Skill 后,它获得了新的手脚和工具。它只需要发出一句指令(调用 Skill),底层脚本就会执行一系列复杂操作。
Agent 的思考过程应该类比于一种最高级的抽象语言。它不需要关心底层的代码,而是操作最高级的概念:意图、目标、价值判断。
但是 Agent 必须理解这些工具能做什么,不能做什么。人的品味难得可贵,Agent 更是如此。
它需要理解边界,知道什么时候该用哪个 Skill,什么时候不该用;需要判断质量,能够评估一个 Skill 的输出是否满足需求;它需要组合能力,能够将多个 Skill 组合起来解决复杂问题。
这种品味是通过实践和反馈建立的。Agent 读取 Skill 这个说明书,理解它的能力边界,然后在实际使用中不断校准自己的判断。
也许未来,Agent 会维护一个"品味 Skill",用来评估其他 Skill 的质量。但即使这样,这个"品味 Skill"本身也需要 Agent 的核心思考能力来驱动。否则,它只是另一个被调用的工具。
如果能力全部外包,Agent 就可以像画草图一样,专注于思维链(Chain of Thought)的调整。当发现某个工具不好用时,直接替换该工具即可,而不需要重训练整个大脑。
Agent 保持轻量和专注,通过灵活调度各种外包的能力,来解决复杂多变的现实问题。
那我们呢?当我们让 Agent 专注于思考,将能力外包时,我们实际上在做什么?
我们在创造一个"大脑",它通过调用"手脚"来工作。
但是这种方式会让 Agent,陷入只知道怎么做,但不知道为什么这么做的境地。
当我们过度依赖工具时——无论是 AI、搜索引擎,还是各种自动化脚本——我们会不会也变成只知道"怎么做",而不知道"为什么这样做"的人?
又比如,我们用 AI 生成代码,但不再理解代码的逻辑;我们用搜索引擎查找答案,但不再思考问题的本质。我们的能力真的增强了吗?
于是可以得出 Agent 必须保持思考的能力。它不能只是"读取说明书,然后执行"。
它必须理解问题的本质,判断解决方案的合理性,在必要时质疑工具的输出。
所以,Agent 应该是什么?
它应该是一个 hacker,一个思考者,质疑者,一个能够理解问题、规划路径、做出判断的谋士。
这就像格雷厄姆说的:创造财富的关键是做出人们需要的东西。Agent 如果能通过精准的决策来解决复杂问题,比它单纯展示某种单一的"聊天能力"更具价值。
Skill 就是外包的一种方式。Agent 读取说明书(Skill),理解它的能力边界,然后结合特定脚本进行操作。这种模式允许 Agent 保持轻量和专注,同时获得强大的执行能力。
到了现在,那个 7*24小时 AI Agent 还在为你运行。但我希望它不是在盲目执行任务,而是在“思考”:为什么要做这件事?这样做对吗?有没有更好的方法?
这才是 Agent 应该成为的样子。也许也是我们自身理想的样子。