AI 智能体的持续学习

关于 AI 持续学习（Continual Learning）的讨论，大多聚焦于一件事：更新模型权重。但对于 AI 智能体来说，学习可以发生在三个截然不同的层面：模型（Model）、Harness 和上下文（Context）。理解这三者的差异，会从根本上改变你对”如何构建持续改进系统”的思考方式。

智能体系统（Agentic System）的三个主要层次：

示例 #1：以编码智能体（Coding Agent）Claude Code 为例：

示例 #2：以 OpenClaw 为例：

谈到持续学习，大多数人会直接联想到模型层。但实际上，AI 系统可以在这三个层面中的任何一个进行学习。

模型层的持续学习

大多数人谈论持续学习时，最常指的就是更新模型权重。

相关技术包括 SFT（Supervised Fine-Tuning，监督微调）、RL（Reinforcement Learning，强化学习，如 GRPO）等。

这一层面的核心挑战是灾难性遗忘（Catastrophic Forgetting）——当模型在新数据或新任务上更新后，往往会在先前已掌握的能力上出现退化。这至今仍是开放的研究课题。

当人们为特定智能体系统训练模型时（例如，可以将 OpenAI 的 Codex 模型视为专门为其 Codex 智能体训练的），通常是针对整个智能体系统进行。理论上可以做到更细的粒度——比如为每个用户训练一个 LoRA——但实践中主要还是在智能体层面完成。

如前所述，Harness 指的是驱动智能体的代码，以及始终内置于 Harness 的指令和工具。

随着 Harness 的日益普及，已有多篇论文探讨如何优化 Harness。

其核心思路是让智能体在循环中运行。首先在一批任务上运行智能体并进行评估，然后将所有运行日志存入文件系统，再让一个编码智能体分析这些 Traces，提出对 Harness 代码的改进建议。

与模型层的持续学习类似，Harness 层的学习通常也在智能体层面进行。理论上可以做到更细的粒度（例如为每个用户学习不同的 Harness 代码），但目前实践中尚不多见。

“上下文”存在于 Harness 之外，用于对 Harness 进行配置。上下文包括指令、Skills，甚至工具。这也常被称为记忆（Memory）。

同类型的上下文也存在于 Harness 内部（例如，Harness 可能包含基础系统提示词和 Skills）。关键区别在于：它是 Harness 的组成部分，还是外部配置。

上下文学习可以在多个级别进行。

在智能体级别——智能体拥有持久化的”记忆”，并随时间更新自身配置。一个典型的例子是 OpenClaw，它拥有自己的 SOUL.md，会随着使用不断更新。

更常见的做法是在租户级别（用户、组织、团队等）进行上下文学习。每个租户拥有各自的上下文，并随时间持续更新。相关产品包括 Hex 的 Context Studio、Decagon 的 Duet 和 Sierra 的 Explorer。

你也可以混合搭配！比如一个智能体可以同时具备智能体级别、用户级别和组织级别的上下文更新。这些更新可以通过两种方式进行：

事后离线处理。与 Harness 更新类似——对近期的 Traces 进行批量分析，提取洞察并更新上下文。OpenClaw 将这一过程称为”做梦”（Dreaming）。
在热路径上实时更新。智能体在执行核心任务的过程中，可以自行决定（或由用户提示）更新自身记忆。

另一个值得考虑的维度是记忆更新的显式程度：是由用户主动提示智能体记住某些内容，还是智能体根据 Harness 中的核心指令自动进行记忆？

上述所有流程都依赖于 Traces（执行轨迹）——即智能体完整的执行路径记录。LangSmith 是我们的平台，核心功能之一就是帮助收集 Traces。

收集到的 Traces 可以用于多种用途。

如果想更新模型，可以收集 Traces，然后与 Prime Intellect 等公司合作训练自有模型。

如果想改进 Harness，可以使用 LangSmith CLI 和 LangSmith Skills，让编码智能体访问这些 Traces。我们正是用这种方式改进了 Deep Agents（我们的开源、模型无关的通用基础 Harness）在 Terminal Bench 上的表现。

如果想随时间学习上下文（无论是智能体级别、用户级别还是组织级别），那么你的智能体 Harness 需要支持这一能力。Deep Agents——我们首选的 Harness——提供了生产就绪的支持。请参阅相关文档，了解如何实现用户级别记忆、后台学习等功能。