Harness Engineering 概念总览

来源：OpenAI 2026-02-11，作者 Ryan Lopopolo 背景：3人团队用 Codex 从空仓库到100万行代码，5个月，零手写代码

一句话定义

Harness Engineering = 工程师不再写代码，而是设计环境、明确意图、构建反馈回路，让 AI 智能体可靠地完成工作。

六大核心概念

1. 仓库即记录系统（Repo as System of Record）

不在仓库里的东西，对智能体来说不存在
Slack 讨论、Google Docs、脑子里的知识 = 对智能体不可见
一切决策、规范、计划都必须以版本化工件提交到仓库

2. 地图而非手册（Map, Not Manual）

AGENTS.md ≈ 目录页（~100行），不是百科全书
渐进式披露：从小入口点开始，指向更深层的文档
巨型指令文件的三个死因：挤占上下文、无法维护、无法机械验证

3. 机械化执行（Mechanical Enforcement）

文档会腐烂，lint 规则不会
自定义 linter + 结构测试 = 不变量的守护者
lint 错误信息里内嵌修复指令，智能体可以自我纠正

4. 智能体可读性（Agent Readability）

优先选择”无聊”技术（API 稳定、训练集覆盖好）
有时重新实现子集比包装不透明的上游行为更划算
让应用可以按 git worktree 启动，智能体可以启动隔离实例

5. 熵管理 = 垃圾回收（Entropy & Garbage Collection）

智能体会复现仓库中已有的模式——包括坏模式
“黄金规则”编码进仓库，定期后台任务扫描偏差
技术债 = 高息贷款，小额持续偿还

6. 人类掌舵，智能体执行（Humans Steer, Agents Execute）

人类时间是最稀缺的资源
出问题时，答案不是”更努力”，而是”缺什么上下文/工具/约束”
工程师的新角色：设计环境 → 拆解任务 → 提示智能体 → 验证结果

架构模型

每个业务域内的固定分层：
Types → Config → Repo → Service → Runtime → UI

横切关注点通过 Providers 进入（auth, telemetry, feature flags）
依赖只能向前流动，由 linter 强制执行

关键数据点

3人团队 → 5个月 → ~100万行代码 → ~1500个 PR
人均每天 3.5 个 PR，扩展到 7 人后吞吐量还在增长
单次 Codex 运行可持续 6+ 小时（通常在人类睡眠时间）
估算：约为手工编写的 1/10 时间