文章索引

脉络一:AI 时代的 Harness Engineering(大模型护栏与认知工程)

1. OpenAI 官方 — 原点与哲学

  • 标题: Harness engineering: leveraging Codex in an agent-first world
  • 链接: openai.com
  • 作者: Ryan Lopopolo | 日期: 2026-02-11
  • 核心: 3 人团队用 Codex 从空仓库到 100 万行代码,零手写代码。提出六大概念:仓库即记录系统、地图而非手册、机械化执行、智能体可读性、吞吐量改变合并理念、熵管理。
  • 关联: 本仓库的学习起点,所有概念笔记的来源

2. Martin Fowler / Birgitta Böckeler — 系统性认知与控制论框架

  • 标题: Harness engineering for coding agent users

  • 链接: martinfowler.com

  • 翻译: fowler-harness-engineering-full-translation.md

  • 前传备忘录: first thoughts | 备忘录翻译: fowler-harness-engineering-memo-translation.md

  • 作者: Birgitta Böckeler (Thoughtworks) | 日期: 2026-04-02(备忘录 2026-02-17)

  • 核心: 控制论视角的 harness 框架——Guides(前馈)× Sensors(反馈)+ Computational(计算性)× Inferential(推理性)的 2×2 矩阵,三个规制维度,Ashby 必要多样性定律

  • 核心框架:Guides × Sensors + Computational × Inferential

计算性(确定性,CPU)推理性(语义,LLM)
引导器(前馈)bootstrap 脚本、OpenRewrite、LSPAGENTS.md、Skills、architecture.md
传感器(反馈)linter、ArchUnit、类型检查、覆盖率AI code review、LLM-as-judge
  • 关键原则:

    • 单独用任何一种都不行——只有反馈 = 反复犯同样的错;只有前馈 = 不知道规则是否生效
    • 计算性控制便宜、确定、每次提交都跑;推理性控制昂贵、概率性、不是每次都跑
    • Harness engineering 是 context engineering 的一种特定形式
  • 三个规制维度:

维度成熟度现状
可维护性 Harness最成熟计算性传感器可靠捕获结构问题;LLM 部分解决语义问题;两者都无法可靠捕获:误诊、过度工程、误解指令
架构适应度 Harness中等本质是 Fitness Functions——性能 Skills + 可观测性规范
行为 Harness最弱”房间里的大象”——功能正确性验证仍依赖 AI 生成的测试,“目前还不够好”
  • Harnessability(可驾驭性):

    • 不是所有代码库都同样适合被 harness
    • 强类型语言天然有类型检查传感器;清晰模块边界支持架构约束;成熟框架(如 Spring)隐式提高成功概率
    • Ambient Affordances(Ned Letcher):环境本身的结构属性使智能体更容易操作
    • 绿地项目可以从第一天融入;遗留系统 = harness 最需要的地方恰恰是最难构建的地方
  • Harness 模板:

    • 企业 80% 的服务可归入几种常见拓扑(API 服务、事件处理、数据仪表板)
    • 服务模板 → harness 模板:引导器 + 传感器的集合,约束智能体到特定拓扑
    • 会面临和服务模板一样的分叉/同步挑战,甚至更严重(非确定性组件更难测试)
  • Ashby 必要多样性定律:

    • 调节器必须至少拥有与被调节系统同等的多样性
    • LLM 能生成几乎任何东西(高多样性)→ 选定拓扑 = 削减多样性 → 全面 harness 变得可行
    • 定义拓扑结构本身就是一种多样性削减举措
  • 人类角色的重新定位:

    • 人类开发者携带隐性 harness:社会问责感、对复杂性的审美痛感、组织记忆、“我们这里不这么做”的直觉
    • 智能体没有这些——不知道哪个规范是承重的、哪个只是习惯
    • “好的 harness 不应以完全消除人类输入为目标,而应将人类输入引导到最重要的地方”
  • 质量左移(Shift Quality Left):

    • 按速度和成本分布检查:pre-commit 跑便宜传感器,管线跑昂贵传感器
    • 持续漂移传感器:死代码检测、覆盖率质量、依赖扫描、SLO 退化
  • 开放挑战:

    • Harness 连贯性:引导器和传感器增长后可能相互矛盾
    • Harness 覆盖率:类似代码覆盖率,评估 harness 自身的完整性
    • 传感器从未触发时,如何区分高质量 vs 检测不足
  • 备忘录独有洞察(正式版未保留):

    • “OpenAI 有既得利益让我们相信 AI 可维护的代码”——对数据来源的信任保留
    • “你今天的 harness 是什么?“——务实的起步问题,审视已有实践
    • “代码设计本身就是上下文的重要组成部分”——比框架更本质
    • 最后自嘲预言”harness”一词会被滥用
  • 与其他文章的关联:

本文概念对应文章
Guides × Sensors 矩阵对 LangChain 组件清单和 HumanLayer 六杠杆的升维——从”有什么”到”如何协同”
行为 Harness 是大象回应自己备忘录中的批评:OpenAI 缺少功能验证
HarnessabilityOpenAI 的”无聊技术”选择标准的理论化
Ashby 定律为 Fowler 假说 2(约束越严,自主性越强)提供控制论根基
Harness 模板将备忘录假说 1 从问题升级为具体方案
人类角色对 Anthropic #7 中人类缺位的直接回应——不应消除人类,应引导人类

3. LangChain / Viv Trivedy — 解剖与机制

  • 标题: The Anatomy of an Agent Harness
  • 链接: blog.langchain.com
  • 作者: Vivek Trivedy | 日期: 2026-03
  • 核心: 给出 harness 的精确定义和完整组件清单

Agent = Model + Harness。Harness = 模型之外的一切代码、配置和执行逻辑。

  • 组件清单:
    • System Prompts / Tools / Skills / MCP
    • 沙箱基础设施(文件系统、浏览器)
    • 编排逻辑(子智能体、handoff、模型路由)
    • Hooks/中间件(compaction、续接、lint 检查)
  • 关键洞察:
    • Context Rot — 上下文填满后性能退化,需要 compaction + 工具输出卸载 + 渐进式披露
    • Ralph Loop — 拦截退出、重注入提示词、强制在新上下文窗口中继续
    • Harness 与模型训练耦合 — 模型会 overfit 到特定 harness,换 harness 表现可能暴跌(Terminal Bench 2.0:纯 harness 优化可把排名从 Top 30 拉到 Top 5)

4. Anthropic / Prithvi Rajasekaran — Harness 设计实战(长时自主编码)

  • 标题: Harness design for long-running application development

  • 链接: anthropic.com

  • 作者: Prithvi Rajasekaran (Anthropic Labs) | 日期: 2026-03-24

  • 核心: Anthropic 官方工程博客,GAN 启发的三智能体架构实战,从前端设计到全栈自主编码

  • 两个核心问题:

    1. Context Anxiety — 模型接近上下文极限时提前收尾(Sonnet 4.5 尤为明显),compaction 不够,需要 context reset
    2. Self-Evaluation 失败 — 智能体评估自己的工作时倾向于过度称赞,即使质量平庸
  • 三智能体架构(GAN 启发):

智能体职责
Planner1-4 句提示词 → 完整产品规格(刻意高层级,避免细节错误向下游级联)
Generator按 sprint 逐特性实现,React + Vite + FastAPI + SQLite/PostgreSQL
Evaluator用 Playwright MCP 实际操作运行中的应用,逐条验证 sprint 合同,打分 + 写详细 critique
  • Sprint 合同机制:

    • 每个 sprint 前,Generator 和 Evaluator 协商”done 长什么样”
    • Generator 提议构建内容和验证标准,Evaluator 审核
    • 双方迭代达成一致后才开始编码
    • 解决了 spec 太高层级 → 实现不可验证的 gap
  • 评估标准(前端设计 4 维度):

    1. Design Quality — 是否有连贯的视觉身份(权重高)
    2. Originality — 是否有原创设计决策,而非 AI 模板(权重高)
    3. Craft — 排版、间距、对比度等技术执行(默认就好)
    4. Functionality — 可用性独立于美学(默认就好)
  • 迭代进化(模型升级后的 Harness 瘦身):

版本模型架构时长成本
Solo baselineOpus 4.5单智能体20 min$9
V1 HarnessOpus 4.5Planner + Generator(sprint) + Evaluator(per-sprint)~6 hr$200
V2 HarnessOpus 4.6Planner + Generator(无 sprint) + Evaluator(单次 pass)~4 hr$125
  • 关键经验:

    • 每个 harness 组件都编码了一个假设(“模型不能独立做 X”),这些假设需要定期重新压测
    • 新模型发布后应精简 harness:去掉不再承重的部分,添加新能力
    • Evaluator 的价值取决于任务是否处于模型能力边界:边界内 → 开销浪费;边界外 → 真正有帮助
    • “有趣的 harness 组合空间不会随模型改进而缩小——它会移动”
  • 与其他文章的关联:

Anthropic 概念对应文章
Context Anxiety + ResetLangChain 的 Context Rot + Ralph Loop
Self-Evaluation 失败 → 分离 EvaluatorHumanLayer 的 Sub-Agent 上下文防火墙
Sprint 合同OpenAI 的执行计划(exec-plans)
4 维度评分标准OpenAI 的 QUALITY_SCORE.md
Harness 瘦身原则Fowler 的”约束越严,自主性越强"
"找最简方案,按需增加复杂度”HumanLayer 的”简单开始,按需添加”

5. HumanLayer / Kyle — 实践与避坑

  • 标题: Skill Issue: Harness Engineering for Coding Agents

  • 链接: humanlayer.dev

  • 核心: 最落地的一篇——六个配置杠杆 + 实战经验

  • 六个杠杆:

#杠杆要点
1AGENTS.md控制在 60 行以内,禁止自动生成
2MCP Servers别连不信任的,工具太多会填满上下文
3Skills渐进式加载,警惕恶意 skill
4Sub-Agents上下文防火墙,隔离任务防 context rot
5Hooks生命周期脚本,成功静默/失败报错
6Back-Pressure测试/构建/类型检查 = 自我验证回路
  • 实战经验:
无效有效
预设理想配置简单开始,按需添加
装一堆 skill/MCP “以防万一”团队间分发验证过的配置
每次改动跑全量测试优化迭代速度而非首次成功率
微调子智能体的工具权限便宜模型做子任务,贵模型做编排
  • 金句: “The model is probably fine. It’s just a skill issue.”

6. Anthropic / Lance Martin — 三大模式与性能数据

  • 标题: Harnessing Claude’s intelligence

  • 链接: claude.com

  • 作者: Lance Martin (Claude Platform Team) | 日期: 2026-04-02

  • 核心: 三个构建模式——利用 Claude 已知知识、追问”我可以停止做什么”、谨慎设定边界。配合 BrowseComp / Pokemon 等基准数据论证

  • 三大模式:

模式核心主张
Use what Claude knows通用工具(bash + editor)优于定制工具,随模型升级自然增强
Ask “what can I stop doing?”把编排、上下文管理、持久化三个决策权从 harness 交给模型
Set boundaries carefully缓存优化(静态前置)+ 声明式工具提供安全门控与可观测性
  • “停止做什么”的三个层次:
层次旧假设新做法数据支撑
编排所有工具结果回流上下文给 Claude 代码执行工具,让它自己过滤/管道BrowseComp: Opus 4.6 过滤能力 45.3% → 61.6%
上下文管理手工预加载任务指令Skills 渐进式披露 + context editing 移除过时内容 + 子 Agent 隔离BrowseComp: 子 Agent 提升 2.8%
持久化依赖外部检索基础设施Compaction(模型自主总结)+ Memory folder(模型自主写文件)BrowseComp: Opus 4.6 compaction 达 84%;BrowseComp-Plus: memory folder +6.8%
  • 缓存优化五原则:
原则说明
静态在前,动态在后稳定内容(系统提示词、工具)放前面
用消息传递更新追加 <system-reminder> 而非编辑提示词
不切换模型缓存是模型特定的,切换即失效;需要便宜模型用子 Agent
谨慎管理工具工具在缓存前缀中,增删会使缓存失效;用 tool search 追加
更新断点多轮应用中将断点移至最新消息,使用自动缓存
  • 声明式工具的四个价值:

    1. 安全门控 — 不可逆操作(如外部 API)需用户确认
    2. 过时检查 — 写入工具检测文件自上次读取后是否被修改
    3. UX 渲染 — 模态窗口展示问题、提供选项、阻塞等待反馈
    4. 可观测性 — 结构化参数可记录、追踪、重放
  • Pokemon 记忆进化案例:

    • Sonnet 3.5: 14,000 步后 31 个文件(含重复),仍在第二城镇,记忆 = NPC 对话转录
    • Opus 4.6: 同样步数 10 个文件(按目录组织),3 枚道馆徽章,记忆 = 战术笔记 + 失败经验
  • “上下文焦虑”案例:

    • Sonnet 4.5 接近上下文极限时提前收尾 → 加了 context reset 补偿
    • Opus 4.5 天然消除了此行为 → context reset 变成死重
    • 启示:harness 中的补偿机制会随模型进化变成性能瓶颈
  • 与其他文章的关联:

本文概念对应文章
通用工具 > 定制工具OpenAI 原文的 bash + editor 起源
Skills 渐进式披露LangChain 的 Progressive Disclosure、HumanLayer 的 Skills 杠杆
Compaction + Memory folderLangChain 的 Context Rot 解法、Anthropic #4 的 Context Anxiety
声明式工具 vs bashHumanLayer 的 Back-Pressure 杠杆
”停止做什么”Anthropic #4 的 Harness 瘦身原则、Fowler 的假说
缓存优化本仓库新增维度——此前文章未深入讨论 API 层成本优化

7. Anthropic / Lance Martin, Gabe Cemaj, Michael Cohen — Meta-Harness 与基础设施解耦

  • 标题: Scaling Managed Agents: Decoupling the brain from the hands

  • 链接: anthropic.com

  • 作者: Lance Martin, Gabe Cemaj, Michael Cohen | 日期: 2026-02-04

  • 翻译: anthropic-managed-agents-translation.md

  • 核心: 不再讨论”如何设计 harness”,而是追问”如何让 harness 本身成为可替换的基础设施”——提出 meta-harness 概念

  • 三个虚拟化组件(借鉴操作系统):

组件类比接口
Session文件系统emitEvent(id, event), getEvents(), getSession(id)
Harness进程wake(sessionId) — 无状态,可随时替换
SandboxI/O 设备execute(name, input) → string, provision({resources})
  • Pets vs Cattle 演进:

    • 耦合设计:session + harness + sandbox 在同一容器 → 容器 = 宠物,故障即丢失
    • 解耦设计:三组件独立 → 全部是牲畜,可独立故障和替换
  • 安全边界(结构性隔离):

    • Git:访问令牌在沙箱初始化时注入 remote,智能体不触碰令牌
    • 自定义工具:OAuth 令牌在 vault 中,通过 MCP proxy 调用,harness 永不接触凭证
    • 核心原则:令牌永远不可从沙箱内访问
  • Session 作为外部上下文存储:

    • 上下文不再是 harness 内的不可逆决策(compaction/trimming)
    • Session 日志持久存储完整事件流,getEvents() 按需切片取回
    • 上下文转换(缓存优化、上下文工程)在 harness 层做,与存储层分离
  • 性能数据:

指标改善
p50 TTFT~60% 下降
p95 TTFT>90% 下降
  • 多大脑、多双手:

    • 多大脑:无状态 harness 按需启动,容器仅在工具调用时配置
    • 多双手:每双手 = execute(name, input) → string,harness 不关心手是容器、手机还是宝可梦模拟器
    • 大脑之间可以互相传递双手
  • 与其他文章的关联:

本文概念对应文章
Harness 假设过时Anthropic #4 的 Harness 瘦身、#6 的”停止做什么”
Pets vs Cattle经典 DevOps 概念,Harness.io 脉络的核心
Session 外部存储LangChain 的 Context Rot、Anthropic #6 的 Compaction
Meta-harnessFowler 的假说 1:“Harness 将成为未来的服务模板”
安全边界解耦HumanLayer 的 MCP 信任边界
多大脑多双手OpenAI 原文的并发 + 吞吐量理念

8. Fowler / Rahul Garg — 编码团队标准:缩减 AI 辅助开发的摩擦

  • 标题: Encoding Team Standards
  • 系列: Patterns for Reducing Friction in AI-Assisted Development
  • 链接: martinfowler.com
  • 翻译: fowler-encoding-team-standards-translation.md
  • 作者: Rahul Garg (Thoughtworks) | 日期: 2026-04-01
  • 核心: 将团队隐性编码标准显式化为可机器执行的规范,从自然语言 → 示例 → 自动化检查三层渐进
  • 关键洞察:
    • 团队标准分三类:语言/框架惯用法、项目特有约定、架构决策
    • 编码路径:口头约定 → AGENTS.md/prompts 中的自然语言描述 → 带示例的结构化指令 → lint 规则/自动化检查
    • 不是所有标准都值得完全自动化——按违反频率和影响决定投资
  • 与其他文章关联: Fowler #2 的 Guides×Sensors 框架的实操手册;HumanLayer 的 AGENTS.md 杠杆的深化

9. Fowler / Rahul Garg — 反馈飞轮:缩减 AI 辅助开发的摩擦

  • 标题: Feedback Flywheel
  • 系列: Patterns for Reducing Friction in AI-Assisted Development
  • 链接: martinfowler.com
  • 翻译: fowler-feedback-flywheel-translation.md
  • 作者: Rahul Garg (Thoughtworks) | 日期: 2026-04-01
  • 核心: 构建从 AI 失败中持续学习的反馈闭环——观察失败 → 根因分析 → 编码修复 → 验证效果 → 迭代
  • 关键洞察:
    • 反馈飞轮四步:发现模式 → 诊断根因 → 系统性修复(而非一次性补丁)→ 衡量改善
    • 与 Encoding Team Standards 形成闭环:标准编码 → 违反检测 → 反馈 → 标准演进
    • 团队级别的 harness 不是一次性设计,而是持续演进的活系统
  • 与其他文章关联: Anthropic #4 的”每个 harness 组件编码一个假设”理念的运营化;YDD 的安灯绳验证闭环

10. LangChain — 智能体评估就绪清单

  • 标题: Agent Evaluation Readiness Checklist
  • 链接: blog.langchain.com
  • 翻译: langchain-agent-evaluation-checklist-translation.md
  • 作者: LangChain 团队 | 日期: 2026-04-08
  • 核心: 从零到一构建智能体评估体系的分阶段清单——定义 → 数据集 → 评估器 → 实验 → 持续集成
  • 关键洞察:
    • 评估五阶段:定义成功标准 → 构建评估数据集 → 选择评估器 → 运行实验 → CI 集成
    • 数据集构建方法论:从生产日志中提取真实案例,比合成数据更有价值
    • LLM-as-judge 的校准:需要人类标注作为锚点,定期重新校准
    • 评估不是一次性的,而是随智能体演进持续更新的
  • 与其他文章关联: Fowler #2 的 Sensors 维度的系统化实操;Anthropic #4 的 Evaluator 角色的方法论基础

11. Meta-Harness 论文 — 自动化 Harness 优化

  • 标题: Meta-Harness: End-to-End Optimization of Model Harnesses
  • 链接: arxiv.org
  • 翻译: meta-harness-paper-translation.md
  • 作者: Yoonho Lee, Roshen Nair 等 (Stanford, KRAFTON, MIT) | 日期: 2026-03-30
  • 核心: 用编码智能体作为提议器,通过文件系统访问完整搜索历史(代码+轨迹+分数),自动搜索最优 Harness
  • 关键洞察:
    • 外循环搜索:提议器检查先前 Harness 的源代码和执行轨迹,进行因果推理后提出改进
    • 文本分类任务上比 ACE 高 7.7pp,上下文 token 减少 4×
    • IMO 难度数学问题上,发现的检索 Harness 跨 5 个留出模型泛化,平均提升 4.7pp
    • TerminalBench-2 上超越手工工程化的 Terminus-KIRA
    • 核心发现:完整执行轨迹访问 > 压缩摘要 > 仅标量分数(消融实验)
  • 与其他文章关联: Anthropic #7 的 meta-harness 概念的学术实现;Fowler #2 的 Sensors 的极致自动化——连 harness 本身的设计也变成可搜索的

12. GitHub / Tyler McGoffin — 智能体驱动开发实战

  • 标题: Agent-driven development in Copilot Applied Science
  • 链接: github.blog
  • 翻译: github-agent-driven-development-translation.md
  • 作者: Tyler McGoffin (GitHub Copilot Applied Science) | 日期: 2026-03-31
  • 核心: 用编码智能体构建智能体,自动化自身工作的实战叙述;Copilot SDK + MCP + Skills 的具体使用模式
  • 关键洞察:
    • 智能体驱动开发的三阶段演进:手动 → 半自动 → 全自动
    • 关键经验:好的提示词比好的代码更重要;智能体需要明确的约束和验证循环
    • Copilot CLI 作为日常工具的实际工作流
  • 与其他文章关联: OpenAI 原文的”工程师不再写代码”理念的一线实践验证

13. Inside the Scaffold 论文 — 编码智能体脚手架的源代码级分类法

  • 标题: Inside the Scaffold: A Source-Code Taxonomy of Coding Agent Architectures
  • 链接: arxiv.org
  • 翻译: inside-the-scaffold-paper-translation.md
  • 作者: Benjamin Rombaut (Huawei Canada) | 日期: 2026-04-04
  • 核心: 对 13 个开源编码智能体的脚手架代码进行源代码级分析,提出 12 维度 × 3 层次的架构分类法
  • 关键洞察:
    • 五种循环原语(ReAct、生成-测试-修复、计划-执行、多次重试、树搜索)是可组合的构建块,11/13 智能体组合多种原语
    • 维度在外部约束主导处收敛(工具类别、编辑格式、执行隔离),在开放设计问题处发散(上下文压缩、状态管理、多模型路由)
    • 工具数量从 0(Aider)到 37(Moatless Tools),但底层能力类别趋同:读取、搜索、编辑、执行
    • 上下文压缩涵盖七种策略:截断、摘要、滑动窗口、事件溯源、浓缩、选择性包含、无压缩
  • 与其他文章关联: 为 Fowler #2 的 Guides×Sensors 框架提供了 13 个实际系统的实证数据;Meta-Harness 论文搜索空间的具体化——展示了 harness 设计选择的巨大多样性

14. ⭐ Lalit Maganti — 渴望八年,用 AI 三个月造出来

  • 标题: Eight years of wanting, three months of building with AI
  • 链接: lalitm.com
  • 翻译: maganti-eight-years-building-ai-translation.md
  • 作者: Lalit Maganti | 日期: 2026-04-05
  • 核心: 资深工程师(Chrome/Android 性能团队)用 AI 编码智能体从零构建 syntaqlite(SQLite 开发工具)的完整复盘——250 小时,3 个月,坦诚记录 AI 的帮助与局限
  • 关键洞察:
    • AI 是实现的力量倍增器,但不能替代设计——缺乏品味、历史感和用户直觉
    • 实际经验:AI 在 well-constrained 的任务上卓越(测试编写、重构、API 实现),在需要判断力的任务上失败(架构决策、API 设计、性能优化)
    • “vibe coding” 对严肃项目不可行——必须理解 AI 生成的每一行代码
    • 模型能力进化的真实感受:Claude 3.5 → Sonnet 4.5 → Gemini 2.5 Pro 的逐步改善
    • 与我们的实践高度一致
  • 与其他文章关联: YDD 的”洗衣机悖论”的一手证据——省出的时间投入到了更高层的设计工作中;Anthropic #4 的”每个 harness 组件编码一个假设”的个人体验版

15. LangChain / Harrison Chase — 智能体的持续学习

  • 标题: Continual learning for AI agents
  • 链接: blog.langchain.com
  • 翻译: langchain-continual-learning-translation.md
  • 作者: Harrison Chase (LangChain CEO) | 日期: 2026-04-05
  • 核心: 智能体的学习发生在三个层次:模型权重、Harness、上下文——理解区别改变你构建持续改进系统的方式
  • 关键洞察:
    • 三层学习:模型层(微调/RL)→ Harness 层(提示词/工具/编排逻辑演进)→ 上下文层(运行时记忆/少样本示例)
    • Harness 层学习最被低估:通过分析执行轨迹迭代改进 harness,而非仅改模型
    • 上下文层学习最灵活:用户级记忆、后台整合、跨会话学习
    • Deep Agents 框架支持生产级持续学习
  • 与其他文章关联: Meta-Harness 论文的 harness 层自动化学习的框架化阐述;Fowler #9 反馈飞轮在智能体层面的体现

脉络二:云原生时代的 Harness.io(交付与平台工程)

6. Harness.io 官方 — 全局架构

  • 标题: Understanding CI/CD Platforms: The backbone of modern DevOps
  • 链接: harness.io
  • 核心: 标准 CI/CD 平台介绍。8 大组件:SCM → Build → Test → Code Quality → Security Scan → Artifact → Deploy → Monitor
  • Harness 差异化: 统一管线、Test Intelligence 智能测试、最少脚本、Policy-as-Code 治理

7. Medium 实战专栏 — 未找到

  • 标题: Beyond Migration: How We Engineered a Secure & Intelligent Delivery Platform with Harness CICD
  • 状态: 文章可能已下架或标题有误,待补充

8. Google Cloud Architecture — 前沿场景结合

  • 标题: Harness CI/CD pipeline for RAG applications
  • 链接: docs.cloud.google.com
  • 作者: Martin Ansong (Harness) | 日期: 2025-04-11
  • 核心: 参考架构,Harness 全家桶(CI/CD/STO/SCS/CCM/FME)+ Google Cloud Run 部署 RAG 应用
  • 9 步工作流: Trigger → Compile & Test → Package → Dev Deploy → Staging → Approval → Production Canary → Feature Validation → Cost Tracking
  • 附带 Terraform 模板: harness-community/harness-rag-ci-cd

脉络三:效率悖论与能力进化

9. YDD / Miss-you — 效率悖论的系统性拆解

  • 标题: 为什么 AI 写代码更快但交付没变,以及我怎么把它扳回来的

  • 链接: yousali.com

  • 作者: Miss-you | 日期: 2026-03-03 | 字数: 16667

  • 核心: 从约束理论、Spec/Rule/Skill 架构、验证闭环、并发策略四个维度拆解效率悖论

  • 关键数据:

    • METR RCT 实验:AI 辅助编码客观慢 19%,主观觉得快 20%(偏差 39 个百分点)
    • Faros 万人遥测:个体 PR +98%,但 DORA 四大指标无一改善
    • PR 体积 +154%,评审时间 +91% → 上游加速被下游瓶颈吃掉
    • 90% 开发者在用 AI,仅 3.1% 高度信任
  • 七章结构:

主题核心论点
效率悖论AI = NCX-10(约束理论),加速非瓶颈 = 下游堆积
框架焦虑OpenSpec/Superpowers/BMAD/Spec Kit 做同一件事,别纠结
Spec ≠ Rule ≠ Skill区别在加载机制:Rule 头部常驻、Skill 尾部按需、Spec 被 Skill 消费
安灯绳验证闭环(Lint→Review→UnitTest→E2E)= 瑞士奶酪模型
并发单任务慢不是问题,不能并发才是;先建闭环再开并发
洗衣机悖论省出的时间洗更多衣服 vs 去读书;真正红利是能力进化
保底秘籍甜点区分三档 + 自动化日常(commit、日报)
  • 与 Harness Engineering 的深度关联:
YDD 概念Harness Engineering 对应
AI = NCX-10(约束理论)吞吐量改变合并理念(概念 5)
Spec/Rule/Skill 三层区分地图而非手册 + 渐进式披露(概念 2)
Rule ≤ 300-500 行HumanLayer 的 AGENTS.md ≤ 60 行
Skill 按需加载到尾部LangChain 的 Progressive Disclosure
安灯绳 = 验证闭环机械化执行 + 背压(概念 3)
并发 + WIP 限制吞吐量管理(概念 5)
洗衣机悖论人类掌舵的本质:省出时间做更高层的事
瑞士奶酪模型多层防御 = linter + 结构测试 + 智能体审查
  • 金句:
    • “AI 就是今天的 NCX-10”
    • “Rule 是全局变量,Skill 是模块化 import”
    • “洗衣机洗衣服,你去读书”
    • “AI Coding 的本质不是让你更快,而是让你重新定义做什么的边界”

两条脉络的关系

Harness Engineering(AI 护栏)     Harness.io(交付管线)
        │                                │
        │  约束 AI 智能体的行为              │  约束代码交付的过程
        │  AGENTS.md + linter + 背压       │  Pipeline + Policy-as-Code + 门控
        │  目标:可靠的代码生成              │  目标:可靠的代码部署
        │                                │
        └──────────┬─────────────────────┘
                   │
            共同本质:用确定性约束
            驾驭不确定性系统

不是同一个东西,但共享同一个工程哲学:与其规定怎么做(prescription),不如设置门控拒绝坏结果(backpressure)。