洪致知的个人网站

查看源代码

Harness 到底是什么？看看 OpenClaw、Hermes、Claude Code 的演绎吧

洪致知2026-04-22

阅读导航

先看「一、为什么 Harness 会出现」，建立问题背景
再看「三、Prompt -> Context -> Harness」，理解演进路径
最后看「五、用 OpenClaw 理解 Harness」，落到工程实现

3 分钟结论

Harness 不是一个 SDK，也不是提示词技巧，而是让 Agent 稳定执行的系统工程集合。
Prompt 工程解决“怎么问”，上下文工程解决“喂什么”，Harness 解决“怎么持续、可控、可验证地做完”。
OpenClaw、Hermes、Claude Code 虽路线不同，但都在朝同一个方向收敛：把模型能力包进完整的运行时壳子。

一、为什么 Harness 会出现

随着 Agent 从 Demo 走向真实任务，工程问题会集中暴露：

工具调用不稳定
长任务推进容易漂移
结果看似完成但不可验证
会话中断后难以续跑

这意味着“模型更强”并不自动等于“系统更稳”。
Harness 的出现，本质是对这类工程现实的回应。

二、什么是 Harness

一个容易理解的映射是：

模型 = 大脑
Harness = 身体 + 工作台 + 操作规程 + 监督机制

从工程定义看：

Harness 是把模型能力转化为持续、稳定、可验证产品能力的系统集合。

它关注的不再是“模型会不会答”，而是“系统能不能把任务稳定做完，并且可追溯、可恢复”。

三、Prompt -> Context -> Harness

1) Prompt Engineering

核心是指令设计：角色、few-shot、输出格式、模板约束等。
解决的是“如何让模型更好地理解当前问题”。

2) Context Engineering

核心是信息组织：历史保留、检索注入、压缩策略、上下文预算。
解决的是“模型这一轮到底该看到什么”。

3) Harness Engineering

当 Agent 进入工具调用、长链任务、子任务委派、错误恢复后，问题升级为：

如何推进任务而不失控
如何验证是否真的完成
如何中断后恢复
如何沉淀经验并复用

这时就必须从“输入工程”上升到“运行时工程”。

四、三种框架的 Harness 取向

1) OpenClaw：先把 Agent 管住

OpenClaw 更强调边界、权限、沙箱、技能治理与运行时控制。
工程目标偏“受控执行”：先把风险和能力平面约束好，再放任务推进。

2) Hermes：先让 Agent 长本事

Hermes 的重心是学习闭环：

从经验生成技能
使用中持续修订
通过记忆与会话检索增强跨会话能力

工程目标偏“持续成长”：先让个体 Agent 越用越强，再逐步补治理层。

3) Claude Code：把工程壳子产品化

Claude Code 的价值不止在模型效果，而在“工具链 + agent loop + context management”的完整产品化。
其公开方法论持续强调 long-running agents 与 harness design，说明工程壳子本身已成为一等能力。

五、拆解 Harness：七层能力模型

1) 角色与规则层

先定义身份、边界、职责与异常策略，避免任务开始即失控。

2) 记忆系统层

保留任务过程、偏好、决策与经验，支持跨会话接续。

3) 上下文加载层

每轮只给模型最相关信息，避免“看太少像失忆、看太多变迟钝”。

4) 稳定执行层

把语言判断稳定转成真实动作：工具调用、文件操作、外部系统交互。

5) 有效循环层

管理“理解 -> 执行 -> 反馈 -> 再决策”的循环效率，防止空耗 token。

6) 评分与可观测层

引入测试、日志、验收、指标与人工审查，避免“模型自评完成”。

7) 中断修复层

支持超时、失败、切会话后的恢复续跑，保证长任务可达终点。

六、用 OpenClaw 进一步理解 Harness

1) MCP / 工具链层

Skills 决定“怎么做”，工具链决定“能不能做”。
外部 API、权限和插件天然不稳定，因此必须纳入受控运行时平面处理。

2) Skills 方法层

Skills 是高频方法沉淀机制，但也会引入污染风险。
所以需要受控加载、来源优先级、路径约束与覆盖策略做兜底。

3) Runtime 推进层

复杂任务必须靠循环推进与状态治理：

当前做到哪一步
下一步谁执行
什么时候暂停/打回/重试

这层决定 Agent 是“会做几步”还是“能完整收口”。

七、工程视角的最终判断

Harness 的本质不是新术语，而是工程系统自然演进结果：

先接工具
发现不稳，补规则
规则不够，补技能
技能不够，补运行时与工作流
结果不可证，补可观测与评分
任务可中断，补恢复与接续

当这些能力都必须一起工作时，Harness 就从概念变成了必选项。

结语

Harness 不是某个单点优化，而是一条工程化路径：
让 Agent 从“会答”走到“会做”，再走到“稳定做完”。

未来它可能不叫 Harness，但这条路不会消失。
任何想做生产级 Agent 的团队，最终都要走到这一步。

Harness 到底是什么？看看 OpenClaw、Hermes、Claude Code 的演绎吧从工程实践视角拆解 Harness 的真实含义：它不是单一模块，而是让 Agent 从“会答”走向“稳定做完”的系统集合。文中结合 OpenClaw、Hermes、Claude Code 的设计路径，梳理 Prompt、Context 到 Harness 的演进逻辑。洪致知