2025年,我们证明了AI代理(Agent)能干活。2026年,我们发现:光靠模型聪明没用,得给它套上"缰绳"才行。
这根缰绳,就是今年AI工程圈最火的概念——Harness。
一、Harness到底是什么?
Harness这个词,本意是马具——缰绳、鞍具、嚼子——一整套用来驾驭一匹强壮但不知道往哪跑的马的装备。用在AI领域,意思差不多:模型是那匹马,跑得快、力气大,但它自己不知道该往哪走。Harness就是你围绕模型搭建的那一整套系统——约束它能做什么,告诉它该做什么,检查它做得对不对,做错了怎么纠正。
Martin Fowler在今年2月的文章中说得好:Harness回答的不是"怎么造一个AI代理",而是"这个代理怎么跑起来"。SDK、框架、脚手架解决的是建造问题,Harness解决的是运行问题。它是更上面的一层。
简单讲,模型是发动机,Harness是整辆车。 一台再好的发动机,没有方向盘和刹车,你哪也去不了。

二、为什么突然火了?
因为大家踩够了坑。
一个真实的例子:有工程师把AI编程代理部署到生产环境,几小时内代理就闯了祸——没人管它运行的环境,没有约束,没有上下文策略,没有质量检查。一个聪明的模型拿到了全部权限,却没有任何护栏。
这不是提示词写得不好的问题,这是系统设计 的问题。
2026年,几件事同时发生,把Harness推上了台前。
第一,OpenAI的Codex团队公布了一个案例:用5个月时间,在完全不手写代码的情况下,用AI代理构建了一个超过100万行代码的生产级产品。工程师的角色从"写代码"变成了"设计让AI写代码的环境"。他们把这种工程方法正式叫做Harness Engineering。
第二,Anthropic在3月24日发布了一篇技术文章,展示了如何通过精心设计的Harness,让Claude自主运行4小时、花费124美元,从一句话提示出发构建出一个浏览器端的数字音频工作站。核心不是模型变强了,而是围绕模型的编排系统设计得好。
第三,行业观察者开始达成共识:顶级模型之间在静态测评上的差距越来越小,但在长时间复杂任务中的表现差距却很大。而这个差距,很大程度上由Harness决定。
三、一个好的Harness长什么样?
以Anthropic的最新实践为例,他们的Harness包含三个核心代理:
规划器——接收用户一句话的简短描述,自动扩展成完整的产品规格文档。它只管"做什么",不管"怎么做",避免在前期就把技术细节定死,导致错误一路传下去。
生成器——按规格文档逐个功能地写代码、搭应用。用的是React + FastAPI + 数据库这种标准全栈组合,过程中用Git管理版本。
评估器——这是最关键的部分。它像一个真实用户一样,通过Playwright浏览器自动化工具点击运行中的应用,测试UI、API、数据库,然后按预设标准打分。达不到及格线的,退回去重做,并附上详细的问题报告。
这三个代理之间不是模糊地"协作",而是有明确的契约机制——在动工前先谈好"做到什么样算完成",做完后严格按契约验收。
为什么要把生成和评估分开?因为AI有一个让人头疼的毛病:评价自己的作品时,总是过度自信。 它能发现问题,但转头就说服自己"其实也还好",然后放过了。让另一个独立的代理来当"质检员",调它变得严格和挑剔,比让创作者自我批评容易得多。
这个思路借鉴了深度学习中经典的GAN架构——一个负责生成,一个负责判别,在对抗中一起变强。
四、Harness设计的核心原则
从各方实践中,可以提炼出几条共识:
原则一:从简单开始,按需增加复杂度。 Anthropic在文章中反复强调:Harness中的每个组件都是对"模型自己做不到什么"的一个假设。这些假设要定期压力测试——可能一开始就是多余的,也可能随着模型更新而过时。Harness不是越复杂越好,过度工程化的编排,下一次模型升级就可能全废掉。
原则二:让Harness可拆卸。 模型在进步。Claude Sonnet 4.5需要上下文重置来对抗"上下文焦虑",到了Opus 4.6,这个问题基本消失,Sprint机制就可以移除了。好的Harness设计要允许你随时拆掉不再需要的部分。
原则三:把知识放在代理能看到的地方。 OpenAI团队总结得很直接:从代理的角度看,它在运行时上下文中访问不到的东西,等于不存在。写在Google Docs里的、聊天记录里的、只存在某个人脑子里的知识,对代理来说都不存在。关键信息必须以代码、文档、配置文件的形式放在代理的工作环境中。
原则四:代理出问题时,不是"再试一次",而是"缺了什么能力?" 每次代理失败,都应该反过来追问:它需要什么工具、什么护栏、什么文档?然后把答案补回Harness中。这是一个持续改进的循环。
五、写在最后
有人说2026年模型已经是大宗商品了,Claude、GPT、Gemini性能差不多。但同样的模型,套上不同的Harness,结果天差地别。Anthropic用一句话提示生成了一个可以实际游玩的游戏;而同一个模型没有Harness时,连核心功能都跑不通。
模型决定了天花板有多高,Harness决定了你能不能够到它。
对于AI工程师来说,最重要的思维转变是:你的工作不再是替AI写代码,而是设计让AI可靠地写代码的环境。 这个环境——这套Harness——就是你真正的产品。
而且这件事不会因为模型变强就消失。Anthropic的工程师说得好:随着模型进步,有趣的Harness组合空间不是在缩小,而是在移动。旧的组件变得多余,新的可能性随之出现。AI工程师要做的,是持续追踪这条移动中的前沿线。
这才是2026年最值得投入的工程能力。
