为什么代码一行没改，AI排名从30名外冲进前5呢？

模型不是天花板，你给它搭的环境才是。2026年，AI编程的竞争焦点，正在发生一次根本性的转移。

同一个AI模型，代码一行没改，结果排名从30名开外直接冲进了前五。

这是Lantern团队上个月做的一个实验。他们用GPT-5.2 Codex跑TerminalBench 2.0基准测试，模型不换，代码不动，只调了模型外面那一层东西——系统提示、工具配置、几个中间件钩子。成绩涨了13.7%。

以前我们总觉得，模型能力就是天花板，模型越强，成绩越好，天经地义。但这个实验把这个假设直接打穿了：天花板不一定在模型上，也可以在模型外面，在你给它搭的那套工作环境里。

从"马"到"马具"

2026年有个词你会越来越频繁地听到——Harness Engineering。

Harness这个词，字面意思是"马具"。缰绳、马鞍、笼头，那套套在马身上、让骑手控制方向和力度的全套装备。

用在AI编程这个语境里，这个比喻贴切到不能再贴切。AI Agent就像一匹动力爆棚但不太守规矩的马，跑得快没问题，但你不给它套上缰绳，它往哪儿跑，你说了不算。

Harness Engineering就是造这套缰绳的工程学。它解决的核心问题是：怎么给AI构建一个工作环境，让它既能自主干活，又能产出可靠的结果。

这不是一个小优化，而是AI编程的第三次范式跃迁。

AI编程的三代范式

回头看过去三年，AI编程经历了三次进化，每一代都比上一代深入一层。

第一代：Prompt Engineering——怎么跟AI说话（2023-2024）

大家研究的核心是措辞。一条提示词反复打磨，加角色设定，加Few-shot示例，加思维链，本质上是在优化一次性的输入输出对。

这一轮留下的遗产是：大家知道了说法很重要，不同措辞结果天差地别。但局限暴露得很快——一条消息能塞的信息就那么多，任务稍微复杂一点，光靠措辞根本兜不住。

第二代：Context Engineering——给AI看什么信息（2025年）

不再只盯着措辞了，大家开始设计整个信息环境。系统提示词怎么动态注入、对话历史保留多少轮、RAG检索结果怎么拼、工具调用的输出怎么喂回去。

进步很大，但本质上还是只管输入端——管的是你塞给模型什么信息。Agent跑出去干活的过程中发生了什么，你依然管不了。

第三代：Harness Engineering——给AI造工作环境（2026年）

这次变化比前两次都大。它管的不再只是输入，而是模型之外的整个执行环境：

Agent什么时候该启动，什么时候该停
工具权限怎么控制
出错了怎么自动修复
产出怎么验证
代码写完要不要跑测试
测试跑不过怎么办
改了三次四次五次还通不过，又该怎么办

一句话总结：前两代你是AI的对话伙伴，到了第三代，你是AI的环境架构师。

OpenAI内部的十倍效率实验

说理论容易，落地呢？OpenAI自己跑通了一遍。

2025年8月，一个空仓库，三个工程师，全程用Codex Agent写代码。五个月后交出的成绩单：

指标	数据
合并PR数	约1500个
产出代码量	约100万行
工程师手写代码	零行
人均日合并PR	3.5个
效率对比	传统方式的10倍

应用逻辑、测试、CI配置、文档、内部工具，全是Agent生成的。

那三个工程师不写代码，每天在干嘛？他们干的全是"造缰绳"的活：

设计仓库结构，写AGENTS.md和各种文档，告诉Agent这个仓库的规矩是什么。
配Lint规则——不是给人看的，是给Agent看的。Lint的报错信息就是Agent的纠错老师。
搭CI管道，创建反馈循环，让Agent能从自己的失败中学习。
做垃圾回收Agent，定期扫描仓库，找到跟架构约束不一致的地方，自动提PR修掉。

一行应用代码都不用碰，整个产品稳定推进。

模型不是瓶颈，环境才是

回到Lantern的实验。他们事后复盘了Agent失败的最常见原因，发现跟模型聪不聪明基本没关系。真正让Agent翻车的是环境层面的缺陷。

[!IMPORTANT] 关键发现: 每一个导致Agent失败的问题，答案都不是换更强的模型，而是给现有模型加了一道缰绳。

他们梳理出的四个典型问题和对应解法：

问题	解法
写完代码不测试就提交	加一个提交前必须跑验证的中间件
Agent不知道自己在什么目录、有什么工具可用	自动注入项目结构和工具列表
反复改同一个文件，陷入死循环	加循环检测器，改了N次就提醒换思路
Agent不会管理时间，无限迭代	加时间预警机制

Lantern把实验数据和代码全部开源了，结论很直白：花在Harness上的工程量回报率，远高于花在模型选择上。

这条路已经画清楚了

如果你的朋友圈还在传"2026年十个万能提示词模板"，那个游戏已经是上上代了。

Prompt Engineering是入门课，Context Engineering是进阶课，2026年真正拉开差距的，是你能不能给AI设计一个让它自主、可靠运转的工作环境。

最近大火的EasyClaw为什么要部署在Mac mini里面？也是这个理念的落地——Mac mini给了它一个完整的工作环境，相当于给AI配了一套"精装房"。

《重构》的作者Martin Fowler最近写了一篇分析，判断是：Harness可能会变成未来的服务模板。就像今天每个开发团队都有自己的代码脚手架，未来每个团队都会有自己的Agent Harness。

谁的缰绳设计得好，谁的Agent就跑得又快又稳。

这条进化路径已经很清楚了：写代码的人，到写提示词的人，再到造缰绳的人。

为什么代码一行没改，AI排名从30名外冲进前5呢？

从"马"到"马具"

AI编程的三代范式

第一代：Prompt Engineering——怎么跟AI说话（2023-2024）

第二代：Context Engineering——给AI看什么信息（2025年）

第三代：Harness Engineering——给AI造工作环境（2026年）

OpenAI内部的十倍效率实验

模型不是瓶颈，环境才是

这条路已经画清楚了

相关文章

AI大模型到底怎么"思考"的？这个网站让你亲眼看见

大语言模型其实就一个浓缩的数据库

我们经常说的“模型降智”是什么意思？为什么有时候AI助手像变了个人？

关注公众号获取最新 AI 资讯