小百学AI

为什么代码一行没改,AI排名从30名外冲进前5呢?

knowledge2026/3/276 分钟阅读

模型不是天花板,你给它搭的环境才是。2026年,AI编程的竞争焦点,正在发生一次根本性的转移。

同一个AI模型,代码一行没改,结果排名从30名开外直接冲进了前五。

这是Lantern团队上个月做的一个实验。他们用GPT-5.2 Codex跑TerminalBench 2.0基准测试,模型不换,代码不动,只调了模型外面那一层东西——系统提示、工具配置、几个中间件钩子。成绩涨了13.7%。

以前我们总觉得,模型能力就是天花板,模型越强,成绩越好,天经地义。但这个实验把这个假设直接打穿了:天花板不一定在模型上,也可以在模型外面,在你给它搭的那套工作环境里。


从"马"到"马具"

2026年有个词你会越来越频繁地听到——Harness Engineering

Harness这个词,字面意思是"马具"。缰绳、马鞍、笼头,那套套在马身上、让骑手控制方向和力度的全套装备。

用在AI编程这个语境里,这个比喻贴切到不能再贴切。AI Agent就像一匹动力爆棚但不太守规矩的马,跑得快没问题,但你不给它套上缰绳,它往哪儿跑,你说了不算。

Harness Engineering就是造这套缰绳的工程学。它解决的核心问题是:怎么给AI构建一个工作环境,让它既能自主干活,又能产出可靠的结果。

这不是一个小优化,而是AI编程的第三次范式跃迁。


AI编程的三代范式

回头看过去三年,AI编程经历了三次进化,每一代都比上一代深入一层。

第一代:Prompt Engineering——怎么跟AI说话(2023-2024)

大家研究的核心是措辞。一条提示词反复打磨,加角色设定,加Few-shot示例,加思维链,本质上是在优化一次性的输入输出对。

这一轮留下的遗产是:大家知道了说法很重要,不同措辞结果天差地别。但局限暴露得很快——一条消息能塞的信息就那么多,任务稍微复杂一点,光靠措辞根本兜不住。

第二代:Context Engineering——给AI看什么信息(2025年)

不再只盯着措辞了,大家开始设计整个信息环境。系统提示词怎么动态注入、对话历史保留多少轮、RAG检索结果怎么拼、工具调用的输出怎么喂回去。

进步很大,但本质上还是只管输入端——管的是你塞给模型什么信息。Agent跑出去干活的过程中发生了什么,你依然管不了。

第三代:Harness Engineering——给AI造工作环境(2026年)

这次变化比前两次都大。它管的不再只是输入,而是模型之外的整个执行环境:

  • Agent什么时候该启动,什么时候该停
  • 工具权限怎么控制
  • 出错了怎么自动修复
  • 产出怎么验证
  • 代码写完要不要跑测试
  • 测试跑不过怎么办
  • 改了三次四次五次还通不过,又该怎么办

一句话总结:前两代你是AI的对话伙伴,到了第三代,你是AI的环境架构师。


OpenAI内部的十倍效率实验

说理论容易,落地呢?OpenAI自己跑通了一遍。

2025年8月,一个空仓库,三个工程师,全程用Codex Agent写代码。五个月后交出的成绩单:

指标数据
合并PR数约1500个
产出代码量约100万行
工程师手写代码零行
人均日合并PR3.5个
效率对比传统方式的10倍

应用逻辑、测试、CI配置、文档、内部工具,全是Agent生成的。

那三个工程师不写代码,每天在干嘛?他们干的全是"造缰绳"的活:

  1. 设计仓库结构,写AGENTS.md和各种文档,告诉Agent这个仓库的规矩是什么。
  2. 配Lint规则——不是给人看的,是给Agent看的。Lint的报错信息就是Agent的纠错老师。
  3. 搭CI管道,创建反馈循环,让Agent能从自己的失败中学习。
  4. 做垃圾回收Agent,定期扫描仓库,找到跟架构约束不一致的地方,自动提PR修掉。

一行应用代码都不用碰,整个产品稳定推进。


模型不是瓶颈,环境才是

回到Lantern的实验。他们事后复盘了Agent失败的最常见原因,发现跟模型聪不聪明基本没关系。真正让Agent翻车的是环境层面的缺陷。

[!IMPORTANT] 关键发现: 每一个导致Agent失败的问题,答案都不是换更强的模型,而是给现有模型加了一道缰绳。

他们梳理出的四个典型问题和对应解法:

问题解法
写完代码不测试就提交加一个提交前必须跑验证的中间件
Agent不知道自己在什么目录、有什么工具可用自动注入项目结构和工具列表
反复改同一个文件,陷入死循环加循环检测器,改了N次就提醒换思路
Agent不会管理时间,无限迭代加时间预警机制

Lantern把实验数据和代码全部开源了,结论很直白:花在Harness上的工程量回报率,远高于花在模型选择上。


这条路已经画清楚了

如果你的朋友圈还在传"2026年十个万能提示词模板",那个游戏已经是上上代了。

Prompt Engineering是入门课,Context Engineering是进阶课,2026年真正拉开差距的,是你能不能给AI设计一个让它自主、可靠运转的工作环境。

最近大火的EasyClaw为什么要部署在Mac mini里面?也是这个理念的落地——Mac mini给了它一个完整的工作环境,相当于给AI配了一套"精装房"。

《重构》的作者Martin Fowler最近写了一篇分析,判断是:Harness可能会变成未来的服务模板。就像今天每个开发团队都有自己的代码脚手架,未来每个团队都会有自己的Agent Harness。

谁的缰绳设计得好,谁的Agent就跑得又快又稳。

这条进化路径已经很清楚了:写代码的人,到写提示词的人,再到造缰绳的人。

分享:

相关文章

小百学AI 公众号二维码

关注公众号获取最新 AI 资讯

每周精选 AI 领域最值得关注的新闻、工具和教程,助你保持技术敏感度。

每周更新独家内容工具推荐