零人工手写，5个月拼出百万行代码！深度拆解 OpenAI 颠覆性的 “Harness Engineering” 软件开发新范式

OpenAI近期公布了一项突破性实验：完全依靠Codex智能体开发出百万行代码的复杂软件系统，全程零人工手写代码。该实验催生了"Harness Engineering"（驾驭工程）这一新学科，工程师角色转变为设计AI运行环境而非直接编码。核心技术包括四层架构：前馈控制层设定约束、反馈控制层引导修正、执行运行时管理通信、生命周期控制防止熵增。实验证明生产力提升10倍，预示未来软件

21世纪优秀青年

16人浏览 · 2026-05-15 14:30:33

21世纪优秀青年 · 2026-05-15 14:30:33 发布

发布日期： 2026-02-11

标签： #OpenAI #HarnessEngineering #Codex #AI_Agent #软件工程 #架构设计

一、引言

"Agents aren't hard; the Harness is hard."（Agent 不难，难的是 Harness。）

这是 OpenAI 技术团队近期公开的一项震撼业界的实验报告。在过去 5 个月里，OpenAI 的一个研发小组在零人工手写代码的限制下，完全依靠 Codex 智能体构建并交付了一款拥有百万行代码的复杂软件产品（包含应用逻辑、测试、CI 配置、可观测性及内部工具），且该产品已投入内部 Beta 测试。

在这场实验中，人类工程师的角色发生了根本性转变：他们不再亲自动手写代码，而是转向了一门全新的学科——Harness Engineering（驾驭工程）。

二、什么是 Harness Engineering？

在控制论哲学中，Harness（环境/鞍具） 指的是大模型之外的一切控制系统。OpenAI 提出了一个颠覆性的公式：

$$\text{Agent} = \text{Model} + \text{Harness}$$

人类工程师的任务从“实现状态”转变为“声明期望状态”，并为 AI 智能体设计一套具备明确约束与闭环反馈的运行系统（Harness）。

Harness Engineering 的核心架构可以分为以下四个核心层次：

架构层级	核心组件	控制论机制	核心功能
前馈控制层 (Guides)	PRD 文档、架构说明书、代码规范	Feedforward	设定先验约束，指导 Agent 在动手前“想清楚”下一步，防止架构漂移。
反馈控制层 (Sensors)	自动化 Linter、单元测试、沙箱环境	Feedback	观察 Agent 执行后的状态，通过错误日志引导其“自我修正（Self-Correction）”。
执行运行时 (Runtime)	Codex App Server (JSON-RPC)	Execution	提供双向通信、线程生命周期管理及工具（如 GitHub CLI）的沙箱执行。
生命周期管理	自动化清理与状态重置	GC机制	防止长周期任务中的 token 膨胀与上下文熵增。

三、核心技术与工作流破局

1. 人类掌舵，智能体执行（The Ralph Wiggum Loop）

在 OpenAI 的设计中，人类与系统的交互几乎完全通过声明式的 Prompt 完成。工作流形成了一个强闭环：

人类声明意图：工程师描述一个任务，运行 Agent。
本地与云端协同评审：Codex 自动修改代码后，在本地运行测试，并调用 gh（GitHub CLI）工具自动打开 Pull Request。
自我修正直至通过：系统强制 Codex 在本地审查自己的修改，并请求多维度的 Agent 联合评审，反复迭代直到所有环境 Sensor 满意。

2. 将“计划”视为第一类资产 (Plans as First-Class Artifacts)

为了防止完全自主的智能体在高并发、长周期任务中迷失，OpenAI 将“计划”做成了机器可读的、版本化管理的实体：

轻量级计划：用于处理修复 Bug 等小范围变更。
执行计划 (Execution Plans)：对于复杂需求，生成包含决策日志和进度追踪的复杂计划，并直接 Check-in 到 Git 仓库中。这让 Agent 可以实现“渐进式披露”，无需一开始就被海量上下文淹没。

3. 内核级通信：Codex App Server

为了让这种高频的交互流在各种 UI 和 CLI 之间保持弹性，OpenAI 构建了 Codex App Server。它基于双向的 JSON-RPC 协议，并抽象出了两个核心原语：

Item（原子单元）：带有明确生命周期（Started $\rightarrow$ Delta 流 $\rightarrow$ Completed）的打字数据，如代码 Diff、审批请求。
Turn（工作轮次）：由用户输入触发、到 Agent 产生最终输出结束的完整工作周期。

四、行业启示：工程师的明天在哪里？

OpenAI 的实验用数字证明了生产力的飞跃：构建百万行代码系统，仅消耗了传统人工编写约 1/10 的时间和注意力。

当“写代码”的成本趋近于零，软件工程的护城河将彻底重构。未来的核心竞争力不再是精通某种语言的语法，而是：

架构定义能力：如何 mechanically 约束代码库边界，防止 AI 产生代码漂移与模式复制。
控制系统设计：如何编写高精度的自动化评估器（Evals）和反馈流，让 AI 能在沙箱中快速自愈。

五、总结与展望

Harness Engineering 并不是在消灭工程师，而是在解放人类最稀缺的资源——时间和注意力。在智能体优先（Agent-First）的世界里，卓越的工程师将成为系统航向的掌控者和反馈回路的设计师。这场百万行代码的无人驾驶实验，仅仅是新时代的开端。

🔥 互动话题：

面对 OpenAI 的“零手写百万行代码”案例，你认为未来五年内，初级程序员这个岗位会彻底消失，还是演变成全新的“Harness 调试员”？欢迎在评论区留下你的硬核观点！

如果你想更直观地理解如何通过环境约束和反馈闭环来驾驭复杂的 AI 工作流，推荐观看 Harness Engineering 到底是什么？概念、实战与争议深度解析。该视频用通俗易懂的语言，一次性讲清了 OpenAI 和 Anthropic 在驾驭智能体方面的底层逻辑与前沿争议。

参考链接
https://edison-a-n.github.io/2026/03/14/harness-engineering-practical-guide/
https://openai.com/zh-Hans-CN/index/harness-engineering/

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

cover

都2026年了，我真的需要构建Agent智能体应用吗

cover

制造业产销协同AI方案，主流产品优劣势详解

cover

AI代码审查：开发者的噩梦还是救星？——来自软件测试视角的专业解读

所有评论(0)

查看更多评论

21世纪优秀青年

已为社区贡献2条内容