DeepCode: 开源智能体编程，把论文直接转换成可以执行的代码

香港大学数据智能实验室（HKUDS）推出的DeepCode如一匹黑马，横空出世。这款开源的多代理AI编码平台，不仅能将复杂的研究论文转化为生产就绪代码，还能从简单文本描述生成前端Web界面和后端服务。

人工智能研究所

471人浏览 · 2025-11-13 12:00:00

人工智能研究所 · 2025-11-13 12:00:00 发布

当我们回顾最近几年编程领域的变革，从自动补全、代码补丁、聊天式编程助手，到今天这种“从文本描述直达可执行系统架构＋生成测试”的系统，似乎一个新的时代正在悄然来临。DeepCode 的发布，就是这一波浪潮里的标志性事件。

DeepCode在OpenAI的PaperBench基准测试上刷新纪录，超越人类专家和顶级商业AI工具，标志着AI在软件工程领域的重大突破。

根据其公开信息，DeepCode 在 PaperBench Code‑Dev（由 OpenAI 发布的严苛测试集）中，取得以下成绩：

超越人类专家（顶级机器学习博士）：75.9% vs 72.4%。
超越最先进商业代码智能体：84.8% vs 商用助手约 58.7%。
超越科学编程智能体：73.5% vs 51.1%。
超越基于大型语言模型 (LLM) 智能体：73.5% vs 43.3%。

这些数字足够醒目，意味着 DeepCode 不仅在“写代码”范畴里抢跑，更可能在“造出系统／框架级代码”上开创新局。

DeepCode的核心：多代理架构，自动化从概念到代码

DeepCode不是简单的代码生成器，而是一个自主的多代理系统，专为解决开发痛点设计。它能处理多模态输入，包括研究论文、自然语言提示、URL和文档（如PDF、DOC），输出高质量、可部署的代码。

核心功能包括：

Paper2Code：自动从学术论文中提取算法逻辑、数学模型，生成优化实现，加速科研复现。

Text2Web：将文本描述转为视觉美观、功能完整的前端Web代码。

Text2Backend：生成高效、可扩展的后端代码，包括API端点和数据库模式。

其多代理架构像一支高效团队：中央编排代理协调一切，意图理解代理解析用户需求，文档解析代理处理论文，代码规划代理设计架构，参考挖掘和索引代理搜索最佳库，生成代理合成代码。这种设计基于Model Context Protocol (MCP)，无缝集成工具如搜索引擎、文件操作和GitHub下载，确保可靠的AI-外部系统交互。

DeepCode还内置CodeRAG系统，利用语义嵌入和图依赖分析，从海量代码库中挖掘模式；高效内存机制处理大规模上下文；质量保障模块自动生成测试和文档，确保代码可靠。

多智能体架构：系统工程，而非单模型孤岛

从其公开说明来看，DeepCode 采用了“多智能体”系统：包括意图理解智能体、文档解析智能体、代码规划智能体、代码生成智能体、代码索引智能体等等。从策略协调、依赖分析、记忆压缩、高效生成到测试／验证，整个流程都被架构化、模块化。

这种设计意味着：它并不是单纯抛一个更大的 LLM 而已，而是在“怎么用模型＋怎么组织任务”上下功夫。

重视流程、测试与 “可交付”

DeepCode 不仅生成代码，也强调质量保证：静态分析、自动单元测试、文档合成、依赖分析等等。换言之，它试图缩短从“生成代码”到“可以交付运行”的距离，而不是停留在“生成一个片段”即可的阶段。

PaperBench基准炸裂：超越人类，碾压商业巨头

PaperBench是由OpenAI发布的严格基准，要求AI代理从头复现20篇ICML 2024论文，包括8316个可评分组件，通过分层权重的SimpleJudge评估。代理需理解论文、开发代码、执行实验，并匹配结果，一切在隔离环境中进行。

DeepCode在这里大放异彩：

整体得分：73.5%，远超基线。

vs 人类专家：在3篇论文子集上，75.9% vs 顶级ML博士的72.4%（+3.5%），证明AI已超越专家级复现。
vs 商业代码代理：在5篇子集上，84.8% vs 最佳（如Claude Code 58.7%），提升26.1%。Cursor 58.4%、Codex 40.0% 均被甩开。
vs 科学代码代理：73.5% vs PaperCoder 51.1%（+22.4%），多模块架构胜过简单管道。
vs LLM代理：73.5% vs 最佳o1 BasicAgent 43.3%（+30.2%）。Claude 3.5 Sonnet + IterativeAgent仅27.5%。

这些结果强调，DeepCode的架构而非基础模型，是性能跃升的关键

类别,DeepCode得分,对比对象,提升
人类专家,75.9%,72.4%,+3.5%
商业代理,84.8%,58.7%,+26.1%
科学代理,73.5%,51.1%,+22.4%
LLM代理,73.5%,43.3%,+30.2%

DeepCode 的出现对我而言，是一个信号 — 编程工具从“工具助手”进入“工具代理”阶段。“你写代码”→“你指令生成代码”这种模式正在渐渐成为可能。

但值得强调的是：革命从来不是瞬间完成的。虽然在基准测试中 DeepCode 看起来很强，但落地实际产品、复杂系统、真实迭代中的表现，仍须时间检验。

如何上手：简单安装，立即体验

DeepCode开源在GitHub（
https://github.com/HKUDS/DeepCode），支持Web（Streamlit）、CLI和API接口。安装只需pip install deepcode-hku，配置API密钥（OpenAI/Anthropic），即可启动。

更多transformer，VIT，swin tranformer
参考头条号：人工智能研究所
v号：人工智能研究Suo, 启示AI科技

动画详解transformer 在线视频教程

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

双端appium UI自动化快速上手（Mac版）

2048 AI社区

AI产能狂飙VS流量紧缩：2025年AI营销的矛盾与破局之道

以Stable Diffusion、Midjourney为代表的文生图模型，首次将普通人脑中的想象快速转化为高质量的视觉图像，内容创作的门槛被前所未有地拉低。《2024 AI+生成式营销产业研究蓝皮书》以实证数据指出，在特定创意维度上，AI的表现已超前于人类2.47年，其在内容生产效率和多样性上的优势已不可同日而语。”系统成为技术前沿的新焦点，它预示着AI将从执行单一指令的“工具”，演变为能够自主