当我们回顾最近几年编程领域的变革,从自动补全、代码补丁、聊天式编程助手,到今天这种“从文本描述直达可执行系统架构+生成测试”的系统,似乎一个新的时代正在悄然来临。DeepCode 的发布,就是这一波浪潮里的标志性事件。

图片

香港大学数据智能实验室(HKUDS)推出的DeepCode如一匹黑马,横空出世。这款开源的多代理AI编码平台,不仅能将复杂的研究论文转化为生产就绪代码,还能从简单文本描述生成前端Web界面和后端服务。

图片

DeepCode在OpenAI的PaperBench基准测试上刷新纪录,超越人类专家和顶级商业AI工具,标志着AI在软件工程领域的重大突破。

图片

根据其公开信息,DeepCode 在 PaperBench Code‑Dev(由 OpenAI 发布的严苛测试集)中,取得以下成绩:

  • 超越人类专家(顶级机器学习博士):75.9% vs 72.4%。

  • 超越最先进商业代码智能体:84.8% vs 商用助手约 58.7%。

  • 超越科学编程智能体:73.5% vs 51.1%。

  • 超越基于大型语言模型 (LLM) 智能体:73.5% vs 43.3%。

这些数字足够醒目,意味着 DeepCode 不仅在“写代码”范畴里抢跑,更可能在“造出系统/框架级代码”上开创新局。

图片

DeepCode的核心:多代理架构,自动化从概念到代码

DeepCode不是简单的代码生成器,而是一个自主的多代理系统,专为解决开发痛点设计。它能处理多模态输入,包括研究论文、自然语言提示、URL和文档(如PDF、DOC),输出高质量、可部署的代码。

图片

核心功能包括:

Paper2Code:自动从学术论文中提取算法逻辑、数学模型,生成优化实现,加速科研复现。

图片

Text2Web:将文本描述转为视觉美观、功能完整的前端Web代码。

图片

Text2Backend:生成高效、可扩展的后端代码,包括API端点和数据库模式。

图片

其多代理架构像一支高效团队:中央编排代理协调一切,意图理解代理解析用户需求,文档解析代理处理论文,代码规划代理设计架构,参考挖掘和索引代理搜索最佳库,生成代理合成代码。 这种设计基于Model Context Protocol (MCP),无缝集成工具如搜索引擎、文件操作和GitHub下载,确保可靠的AI-外部系统交互。

图片

DeepCode还内置CodeRAG系统,利用语义嵌入和图依赖分析,从海量代码库中挖掘模式;高效内存机制处理大规模上下文;质量保障模块自动生成测试和文档,确保代码可靠。

多智能体架构:系统工程,而非单模型孤岛

从其公开说明来看,DeepCode 采用了“多智能体”系统:包括意图理解智能体、文档解析智能体、代码规划智能体、代码生成智能体、代码索引智能体等等。从策略协调、依赖分析、记忆压缩、高效生成到测试/验证,整个流程都被架构化、模块化。

这种设计意味着:它并不是单纯抛一个更大的 LLM 而已,而是在“怎么用模型+怎么组织任务”上下功夫。

图片

重视流程、测试与 “可交付”

DeepCode 不仅生成代码,也强调质量保证:静态分析、自动单元测试、文档合成、依赖分析等等。换言之,它试图缩短从“生成代码”到“可以交付运行”的距离,而不是停留在“生成一个片段”即可的阶段。

图片

PaperBench基准炸裂:超越人类,碾压商业巨头

PaperBench是由OpenAI发布的严格基准,要求AI代理从头复现20篇ICML 2024论文,包括8316个可评分组件,通过分层权重的SimpleJudge评估。代理需理解论文、开发代码、执行实验,并匹配结果,一切在隔离环境中进行。

DeepCode在这里大放异彩:

图片

整体得分:73.5%,远超基线。

  • vs 人类专家:在3篇论文子集上,75.9% vs 顶级ML博士的72.4%(+3.5%),证明AI已超越专家级复现。

  • vs 商业代码代理:在5篇子集上,84.8% vs 最佳(如Claude Code 58.7%),提升26.1%。Cursor 58.4%、Codex 40.0% 均被甩开。

  • vs 科学代码代理:73.5% vs PaperCoder 51.1%(+22.4%),多模块架构胜过简单管道。

  • vs LLM代理:73.5% vs 最佳o1 BasicAgent 43.3%(+30.2%)。Claude 3.5 Sonnet + IterativeAgent仅27.5%。

这些结果强调,DeepCode的架构而非基础模型,是性能跃升的关键

类别,DeepCode得分,对比对象,提升
人类专家,75.9%,72.4%,+3.5%
商业代理,84.8%,58.7%,+26.1%
科学代理,73.5%,51.1%,+22.4%
LLM代理,73.5%,43.3%,+30.2%

DeepCode 的出现对我而言,是一个信号 — 编程工具从“工具助手”进入“工具代理”阶段。“你写代码”→“你指令生成代码”这种模式正在渐渐成为可能。

但值得强调的是:革命从来不是瞬间完成的。虽然在基准测试中 DeepCode 看起来很强,但落地实际产品、复杂系统、真实迭代中的表现,仍须时间检验。

如何上手:简单安装,立即体验

DeepCode开源在GitHub(
https://github.com/HKUDS/DeepCode),支持Web(Streamlit)、CLI和API接口。安装只需pip install deepcode-hku,配置API密钥(OpenAI/Anthropic),即可启动。

更多transformer,VIT,swin tranformer
参考头条号:人工智能研究所
v号:人工智能研究Suo, 启示AI科技

 动画详解transformer  在线视频教程 

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐