2025年8月21日,深度求索(DeepSeek)正式推出新一代大模型DeepSeek V3.1。本次发布不仅涵盖多项架构与性能优化,还重点引入了面向国产AI芯片的新一代低精度计算标准UE8M0 FP8,进一步推动了推理效率的提升与算力基础设施的自主化进程。这一动向标志着国产AI技术体系正逐步从软件算法创新迈向“软硬协同、生态共建”的发展新阶段。

架构优化与推理性能提升

DeepSeek V3.1采用了创新的混合推理架构,将模型划分为“思考模式”(deepseek-reasoner)与“非思考模式”(deepseek-chat),以适配不同复杂度的推理任务。该系统还支持128K长上下文处理,显著提升了对长文档、多轮对话和复杂指令的理解与生成能力。

在多项权威测试中,V3.1表现出色:

  • 在Aider编程基准测试中取得71.6%的成绩,超越Claude Opus4;
  • 在SVGBench测试中位列第二,仅次于GPT-4.1-mini;
  • MMLU多任务语言理解测试得分达88.5%,与GPT-5持平。

该版本还通过对思维链(Chain-of-Thought, CoT)机制进行压缩优化,在输出token数量减少20%–50%的情况下,仍保持了与上一代模型R1-0528相当的语义完整性与任务完成度。非思考模式亦在输出长度控制与资源消耗方面取得显著进展,为高并发推理场景提供更低成本的选择。

在商业化方面,DeepSeek延续了极具竞争力的定价策略。其API输入价格低至0.5元/百万tokens(缓存命中),输出价格为12元/百万tokens。以典型编程任务为例,单次调用成本约为1.01美元,仅为同类闭源系统的约1/60。

FP8低精度计算在大模型训练中的关键价值

在大规模模型训练中,算力与显存资源往往是核心瓶颈。8位浮点数(FP8)格式因其能够在几乎不损失模型性能的前提下,实现吞吐量翻倍和显存占用减半,正逐渐成为训练GPT级别大模型的重要技术选项。

需指出的是,FP8目前尚未成为完全中立的国际标准。尽管NVIDIA曾联合Intel、Arm共同推动FP8标准化,提出E4M3(侧重精度)和E5M2(侧重数值范围)两种格式,但在实际落地中,NVIDIA在其Blackwell架构中推出了专有的“微缩浮点格式”(Microscaling formats),包括MXFP8、MXFP6和MXFP4。研究表明,在8亿参数规模的模型中,使用MXFP8-E4M3配合精心设计的数值转换策略,训练效果可接近传统BF16(bfloat16)精度,显示出FP8在实际应用中的巨大潜力。

国产芯片加速适配UE8M0 FP8新标准

DeepSeek在V3.1中提出的UE8M0 FP8并非NVIDIA官方FP8标准,而是一种针对国产硬件环境优化的变体格式。该格式采用无符号设计与8位指数位宽,大幅偏向数值表达范围,在一定程度上牺牲了小数精度,但有效避免了计算溢出问题,更适合大规模和高并发计算场景。

这一精度策略已在多家国内芯片企业中得到积极响应。目前,寒武纪MLU370-S4、思元590/690系列,以及海光、沐曦、摩尔线程等厂商的部分芯片已实现对FP8计算的原生或兼容性支持。华为昇腾也宣布计划于2025年第四季度实现原生FP8支持。

UE8M0 FP8的推广有效推动了国产AI算力生态的标准化进程。通过统一低精度计算格式,不同硬件平台之间的算力利用率得到提升,减少了对英伟达、AMD等国际厂商的依赖。诸如寒武纪等企业已基于该标准重新优化芯片架构,增强在大模型训练和高性能计算中的并行效率。

国产GPU厂商的低精度计算布局

在政策与市场需求的双重推动下,国产GPU厂商明显加速了对低精度计算能力的研发与产品化进程。

沐曦于2025年正式发布曦云C600芯片,宣称原生支持FP8精度,并采用多精度混合算力架构,可同时运行FP32/FP16传统精度任务和FP8低精度大模型训练。该芯片早于2024年10月完成流片,目前处于小批量量产阶段。其下一代C700系列也已立项,预计2026年第二季度进入流片测试。

燧原科技于2025年推出训推一体芯片L600,该芯片历时两年半开发,最大特点是同时支持训练与推理任务,并原生支持FP8精度,与DeepSeek V3.1的低精度策略高度契合。

总结与展望

企业对算力的需求,促进了算力平台的发展,天罡智算平台(https://www.tiangangaitp.com)就是其中的佼佼者:提供弹性GPU算力,灵活选择GPU类型和数量,按需动态使用,打破固定时长租期的束缚,只需为实际使用的资源付费。除了算力,还提供镜像、存储服务等一系列配套服务,并对完成实名认证的企业客户,提供4090 GPU 50个卡时的免费使用优惠。

DeepSeek V3.1的发布及其在低精度计算与国产芯片生态适配方面的进展,体现出中国AI产业正在形成从底层硬件、系统软件到上层模型的协同创新体系。UE8M0 FP8作为一种开放、可扩展的低精度格式,有望在减少对外技术依赖的同时,提升国产算力在全行业复杂任务和高并发场景中的实际性能。

随着国产AI芯片与主流大模型深度适配的不断推进,国内算力生态正在实现从“单点突破”到“系统优化”的关键转变,为AI技术在医疗、教育、工业等领域的规模化落地提供更坚实可靠的基础支撑。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐