DeepSeek新一代大模型DeepSeek V4深度调研分析
2026 年 5 月 4 日:2026 年 4 月 24 日(预览版):DeepSeek 技术报告、DeepInfra、Digital Trends、BuildFastWithAI、CSDN DeepSeek 技术社区、腾讯云开发者社区、SegmentFault、AI 铺子、掘金、用你 AI 等。
调研截至:2026 年 5 月 4 日
发布日期:2026 年 4 月 24 日(预览版)
信息来源:DeepSeek 技术报告、DeepInfra、Digital Trends、BuildFastWithAI、CSDN DeepSeek 技术社区、腾讯云开发者社区、SegmentFault、AI 铺子、掘金、用你 AI 等
一、公司概览
| 维度 | 信息 |
|---|---|
| 公司名称 | 杭州深度求索人工智能基础技术研究有限公司(DeepSeek) |
| 成立时间 | 2023 年 7 月(由幻方量化孵化) |
| 总部 | 浙江杭州 |
| 创始人 | 梁文锋(持有 DeepSeek 多数股权) |
| 母公司 | 幻方量化(浙江九章资产管理有限公司) |
| 融资状态 | 长期不接受外部融资;2026 年 4 月 V4 发布同期,腾讯与阿里巴巴据报洽谈投资,目标估值从 100 亿美元上调至 逾 200 亿美元(首次外部融资) |
| 团队规模 | DeepSeek 约 140 人,平均年龄不足 30 岁(幻方量化核心团队含奥林匹克金牌、ACM 金牌得主) |
| 算力资产 | 约 10,000 张 GPU(英伟达 H800/A100 为主),V4 发布时首次以华为昇腾 910B 为优先推理平台 |
资金来源:幻方量化 2025 年平均收益率 56.55%,管理规模逾 700 亿元,业内估算单年收入超 7 亿美元——这是 DeepSeek 不依赖外部融资、持续保持高投入的核心底气。
二、产品概览:DeepSeek V4
2.1 双版本定位
| 版本 | 总参数 | 激活参数 | 上下文 | 最大输出 | 预训练数据 | 定位 |
|---|---|---|---|---|---|---|
| V4-Pro | 1.6T | 49B | 1M tokens | 384K tokens | 33T tokens | 旗舰,复杂推理 / Agent / 高强度代码 |
| V4-Flash | 284B | 13B | 1M tokens | 384K tokens | 32T tokens | 高效经济,轻量 Agent / 日常场景 |
注:V4-Flash 并非 V4-Pro 的蒸馏版,而是独立训练的 MoE 模型,架构与 Pro 相同,仅在专家数量与层数上做精简。
发布方式:无预警发布,同日在 Hugging Face 和 ModelScope 全量开源(MIT 协议),与 OpenAI 发布 GPT-5.5 时间差不足 24 小时。
2.2 三大架构创新
① DSA2 混合稀疏注意力——让 1M 上下文真正可用
V4 核心难题不是"支持百万 token",而是"在百万 token 下还能跑得动"。
DeepSeek 通过三种注意力的组合:
| 注意力类型 | 作用 | 比喻 |
|---|---|---|
| HCA(重度压缩,128:1) | 全局信息概览 | 目录 / 广角镜 |
| CSA(压缩稀疏,精选1024块) | 保留关键细节 | 长焦镜 |
| SWA(局部窗口128) | 当前上下文精确度 | 放大镜 |
效果:
-
V4-Pro @ 1M context → 推理 FLOPs 仅为 V3.2 的 27%,KV Cache 降至 10%
-
V4-Flash @ 1M context → 推理 FLOPs 仅为 V3.2 的 10%,KV Cache 降至 7%
② mHC 流形约束超连接——稳定 61 层深网训练
V4-Pro 有 61 层 transformer。用 Sinkhorn-Knopp 迭代生成双随机矩阵约束信号放大倍数,将训练梯度波动控制在 2 倍以内(传统无约束模型高达 3000 倍),仅增加 6.7% 计算开销,使 1.6T 参数模型收敛成功率提升至 92%。
③ OPD + GRM 训练范式——全方位无短板
-
OPD(On-Policy Distillation):独立训练 10+ 个领域专家模型(数学、代码、写作、STEM……),通过全词汇 logit 蒸馏融合进单一模型,消除传统 RLHF 的"偏科"现象
-
GRM(生成式奖励模型):输出详细推理过程而非单一打分(“这里公式正确,但系数代入有误”),从"打分"升级为"一对一辅导反馈"
④ Engram 条件记忆模块(可选)
将 KV Cache 中的冗余历史信息动态压缩为低维向量,存于 NVMe SSD,推理时按需召回。1M token 大海捞针测试准确率从 84.2% → 97%。
三、基准测试
3.1 全面基准(V4-Pro vs 顶尖闭源模型)
| 基准 | V4-Pro (Max) | GPT-5.4 | Gemini 3.1 Pro | Claude Opus 4.6 |
|---|---|---|---|---|
| LiveCodeBench (Pass@1) | 93.5 | — | 91.7 | 88.8 |
| Codeforces (Rating) | 3206 | 3168 | 3052 | — |
| SWE-Bench Verified | 80.6 | — | 80.6 | 80.8 |
| GPQA Diamond | 90.1 | 93.0 | 94.3 | 91.3 |
| MMLU (5-shot) | 90.1 | 92.0 | 92.7 | — |
| MATH-500 | 96.1 | 94.5 | — | — |
| HMMT 2026 数学 | 95.2 | 97.7 | 94.7 | 96.2 |
| IMOAnswerBench | 89.8 | 91.4 | 81.0 | 75.3 |
| MRCR 1M 长上下文 | 83.5 | — | 76.3 | 92.9 |
| Terminal Bench 2.0 | 67.9 | 75.1 | 68.5 | 65.4 |
| Toolathlon | 51.8 | 54.6 | 48.8 | 47.2 |
| SuperCLUE 综合(国内) | 70.98 | — | — | — |
分析:
-
赢面:编码(LiveCodeBench 全球第一)、竞技编程(Codeforces 全球最强开源)、数学(MATH-500 超 GPT-5)、SWE-Bench 开源 SOTA
-
持平:SWE-Bench 与 Claude Opus 4.6 差 0.2 个百分点
-
落后:世界知识(MMLU/GPQA 仍落后顶尖闭源)、长上下文检索(MRCR 落后 Claude Opus 4.6 约 9 个百分点)、系统操作(Terminal Bench 落后 GPT-5.4)
-
整体判断:开源 SOTA,与闭源前沿差距约 3~6 个月
3.2 V3.2 → V4-Pro 进化幅度(SuperCLUE 六维)
| 维度 | 进化幅度 |
|---|---|
| Agent 能力 | +20 分 |
| 指令遵循 | +12 分 |
| 数学推理 | +10 分 |
| 代码生成 | +8 分 |
四、定价与成本竞争力
4.1 官方 API 定价(标准价,促销结束后)
| 模型 | 输入(缓存未命中) | 输入(缓存命中) | 输出 |
|---|---|---|---|
| V4-Flash | $0.14 / M | $0.028 / M | $0.28 / M |
| V4-Pro | $1.74 / M | $0.145 / M | $3.48 / M |
促销(至 2026-05-31):V4-Pro 打七五折,输入 $0.435 / M,输出 $0.87 / M
国内人民币定价:V4-Flash 输入 0.2 元 / M,输出 2 元 / M;V4-Pro 输入 1 元 / M,输出 24 元 / M
4.2 与主要竞品价格对比
| 模型 | 平均 Token 成本 | 与 V4 Flash 比 |
|---|---|---|
| DeepSeek V4-Flash | $0.32 / M avg | 基准 |
| DeepSeek V4-Pro | $0.87~$3.48 / M | 3~10× |
| Qwen 3.5 | $1.14 / M avg | ~3.5× |
| MiniMax M2.7 | $0.75 / M avg | ~2.3× |
| GPT-5.4 | $8.75 / M avg | 27× |
| Claude Sonnet 4.7 | $9.00 / M avg | 28× |
| Gemini 3.1 Pro | $7.00 / M avg | 22× |
极端案例:开发者实测同等工作负载,GPT-4o 月费 380 美元,Claude Opus 4.5 约 720 美元,DeepSeek V4 仅 18 美元。
4.3 定价战略逻辑
-
V3 训练成本:557 万美元(公开披露),V4 训练成本未披露但按规模推算约 5000 万~1 亿美元量级
-
核心逻辑:幻方量化年均约 7 亿美元现金流,可持续支撑低价策略——这是 OpenAI/Anthropic 靠 API 收入盈利的商业逻辑所不具备的
-
旧 API(
deepseek-chat/deepseek-reasoner)将于 2026-07-24 停用
五、核心能力拆解
5.1 推理模式设计
不再区分"聊天模型"与"推理模型"——V4 统一为单一模型 ID,通过参数控制推理强度:
| 模式 | 参数 | 适用场景 |
|---|---|---|
| 非思考(快速) | thinking: disabled |
日常对话、文案生成 |
| 思考(默认) | reasoning_effort=high |
代码调试、数学推导 |
| 深度思考 | reasoning_effort=max |
竞赛编程、科研推理 |
5.2 Agent 能力
-
工具调用:原生支持函数调用、代码解释器、文件操作
-
兼容主流 Agent 框架:Claude Code、OpenClaw(“龙虾”)、CodeBuddy
-
支持 338 种编程语言,可一次性理解数十万行跨文件代码库
-
内部实测:代码 Agent 使用体验优于 Claude Sonnet 4.5,交付质量接近 Claude Opus 4.6 非思考模式
5.3 多模态(尚未完全开源)
原生统一架构:
-
图像:ViT-14B 编码,每图 256 视觉 token
-
视频:1fps 采样,支持最长 10 分钟视频
-
音频:支持中(多模态权重预计 Q3 开源)
5.4 国产算力适配(战略级)
首个宣称不依赖英伟达的前沿大模型:
-
早期访问权独家开放给华为昇腾、寒武纪,未给英伟达/AMD 早期适配
-
V4-Pro 在昇腾 950PR 上推理时延 20ms,V4-Flash 10ms
-
昇腾 950PR 算力达英伟达 H20 的 2.87 倍(对华合规芯片中的最高规格)
-
全面适配华为 CANN 8.0,完成从 CUDA 的底层代码迁移(据报为 V4 多次延期的核心原因之一)
六、市场策略
目标客户:
-
开发者和 AI 团队(低成本 API 降低试错门槛)
-
企业级客户(私有化部署 + 国产算力 + 数据安全合规)
-
中国政府与国企(全链路国产化是独特壁垒)
渠道策略:
-
直接 API(platform.deepseek.com)
-
Hugging Face / ModelScope 开源分发
-
兼容 OpenAI + Anthropic 接口格式,降低迁移成本——“仅修改 model_name 即可”
定价战略:持续以"效率优先"哲学压低价格,目的不是短期盈利而是争取开发者生态份额,为未来变现(to-B、私有化部署、国产算力捆绑)奠基。
技术叙事:在幻方量化技术报告结尾引《荀子》——“不诱于誉,不恐于诽,率道而行,端然正己”——定调长期主义,对比硅谷融资驱动的短期 KPI 文化形成鲜明反差。
七、团队与融资
| 维度 | 信息 |
|---|---|
| 创始人 | 梁文锋(浙大电子信息工程本科,AI 量化交易起家) |
| DeepSeek 团队 | 约 140 人,均龄 <30,奥林匹克/ACM 竞赛背景为显著特征 |
| 研发预算来源 | 幻方量化研发预算,年可用资金估算 ≥7 亿美元 |
| 历史融资 | 无外部融资(梁文锋已停止为幻方引入外部资金) |
| 2026 年新融资 | 腾讯 + 阿里巴巴据报洽谈投资,估值 >200 亿美元(首次) |
| GPU 资产 | 约 10,000 卡(英伟达 H800 为主,增补昇腾 910B) |
幻方量化弹药:
-
管理规模:>700 亿元
-
2025 年收益率:56.55%(中国百亿量化第二)
-
近五年收益均值:114.35%
-
估算年现金流:>7 亿美元 → V4 训练成本的数十倍
八、SWOT 分析
| 分析 | |
|---|---|
| 优势 (S) | 编码能力全球开源第一(Codeforces 3206、LiveCodeBench 93.5);1M 上下文效率全球最优(FLOPs 仅 V3.2 的 27%);定价碾压式优势(比 Claude 便宜 90%+);幻方量化作为"永久资金池"保证长期研发不断粮 |
| 优势 (S) | 与国产算力(华为昇腾)深度捆绑,在美国 GPU 出口管制背景下是中国政府/国企的唯一选择 |
| 优势 (S) | MIT 协议完全开源——生态飞轮效应,开发者可基于 V4 二次开发,反哺能力持续改进 |
| 弱点 (W) | 世界知识(MMLU/GPQA)仍落后 GPT-5.4 和 Gemini 3.1 约 3%~4%;长上下文检索(MRCR)落后 Claude Opus 4.6 约 9%;系统操作(Terminal Bench)落后 GPT-5.4 约 7% |
| 弱点 (W) | 多模态权重尚未开源(Q3 才开源),视觉能力暂时只在 API 可用;高难度科学推理(生物遗传学、量子化学等)落后闭源模型 15~20 个百分点 |
| 弱点 (W) | 上下文超 80 万 tokens 时存在一定幻觉风险;图像生成分辨率仅 512×512 |
| 机会 (O) | Agent 时代来临——V4 的 1M 上下文 + 高效推理 + 工具调用正是 Agent 基础设施的核心需求,时机极好 |
| 机会 (O) | 国产算力替代趋势——华为昇腾 950 超节点即将批量上市,V4 有望大幅降价,进一步扩大市场份额 |
| 威胁 (T) | GPT-5.5 同日发布(上下文 200 万 token),Gemini 3.1 Pro 在多知识维度持续领先——闭源模型有更多资本和 RLHF 数据投入 |
| 威胁 (T) | 首次融资(腾讯/阿里)可能带来商业化压力,影响梁文锋坚持的长期主义文化 |
| 威胁 (T) | 核心人才流失:罗福莉已被小米挖走,团队对 DeepSeek 方法论的掌握正在"扩散"至竞争对手 |
九、竞品对比矩阵
| 维度 | DeepSeek V4-Pro | 小米 MiMo-V2.5-Pro | Kimi K2.6 | Claude Opus 4.6 |
|---|---|---|---|---|
| 总参数 | 1.6T | 1.02T | 1.1T | 未公开 |
| 激活参数 | 49B | 42B | — | — |
| 上下文 | 1M | 1M | 1M | 200K |
| 开源协议 | MIT | MIT | 不详 | 闭源 |
| 定价(输出) | $3.48/M | $3/M | — | $75/M |
| LiveCodeBench | 93.5 | — | — | 88.8 |
| SWE-Bench | 80.6 | 57.2(Pro版) | — | 80.8 |
| Codeforces | 3206 | — | — | — |
| 国产芯片适配 | ✅ 华为昇腾 950 | ✅ 部分支持 | — | ❌ |
| 多模态 | 文本/图像/视频(开发中) | 文本/图像/音频/视频 | — | 文本/图像 |
| Agent 框架 | OpenClaw / Claude Code | MiMo Claw | — | Claude Code |
十、战略意义
信号 1:1M 上下文"普惠化"——行业拐点来临
DeepSeek V4 将 1M 上下文从"昂贵的旗舰功能"变成"两个版本的默认配置",且成本不增反降。这意味着 Agent 的长程任务规划壁垒正在被消除。任何不支持 1M 上下文的竞品在 2026 年下半年将面临实质性的说服力下降。
信号 2:开源逼近闭源——定价护城河崩塌
V4-Pro 的 SWE-Bench 分数(80.6%)与 Claude Opus 4.6(80.8%)仅差 0.2%,但价格是其 1/22。这对任何依赖"性能溢价"逻辑的闭源商业模式都是直接威胁。
信号 3:国产算力捆绑——地缘壁垒成为新护城河
在美国 GPU 禁运背景下,DeepSeek V4 是唯一能在昇腾芯片上流畅运行的前沿大模型。这意味着中国政府/国企/金融等合规敏感客户实际上没有替代选择——DeepSeek 的国产化路径不只是爱国叙事,而是真实的采购壁垒。
信号 4:幻方"永久资金"叠加首次融资
腾讯+阿里的潜在投资给了 DeepSeek 额外的算力和分发资源,但也引入了商业化压力。如果 DeepSeek 在 H2 2026 发生策略漂移(提价、限速、去开源),将是重要的战略窗口期。
信号 5:DeepSeek 系人才扩散已成事实
罗福莉(MiMo)已将 DeepSeek 的 MoE 方法论带入小米。DeepSeek 内部对外交流极少(梁文锋几乎不公开讲话),但方法论已通过论文和人才流动扩散——这加速了整个行业向 DeepSeek 范式收敛。
更多推荐

所有评论(0)