DeepSeek新一代大模型DeepSeek V4深度调研分析

2026 年 5 月 4 日：2026 年 4 月 24 日（预览版）：DeepSeek 技术报告、DeepInfra、Digital Trends、BuildFastWithAI、CSDN DeepSeek 技术社区、腾讯云开发者社区、SegmentFault、AI 铺子、掘金、用你 AI 等。

weiqihuang

261人浏览 · 2026-05-05 23:01:13

weiqihuang · 2026-05-05 23:01:13 发布

调研截至：2026 年 5 月 4 日
发布日期：2026 年 4 月 24 日（预览版）
信息来源：DeepSeek 技术报告、DeepInfra、Digital Trends、BuildFastWithAI、CSDN DeepSeek 技术社区、腾讯云开发者社区、SegmentFault、AI 铺子、掘金、用你 AI 等

一、公司概览

维度	信息
公司名称	杭州深度求索人工智能基础技术研究有限公司（DeepSeek）
成立时间	2023 年 7 月（由幻方量化孵化）
总部	浙江杭州
创始人	梁文锋（持有 DeepSeek 多数股权）
母公司	幻方量化（浙江九章资产管理有限公司）
融资状态	长期不接受外部融资；2026 年 4 月 V4 发布同期，腾讯与阿里巴巴据报洽谈投资，目标估值从 100 亿美元上调至逾 200 亿美元（首次外部融资）
团队规模	DeepSeek 约 140 人，平均年龄不足 30 岁（幻方量化核心团队含奥林匹克金牌、ACM 金牌得主）
算力资产	约 10,000 张 GPU（英伟达 H800/A100 为主），V4 发布时首次以华为昇腾 910B 为优先推理平台

资金来源：幻方量化 2025 年平均收益率 56.55%，管理规模逾 700 亿元，业内估算单年收入超 7 亿美元——这是 DeepSeek 不依赖外部融资、持续保持高投入的核心底气。

二、产品概览：DeepSeek V4

2.1 双版本定位

版本	总参数	激活参数	上下文	最大输出	预训练数据	定位
V4-Pro	1.6T	49B	1M tokens	384K tokens	33T tokens	旗舰，复杂推理 / Agent / 高强度代码
V4-Flash	284B	13B	1M tokens	384K tokens	32T tokens	高效经济，轻量 Agent / 日常场景

注：V4-Flash 并非 V4-Pro 的蒸馏版，而是独立训练的 MoE 模型，架构与 Pro 相同，仅在专家数量与层数上做精简。

发布方式：无预警发布，同日在 Hugging Face 和 ModelScope 全量开源（MIT 协议），与 OpenAI 发布 GPT-5.5 时间差不足 24 小时。

2.2 三大架构创新

① DSA2 混合稀疏注意力——让 1M 上下文真正可用

V4 核心难题不是"支持百万 token"，而是"在百万 token 下还能跑得动"。

DeepSeek 通过三种注意力的组合：

注意力类型	作用	比喻
HCA（重度压缩，128:1）	全局信息概览	目录 / 广角镜
CSA（压缩稀疏，精选1024块）	保留关键细节	长焦镜
SWA（局部窗口128）	当前上下文精确度	放大镜

效果：

V4-Pro @ 1M context → 推理 FLOPs 仅为 V3.2 的 27%，KV Cache 降至 10%
V4-Flash @ 1M context → 推理 FLOPs 仅为 V3.2 的 10%，KV Cache 降至 7%

② mHC 流形约束超连接——稳定 61 层深网训练

V4-Pro 有 61 层 transformer。用 Sinkhorn-Knopp 迭代生成双随机矩阵约束信号放大倍数，将训练梯度波动控制在 2 倍以内（传统无约束模型高达 3000 倍），仅增加 6.7% 计算开销，使 1.6T 参数模型收敛成功率提升至 92%。

③ OPD + GRM 训练范式——全方位无短板

OPD（On-Policy Distillation）：独立训练 10+ 个领域专家模型（数学、代码、写作、STEM……），通过全词汇 logit 蒸馏融合进单一模型，消除传统 RLHF 的"偏科"现象
GRM（生成式奖励模型）：输出详细推理过程而非单一打分（“这里公式正确，但系数代入有误”），从"打分"升级为"一对一辅导反馈"

④ Engram 条件记忆模块（可选）

将 KV Cache 中的冗余历史信息动态压缩为低维向量，存于 NVMe SSD，推理时按需召回。1M token 大海捞针测试准确率从 84.2% → 97%。

三、基准测试

3.1 全面基准（V4-Pro vs 顶尖闭源模型）

基准	V4-Pro (Max)	GPT-5.4	Gemini 3.1 Pro	Claude Opus 4.6
LiveCodeBench (Pass@1)	93.5	—	91.7	88.8
Codeforces (Rating)	3206	3168	3052	—
SWE-Bench Verified	80.6	—	80.6	80.8
GPQA Diamond	90.1	93.0	94.3	91.3
MMLU (5-shot)	90.1	92.0	92.7	—
MATH-500	96.1	94.5	—	—
HMMT 2026 数学	95.2	97.7	94.7	96.2
IMOAnswerBench	89.8	91.4	81.0	75.3
MRCR 1M 长上下文	83.5	—	76.3	92.9
Terminal Bench 2.0	67.9	75.1	68.5	65.4
Toolathlon	51.8	54.6	48.8	47.2
SuperCLUE 综合（国内）	70.98	—	—	—

分析：

赢面：编码（LiveCodeBench 全球第一）、竞技编程（Codeforces 全球最强开源）、数学（MATH-500 超 GPT-5）、SWE-Bench 开源 SOTA
持平：SWE-Bench 与 Claude Opus 4.6 差 0.2 个百分点
落后：世界知识（MMLU/GPQA 仍落后顶尖闭源）、长上下文检索（MRCR 落后 Claude Opus 4.6 约 9 个百分点）、系统操作（Terminal Bench 落后 GPT-5.4）
整体判断：开源 SOTA，与闭源前沿差距约 3~6 个月

3.2 V3.2 → V4-Pro 进化幅度（SuperCLUE 六维）

维度	进化幅度
Agent 能力	+20 分
指令遵循	+12 分
数学推理	+10 分
代码生成	+8 分

四、定价与成本竞争力

4.1 官方 API 定价（标准价，促销结束后）

模型	输入（缓存未命中）	输入（缓存命中）	输出
V4-Flash	$0.14 / M	$0.028 / M	$0.28 / M
V4-Pro	$1.74 / M	$0.145 / M	$3.48 / M

促销（至 2026-05-31）：V4-Pro 打七五折，输入 $0.435 / M，输出 $0.87 / M
国内人民币定价：V4-Flash 输入 0.2 元 / M，输出 2 元 / M；V4-Pro 输入 1 元 / M，输出 24 元 / M

4.2 与主要竞品价格对比

模型	平均 Token 成本	与 V4 Flash 比
DeepSeek V4-Flash	$0.32 / M avg	基准
DeepSeek V4-Pro	$0.87~$3.48 / M	3~10×
Qwen 3.5	$1.14 / M avg	~3.5×
MiniMax M2.7	$0.75 / M avg	~2.3×
GPT-5.4	$8.75 / M avg	27×
Claude Sonnet 4.7	$9.00 / M avg	28×
Gemini 3.1 Pro	$7.00 / M avg	22×

极端案例：开发者实测同等工作负载，GPT-4o 月费 380 美元，Claude Opus 4.5 约 720 美元，DeepSeek V4 仅 18 美元。

4.3 定价战略逻辑

V3 训练成本：557 万美元（公开披露），V4 训练成本未披露但按规模推算约 5000 万~1 亿美元量级
核心逻辑：幻方量化年均约 7 亿美元现金流，可持续支撑低价策略——这是 OpenAI/Anthropic 靠 API 收入盈利的商业逻辑所不具备的
旧 API（deepseek-chat / deepseek-reasoner）将于 2026-07-24 停用

五、核心能力拆解

5.1 推理模式设计

不再区分"聊天模型"与"推理模型"——V4 统一为单一模型 ID，通过参数控制推理强度：

模式	参数	适用场景
非思考（快速）	`thinking: disabled`	日常对话、文案生成
思考（默认）	`reasoning_effort=high`	代码调试、数学推导
深度思考	`reasoning_effort=max`	竞赛编程、科研推理

5.2 Agent 能力

工具调用：原生支持函数调用、代码解释器、文件操作
兼容主流 Agent 框架：Claude Code、OpenClaw（“龙虾”）、CodeBuddy
支持 338 种编程语言，可一次性理解数十万行跨文件代码库
内部实测：代码 Agent 使用体验优于 Claude Sonnet 4.5，交付质量接近 Claude Opus 4.6 非思考模式

5.3 多模态（尚未完全开源）

原生统一架构：

图像：ViT-14B 编码，每图 256 视觉 token
视频：1fps 采样，支持最长 10 分钟视频
音频：支持中（多模态权重预计 Q3 开源）

5.4 国产算力适配（战略级）

首个宣称不依赖英伟达的前沿大模型：

早期访问权独家开放给华为昇腾、寒武纪，未给英伟达/AMD 早期适配
V4-Pro 在昇腾 950PR 上推理时延 20ms，V4-Flash 10ms
昇腾 950PR 算力达英伟达 H20 的 2.87 倍（对华合规芯片中的最高规格）
全面适配华为 CANN 8.0，完成从 CUDA 的底层代码迁移（据报为 V4 多次延期的核心原因之一）

六、市场策略

目标客户：

开发者和 AI 团队（低成本 API 降低试错门槛）
企业级客户（私有化部署 + 国产算力 + 数据安全合规）
中国政府与国企（全链路国产化是独特壁垒）

渠道策略：

直接 API（platform.deepseek.com）
Hugging Face / ModelScope 开源分发
兼容 OpenAI + Anthropic 接口格式，降低迁移成本——“仅修改 model_name 即可”

定价战略：持续以"效率优先"哲学压低价格，目的不是短期盈利而是争取开发者生态份额，为未来变现（to-B、私有化部署、国产算力捆绑）奠基。

技术叙事：在幻方量化技术报告结尾引《荀子》——“不诱于誉，不恐于诽，率道而行，端然正己”——定调长期主义，对比硅谷融资驱动的短期 KPI 文化形成鲜明反差。

七、团队与融资

维度	信息
创始人	梁文锋（浙大电子信息工程本科，AI 量化交易起家）
DeepSeek 团队	约 140 人，均龄 <30，奥林匹克/ACM 竞赛背景为显著特征
研发预算来源	幻方量化研发预算，年可用资金估算 ≥7 亿美元
历史融资	无外部融资（梁文锋已停止为幻方引入外部资金）
2026 年新融资	腾讯 + 阿里巴巴据报洽谈投资，估值 >200 亿美元（首次）
GPU 资产	约 10,000 卡（英伟达 H800 为主，增补昇腾 910B）

幻方量化弹药：

管理规模：>700 亿元
2025 年收益率：56.55%（中国百亿量化第二）
近五年收益均值：114.35%
估算年现金流：>7 亿美元 → V4 训练成本的数十倍

八、SWOT 分析

	分析
优势 (S)	编码能力全球开源第一（Codeforces 3206、LiveCodeBench 93.5）；1M 上下文效率全球最优（FLOPs 仅 V3.2 的 27%）；定价碾压式优势（比 Claude 便宜 90%+）；幻方量化作为"永久资金池"保证长期研发不断粮
优势 (S)	与国产算力（华为昇腾）深度捆绑，在美国 GPU 出口管制背景下是中国政府/国企的唯一选择
优势 (S)	MIT 协议完全开源——生态飞轮效应，开发者可基于 V4 二次开发，反哺能力持续改进
弱点 (W)	世界知识（MMLU/GPQA）仍落后 GPT-5.4 和 Gemini 3.1 约 3%~4%；长上下文检索（MRCR）落后 Claude Opus 4.6 约 9%；系统操作（Terminal Bench）落后 GPT-5.4 约 7%
弱点 (W)	多模态权重尚未开源（Q3 才开源），视觉能力暂时只在 API 可用；高难度科学推理（生物遗传学、量子化学等）落后闭源模型 15~20 个百分点
弱点 (W)	上下文超 80 万 tokens 时存在一定幻觉风险；图像生成分辨率仅 512×512
机会 (O)	Agent 时代来临——V4 的 1M 上下文 + 高效推理 + 工具调用正是 Agent 基础设施的核心需求，时机极好
机会 (O)	国产算力替代趋势——华为昇腾 950 超节点即将批量上市，V4 有望大幅降价，进一步扩大市场份额
威胁 (T)	GPT-5.5 同日发布（上下文 200 万 token），Gemini 3.1 Pro 在多知识维度持续领先——闭源模型有更多资本和 RLHF 数据投入
威胁 (T)	首次融资（腾讯/阿里）可能带来商业化压力，影响梁文锋坚持的长期主义文化
威胁 (T)	核心人才流失：罗福莉已被小米挖走，团队对 DeepSeek 方法论的掌握正在"扩散"至竞争对手

九、竞品对比矩阵

维度	DeepSeek V4-Pro	小米 MiMo-V2.5-Pro	Kimi K2.6	Claude Opus 4.6
总参数	1.6T	1.02T	1.1T	未公开
激活参数	49B	42B	—	—
上下文	1M	1M	1M	200K
开源协议	MIT	MIT	不详	闭源
定价（输出）	$3.48/M	$3/M	—	$75/M
LiveCodeBench	93.5	—	—	88.8
SWE-Bench	80.6	57.2（Pro版）	—	80.8
Codeforces	3206	—	—	—
国产芯片适配	✅ 华为昇腾 950	✅ 部分支持	—	❌
多模态	文本/图像/视频（开发中）	文本/图像/音频/视频	—	文本/图像
Agent 框架	OpenClaw / Claude Code	MiMo Claw	—	Claude Code

十、战略意义

信号 1：1M 上下文"普惠化"——行业拐点来临

DeepSeek V4 将 1M 上下文从"昂贵的旗舰功能"变成"两个版本的默认配置"，且成本不增反降。这意味着 Agent 的长程任务规划壁垒正在被消除。任何不支持 1M 上下文的竞品在 2026 年下半年将面临实质性的说服力下降。

信号 2：开源逼近闭源——定价护城河崩塌

V4-Pro 的 SWE-Bench 分数（80.6%）与 Claude Opus 4.6（80.8%）仅差 0.2%，但价格是其 1/22。这对任何依赖"性能溢价"逻辑的闭源商业模式都是直接威胁。

信号 3：国产算力捆绑——地缘壁垒成为新护城河

在美国 GPU 禁运背景下，DeepSeek V4 是唯一能在昇腾芯片上流畅运行的前沿大模型。这意味着中国政府/国企/金融等合规敏感客户实际上没有替代选择——DeepSeek 的国产化路径不只是爱国叙事，而是真实的采购壁垒。

信号 4：幻方"永久资金"叠加首次融资

腾讯+阿里的潜在投资给了 DeepSeek 额外的算力和分发资源，但也引入了商业化压力。如果 DeepSeek 在 H2 2026 发生策略漂移（提价、限速、去开源），将是重要的战略窗口期。

信号 5：DeepSeek 系人才扩散已成事实

罗福莉（MiMo）已将 DeepSeek 的 MoE 方法论带入小米。DeepSeek 内部对外交流极少（梁文锋几乎不公开讲话），但方法论已通过论文和人才流动扩散——这加速了整个行业向 DeepSeek 范式收敛。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

RAG 效果差不是模型问题：10 个检索增强失败原因总结

文章摘要： RAG项目在初期Demo表现良好，但进入实际业务后常出现检索效果差、回答错误等问题。核心原因往往不在大模型本身，而在于检索链路的数据质量与策略。常见问题包括：文档解析质量差导致文本失真；Chunk切分不合理破坏语义；Embedding模型与业务场景不匹配；单一向量检索忽略关键词；TopK设置不当导致召回不足或噪声过多；缺少Rerank导致相关结果排序靠后；Prompt约束不足引发幻觉；

2048 AI社区

从需求洞察到生态博弈

在主流手机芯片市场（高通、联发科、展锐等），芯片公司与手机厂商的关系远非"标准件买卖"。手机SoC（系统级芯片）是一个"半成品平台"，需要深度联合定义。决定权为什么芯片公司必须迁就软件和系统手机厂商决定用什么安卓版本、相机算法、AI框架。芯片必须适配其软件栈终端体验取舍用户要极致游戏还是超长续航？芯片功耗和性能曲线必须匹配手机定位产品定位和价格1500元手机不可能用旗舰芯片。芯片公司必须根据手机定