项目分享|DeepSeek-R1：推理大模型的新突破

在大型语言模型快速发展的今天，推理能力已成为衡量模型智能水平的关键指标。DeepSeek-AI最新开源的系列模型，以其独特的训练方法和卓越的性能表现，正在重新定义开源推理模型的能力边界。

AladdinEdu

637人浏览 · 2025-11-07 14:23:37

AladdinEdu · 2025-11-07 14:23:37 发布

在大型语言模型快速发展的今天，推理能力已成为衡量模型智能水平的关键指标。DeepSeek-AI最新开源的DeepSeek-R1系列模型，以其独特的训练方法和卓越的性能表现，正在重新定义开源推理模型的能力边界。

项目概览：推理模型的技术革命

DeepSeek-R1是DeepSeek第一代推理模型，包含两个核心版本：

DeepSeek-R1-Zero：通过纯强化学习训练，无需监督微调作为预备步骤
DeepSeek-R1：在RL基础上结合冷启动数据，进一步优化推理性能

这一系列模型的推出，验证了纯强化学习能够有效激发大语言模型的推理能力，为整个研究社区开辟了新的技术路径。

核心技术创新

🚀 纯强化学习的突破

DeepSeek-R1-Zero的成功证明了：

无需SFT预训练：推理能力可直接通过RL激励获得
自然涌现的推理行为：模型自发掌握了自我验证、反思、生成长思维链等能力
研究里程碑：这是首个验证纯RL能激发LLM推理能力的开源研究

🎯 两阶段优化管道

DeepSeek-R1采用更完善的训练流程：

两个RL阶段：分别专注于发现更好的推理模式和对齐人类偏好
两个SFT阶段：作为模型推理和非推理能力的种子
综合优化：解决了R1-Zero的重复、可读性差、语言混合等问题

📚 高效的模型蒸馏

项目还提供了6个基于Llama和Qwen的蒸馏模型：

覆盖1.5B到70B的参数规模
DeepSeek-R1-Distill-Qwen-32B在多个基准测试中超越OpenAI o1-mini
为社区提供了高质量的推理模型选择

性能表现：对标顶尖水平

综合基准测试

在数学、代码、推理等多个领域的评估中，DeepSeek-R1表现出色：

数学能力：AIME 2024达到79.8% pass@1，超越OpenAI o1-mini
代码能力：LiveCodeBench达到65.9% pass@1，Codeforces评级2029
推理能力：MMLU-Pro达到84.0%，GPQA Diamond达到71.5%
中文理解：C-Eval达到91.8%，表现优异

蒸馏模型表现

蒸馏模型同样展现强大实力：

DeepSeek-R1-Distill-Qwen-32B：AIME 2024达到72.6%，超越Claude-3.5-Sonnet
DeepSeek-R1-Distill-Llama-70B：在多个基准上达到顶尖水平

快速使用指南

在线体验

用户可以通过官方渠道快速体验：

在线聊天：chat.deepseek.com，开启"DeepThink"模式
API服务：platform.deepseek.com，提供OpenAI兼容接口

本地部署

对于希望本地部署的用户：

# 使用vLLM部署蒸馏模型
vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager

# 使用SGLang部署
python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --trust-remote-code --tp 2