深度求索 DeepSeek-V3.1 发布，官方称之：迈向智能体时代的第一步

中国人工智能公司深度求索(DeepSeek)推出DeepSeek-V3.1大模型升级版本。该版本采用混合推理架构，支持思考与非思考双模式，具有128K长上下文处理能力。在编程、搜索等任务中表现优异，尤其在代码修复和终端任务上提升显著。模型保持671B参数规模，激活率仅5.5%，并优化了多语言支持。同时开放API接口和开源模型，支持商业应用。此次升级标志着DeepSeek正式进入智能体时代，为开发者

人工智能研究所

230人浏览 · 2025-08-24 07:30:00

人工智能研究所 · 2025-08-24 07:30:00 发布

中国人工智能公司深度求索（DeepSeek）正式发布了 DeepSeek-V3.1，这是对其5个月前推出的V3版本的一次重大升级。

添加图片注释，不超过 140 字（可选）

此次发布被视为DeepSeek进入“智能体时代”的关键一步，官方称其为“迈向Agent（智能体）时代的第一步”。新模型引入了**混合推理架构**，在思考效率、Agent能力和多语言支持等方面均有显著提升。

模型升级：混合推理架构的革命性突破

DeepSeek-V3.1最引人注目的特点是其混合推理架构，一个模型同时支持思考模式（Think Mode）与非思考模式（Non-Think Mode）。

添加图片注释，不超过 140 字（可选）

用户可通过官方App或网页端的“深度思考”按钮自由切换这两种模式。在API接口中，deepseek-chat对应非思考模式，deepseek-reasoner对应思考模式，两者均支持128K上下文长度。

这种设计让用户能够根据任务复杂度灵活选择响应机制—简单任务快速响应，复杂问题深度思考。

性能提升：效率与能力的双重飞跃

DeepSeek-V3.1在思考效率方面取得了显著进步。通过思维链压缩训练，V3.1-Think在输出token数减少20%-50%的情况下，各项任务的平均表现与专用于推理的前代模型R1-0528持平。

添加图片注释，不超过 140 字（可选）

在多项专业测试中，V3.1展现出卓越实力。编程方面，它在AiderPolyglot多语言编程测试中获得71.6%的高分，超越Claude 4 Opus等模型，而每次完整编程任务成本仅1.01美元，仅为专有系统的六十分之一。

添加图片注释，不超过 140 字（可选）

搜索能力上，V3.1在需要多步推理的复杂搜索测试（browsecomp）与多学科专家级难题测试（HLE）上，性能已大幅领先R1-0528。

添加图片注释，不超过 140 字（可选）

智能体能力：赋能AI Agent生态的核心引擎

DeepSeek-V3.1的核心突破在于其智能体（Agent）能力的全面提升。通过后训练优化，新模型在工具使用与智能体任务中的表现有较大提升，更好地支持多步任务处理与外部系统协同。

在代码修复测评SWE与命令行终端环境下的复杂任务（Terminal-Bench）测试中，DeepSeek-V3.1相比之前的DeepSeek系列模型有明显提高。

具体来说，它在SWE-bench Verified上达到66.0%的成功率（对比V3-0324的45.4%），在Terminal-Bench上获得31.3%的分数（对比R1-0528的13.3%）。

这些提升使得DeepSeek-V3.1能够支持多种Code Agent框架，开发者能够自己搭建智能体，处理更为复杂的任务。

技术规格：强大性能背后的硬件创新

DeepSeek-V3.1保持了671B的总参数量，但每个token仅激活37B参数（5.5%的激活率），采用混合专家（MoE）架构，在保证性能的同时大幅提升了计算效率。

添加图片注释，不超过 140 字（可选）

模型的上下文窗口从64K扩展到128K tokens，约相当于10万个中文字符或96,000个英文单词，使其能够处理整本书、长篇学术论文或大型代码库。

训练数据方面，V3.1在V3基础上增加了840B tokens的继续预训练，使用了UE8M0 FP8 Scale的参数精度，并对分词器和chat模板进行了较大调整。

开源生态与API升级：降低开发门槛

DeepSeek坚持开源策略，V3.1的Base模型与后训练模型已在Hugging Face与魔搭平台开源，采用MIT许可证，允许商业使用与修改。

API接口也同步升级，除了支持128K上下文外，Beta接口还增加了strict模式的Function Calling，确保输出的Function满足schema定义，Function Calling 让模型能够调用外部工具，来增强自身能力。

这里以获取用户当前位置的天气信息为例，展示了使用 Function Calling 的完整 Python 代码。 from openai import OpenAI def send_messages(messages): response = client.chat.completions.create( model="deepseek-chat", messages=messages, tools=tools ) return response.choices[0].message client = OpenAI( api_key="<your api key>", base_url="https://api.deepseek.com", ) tools = [ { "type": "function", "function": { "name": "get_weather", "description": "Get weather of a location, the user should supply a location first.", "parameters": { "type": "object", "properties": { "location": { "type": "string", "description": "The city and state, e.g. San Francisco, CA", } }, "required": ["location"] }, } }, ] messages = [{"role": "user", "content": "How's the weather in Hangzhou?"}] message = send_messages(messages) print(f"User>\t {messages[0]['content']}") tool = message.tool_calls[0] messages.append(message) messages.append({"role": "tool", "tool_call_id": tool.id, "content": "24℃"}) message = send_messages(messages) print(f"Model>\t {message.content}")

并增加了对Anthropic API格式的支持，让大家可以轻松将 DeepSeek-V3.1 的能力接入 Claude Code 框架。

为了满足大家对 Anthropic API 生态的使用需求， DeepSeek的 API 新增了对 Anthropic API 格式的支持。通过简单的配置，即可将 DeepSeek 的能力，接入到 Anthropic API 生态中。将 DeepSeek 模型接入 Claude Code 安装 SMALL_FAST_MODEL=deepseek-chat 进入项目目录，执行 claude 命令，即可开始使用了。 cd my-project claude 通过 Anthropic API 调用 DeepSeek 模型安装 Anthropic SDK pip install anthropic 配置环境变量 export ANTHROPIC_BASE_URL=https://api.deepseek.com/anthropic export ANTHROPIC_API_KEY=${YOUR_API_KEY} 调用 API import anthropic client = anthropic.Anthropic() message = client.messages.create( model="deepseek-chat", max_tokens=1000, system="You are a helpful assistant.", messages=[ { "role": "user", "content": [ { "type": "text", "text": "Hi, how are you?" } ] } ] ) print(message.content)

价格政策方面，从2025年9月6日凌晨起，DeepSeek将调整API接口调用价格，并取消夜间时段优惠。

应用场景：从编程到多语言的广泛适用

DeepSeek-V3.1在多语言支持能力上有显著优化，目前能处理超过100种语言，尤其对亚洲语言和资源较少语种的运用进行了优化。

应用场景包括：

- 长文档分析：学术论文、法律文件、技术手册；
- 程序开发：尤其是前端与大型代码库维护；
- 教育辅导：STEM领域个性化教学；
- 商业智能：复杂数据分析与报告生成；
- 内容创作：多语内容生成与翻译。

DeepSeek-V3.1的问世不仅是一次技术迭代，更是通向智能体未来的桥梁。其混合推理架构让一个模型同时具备快速响应和深度思考两种能力，而大幅增强的Agent功能则使开发者能够构建真正实用的智能体应用。

随着API生态的完善和开源模型的释放，DeepSeek-V3.1正在降低高级AI能力的获取门槛，让每个开发者都能站在智能体时代的前沿。

 
更多transformer，VIT，swin tranformer
参考头条号：人工智能研究所
v号：人工智能研究Suo, 启示AI科技

动画详解transformer 在线教程

添加图片注释，不超过 140 字（可选）

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

企业大模型落地的“三级火箭”策略：从0到1，再到100的可复用打法

2025大模型落地实战指南：三级火箭框架助企业盈利面对70%大模型项目止步PPT或试点的困境，本文提出“三级火箭”落地框架：诊断级（0-3个月）：通过42项指标的AI成熟度雷达图筛除80%伪需求；试点级（3-6个月）：采用“API+微调+MVP”组合，试错成本降低70%；生态级（6-12个月）：通过混合云和MaaS（模型即服务）实现持续盈利。核心工具与案例： Notion模板、行业红线指

2048 AI社区

Dify社区版使用分享

本文介绍了Dify社区版的使用方法，重点讲解了大模型配置和工作室创建流程。内容涵盖：1）Dify社区版的核心功能和适用场景；2）详细配置ollama本地大模型的步骤，包括模型安装和Dify集成；3）如何在Dify中创建聊天助手工作室，设置提示词、知识库和变量等。文章提供了系列教程链接，适合开发者快速上手这一开源AI应用开发平台，实现从模型部署到应用开发的全流程。

2048 AI社区

《QT 108好类》之4 QString类

Qt的QString类提供了强大的字符串处理功能。它支持Unicode编码，采用隐式共享机制提高内存效率，具有跨平台兼容性，并包含200多个成员函数。主要功能包括：多种构造方式、字符串拼接（append/prepend/+运算符/arg函数）、修改（insert/remove/replace）、格式化（sprintf）、空白处理（trimmed/simplified）、查找（indexOf/con