DeepSeek V3.1 的发布是一次低调的活动,于 2025 年 8 月 19 日通过公司官方微信群组宣布 。尽管发布方式安静,但 AI 社区的反应迅速,立即引发了热烈的讨论和猜测。

DeepSeek V3.1的模型权重已经在Hugging Face [1]上开源,但暂时没有更新模型卡,需要等待模型卡更新后,才能了解到官方的更新详情。

从已有的信息来看,DeepSeek V3.1的更新主要包括:

1. 支持更长的上下文长度,从原来的64k扩展到128k

2. 混合推理模式,把思考模型(R1)与非思考模型(V3)合并为一个模型

根据网友提供的客服回复[2],确实也证实了这一点,双模型合并为一个模型。

10d13d26d132057304f55ca04baae873.png

但也有网友反馈[3],DeepSeek V3.1在结构化输出Json字符串时,输出空结果的概率提高了

此外,型配置中新增了几个特殊令牌,包括 <think> 和 <search>。这引发了人们的推测,认为这些令牌是“用于内部思维链和检索/浏览集成的第一级钩子” 。该模型可能被设计成可以根据任务自动选择推理深度,从而减少不必要的推理开销 。

DeepSeek V3.1具体的更新内容还需要等待官方model card更新后才可得知。DeepSeek V3.1是DeepSeek V3首个小版本的更新,我们期待DeepSeek后续能够给我们带来更多的惊喜。

[1] deepseek-ai/DeepSeek-V3.1-Base at main

[2] deepseek-ai/DeepSeek-V3.1-Base · 今天去问了官方客服,这个似乎是融合模型了,期待官方的模型卡

[3]deepseek-ai/DeepSeek-V3.1-Base · 「Feedback」Deepseek V3.1 API 似乎在 JSON Output 上输出空结果的概率提高了

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐