亲测DeepSeekV3.1：除了拉长上下文，还有这些新变化

V3.1没发模型卡呢，就在抱抱脸冲到了热搜第二，网友们跟开了上帝视角似的：1.Reddit 有人测，它在 aider 上拿了 71.6%，成了非推理模型的 “顶流”（SOTA）。测 “旋转六边形里弹跳的球”，V3.1 画的轨迹更贴合实际，V3 就有点 “想当然” 了。由“专”到“传”，必定要经过“转”吗？V3.1 直接换了路子，开头就来 “如三重天堑横亘于当代文脉之上，勾勒出思想流转的崎岖地貌”，

AI导航猿

916人浏览 · 2025-08-29 18:44:54

AI导航猿 · 2025-08-29 18:44:54 发布

DeepSeek V3.1 悄悄上线这事儿，估计不少人已经刷到了。

官方就提了俩重点：上下文拉到 128K，支持更多张量格式。但作为天天跟模型打交道的人，我摸着良心说：这波更新的料，可比官方说的多太多了。

我专门拉着 V3 和 V3.1 “同场竞技”，从编程、写作到冷知识扒了个遍。还发现个小细节：网页端的 “深度思考 (R1)” 悄悄改成了 “深度思考”。手机端还在慢慢追更。

现在 V3.1 Base 能在抱抱脸下，网页、APP、小程序也能直接用，想上手的朋友不用等了。

一、给俩模型出了套 “期末卷”，结果挺意外既然是新版本，总得拉出来遛遛。正好赶上开学季，我干脆给它们出了套 “五科试卷”，从硬实力到软实力都测了测 ——【编程】V3.1 像带了 “细节雷达”，一步到位是真的爽之前问 V3：“用 Python 把 GIF 压到 10M 以下。”它给的代码能用，但实测下来，我拍的那个 18.3MB 的机器人 GIF，压完还是超 10M，得再跑一次才行。

换成 V3.1，同样的问题，它直接把 “检查是否为 GIF 格式”“激进压缩策略” 都加进去了。

更绝的是，连依赖库怎么装、命令行怎么输、代码原理是啥，都写得明明白白，跟手把手教学似的。我稍微调了下调适 Jupyter 环境的小细节，跑一遍就压到 10M 以内了，效率直接翻倍。|【写作】从 “理科报告” 到 “文科散文”，风格大变拿今年上海高考作文题测试的：有学者用“专”“转”“传”概括当下三类文章：“专”指专业文章；“转”指被转发的通俗文章；“传”指获得广泛传播的佳作，甚至是传世文章。他提出，专业文章可以变成被转发的通俗文章，而面对大量“转”文，读者又不免期待可传世的文章。由“专”到“传”，必定要经过“转”吗？请联系社会生活，写一篇文章，谈谈你的认识与思考。要求：（1）自拟题目；（2）不少于800字。V3 写的更像学术分析，逻辑是硬的，但读着有点 “人机感”，平铺直叙少了点灵气。

V3.1 直接换了路子，开头就来 “如三重天堑横亘于当代文脉之上，勾勒出思想流转的崎岖地貌”，连例子都用了 “司马迁《史记》的'藏之名山'” 这种有画面感的，情绪和文采都在线。

说真的，这俩放一起，像一个理科生和一个文科生在答卷，你更吃哪种风格？【数学】答案都对，但 “解题步骤” 藏着用心考了全国一卷那道双曲线题：“虚轴长是实轴长的√7 倍，求离心率”。答案都是 2√2，没毛病。但 V3 的步骤更像 “公式堆彻”，直接列离心率 e 和 a、b 的关系；

V3.1 会先解释 “虚轴长 = 2b，实轴长 = 2a”，把基础概念铺垫清楚，哪怕是数学小白也能看明白 —— 这波贴心了。

【翻译】长难句更丝滑，但偶尔会 “漏词”拿 Nature 那篇《独特毛颚动物体型的基因组起源》摘要测试，全是专业名词。V3 习惯用括号补充解释，比如 “（即 XXX 基因）”，读着有点碎；

V3.1 处理长难句更顺，把复杂结构拆得更自然。不过它漏译了 “several” 这个小词 —— 看来再强的模型也有 “走神” 的时候。

【冷知识】构树果实到底是核果还是瘦果？吵起来了问了个偏门的：“构树单个果实是核果还是瘦果？”V3 和 V3.1 都说是核果

但 V3.1 回答时突然蹦出个 “conclusion”，还跑偏到 “聚花果” 的话题上，估计是卡壳了。

有意思的是，小红书有博主解剖后说是瘦果 —— 这题看来得留给植物学家掰扯了。

二、网友扒出的瓜：性价比炸了，还藏着小秘密

V3.1没发模型卡呢，就在抱抱脸冲到了热搜第二，网友们跟开了上帝视角似的：1.Reddit 有人测，它在 aider 上拿了 71.6%，成了非推理模型的 “顶流”（SOTA）。有人算过：比 Claude Opus 4 得分高 1%，价格却便宜 68倍—— 这性价比，谁看了不喊 “真香”？2.还有人发现，它在 SVGBench 上的表现：V3.1 > V3.1（思考）> R1 0528。有人猜是加了 4 个特殊 token 的原因，而且关了搜索也会自动搜，这操作挺迷的。3.物理理解也变强了。测 “旋转六边形里弹跳的球”，V3.1 画的轨迹更贴合实际，V3 就有点 “想当然” 了。当然吐槽也不少，主要集中在 API 不稳定上，已经有人在线开骂了 —— 只能说新版本总有磨合期。最后说个大家关心的：V3.1 都来了，R2啥时候安排？我也蹲一个。

参考链接放这儿了，想深扒的自取：

[1]https://x.com/deepsseek/status/1957886077047566613

[2]https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base

[3]DeepSeek V3.1 just dropped — and it might be the most powerful open AI yet | VentureBeat

[4]https://old.reddit.com/r/LocalLLaMA/comments/1muq72y/deepseek_v31_scores_716_on_aider_nonreasoning_sota/

用过 V3.1 的朋友，来评论区说说你的体验？没试过的赶紧去瞅一眼，记得点赞转发，让更多人看到这波实测～