亲测DeepSeekV3.1:除了拉长上下文,还有这些新变化
V3.1没发模型卡呢,就在抱抱脸冲到了热搜第二,网友们跟开了上帝视角似的:1.Reddit 有人测,它在 aider 上拿了 71.6%,成了非推理模型的 “顶流”(SOTA)。测 “旋转六边形里弹跳的球”,V3.1 画的轨迹更贴合实际,V3 就有点 “想当然” 了。由“专”到“传”,必定要经过“转”吗?V3.1 直接换了路子,开头就来 “如三重天堑横亘于当代文脉之上,勾勒出思想流转的崎岖地貌”,
DeepSeek V3.1 悄悄上线这事儿,估计不少人已经刷到了。
官方就提了俩重点:上下文拉到 128K,支持更多张量格式。但作为天天跟模型打交道的人,我摸着良心说:这波更新的料,可比官方说的多太多了。
我专门拉着 V3 和 V3.1 “同场竞技”,从编程、写作到冷知识扒了个遍。 还发现个小细节:网页端的 “深度思考 (R1)” 悄悄改成了 “深度思考”。 手机端还在慢慢追更。
现在 V3.1 Base 能在抱抱脸下,网页、APP、小程序也能直接用,想上手的朋友不用等了。
一、给俩模型出了套 “期末卷”,结果挺意外既然是新版本,总得拉出来遛遛。正好赶上开学季,我干脆给它们出了套 “五科试卷”,从硬实力到软实力都测了测 ——【编程】V3.1 像带了 “细节雷达”,一步到位是真的爽之前问 V3:“用 Python 把 GIF 压到 10M 以下。”它给的代码能用,但实测下来,我拍的那个 18.3MB 的机器人 GIF,压完还是超 10M,得再跑一次才行。
换成 V3.1,同样的问题,它直接把 “检查是否为 GIF 格式”“激进压缩策略” 都加进去了。
更绝的是,连依赖库怎么装、命令行怎么输、代码原理是啥,都写得明明白白,跟手把手教学似的。我稍微调了下调适 Jupyter 环境的小细节,跑一遍就压到 10M 以内了,效率直接翻倍。|【写作】从 “理科报告” 到 “文科散文”,风格大变拿今年上海高考作文题测试的:有学者用“专”“转”“传”概括当下三类文章:“专”指专业文章;“转”指被转发的通俗文章;“传”指获得广泛传播的佳作,甚至是传世文章。他提出,专业文章可以变成被转发的通俗文章,而面对大量“转”文,读者又不免期待可传世的文章。由“专”到“传”,必定要经过“转”吗?请联系社会生活,写一篇文章,谈谈你的认识与思考。要求:(1)自拟题目;(2)不少于800字。V3 写的更像学术分析,逻辑是硬的,但读着有点 “人机感”,平铺直叙少了点灵气。
V3.1 直接换了路子,开头就来 “如三重天堑横亘于当代文脉之上,勾勒出思想流转的崎岖地貌”,连例子都用了 “司马迁《史记》的'藏之名山'” 这种有画面感的,情绪和文采都在线。
说真的,这俩放一起,像一个理科生和一个文科生在答卷,你更吃哪种风格?【数学】答案都对,但 “解题步骤” 藏着用心考了全国一卷那道双曲线题:“虚轴长是实轴长的√7 倍,求离心率”。答案都是 2√2,没毛病。但 V3 的步骤更像 “公式堆彻”,直接列离心率 e 和 a、b 的关系;
V3.1 会先解释 “虚轴长 = 2b,实轴长 = 2a”,把基础概念铺垫清楚,哪怕是数学小白也能看明白 —— 这波贴心了。
【翻译】长难句更丝滑,但偶尔会 “漏词”拿 Nature 那篇《独特毛颚动物体型的基因组起源》摘要测试,全是专业名词。V3 习惯用括号补充解释,比如 “(即 XXX 基因)”,读着有点碎;
V3.1 处理长难句更顺,把复杂结构拆得更自然。不过它漏译了 “several” 这个小词 —— 看来再强的模型也有 “走神” 的时候。
【冷知识】构树果实到底是核果还是瘦果?吵起来了问了个偏门的:“构树单个果实是核果还是瘦果?”V3 和 V3.1 都说是核果
但 V3.1 回答时突然蹦出个 “conclusion”,还跑偏到 “聚花果” 的话题上,估计是卡壳了。
有意思的是,小红书有博主解剖后说是瘦果 —— 这题看来得留给植物学家掰扯了。
二、网友扒出的瓜:性价比炸了,还藏着小秘密
V3.1没发模型卡呢,就在抱抱脸冲到了热搜第二,网友们跟开了上帝视角似的:1.Reddit 有人测,它在 aider 上拿了 71.6%,成了非推理模型的 “顶流”(SOTA)。有人算过:比 Claude Opus 4 得分高 1%,价格却便宜 68倍—— 这性价比,谁看了不喊 “真香”?2.还有人发现,它在 SVGBench 上的表现:V3.1 > V3.1(思考)> R1 0528。有人猜是加了 4 个特殊 token 的原因,而且关了搜索也会自动搜,这操作挺迷的。3.物理理解也变强了。测 “旋转六边形里弹跳的球”,V3.1 画的轨迹更贴合实际,V3 就有点 “想当然” 了。当然吐槽也不少,主要集中在 API 不稳定上,已经有人在线开骂了 —— 只能说新版本总有磨合期。最后说个大家关心的:V3.1 都来了,R2啥时候安排?我也蹲一个。
参考链接放这儿了,想深扒的自取:
[1]https://x.com/deepsseek/status/1957886077047566613
[2]https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base
[3]DeepSeek V3.1 just dropped — and it might be the most powerful open AI yet | VentureBeat
用过 V3.1 的朋友,来评论区说说你的体验?没试过的赶紧去瞅一眼,记得点赞转发,让更多人看到这波实测~
更多推荐
所有评论(0)