谷歌 Gemini 3+Nano Banana Pro 双杀！阿里字节蚂蚁新品集体破局

在多项测试中表现优异，SWE - Bench Verified 测试准确率 77.9%，Terminal - Bench 2.0 测试准确率 58.1%，均优于谷歌 Gemini 3 Pro，目前已集成到多款开发环境，助力开发者大幅提升工作效率。该 APP 依托阿里在大模型领域的技术积累，聚焦开源优势，为用户提供智能问答等基础功能。搭载该模型的机器人可在办公室制作咖啡、组装纸箱等，能连续一整天制作

九章云极DataCanvas

1179人浏览 · 2025-11-21 11:30:14

九章云极DataCanvas · 2025-11-21 11:30:14 发布

Volume1 AI周刊

2025/11/15-11/21

1. 谷歌 Gemini 3 携图像子模型 Nano Banana Pro 同步发布，通用 AI 与图像生成双突破

2. 阿里千问 APP 全平台上线，开源 AI 助手对标主流产品

3. 马斯克 xAI 推出 Grok 4.1，通用能力实现显著提升

4. OpenAI 发布 GPT-5.1-Codex-Max，编程任务性能表现突出

5. Meta 发布 SAM 3D 模型，基于 SAM 系列拓展 3D 重建应用

6. 字节 Lumine 正式亮相，首款 3D 开放世界通用 AI 智能体落地

7. VLA 模型 π*0.6 发布，机器人可完成办公室场景实操任务

8. DPAI Arena 上线，成为首个开源 AI 编程基准测试平台

9. 蚂蚁集团推出 “灵光” APP，全模态通用 AI 助手正式面世

10. 李飞飞与 LeCun 观点呼应，80 分钟深度对谈探讨 AGI 理性发展

九章智算云⾯向AI开发者和AI应⽤⽅，提供⾼性能GPU算⼒，⽀持主流⼤模型⼀键部署、GPU弹性调度，让AI开发真正‘所想即所算’。

我们的核⼼使命：降低⼤模型训练与推理的算⼒⻔槛，实现算⼒普惠。

已⽀持场景：⼤模型训练和微调，模型推理、科研实验、Agent开发与部署等。

高效、稳定、成本可控的AI算力，从这里开始：https://www.alayanew.com/?utm_source=online&utm_campaign=csdn

1. 谷歌 Gemini 3 携图像子模型 Nano Banana Pro 同步发布，通用 AI 与图像生成双突破

谷歌正式推出新一代通用 AI 模型 Gemini 3，同步亮相基于其架构打造的图像生成与编辑模型 Nano Banana Pro。Gemini 3 凭借博士级推理能力、原生多模态处理及 100 万 token 超长上下文窗口，在多项基准测试中登顶，可实现复杂编程、长文档分析等多元任务，已开放给 Gemini 应用及搜索订阅用户使用。Nano Banana Pro 则聚焦工作室级图像创作，支持 4K 高清输出与精准文本渲染，能融合多素材创作并提供丰富编辑功能。两款模型均已开放开发者接入，未来还将集成至 Google Workspace 等平台，进一步拓展应用场景。

2. 阿里千问 APP 全平台上线，开源 AI 助手对标主流产品

阿里千问 APP 实现全平台上线，作为全球首款开源 AI 助手，其核心定位是对标 ChatGPT 等主流产品。该 APP 依托阿里在大模型领域的技术积累，聚焦开源优势，为用户提供智能问答等基础功能。其上线填补了开源 AI 助手在全平台布局的空白，降低了用户使用开源智能助手的门槛，同时也推动了开源 AI 领域的竞争与创新。

3. 马斯克 xAI 推出 Grok 4.1，通用能力实现显著提升

马斯克旗下 xAI 推出的 Grok 4.1，较前代实现通用能力的大幅跃升。该模型延续 xAI 对通用智能的探索方向，虽未披露具体基准测试数据，但着重强化了多场景适配与任务处理的稳定性。其核心优势体现在对复杂指令的理解和执行上，进一步缩小了与行业顶尖通用 AI 模型的差距，为 xAI 在通用人工智能赛道的竞争夯实基础，也为用户带来更优质的智能交互体验。

4.OpenAI 发布 GPT-5.1-Codex-Max，编程任务性能表现突出

OpenAI 发布编程模型 GPT - 5.1 - Codex - Max，将替代旧版成为 Codex 界面默认模型。该模型引入 “压缩” 机制，可连续工作超 24 小时不降低性能，token 效率提升约 30%。在多项测试中表现优异，SWE - Bench Verified 测试准确率 77.9%，Terminal - Bench 2.0 测试准确率 58.1%，均优于谷歌 Gemini 3 Pro，目前已集成到多款开发环境，助力开发者大幅提升工作效率。

5.Meta 发布 SAM 3D 模型，基于 SAM 系列拓展 3D 重建应用

Meta 同步推出 SAM 3 及开源的 SAM 3D 模型。SAM 3D 含两个子模型，SAM 3D Objects 可实现单张图像的 3D 形状、纹理等重建，SAM 3D Body 专注 3D 人体姿态估计。该模型依托 SAM 系列技术积累，标注近百万张图像生成大量网格模型，在人类偏好测试中优势显著。其技术将融入 Instagram 创作工具等，还计划通过平台向公众开放体验。

6.字节 Lumine 正式亮相，首款 3D 开放世界通用 AI 智能体落地

字节 Seed 团队推出 3D 开放世界通用 AI 智能体 Lumine。它经大量人类游戏数据预训练，可实时感知并行动，能自主完成《原神》长达五小时的主线剧情，还可无微调通关《崩坏：星穹铁道》相关主线。该智能体实现 2D 界面与 3D 世界操作统一，可完成战斗、解谜等多样任务，为 3D 开放世界 AI 智能体的场景拓展提供了范例。

**7. VLA 模型 π*0.6 发布，机器人可完成办公室场景实操任务**

美国 PI 公司发布 VLA 模型 π*0.6。该模型采用 Recap 方法，通过演示训练、纠错指导和自主经验改进提升性能，非衣物处理任务成功率达 90%。搭载该模型的机器人可在办公室制作咖啡、组装纸箱等，能连续一整天制作意式浓缩咖啡，还大幅降低了任务失败率，将具身智能落地到办公场景，推动机器人实操应用的发展。

8.DPAI Arena 上线，成为首个开源 AI 编程基准测试平台

编程工具开发商 JetBrains 推出首个开源 AI 编程基准测试平台 DPAI Arena。该平台突破传统测试局限，支持多编程语言与开发任务评估，首个基准测试为 Spring Benchmark。其采用模块化架构，支持用户引入自有数据集，未来将移交 Linux Foundation 托管。它将为 AI 编程工具提供统一量化的评估标准，助力行业规范发展。

9.蚂蚁集团推出 “灵光” APP，全模态通用 AI 助手正式面世

蚂蚁集团发布全模态通用 AI 助手 “灵光” APP，已登陆安卓与苹果应用商店。该 APP 有三大功能，支持全模态信息输出，其 “闪应用” 功能最快 30 秒可生成小应用，且支持自定义与分享。它依托全代码生成能力和多智能体协作架构，让对话呈现更生动，还能满足用户多样的个性化需求，推动全模态 AI 助手走向日常场景。

10.李飞飞与 LeCun 观点呼应，80 分钟深度对谈探讨 AGI 理性发展

在 Lenny Rachitsky 的新一期播客中，李飞飞深入回顾了 AI 从寒冬走向如今爆发状态的历程。她提及 2015 - 2016 年不少科技公司还避谈 “人工智能”，而这一转变的关键源于她主导的 ImageNet 项目。该项目打造了含 1500 万张图像、22000 个概念的数据库，2012 年辛顿团队借助这些数据与两块游戏 GPU，结合神经网络取得突破性成果。她强调，大数据、神经网络和 GPU 这一现代 AI “黄金配方”，至今仍驱动着 ChatGPT 等主流模型发展。同时她直言 AGI 更像营销术语而非科学术语，指出当前 AI 欠缺空间智能，难以完成数视频中椅子数量等基础任务。

高效、稳定、成本可控的AI算力，从这里开始：https://www.alayanew.com/?utm_source=online&utm_campaign=csdn

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

封装一个和AIGC 相关的 socket包

本文提出了一种面向AIGC场景的高可用Socket封装方案，采用分层架构设计：1）核心连接层处理底层Socket连接与重连机制；2）协议解析层适配多种AIGC协议格式；3）业务服务层管理会话上下文和消息分发；4）API层提供简洁的开发者接口。方案重点解决了流式响应处理、多模态消息支持、会话状态保持等AIGC特有需求，通过自动重连、心跳检测、错误分类等机制保障稳定性，并采用插件化设计支持扩展。该架构