MIAOYUN | 每周AI新鲜事儿（12.05-12.12）

12月11日，腾讯元宝AI助手推出「总结QQ群未读消息」功能，通过AI技术提炼成要点明确、结构清晰的总结报告。首次使用需完成授权，可一分钟梳理大量聊天记录，自动归类热聊话题、提取与用户相关的提醒（如@事项、福利活动），还能汇总特定群友发言、打包群内分享的图片和文件，提供数字索引直达原文。此外，「元宝AI」还可添加为QQ好友，具备查信息、读文件等功能，其电脑版和浏览器插件已上线。

秒云

900人浏览 · 2025-12-15 10:42:29

秒云 · 2025-12-15 10:42:29 发布

本周全球科技企业及团队在AI领域动作频频，腾讯、阿里、微软、智谱、美团等企业相继推出或开源涵盖语言、语音、图像、代码、情感等类型的多款大模型；阿里、商汤及Linux基金会发布开源框架、视频生成工具并推动行业标准统一；商汤、Adobe、腾讯同步新增数字人驱动、跨平台设计、群消息总结等AI工具；与此同时，NVIDIA发布新版CUDA工具包、美国调整芯片出口政策、全球首个太空LLM诞生，一起来回顾本周发生的AI新鲜事儿吧！

AI大模型

腾讯发布混元2.0语言模型，含「HY 2.0 Think」和「HY 2.0 Instruct」

12月5日，腾讯混元发布最新版语言模型「Tencent HY 2.0 Think」和「Tencent HY 2.0 Instruct」，采用MoE架构，总参数406B，激活参数32B，支持256K上下文窗口，推理能力与效率居国内顶尖行列，在数学科学推理、指令遵循、代码与智能体等场景表现突出，且通过双阶段强化学习策略优化文本创作质感，减少“AI味”，目前已接入元宝、ima等腾讯AI原生应用，腾讯云同步开放API及平台服务。

参考：混元2.0上线：推理能力与效率业界领先，用户体验与实用性展现差异化优势

微软开源0.5B轻量实时TTS模型「VibeVoice-Realtime-0.5B」

12月6日，微软低调开源轻量级实时TTS模型「VibeVoice-Realtime-0.5B」，该模型仅0.5B参数，以Python代码开源，首包延迟约300ms，具备边输入边朗读、长文不卡顿、支持最多4个角色自然对话、情绪识别表达、10-90分钟上下文记忆及中英文支持等特点，在准确性和自然度上表现出色，可应用于AI智能助手、会议助手、游戏NPC等多个场景，提供了安装部署教程与HF在线Demo，为需要低延迟、自然语音的项目提供了优质选择。

参考：微软又上大分！刚刚开源一款 0.5B 轻量级实时 TTS 模型，还能边想边说！

美团LongCat团队开源6B参数「LongCat-Image」图像生成模型

12月8日，美团LongCat团队发布并开源6B参数「LongCat-Image」图像生成模型，该模型采用文生图与图像编辑同源架构及渐进式学习策略，在ImgEdit-Bench（4.50分）、GEdit-Bench中英文（7.60/7.64分）等图像编辑基准测试中达到开源SOTA水平。同时全面开源文生图多阶段模型与图像编辑模型，推出LongCat APP（含24个图片玩法模板）及LongCat.ai网页端，为开发者和用户提供低门槛的图像创作与编辑工具。

参考：美团发布 LongCat-Image 图像生成模型，编辑能力登顶开源SOTA

Mistral AI推出「Devstral 2」开源代码模型及原生CLI工具「Mistral Vibe」

12月9日，法国AI公司Mistral AI推出新一代开源代码模型「Devstral 2」系列和开源CLI工具「Mistral Vibe」。该系列模型包含123B和24B两种参数版本，前者是针对代码智能体的SOTA开放模型，在SWE-bench Verified上获72.2%的高分，成本效率比「Claude Sonnet」高出7倍，后者可在消费级硬件本地部署且性能比肩更大模型，两款模型均支持本地部署、自定义微调，并推出修改版MIT许可证限制大企业免费使用。「Mistral Vibe」能实现端到端自动化，支持在终端或IDE中通过自然语言等探索、修改代码库等功能。

参考：Mistral再开源！发布代码模型Devstral 2及原生CLI，但大公司被限制商用

阿里通义千问全面升级语音合成模型「Qwen3-TTS」

12月10日，阿里通义千问语音合成模型「Qwen3-TTS」全面升级，支持更丰富的音色，并增强了多语种、多方言能力，使韵律和语速更加自然拟人。该模型通过API向全球开发者免费开放，提供49种多样化音色，涵盖不同性别、年龄、地域及角色设定，可一键切换用于播客、游戏NPC、智能客服等场景。支持10种主流语言及10种中国方言（含粤语、四川话），保留地道口音特征，在国际评测集上词错误率优于MiniMax与ElevenLabs，准确率提升约12%。

参考：Qwen3-TTS全面升级：声情并茂，语通八方

阿里通义千问升级原生全模态大模型「Qwen3-Omni」

12月11日，阿里通义千问还升级了「Qwen3-Omni-Flash-2025-12-01」模型，此次升级实现了音视频交互体验、系统提示控制能力、多语言遵循能力的显著提升，语音生成更拟人流畅，在文本理解与生成、语音理解、图像理解、视频理解等客观性能指标上也全面跃升，大幅超越前代产品及多款同类模型，真正做到 “声形意合，令出智随”，为用户带来前所未有的自然、精准、生动的AI交互体验。

参考：Qwen3-Omni新升级:声形意合，令出智随！

NatureSelect团队发布首个情感大模型「Echo-N1」

12月11日，NatureSelect（自然选择）的研究团队Team Echo 发布了首个情感大模型「Echo-N1」，仅32B参数，却通过创新的情感模型训练方法（含生成式奖励模型、EPM情感物理模型、拟人化认知沙盒等核心技术），解决了传统模型在情感领域无法量化、易出现Reward Hacking、评测失真等问题，在多轮情感陪伴任务中胜率达46.7%，远超千亿参数的商业模型「Doubao 1.5」的13.3%。

参考：大模型「有心了」：首个情感大模型Echo-N1，32B胜过200B

智谱多模态开源周来袭，多款视觉、语音模型及视频生成核心技术集中开源

12月8日至12月12日，智谱多模态开源周开源多款新模型与技术，分别是“眼睛看得见”的「GLM-4.6V」系列视觉理解模型，到“手能动起来”的「AutoGLM」，再到“语音听得懂”的「GLM-ASR」系列语音识别模和“话能说出口”的「GLM-TTS」工业级语音合成系统，最后再开源4项面向视频生成的核心技术成果「SCAIL」、「RealVideo」、「Kaleido」与「SSVAE」。

智谱开源「GLM-4.6V」系列多模态大模型，原生工具调用赋能多场景

12月8日，智谱开源「GLM-4.6V」系列多模态大模型（含106B-A12B云端基础版与9B本地轻量版），训练时上下文窗口提升至128K tokens，原生融入多模态工具调用能力，在视觉理解精度等关键能力上达同参数规模SOTA，支持智能图文混排、识图购物、前端复刻等多场景，价格较上一代降价50%且轻量版免费，同步开放模型权重、推理代码及在线调用能力。

参考：GLM-4.6V开源：从看懂图片到自动完成任务

智谱开源「AutoGLM」，旨在让AI“会用手机” 并开放全套实用资源

12月9日，智谱开源历经32个月探索的「AutoGLM」手机Agent全套能力，核心目标是让AI真正学会“使用手机”，从最初解决“乱点”问题、成为全球首个具备Phone Use能力的AI Agent，到完成人类历史上首个由AI独立操作发出的手机红包，再到推出AutoGLM 2.0并通过云手机模式保障安全与隐私隔离，已实现多场景稳定应用。此次开源以MIT许可开源代码以Apache-2.0许可，包括训练好的核心模型、Phone Use能力框架与工具链、50+高频中文App可跑通的Demo和针对Android的适配层等全套实用资源，推动Agent开源生态建设。

参考：AutoGLM开源：每台手机，都可以成为AI手机

智谱发布并开源「GLM-ASR」系列语音识别模型及桌面端「智谱AI输入法」

12月10日，智谱发布并开源「GLM-ASR」系列语音识别模型，含云端的「GLM-ASR-2512」和1.5B参数的开源端侧模型「GLM-ASR-Nano-2512」，后者达开源SOTA水平且部分表现优于闭源模型；并推出基于该系列模型打造的桌面端「智谱AI输入法」，该输入法具备语音转文字、翻译、改写等功能，支持一体化编辑、人设切换、Vibe Coding、耳语捕捉及热词导入等特色，可满足多场景使用需求。

参考：GLM-ASR开源，智谱AI输入法发布

智谱上线并开源「GLM-TTS」工业级语音合成系统

12月11日，智谱上线并开源「GLM-TTS」工业级语音合成系统，仅需3秒语音样本即可复刻说话人音色与说话习惯，其架构采用两阶段生成，引入基于GRPO的强化学习方案，仅用10万小时训练数据（远低于行业主流商用模型），预训练单机4天即可达成开源SOTA“发音准确度”与高“音色还原度”，精品音色LORA与强化学习单机1天可训，以更低价获行业领先MOS分数，适配教育评测、电子书、有声客服等多场景需求。

参考：GLM‑TTS开源：3秒复刻，情绪万变

智谱开源4项面向视频生成的核心技术成果

12月12日，智谱开源4项面向视频生成的核心技术成果，对准当前视频生成领域的三大难点：精细化可控生成、复杂时空结构建模，以及大规模训练成本控制。技术成果包括影视级角色动画生成框架「SCAIL」、实时流式视频生成系统「RealVideo」仅2-3秒首响延迟、多主体视频生成框架「Kaleido」与频谱结构化变分自编码器VAE「SSVAE」，3倍收敛加速。

参考：智谱多模态开源周收官：四项视频生成核心技术开源

AI Agent

阿里开源「AgentScope Java v1.0」，赋能Java开发者构建企业级智能体

12月9日，阿里巴巴发布「AgentScope Java v1.0」开源框架，面向Java开发者提供企业级Agentic应用构建能力，采用ReAct（推理-行动）开发范式，支持高效工具调用与实时介入控制，具备安全沙箱、上下文工程、高效集成等企业级特性及完善的开发优化生态，覆盖智能体开发、部署、调优全生命周期，未来将持续优化上下文工程、支持全模态等。

参考：AgentScope Java v1.0 发布，让 Java 开发者轻松构建企业级 Agentic 应用

商汤科技发布「Seko 2.0」多剧集AI视频Agent

12月10日，商汤科技发布「Seko 2.0」多剧集AI视频Agent，可通过一句话灵感或剧情梗概，自动规划策划案、剧本和分镜，一键生成最多100集连贯内容，且跨集人物形象、场景风格、故事设定保持高度一致，还具备丰富的画风选择、自定义角色形象功能，支持多种主流图像生成模型，用户可通过左右分栏界面灵活修改剧本、分镜、配音等细节，还能多任务同时进行生成下一集，支持导出完整视频及全部分镜画面。

参考：手把手教你分分钟制作100集AI动画片商汤Seko2.0 多剧集AI视频 Agent 评测

Linux基金会宣布推出智能体AI基金会「AAIF」，统一Agent标准

12月10日，Linux基金会宣布推出智能体AI基金会「AAIF」（Agentic AI Foundation），定位为AI智能体开源项目的中立托管平台，汇聚OpenAI、Anthropic、Google、微软、AWS等全球科技巨头，以Anthropic的MCP协议、OpenAI的AGENTS.md规范及Block的goose框架为核心，三者协同以实现AI智能体与外部工具交互标准化，推动跨系统运行能力的统一。

参考：Agentic AI基金会成立，智能体的“Linux时刻”来了！MCP、AGENTS.md集体上车，下一代AI技术栈PARK出世

AI 工具

商汤科技发布实时语音驱动数字人技术「SekoTalk」

12月9日，商汤科技发布实时语音驱动数字人技术「SekoTalk」，通过Phased DMD分布匹配蒸馏技术和LightX2V开源实时视频生成推理框架等创新，在8卡服务器上实现25fps生成速度与3.5s首帧延迟的生成速度，支持多语言、多人精准声形同步及超长时稳定生成。该技术今年8月上线后已应用于多款产品，产出数十万作品及超2000万播放爆款，其免费在线体验平台支持2人以上对口型及2分钟长视频生成，同时相关技术已贡献至开源社区。

参考：推理速度25fps，首帧延迟3.5s！商汤SekoTalk：让实时语音数字人更近一步

商汤科技升级「商汤方舟」旗舰平台，以双核心体系革新视觉AI

12月9日，商汤科技发布旗舰平台「商汤方舟」的全面升级路径，以“通专融合”（轻量小模型与通用大模型多级协同）和“智训闭环”（全流程自动化模型生产）革新视觉算法生产方式，构建“感知-决策-行为”一体化视觉智能体平台，破解传统视觉AI痛点，目前已深入城市安全、交通、制造等十余类关键场景。

参考：视觉AI 2.0启幕，商汤方舟融合视觉及大模型能力赋能产业

Adobe推出适用于ChatGPT的Photoshop、Express和Acrobat

12月10日，Adobe在官网宣布推出适用于ChatGPT的Photoshop、Express和Acrobat工具，用户可直接在聊天机器人中免费使用这些工具，无需离开平台，能通过文字描述用PS调整图像参数、应用风格化效果或编辑特定区域等，借助Express设计信函、利用Acrobat编辑PDF。不过ChatGPT版PS不包含生成式填充等高级功能。此次合作是Adobe转型举措，也是OpenAI打造数字服务“入口”的一部分，此前OpenAI已于10月推出应用集成功能，Spotify、Zillow、Figma等为首批加入的公司。

参考：修图神器PS正式搬进ChatGPT

腾讯元宝AI助手推出「总结QQ群未读消息」功能

参考：[QQ群未读消息]元宝总结好了

市场动态

NVIDIA正式发布「CUDA Toolkit 13.1」，全面提升GPU编程效率与兼容性

12月6日，NVIDIA正式发布「CUDA Toolkit 13.1」，这是20年来最大规模更新，核心是编程模型CUDA Tile，支持更高抽象层级编写算法、屏蔽张量核心等硬件细节，且兼容未来GPU架构，配CUDA Tile IR虚拟指令集与cuTile Python DSL，暂支持Blackwell系列。同时开放Green Context运行时API实现细粒度GPU资源分配、升级多进程服务（增内存局部性优化分区等）、优化cuBLAS等数学库性能、强化Nsight系列开发者工具，并重写编程指南，全面提升GPU编程效率、兼容性与易用性。

参考：算力十年狂飙100000倍，他却每天担心破产！黄仁勋亲述：如何用“30天危机感”逆袭万亿AI市场

美国允许NVIDIA H200、AMD MI308出口中国，需支付25%销售分成

12月8日，美国总统特朗普宣布将允许NVIDIA向中国大陆出口H200（需支付25%销售分成），AMD同步获准出口MI308；H200性能超H20但因 B200上线已相对落后，其出口需完成后续政策流程，对适配Hopper架构的中国客户有实际价值，此前压制的需求有望释放，且与国产推理芯片不直接冲突，对国产生态影响有限。

参考：特朗普：批准对华出售，但要抽成25%！

全球首个太空AI诞生！H100在轨炼出LLM，科技巨头竞逐太空算力

12月11日，华盛顿Starcloud公司搭载NVIDIA H100芯片（算力比以往太空GPU强100倍）的「Starcloud-1」卫星成功训练出全球首个太空LLM，完成了基于Karpathy nano-GPT（用莎士比亚语料训练）的训练与推理，还成功运行Google Gemma模型并发出太空AI首条问候。此举旨在利用太空太阳能打造5GW低成本轨道数据中心，缓解地球能源压力，Google、SpaceX等巨头也纷纷布局太空算力赛道。

参考：全球首个太空AI诞生，H100在轨炼出！马斯克爆赞