MIAOYUN | 每周AI新鲜事儿(12.05-12.12)
12月11日,腾讯元宝AI助手推出「总结QQ群未读消息」功能,通过AI技术提炼成要点明确、结构清晰的总结报告。首次使用需完成授权,可一分钟梳理大量聊天记录,自动归类热聊话题、提取与用户相关的提醒(如@事项、福利活动),还能汇总特定群友发言、打包群内分享的图片和文件,提供数字索引直达原文。此外,「元宝AI」还可添加为QQ好友,具备查信息、读文件等功能,其电脑版和浏览器插件已上线。
本周全球科技企业及团队在AI领域动作频频,腾讯、阿里、微软、智谱、美团等企业相继推出或开源涵盖语言、语音、图像、代码、情感等类型的多款大模型;阿里、商汤及Linux基金会发布开源框架、视频生成工具并推动行业标准统一;商汤、Adobe、腾讯同步新增数字人驱动、跨平台设计、群消息总结等AI工具;与此同时,NVIDIA发布新版CUDA工具包、美国调整芯片出口政策、全球首个太空LLM诞生,一起来回顾本周发生的AI新鲜事儿吧!
AI大模型
腾讯发布混元2.0语言模型,含「HY 2.0 Think」和「HY 2.0 Instruct」
12月5日,腾讯混元发布最新版语言模型「Tencent HY 2.0 Think」和「Tencent HY 2.0 Instruct」,采用MoE架构,总参数406B,激活参数32B,支持256K上下文窗口,推理能力与效率居国内顶尖行列,在数学科学推理、指令遵循、代码与智能体等场景表现突出,且通过双阶段强化学习策略优化文本创作质感,减少“AI味”,目前已接入元宝、ima等腾讯AI原生应用,腾讯云同步开放API及平台服务。
参考:混元2.0上线:推理能力与效率业界领先,用户体验与实用性展现差异化优势
微软开源0.5B轻量实时TTS模型「VibeVoice-Realtime-0.5B」
12月6日,微软低调开源轻量级实时TTS模型「VibeVoice-Realtime-0.5B」,该模型仅0.5B参数,以Python代码开源,首包延迟约300ms,具备边输入边朗读、长文不卡顿、支持最多4个角色自然对话、情绪识别表达、10-90分钟上下文记忆及中英文支持等特点,在准确性和自然度上表现出色,可应用于AI智能助手、会议助手、游戏NPC等多个场景,提供了安装部署教程与HF在线Demo,为需要低延迟、自然语音的项目提供了优质选择。
参考:微软又上大分!刚刚开源一款 0.5B 轻量级实时 TTS 模型,还能边想边说!
美团LongCat团队开源6B参数「LongCat-Image」图像生成模型
12月8日,美团LongCat团队发布并开源6B参数「LongCat-Image」图像生成模型,该模型采用文生图与图像编辑同源架构及渐进式学习策略,在ImgEdit-Bench(4.50分)、GEdit-Bench中英文(7.60/7.64分)等图像编辑基准测试中达到开源SOTA水平。同时全面开源文生图多阶段模型与图像编辑模型,推出LongCat APP(含24个图片玩法模板)及LongCat.ai网页端,为开发者和用户提供低门槛的图像创作与编辑工具。
参考:美团发布 LongCat-Image 图像生成模型,编辑能力登顶开源SOTA
Mistral AI推出「Devstral 2」开源代码模型及原生CLI工具「Mistral Vibe」
12月9日,法国AI公司Mistral AI推出新一代开源代码模型「Devstral 2」系列和开源CLI工具「Mistral Vibe」。该系列模型包含123B和24B两种参数版本,前者是针对代码智能体的SOTA开放模型,在SWE-bench Verified上获72.2%的高分,成本效率比「Claude Sonnet」高出7倍,后者可在消费级硬件本地部署且性能比肩更大模型,两款模型均支持本地部署、自定义微调,并推出修改版MIT许可证限制大企业免费使用。「Mistral Vibe」能实现端到端自动化,支持在终端或IDE中通过自然语言等探索、修改代码库等功能。
参考:Mistral再开源!发布代码模型Devstral 2及原生CLI,但大公司被限制商用
阿里通义千问全面升级语音合成模型「Qwen3-TTS」
12月10日,阿里通义千问语音合成模型「Qwen3-TTS」全面升级,支持更丰富的音色,并增强了多语种、多方言能力,使韵律和语速更加自然拟人。该模型通过API向全球开发者免费开放,提供49种多样化音色,涵盖不同性别、年龄、地域及角色设定,可一键切换用于播客、游戏NPC、智能客服等场景。支持10种主流语言及10种中国方言(含粤语、四川话),保留地道口音特征,在国际评测集上词错误率优于MiniMax与ElevenLabs,准确率提升约12%。
阿里通义千问升级原生全模态大模型「Qwen3-Omni」
12月11日,阿里通义千问还升级了「Qwen3-Omni-Flash-2025-12-01」模型,此次升级实现了音视频交互体验、系统提示控制能力、多语言遵循能力的显著提升,语音生成更拟人流畅,在文本理解与生成、语音理解、图像理解、视频理解等客观性能指标上也全面跃升,大幅超越前代产品及多款同类模型,真正做到 “声形意合,令出智随”,为用户带来前所未有的自然、精准、生动的AI交互体验。
NatureSelect团队发布首个情感大模型「Echo-N1」
12月11日,NatureSelect(自然选择)的研究团队Team Echo 发布了首个情感大模型「Echo-N1」,仅32B参数,却通过创新的情感模型训练方法(含生成式奖励模型、EPM情感物理模型、拟人化认知沙盒等核心技术),解决了传统模型在情感领域无法量化、易出现Reward Hacking、评测失真等问题,在多轮情感陪伴任务中胜率达46.7%,远超千亿参数的商业模型「Doubao 1.5」的13.3%。
参考:大模型「有心了」:首个情感大模型Echo-N1,32B胜过200B
智谱多模态开源周来袭,多款视觉、语音模型及视频生成核心技术集中开源
12月8日至12月12日,智谱多模态开源周开源多款新模型与技术,分别是“眼睛看得见”的「GLM-4.6V」系列视觉理解模型,到“手能动起来”的「AutoGLM」,再到“语音听得懂”的「GLM-ASR」系列语音识别模和“话能说出口”的「GLM-TTS」工业级语音合成系统,最后再开源4项面向视频生成的核心技术成果「SCAIL」、「RealVideo」、「Kaleido」与「SSVAE」。
智谱开源「GLM-4.6V」系列多模态大模型,原生工具调用赋能多场景
12月8日,智谱开源「GLM-4.6V」系列多模态大模型(含106B-A12B云端基础版与9B本地轻量版),训练时上下文窗口提升至128K tokens,原生融入多模态工具调用能力,在视觉理解精度等关键能力上达同参数规模SOTA,支持智能图文混排、识图购物、前端复刻等多场景,价格较上一代降价50%且轻量版免费,同步开放模型权重、推理代码及在线调用能力。
智谱开源「AutoGLM」,旨在让AI“会用手机” 并开放全套实用资源
12月9日,智谱开源历经32个月探索的「AutoGLM」手机Agent全套能力,核心目标是让AI真正学会“使用手机”,从最初解决“乱点”问题、成为全球首个具备Phone Use能力的AI Agent,到完成人类历史上首个由AI独立操作发出的手机红包,再到推出AutoGLM 2.0并通过云手机模式保障安全与隐私隔离,已实现多场景稳定应用。此次开源以MIT许可开源代码以Apache-2.0许可,包括训练好的核心模型、Phone Use能力框架与工具链、50+高频中文App可跑通的Demo和针对Android的适配层等全套实用资源,推动Agent开源生态建设。
智谱发布并开源「GLM-ASR」系列语音识别模型及桌面端「智谱AI输入法」
12月10日,智谱发布并开源「GLM-ASR」系列语音识别模型,含云端的「GLM-ASR-2512」和1.5B参数的开源端侧模型「GLM-ASR-Nano-2512」,后者达开源SOTA水平且部分表现优于闭源模型;并推出基于该系列模型打造的桌面端「智谱AI输入法」,该输入法具备语音转文字、翻译、改写等功能,支持一体化编辑、人设切换、Vibe Coding、耳语捕捉及热词导入等特色,可满足多场景使用需求。
智谱上线并开源「GLM-TTS」工业级语音合成系统
12月11日,智谱上线并开源「GLM-TTS」工业级语音合成系统,仅需3秒语音样本即可复刻说话人音色与说话习惯,其架构采用两阶段生成,引入基于GRPO的强化学习方案,仅用10万小时训练数据(远低于行业主流商用模型),预训练单机4天即可达成开源SOTA“发音准确度”与高“音色还原度”,精品音色LORA与强化学习单机1天可训,以更低价获行业领先MOS分数,适配教育评测、电子书、有声客服等多场景需求。
智谱开源4项面向视频生成的核心技术成果
12月12日,智谱开源4项面向视频生成的核心技术成果,对准当前视频生成领域的三大难点:精细化可控生成、复杂时空结构建模,以及大规模训练成本控制。技术成果包括影视级角色动画生成框架「SCAIL」、实时流式视频生成系统「RealVideo」仅2-3秒首响延迟、多主体视频生成框架「Kaleido」与频谱结构化变分自编码器VAE「SSVAE」,3倍收敛加速。
AI Agent
阿里开源「AgentScope Java v1.0」,赋能Java开发者构建企业级智能体
12月9日,阿里巴巴发布「AgentScope Java v1.0」开源框架,面向Java开发者提供企业级Agentic应用构建能力,采用ReAct(推理-行动)开发范式,支持高效工具调用与实时介入控制,具备安全沙箱、上下文工程、高效集成等企业级特性及完善的开发优化生态,覆盖智能体开发、部署、调优全生命周期,未来将持续优化上下文工程、支持全模态等。
参考:AgentScope Java v1.0 发布,让 Java 开发者轻松构建企业级 Agentic 应用
商汤科技发布「Seko 2.0」多剧集AI视频Agent
12月10日,商汤科技发布「Seko 2.0」多剧集AI视频Agent,可通过一句话灵感或剧情梗概,自动规划策划案、剧本和分镜,一键生成最多100集连贯内容,且跨集人物形象、场景风格、故事设定保持高度一致,还具备丰富的画风选择、自定义角色形象功能,支持多种主流图像生成模型,用户可通过左右分栏界面灵活修改剧本、分镜、配音等细节,还能多任务同时进行生成下一集,支持导出完整视频及全部分镜画面。
参考:手把手教你分分钟制作100集AI动画片 商汤Seko2.0 多剧集AI视频 Agent 评测
Linux基金会宣布推出智能体AI基金会「AAIF」,统一Agent标准
12月10日,Linux基金会宣布推出智能体AI基金会「AAIF」(Agentic AI Foundation),定位为AI智能体开源项目的中立托管平台,汇聚OpenAI、Anthropic、Google、微软、AWS等全球科技巨头,以Anthropic的MCP协议、OpenAI的AGENTS.md规范及Block的goose框架为核心,三者协同以实现AI智能体与外部工具交互标准化,推动跨系统运行能力的统一。
参考:Agentic AI基金会成立,智能体的“Linux时刻”来了!MCP、AGENTS.md集体上车,下一代AI技术栈PARK出世
AI 工具
商汤科技发布实时语音驱动数字人技术「SekoTalk」
12月9日,商汤科技发布实时语音驱动数字人技术「SekoTalk」,通过Phased DMD分布匹配蒸馏技术和LightX2V开源实时视频生成推理框架等创新,在8卡服务器上实现25fps生成速度与3.5s首帧延迟的生成速度,支持多语言、多人精准声形同步及超长时稳定生成。该技术今年8月上线后已应用于多款产品,产出数十万作品及超2000万播放爆款,其免费在线体验平台支持2人以上对口型及2分钟长视频生成,同时相关技术已贡献至开源社区。
参考:推理速度25fps,首帧延迟3.5s!商汤SekoTalk:让实时语音数字人更近一步
商汤科技升级「商汤方舟」旗舰平台,以双核心体系革新视觉AI
12月9日,商汤科技发布旗舰平台「商汤方舟」的全面升级路径,以“通专融合”(轻量小模型与通用大模型多级协同)和“智训闭环”(全流程自动化模型生产)革新视觉算法生产方式,构建“感知-决策-行为”一体化视觉智能体平台,破解传统视觉AI痛点,目前已深入城市安全、交通、制造等十余类关键场景。
参考:视觉AI 2.0启幕,商汤方舟融合视觉及大模型能力赋能产业
Adobe推出适用于ChatGPT的Photoshop、Express和Acrobat
12月10日,Adobe在官网宣布推出适用于ChatGPT的Photoshop、Express和Acrobat工具,用户可直接在聊天机器人中免费使用这些工具,无需离开平台,能通过文字描述用PS调整图像参数、应用风格化效果或编辑特定区域等,借助Express设计信函、利用Acrobat编辑PDF。不过ChatGPT版PS不包含生成式填充等高级功能。此次合作是Adobe转型举措,也是OpenAI打造数字服务“入口”的一部分,此前OpenAI已于10月推出应用集成功能,Spotify、Zillow、Figma等为首批加入的公司。
腾讯元宝AI助手推出「总结QQ群未读消息」功能
12月11日,腾讯元宝AI助手推出「总结QQ群未读消息」功能,通过AI技术提炼成要点明确、结构清晰的总结报告。首次使用需完成授权,可一分钟梳理大量聊天记录,自动归类热聊话题、提取与用户相关的提醒(如@事项、福利活动),还能汇总特定群友发言、打包群内分享的图片和文件,提供数字索引直达原文。此外,「元宝AI」还可添加为QQ好友,具备查信息、读文件等功能,其电脑版和浏览器插件已上线。
市场动态
NVIDIA正式发布「CUDA Toolkit 13.1」,全面提升GPU编程效率与兼容性
12月6日,NVIDIA正式发布「CUDA Toolkit 13.1」,这是20年来最大规模更新,核心是编程模型CUDA Tile,支持更高抽象层级编写算法、屏蔽张量核心等硬件细节,且兼容未来GPU架构,配CUDA Tile IR虚拟指令集与cuTile Python DSL,暂支持Blackwell系列。同时开放Green Context运行时API实现细粒度GPU资源分配、升级多进程服务(增内存局部性优化分区等)、优化cuBLAS等数学库性能、强化Nsight系列开发者工具,并重写编程指南,全面提升GPU编程效率、兼容性与易用性。
参考:算力十年狂飙100000倍,他却每天担心破产!黄仁勋亲述:如何用“30天危机感”逆袭万亿AI市场
美国允许NVIDIA H200、AMD MI308出口中国,需支付25%销售分成
12月8日,美国总统特朗普宣布将允许NVIDIA向中国大陆出口H200(需支付25%销售分成),AMD同步获准出口MI308;H200性能超H20但因 B200上线已相对落后,其出口需完成后续政策流程,对适配Hopper架构的中国客户有实际价值,此前压制的需求有望释放,且与国产推理芯片不直接冲突,对国产生态影响有限。
全球首个太空AI诞生!H100在轨炼出LLM,科技巨头竞逐太空算力
12月11日,华盛顿Starcloud公司搭载NVIDIA H100芯片(算力比以往太空GPU强100倍)的「Starcloud-1」卫星成功训练出全球首个太空LLM,完成了基于Karpathy nano-GPT(用莎士比亚语料训练)的训练与推理,还成功运行Google Gemma模型并发出太空AI首条问候。此举旨在利用太空太阳能打造5GW低成本轨道数据中心,缓解地球能源压力,Google、SpaceX等巨头也纷纷布局太空算力赛道。
更多推荐



所有评论(0)