AI科技圈最近一周又发生了啥

OpenAI发布GPT-5.2

OpenAI正式推出GPT-5.2大模型,提供Instant、Thinking和Pro三个版本,分别面向常规任务、复杂结构化工作和高可靠性需求场景。其中GPT-5.2 Thinking在涵盖美国GDP前九大行业的44项职业知识任务(GDPval测试)中,70.9%的表现达到或超过人类专家水平;在SWE-Bench Pro软件工程评测中准确率达55.6%,SWE-bench Verified更高达80%。模型幻觉率较GPT-5.1降低约30%,长文本推理在256K上下文的MRCRv2“4针测试”中接近100%准确率;视觉理解错误率下降约50%,Tau2-bench Telecom工具调用得分98.7%。数学方面,在ARC-AGI-1测试中Pro版准确率突破90%,并在FrontierMath和GPQA Diamond等高阶科学任务中显著提升。GPT-5.2已向ChatGPT付费用户开放,API同步上线,GPT-5.1将在三个月后下线

https://mp.weixin.qq.com/s/hsHCVWem_P_uWP3xjfB9Lw

谷歌开源DeepSearchQA基准并开放Gemini Deep Research Agent

谷歌发布Gemini Deep Research Agent更新版,基于Gemini 3 Pro模型,通过多步强化学习实现高精度网络深度研究,在新基准DeepSearchQA上得分46.4%,在BrowseComp测试中与GPT-5 Pro相当,但价格仅为后者的约1/10。该Agent支持特定网页数据搜索、低成本生成带细粒度引用的结构化研究报告,并已在金融、生物技术等领域应用。同时,谷歌开源包含900个手工设计“因果链”任务、覆盖17个领域的DeepSearchQA评估基准,并推出Interactions API,通过ADK和A2A协议向开发者开放,支持状态管理、远程MCP工具调用及后台长推理执行

https://www.kaggle.com/benchmarks/google/dsqa/leaderboard

阿里成立“千问C端事业群”,挑战超级APP地位

阿里巴巴正式组建“千问C端事业群”,由集团副总裁吴嘉负责,整合原智能信息事业群与智能互联事业群,旗下涵盖千问APP、夸克、UC浏览器、书旗小说及AI硬件(如天猫精灵、夸克AI眼镜)等业务。该事业群目标是将“千问”打造为AI时代的超级APP和全场景个人AI助手,并推动其成为跨终端的AI生活入口。在战略上,阿里明确以“用户为先、AI驱动”,形成钉钉主攻AI to B、夸克与千问协同发力AI to C的双线布局

https://www.oschina.net/news/388816

智谱开源AutoGLM:实现AI自主操作手机能力

智谱正式开源AutoGLM,一套可让AI自主使用手机的完整系统,包含训练好的核心模型、Phone Use能力框架、工具链及Android适配层,支持50多个高频中文App的自动化操作。项目基于32个月研发积累,已实现从界面理解、操作规划到稳定执行的全流程,包括处理弹窗、广告遮挡等真实干扰。AutoGLM 2.0引入MobileRL等强化学习算法,在云手机环境中进行安全隔离操作,避免接触用户隐私数据。模型以MIT许可证开源,代码采用Apache-2.0协议托管于GitHub,支持私有化部署

https://mp.weixin.qq.com/s/9e6lPEo79xeb4jph9mefpA

智谱发布GLM-TTS语音合成系统

智谱推出工业级语音合成系统GLM-TTS,基于两阶段架构(Text-to-token自回归 + Token-to-wav扩散模型),仅用10万小时数据训练即实现3秒音色复刻、多情感表达与四川话/东北话等方言克隆。系统在多个开源测试集上达到SOTA水平:CER低至0.89%(优于CosyVoice2、IndexTTS2等),音色相似度达76.4;情感合成在Happy(0.72)、Sad(0.52)、Angry(0.28)三类维度均领先商用模型。关键技术包括25Hz Whisper-VQ tokenizer、多奖励GRPO强化学习、LoRA精品音色微调、Phoneme-in多音字控制及自研2D-Vocos声码器。模型已在Z.ai、智谱清言及BigModel平台上线,并开源于Hugging Face、GitHub和魔搭社区

https://github.com/zai-org/GLM-TTS

阿里发布Qwen3-Omni-Flash全模态大模型

阿里Qwen团队推出Qwen3-Omni-Flash-2025-12-01,作为Qwen3-Omni的全面升级版,支持文本、图像、音视频无缝输入与实时流式输出,语音生成自然度逼近真人,显著改善语速、停顿与韵律。模型开放System Prompt自定义权限,可精准设定“甜妹”“御姐”“日系”等人设风格及回复偏好。多语言方面,支持119种文本语言、19种语音识别语言和10种语音合成语言。在ZebraLogic逻辑推理、LiveCodeBench-v6代码生成和MMMU多学科视觉问答三项基准上分别提升5.6、9.3和4.7分

https://www.ithome.com/0/904/055.htm

Mistral AI开源Devstral 2编程模型系列

Mistral AI推出新一代开源编程模型Devstral 2系列,包含123B参数的Devstral 2和24B参数的Devstral Small 2。前者拥有256K上下文窗口,在SWE-bench Verified测试中准确率达72.2%,后者以五分之一体积实现68.0%准确率,性能媲美更大模型。两者均支持跨文件代码理解、架构级推理、自动错误修正及多语言生成,并通过Mistral Vibe CLI提供终端交互式编程辅助。Devstral 2目前API免费,后续定价为输入/输出每百万token 0.40/2.00美元;Devstral Small 2定价为0.10/0.30美元

https://mistral.ai/news/devstral-2-vibe-cli

美团开源LongCat-Image图像生成模型

美团LongCat团队发布并开源LongCat-Image图像生成模型,参数规模为6B,采用文生图与图像编辑同源架构及渐进式学习策略,在多个权威评测中表现领先:ImgEdit-Bench得分4.50、GEdit-Bench中英文分别达7.60/7.64,均达到开源SOTA水平;中文文字渲染在ChineseWord评测中以90.7分大幅领先,覆盖8105个规范汉字,并支持生僻字精准生成。模型通过多阶段训练(预训练、SFT、RL)结合人工精标数据与OCR+美学双奖励机制,提升指令遵循、视觉一致性与真实感,已全面开源并在Hugging Face与GitHub提供下载
模型架构

https://github.com/meituan-longcat/LongCat-Image

腾讯混元发布HY 2.0大模型

腾讯混元推出最新语言模型Tencent HY 2.0 Think与HY 2.0 Instruct,采用混合专家(MoE)架构,总参数量达406B,激活参数32B,支持256K上下文窗口。模型在数学、科学、代码和指令遵循等复杂推理任务中表现突出,在IMO-AnswerBench、HMMT2025、ARC-AGI和HLE等权威评测中处于国内第一梯队。通过Large Rollout强化学习和重要性采样修正,HY 2.0显著提升泛化能力与长文多轮交互效果,并在SWE-bench Verified和Tau2-Bench等智能体任务中实现落地跃升。推理效率方面,单位token智能密度领先,同等准确率下思维链长度大幅缩短。文本创作减少“AI味”,前端开发可生成审美在线的Web小游戏,指令遵循与共情力亦有明显提升。模型已接入元宝、ima等腾讯应用,并通过腾讯云提供API服务

https://mp.weixin.qq.com/s/wCJf5BOypPcKGxfp8jE9hg

迪士尼投资10亿美元入股OpenAI,授权Sora生成米老鼠等200多个角色视频

迪士尼与OpenAI达成三年期授权合作,成为Sora平台首个主要内容授权伙伴,并向OpenAI进行10亿美元股权投资,同时获得额外股权认股权证。根据协议,Sora和ChatGPT Images将可基于用户提示生成包含迪士尼、皮克斯、漫威及星球大战旗下超200个动画、面具和生物角色的短视频和图像,涵盖米老鼠、爱丽儿、钢铁侠、达斯·维达等经典形象及标志性环境与道具,但不包括真人肖像或声音。生成内容将在Disney+上线供订阅用户观看,相关功能预计2026年初推出

https://www.ithome.com/0/904/327.htm

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐