打造超级APP，阿里组建新事业群！

AI科技圈最近一周又发生了啥。

啥都生

723人浏览 · 2025-12-15 09:00:00

啥都生 · 2025-12-15 09:00:00 发布

B站：啥都会一点的研究生
公众号：啥都会一点的研究生

AI科技圈最近一周又发生了啥

OpenAI发布GPT-5.2

OpenAI正式推出GPT-5.2大模型，提供Instant、Thinking和Pro三个版本，分别面向常规任务、复杂结构化工作和高可靠性需求场景。其中GPT-5.2 Thinking在涵盖美国GDP前九大行业的44项职业知识任务（GDPval测试）中，70.9%的表现达到或超过人类专家水平；在SWE-Bench Pro软件工程评测中准确率达55.6%，SWE-bench Verified更高达80%。模型幻觉率较GPT-5.1降低约30%，长文本推理在256K上下文的MRCRv2“4针测试”中接近100%准确率；视觉理解错误率下降约50%，Tau2-bench Telecom工具调用得分98.7%。数学方面，在ARC-AGI-1测试中Pro版准确率突破90%，并在FrontierMath和GPQA Diamond等高阶科学任务中显著提升。GPT-5.2已向ChatGPT付费用户开放，API同步上线，GPT-5.1将在三个月后下线

https://mp.weixin.qq.com/s/hsHCVWem_P_uWP3xjfB9Lw

谷歌开源DeepSearchQA基准并开放Gemini Deep Research Agent

谷歌发布Gemini Deep Research Agent更新版，基于Gemini 3 Pro模型，通过多步强化学习实现高精度网络深度研究，在新基准DeepSearchQA上得分46.4%，在BrowseComp测试中与GPT-5 Pro相当，但价格仅为后者的约1/10。该Agent支持特定网页数据搜索、低成本生成带细粒度引用的结构化研究报告，并已在金融、生物技术等领域应用。同时，谷歌开源包含900个手工设计“因果链”任务、覆盖17个领域的DeepSearchQA评估基准，并推出Interactions API，通过ADK和A2A协议向开发者开放，支持状态管理、远程MCP工具调用及后台长推理执行

https://www.kaggle.com/benchmarks/google/dsqa/leaderboard

阿里成立“千问C端事业群”，挑战超级APP地位

阿里巴巴正式组建“千问C端事业群”，由集团副总裁吴嘉负责，整合原智能信息事业群与智能互联事业群，旗下涵盖千问APP、夸克、UC浏览器、书旗小说及AI硬件（如天猫精灵、夸克AI眼镜）等业务。该事业群目标是将“千问”打造为AI时代的超级APP和全场景个人AI助手，并推动其成为跨终端的AI生活入口。在战略上，阿里明确以“用户为先、AI驱动”，形成钉钉主攻AI to B、夸克与千问协同发力AI to C的双线布局

https://www.oschina.net/news/388816

智谱开源AutoGLM：实现AI自主操作手机能力

智谱正式开源AutoGLM，一套可让AI自主使用手机的完整系统，包含训练好的核心模型、Phone Use能力框架、工具链及Android适配层，支持50多个高频中文App的自动化操作。项目基于32个月研发积累，已实现从界面理解、操作规划到稳定执行的全流程，包括处理弹窗、广告遮挡等真实干扰。AutoGLM 2.0引入MobileRL等强化学习算法，在云手机环境中进行安全隔离操作，避免接触用户隐私数据。模型以MIT许可证开源，代码采用Apache-2.0协议托管于GitHub，支持私有化部署

https://mp.weixin.qq.com/s/9e6lPEo79xeb4jph9mefpA

智谱发布GLM-TTS语音合成系统

智谱推出工业级语音合成系统GLM-TTS，基于两阶段架构（Text-to-token自回归 + Token-to-wav扩散模型），仅用10万小时数据训练即实现3秒音色复刻、多情感表达与四川话/东北话等方言克隆。系统在多个开源测试集上达到SOTA水平：CER低至0.89%（优于CosyVoice2、IndexTTS2等），音色相似度达76.4；情感合成在Happy（0.72）、Sad（0.52）、Angry（0.28）三类维度均领先商用模型。关键技术包括25Hz Whisper-VQ tokenizer、多奖励GRPO强化学习、LoRA精品音色微调、Phoneme-in多音字控制及自研2D-Vocos声码器。模型已在Z.ai、智谱清言及BigModel平台上线，并开源于Hugging Face、GitHub和魔搭社区

https://github.com/zai-org/GLM-TTS

阿里发布Qwen3-Omni-Flash全模态大模型

阿里Qwen团队推出Qwen3-Omni-Flash-2025-12-01，作为Qwen3-Omni的全面升级版，支持文本、图像、音视频无缝输入与实时流式输出，语音生成自然度逼近真人，显著改善语速、停顿与韵律。模型开放System Prompt自定义权限，可精准设定“甜妹”“御姐”“日系”等人设风格及回复偏好。多语言方面，支持119种文本语言、19种语音识别语言和10种语音合成语言。在ZebraLogic逻辑推理、LiveCodeBench-v6代码生成和MMMU多学科视觉问答三项基准上分别提升5.6、9.3和4.7分

https://www.ithome.com/0/904/055.htm

Mistral AI开源Devstral 2编程模型系列

Mistral AI推出新一代开源编程模型Devstral 2系列，包含123B参数的Devstral 2和24B参数的Devstral Small 2。前者拥有256K上下文窗口，在SWE-bench Verified测试中准确率达72.2%，后者以五分之一体积实现68.0%准确率，性能媲美更大模型。两者均支持跨文件代码理解、架构级推理、自动错误修正及多语言生成，并通过Mistral Vibe CLI提供终端交互式编程辅助。Devstral 2目前API免费，后续定价为输入/输出每百万token 0.40/2.00美元；Devstral Small 2定价为0.10/0.30美元

https://mistral.ai/news/devstral-2-vibe-cli

美团开源LongCat-Image图像生成模型

美团LongCat团队发布并开源LongCat-Image图像生成模型，参数规模为6B，采用文生图与图像编辑同源架构及渐进式学习策略，在多个权威评测中表现领先：ImgEdit-Bench得分4.50、GEdit-Bench中英文分别达7.60/7.64，均达到开源SOTA水平；中文文字渲染在ChineseWord评测中以90.7分大幅领先，覆盖8105个规范汉字，并支持生僻字精准生成。模型通过多阶段训练（预训练、SFT、RL）结合人工精标数据与OCR+美学双奖励机制，提升指令遵循、视觉一致性与真实感，已全面开源并在Hugging Face与GitHub提供下载
模型架构

https://github.com/meituan-longcat/LongCat-Image

腾讯混元发布HY 2.0大模型

腾讯混元推出最新语言模型Tencent HY 2.0 Think与HY 2.0 Instruct，采用混合专家（MoE）架构，总参数量达406B，激活参数32B，支持256K上下文窗口。模型在数学、科学、代码和指令遵循等复杂推理任务中表现突出，在IMO-AnswerBench、HMMT2025、ARC-AGI和HLE等权威评测中处于国内第一梯队。通过Large Rollout强化学习和重要性采样修正，HY 2.0显著提升泛化能力与长文多轮交互效果，并在SWE-bench Verified和Tau2-Bench等智能体任务中实现落地跃升。推理效率方面，单位token智能密度领先，同等准确率下思维链长度大幅缩短。文本创作减少“AI味”，前端开发可生成审美在线的Web小游戏，指令遵循与共情力亦有明显提升。模型已接入元宝、ima等腾讯应用，并通过腾讯云提供API服务

https://mp.weixin.qq.com/s/wCJf5BOypPcKGxfp8jE9hg

迪士尼投资10亿美元入股OpenAI，授权Sora生成米老鼠等200多个角色视频

迪士尼与OpenAI达成三年期授权合作，成为Sora平台首个主要内容授权伙伴，并向OpenAI进行10亿美元股权投资，同时获得额外股权认股权证。根据协议，Sora和ChatGPT Images将可基于用户提示生成包含迪士尼、皮克斯、漫威及星球大战旗下超200个动画、面具和生物角色的短视频和图像，涵盖米老鼠、爱丽儿、钢铁侠、达斯·维达等经典形象及标志性环境与道具，但不包括真人肖像或声音。生成内容将在Disney+上线供订阅用户观看，相关功能预计2026年初推出

https://www.ithome.com/0/904/327.htm

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

AI工具实战测评：30秒读懂技术真相

AI工具测评指南摘要：本文提出了一套系统化的AI工具测评方法，从测评目标设定到最终结论输出。测评涵盖文本生成、图像处理等工具类型，重点考察功能完整性、性能指标（响应时间、准确率）及资源消耗。通过设计典型测试用例，对比同类工具优劣，并结合实际应用场景验证。最后总结工具适用性，指出改进方向，为不同用户群体提供选用建议。测评过程强调量化分析与案例验证相结合，确保评估结果客观全面。

2048 AI社区

AI生成电影预告片：代码重构影视魔法

本文探讨了利用代码自动生成电影预告片的技术方案。首先分析了预告片的核心结构元素，包括悬念设置、节奏控制和情感传递。然后详细介绍了技术实现流程：通过FFmpeg和OpenCV处理原始素材，运用深度学习进行场景分类，采用动态时间规整算法匹配音乐与剪辑节奏，并利用NLP模型优化片段排序。文章还展示了Python工具链的实现方案，包括MoviePy等库的应用，以及参数化调整和A/B测试等优化方法。最后探讨

2048 AI社区

Anaconda加速AI训练的10大秘技

本文介绍了使用Anaconda加速AI模型训练的技术方案。主要内容包括：1）环境配置优化，如配置国内镜像源、创建独立虚拟环境；2）GPU加速支持，包括CUDA/cuDNN版本匹配、安装GPU版框架；3）高效数据预处理方法，如使用Dask/Modin替代Pandas；4）分布式训练优化技术，如Horovod多节点训练和PyTorch DDP模式；5）混合精度训练配置与监控；6）缓存与流水线优化策略。