景联文AI观察动态速递 第5期
大厂模型动态其他公司模型动态最新开源模型(含框架、平台、工具、方案、Agent开发、Robotics开发)数据加工范式、数据需求态势技术生态(大会 / 论坛 / 赛事 / 联盟 / 论文等)报告观点(机构报告、白皮书、调研、高管 / 学者观点)
·

大厂模型动态
- OpenAI:联合创始人Greg Brockman称GPT - 5.2在ARC - AGI - 2基准测试上表现超人类基线水平;研发副总裁Jerry Tworek离职;与OpenCode合作,将Codex接入,OpenCode也进行了升级。
- Anthropic:发布Claude Code桌面版预览版,有原生图形界面;社区与代码负责人发布31天连载博客,介绍Claude Code使用指南;针对主要竞争对手调整策略,切断对Cursor中Claude模型的供给。
- xAI:完成200亿美元E轮融资,估值约2300亿美元;Colossus超算集群等效H100 GPU超100万张,Grok 4系列完成训练,月活约6亿,Grok 5预计2026年第一季度上线;联合创始人通知员工,Cursor中的Claude模型无法响应。
- Meta:逾20亿美元收购Manus;团队打造AI co - scientist,能设计研究计划。
- 英伟达:发布Vera Rubin超算架构,推理性能比Blackwell提升5倍、训练性能提升3.5倍、成本降低10倍,2026下半年面世;同步发布端到端自动驾驶AI AlphaMayo和物理AI全家桶开源模型。
- AMD:发布Helios全液冷机架平台,配备MI455X GPU,性能比MI355X提升10倍,2027年将推出2nm制程MI500;首批搭载Ryzen AI 400系列处理器的AI PC 2026年Q1出货,全年超120款产品,迷你PC AMD Ryzen AI Halo预计Q2上市。
- 英特尔:发布基于Intel 18A制程的第三代酷睿Ultra处理器,端侧AI算力达180TOPS,多线程和游戏性能提升;采用Foveros - S封装技术,配备Arc B390集成GPU支持AI多帧生成,续航最长27小时;首次边缘处理器与PC版本同步发布,首批产品1月27日全球面市。
- 三星:CES 2026发布AI家居全家桶,130英寸电视可推荐内容,有AI足球模式;AI冰箱可追踪食材、提供饮食报告,支持自动化烹饪;2026年计划将搭载Gemini AI功能的移动设备增至8亿部,健康伴侣可提醒体征异常并共享数据。
- 腾讯:混元开源文生3D动作大模型HY - Motion 1.0,十亿参数基于DiT架构,涵盖多领域动作,适配多种软件;采用完整训练体系,有智能动作导演模块,降低创作门槛。
- 华为:开源7B多模态模型openPangu - VL - 7B,采用昇腾原生结构,推理和训练性能良好;预训练表现佳,视觉编码器吞吐提升;在多项任务中表现突出,采用特定坐标完成定位。
其他公司模型动态
- DeepSeek:计划在2月中旬(春节前后)发布下一代V4模型,目标是成为编程之王,编程实力据称可赶超Claude、GPT系列等顶尖闭源模型;2025年12月31日发布mHC论文,解决了大模型训练的不稳定性问题。
- MiroMind:发布MiroThinker 1.5旗舰版模型,参数少却刷新ChatGPT - Agent纪录,单条调用成本低;核心创新是将Interactive Scaling内化为训练机制,实现证据驱动推理;采用时序敏感训练沙盒,突破传统模式。
- 月之暗面Kimi:大模型竞技场出现神秘模型Kiwi - do,训练数据截止2025年1月,通过VPCT测试;完成35亿元C轮融资,现金储备达100亿元,或扩增显卡加速K3模型训练。
- Lightricks:开源LTX - 2视频生成模型,支持4K分辨率、50FPS帧率、同步音频生成;提供三种模式,支持多种控制方式,可在消费级GPU运行。
- Cursor:agent为所有模型使用动态上下文,在保持相同质量的同时更智能地填充上下文,使用多个MCP服务器时可将总token数量减少46.9%。
- Rust社区Steve Klabnik:用Claude两周生成约7万行Rust代码,创建Rue语言,探索无GC内存安全与易用性平衡。
- 雷蛇:CES 2026展示Project Ava桌面AI伴侣,5.5英寸3D全息胶囊,有摄像头和双麦克风;提供5种虚拟形象可选并自定义,由Grok大模型驱动,可学习进化,支持预定费用20美元。
- Notion:发布3.0大版本,升级为Notion AI agent;开放agent个性化定制,内置GPT - 5和Claude Sonnet 4,扩展MCP列表;能用自然语言完成复杂任务,降低使用门槛。
- 陈天桥支持的MiroMind团队:发布自研搜索智能体模型MiroThinker 1.5,参数少却刷新ChatGPT - Agent纪录,单条调用成本低。
- 字节Seed团队:提出SeedFold分子结构预测模型,实现模型容量规模化,超越AlphaFold3;推出高效变体SeedFold - Linear,降低计算复杂度,构建大规模蒸馏数据集;在不同预测任务中表现突出。
最新开源模型(含框架、平台、工具、方案、Agent开发、Robotics开发)
- 蚂蚁集团、浙江省卫生健康信息中心、浙江省安诊儿医学人工智能科技有限公司:联合开源了蚂蚁·安诊儿(AntAngelMed)医疗大模型,这是参数规模最大的开源医疗模型(100B)。该模型应用门槛低,能在中小型医疗机构支撑实时多轮交互和规模化部署。它继承百灵大模型Ling - flash - 2.0的高效混合专家(MoE)架构,建立三阶段训练过程,采用FP8量化 + EAGLE3优化,在真实线上医疗系统的32并发场景中,显著提升推理吞吐。在多项医疗基准测试榜单中表现优异,如在OpenAI发布的HealthBench评测中,以62.5的评分拿下开源模型第一。
- 中科院自动化所等机构研究团队:推出首个针对视觉 - 文本压缩范式的基准测试VTCBench,现已在GitHub和Huggingface开源。其衍生版本VTCBench - Wild用于评估模型在复杂现实场景下视觉文本压缩的鲁棒性,已集成到VLMevalkit。VTCBench通过三大任务评估模型在视觉空间中的认知极限,包括VTC - Retrieval(信息检索)、VTC - Reasoning(关联推理)、VTC - Memory(长期记忆)。
- 波士顿动力:在CES 2026发布新一代全电动人形机器人Atlas产品版,性能参数出色;与Google DeepMind合作,将Gemini Robotics引入Atlas平台,2026年交付名额锁定;现代集团宣布2028年建年产3万台机器人新工厂,未来投入超260亿美元。
- 智元具身研究中心:提出SOP框架,整合在线、分布式和多任务机制,让VLA模型在部署后持续学习;实验显示四机并行学习效果好,性能提升显著。
- 开源项目trustgraph:是AI上下文图谱工厂,可构建、管理并部署专为AI优化的上下文图谱,重点分享其中本体驱动的零噪声GraphRAG部分。使用本体Ontology是为了构建一张会自我完善的知识图谱,该图谱不仅能存储数据,还能理解、验证并让数据持续进化,解决了“裸奔”GraphRAG在现实应用中的诸多问题。
数据加工范式、数据需求态势
- DeepSeek - OCR的视觉文本压缩(VTC)技术通过将文本编码为视觉Token,实现2 - 10倍的压缩率,大幅降低大模型处理长文本的成本,但视觉语言模型(VLM)对压缩后长文本内容的理解能力存疑。
- DeepSeek - V3采用创新的MoE架构,推理时激活参数少,通过“细粒度专家 + 通才专家”策略,逼近连续多维知识空间;从V2引入的MLA机制,将键和值张量压缩到低维空间,减少推理时的KV缓存和内存占用,建模性能优于传统的分组查询注意力。
- RLM是一种通用推理策略,将输入上下文作为变量进行分解和递归交互,可有效解决“上下文腐化”问题,并实现对超长上下文的处理。
- LLM强化学习受关注,自ChatGPT问世,强化学习在后训练中作用重大。不同的强化学习算法对数据的需求和处理方式不同,如PPO训练复杂、成本高,DPO无需奖励模型,简化训练流程,GRPO解决PPO应用于LLM的成本问题,DAPO对GRPO进行改进,提升性能和学习效率。强化学习相比监督微调,对数据量要求低,有望解决企业定制化AI数据不足问题。
技术生态(大会 / 论坛 / 赛事 / 联盟 / 论文等)
- DeepSeek创始人梁文锋亲自署名在arXiv上传新论文,挑战何恺明2016年提出的ResNet残差连接,该研究是内部“基石级”工作。哈工大、鹏城实验室、新加坡国立、复旦、北大联合发布重磅综述,将人脑记忆机制与Agents记忆统一审视,为设计真正「类人」的Agent记忆系统奠定理论基石。
报告观点(机构报告、白皮书、调研、高管 / 学者观点)
- OpenAI官方推文提到“Capability Overhang(能力过剩)”,指当前模型“能做的事”与人们“实际使用AI的方式”存在巨大断层;未来AGI进展不仅取决于模型突破,还取决于人们能否有效使用AI、AI能否融入现实、系统能否将模型能力转化为实际价值。
- 有网友认为Anthropic在Agent生态上采取封闭策略是战略误判,其错失定义Agent时代底层标准的窗口期,Claude面临被边缘化风险,企业因安全与可控因素更倾向开放架构。
- Midjourney创始人假期用编程Agent完成的项目超过去10年总和,马斯克等有相同看法;工程师称编程Agent能大幅压缩工作时间;Claude 4.5 Opus评测登榜首,开发者分享设置。
- 谷歌云、BCG、Salesforce等机构研究数据显示市场对Agent的关注和积极态度,如谷歌云报告显示52%使用生成式人工智能的企业在生产环境部署Agent;BCG研究指出高效Agent可使业务流程提速30% - 50%;Salesforce研究表明预计到2026年,80%企业级应用将嵌入Agent能力。
更多推荐

所有评论(0)