景联文AI观察动态速递第5期

大厂模型动态其他公司模型动态最新开源模型（含框架、平台、工具、方案、Agent开发、Robotics开发）数据加工范式、数据需求态势技术生态（大会 / 论坛 / 赛事 / 联盟 / 论文等）报告观点（机构报告、白皮书、调研、高管 / 学者观点）

景联文科技

588人浏览 · 2026-01-12 17:52:39

景联文科技 · 2026-01-12 17:52:39 发布

大厂模型动态

OpenAI：联合创始人Greg Brockman称GPT - 5.2在ARC - AGI - 2基准测试上表现超人类基线水平；研发副总裁Jerry Tworek离职；与OpenCode合作，将Codex接入，OpenCode也进行了升级。
Anthropic：发布Claude Code桌面版预览版，有原生图形界面；社区与代码负责人发布31天连载博客，介绍Claude Code使用指南；针对主要竞争对手调整策略，切断对Cursor中Claude模型的供给。
xAI：完成200亿美元E轮融资，估值约2300亿美元；Colossus超算集群等效H100 GPU超100万张，Grok 4系列完成训练，月活约6亿，Grok 5预计2026年第一季度上线；联合创始人通知员工，Cursor中的Claude模型无法响应。
Meta：逾20亿美元收购Manus；团队打造AI co - scientist，能设计研究计划。
英伟达：发布Vera Rubin超算架构，推理性能比Blackwell提升5倍、训练性能提升3.5倍、成本降低10倍，2026下半年面世；同步发布端到端自动驾驶AI AlphaMayo和物理AI全家桶开源模型。
AMD：发布Helios全液冷机架平台，配备MI455X GPU，性能比MI355X提升10倍，2027年将推出2nm制程MI500；首批搭载Ryzen AI 400系列处理器的AI PC 2026年Q1出货，全年超120款产品，迷你PC AMD Ryzen AI Halo预计Q2上市。
英特尔：发布基于Intel 18A制程的第三代酷睿Ultra处理器，端侧AI算力达180TOPS，多线程和游戏性能提升；采用Foveros - S封装技术，配备Arc B390集成GPU支持AI多帧生成，续航最长27小时；首次边缘处理器与PC版本同步发布，首批产品1月27日全球面市。
三星：CES 2026发布AI家居全家桶，130英寸电视可推荐内容，有AI足球模式；AI冰箱可追踪食材、提供饮食报告，支持自动化烹饪；2026年计划将搭载Gemini AI功能的移动设备增至8亿部，健康伴侣可提醒体征异常并共享数据。
腾讯：混元开源文生3D动作大模型HY - Motion 1.0，十亿参数基于DiT架构，涵盖多领域动作，适配多种软件；采用完整训练体系，有智能动作导演模块，降低创作门槛。
华为：开源7B多模态模型openPangu - VL - 7B，采用昇腾原生结构，推理和训练性能良好；预训练表现佳，视觉编码器吞吐提升；在多项任务中表现突出，采用特定坐标完成定位。

其他公司模型动态

DeepSeek：计划在2月中旬（春节前后）发布下一代V4模型，目标是成为编程之王，编程实力据称可赶超Claude、GPT系列等顶尖闭源模型；2025年12月31日发布mHC论文，解决了大模型训练的不稳定性问题。
MiroMind：发布MiroThinker 1.5旗舰版模型，参数少却刷新ChatGPT - Agent纪录，单条调用成本低；核心创新是将Interactive Scaling内化为训练机制，实现证据驱动推理；采用时序敏感训练沙盒，突破传统模式。
月之暗面Kimi：大模型竞技场出现神秘模型Kiwi - do，训练数据截止2025年1月，通过VPCT测试；完成35亿元C轮融资，现金储备达100亿元，或扩增显卡加速K3模型训练。
Lightricks：开源LTX - 2视频生成模型，支持4K分辨率、50FPS帧率、同步音频生成；提供三种模式，支持多种控制方式，可在消费级GPU运行。
Cursor：agent为所有模型使用动态上下文，在保持相同质量的同时更智能地填充上下文，使用多个MCP服务器时可将总token数量减少46.9%。
Rust社区Steve Klabnik：用Claude两周生成约7万行Rust代码，创建Rue语言，探索无GC内存安全与易用性平衡。
雷蛇：CES 2026展示Project Ava桌面AI伴侣，5.5英寸3D全息胶囊，有摄像头和双麦克风；提供5种虚拟形象可选并自定义，由Grok大模型驱动，可学习进化，支持预定费用20美元。
Notion：发布3.0大版本，升级为Notion AI agent；开放agent个性化定制，内置GPT - 5和Claude Sonnet 4，扩展MCP列表；能用自然语言完成复杂任务，降低使用门槛。
陈天桥支持的MiroMind团队：发布自研搜索智能体模型MiroThinker 1.5，参数少却刷新ChatGPT - Agent纪录，单条调用成本低。
字节Seed团队：提出SeedFold分子结构预测模型，实现模型容量规模化，超越AlphaFold3；推出高效变体SeedFold - Linear，降低计算复杂度，构建大规模蒸馏数据集；在不同预测任务中表现突出。

最新开源模型（含框架、平台、工具、方案、Agent开发、Robotics开发）

蚂蚁集团、浙江省卫生健康信息中心、浙江省安诊儿医学人工智能科技有限公司：联合开源了蚂蚁·安诊儿（AntAngelMed）医疗大模型，这是参数规模最大的开源医疗模型（100B）。该模型应用门槛低，能在中小型医疗机构支撑实时多轮交互和规模化部署。它继承百灵大模型Ling - flash - 2.0的高效混合专家（MoE）架构，建立三阶段训练过程，采用FP8量化 + EAGLE3优化，在真实线上医疗系统的32并发场景中，显著提升推理吞吐。在多项医疗基准测试榜单中表现优异，如在OpenAI发布的HealthBench评测中，以62.5的评分拿下开源模型第一。
中科院自动化所等机构研究团队：推出首个针对视觉 - 文本压缩范式的基准测试VTCBench，现已在GitHub和Huggingface开源。其衍生版本VTCBench - Wild用于评估模型在复杂现实场景下视觉文本压缩的鲁棒性，已集成到VLMevalkit。VTCBench通过三大任务评估模型在视觉空间中的认知极限，包括VTC - Retrieval（信息检索）、VTC - Reasoning（关联推理）、VTC - Memory（长期记忆）。
波士顿动力：在CES 2026发布新一代全电动人形机器人Atlas产品版，性能参数出色；与Google DeepMind合作，将Gemini Robotics引入Atlas平台，2026年交付名额锁定；现代集团宣布2028年建年产3万台机器人新工厂，未来投入超260亿美元。
智元具身研究中心：提出SOP框架，整合在线、分布式和多任务机制，让VLA模型在部署后持续学习；实验显示四机并行学习效果好，性能提升显著。
开源项目trustgraph：是AI上下文图谱工厂，可构建、管理并部署专为AI优化的上下文图谱，重点分享其中本体驱动的零噪声GraphRAG部分。使用本体Ontology是为了构建一张会自我完善的知识图谱，该图谱不仅能存储数据，还能理解、验证并让数据持续进化，解决了“裸奔”GraphRAG在现实应用中的诸多问题。

数据加工范式、数据需求态势

DeepSeek - OCR的视觉文本压缩（VTC）技术通过将文本编码为视觉Token，实现2 - 10倍的压缩率，大幅降低大模型处理长文本的成本，但视觉语言模型（VLM）对压缩后长文本内容的理解能力存疑。
DeepSeek - V3采用创新的MoE架构，推理时激活参数少，通过“细粒度专家 + 通才专家”策略，逼近连续多维知识空间；从V2引入的MLA机制，将键和值张量压缩到低维空间，减少推理时的KV缓存和内存占用，建模性能优于传统的分组查询注意力。
RLM是一种通用推理策略，将输入上下文作为变量进行分解和递归交互，可有效解决“上下文腐化”问题，并实现对超长上下文的处理。
LLM强化学习受关注，自ChatGPT问世，强化学习在后训练中作用重大。不同的强化学习算法对数据的需求和处理方式不同，如PPO训练复杂、成本高，DPO无需奖励模型，简化训练流程，GRPO解决PPO应用于LLM的成本问题，DAPO对GRPO进行改进，提升性能和学习效率。强化学习相比监督微调，对数据量要求低，有望解决企业定制化AI数据不足问题。

技术生态（大会 / 论坛 / 赛事 / 联盟 / 论文等）

DeepSeek创始人梁文锋亲自署名在arXiv上传新论文，挑战何恺明2016年提出的ResNet残差连接，该研究是内部“基石级”工作。哈工大、鹏城实验室、新加坡国立、复旦、北大联合发布重磅综述，将人脑记忆机制与Agents记忆统一审视，为设计真正「类人」的Agent记忆系统奠定理论基石。

报告观点（机构报告、白皮书、调研、高管 / 学者观点）

OpenAI官方推文提到“Capability Overhang（能力过剩）”，指当前模型“能做的事”与人们“实际使用AI的方式”存在巨大断层；未来AGI进展不仅取决于模型突破，还取决于人们能否有效使用AI、AI能否融入现实、系统能否将模型能力转化为实际价值。
有网友认为Anthropic在Agent生态上采取封闭策略是战略误判，其错失定义Agent时代底层标准的窗口期，Claude面临被边缘化风险，企业因安全与可控因素更倾向开放架构。
Midjourney创始人假期用编程Agent完成的项目超过去10年总和，马斯克等有相同看法；工程师称编程Agent能大幅压缩工作时间；Claude 4.5 Opus评测登榜首，开发者分享设置。
谷歌云、BCG、Salesforce等机构研究数据显示市场对Agent的关注和积极态度，如谷歌云报告显示52%使用生成式人工智能的企业在生产环境部署Agent；BCG研究指出高效Agent可使业务流程提速30% - 50%；Salesforce研究表明预计到2026年，80%企业级应用将嵌入Agent能力。