Kimi K2.5 发布——“智能体集群”与“视觉智能体”是最大亮点

KimiK2.5是一款突破性的开源AI模型，其核心创新在于"原生多模态+自主智能体集群"架构。相比传统大模型仅追求参数增长，K2.5聚焦实际生产力：具备强大的视觉编码能力，能根据图像/视频生成可迭代的前端代码；支持并行工作的AgentSwarm系统，可自动拆分复杂任务并协调数百子智能体协同处理；专为办公场景优化的文档处理能力，能生成专业级Excel、Word和PPT文件。在HL

人工智能研究所

599人浏览 · 2026-02-18 08:00:00

人工智能研究所 · 2026-02-18 08:00:00 发布

说实话，现在大模型发布已经有点审美疲劳了。参数更大、token 更多、榜单再涨几个点——

这些数字已经很难再让我兴奋。但 Kimi K2.5 不一样。我认真看完技术细节后，最大的感受是：

它不是在“把模型做强”，而是在“把 AI 变成真正能干活的东西”。

一句话总结 Kimi K2.5

Kimi K2.5 是一个“原生多模态 + 自主智能体集群”的开源模型，目标不是陪你聊天，而是替你把复杂任务跑完。它不是一个单点能力的突破，而是三个方向同时往前推：

更强的视觉 + 编码理解
真正能并行干活的 Agent Swarm（智能体群）
面向现实工作的生产力级智能体

它到底升级了什么？

先给一个硬核但重要的背景。Kimi K2.5 并不是“推倒重来”，而是在 K2 的基础上继续进化：

使用了约 15T 规模的视觉 + 文本混合数据进行预训练
是一个原生多模态模型，不是后期拼接
同时为“单智能体”和“多智能体集群”而设计

也正因为如此，它不是只在某个 benchmark 上亮眼，而是在完整任务链路上更稳。

第一个让我印象很深的点：它真的“会看”，而且会“边看边写代码”

很多模型都说自己“支持视觉”，但大多数停留在：看图 → 说两句。Kimi K2.5 明显不是这个层级。

一个真实案例：从一句话到完整前端页面。你可以只用一句自然语言描述一个页面想法，比如：

“一个滚动时有动画的官网首页”。K2.5 能直接生成：

完整前端结构
可交互布局
滚动触发动画
而且不是 demo 级别的玩具代码，而是能继续迭代、调试、修改的那种。

更夸张的是，它还能：

看图片 / 视频
反推出页面结构
再生成对应代码
甚至可以通过视觉输入，反过来调试自己生成的页面。
这已经不是“写代码”，而是视觉 → 逻辑 → 实现 → 自检的一整条闭环。

视觉 + 推理：一个让我“起鸡皮疙瘩”的例子，有一个示例我反复看了好几遍。

给 K2.5 一张迷宫图，让它做三件事：

在图像中识别起点（绿点）和终点（红点）
把图像转换成可计算的迷宫结构
用 BFS / A* 找最短路径，并可视化结果

关键在于：

它不是“看完就答”，而是一步一步边推理、边调用工具、边验证。

你能清楚看到它在“像工程师一样”解决问题，而不是拍脑袋。

但 K2.5 给我最直观的感觉是：它不再是一个孤胆英雄，而是一个能指挥千军万马的指挥官。

什么是“Agent Swarm”？

这次更新最大的亮点，就是这个还在测试版的 K2.5 Agent Swarm（智能体集群）。

以前我们用 Agent，就像带一个实习生。你得盯着他，告诉他第一步干啥，第二步干啥。如果任务太复杂，这个实习生大概率会崩溃。

但在 K2.5 里，你不需要预定义工作流。你只需要告诉它一个宏大的目标。

举个真实的例子：

我想找出这周在 YouTube 上 100 个不同细分领域（比如“复古机械键盘修复”、“极简主义露营”等）里排名前三的创作者。

如果是以前，我得写个脚本跑一整天，或者手动搜到手断。

但刚才我把这个任务丢给 K2.5 Agent Swarm。猜猜发生了什么？

它没有傻乎乎地一个一个搜。它自主创建了 100 个子智能体（Sub-Agents）！

1号子智能体去研究机械键盘圈。
2号子智能体去研究露营圈。
……
100号子智能体去研究美妆圈。

这些子智能体是并行工作的！后台数据显示，它瞬间发起了 1500 次工具调用。仅仅几分钟，一份包含 300 个创作者详细资料的 Excel 表格就扔到了我面前。

这不叫效率提升，这叫降维打击。官方数据说比单智能体快了 4.5 倍，但体感上简直是快了 10 倍不止。因为这种并行处理能力，是我们人类以前根本不敢想的。

办公神器：它真的懂 Excel 和 PDF

这部分可能不那么极客，但绝对实用。K2.5 Agent 现在可以生成真正的专家级文档。不是那种只会胡乱堆砌文字的 Word，而是带批注的 Word、带透视表和金融模型的 Excel、以及排版精美的 PPT。

我试着扔给它一堆财报 PDF，让它做一个财务分析模型。它没给我吐一堆文字，而是直接给了我一个 .xlsx 文件，里面的公式全是活的，透视表也建好了。这对于整天和文档打交道的打工来说，简直是救命稻草。

跑分那一栏：开源之光

最后聊聊硬核的。虽然咱们平时不唯跑分论，但 K2.5 这次面对的对手可是 GPT-5.2 和 Claude Opus 4.5 这种级别的怪物。

在 HLE（人类水平评估）和 SWE-Verified（软件工程）这种高难度基准测试里，K2.5 居然都能和它们打得有来有回，甚至在某些代理任务上不仅性能更好，成本还只有零头。作为开源模型，这真的是给社区的一份大礼。

Kimi K2.5 这次不仅仅是模型参数的胜利，它是架构的胜利。PARL（并行智能体强化学习）解决了“多个人干活比一个人还乱”的难题。原生多模态让视觉和代码终于不再分家。

我现在最期待的，就是看社区的大佬们能用这个“百人军团”玩出什么花样。也许下一次，当你看到一个极其复杂的开源项目在一夜之间完成时，背后可能就是 K2.5 的 Agent Swarm 在疯狂输出。

Kimi K2.5 目前已经全量上线，Kimi Code 也开源了，可以直接在 GitHub 上面找到。

更多transformer，VIT，swin tranformer
参考头条号：人工智能研究所
v号：人工智能研究Suo, 启示AI科技

动画详解transformer 在线视频教程

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

亲测GEO优化销售厂家榜单

2048 AI社区

AI应用架构师从0到1：AI虚拟培训系统的需求分析与原型设计

需求分析：不要贪大求全，先解决最痛的1-2个问题（如“个性化路径”“实时反馈”）；原型设计：用最小可行产品验证需求的真实性（比如先做Web端的虚拟场景，再扩展VR）；迭代优化：根据用户反馈调整功能（比如学员觉得反馈太笼统，就优化AI模型的反馈粒度）。作为AI应用架构师，你的价值不是“会用多少AI技术”，而是“能把AI技术转化为解决用户问题的工具”。希望本文能帮你建立从“想法”到“落地”的思维框架，