Kimi K2.5发布：原生多模态 + Agent Swarm，我用它把小红书「复刻」了一遍

Kimi K2.5模型发布，带来原生多模态和Agent Swarm两大突破。该模型通过15T视觉-文本联合训练，实现"看图写代码"的Coding with Vision能力，可基于图片/视频直接生成前端页面并进行视觉调试。Agent Swarm支持最多100个子智能体并行工作，复杂任务处理速度提升4.5倍。实测显示其前端审美显著提升，能高度还原小红书等复杂界面，但存在执行速度慢

小胖胖

673人浏览 · 2026-01-28 14:47:50

小胖胖 · 2026-01-28 14:47:50 发布

Kimi K2.5发布：原生多模态 + Agent Swarm，我用它把小红书「复刻」了一遍

昨天，Kimi 发布了新模型 Kimi K2.5。

我一开始以为这会是一次“常规升级”：更大的参数、更长的上下文、更高的分数……但翻完官方技术报告后，最大的感受反而是——K2.5 更像是在补齐一个方向：

不只是“会看图”。而是原生多模态，从训练开始就把视觉和文本当成同一个大脑要处理的信息。
不只是“会用工具”。而是能把复杂任务拆成并行子任务，自己拉起一个**Agent Swarm（最多 100 个子智能体）**去跑。
不只是“能写代码”。而是强调 Coding with Vision：看着图片/视频写前端、查错、迭代，甚至做审美。

更关键的是：这些能力不是停留在 PPT 上。至少在我最常用的领域——前端设计——K2.5 给了我一波真实的“惊艳”。
在这里插入图片描述

一、先看官方：K2.5 到底升级了什么？

官方报告开门见山：Kimi K2.5 是“目前最强的开源模型”。

它基于 K2 继续预训练，使用了约 15T 的混合视觉与文本 tokens，并且强调一句关键点：Built as a native multimodal model（原生多模态）。

另外，Kimi.com 和 App 也同步更新了 4 种模式：

K2.5 Instant
K2.5 Thinking
K2.5 Agent
K2.5 Agent Swarm (Beta)

如果你只把它当“聊天模型”，可能感知不到它的全部威力；但如果你把它当成“能执行任务的系统”，K2.5 的路线就很清晰了：

Coding with Vision：看图/视频写代码、做视觉 Debug、把“审美”纳入迭代回路。
Agent Swarm：不是一个 Agent 走到黑，而是并行拉起多个子 Agent 并行工作。
Office Productivity：面向真实办公产出（文档、表格、PDF、Slides）的长链路任务。

二、Benchmark 里最扎眼的：Agent 能力和“成本”

我知道很多人看 Benchmark 会疲劳，但 K2.5 这次有两点确实值得扫一眼。

1）Agent 相关榜单：不只是“能调用工具”，而是“能把事做成”

官方拿了几个偏 agentic 的 benchmark 来展示：

HLE-Full（含工具）：K2.5（Thinking）= 50.2，对比 GPT-5.2（xhigh）= 45.5
BrowseComp：K2.5 = 60.6（有上下文管理策略的版本更高）
DeepSearchQA：K2.5 = 77.1

这类榜单的意义不在于“谁多 1 分”，而在于它更接近真实工作流：

有信息缺口
需要多步推理
需要工具来验证/检索/执行
最终要交付一个可用结果

换句话说，它衡量的是“能不能把任务闭环”。

2）成本（token cost）也被单独拿出来讲

报告里专门放了一张图，强调 K2.5 在几个 agent benchmark 上能做到“更强 + 更便宜”。

这一点对普通用户的体感就是：

同样一个复杂任务，模型更愿意“动手”（用工具、写脚本、做验证），而不是只给一堆口头建议。
如果你是 API 用户，成本结构会影响你能不能把它真的接入到产品/工作流里。

在这里插入图片描述

三、我最关心的：它的“前端审美”真的提升了吗？

官方在报告里直接写：K2.5 在 front-end development 上尤其强。

在这里插入图片描述

而且它强调的不是“写得出页面”，而是：

能做 interactive layouts
能做 rich animations（例如滚动触发效果）
能把图片/视频当成需求输入，直接走 image/video-to-code

这几句话对前端来说很敏感：

以前很多模型“功能能跑”，但页面带着一股浓浓的 AI 味：

间距、字号、配色像默认模板
层级关系混乱
动效不是没有，就是非常粗糙

所以我做了两个非常“偏私心”的测试：

网页审美：同一份祖传 prompt，对比我过去用 Gemini 3 Pro 的体验。
图片复刻：拿小红书的三个界面，让它尽量还原（顺便测图像理解+组件拆解能力）。

四、实测 1：网页审美（结论：好看，但慢）

我的测试方法

我用了我一直拿来生成“个人数字网站”的那份提示词（提示词不在这里展开，避免文章太长）。

测试环境：

使用 Kimi 网页端
选择 Agent 模式

结论先说

审美不错：至少我自己挺喜欢的。
AI 味不重：生成的页面没有那种“模板拼接感”。
但速度真的慢：不是思考很久，而是执行链路整体偏慢（尤其是涉及生成资源、组织文件、迭代页面的时候）。

这里我反而觉得它更像“认真做事的团队新人”：

思路不拖泥带水
但把东西落地、跑流程、出结果，需要时间

五、实测 2：小红书界面复刻（结论：惊艳，但稳定性需要再打磨）

为什么选小红书？

因为它是典型的“高审美 + 高工程复杂度”的结合体：

信息密度高
UI 细节多（卡片、标签、头像、间距）
组件复用强
状态复杂（推荐流、详情、评论、收藏/点赞）

我给了它 3 个界面让它复刻。

过程中发生了什么

K2.5 生成了非常多的图片资源
中途莫名中断了一次，没有完成代码撰写和部署
过一会又恢复了（我猜可能是当时用的人太多）

最终效果

尽管过程磕磕绊绊，但最终出来的界面让我有点惊到：

真的有“小红书那味道”
组件层级、留白、字体大小的选择比较像“人做的”

我把复刻效果放在这里，你可以直接点开看（目前只做了电脑端适配）：

https://tjb4cuoijc2wu.ok.kimi.link/
在这里插入图片描述

六、为什么它能做到“看着图/视频写前端”？

这里就要回到报告里一句话：

K2.5 excels at coding with vision.

它的核心不是“接了个视觉模型”，而是通过大规模的视觉-文本联合预训练，让模型具备一种更接近人类的表达方式：

你可以用图片/视频表达需求
模型能把视觉信息映射到可执行的工程结构（组件、布局、样式、资源）
还能在迭代里做 visual debugging（看着自己的输出改）

官方举的例子里包括：

从视频重建网站
看着一个迷宫图，用 Python 找最短路径并可视化

这种能力一旦成立，意味着“需求表达”的门槛会下降：

以前要描述 UI：你要写一大段文字
现在你可以说：就照这个图来（甚至是照这个视频的交互来）

七、另一个大招：Agent Swarm（不是一个人做项目，是 100 个同事一起做）

如果说“看图写代码”解决的是表达与落地，那 Agent Swarm 解决的是另一件事：

复杂任务里，最大的敌人往往不是智商，而是时间（以及串行的步骤依赖）。

官方给的数据很激进：

最多 100 个子智能体
最多 1,500 次工具调用
相比单 Agent，最多能快 4.5x

并且它强调：

子 Agent 不是预先手工定义的
工作流也不是写死的
而是模型自动创建并编排

在这里插入图片描述

报告里提到他们用 **Parallel-Agent Reinforcement Learning（PARL）**训练一个“可学习的编排器（orchestrator）”，去避免常见失败模式：

serial collapse（串行塌缩）：明明可以并行，但 orchestrator 懒得拆，最后还是一个 agent 从头干到尾

以及他们用一个更贴近并行计算的指标：Critical Steps，去逼迫系统真的用并行缩短关键路径。

八、写代码这件事：K2.5 的定位可能更像“能落地的工程队”

官方也给了不少 coding benchmark：

SWE-Bench Verified：76.8
SWE-Bench Multilingual：73.0
LiveCodeBench v6：85.0

这些分数当然重要，但对我来说更重要的是它在产品层的配套：

Kimi Code：在终端里用，也能接入 VSCode / Cursor / Zed 等
支持图片和视频输入
能发现并迁移 MCP/技能到环境

这类“生态接入”的完善程度，会直接决定它是不是能成为你每天都用的生产力工具。

九、我的真实感受（优点很明确，短板也很真实）

我认为它最强的地方

视觉 + 代码的结合很实用：尤其是前端、产品、设计协作场景
Agent 能力更像“能把事做成”：不是聊天式建议，而是能执行、能闭环
审美显著进步：至少在我测的前端页面生成/复刻里，明显更像“人做的”

你可能会踩的坑

速度/稳定性：任务复杂时，链路长、资源多，容易慢或中断
高峰期体验波动：我这次复刻小红书时就遇到过中断
不要只看一个分数：K2.5 在不同任务类型的表现有强弱分布，适配场景更重要

十、怎么上手最划算？（给不同人群的建议）

如果你是普通用户：
- 先在 Kimi.com 用 K2.5 Agent 做一次完整任务（比如“把这个页面复刻出来并部署”），你会最快理解它的优势。
如果你是前端/设计/产品：
- 直接用“图片/视频 + 需求”驱动它做页面，你会明显感到表达成本下降。
如果你是开发者/API 用户：
- 建议先把“工具链”配齐（IDE、终端、浏览器、截图对比），再评估它的吞吐与成本。