Kimi K2.5发布:原生多模态 + Agent Swarm,我用它把小红书「复刻」了一遍

昨天,Kimi 发布了新模型 Kimi K2.5

我一开始以为这会是一次“常规升级”:更大的参数、更长的上下文、更高的分数……但翻完官方技术报告后,最大的感受反而是——K2.5 更像是在补齐一个方向:

  • 不只是“会看图”。而是原生多模态,从训练开始就把视觉和文本当成同一个大脑要处理的信息。
  • 不只是“会用工具”。而是能把复杂任务拆成并行子任务,自己拉起一个**Agent Swarm(最多 100 个子智能体)**去跑。
  • 不只是“能写代码”。而是强调 Coding with Vision:看着图片/视频写前端、查错、迭代,甚至做审美。

更关键的是:这些能力不是停留在 PPT 上。至少在我最常用的领域——前端设计——K2.5 给了我一波真实的“惊艳”。
在这里插入图片描述


一、先看官方:K2.5 到底升级了什么?

官方报告开门见山:Kimi K2.5 是“目前最强的开源模型”。

它基于 K2 继续预训练,使用了约 15T 的混合视觉与文本 tokens,并且强调一句关键点:Built as a native multimodal model(原生多模态)

另外,Kimi.com 和 App 也同步更新了 4 种模式:

  • K2.5 Instant
  • K2.5 Thinking
  • K2.5 Agent
  • K2.5 Agent Swarm (Beta)
    在这里插入图片描述

如果你只把它当“聊天模型”,可能感知不到它的全部威力;但如果你把它当成“能执行任务的系统”,K2.5 的路线就很清晰了:

  • Coding with Vision:看图/视频写代码、做视觉 Debug、把“审美”纳入迭代回路。
  • Agent Swarm:不是一个 Agent 走到黑,而是并行拉起多个子 Agent 并行工作。
  • Office Productivity:面向真实办公产出(文档、表格、PDF、Slides)的长链路任务。

二、Benchmark 里最扎眼的:Agent 能力和“成本”

我知道很多人看 Benchmark 会疲劳,但 K2.5 这次有两点确实值得扫一眼。

1)Agent 相关榜单:不只是“能调用工具”,而是“能把事做成”

官方拿了几个偏 agentic 的 benchmark 来展示:

  • HLE-Full(含工具):K2.5(Thinking)= 50.2,对比 GPT-5.2(xhigh)= 45.5
  • BrowseComp:K2.5 = 60.6(有上下文管理策略的版本更高)
  • DeepSearchQA:K2.5 = 77.1

这类榜单的意义不在于“谁多 1 分”,而在于它更接近真实工作流:

  • 有信息缺口
  • 需要多步推理
  • 需要工具来验证/检索/执行
  • 最终要交付一个可用结果

换句话说,它衡量的是“能不能把任务闭环”。

2)成本(token cost)也被单独拿出来讲

报告里专门放了一张图,强调 K2.5 在几个 agent benchmark 上能做到“更强 + 更便宜”。

这一点对普通用户的体感就是:

  • 同样一个复杂任务,模型更愿意“动手”(用工具、写脚本、做验证),而不是只给一堆口头建议。
  • 如果你是 API 用户,成本结构会影响你能不能把它真的接入到产品/工作流里。

在这里插入图片描述


三、我最关心的:它的“前端审美”真的提升了吗?

官方在报告里直接写:K2.5 在 front-end development 上尤其强。

在这里插入图片描述

而且它强调的不是“写得出页面”,而是:

  • 能做 interactive layouts
  • 能做 rich animations(例如滚动触发效果)
  • 能把图片/视频当成需求输入,直接走 image/video-to-code

这几句话对前端来说很敏感:

以前很多模型“功能能跑”,但页面带着一股浓浓的 AI 味:

  • 间距、字号、配色像默认模板
  • 层级关系混乱
  • 动效不是没有,就是非常粗糙

所以我做了两个非常“偏私心”的测试:

  • 网页审美:同一份祖传 prompt,对比我过去用 Gemini 3 Pro 的体验。
  • 图片复刻:拿小红书的三个界面,让它尽量还原(顺便测图像理解+组件拆解能力)。

四、实测 1:网页审美(结论:好看,但慢)

我的测试方法

我用了我一直拿来生成“个人数字网站”的那份提示词(提示词不在这里展开,避免文章太长)。

测试环境:

  • 使用 Kimi 网页端
  • 选择 Agent 模式

结论先说

  • 审美不错:至少我自己挺喜欢的。
  • AI 味不重:生成的页面没有那种“模板拼接感”。
  • 但速度真的慢:不是思考很久,而是执行链路整体偏慢(尤其是涉及生成资源、组织文件、迭代页面的时候)。

这里我反而觉得它更像“认真做事的团队新人”:

  • 思路不拖泥带水
  • 但把东西落地、跑流程、出结果,需要时间
    在这里插入图片描述

五、实测 2:小红书界面复刻(结论:惊艳,但稳定性需要再打磨)

为什么选小红书?

因为它是典型的“高审美 + 高工程复杂度”的结合体:

  • 信息密度高
  • UI 细节多(卡片、标签、头像、间距)
  • 组件复用强
  • 状态复杂(推荐流、详情、评论、收藏/点赞)

我给了它 3 个界面让它复刻。

过程中发生了什么

  • K2.5 生成了非常多的图片资源
  • 中途莫名中断了一次,没有完成代码撰写和部署
  • 过一会又恢复了(我猜可能是当时用的人太多)

最终效果

尽管过程磕磕绊绊,但最终出来的界面让我有点惊到:

  • 真的有“小红书那味道”
  • 组件层级、留白、字体大小的选择比较像“人做的”

我把复刻效果放在这里,你可以直接点开看(目前只做了电脑端适配):

https://tjb4cuoijc2wu.ok.kimi.link/
在这里插入图片描述


六、为什么它能做到“看着图/视频写前端”?

这里就要回到报告里一句话:

K2.5 excels at coding with vision.

它的核心不是“接了个视觉模型”,而是通过大规模的视觉-文本联合预训练,让模型具备一种更接近人类的表达方式:

  • 你可以用图片/视频表达需求
  • 模型能把视觉信息映射到可执行的工程结构(组件、布局、样式、资源)
  • 还能在迭代里做 visual debugging(看着自己的输出改)

官方举的例子里包括:

  • 从视频重建网站
  • 看着一个迷宫图,用 Python 找最短路径并可视化

这种能力一旦成立,意味着“需求表达”的门槛会下降:

  • 以前要描述 UI:你要写一大段文字
  • 现在你可以说:就照这个图来(甚至是照这个视频的交互来)
    在这里插入图片描述

七、另一个大招:Agent Swarm(不是一个人做项目,是 100 个同事一起做)

如果说“看图写代码”解决的是表达与落地,那 Agent Swarm 解决的是另一件事:

  • 复杂任务里,最大的敌人往往不是智商,而是 时间(以及串行的步骤依赖)。

官方给的数据很激进:

  • 最多 100 个子智能体
  • 最多 1,500 次工具调用
  • 相比单 Agent,最多能快 4.5x

并且它强调:

  • 子 Agent 不是预先手工定义的
  • 工作流也不是写死的
  • 而是模型自动创建并编排

在这里插入图片描述

报告里提到他们用 **Parallel-Agent Reinforcement Learning(PARL)**训练一个“可学习的编排器(orchestrator)”,去避免常见失败模式:

  • serial collapse(串行塌缩):明明可以并行,但 orchestrator 懒得拆,最后还是一个 agent 从头干到尾

以及他们用一个更贴近并行计算的指标:Critical Steps,去逼迫系统真的用并行缩短关键路径。


八、写代码这件事:K2.5 的定位可能更像“能落地的工程队”

官方也给了不少 coding benchmark:

  • SWE-Bench Verified:76.8
  • SWE-Bench Multilingual:73.0
  • LiveCodeBench v6:85.0

这些分数当然重要,但对我来说更重要的是它在产品层的配套:

  • Kimi Code:在终端里用,也能接入 VSCode / Cursor / Zed 等
  • 支持图片和视频输入
  • 能发现并迁移 MCP/技能到环境

这类“生态接入”的完善程度,会直接决定它是不是能成为你每天都用的生产力工具。


九、我的真实感受(优点很明确,短板也很真实)

我认为它最强的地方

  • 视觉 + 代码的结合很实用:尤其是前端、产品、设计协作场景
  • Agent 能力更像“能把事做成”:不是聊天式建议,而是能执行、能闭环
  • 审美显著进步:至少在我测的前端页面生成/复刻里,明显更像“人做的”

你可能会踩的坑

  • 速度/稳定性:任务复杂时,链路长、资源多,容易慢或中断
  • 高峰期体验波动:我这次复刻小红书时就遇到过中断
  • 不要只看一个分数:K2.5 在不同任务类型的表现有强弱分布,适配场景更重要
    在这里插入图片描述

十、怎么上手最划算?(给不同人群的建议)

  • 如果你是普通用户
    • 先在 Kimi.com 用 K2.5 Agent 做一次完整任务(比如“把这个页面复刻出来并部署”),你会最快理解它的优势。
  • 如果你是前端/设计/产品
    • 直接用“图片/视频 + 需求”驱动它做页面,你会明显感到表达成本下降。
  • 如果你是开发者/API 用户
    • 建议先把“工具链”配齐(IDE、终端、浏览器、截图对比),再评估它的吞吐与成本。

最后还是那句话:

判断一个模型到底行不行,最好的方式不是读任何解读(包括这篇),而是自己真的去亲手试一次。

如果你也测了 K2.5,欢迎留言告诉我:

  • 你在哪个场景觉得它“离谱地好用”?
  • 又在哪个场景觉得它“还差点意思”?
Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐