就在昨天,Kimi 正式发布了 K2.5 版本。点开公告一看,好家伙,这是要 “掀桌子” 啊!

这次 Kimi 不仅把模型能力拉满了(Lookahead 推理、长上下文),还直接开源了 K2.5 模型。

不过,数据好不代表用起来好,是骡子是马还得先拉出来溜溜。

这次更新最大的两个亮点:Visual Coding(视觉编程)Agent 集群。简单说,就是 AI 不仅能看懂你的屏幕,还能分身成一支团队帮你干活。

刚好我有个 idea 想试试,做一个 赛博朋克风格的番茄钟

为了验证 K2.5 的真实实力,我给它定了个小目标:我全程不碰代码,只靠动嘴和截图,看这玩意儿到底能不能真落地。

Agent 集群初体验

在开始大项目之前,我先拿 Kimi 试了个开胃菜 。

以前我们用 AI,都是一问一答模式。但 Kimi K2.5 的 Agent 集群打破了这个限制,它可以瞬间拆解任务,同时调度多个 Agent 协同工作

我发了一条指令试水:

帮我批量调研过去 10 年最奇葩的“搞笑诺贝尔奖”(Ig Nobel Prize),生成一个 Markdown 表格,列出年份、奖项、获奖者和搞笑理由。

整个过程大约持续了8分钟,我看到它分配了10个Agent,然后每个人分别去查一年的资料,最后刷刷刷给我列出了一个表格!

以前这种活,我得自己搜完一个,再搜下一个,或者不停点 “继续生成”。

现在 Kimi 瞬间理解了批量意图,后台自动拆分任务去查资料,然后汇总给我。

这种高效率的爽感,让我对后面的项目充满了信心!

而且它的工作过程,让我看到,确实是一步步脚踏实地去做的,每一个 SubAgent 都真实的去做了调研,而不是随便找一个别人整理的不确定真实性的那种结果。

这种能力,对于做产品或者做科研来说,都是相当有用的。

那么接下来,要开始做我们的番茄钟了!

第一步:调研

要开发产品,绝不能拍脑袋。以前做竞品调研、查文献,少说得花一下午。现在?交给 Agent 集群。

我直接给它下了这个任务:

帮我调研 50 篇关于“番茄工作法与专注力提升”的心理学论文或高引用文章,总结出最科学的专注时间、休息间隔,以及什么样的白噪音最能提升效率。

在 Kimi 的任务管理器里,瞬间爆出了几个子任务,这就好比你手下多了几个实习生,每个人领了几篇论文去读。

看着后台刷刷刷全是它干活的记录,而我只能在一旁摸鱼,这种 一人成军 的感觉太棒了!

几分钟后,一份深度报告出来了:

  • 最佳节奏:25-30分钟专注+5分钟休息
  • 意外发现粉红噪音/自然声音(45-55dB) 对提升专注力有显著效果

而且还整理了很多的报告文档,以及它阅读了哪些论文,论文链接、摘要之类的都给整理出来了。

(右侧是它整理的文档内容)

这调研能力真的很强,普通人依靠它也完全可以做好一个初步的调研。

Visual Coding

有了需求,接下来就是开发。

这次,我选择不碰代码,而是试试 K2.5 的新功能,Video-to-Code(视频生成代码)

视频复刻

既然要做赛博朋克风,那种故障艺术(Glitch)的动效是灵魂。但这种效果很难用文字描述清楚,“滋滋啦啦的”、
“有点跳变”,AI 哪能听懂这个?

所以我直接去 CodePen 上找了一个 Glitch 文字效果的 Demo,录了段屏丢给了 Kimi:

看这个视频里的文字效果。帮我做一个番茄钟网页:

  1. 倒计时 25 分钟,支持开始、暂停、重置
  2. 倒计时数字要有这种故障抖动、颜色闪烁的效果
  3. 背景播放 45Hz 双耳节拍白噪音
  4. 整体风格要赛博朋克,霓虹配色

(这是我找的效果)

很快啊,大概3分钟就做完了,结果让我有些惊讶。

仅仅凭借视觉信息,Kimi 就复刻出了几乎一模一样的 CSS 关键帧动画。倒计时数字开始随机抖动、变色,还原度相当高,非常有赛博朋克的感觉。

然后我又尝试了不同风格的番茄钟,科技风、毛玻璃风……我发现这种简单页面对它来说简直小儿科。

既然这样,我决定给它上点难度,整点复杂度更高的东西试试。

复刻高端动效

我找了一个觉得不错的交互效果,录了一段它的 Tab 切换动效,那种有层次的物理感交互。

然后我直接把视频丢给了 K2.5,让它参照视频给我复刻一个一样的。

结果 Kimi 不仅复刻了布局和画风,还捕捉到了很多细节:

  • 半透明毛玻璃卡片边框
  • 三张卡片以不同的节奏上下浮动
  • 卡片内部元素的延迟加载和弹跳动画

Kimi2.5复刻tab动效

整体都还原得相当到位👍🏻。

完整 Landing Page

既然单个组件没问题,那整页呢?我又找了一个设计感很强的 Landing Page,这次我直接把网站URL丢给了它,让它帮我复刻。

它首先打开并且查看了网站的内容,分析网站的设计风格,然后生成需要的素材图片,最后开始复刻网站。

大概花了 10 分钟,生成了一个完整的 Landing Page。虽然细节上还需要微调,但整体框架和动效已经有模有样了。

Kimi 2.5 复刻网页

这让我想到,以前做一个这样的页面,光是切图加写样式就得半天。现在?录个屏或者丢个链接,剩下的交给 Kimi。

Visual Edit:哪里不爽圈哪里

不管是番茄钟还是 Landing Page,生成的初版总会有些小瑕疵。

换做以前,改这种细节是比较麻烦的。我得去 F12 里找到对应元素,然后跟 AI 描述“把第三个 div 的 margin-top 改成 20px”之类的。

现在?Kimi 支持 Visual Edit(视觉调整)。直接在预览界面用鼠标圈选不满意的地方,然后让它改就行。

Kimi 精准定位代码,很快就能修改完成。这种"圈哪里改哪里"的交互方式,用起来确实很爽。

而且代码可以直接下载,或者一键部署到 Kimi 的托管服务上。

尾声

捣鼓了一上午,我用 Kimi K2.5 做出了赛博朋克番茄钟,还顺手复刻了几个高端网页动效。

整个过程,我连一行代码都没碰,只充当了产品经理和审美把关人的角色:

  • 调研:交给 Agent 集群,50 篇论文分钟级消化
  • 开发:交给 Visual Coding,看视频直接生成代码
  • 调整:交给 Visual Edit,圈选即改

除了这些,你还可以让它帮你批量生成图片,比如请 10 个风格截然不同的知名艺术家,每人为我设计一张马年主题微信表情包。也可以给它一张风景图让它识别地点,甚至丢一道行测图形推理题让它帮你分析。

整体体验下来,Kimi K2.5 这次的升级确实有看点:Agent 集群的并发效率、Visual Coding 的所见即所得、还有开源模型带来的想象空间

尤其是 Visual Edit,对于开发者来说简直是福音。以前改个样式要翻代码半天,现在圈一下说句话就搞定。

当然,K2.5 的全部能力还需要更多场景来验证。比如生成的代码在复杂项目里能不能直接用、长期维护性如何,这些都有待观察。但作为一个快速验证想法、做 Demo 的工具,它已经相当能打了。

参考链接

K2.5 开源模型:https://huggingface.co/moonshotai/Kimi-K2.5

K2.5 发布公告:https://www.kimi.com/blog/kimi-k2-5.html

Kimi 官网:https://www.kimi.com/

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐