Generative UI & Ferret-UI
UI智能化研究呈现两大核心方向:生成式UI(GenerativeUI)与理解式UI(Ferret-UI)。生成式UI让AI成为"体验构建者",通过动态生成交互界面实现范式跃迁,从静态答案输出升级为可操作的微应用,在教育、商业决策等领域展现巨大潜力。理解式UI则让AI成为"操作协作者",通过深度解析现有界面元素,为无障碍交互、智能助手等场景提供支持。二者协同演
当前主流的对 UI智能化研究图谱包含以下方面。
界面生成:如何从无到有创造UI?代表方向Generative UI,AI即"产品团队",代表产品 Google Gemini3 Pro,AI角色是体验构建者;
界面理解:如何深度理解现有UI?代表方向Ferret-UI,AI即"界面助手",Meta Ferret-UI 系列研究,AI角色是操作协作者;
意图理解:如何从自然行为读懂用户?代表方向Semantic Ink / SIAgent,AI即"意图感知者",斯坦福/苹果研究,AI角色是需求洞察者;
人机协同:如何与人类共同创造?代表方向DesignBridge / 设计师反馈,AI即"创意伙伴",Adobe/微软研究,AI角色是能力增强者;
空间交互:如何突破屏幕边界?代表方向Physical AI / VR交互,AI即"空间交互引擎",Meta / 苹果 Vision Pro 研究,AI角色是环境交互者;
当前主流的 UI 智能化研究图谱涵盖多个方向,其中对在线互联网产品影响最为深远的两大方向是 生成式 UI(Generative UI) 和 UI 理解( Ferret-UI )。这两者之所以关键,是因为它们直接作用于互联网产品的核心交互界面——一个决定用户如何获得界面,一个决定用户如何使用界面,共同构成了从流量入口到操作体验的完整闭环。
生成式 UI 使 AI 能够根据用户需求实时生成动态交互界面,可能重塑用户流量入口(例如将传统的搜索列表转变为可操作的微应用),并催生新的商业模式(如从广告点击转向任务完成付费)。
UI 理解 则让 AI 能够深度解析现有界面的元素与功能,推动系统级智能助手的发展(例如跨应用的自动化操作),从而改变人机交互方式,提升用户体验。
这两项技术的协同演进将共同驱动互联网产品的体验升级,并促使从业者(如设计师、开发者)的角色从“手动构建界面”向“智能协同设计”转型。
1、Generative UI(Google)
Generative UI的目标是让AI成为一个“即时产品团队”,用户通过自然语言提出需求,AI即可动态生成完整的交互界面。其演进路径清晰:从早期基于模板的静态UI生成、代码生成,逐步过渡到当前由LLM驱动的动态响应式生成。当前技术范式强调多模态融合、即时工具调用与后处理优化,旨在从单纯的内容生成走向完整的交互体验构建。
◦ Generative UI发展与核心学术报告 关键论文
◦ Generative UI: LLMs are Effective UI Generators(Google,2025):论证LLM可生成动态响应式UI,对比标准Markdown输出,人类更偏好其生成结果。核心机制:Gemini 3 Pro + 工具访问(图像生成、搜索等)+ 精细系统指令 + 后处理纠错,实现从prompt到完整交互界面的生成。https://generativeui.github.io/static/pdfs/paper.pdf
◦ Towards a Working Definition of Designing Generative User Interfaces(ACM,2025):提出GenUI的设计维度(表征保真度、时序上下文、适应性/可塑性),分析其对传统UI设计流程的变革。
https://arxiv.org/abs/2505.15049
◦ Generative AI: A Systematic Review of Related Interfaces and Interactions(ACM,2025):综述生成式AI界面与交互,归纳6种模态使用模式与4类端到端应用流程。https://dl.acm.org/doi/full/10.1145/3749012.3749052
1.1 为什么要提出这个方向的研究
这项技术的提出,并非简单的界面自动化,而是对交互范式的三重颠覆:
1、 范式跃迁:从“读答案”到“进应用” 传统AI的输出是静态的(文字、图片、链接),而Generative UI输出的是一个动态的、可交互的“微应用”。当你询问一个复杂概念时,你得到的不是一个段落,而是一个可以操作、探索、控制参数的交互界面。这就像是从只能阅读产品说明书,升级为可以直接上手操作的模拟器。
2、 体验革命:从“千人一面”到“一人千面” 它终结了固定的UI模板时代。界面不再是设计师提前画好的一张皮,而是由AI根据你的实时需求、上下文甚至情绪,在现场为你“裁剪”出来的。数据显示,这种动态适配的界面能使用户满意度比传统界面更能做到“所想即所得”。
3、 能力平权:从“写代码”到“提需求” 它极大地降低了创造的门槛。过去,将一个想法变成一个可用的工具,需要产品经理、设计师、工程师的漫长协作。现在,任何人只需用自然语言描述需求,Generative UI就能在几分钟内生成一个可交互的原型甚至成品。对于非技术背景的研究者或业务人员来说,这意味着开发自主性的巨大提升。
1.2 应用场景
1、 复杂概念的教学与沟通:这是最能体现Generative UI威力的场景。例如,向AI询问"如何给5岁小朋友科普微生物的重要性?"传统AI输出大段文字;Generative UI则生成一个动态交互绘本:屏幕上是人体轮廓,肠道区域有会动的小点代表益生菌,旁边配有"放大镜"按钮(点击可看到细菌细节)、"战斗模式"开关(开启后显示有益菌与有害菌对抗动画)、以及可调节的"营养摄入"滑块(拖动时肠道菌群数量随之变化)。学习者不再是读知识,而是操作知识。
2、 数据驱动的即时决策:在商业智能或SaaS产品中,当管理者问“本周预期收入是多少?”或“哪位技术员效率最高?”,Generative UI不再返回冰冷的数字,而是实时生成带有趋势线的图表、饼图以及自动撰写的核心洞察。
3、 构建超越搜索的探索体验:未来的搜索将不再是链接列表,而是一个个可操作的工具。比如搜索“对比三款电动车”,Google的Generative UI可以在搜索结果页直接生成一个包含参数对比、筛选器甚至排序功能的交互表格,让用户在现场完成决策。
4、 超个性化的电商导购:当用户搜索“约会穿搭”这种模糊需求时,Generative UI不再展示标准化的商品列表,而是动态组合出一个包含风格推荐、AR虚拟试衣、搭配教程视频的专属界面。
1.3 商业价值
1、 重塑入口,颠覆流量分配:GenUI让AI聊天界面本身成为一个“操作系统”。未来,用户订酒店、购物可能不再需要打开特定的App,而是在AI对话中直接由AI生成操作界面来完成。这意味着,谁掌握了GenUI,谁就可能成为下一个超级流量入口,这是巨大的商业利益。
2、 提升转化与粘性:它能实现极致的“超个性化”。例如,商务人士和度假家庭在订房时,AI生成的界面会完全不同,直接推送最相关的信息。这种“所想即所得”的体验能极大提升用户满意度和商业转化率。
3、 重塑SaaS价值:正如分析指出的,2026年是“AI原生应用”的时代。GenUI让软件从“工具”进化为能主动提供方案的“智能引擎”,这对于希望构建下一代产品的SaaS公司来说,是构建核心竞争力的关键。
2、Ferret-UI核心研究(Meta)
以Ferret-UI为代表的研究方向,是理解式交互(解析并操作现有界面),旨在让AI成为一个智能“界面助手”,辅助用户在现有UI中完成精准操作与任务。该方向的核心挑战在于解决通用多模态大模型在移动UI理解上的短板,如长屏适配差、小元素识别弱、缺乏深度交互推理能力。其技术重心在于视觉增强、细粒度理解与目标导向的推理。
◦ Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs
关键技术:
◦ 任意分辨率处理:子图像分割+细粒度编码,保留小元素细节。
◦ 视觉-语言融合:增强UI元素指代与定位,支持OCR、图标分类、部件列表生成。
◦ 高级推理:屏幕功能推断、交互对话与目标导向操作建议。
• 应用方向:
移动UI自动化测试、无障碍交互、智能助手的界面控制等。
• 相关论文:
Ferret-UI(2024.4)https://arxiv.org/pdf/2404.05719
Ferret-UI 2(2025.2)https://arxiv.org/pdf/2410.18967
Ferret-UI-Lite(2025.10)https://arxiv.org/abs/2509.26539
2.1 为什么要提出这个方向的研究
在Ferret-UI出现之前,通用AI模型在处理UI时面临几个天生短板:
1、 解决了“看不清”的问题:UI屏幕通常是长条形,且上面布满小图标和文字。Ferret-UI引入了“任意分辨率”(Any Resolution)技术,通过将屏幕分割并单独编码,就像用放大镜仔细观察每个角落,从而不丢失任何细节。
2、 实现了“能理解”的飞跃:它不只是识别元素,而是构建了 “指代、定位、推理” 三大核心能力。这意味着它能理解“把“设置”里“Wi-Fi”的开关打开”这样的复杂指令,并精确执行。
3、 完成了“跨平台”的进化:从最初的Ferret-UI专注于移动端,到Ferret-UI 2扩展到iPhone、Android、iPad、网页甚至Apple TV,实现了跨平台的通用UI理解。
4、 攻克了“端侧运行”的挑战:最新推出的Ferret-UI Lite是一个仅30亿参数的轻量级模型,它通过“推理时裁剪”等技术,能在手机上高效运行。
2.2 应用场景
1、 为视障人士打造的无障碍交互:想象一下,视障用户只需说出“帮我点外卖”,AI就能自动理解屏幕内容,引导或代替用户完成点击、滑动等操作。Ferret-UI的精准理解和本地化运行能力,让这种实时、安全的交互成为可能。
2、 实现“自动操作App”的智能助理:未来你的手机助手可以完全在本地执行复杂任务,比如“帮我预订周五晚上的餐厅”。它能自己打开相关应用,理解界面,输入信息,完成预订。这得益于Ferret-UI Lite在端侧强大的GUI导航能力。
3、 大规模、跨平台的UI自动化测试:对于开发者,Ferret-UI 2可以模拟真实用户在成千上万种不同手机、平板上操作应用,自动发现界面bug或兼容性问题,极大提升测试效率和覆盖范围。
4、 构建真正的“系统级”智能助手:这是苹果等厂商的核心目标。通过Ferret-UI深度理解各生态App提供的服务,AI可以打破应用之间的壁垒。例如,当你说“把朋友刚发来的地址加到日程里”,AI能理解“朋友发来”在微信,“地址”是高德地图,“日程”在日历中,并自动完成操作。
Ferret-UI提出的意义,就像是给AI装上了一双能读懂屏幕的“眼睛”和会操作界面的“双手”,为实现更智能、更自然、更安全的人机交互铺平了道路。
2.3 商业价值
1、 掌控核心入口,打造系统级智能:对于苹果、Google这样的平台方,AI如果不能深度理解系统内的App,就无法提供真正的智能服务。Ferret-UI这类技术,正是让Siri等助手从“执行简单命令”进化到“在App内帮你完成任务”的关键一步。这关乎到操作系统的智能化升级,是巨头必须占据的战略要地。
2、 隐私与合规的终极方案:Ferret-UI Lite的突破在于,它证明了强大的UI理解能力可以在端侧(3B参数)实现,性能甚至不输云端巨模型。在数据隐私法规日益严格的今天,这种本地化、保护隐私的智能,是赢得用户信任、满足合规要求的终极护城河。
3、 赋能存量生态,而非推倒重来:Ferret-UI的价值在于理解和优化现有的、数以百万计的App生态。它让AI助手能直接服务于这些存量应用,而不是要求开发者都去为新范式重写代码。这种“向下兼容”的赋能,战略价值巨大。
结尾
当前UI智能化研究图谱中,生成式UI与理解式UI构成了两条核心演进主线:
生成式UI面向未来,让AI成为“体验构建者”,以动态生成的交互界面重塑流量入口与商业模式
理解式UI深耕当下,让AI成为“操作协作者”,以深度解析现有界面的能力赋能系统智能与隐私保护
这两条路径并非竞争,而是互为表里的协同演进——理解是生成的基础,生成是理解的延伸。它们的交汇点,正是下一代智能交互的终极形态:一个既能理解现有世界、又能创造新世界的“AI原生交互层”。正如图形界面催生了PC时代,触控交互定义了移动时代,从“固定界面”到“智能生成与理解”的跨越,正在开启人机交互的下一个时代。
更多推荐

所有评论(0)