大语言模型以惊人的速度迭代,半个月一发,能力也确实达到了可以替代许多初级岗位的水平。AI创业项目层出不穷,许多应用不约而同地选择了一个极其简单的交互方式:一个对话框,直接询问用户需要什么。这就把难题抛回给了用户。面对一个简单的对话框,用户往往并不清楚自己具体能干什么、该怎样表达。

随意的提问,只能换来随意的回答。现实中还出现了多起AI代理(Agent)删除了整个磁盘的文件这样的极端案例。许多AI应用怎么就给人一种不能用、不好用、不敢用的强烈感受呢?

1. 提前到来的AI失控

科幻作品中的AI失控似乎已经提前到来。粗糙的AI应用与现有的工程化应用之间的巨大断层,首先体现在能否正确实现业务目标。

“不能用”,就是没有实现业务目标。对一个通用的大语言模型来说,最重要的就是设计提示词。一套好的提示词,和一套好的功能代码一样,需要融合对业务目标和实现路径的深刻理解。普通用户显然不具备这种专业能力,他们无法凭空给出有效的指令。许多开发者自身若对所要实现的功能理解肤浅,也无法设计出能精准、稳定驱动模型的提示词。这时,是开发者将原来由产品承担的复杂性直接抛给了用户。

使用过程中“不好用”的失控感,其核心在于模糊的功能边界。用户面对一个空白的对话框,就像被蒙上双眼带入一个未知的房间,无法建立起关于这个工具能力的心智模型。

一个传统软件,如计算器,按钮即功能,边界一目了然;Wolfram Alpha 这类早期AI引擎,有一套隐含的语法规则,用户要通过学习案例才知道有哪些高级功能;而当前许多仅提供一个对话框的AI应用,则像一个黑箱,它既不明确展示自己能做什么,也不提供清晰的引导路径。开发者盲目追求万能,用户无从下手,学习成本高,劝退了很多寻求实用、高效工具的普通用户。

“不敢用”则是用户难以建立信任。这源于过程不透明,权限无限制。用户得到一份长篇大论,既不清楚其数据来源和处理逻辑,也难以验证其推理过程。模型的幻觉使得结果的可靠性大打折扣。Agent(智能体)的失控,就像是一个拥有过高系统权限的实习生;而不是像电话客服一般,只能执行一部分岗位限定的操作。还有一些工作流由多个串联的Agent部分组成,模型的不可靠性会成倍放大,在现实问题面前异常脆弱。

这都指向了一个核心问题:在急于将“智能体”推向市场的同时,我们严重忽视了对其能力边界、行为准则和可靠性保障的系统性设计。

2. 是谁在管理AI工具人

一个AI应用,就像一家咨询公司,用户是甲方,AI应用是乙方。开发者作为公司的老板,绝不能当甩手掌柜。甲方(用户)提出一个模糊的需求,老板直接将其原封不动地丢给一个实习生去做(AI模型),指望他能独立交付一份专业、可靠的成果,这非常不负责任。

专业的乙方老板,会首先与甲方深入沟通,理解业务目标和潜在约束,然后将宏大的需求拆解成具体可执行的步骤。老板深知实习生的局限性,会安排公司里稳定、可靠的优秀员工(传统函数和确定性代码)来负责那些需要精准无误的核心环节,再编写一套清晰、具体、无歧义的任务书(提示词)给实习生。整个公司的架构(应用架构)和业务流程确保了各项任务的有序执行、高效配合。最终向甲方交付的是一个完整、可控的解决方案,不是一份充满不确定性的实习生草稿。

当业务逻辑变得复杂,需要多个AI工具人协同时,情况就如同大学生在做小组作业。如果没有老师(即开发者设计的顶层控制与协调架构)和优等生(传统函数,稳定性很高的提示词)主导,这些学生(多个 Agent)很容易陷入讨论僵局、重复劳动或者集体跑题。

开发者必须做好老师的角色,为整个协作流程设立明确的规则;用一些较为简单稳定的提示词或传统程序来主导关键决策,防止讨论偏离正轨。无论单个Agent表现得多么智能,它本质上仍是一个执行工具,绝不能将其提升为拥有最终决定权的合伙人或老板。让AI Agent担任中层管理的设计,其背后都应有开发者构建的确定性规则作为“高管”进行监督。

用户寻求的是解决实际问题的确定性,从而建立信任。这份确定性来自于开发者对业务流程的系统化设计。也就是说,开发者要对业务有超越表面的理解,能清晰的定义出业务模型,也能将实现细节、各种边界条件,固化在应用的产品逻辑和系统架构之中。

如果开发者自身对业务的理解就停留在表面,只是简单地提供了一个对话框,那就等同于将一项重要的项目完全丢给了一群无人管理的大学生,结果自然是无法取信于用户。

用良好的设计隔离用户与AI的不确定性
(图:用良好的设计隔离用户与AI的不确定性)

3. 你能提供什么价值

开发者的角色,要从单纯提供模型访问通道的中间商,转变为构建专业解决方案的公司老板。标榜万能的应用铺天盖地,现在大家需要的是能对特定业务场景有用的AI:精准定义你的应用究竟为谁、解决什么核心难题。

有了问题范围的定义,下一步就是将复杂的业务目标拆解成模块。整个应用可以借鉴成熟的软件架构风格,例如用事件驱动、规则引擎或“黑板”(共享上下文)来设计工作流,避免只用一个Agent解决复杂问题。

在关键步骤要设立检查点,这些检查点可以包括自动化的数据验证与逻辑判断,在问题不明确或重大决策时请求用户交互确认,以及对AI明确权限范围、对执行函数做权限控制。

这些系统设计都需要通过用户界面直观地呈现出来,用AI增强,而非取代传统交互。应用可以通过熟悉的按钮、下拉菜单、预设模板和丰富示例来引导用户清晰地表达需求,将AI的强大能力封装在可预测的传统交互元素之下。用户无需费劲讨好AI,也能享受到AI带来的效率提升。

你的应用,是一套融入了你对业务的深刻理解、完整且可靠的解决方案。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐