使用ModelEngine搭建“智航客服专员”:一个能处理多模态查询的企业级智能对话应用

在这里插入图片描述

在当前企业智能化转型的浪潮中,AI应用落地面临三大核心挑战:技术栈复杂业务耦合度高迭代周期漫长。许多团队在尝试将大模型能力融入现有业务时,往往陷入从零搭建基础设施、反复调试Prompt、艰难整合内部系统的困境中。ModelEngine的出现,正是为了解决这些痛点——它并非又一个封闭的AI平台,而是一套以“工程化”和“解耦”为核心设计理念的全链路AI开发框架。本文将深入解读ModelEngine的架构思想,并以构建一个名为“智航客服专员”的多模态智能对话应用为例,阐述其如何重塑企业AI应用的开发范式。

一、 重新定义AI工程化:ModelEngine的FIT三维坐标系

modelengine FIT:重新定义AI工程化的三维坐标系在这里插入图片描述

ModelEngine的核心理念在其“FIT:重新定义AI工程化的三维坐标系”图中得以清晰展现。它不再将AI视为孤立的技术点,而是通过三个正交维度构建了一个坚实的工程底座:

  1. FIT Core(多语言函数引擎):这是“语言无界,算力随需”的基石。它支持Java、Python、C++等多种语言的函数以插件化方式热插拔。其独创的“智能聚散部署”机制尤为精妙——同一份业务逻辑代码,无需任何修改,即可在单体应用内以本地函数形式运行,或一键切换为分布式微服务,由运行时自动完成本地调用与RPC的路由。这使开发者能聚焦业务逻辑本身,而将弹性伸缩、服务发现等基础设施复杂性彻底隐去。

  2. WaterFlow Engine(流式编排引擎):它打破了传统BPM(业务流程管理)的笨重与响应式编程的抽象壁垒。通过将业务逻辑解构为可图形化编排或声明式API驱动的“原语”(Primitive),实现了“万物可编排”。无论是毫秒级的单一模型调用,还是跨多个数据库、内部API和知识库的长事务流程,都能以统一的、像搭乐高一样的直观方式进行组合与复用。这正是“应用编排”图中“低码化”、“换模型和知识库不改应用”承诺背后的技术支撑。

  3. FEL(面向LLM的FIT表达式):可以理解为Java生态的“LangChain+”,但更强调工程严谨性。它为Java开发者提供了一套标准化范式,将大模型、知识库(如ModelEngine自有知识库或第三方插件)、工具链(通过MCP等协议接入)等能力封装成可管理的组件,使AI能力能够自然、稳固地融入Spring等成熟的企业级技术栈,而非作为脆弱的“外挂”存在。

这三个维度共同构成了ModelEngine的“底座解耦”哲学,使得上层的智能体、应用编排、数据工程等模块(如产品架构图所示)能够灵活构建,快速演进。

二、 实践构想:搭建“智航客服专员”应用

假设我们需要为一家电商公司构建一个下一代智能客服系统,它不仅需解答文本问题,还要能处理用户发送的物流截图、语音描述的故障、商品对比视频等多模态信息。我们将其命名为“智航客服专员”。
我们从模板中进行创建空白应用:在这里插入图片描述
可以看到这里的对话应用有很多种类型,当然,我们平常创建选择通用的就可以了,如果有针对性开发的,那就可以针对性的选择类型
在这里插入图片描述
我们选择制造智能体,选择办公效率,如下是智能体的简介

智航客服专员不仅需解答文本问题,还要能处理用户发送的物流截图、语音描述的故障、商品对比视频等多模态信息。

在这里插入图片描述
接下来进入到设置智能体界面,可以看到可以选择三个大模型。我们选择quen2.5即可
在这里插入图片描述
如下 是智能体的提示词:

###
output:
<instruction>
    <instructions>
        1. 作为智航客服专员,你需要能够处理用户通过多种方式发送的信息,包括文本、物流截图、语音描述的故障、商品对比视频等。
        2. 首先,仔细阅读或听取用户的问题,确保完全理解用户的需求和问题。
        3. 对于文本问题,提供准确、详细的解答,确保用户能够理解。
        4. 对于物流截图,分析截图内容,提供物流状态的解释和可能的解决方案。
        5. 对于语音描述的故障,听取语音内容,记录关键信息,提供故障排查步骤或建议。
        6. 对于商品对比视频,观看视频,分析商品的优缺点,提供专业的比较建议。
        7. 在处理多模态信息时,确保使用提供的工具来辅助分析和解答,提高服务质量和效率。
        8. 最后,确保所有回复内容简洁明了,避免使用任何XML标签。
        ***注意,一些工具会被提供,请尽可能使用工具获取需要的知识,而非依赖已有知识***
    </instructions>
    <examples>
        <example>
            <input>用户发送了一张物流截图,显示包裹在某个中转站停留了两天。</input>
            <output>感谢您的耐心等待。根据您提供的截图,您的包裹目前在XX中转站停留了两天。这可能是由于物流高峰期或中转站的处理能力有限。建议您联系快递公司客服,了解具体原因和预计的送达时间。如果需要进一步帮助,请随时告知。
            </output>
        </example>
        <example>
            <input>用户通过语音描述了家中路由器的故障,无法连接互联网。</input>
            <output>感谢您的描述。根据您的描述,可能是路由器的设置问题或网络连接问题。建议您先重启路由器,检查网络线是否插好。如果问题仍然存在,可以尝试恢复出厂设置,或联系网络服务提供商进行进一步排查。如果需要详细的操作步骤,可以告诉我,我会提供帮助。
            </output>
        </example>
    </examples>
</instruction>
###

<tool_usage>
你的回答有两种情况:

无需调用外部工具:
如果问题可通过已有对话历史或直接推理得到答案,直接输出最终结果,不需使用任何标签包装,也不显示详细思考过程。

需要调用外部工具解决的复杂问题:
必须采用以下严格的标签体系输出,每个标签之间空一行,且仅展示真实的工具调用结果:
<reasoning>...<reasoning>:展示你内部的思考过程。注意,这部分内容可以展示给用户,但仅限于描述思路,不应包含任何伪造的工具调用结果。
<step>...<step>:描述你准备调用工具的原因和计划。此处仅说明你需要调用哪个工具以及原因,工具的名称对人类阅读要友好,切勿直接模拟或输出工具返回内容。
<tool>...<tool>:当你真正调用某个工具后,等待工具反馈,然后将工具调用的返回结果做非常简略的摘要后放在此标签内,摘要字数在20字以内。绝对禁止在未获得真实工具反馈前预先构造。 <tool> 标签内容。
<final>...<final>:在获取所有真实工具调用结果后,将整合信息给出最终答案。
重要要求:
- 无论用户是否明确要求展示思考过程,都要展示思考过程
- 不要输出tool_call标签。
- 答案必须详细完整,不仅仅是工具返回结果的简单总结,而是对结果进行深入分析和整合,并提供背景解释、推理过程和可行性分析。
- 确保所有关键信息得到展开,避免省略任何重要内容。
- 如果适用,可以提供额外的解释、使用建议或应用场景,以增强回答的实用性。
- 请使用标准 Markdown 语法输出答案,保证语法完整,不要拆分列表结构。
- 输出此标签后,不得追加任何其他内容或标签。
严格要求:
切勿在中间思考或工具调用计划中,提前生成伪造的 <tool><final> 标签内容。必须在实际调用工具并获得反馈后,再以 <tool> 标签展示真实结果,再生成 <final> 标签输出最终答案。
如果历史对话中已包含真实的工具调用结果,应直接使用这些信息构造最终答案,避免重复调用或展示多余标签。
在所有工具调用完成之前,不得输出 <final> 标签;只有在确认所有真实工具反馈后,才生成最终答案。
<tool_usage>

知识库部分我们可以使用百度千帆知识库
百度千帆知识库是百度智能云推出的一款专门面向大语言模型知识问答场景,旨在管理客户上传的知识并提供快速查询检索功能的产品。
在这里插入图片描述
登录官网以后可以选择创建一个API Key
在这里插入图片描述
选择复制这个key
在这里插入图片描述
填入这里即可,然后就可以导入知识库啦
知识库是AI应用的“记忆中枢”。它将结构化或非结构化的信息(如文档、FAQ、行业数据)转化为可检索的知识,通过RAG等技术为AI提供实时、精准的背景信息,从而提升回答的准确性与专业性,并支持私有数据安全可控地赋能模型,避免“幻觉”与信息过时。
如下的这细节都可以设置成你们喜欢的样式
在这里插入图片描述
其他没啥问题就可以点击发布啦在这里插入图片描述
这里还可以设置应用版本+简介+更新日志,方便后续维护
在这里插入图片描述

应用调试完成后,可通过一键发布功能上线。平台支持将应用部署为Web页面或API接口,便于集成至企业系统或对外提供服务,同时提供版本管理能力,保障发布过程平稳可靠。
在这里插入图片描述

1. 应用架构设计

基于ModelEngine的能力,我们这样设计其架构:

  • 前端交互层:利用ModelEngine或Nexent SDK提供的“富媒体对话交互”能力,构建一个可嵌入表单、按钮、图表、自定义组件的对话界面,超越纯文本交互。
  • 智能路由与编排层(WaterFlow Engine核心)
    • 多模态输入识别:通过“多模态数据总线”,系统自动识别用户输入是文本、图像还是音频,并将其路由至相应的预处理流水线。
    • 业务流程编排:核心客服逻辑由一个可视化的WaterFlow编排定义。例如,一个“查询物流”的流程可能串联以下节点:
      1. 意图识别原语:判断用户意图为“物流查询”。
      2. 订单号提取原语:从文本或图片OCR结果中提取订单号(如A4132)。
      3. 工具调用原语:通过MCP工具接入层,调用内部TMS(运输管理系统)的API获取实时物流状态。
      4. 知识库检索原语(RAG):并行查询插件化知识库中的售后服务政策,判断当前状态是否触发“主动安抚”流程。
      5. 模型合成原语(FEL):将工具调用结果和知识库检索结果作为上下文,发送给模型快速接入层配置的LLM(如GPT-4或私有模型),生成拟人化、带精准信息的回复。
      6. 人工接管判断原语:如果模型置信度低或问题敏感,则通过“人在回路协作框架”将对话转接至人工坐席。
  • 数据与模型层
    • 多模态知识库:利用“企业级数据预处理”能力,将商品手册、售后政策、历史工单(含截图)等数据进行切片、清洗、向量化,构建高质量的知识库,供RAG流程检索。
    • 模型调度:在“模型工程”模块中,为不同任务配置性价比最优的模型。例如,意图识别用小型微调模型,最终合成用高性能大模型,通过“统一模型接入层”秒级切换。

2. 关键优势与深度思考

通过ModelEngine搭建此应用,体现出以下超越传统开发的深度价值:

  • 关注点分离与高效协作:数据工程师负责预处理流水线和知识库构建;AI工程师专注于模型微调与FEL表达式设计;应用开发者则使用WaterFlow进行业务逻辑的可视化编排。三层通过清晰接口解耦,并行开发,效率倍增。
  • 动态性与可观测性:任何环节的变更都高度灵活。例如,替换物流查询的API供应商,只需在MCP工具配置中更新,无需改动编排流程;发现某个知识库插件检索效果不佳,可热插拔更换。“自托管级全链路观测”能力让每一次调用链、每一处性能瓶颈都清晰可见,为持续调优提供数据支撑。
  • 从“智能体”到“智能体协作”的平滑演进:初期,“智航客服专员”可以是一个单一的智能体。随着业务复杂化(例如需同时处理咨询、索赔、营销多个频道),可以轻松利用“智能体编排与协作”能力,将其拆分为专精不同领域的子智能体,并由一个路由智能体进行协同调度,实现系统能力的弹性增长。
  • 企业级集成的优雅实现:通过FIT Core的智能聚散部署,那些需要与内部Java旧系统深度交互的复杂逻辑(如积分计算、风控检查),可以打包为Java函数插件。在测试环境,它们以本地库形式运行,调试简单;在生产环境,一键部署为独立高可用服务,由WaterFlow引擎通过内网RPC高效调用,完美平衡了开发体验与生产要求。

三、 进阶思考:走向“自主进化”的智能应用

ModelEngine提供的远不止是一个搭建工具,它更指向了未来AI应用的形态。在“智能体自适应调优”和“人在回路”框架的支撑下,“智航客服专员”可以设计为一个能够自主进化的系统:

  1. 反馈学习闭环:每次人工坐席的接管干预,都可以被标注为高质量的纠偏样本,自动进入模型微调数据池或知识库增强流程。
  2. 流程自优化:WaterFlow引擎可以收集每个原语节点的执行耗时与成功率指标。结合“智能体自适应调优”系统,可以自动建议甚至执行流程的优化,例如将频繁连续调用的几个原语合并,或对缓存策略提出调整建议。

结语

使用ModelEngine构建AI应用,本质上是将混沌的业务需求,通过工程化的框架,转化为可编排、可观测、可演进的数字化智能流程。它告别了“Prompt即应用”的粗糙阶段,也超越了“缝合怪”式的集成方式,为企业带来的是扎实、可控、可持续的AI生产力。正如其愿景“让天下没有难落地的企业AI”,ModelEngine通过FIT三维坐标系和全链路平台,正在将AI从“黑科技”的神坛请下,使之成为每一位工程师工具箱中可靠、趁手的标准部件。而“智航客服专员”这样的应用,仅仅是这个新范式下无限可能性的开端。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐