摘要

        本研究系统评估了5种基于大语言模型(LLM)的BPMN建模工具,采用清晰度、正确性和完整性三维质量评估体系。实验结果显示,Camunda BPMN Copilot表现最优,平均得分达4.09-4.55分,而ProMoAI表现最差(0.45-0.91分)。研究发现LLM工具能处理高级BPMN结构,但在语义正确性(通过率仅20%)和附加要素建模(通过率0%)方面存在显著局限。虽然清晰度与正确性呈现强相关(r=0.882),但当前工具仍需人工验证以确保模型质量。研究表明LLM在BPMN建模中展现出潜力,但尚未达到完全可靠的专业应用水平。

大型语言模型(LLM)正成为自动化业务流程建模的强大工具,有望简化将文本流程描述转化为业务流程模型与符号(BPMN)图的过程。然而,这些人工智能系统在生成高质量BPMN模型方面的能力,目前尚未得到充分评估。

本文对基于大语言模型的五种BPMN生成工具进行了评估,这些工具可自动将流程的文本描述转换为BPMN模型。为了评估这些人工智能模型的质量,我们引入了一种全新的结构化体系,该体系根据流程模型质量的三个关键维度——清晰度/可读性、正确性和完整性——为每张BPMN图谱打分,涵盖图谱的准确性和易懂性。

利用这一系统,我们开展了多项实验:每种工具都被要求模拟同一组文本化的流程场景,并且所生成的图表会依据既定标准进行系统性评估。这种方法提供了一种一致且可重复的评估流程,同时也为比较基于大语言模型的建模能力开辟了全新视角。

我们的研究结果表明,尽管现有的基于大语言模型的工具能够生成反映流程描述主要要素的BPMN图,但它们常常存在错误——遗漏步骤、逻辑不一致或违反建模规则,这凸显了在生成完全正确且完整的模型方面所面临的局限性。所生成图表的清晰度和可读性也各不相同,这表明这些人工智能模型在生成易于理解的流程图方面仍处于成熟阶段。

我们得出结论,尽管大型语言模型在BPMN建模自动化方面展现出潜力,但要持续生成语法和语义上都正确的流程模型,它们仍需进行重大改进。

1. 引言

大型语言模型(LLM)不断涌现的新能力,极大地拓展了人工智能可解决的任务范围。其中,尤其引人注目的是从自然语言自动生成结构化内容,尤其是在依赖形式化表示的领域,例如业务流程管理(BPM)。

作为一门研究组织流程设计、实施与优化的学科,业务流程管理(BPM)在很大程度上依赖于业务流程建模(BP),尤其是像业务流程模型与符号(BPMN)这样的标准化符号——这实际上是业务流程建模的行业标准。然而,创建高质量的BPMN模型仍是一项耗时且需要专业知识的任务。传统的建模不仅要求掌握BPMN语法的技术能力,还要求能够将流程的文本描述转化为逻辑严谨、语义准确的图表。此翻译过程容易出现错误、遗漏和不一致,尤其是在时间紧迫或由未经专门培训的用户执行时。

在此背景下,大语言模型提供了一种颇具前景的替代方案。它们能够解读非结构化文本并生成结构化输出,这为构建初级模型、提升非技术用户可及性以及降低构建正式模型时的认知与技术负担提供了潜力。

尽管具备这种潜力,关于大型语言模型生成的BPMN图的质量,实证数据仍存在明显不足。尽管先前的研究探讨了利用大型语言模型提取活动或汇总任务,但这些模型用于生成完整且正确的BPMN图的系统性评估却十分有限。特别是,基于大语言模型的建模工具背景下,模型质量的关键衡量指标尚未得到充分研究。

为填补这一空白,本研究对五种基于大语言模型的BPMN生成工具进行了结构化评估,这些工具能够将文本化的流程描述转换为BPMN图。研究采用了一套标准化的评估体系,该体系以BPM领域文献中确立的质量指标为基础,并在具有代表性且形式上经过丰富处理的流程场景下对这些工具进行了测试。对所获模型的质量按三种输入提示风格进行分析,从而能够在不同语言条件下对各工具的性能展开对比研究。这一方法为当前基于大语言模型的建模系统的功能与局限性提供了新的见解。

在评估这些工具时,不仅从语法正确性的角度出发,还兼顾语义准确性和视觉易懂性,这项研究为关于人工智能辅助建模的更广泛讨论做出了贡献,并为那些致力于将大语言模型融入BPM工作流程的研究人员和实践者提出了相关建议。

文章的其余部分结构如下:第2节探讨了BP建模的基础以及基于大语言模型的工具的出现。第3节介绍了研究方法与评估设计。第4节展示了质量评估体系,第5节详细阐述了实验设置。第6节包含评估结果,第7节讨论结论并结束本研究。

2. 业务流程建模与基于大语言模型的工具出现

在当今瞬息万变的技术与监管环境中,各组织正面临日益增长的压力,亟需优化运营、减少低效并快速适应变化。为应对这些挑战,业务流程管理(BPM)已成为一门基础性学科,使企业能够以结构化的方式设计、监控、控制和优化业务流程(BP)的执行。他在协调运营活动与组织目标、提高生产效率以及确保符合行业和法律法规标准方面发挥着关键作用。

BPM的核心是业务流程建模(BP),这是一种关键实践,通过图形化的方式全面、直观地呈现流程,便于来自不同职能部门的利益相关方理解。BP建模支持流程的文档化、分析与再工程,为识别冗余、瓶颈以及自动化机会提供了可视化基础。通过模拟“如果……会怎样”的情景,组织可在实施变革之前预测其效果,从而降低风险并支持做出有据可依的决策。诸如利用BP Tesco和Wedgwood的模拟模型优化物流、降低成本等真实案例,充分彰显了这一方法的实际价值。此外,BP建模有助于促进业务与IT之间的协作,为流程沟通搭建起共同语言。诸如BPMN之类的标准——由对象管理组织(OMG)支持——进一步强化了这种协作,提供了一种既能被机器读取、又能被人类理解的语法,从而简化了从设计到执行的过渡过程。

与此同时,大型语言模型(LLM)作为人工智能领域的变革性工具应运而生,彻底革新了各学科中自然语言的处理与应用。这些模型——如ChatGPT、Gemini和Llama——能够以高度智能化的方式理解、生成和处理人类语言,大幅减少了在文本相关任务中对人工输入的依赖。这些大型语言模型经过海量数据集的训练,拥有数十亿个参数,展现出卓越的可扩展性和泛化能力,使其能够出色地完成复杂的推理、总结、翻译,甚至代码生成任务。

它们的适用范围涵盖多个领域——从内容创作和客户服务,到法律、金融、教育和医疗等更专业化的领域。大型语言模型还可作为强大的个人和职业助手,大幅节省时间并提高工作效率。随着模型规模和复杂性的增长,一些新的能力也随之出现,例如基于常识的推理和符号操作,这进一步提升了它们在结构化任务中的实用性,包括将自然语言解释并转化为形式化表示。这些特性使LLM特别适合集成到需要语义理解和生成结构化输出的业务应用中,例如BP建模。

BPM技术和LLM技术的融合,催生了基于人工智能的工具,可帮助用户将流程的文本描述转化为正式的BPMN模型。这些工具支持早期阶段的建模工作,生成可供专家进一步完善的草稿图,从而有效降低建模难度,提升工作效率。重要的是,它们使非技术用户也能参与流程建模,从而促进业务分析任务中更高的包容性和协作性。

本研究评估了五种基于大语言模型的代表性工具,这些工具专为BPMN建模而设计:

  • BA-Copilot— 一款专业助手,可利用BPMN.io工具生成可编辑的BPMN图表。它直接以.bpmn格式生成流程模型,专注于结构化输出和实际易用性。

  • BPMN聊天机器人——克雷根福尔特大学的学术原型,探索利用大语言模型潜力,在流程建模中应用自然语言接口的可能性。

  • Camunda BPMN Copilot— 一款开源解决方案,集成于Camunda Modeler,可在广泛使用的建模环境中,通过提示词自动生成BPMN模型。

  • 由Bonitasoft开发的Nala2BPMN可自动将自然语言输入转换为BPMN图表,专注于加速设计阶段。

  • ProMoAI— 一个基于Streamlit构建的轻量级研究原型,旨在以最少的用户配置展示从提示词生成BPMN的过程。

这些工具融合了商业级、开源及学术研发成果,能够满足不同用户需求和技术背景的多样化要求。与以往主要针对通用大语言模型(例如ChatGPT)在流程建模任务(如活动提取、流程模型生成)上进行评估的研究不同,本研究聚焦于专门针对BPMN建模而优化的工具,重点评估它们在生成复杂且语义丰富的流程图方面的性能。

3. 研究方法

本节介绍了本研究为评估基于大语言模型的工具在业务流程建模中的性能与易用性所采用的方法论基础。研究实施了一套结构化的五步流程,以确保其与实际应用场景相匹配(图1)。

Рисунок 1. Процесс оценки решений для моделирования BPMN на базе ИИ

图1. 基于人工智能的BPMN建模解决方案评估流程

阶段1:选择高质量指标。评估工作首先从确定适用于业务流程建模的相关质量度量入手。经过对文献中既定标准的深入分析,我们选定了三项关键指标:清晰度(Clarity)、正确性(Correctness)和完整性(Completeness)。 这些度量反映了结构完善的流程模型的重要特征,并在各类BPM质量评估框架中得到一致提及。

阶段2:确定评估体系。为实现标准化评估,我们设计了一套包含五个等级的评分体系,具体说明见下文。每项模型输出均依据选定的三项定性指标,采用这一固定评分标准进行评估,从而确保了评估结果的可比性和高质量区分度。

阶段3:选择基于LLM的工具。为进行分析,我们选取了一组具有代表性的五款工具,这些工具涵盖了专业级、开源及学术解决方案的组合。入选的工具包括:BA-Copilot——一款面向结构化输出和实用便捷性的专业助手;BPMN聊天机器人——一款以自然语言交互为重点的学术原型;Camunda BPMN Copilot——一款集成于Camunda生态系统的开源工具;Nala2BPMN,由Bonitasoft开发,专注于早期阶段的自动化;ProMoAI— 一款基于提示词的轻量级建模原型。在选择时,优先考虑了专门针对BPMN生成而开发或微调的工具,而非通用的大语言模型。

第4步:选择待评估的流程。作为标准化流程方案,我们选择了来自希腊国家行政公共服务官方登记册(MITOS)的流程。所选流程名为“驾驶证续期(所有类别)”,登记号为664541,由希腊基础设施与交通部(交通与通信管理局)使用,适用于持有希腊/欧洲驾照的人员。这一流程是希腊最受欢迎的政府服务之一,体现了公民的高度参与度。它记录详实、以数字形式提供,并因对公共安全和交通出行的影响而成为政府的优先事项。在测试中,这一真实的参考流程确保了对每个工具生成的输出进行一致的比较。

第5阶段:开展实验。每种基于大语言模型的工具均根据标准化流程场景获得了任务。随后,生成的BPMN模型将依据预先设定的评分体系和定性指标进行评估。这种方法确保了公平的比较,并支持对每种工具的优劣势进行结构化分析。

总体而言,这种方法论为评估所选工具提供了统一的框架,为下一节中应用特定定性标准奠定了基础。

评估框架

在本研究中,对由人工智能生成的BPMN模型的评估基于经过验证的外部质量指标。这些标准源自公认的学术文献和建模实践指南,特别是诸如ISO 9126等质量框架以及Sánchez-González等人开展的系统性综述。它们用于评估BPMN图的功能性、结构性和沟通性特征,对于确定人工智能输出是否符合实际建模标准至关重要。

在文献中,公认的外部质量衡量指标主要包括:可修改性——评估模型的编辑便捷程度及所采用的格式;清晰度/可读性——涉及模型的视觉结构与标记方式;适应性——反映模型在不同符号之间迁移或在不同上下文中重复使用的难易程度;可维护性——体现更新或扩展模型所需的努力;正确性——确保流程的语法和语义有效性;一致性——指整个模型在逻辑、数据和术语上的统一性;完整性——检查是否包含所有指定的元素;信息性——评估标签和注释的内容充实程度;与标记的符合性——确定通过仿真能否实现该模型。

4.1. 选择优质指标

从这一更广泛的范围中,选取了三项高质量指标进行有针对性的评估:正确性完整性清晰度。选择这些指标,既考虑到它们在BPMN质量相关文献中的重要性,也兼顾了其与基于大语言模型的建模工具评估需求的契合度。

此外,这些指标的选取既考虑了它们在以往学术框架中的普遍性,也考量了它们在评估基于大语言模型工具生成的模型时所发挥的关键作用。例如,我们研究中指标的选择得到了文中所述方法的支持。他们的基于大语言模型的过程建模框架着重于正确性保证(soundness guarantees),这涉及模型的准确性、通过用户反馈进行迭代改进以提升完整性,以及采用分层且可解释的表示方式以确保清晰度。尽管他们的工作并未明确界定这些定性指标,但其方法论设计与所提出的评估框架高度契合,从而进一步证实了我们所选定性指标的适用性。

清晰度指图表的视觉和结构一致性。结构合理、标注清晰的模型有助于提高利益相关方的理解与沟通效率。这一指标在所审查的54%的提案中得到支持,且符合ISO 9126标准中可用性属性的要求。

正确性是评估语法和语义有效性的关键标准,在所研究的31%框架中均有提及。它确保了模型在仿真时能够呈现预期行为,并符合BPMN规范的各项规则。对于生成式模型而言,正确性至关重要,因为它决定了工具生成的是有效的可执行逻辑,还是仅具有语法上看似合理的结果。

完整性对于涵盖输入场景中所描述的建模流程的所有方面至关重要。任何遗漏,尤其是任务、事件或决策路径的遗漏,都可能导致严重的误解,并显著扭曲流程的预期逻辑。她在文献中调研的69%的框架中均有提及。

这些指标共同提供了一种平衡的评估,既涵盖了结构完整性,也考虑了流程建模中的实际易用性。

4.2. 3C评估体系

本小节介绍了3C评估体系,用于基于三个选定维度——清晰度、正确性和完整性——评估BPMN模型的外部质量。每个维度均采用五项定性标准进行独立评估,这些标准源自BPMN最佳实践并加以提炼。针对每个标准,均采用五级顺序量表进行评分,该量表与以往BPMN质量研究中的量表类似(表1)。随后,根据各标准的重要性(高、中或低)对每项标准的得分进行加权,从而形成最终总分。

表1. 顺序量表评估

评估

质量水平

解释

5

非常高

不存在问题。模型完整、正确且结构清晰。

4

仅存在一个轻微问题(低或中等重要性)。总体质量尚可接受。

3

中等

一个严重问题,或中低重要性问题的组合。该模型可投入使用,但需进一步完善。

2

存在若干问题,包括至少一项严重问题。整体质量显著下降。

1

极低

存在大量严重问题,包括两项或以上高重要性问题。该模型无法使用且不可靠。

正确性标准
  • 无语法/行为违规(高):模型不应包含死锁、阻塞或无限循环。

  • 无结构性错误(高):所有元素都应相互连接并构成有效流程;不应存在孤立节点。

  • 不存在语义错误(中等):模型应准确反映所描述的流程逻辑。BPMN 模型中元素的顺序和类型应与预期的流程行为相符。

  • 无冗余流/元素(中):避免不必要的、不发挥功能作用的组件。

  • 所有分支网关都应配备相应的合并节点(低):必须保持控制流的逻辑一致性。

完整性标准
  • 提示中的所有控制流元素均已建模(高)

  • 过程包含起始和结束事件(高)

  • 所有决策结果均已建模(中):每个决策点都应具备所有预期的分支(例如,是/否)。

  • 异常处理在相关之处已进行建模(中)

  • 所有分支网关都应配备相应的合并节点(低):必须保持控制流的逻辑一致性。

清晰度标准
  • 不存在误导性或错误的标签(高):活动、事件和网关的标签应清晰准确地反映其功能。

  • 缺少未标记元素(高):所有元素,尤其是任务、网关和事件,都应命名,以明确其在流程中的作用。

  • 图表布局无问题(中等):模型应采用一致的缩进,并避免之字形流程,以确保视觉可读性。

  • 无交叉流(中):连续流不应在非必要时交叉。

  • 所有出射弧(X)OR 分离器均已标记(低):从决策网关出发的路径应以条件进行标记,以指示逻辑。

5. 实验设计

基于先前确定的评估框架,我们设计了一种结构化的实验方案,以系统地评估基于大语言模型的选定工具在业务流程建模中的性能。具体而言,同一流程场景以三种不同的输入数据格式呈现给这些工具(即:提示)。实验的主要目标如下:(i) 评估工具利用复杂BPMN元素(例如基于事件的网关、持续性定时器附加事件)呈现高级流程逻辑的能力;(ii) 评估它们在不同输入风格下——包括分步指令(提示1)、叙述性段落(提示2)以及包含额外无关信息的段落——对同一流程逻辑进行解释与建模的能力。噪音)(提示3)。所有实验均在线提供,以确保可重复性和后续研究。

5.1. 选择和扩展流程场景

行政流程“驾驶证延期”已从德国官方国家行政公共服务登记册(MITOS)中选定。选择该流程出于以下几点考虑:它文档记录完善,深受民众广泛使用,且大多数公民都熟悉这一流程,因此成为评估基于LLM的工具在真实环境中效能的一个易于理解且具有实际意义的典型案例。

然而,由于文档化的过程步骤基本上是连贯的,且不包含例外路径或明确的错误处理机制,作者对原始场景进行了有针对性的扩展,加入了更为复杂的流程逻辑。这有助于填补先前研究中的空白,这些研究主要关注大型语言模型在模拟BPMN基本元素(例如开始事件和结束事件、活动、排他网关和并行网关)时的性能,而忽略了更复杂的结构。

通过扩展场景(参见“实验/流程场景”),本研究旨在确定所选工具能否借助相应的BPMN工件准确地呈现高级逻辑——从而直接实现实验设计目标(i)。为此,已在原始流程流中引入了以下改进:

基于事件的条件等待:新增了一种条件等待机制,其描述如下:“进程将一直等待,直至以下两个事件之一发生:申请人提交缺失的文件,或在15天内未提交任何文件。”

定期自动提醒:已引入一种重复且不可拦截的提醒机制,具体表述为:“在许可证尚未颁发期间,每5个工作日向责任官员发送一次自动提醒。”

5.2. 提示词变体

鉴于实际流程描述在结构、清晰度以及无关信息的有无等方面存在较大差异,作者针对所选流程场景(如5.1节所定义)创建了三种不同的输入数据。 这些变体旨在评估工具从各类文本输入中解读和建模业务流程的能力,从而实现实验设计的目标(ii):

提示1(分步指南):清晰编号的列表,明确描述流程中的每一步,提供高度结构化的输入格式。

提示2(段落描述):一段非结构化的叙述性段落,描述流程的整体走向,不采用明确的编号方式,要求工具隐式推断并重构基本结构。

提示3(嘈杂段落):与提示2类似,但额外添加了无关的上下文信息(即噪声)。此版本专门用于评估工具过滤掉不相关内容、并在生成的BPMN模型中准确呈现流程相关逻辑的能力。

三个提示均可在线获取,以便研究其结构和变体。

5.3. 模型生成

在确定流程场景并开发三种不同提示变体之后,下一阶段包括利用基于大语言模型的五种选定工具生成BPMN模型。每种工具均针对全部三种提示进行了测试,并且为考虑大语言模型输出的内部变异性,每种提示在每种工具上均执行了三次。此流程共生成了9个工具模型(即3个提示词,每个提示词运行3次),从而在所有工具上总计生成了45个模型(即5个工具,每个工具9个模型)。

为了评估每种工具的最佳潜在性能,作者采用了“三者取优”的策略。对于每种工具和提示词,从三个生成的模型中选择最准确或最具代表性的模型(即最能体现预期流程逻辑的模型)。 例如,对于工具X的提示2,如果前两次运行生成的图表存在控制流不完整或语义错误,而第三次运行生成了连贯且完整的BPMN模型,则选择第三次生成的模型进行进一步评估。

采用这种方法是为了评估每种工具的最佳潜在性能,而非取平均结果——后者可能因次优生成而受到干扰。此外,这种做法也符合此类工具的实际使用场景:用户可反复向工具提出请求,并从多次尝试中挑选出最佳结果。然而,尽管这一策略可防止因偶然的失败而对工具进行过度惩罚,但它也可能引入一种潜在的偏差,即过于关注最佳情况,而非平均可靠性。这一方法论上的局限性已在第7节中得到承认并加以讨论。

根据这一选择策略,最终用于评估的集合共包含15个BPMN模型(即每个工具3个模型,每个模型均代表对应提示的最佳输出)。随后,这些模型采用基于预先确定的3C质量框架(清晰性、正确性和完整性)的结构化评估表进行了评估。

5.4. 评估流程

实验设计的最后阶段集中于对15个选定BPMN模型的结构化评估。为确保评估的一致性和严谨性,采用了标准化的评估表格(参见“实验/评估/评估评分表模板”),其中包含一份加权检查清单,该清单对应于事先确定的质量标准(参见子节4.2)。每位作者独立评估BPMN图,并使用自己的评估表副本记录评估结果。

图2所示的评估表模板的组织方式如下:

Рисунок 2. Шаблон структурированной оценочной таблицы

图2. 结构化评估表模板

  • 标准组织:表格分为三个选定的质量维度——清晰度、准确性和完整性。每个维度下都列出了具体的质量指标(例如,“不存在误导性或错误的标签”、“不存在结构正确性违规”、“不存在遗漏的起始/结束事件”)。 每项指标均与显著性水平(高、中或低)及其相应权重(分别为3、2或1)相关联。

  • 评估记录:对于每个基于LLM的工具(例如,BA Copilot、BPMN聊天机器人、Nala2BPMN、Camunda BPMN Copilot、ProMoAI),评估表会针对每个提示(提示1、提示2、提示3)下的每项质量标准,记录二进制结果(真/假)。“真”表示模型满足该标准,“假”则表明存在问题。例如,如果模型包含明确标记的活动且无任何歧义,则“不存在误导性或错误标签”这一标准将被标记为“真”,从而正面影响清晰度评分。

  • 可视化证据:每个提示下方均附有相应BPMN模型的URL,便于追踪被评估的具体模型版本。

  • 评分计算:对于每个提示,通过将所有标记为“真”的指标的权重相加,计算出原始分数。随后,该分数会除以每项质量维度的最大可能分数进行归一化处理,从而得到一个归一化评分,范围从0(最低)到5(最高)。

在五位作者各自独立填写评估表后,对每位作者的个人评估进行了集体审议,并就所有分歧展开讨论,以达成共识。这一共同协作的过程最终形成了一份整合后的评估表,该评估表成为下一节所呈现结果的基础。

6. 结果

本节呈现了评估结果,按四个分析视角进行组织:(i) 一个示例,展示基于大语言模型的建模工具的潜力;(ii) 描述性统计,对比各工具的平均性能;(iii) 质量指标之间的相关性分析;(iv) 对各项质量指标的详细审视,突出所有工具中表现最稳定和问题最多的指标。

6.1. 选择评估流程

为说明基于大语言模型工具的巨大潜力,作者首先展示了Camunda BPMN Copilot针对提示3生成的代表性输出。所生成的BPMN模型(图3)在三个质量维度上均获得了高分:清晰度(5.00)、正确性(4.55)和完整性(4.55)。

Рисунок 3. BPMN-модель, сгенерированная Camunda BPMN Copilot с использованием Промпта 3 (доступна онлайн в более высоком разрешении)

图3. 使用提示3由Camunda BPMN Copilot生成的BPMN模型(可在线获取更高分辨率版本)

该图示展示了该工具准确解析复杂流程语义,并将其转换为语法丰富且视觉一致的BPMN表示的能力。具体而言,它支持BPMN的高级构造,例如基于事件的网关,用于控制条件分支;以及持续性附着型定时器事件,用于模拟周期性的自动提醒。正确使用这些元素体现了对流程逻辑和形式化符号的深刻理解,展现了接近人类专家水平的建模能力。

尽管该模型整体质量很高,但存在一处轻微的语法错误:由非捕获型定时器事件触发的路径没有指定明确的终止事件,这在形式上使异常流不完整。这一限制凸显了后生成验证的潜在必要性,相关内容将在第7节中详细讨论。

6.2. 描述性统计

尽管前面的示例展示了基于大语言模型的工具在生成高质量BPMN模型方面的巨大潜力,但并非所有工具都能 consistently 达到这种效果。实际上,所生成模型的质量会因所用工具的不同而显著差异。

表2提供了描述性统计信息,汇总了每种工具(BA-Copilot=A,BPMN聊天机器人=B,Camunda BPMN Copilot=C,Nala2BPMN=D,ProMoAI=E)在三个质量维度及其之间变异程度上的评分。对于每个维度,该表均列出了各工具的平均分(即按提示词1、2和3的得分算术平均值计算,以及所有工具的总体平均值和标准差。

表2. 工具的描述性统计

指标

A

B

C

D

E

平均值

条款缺失

清晰度

2.42

3.64

4.09

3.18

0.91

2.85

1.12

准确性

1.52

2.73

3.33

1.97

1.36

2.18

0.75

完整性

3.33

0.61

4.55

4.55

0.45

2.70

1.82

哪里:A=BA-Copilot,B=BPMN聊天机器人,C=Camunda BPMN Copilot,D=Nala2BPMN,E=ProMoAI

研究结果显示,各类工具的性能存在显著差异。Camunda BPMN Copilot 在三个维度上均取得了最高评分,尤其在清晰度(4.09)和完整性(4.55)方面表现突出。与此相反,ProMoAI 的整体表现最差,尤其是在清晰度(0.91)和完整性(0.45)方面,这表明其在生成清晰或完整的BPMN图方面效率有限。

此外,同一工具在不同指标上也可能存在差异。例如,Nala2BPMN 在完整性方面获得了高分(4.55),但在正确性方面却低于平均水平(1.97),这表明该工具可能在一个指标上表现优异,而在另一个指标上却面临挑战。

图4对所讨论的性能差异进行了可视化概括,既突出了各工具之间的差异,也凸显了各评估指标之间的差异,并展示了每种工具的相对优势与劣势。

Рисунок 4. Средний оценочный показатель по инструментам.

图4. 各工具的平均评分。

在对所有工具进行评估时,清晰度获得了最高的平均分(平均值=2.85),紧随其后的是完整性(2.70)。与此相反,正确性得分最低(平均值=2.18),这表明当前工具在句法和语义准确性方面仍普遍存在难题。这种限制可能源于某些工具无法支持高级BPMN构造(例如基于事件的网关、持续性附着的定时器事件),从而难以对指定的流程逻辑进行建模。因此,这些工具往往试图通过使用更熟悉或功能受限的BPMN元素来近似模拟预期的流程行为,这可能导致语法或语义上的错误。

从变异性来看,Pолнота表现出最高的标准差(1.82),凸显了各工具在全面覆盖所描述流程各个方面的程度存在显著差异。这种变异性表明,某些工具可能遗漏或简化了管理流程中的关键要素。与此相反,Correctness 的标准差最小(0.75),表明各工具之间的句法行为相对一致,尽管整体准确率处于中等水平。

6.3. 质量测量之间的相关性

尽管先前的研究表明,一种工具可能在一个质量维度上表现良好,而在另一个维度上表现欠佳,但这些维度之间的关联程度仍不明确。为了更好地理解这种差异,我们计算了皮尔逊相关系数,以评估清晰度、准确性和完整性之间的关联程度。此分析有助于了解,在某一领域(例如清晰度)表现出高绩效时,是否通常也伴随着其他领域的高(或低)绩效,从而揭示工具行为中潜在的规律性。

表3列出了每对质量指标之间的皮尔逊相关系数。结果显示,清晰度与正确性之间存在显著的正相关关系(r = 0.882),这表明能够生成视觉上清晰图表的工具,也更有可能生成语法和语义上准确的模型;反之亦然。这种关联可能反映了结构可读性与逻辑精确表述之间的根本联系,因为这两个方面都取决于BPMN语法的正确使用。清晰度与完整性之间存在中等程度的相关性(r = 0.525),表明视觉清晰度与是否包含流程中必要元素之间存在一定的一致性。尽管清晰度能够提升整体理解,却并不能保证涵盖所有必要组成部分。工具可能生成可读的图表,但这些图表仍可能存在不完整之处。与此相反,准确性和完整性之间的弱相关性(r = 0.297)表明,覆盖流程中的大多数要素并不一定意味着所呈现的内容在结构上正确或逻辑上连贯。该工具可在不模拟完整流程的情况下生成正确的流程视图,或包含所有元素,但以违反BPMN语法或语义的方式排列这些元素。

表3. 各质量指标间的皮尔逊相关系数

指标

清晰度

准确性

完整性

清晰度

1.000

0.882

0.525

准确性

0.882

1.000

0.297

完整性

0.525

0.297

1.000

6.4. 各单项质量指标的性能

尽管先前的分析探讨了三个质量维度之间的相互关系,但并未评估各类工具在具体质量指标上的表现。在3C评估体系中,每个维度都由若干具体指标构成(例如,“不存在未指定的元素”、“不存在结构错误”等)。在这一层面开展绩效评估,能够更准确地揭示基于大语言模型的建模工具的优势与不足。这种分析水平还可为进一步改进提供切实可行的建议,尤其是在消除反复出现的遗漏或建模错误方面。

图5展示了所有工具和提示中各标准的通过率,即在被评估的模型中成功满足该标准的比例。这些标准按度量指标着色,并按平均通过率排序,从而详细呈现了哪些质量要求得到最一致的满足,而哪些则面临较大挑战。例如,“无交叉流”这一标准的通过率达到80%,这意味着在15个评估模型中,有12个模型满足该标准(即5种工具,每种工具3个提示,每个提示各有一次最佳运行)。

Рисунок 5. Процент прохождения критериев по всем инструментам и промптам.

图5. 所有工具和提示符通过标准的百分比。

结果显示,15项评估标准的通过率存在显著差异,既凸显了当前基于大语言模型的过程建模工具的优势,也揭示了其持续存在的问题。其中,“无交叉流”和“无遗漏控制流元素”这两项标准的通过率最高,分别为80%和73.33%。这些结果表明,大多数工具总体上能够识别流程中所需的组件,并以视觉清晰且易于理解的格式呈现出来。

与此相反,若干项标准揭示了关键局限性。特别是,没有任何一种工具能够满足“无遗漏的附加要素”这一标准(通过率为0%),这表明这些工具始终无法充分呈现支持流程的各个方面,例如资源视角或信息视角。例如,即使提示词中指定了流程场景的参与者(如运输与通信服务部(TCS)员工),相关工具要么忽略了BPMN中的泳道和流线等结构,要么对它们的使用方式存在错误。此外,语义正确性也被证实为另一个重大问题。“无语义违规”标准的通过率为20%,这意味着在所评估的模型中,有80%存在逻辑不一致的情况(例如,活动顺序与提示中描述的流程预期逻辑相矛盾)。

7. 结果

本研究对五种基于大语言模型的工具进行了系统评估,这些工具旨在根据文本化的流程描述生成BPMN模型。借助标准化的评估方法和结构化的实验设计,分析揭示了若干重要发现。主要结论及其意义汇总如下:

(i)基于大型语言模型的现代工具能够模拟复杂的业务流程场景,这些场景需要使用高级BPMN结构,例如基于事件的网关和边界事件(第6.1节)。正确运用这些元素表明对流程形式化符号有深刻理解,其水平已接近专家级。这一观察结果证实了相关研究的结论,该研究指出,区分由人类专家和大语言模型生成的模式并不总是容易。

(ii)在所测试的工具中,Camunda BPMN Copilot 在三个评估维度——清晰性、正确性和完整性——上均表现出最稳定和高质量的结果(第6.2节)。这些结果表明,该工具不仅具备出色的流程逻辑解读能力,还能生成连贯一致的BPMN图谱。这种卓越的性能,很可能得益于大型语言模型(LLM)自然语言处理技术与Camunda Modeler BPMN建模环境的有效集成。这与相关研究的结论一致:研究强调,优先应将LLM与现有的领域特定工具进行集成,而非孤立地对LLM进行单独训练,因为建模环境已积累了丰富的流程知识,而这些知识是LLM单独难以完全复现的。

(三)不支持高级BPMN结构的工具,往往试图用更简单或更熟悉的元素来反映复杂的流程逻辑(第6.2节)。因此,所生成的模型可能违反语法,或包含语义错误。在本研究中,于BA Copilot为请求2所创建的模型中发现了一个语法错误示例:网关“已发现疏漏?”没有出向序列流。类似地,在Nala2BPMN为同一请求所创建的模型中,也存在语义违规:任务“发送自动提醒”被置于任务“将电子记录录入驾驶证登记簿”之后,这与场景中所描述的非强制性提醒的逻辑相悖。这证实了相关研究的结论,即在复杂场景下,大语言模型容易出现幻觉、误解输入数据,并生成结构不稳定或逻辑上不连贯的过程模型。

(四)LLM生成的模型在清晰度与准确性之间呈现出显著相关性,这表明这两个维度之间存在紧密联系(第6.3节)。这意味着,改善其中一个参数可能会对另一个参数产生积极影响。提高模型的视觉结构化程度和可读性,有助于提升语法和语义的准确性;而提高逻辑与语法的正确性,反过来又能改善图表的可理解性。尽管仅凭相关性无法确定影响的方向,但研究结果表明,针对上述任一领域优化大语言模型建模工具,均能同时惠及两者。

(v)基于大语言模型的工具主要聚焦于控制流这一方面,而很大程度上忽略了资源和数据等其他相关要素(第6.4节)。即使请求中明确提及了流程参与者或数据元素,这些工具通常也不会通过BPMN中的相应元素——如泳道、流程路径或数据对象——在模型中加以体现。尽管这些视角并非严格必要以显示控制流,但它们的缺失会降低所生成模型的完整性和上下文丰富度。

(vi)尽管图3展示了基于大语言模型的工具所具备的巨大潜力,但也提示我们需保持谨慎。即使整体质量较高,该模型仍存在一处细微的语法错误:由非干扰性定时事件触发的路径并未配备自身的终止事件,这使得异常流程不完整(第6.1节)。 这表明,即使是最优质的结果也可能存在结构缺陷,从而影响其正确性。此外,在所研究的80%BPMN模型中发现了语义错误,使这一标准成为最常被违反的标准之一(第6.4节)。 这凸显了人类核查的必要性,以确保模型的结构完整性和语义准确性。这一发现与先前的研究相一致,此前的研究指出,由于大型语言模型具有概率性特征,它们需要专家监督,目前尚无法在没有人工参与的情况下可靠地应用于专业商业环境。

在解读所得结果时应谨慎,需考虑若干局限性。首先,该评估仅基于一种情景进行,尽管该情景在形式上经过了丰富处理。尽管所选情景因其实际意义和结构复杂性而具有代表性,但仅采用单一案例的做法限制了结果的普适性,也使得难以评估这些工具在不同建模情境中的稳定性。其次,为反映真实的使用场景,该研究针对每个工具和查询,采用了从三次尝试中选取最佳结果的策略。这种方法能够评估工具在“最佳情况”下的表现,模拟用户多次尝试并选择最准确结果的行为。然而,这会引入一种系统性偏差,倾向于最优结果,可能无法真实反映工具输出数据的实际平均可靠性和变异性。第三,评估过程包含主观因素,因为需要专家对质量标准的执行情况进行解读。为最大限度地减少偏差并提高可靠性,五位作者独立填写了评估表,随后共同审阅并协商一致,消除了分歧,达成了共识。然而,完全消除主观性是不可能的,一些解释上的差异可能对最终评估结果产生了一定影响。

基于本研究的成果与局限性,可以确定几个具有前景的未来研究方向。首先,将评估范围扩展到更多来自不同学科领域的场景,将提高结论的普适性,并有助于更深入地评估工具在不同情境下的可靠性。其次,未来的研究可不再仅关注最佳结果,而是分析平均指标,对所有生成的模型进行评估,从而更准确地确定这些工具在实际应用中的稳定性和可靠性。 第三,一个有前景的方向是研究将后处理验证机制——既包括基于规则的方法,也包括利用人工智能的方法——集成到BPMN图中,以自动识别并修复BPMN图中常见的语法和语义缺陷。最后,以用户(商业分析师、建模人员和领域专家)为导向的研究将有助于评估这些数据工具在实际建模环境中的实用性和可信度。

总之,尽管基于大语言模型的现代工具展现出令人鼓舞的潜力,但本研究表明,它们目前尚无法自如地用BPMN语言进行交流,这凸显了人类监管的重要性。随着技术的不断发展,与现有建模环境的精心集成以及工具可靠性的提升,将成为充分发挥这些工具在业务流程建模专业实践中潜能的关键步骤。

写在最后

        任何管理软件技术领域的发展,离不开企业管理最核心的本质– 降本增效,只要企业的组织架构和协作需求还在,流程的管理及绩效优化依然是企业管理的基础,技术的创新发展离不开业务的本质需求,至于各种新鲜概念更多的还只是营销的需要,专业领域的发展需要持续的沉淀及积累。
        推荐一款结合大模型的一款全新旧系统拍照免费迁移工具。能根据聊天和图片生成标准BPMN 2.0 XML,可与主流开源或企业级流程引擎(如Flowable, Camunda、Operaton、activiti)无缝集成。
体验可访问: http://flow.je4.cn/#/login



上传图片,根据图片生成标准BPMN2.0效果:

根据聊天内容生成标准BPMN2.0效果:


Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐