接口文档秒变OpenAPI规范！一个让AI帮你生成标准JSON的神器

BatterSoul

501人浏览 · 2026-03-06 11:09:28

BatterSoul · 2026-03-06 11:09:28 发布

前言

作为一名Java开发者，你是否经常遇到这样的场景：接手一个老项目，只有一份零散的接口文档；或者需要将现有的API接入某个API网关，却苦于没有标准的OpenAPI描述文件？

手动编写OpenAPI规范的JSON？那繁琐的格式和繁多的字段，光是想想就让人头疼。

今天，我要分享一个我最近开发的开源小工具——OpenAPI 生成器。它能让AI帮你自动将任意接口文档转换为符合OpenAPI 3.0.0规范的JSON文件。
在微服务架构日益普及的今天，OpenAPI规范已成为API描述的事实标准。然而，将非结构化的接口文档转换为符合OpenAPI 3.0.0规范的JSON描述文件，仍是一项耗时且容易出错的工作。本文介绍一个基于Vue3+SpringBoot架构，集成大语言模型的智能解析系统，能够自动将用户上传的接口文档转换为标准的OpenAPI规范文件，有效降低API规范化门槛，提升开发效率。

项目诞生：解决什么痛点？

这个项目的核心功能：

接收用户上传的接口手册文档 → 调用大模型解析 → 生成符合OpenAPI 3.0.0规范的JSON → 让用户下载这个JSON文件

听起来是不是很像一个"文档翻译器"？没错，它就是要把各种格式（Word、Markdown、PDF等）的接口说明，变成机器可读的标准规范。

为什么需要这个工具？

在微服务盛行的今天，OpenAPI规范已经成为API描述的事实标准。无论是API文档生成、客户端代码生成，还是API网关接入，都离不开它。

1.1 研究背景

在数字化转型的浪潮中，应用程序编程接口（API）已成为企业业务能力对外输出的核心载体。据相关统计，全球API调用次数已突破万亿级别，API经济正以前所未有的速度重塑软件产业格局。在这一背景下，API的描述、管理和治理变得尤为重要。

OpenAPI规范（原Swagger规范）作为Linux基金会旗下的开源项目，已经成为描述RESTful API的事实标准。它采用JSON或YAML格式，能够完整描述API的端点、请求参数、响应结构、认证方式等信息，为API文档自动生成、客户端SDK生成、API网关接入、接口测试自动化等场景提供了统一的数据基础。

1.2 问题陈述

尽管OpenAPI规范的重要性已成共识，但在实际工程实践中，我们面临以下严峻挑战：

第一，遗留系统的技术债务。 大量运行中的企业级系统始建于OpenAPI规范普及之前，其接口文档往往以Word文档、Markdown文件、PDF甚至Wiki页面的形式存在。这些文档结构松散、格式不统一，且常与代码实际实现存在偏差。

第二，手动转换的高昂成本。 将一个包含数十个接口的中等规模系统手动转换为OpenAPI JSON，即使对熟悉规范的工程师而言，也需要数小时甚至数天时间。更重要的是，JSON格式对括号、引号等语法极为敏感，人工编写极易引入格式错误。

第三，规范学习的认知负担。 OpenAPI 3.0.0规范包含数十个字段和复杂的嵌套结构，新手开发者往往需要经历漫长的学习曲线才能熟练掌握。这在一定程度上阻碍了规范的普及和应用。

第四，团队协作的一致性挑战。 在多团队协作的大型项目中，不同开发者编写的OpenAPI描述往往存在风格差异，导致后续工具链处理困难。

1.3 研究意义

基于上述问题，本研究的意义主要体现在以下方面：

降低技术门槛：使普通开发者无需深入学习OpenAPI规范细节，即可获得标准化的API描述文件
提升开发效率：将数小时的人工工作缩短至分钟级，显著加速API治理流程
保证规范一致性：通过标准化的Prompt设计和后处理校验，确保输出符合规范要求
推动API治理自动化：为更大规模的API治理平台提供智能化基础能力

2. 国内外研究现状

2.1 OpenAPI规范应用现状

目前，OpenAPI规范已在全球范围内得到广泛应用。Swagger UI、ReDoc等文档生成工具已成为开发者的标配；OpenAPI Generator支持生成40多种语言的客户端SDK；AWS、Azure等主流云厂商的API网关均支持直接导入OpenAPI定义。

然而，OpenAPI规范的生成仍主要依赖人工编写或代码注释自动提取。SpringDoc、Swagger Annotations等工具能够从代码注解生成OpenAPI描述，但这对已有系统的改造成本较高，且要求代码本身具有完整的注解信息。

2.2 大语言模型在软件开发中的应用

近年来，以GPT系列、通义千问为代表的大语言模型在代码生成、文档编写、需求分析等软件工程领域展现出惊人潜力。研究表明，大语言模型具备强大的自然语言理解能力和一定的逻辑推理能力，能够从非结构化文本中提取结构化信息。

在API相关任务中，已有研究者尝试利用大语言模型进行API推荐、API使用模式挖掘等工作。但将大语言模型应用于接口文档到OpenAPI规范的自动转换，目前尚属较新的探索方向。

2.3 现有方案的局限性

当前市面上存在少量API文档转换工具

3. 系统架构设计

3.1 总体架构

本系统采用经典的前后端分离架构，前端负责用户交互与界面展示，后端专注于业务逻辑处理与AI集成。这种架构的优势在于职责清晰、易于扩展、便于维护。

前端层：基于Vue3框架构建，利用Vite作为构建工具，采用组合式API实现响应式数据流。前端模块包含文件上传组件、转换控制组件、下载触发组件和状态提示组件。

后端层：基于Spring Boot框架实现，遵循三层架构设计，包括Controller层（接口暴露）、Service层（业务逻辑）、Repository层（数据存取）。核心模块包括文件处理服务、Prompt工程服务、AI模型客户端服务和JSON校验服务。

AI服务层：抽象出统一的模型客户端接口，支持通义千问等大语言模型的接入。通过策略模式实现不同模型的无缝切换。

3.2 核心业务流程

系统的核心业务流程围绕"上传-解析-生成-下载"四个关键环节展开，形成了一个完整的数据处理闭环。

在流程起点，用户通过前端界面上传接口文档。前端对文件进行初步校验后，以MultipartFile格式发送至后端。后端接收到文件后，首先进行文件类型和大小的二次校验，然后通过InputStream流式读取文件内容，将其转换为UTF-8编码的字符串。这一过程需要特别注意大文件的内存管理，避免一次性加载导致内存溢出。

获得文档字符串后，系统进入Prompt工程阶段。Prompt的设计直接决定了大模型输出的质量。系统将原始文档内容嵌入精心构造的Prompt模板中，同时加入格式约束、示例引导和错误修正等多重指令，确保模型理解任务要求。Prompt中明确规定必须输出纯JSON格式，不得包含任何解释性文字，并强制要求包含OpenAPI规范的必要字段。

构造完成的Prompt被送入AI模型客户端。系统通过HTTP请求调用大模型API，设置合理的超时时间和重试机制。考虑到大模型API可能的不稳定性，系统实现了指数退避的重试策略，最大程度保证请求成功。

大模型返回的原始响应首先经过JSON语法解析，确保格式正确性。随后进入规范校验阶段，检查是否包含必需的顶级字段，路径格式是否符合要求等。校验通过后，系统还可能进行后处理优化，如调整缩进格式、合并重复schema等。

最终，经过验证的OpenAPI JSON以文件流形式返回给前端。前端接收到响应后，通过Blob对象创建下载链接，触发浏览器下载功能。整个流程中，前端实时显示处理状态，让用户清晰了解当前进展。

3.3 关键技术难点

难点一：Prompt的精确性设计

大语言模型的输出具有不确定性，如何确保其始终输出符合格式要求的JSON，是系统面临的首要挑战。解决方案是采用多层次的Prompt约束机制。第一层设置系统角色，明确模型需要扮演OpenAPI规范专家；第二层描述具体任务，给出详细的任务说明；第三层列出严格的约束条件，包括禁止输出解释文字、必须包含的字段等；第四层提供示例JSON结构，作为格式参考；第五层强调输出格式要求，如不允许markdown代码块。通过这五层约束，显著提升输出的规范性。

难点二：异构文档的适应性

接口文档的写法千差万别，有的采用表格形式描述参数，有的使用自然语言段落，还有的混合多种格式。如何让模型适应不同的表达方式？系统的策略是在Prompt中不对文档格式做任何假设，完全依赖大模型的自然语言理解能力。同时，在后续版本中计划引入文档预处理模块，对常见格式进行初步结构化，减轻模型的理解负担。

难点三：规范校验的完整性

OpenAPI 3.0.0规范包含数十个字段，如何确保生成的JSON满足所有要求？系统实现了分层校验机制。第一层使用JSON Schema验证基本结构，第二层检查业务逻辑合理性，如路径是否以斜杠开头、参数类型是否合法等。对于校验不通过的JSON，系统会记录错误信息并尝试修复，如修复失败则返回错误提示，引导用户调整后重试。

难点四：成本控制与性能平衡

调用大模型API需要消耗token，直接决定使用成本。系统在Prompt设计中力求简洁精准，避免冗余信息浪费token。同时，支持用户选择不同的模型，平衡效果与成本。在性能方面，采用异步处理机制，避免长时间阻塞HTTP连接。

4. 核心模块设计

4.1 文件解析模块

文件解析模块负责将用户上传的各类文档转换为纯文本字符串。考虑到未来需要支持Word、PDF等二进制格式，模块设计时预留了扩展点。当前版本主要处理文本文件，通过Java NIO的Files.readString方法高效读取。对于大文件，采用分段读取策略，避免内存溢出。同时，模块会对文件编码进行自动检测，确保中文等非ASCII字符正确解析。

4.2 Prompt工程模块

Prompt工程模块是本系统的核心创新点之一。该模块将原始的接口文档内容与精心设计的指令模板相结合，形成最终发送给大模型的完整Prompt。模板包含以下几个关键部分：

角色定义部分：明确要求模型扮演OpenAPI规范专家的角色，使其调用相关知识库。

任务描述部分：详细说明需要完成的任务，即根据接口文档生成OpenAPI JSON。

格式约束部分：列出所有必须遵守的格式要求，如纯JSON输出、禁止markdown代码块、必需字段列表等。

示例引导部分：提供一个简化的OpenAPI JSON示例，作为输出的参考模板。

文档内容部分：嵌入用户上传的原始文档内容。

输出指令部分：明确指示开始生成，减少模型产生额外对话的可能性。

4.3 AI模型客户端模块

AI模型客户端模块采用抽象工厂模式设计，定义统一的客户端接口，支持不同AI服务的接入。当前实现了通义千问客户端，通过HTTP调用API。模块内部处理API认证、请求构建、响应解析、错误处理等通用逻辑。特别设计了熔断和降级机制，当API连续失败超过阈值时，自动返回友好错误提示，避免系统雪崩。

4.4 JSON校验与优化模块

JSON校验与优化模块是保障输出质量的关键。模块首先使用Jackson库解析返回的字符串，捕获JSON语法错误。对于解析成功的JSON，进一步验证其结构是否符合OpenAPI规范。验证内容包括：openapi字段是否存在且版本正确；info对象是否包含title和version；paths对象是否存在；每个路径下的操作对象是否包含至少一个响应等。

对于可以通过规则自动修复的轻微问题，模块会尝试修复。例如，补全缺失的openapi版本字段，添加默认的info信息等。对于无法修复的严重问题，模块会记录详细的错误信息，辅助用户诊断问题。

4.5 文件下载模块

文件下载模块负责将生成的OpenAPI JSON以文件流形式返回给前端。模块设置适当的HTTP响应头，包括Content-Disposition指定文件名，Content-Type指定application/json。同时，通过响应体的字节数组返回文件内容。为防止大文件下载导致的内存问题，模块支持流式输出，边生成边发送。

5. 部署与运维

5.1 部署架构

系统采用容器化部署方案，通过Docker打包前后端应用，使用Docker Compose编排多容器。前端Nginx容器负责静态资源服务和反向代理，后端Spring Boot容器运行核心业务逻辑。这种部署方式简化了环境依赖，便于水平扩展。

5.2 配置管理

考虑到用户需要自行配置大模型API密钥，系统设计了分层配置管理机制。基础配置（如文件大小限制、超时时间）通过配置文件管理；敏感信息（如API密钥）支持环境变量注入，避免明文存储。同时，提供配置验证功能，启动时检查必要配置是否完整。

5.3 监控与日志

系统集成Spring Boot Actuator，暴露健康检查、指标收集等端点。通过Prometheus抓取指标，Grafana展示监控面板。日志方面，采用SLF4J+Logback组合，按天滚动归档，支持日志级别动态调整，便于问题排查。

6. 未来展望

6.1 短期规划

在短期内，系统将重点解决格式支持问题，增加对Word、PDF等常见二进制格式的解析能力。同时，持续优化Prompt模板，通过大量测试样本迭代提示词，提高模型输出的准确率。此外，计划引入用户反馈机制，允许用户对生成结果进行评分和纠错，形成数据闭环，持续优化系统效果。

6.2 中期规划

中期规划的核心是多模型支持和功能增强。系统将接入智谱AI、文心一言、通义千问等多个国产大模型，让用户可以根据实际效果和成本选择最适合的模型。功能方面，增加OpenAPI规范的可视化预览，让用户在下载前能够直观查看生成的API结构。同时，支持OpenAPI YAML格式输出，满足不同工具链的需求。

6.3 长期规划

长期来看，项目目标是成为一个免费的公共服务，降低整个行业使用OpenAPI规范的门槛。计划自费购买API额度，向所有开发者免费开放使用。同时，建立接口文档样本库，积累不同领域、不同风格的文档样本，持续优化模型表现。最终，希望能够推动API治理的自动化和智能化，为软件工程领域的规范化发展贡献力量。

7. 结语

本文提出并实现了一套基于大语言模型的接口文档智能解析与OpenAPI规范生成系统。系统通过Vue3与SpringBoot构建前后端分离架构，利用大语言模型的自然语言理解能力，将非结构化的接口文档自动转换为标准化的OpenAPI JSON文件。系统有效解决了手动编写OpenAPI规范效率低、易出错的问题，为API规范化治理提供了智能化的解决方案。尽管当前版本仍处于初级阶段，存在一定的局限性，但随着大语言模型技术的持续进步和系统本身的不断迭代优化，相信这类智能工具将在未来的软件工程实践中发挥越来越重要的作用。

项目地址：https://gitee.com/saulCode/open-api-conversion-tool
技术交流：欢迎对API治理、大模型应用感兴趣的开发者共同参与
特别说明：本项目为个人开源项目，调用大模型API产生的费用需用户自行承担，未来将争取免费开放使用

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

Hermes Agent 学习笔记 05：Memory 系统，为什么长期 Agent 不能每次都从零开始？

我的理解是，Hermes Memory 的核心价值不是简单保存聊天记录，而是让 Agent 能够跨会话保留用户偏好、项目背景、环境事实和长期经验。也就是说，如果 Agent 在当前会话中写入了新的 memory，这个 memory 会保存到磁盘中，但它不一定会立即出现在当前会话的系统提示中。下一期，我将继续学习 Hermes Agent 的 Skills 系统，重点分析 skills 和 memo