AGI Agent——一个擅长写作的通用大模型智能体

AGIAgent是一款开源的智能文档生成工具，针对大模型写作存在的篇幅短、AI味重、图文单一、格式受限等问题进行深度优化。主要特点包括：1.支持30-50页专业长文档生成；2.提供四种图像生成方案（代码转图/网络搜图/AI生图/数据可视化）；3.基于RAG技术整合知识库资料；4.可输出Word/PDF格式；5.支持多智能体协作写作；6.适配国内外主流大模型；7.50页文档生成成本控制在2元以内；8

真智

1274人浏览 · 2025-09-14 21:18:48

真智 · 2025-09-14 21:18:48 发布

大家有没有发现，通常大模型生成的文档具有几大特点：

文档篇幅偏短、文字不够正式、字多图少或者没有图、语句生硬AI味严重、无法导出成word、无法基于自己的文档或知识库进行撰写、没法私有化部署等问题，那么不妨看看AGI Agent这款完全开源的免费智能体工具，也许能让你刷新大模型文档写作的认知。

为了生成更好的文档，AGI Agent针对这10个需求进行了深度优化：

支持丰富图文报告生成，图片要有多样性（示意图、网络搜图、AI生图、代码生图）；
支持带有丰富背景资料或知识库的报告生成（RAG），背景文件需支持各类格式，可上网检索相关信息，根据检索信息写报告，信息要可信，可回溯；
支持长文档生成，一次生成完整的报告、申请书、论文、专利等，可达到30-50页篇幅
去除AI style，文档更像是专家人类书写，且能风格化文档生成，例如公众号、blog等
界面需带有文档预览能力和图像/文字的编辑能力；
支持导出word/pdf格式，word格式下图文信息要完整保留，pdf要排版优雅，可直接交付；
国际、国内都可用；
速度要快，支持启用多个智能体并行书写文本；
成本可控，50页报告生成成本（API费用）应在2元人民币以内（采用国产模型）；
模型适配广泛，可支持完全的私有化部署。

那么AGI Agent是怎么做到的呢？且听详细分解。

技术原理与展示

一、丰富图文报告生成

虽然大模型通常可以生成大量文字，但图像生成方面一直难以与人类撰写的稿件媲美，要么只能生成一些数据分析图，要么只会配置一两张网上搜图，要么只会额外生成几张图，但由于文字渲染错误多，可用性有限。因此，为了构建带有图像的富格式文本，AGI Agent采用了多种图片生成方案：图像代码转图像（mermaid生成）、谷歌/百度抓取的图像、图像生成工具生成的图像、数据分析代码生成的图像。

1.1 Mermaid自动生成

让大模型输出带有示意图代码的Markdown文档，文档与示意图（mermaid）混合构建，自动mermaid区域识别，自动独立成源码文件，自动转换为矢量图（svg格式）和png格式。使得用户可以拿到缩放不失真的矢量图。
mermaid中的中文进行了特定化处理保证了不丢中文。
为了保证mermaid的执行稳定性，不采用mermaid 在线生成引擎，同时本地mermaid引擎大多需要安装mmdc工具（包括很多python包的方式），且工具需要依赖其他工具较多，有时候装好的环境无法支持中文，因此也没有采用mmdc方案，最终选择了playwright库渲染的方式。由于网页抓取工具默认需要使用playwright，因此没有额外的工具安装开销。由于playwright每次转换一张图需要3秒钟，速度较慢，因此做了一定的处理，将多个mermaid图放入同一个浏览器框架一起渲染，实现了并行化mermaid图像的生成。
由于mermaid图像转出到word、pdf后大小不可控，在md中的大小也不可控导致视觉效果不佳，因此采用xelatex并结合了latex pdf生成模板实现了优雅排版的pdf生成，在生成word的时候也做了相应的模板处理。
由于mermaid图像经常和用户的需求不完全匹配，因此在GUI界面添加了编辑mermaid和重新导出的功能，用户可以在界面中编辑mermaid源码并导出新的mermaid图。

1.2 网页图像抓取

为了实现网页图像的抓取，AGI Agent构建了网页抓取图像的内建工具。可以直接从谷歌图像/百度图像的网站上抓取图像。
搜索到的图片默认大模型会直接插入到文档，不会主动阅读，这样做是成本的考量，但是引来的问题是经常容易插入不正确的图，因此下载图像的时候，通常会一次性下载多张，并以文件数字尾号区别，并在GUI界面设计了一键换图按钮，在Markdown预览的时候，可以切换上一张和下一张图像，通过变更文件尾号实现快速换图，也可以直接删除图像，此时markdown文档的图像链接被删除。
大模型具有读取图片的功能，如果需要，大模型可以读取相关图片（需配置claude sonnet、GPT-4o等带有图像阅读能力的模型），并具有图像读取工具，图像会被编码成base64数据通过vision字段传递给大模型。为了节省token，这些base64数据只在当前轮次被传递，在之后的轮次的历史记录中不会保留这些base64数据，也就是说大模型调用完工具，只会在后续多轮调用中的最近一轮看到图像的完整数据，之后的历史消息只有图像文件名称。
进行pdf和word生成的时候，相关图片会连通转换到相关文档，并带有图注。

图。图文报告生成（网页抓图）

图. 图文报告示例（mermaid生图、网络搜图，PDF输出格式）

1.3 图像生成功能

采用图像生成MCP工具（tuzi mcp）可实现高清图像生成，tuzi mcp调用了gemini图像生成或者gpt的图像生成接口，支持高清图像生成。此时大模型会调用MCP接口，访问tuzi MCP工具，该工具是一个异步调用工具，即接口收到生图调用后会直接返回，但接口必须一直保持连接（否则会导致没有等到生成到的图像就程序结束了）。该工具还提供了一个阻塞等待工具，可以监测图像生成完毕后退出。使用这两个工具可以实现批量图像生成。

图. 图文报告示例（AI生图，Markdown预览模式）

1.4 基于代码的图像生成

为了对一些数据信息进行有效的分析和图形化，通常的方案是采用Python代码对数据进行分析，AGI Agent支持python代码的自动撰写和自动执行，并将生成的结果插入到文档。绘制通常使用matplotlib完成，可以实现各类图表的生成。也可采用其他软件包生成，在权限允许的情况下甚至还可自己安装缺失的python模块和系统软件包。

图. 代码生图（word输出案例）

二、基于带有丰富背景资料的报告生成

为了支持大量背景信息下的报告生成，AGI Agent采用工作目录形态，用户可以上传大量文档到工作目录中，如果是离线版本，也可以直接拷贝或采用link参数连接文档位置。

AGI Agent可以对工作目录中的文档或压缩包进行处理，用户可以用提示词要求进行解压，转markdown格式等操作（默认基于markitdown，也可以使用其他终端命令）。

考虑到大多数计算机不一定有GPU环境，本地embedding较慢，如果使用embedding API则需要用户再提供一个API，且嵌入速度不可控，因此AGI Agent采用了更高效、本地化的TF-IDF模型。无需用户提供embedding API。

为了实现无感动态嵌入，AGI Agent具有一个背景线程，可以无感的动态创建、更新embedding，如果用户有新的文档，则会自动索引新文件。由于TF-IDF的速度极快，基本无需等待即完成入库。索引范围包括所有文本和代码类格式，但不会索引pdf/word等文件（因为已经转换成了markdown）。

AGI Agent自带工作空间搜索工具，实现了基于TF-IDF嵌入向量的与query嵌入的相似度比对，从而实现了模糊搜索。此外也自带grep工具，可以实现精确关键词检索。自带文件

此外，对于需要外挂知识库的情况，AGI Agent也支持采用MCP工具的方式进行外挂更先进的知识库或数据库。

三、长文档生成

为了实现带有复杂篇章结构的长文档生成，AGI Agent明确要求大模型采用逐篇章生成的方式生成文档。若用户未明确指定报告形式，优先选择篇幅较长的 Markdown 格式报告，具体操作可遵循以下步骤：首先制定大纲，大纲需涵盖报告的核心章节、各章节的主要内容及逻辑顺序，为后续撰写提供清晰的框架；再逐节生成内容，切勿一次性生成全部内容，逐节撰写能更好地把控每一部分的质量，及时调整内容深度和逻辑结构。每次仅生成大纲中的一个章节，并将每个章节撰写至单独文件中，使用多个具有描述性名称的.md 文件（例如：01-executive-summary.md）标记。这样既便于对单个章节进行修改和完善，也能避免因文件过大导致的编辑不便。每个文件内的内容需以段落形式组织，避免过多使用项目符号或列举形式，且每段必须包含不止一个句子，确保内容的连贯性和完整性。将所有章节撰写至单独文件后，使用内建工具将其合并为一个最终的报告文件。

在段落结构处理上，AGI Agent要求每段至少包含 5-8 个句子，且需具备足够深度。在介绍技术概念前，需提供全面的背景信息。针对每个观点，需包含详尽的推理、证据及学术性探讨。添加足够支撑你的观点的细节。段落尽量采用总分或总分总结构。多采用比如、举例等方式解释观点。可以使用过渡词、过渡句衔接句子，也可以通过指代词和关键词衔接各个句子。

在细节句式处理方面，要求采用流畅的叙述风格。正文中避免使用项目符号和列举形式，而是以连贯的散文体撰写。使用过渡句实现段落间观点的无缝衔接。

图。完整长文报告（48页）生成示例

四、去除AI style，文档更像是专家人类书写

在风格处理上，默认设置下AGI Agent要求大模型采用采用学术 / 专业写作风格：撰写风格需符合学术期刊或专业商业报告的发表标准

对于其他写作风格，AGI Agent采用以‘指导文件’（routine）的方式进行配置，默认提供了博客写作、国家项目申请书写作、报告写作、专利写作、代码转文本等文体。每个文体具有详细的指导文件，这些文件是纯文本的，模拟了cursor rules，工作原理类似于扩展提示词。

例如博客写作的要求采用的风格是：亲切接地气，像聊天，可分享兴奋感，避免生硬说教。多用网络热门词，活泼口语化，忌低俗。开头用疑问、夸张感叹或直接抛干货引关注；内容实用，加细节和经验；结合热门话题、节日等；配高质量图文 / 视频；可以搜索一些图片。末尾设互动问题；适当用表情符号增趣味。

而国家项目申请文档的要求为论述要求图文并茂，论述详细。尽量使用长句、单个段落字数应在300字上下为宜，使用在xxx方面，或从一方面、另一方面、或首先、其次、再次、最后，或第一、第二等等词汇衔接子观点，代替分条列出子观点的格式。承接词要丰富，相邻段落必须使用不同的承接词。采用比如、举例等方式解释你的观点。段落尽量采用总分或总分总结构。对于每个章节，请搜索网页、知识库、代码库相关信息并针对提示词中的指南（需求）进行整理。书写每个章节时就进行配图，可以采用mermaid绘制，也可以从互联网搜索图像。并对申请书的详细章节进行了大纲列举，大模型需要按照章节进行生成。

五、文档预览能力和图像/文字的编辑能力

AGI Agent具有一个带有文件列表的GUI 界面，用户可以预览各种类型的文件。对于默认的文档输出结构，采用Markdown形式输出，因此配置了Markdown文档预览器，并可以切换到源码模式和渲染后的预览模式，如果用户觉得Markdown源码需要更改，可以直接在源码模式更改文档。Markdown中的文档预览部分可以直接看到插入到文档的图像，对于网上抓取的图片，可直接点击‘下一张’‘上一张’选择和删除进行更换处理。对于Mermaid产生的图像，可使用Mermaid的源码预览器，对图像源码进行编辑并重新生成。此外，也集成了PDF预览器，代码预览器，图像预览器，json/txt等一系列文本文件的预览器，图像预览器自带svg，png，jpeg等多种格式的预览及放大功能。

AGI Agent GUI的Markdown预览

六、自动word/pdf格式导出功能

由于markdown格式并不能被典型的文本编辑器编辑，因此大家还是需要word格式，为了快速阅读，通常也需要pdf格式。因此设计了自动格式输出的功能，当大模型通过写文件命令输出了markdown文档的时候，检测到markdown文档后，程序会自动通过预定义的模板调用pandoc工具实现文档转换，并在文件夹中生成相同文件名（不同扩展名）的docx/pdf文档。

在进行word/pdf导出时，markdown的emoji字符会被过滤掉，因为很可能emoji会不显示或乱码。

由于某些markdown是通过系统命令生成的，不一定能够被检测到，因此在GUI的markdown预览界面中设计了word转换和pdf转换两个按钮，用户可以手工操作转换过程，转换好之后自动启动文件下载。

七、国际化能力

AGI Agent为国内和国际创建了两套图像引擎，因为在国内，谷歌无法访问，而在国外，百度图片无法下载，因此国内采用百度图片搜索，国际采用谷歌图片搜索。目前系统做了自动判断，优先访问谷歌链接，如果无效则访问百度搜图。

百度搜索方面，发现搜索和下载图片是可行的，但是由于是从网页上爬取的，因此会有几张干扰图（网页元素图），且名字不固定，因此做了哈希码的判别和过滤。

对于谷歌图片搜索，默认搜索到的是低清晰度的预览图，因此需要额外的进一步索引才能找到高清图，因此做了二次检索。由于谷歌搜图串行下载太慢，又做了多图并行下载。

类似的，网页检索上，也设计了谷歌、百度双模式，当谷歌可用时采用谷歌搜索，否则采用百度搜索。当有其他MCP可用的时候，也会调用MCP进行网络搜索（例如Baidu AISearch， jina-mcp-tool）。

为了国际化能力，默认提示词采用英文，默认核心代码采用英文。GUI界面部分做了双语版本，可以通过配置在配置文件中的LANG字段实现中文和英文两种显示语言的切换。

八、支持启用多个智能体并行书写文本

AGI Agent自带多智能体支持能力，可以支持多个智能体并由主智能体（manager）自动调度，自主确定各个智能体的提示词（任务），也可以让各个智能体具有不同的MCP工具库。启用智能体可以实现两个作用。

首先，多个智能体可以一起写文档，由manager确定好分工思路后，manager会给每个智能体不同的子章节进行撰写，并监督他们的完成效果，当各个子章节完成后，manager会将章节报告合并成完整的大报告，并进行结果检查。

其次，每个智能体拥有自己的上下文，从而可以更专注的完成本章内容的写作，不会造成上下文溢出。智能体可以在充足的上下文内实现调研、网络搜索、图片搜索等环节。（可以使用指导文件multiagent_doc_report.txt）。

此外，多个智能体还可以充当不同的角色，例如辩论赛的正反方，进行一场辩论，并对辩论结果进行总结，形成总结报告。从而实现同一问题的不同观点和审视角度（可以使用指导文件multiagent_debate.txt）。

在多智能体情况下由于每个智能体都会输出信息，因此除manager外，其他智能体会将信息输出到agentXXX.out文件中。

图. 启动多智能体，并采用MCP实现网页搜索（jina-mcp-tool）

成本可控，50页报告生成成本（API费用）可在2元人民币以内

AGI Agent搭配Claude Sonnet 4模型可获得最好的生成效果，为了支持Claude Sonnet模型，AGI Agent实现了专有的一套Claude接口，用于支持流式和非流式、标准工具调用格式及传统Chat格式。考虑到Claude模型具有非常诱人的Cache命中定价，因此AGI Agent多轮对话会保证Cache尽量命中（不会修改历史轮次的内容，保持一直累积），从而降低多轮对话的上文开销。

此外，为了避免过长的上下文，AGI Agent设计了历史记录自动总结触发开关，当历史记录文字超过一个限定值，例如100K chars的时候，会进行一次总结，总结除最后2轮之外的其余轮次信息。从而保证上下文长度不会太长，保证开销可控。

此外，由于Claude模型无法对中国公司提供，且价格昂贵，因此也可采用国产模型实现类似的生成效果，例如GLM-4.5模型，采用该模型按照目前的定价策略可保证单次长文生成成本在2元人民币以内，可以实现规模化应用和部署。

十、模型适配广泛，可支持完全的私有化部署

AGI Agent配备了流式接口和非流式两种大模型调用接口，并配备了工具调用格式和Chat格式两种调用格式，其中工具调用格式下，工具的定义和工具的输出采用openai或claude的专有字段描述。而Chat模式下，所有内容都在文本中描述。

AGI Agent采用标准的接口，因此理论上可以适配各类大模型，包括已经适配了的Claude系列、OpenAI系列、Deepseek V3.1、GLM-4.5、Qwen3-Coder、Moonshot Kimi-K2、字节豆包等。但出于效果考量，建议使用Claude sonnet、GLM-4.5（开源）、Qwen3-Coder（开源）等模型，最小规模的可适配模型为Qwen3-30B-A3-Instruct（Qwen3-Coder-flash）模型。目前大模型的风格会影响输出效果，通常更优秀的模型文字更深入、篇幅可以更长、图表更多。越小规模的模型输出的文档更简单，字数较少，不够深入。采用更小的模型，理论上也能工作，但在进行纯自主的工具调用时会犯各种类型的错误或者问题，如调用格式错误、反复查资料而不写文档、循环执行某些内容、幻觉等。

AGI Agent可在纯终端中使用，推荐终端使用时结合VSCode/Cursor等IDE工具使用，可以更方便的预览markdown/pdf及图片。同时，AGI Agent也可以通过GUI使用，GUI支持远程云端部署，支持10人以内小团队的多用户并发使用，支持不同用户的资料隔离。AGI Agent还支持Python调用形式，可以作为一个模块集成到现有工作流中。

图. 在VSCode中以终端形式使用AGI Agent

AGI Agent私有化部署非常便利，并可修改APP Name实现企业的专有软件名称。核心模块只有python依赖和chrome浏览器依赖，只需要一个大模型API key（无需Embedding模型的部署或API key，无需网络搜索工具的API），无需安装MCP环境也能工作。如果需要自动生成pdf，需要xelatex环境。

总结

AGI Agent是一个擅长文档写作的通用智能体，可以实现专业写作水平的智能体软件。实现专业级别的长文档创作、图文文档创作，支持私有知识、支持私有化部署。项目还在持续发展中，相关功能还在继续优化。

项目地址：https://github.com/agi-hub/AGIAgent

项目介绍主页：https://agiagentonline.com/intro/

网页体验地址：https://agiagentonline.com，进入网页后可直接连接进入预览账号查看已有案例。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

零基础部署 OpenClaw v2.6.4｜本地 AI 智能体实操手册，内置多模型

2048 AI社区

无需配置：OpenClaw 2.6.4 本地 AI 智能体快速搭建

2048 AI社区

VibeCoding重塑开发范式：Enter.Pro基于阿里云AnalyticDB Supabase构建全栈AI平台

同时，ADB Supabase 基于存算分离的 Serverless 架构，当实例 Scale to Zero 时，数据仅仅被持久化到OSS，不需要保留SSD云盘，OSS的数据保有价格仅SSD云盘的1/10。爆发式的数据库创建需求：AI Agent 创建数据库的速度是人类开发者的4倍，每个用户项目都需要独立的数据库实例来进行业务隔离，给AI Agent提供独立数据库沙箱环境。这种“大胆尝试，随时回