AGI Agent——一个擅长写作的通用大模型智能体
AGIAgent是一款开源的智能文档生成工具,针对大模型写作存在的篇幅短、AI味重、图文单一、格式受限等问题进行深度优化。主要特点包括:1.支持30-50页专业长文档生成;2.提供四种图像生成方案(代码转图/网络搜图/AI生图/数据可视化);3.基于RAG技术整合知识库资料;4.可输出Word/PDF格式;5.支持多智能体协作写作;6.适配国内外主流大模型;7.50页文档生成成本控制在2元以内;8
大家有没有发现,通常大模型生成的文档具有几大特点:
文档篇幅偏短、文字不够正式、字多图少或者没有图、语句生硬AI味严重、无法导出成word、无法基于自己的文档或知识库进行撰写、没法私有化部署等问题,那么不妨看看AGI Agent这款完全开源的免费智能体工具,也许能让你刷新大模型文档写作的认知。
为了生成更好的文档,AGI Agent针对这10个需求进行了深度优化:
- 支持丰富图文报告生成,图片要有多样性(示意图、网络搜图、AI生图、代码生图);
- 支持带有丰富背景资料或知识库的报告生成(RAG),背景文件需支持各类格式,可上网检索相关信息,根据检索信息写报告,信息要可信,可回溯;
- 支持长文档生成,一次生成完整的报告、申请书、论文、专利等,可达到30-50页篇幅
- 去除AI style,文档更像是专家人类书写,且能风格化文档生成,例如公众号、blog等
- 界面需带有文档预览能力和图像/文字的编辑能力;
- 支持导出word/pdf格式,word格式下图文信息要完整保留,pdf要排版优雅,可直接交付;
- 国际、国内都可用;
- 速度要快,支持启用多个智能体并行书写文本;
- 成本可控,50页报告生成成本(API费用)应在2元人民币以内(采用国产模型);
- 模型适配广泛,可支持完全的私有化部署。
那么AGI Agent是怎么做到的呢?且听详细分解。
技术原理与展示
一、丰富图文报告生成
虽然大模型通常可以生成大量文字,但图像生成方面一直难以与人类撰写的稿件媲美,要么只能生成一些数据分析图,要么只会配置一两张网上搜图,要么只会额外生成几张图,但由于文字渲染错误多,可用性有限。因此,为了构建带有图像的富格式文本,AGI Agent采用了多种图片生成方案:图像代码转图像(mermaid生成)、谷歌/百度抓取的图像、图像生成工具生成的图像、数据分析代码生成的图像。
1.1 Mermaid自动生成
- 让大模型输出带有示意图代码的Markdown文档,文档与示意图(mermaid)混合构建,自动mermaid区域识别,自动独立成源码文件,自动转换为矢量图(svg格式)和png格式。使得用户可以拿到缩放不失真的矢量图。
- mermaid中的中文进行了特定化处理保证了不丢中文。
- 为了保证mermaid的执行稳定性,不采用mermaid 在线生成引擎,同时本地mermaid引擎大多需要安装mmdc工具(包括很多python包的方式),且工具需要依赖其他工具较多,有时候装好的环境无法支持中文,因此也没有采用mmdc方案,最终选择了playwright库渲染的方式。由于网页抓取工具默认需要使用playwright,因此没有额外的工具安装开销。由于playwright每次转换一张图需要3秒钟,速度较慢,因此做了一定的处理,将多个mermaid图放入同一个浏览器框架一起渲染,实现了并行化mermaid图像的生成。
- 由于mermaid图像转出到word、pdf后大小不可控,在md中的大小也不可控导致视觉效果不佳,因此采用xelatex并结合了latex pdf生成模板实现了优雅排版的pdf生成,在生成word的时候也做了相应的模板处理。
- 由于mermaid图像经常和用户的需求不完全匹配,因此在GUI界面添加了编辑mermaid和重新导出的功能,用户可以在界面中编辑mermaid源码并导出新的mermaid图。
1.2 网页图像抓取
- 为了实现网页图像的抓取,AGI Agent构建了网页抓取图像的内建工具。可以直接从谷歌图像/百度图像的网站上抓取图像。
- 搜索到的图片默认大模型会直接插入到文档,不会主动阅读,这样做是成本的考量,但是引来的问题是经常容易插入不正确的图,因此下载图像的时候,通常会一次性下载多张,并以文件数字尾号区别,并在GUI界面设计了一键换图按钮,在Markdown预览的时候,可以切换上一张和下一张图像,通过变更文件尾号实现快速换图,也可以直接删除图像,此时markdown文档的图像链接被删除。
- 大模型具有读取图片的功能,如果需要,大模型可以读取相关图片(需配置claude sonnet、GPT-4o等带有图像阅读能力的模型),并具有图像读取工具,图像会被编码成base64数据通过vision字段传递给大模型。为了节省token,这些base64数据只在当前轮次被传递,在之后的轮次的历史记录中不会保留这些base64数据,也就是说大模型调用完工具,只会在后续多轮调用中的最近一轮看到图像的完整数据,之后的历史消息只有图像文件名称。
- 进行pdf和word生成的时候,相关图片会连通转换到相关文档,并带有图注。

图。 图文报告生成(网页抓图)

图. 图文报告示例(mermaid生图、网络搜图,PDF输出格式)
1.3 图像生成功能
采用图像生成MCP工具(tuzi mcp)可实现高清图像生成,tuzi mcp调用了gemini图像生成或者gpt的图像生成接口,支持高清图像生成。此时大模型会调用MCP接口,访问tuzi MCP工具,该工具是一个异步调用工具,即接口收到生图调用后会直接返回,但接口必须一直保持连接(否则会导致没有等到生成到的图像就程序结束了)。该工具还提供了一个阻塞等待工具,可以监测图像生成完毕后退出。使用这两个工具可以实现批量图像生成。

图. 图文报告示例(AI生图,Markdown预览模式)
1.4 基于代码的图像生成
为了对一些数据信息进行有效的分析和图形化,通常的方案是采用Python代码对数据进行分析,AGI Agent支持python代码的自动撰写和自动执行,并将生成的结果插入到文档。绘制通常使用matplotlib完成,可以实现各类图表的生成。也可采用其他软件包生成,在权限允许的情况下甚至还可自己安装缺失的python模块和系统软件包。

图. 代码生图(word输出案例)
二、基于带有丰富背景资料的报告生成
为了支持大量背景信息下的报告生成,AGI Agent采用工作目录形态,用户可以上传大量文档到工作目录中,如果是离线版本,也可以直接拷贝或采用link参数连接文档位置。
AGI Agent可以对工作目录中的文档或压缩包进行处理,用户可以用提示词要求进行解压,转markdown格式等操作(默认基于markitdown,也可以使用其他终端命令)。
考虑到大多数计算机不一定有GPU环境,本地embedding较慢,如果使用embedding API则需要用户再提供一个API,且嵌入速度不可控,因此AGI Agent采用了更高效、本地化的TF-IDF模型。无需用户提供embedding API。
为了实现无感动态嵌入,AGI Agent具有一个背景线程,可以无感的动态创建、更新embedding,如果用户有新的文档,则会自动索引新文件。由于TF-IDF的速度极快,基本无需等待即完成入库。索引范围包括所有文本和代码类格式,但不会索引pdf/word等文件(因为已经转换成了markdown)。
AGI Agent自带工作空间搜索工具,实现了基于TF-IDF嵌入向量的与query嵌入的相似度比对,从而实现了模糊搜索。此外也自带grep工具,可以实现精确关键词检索。自带文件
此外,对于需要外挂知识库的情况,AGI Agent也支持采用MCP工具的方式进行外挂更先进的知识库或数据库。
三、长文档生成
为了实现带有复杂篇章结构的长文档生成,AGI Agent明确要求大模型采用逐篇章生成的方式生成文档。若用户未明确指定报告形式,优先选择篇幅较长的 Markdown 格式报告,具体操作可遵循以下步骤:首先制定大纲,大纲需涵盖报告的核心章节、各章节的主要内容及逻辑顺序,为后续撰写提供清晰的框架;再逐节生成内容,切勿一次性生成全部内容,逐节撰写能更好地把控每一部分的质量,及时调整内容深度和逻辑结构。每次仅生成大纲中的一个章节,并将每个章节撰写至单独文件中,使用多个具有描述性名称的.md 文件(例如:01-executive-summary.md)标记。这样既便于对单个章节进行修改和完善,也能避免因文件过大导致的编辑不便。每个文件内的内容需以段落形式组织,避免过多使用项目符号或列举形式,且每段必须包含不止一个句子,确保内容的连贯性和完整性。将所有章节撰写至单独文件后,使用内建工具将其合并为一个最终的报告文件。
在段落结构处理上,AGI Agent要求每段至少包含 5-8 个句子,且需具备足够深度。在介绍技术概念前,需提供全面的背景信息。针对每个观点,需包含详尽的推理、证据及学术性探讨。添加足够支撑你的观点的细节。段落尽量采用总分或总分总结构。多采用比如、举例等方式解释观点。可以使用过渡词、过渡句衔接句子,也可以通过指代词和关键词衔接各个句子。
在细节句式处理方面,要求采用流畅的叙述风格。正文中避免使用项目符号和列举形式,而是以连贯的散文体撰写。使用过渡句实现段落间观点的无缝衔接。

图。完整长文报告(48页)生成示例
四、去除AI style,文档更像是专家人类书写
在风格处理上,默认设置下AGI Agent要求大模型采用采用学术 / 专业写作风格:撰写风格需符合学术期刊或专业商业报告的发表标准
对于其他写作风格,AGI Agent采用以‘指导文件’(routine)的方式进行配置,默认提供了博客写作、国家项目申请书写作、报告写作、专利写作、代码转文本等文体。每个文体具有详细的指导文件,这些文件是纯文本的,模拟了cursor rules,工作原理类似于扩展提示词。
例如博客写作的要求采用的风格是:亲切接地气,像聊天,可分享兴奋感,避免生硬说教。多用网络热门词,活泼口语化,忌低俗。开头用疑问、夸张感叹或直接抛干货引关注;内容实用,加细节和经验;结合热门话题、节日等;配高质量图文 / 视频;可以搜索一些图片。末尾设互动问题;适当用表情符号增趣味。
而国家项目申请文档的要求为论述要求图文并茂,论述详细。尽量使用长句、单个段落字数应在300字上下为宜,使用在xxx方面,或从一方面、另一方面、或首先、其次、再次、最后,或第一、第二等等词汇衔接子观点,代替分条列出子观点的格式。承接词要丰富,相邻段落必须使用不同的承接词。采用比如、举例等方式解释你的观点。段落尽量采用总分或总分总结构。对于每个章节,请搜索网页、知识库、代码库相关信息并针对提示词中的指南(需求)进行整理。书写每个章节时就进行配图,可以采用mermaid绘制,也可以从互联网搜索图像。并对申请书的详细章节进行了大纲列举,大模型需要按照章节进行生成。
五、文档预览能力和图像/文字的编辑能力
AGI Agent具有一个带有文件列表的GUI 界面,用户可以预览各种类型的文件。对于默认的文档输出结构,采用Markdown形式输出,因此配置了Markdown文档预览器,并可以切换到源码模式和渲染后的预览模式,如果用户觉得Markdown源码需要更改,可以直接在源码模式更改文档。Markdown中的文档预览部分可以直接看到插入到文档的图像,对于网上抓取的图片,可直接点击‘下一张’‘上一张’选择和删除进行更换处理。对于Mermaid产生的图像,可使用Mermaid的源码预览器,对图像源码进行编辑并重新生成。此外,也集成了PDF预览器,代码预览器,图像预览器,json/txt等一系列文本文件的预览器,图像预览器自带svg,png,jpeg等多种格式的预览及放大功能。

AGI Agent GUI的Markdown预览
六、自动word/pdf格式导出功能
由于markdown格式并不能被典型的文本编辑器编辑,因此大家还是需要word格式,为了快速阅读,通常也需要pdf格式。因此设计了自动格式输出的功能,当大模型通过写文件命令输出了markdown文档的时候,检测到markdown文档后,程序会自动通过预定义的模板调用pandoc工具实现文档转换,并在文件夹中生成相同文件名(不同扩展名)的docx/pdf文档。
在进行word/pdf导出时,markdown的emoji字符会被过滤掉,因为很可能emoji会不显示或乱码。
由于某些markdown是通过系统命令生成的,不一定能够被检测到,因此在GUI的markdown预览界面中设计了word转换和pdf转换两个按钮,用户可以手工操作转换过程,转换好之后自动启动文件下载。
七、国际化能力
AGI Agent为国内和国际创建了两套图像引擎,因为在国内,谷歌无法访问,而在国外,百度图片无法下载,因此国内采用百度图片搜索,国际采用谷歌图片搜索。目前系统做了自动判断,优先访问谷歌链接,如果无效则访问百度搜图。
百度搜索方面,发现搜索和下载图片是可行的,但是由于是从网页上爬取的,因此会有几张干扰图(网页元素图),且名字不固定,因此做了哈希码的判别和过滤。
对于谷歌图片搜索,默认搜索到的是低清晰度的预览图,因此需要额外的进一步索引才能找到高清图,因此做了二次检索。由于谷歌搜图串行下载太慢,又做了多图并行下载。
类似的,网页检索上,也设计了谷歌、百度双模式,当谷歌可用时采用谷歌搜索,否则采用百度搜索。当有其他MCP可用的时候,也会调用MCP进行网络搜索(例如Baidu AISearch, jina-mcp-tool)。
为了国际化能力,默认提示词采用英文,默认核心代码采用英文。GUI界面部分做了双语版本,可以通过配置在配置文件中的LANG字段实现中文和英文两种显示语言的切换。
八、支持启用多个智能体并行书写文本
AGI Agent自带多智能体支持能力,可以支持多个智能体并由主智能体(manager)自动调度,自主确定各个智能体的提示词(任务),也可以让各个智能体具有不同的MCP工具库。启用智能体可以实现两个作用。
首先,多个智能体可以一起写文档,由manager确定好分工思路后,manager会给每个智能体不同的子章节进行撰写,并监督他们的完成效果,当各个子章节完成后,manager会将章节报告合并成完整的大报告,并进行结果检查。
其次,每个智能体拥有自己的上下文,从而可以更专注的完成本章内容的写作,不会造成上下文溢出。智能体可以在充足的上下文内实现调研、网络搜索、图片搜索等环节。(可以使用指导文件multiagent_doc_report.txt)。
此外,多个智能体还可以充当不同的角色,例如辩论赛的正反方,进行一场辩论,并对辩论结果进行总结,形成总结报告。从而实现同一问题的不同观点和审视角度(可以使用指导文件multiagent_debate.txt)。
在多智能体情况下由于每个智能体都会输出信息,因此除manager外,其他智能体会将信息输出到agentXXX.out文件中。

图. 启动多智能体,并采用MCP实现网页搜索(jina-mcp-tool)
- 成本可控,50页报告生成成本(API费用)可在2元人民币以内
AGI Agent搭配Claude Sonnet 4模型可获得最好的生成效果,为了支持Claude Sonnet模型,AGI Agent实现了专有的一套Claude接口,用于支持流式和非流式、标准工具调用格式及传统Chat格式。考虑到Claude模型具有非常诱人的Cache命中定价,因此AGI Agent多轮对话会保证Cache尽量命中(不会修改历史轮次的内容,保持一直累积),从而降低多轮对话的上文开销。
此外,为了避免过长的上下文,AGI Agent设计了历史记录自动总结触发开关,当历史记录文字超过一个限定值,例如100K chars的时候,会进行一次总结,总结除最后2轮之外的其余轮次信息。从而保证上下文长度不会太长,保证开销可控。
此外,由于Claude模型无法对中国公司提供,且价格昂贵,因此也可采用国产模型实现类似的生成效果,例如GLM-4.5模型,采用该模型按照目前的定价策略可保证单次长文生成成本在2元人民币以内,可以实现规模化应用和部署。
十、模型适配广泛,可支持完全的私有化部署
AGI Agent配备了流式接口和非流式两种大模型调用接口,并配备了工具调用格式和Chat格式两种调用格式,其中工具调用格式下,工具的定义和工具的输出采用openai或claude的专有字段描述。而Chat模式下,所有内容都在文本中描述。
AGI Agent采用标准的接口,因此理论上可以适配各类大模型,包括已经适配了的Claude系列、OpenAI系列、Deepseek V3.1、GLM-4.5、Qwen3-Coder、Moonshot Kimi-K2、字节豆包等。但出于效果考量,建议使用Claude sonnet、GLM-4.5(开源)、Qwen3-Coder(开源)等模型,最小规模的可适配模型为Qwen3-30B-A3-Instruct(Qwen3-Coder-flash)模型。目前大模型的风格会影响输出效果,通常更优秀的模型文字更深入、篇幅可以更长、图表更多。越小规模的模型输出的文档更简单,字数较少,不够深入。采用更小的模型,理论上也能工作,但在进行纯自主的工具调用时会犯各种类型的错误或者问题,如调用格式错误、反复查资料而不写文档、循环执行某些内容、幻觉等。
AGI Agent可在纯终端中使用,推荐终端使用时结合VSCode/Cursor等IDE工具使用,可以更方便的预览markdown/pdf及图片。同时,AGI Agent也可以通过GUI使用,GUI支持远程云端部署,支持10人以内小团队的多用户并发使用,支持不同用户的资料隔离。AGI Agent还支持Python调用形式,可以作为一个模块集成到现有工作流中。

图. 在VSCode中以终端形式使用AGI Agent
AGI Agent私有化部署非常便利,并可修改APP Name实现企业的专有软件名称。核心模块只有python依赖和chrome浏览器依赖,只需要一个大模型API key(无需Embedding模型的部署或API key,无需网络搜索工具的API),无需安装MCP环境也能工作。如果需要自动生成pdf,需要xelatex环境。
总结
AGI Agent是一个擅长文档写作的通用智能体,可以实现专业写作水平的智能体软件。实现专业级别的长文档创作、图文文档创作,支持私有知识、支持私有化部署。项目还在持续发展中,相关功能还在继续优化。
项目地址:https://github.com/agi-hub/AGIAgent
项目介绍主页:https://agiagentonline.com/intro/
网页体验地址:https://agiagentonline.com,进入网页后可直接连接进入预览账号查看已有案例。
更多推荐


所有评论(0)