ragflow v0.23.0 全面发布:Memory、Agent、Ingestion Pipeline、数据源与模型支持重大升级详解
代码地址:github.com/infiniflow/ragflowragflow v0.23.0 是一个里程碑式的大版本更新,在 Memory、Agent、多检索器、语音、多模态、数据源、模型支持与系统稳定性方面实现了全面提升。该版本为复杂 RAG 应用、企业级数据接入、多智能体与长期记忆场景奠定了坚实基础,标志着 ragflow 在工程成熟度与功能完整性上迈入新阶段。
·



ragflow v0.23.0 已于 2025 年 12 月 27 日正式发布。本次版本更新内容非常庞大,涵盖 Memory 能力、Agent 架构、数据摄取流水线、数据集能力、对话与语音、数据源、模型支持、API 行为,以及大量功能增强与问题修复
新特性
-
内存
- 实现了用于管理记忆的“内存”接口。
- 支持通过“检索”或“消息”组件配置上下文。
-
智能体
- 通过重构底层架构提升了“智能体”组件的性能。
- “智能体”组件现在可以输出结构化数据,供下游组件使用。
- 支持使用网络钩子来触发智能体执行。
- 支持语音输入/输出。
- 支持为每个“智能体”组件配置多个“检索”组件。
-
文档处理流水线
- 支持在“转换器”组件中提取文档目录,以提升长上下文检索增强生成性能。
-
数据集
- 支持为图像和表格配置上下文窗口。
- 引入了父子分块策略。
- 支持在文件解析过程中自动生成元数据。
- 聊天:支持语音输入。
功能改进
- 将RAGFlow的文档引擎Infinity升级至v0.6.15版本(向后兼容)。
- 数据源支持新增:
- Google Cloud Storage
- Gmail
- Dropbox
- WebDAV
- Airtable
- 新增模型支持:
- GPT-5.2
- GPT-5.2 Pro
- GPT-5.1
- GPT-5.1 Instant
- Claude Opus 4.5
- MiniMax M2
- GLM-4.7
- 新增MinerU配置界面。
- 新增AI Badgr(模型提供商)。
API变更
- HTTP API
- 与智能体对话的接口将返回完整的执行跟踪日志。
- 创建聊天补全接口支持基于元数据的过滤。
- 与聊天助手对话接口支持基于元数据的过滤。
其他更新与修复
本次更新包含了大量的问题修复、代码优化、文档更新和本地化改进,例如:
- 修复了Cohere重排器的默认基础URL。
- 新增了OceanBase文档引擎支持。
- 优化了LLM响应中令牌总数的处理逻辑。
- 新增了PPTX和电子表格文档类型的TCADP解析器。
- 更新了俄语语言包。
- 画布新增思维导图标签支持。
- 优化了Docker Compose文件中的命令语法。
- 修复了RAGFlow使用Postgres数据库时无法启动的问题。
- 支持元数据过滤器的联合逻辑操作。
- 修复了启用分页时检索总数不正确的问题。
- 数据输出现在可以直接同步到画布而无需经过表单。
- 改进了多列文档的检测。
- 新增了更多分块方法。
- 丰富了Notion连接器的功能。
- 修复了PDF原生模式解析文本时缺失参数的问题。
- 在循环操作符中新增了循环变量。
- 优化了PDF文本类型检测的正则表达式。
- 支持忽略使用自定义分隔符时的分块大小。
- API接口支持目录增强功能。
- 在元数据中启用逻辑运算符。
- 修复了变量为数组时会话无法保存的问题。
- 为Ollama聊天模型添加了认证头部支持。
- 新增Moodle数据源集成。
- 修复了HTTPS模式下Nginx启动失败的问题。
- 新增Dropbox数据源。
- 重构了电子邮件解析器以更安全地处理缓冲区。
- 修复了保存聊天页面模型参数后参数消失的问题。
- 支持元数据过滤器中的
in/not in操作符。 - 修复了代码执行组件的安全漏洞,并增加了对嵌套列表和字典对象的支持。
- 为S3兼容存储添加了寻址样式配置。
- 改进了原生Markdown解析器的图像合并逻辑。
- 新增Webdav存储作为数据源。
- 改进了连接器服务中的元数据处理。
- 修复了HTML文件解析可能丢失内容的问题。
- 为图和表添加了上下文支持。
- 新增“循环”组件。
- 启用了带工具的智能体的结构化输出。
- 支持通过HTTP API创建数据集时指定文档处理流水线。
- 新增嵌入式聊天主题功能。
- 增加了Redis用户名支持。
- 提升了Quart的响应和主体超时时间以适配慢速LLM响应。
- 使RAGFlow支持更多异步操作以提升性能。
- 对话框上传的文件现在可以不绑定到数据集。
- 支持在对话框中上传文件。
- 新增API接口将序列转换为文本,并更新了QWen序列到文本模型。
- 新增了MiniMax-M2模型,并移除了过时的MiniMax模型。
- 从Infinity导入分词器。
- 新增了MinerU自动安装器。
- 改进了PDF解析器的呈现效果。
- 为智能体应用新增语音对话功能。
- 修复了异步聊天流式输出不正确的问题。
- 智能体支持文本到语音。
- 支持目录转换器。
- 新增了RAG评估功能。
- 将用户界面文本标准化为句子首字母大写。
- 为结构化数据自动禁用Raptor分块方法。
- 新增了Confluence空间密钥支持。
- 修复了分块列表函数中的分页和提前终止错误。
- 新增了Google云存储集成支持。
- 修复了相对页码定位问题。
- 修复了SDK中布尔对象属性访问错误。
- 为智能体画布页面添加了加载状态。
- 通过检查文件头字节来检测DOCX支持。
- 清理了智能体工具中的同步函数。
- 从RAGFlow中移除了测试文件,并将Infinity升级至0.6.10。
- 更改了Docker容器的重启策略。
- 更新了Confluence连接器的更多属性。
- 删除了未使用的测试代码。
- 修复了SDK中任务取消调用的端点问题。
- 为同名文件使用文件路径进行区分。
- 用户无需先创建会话即可直接开始聊天。
- 确保MCP服务器缓存所有文档元数据。
- 修复了MinerU API的输出查找和手动分块元组处理。
- 修复了填充组件返回值非对象的问题。
- 新增用于下载“消息”组件输出文件的API。
- 修复了流水线中的目录处理问题。
- 为聊天模型和对话实现了同步机制。
- 新增了Huggingface Hub依赖。
- 默认创建管理员账户。
- 修复了高亮Markdown的组件名拼写错误。
- 修复了高级文档处理流水线配置问题。
- 修复了父子分块方法。
- 对齐了HTTP客户端的代理参数。
- 为Docker部署中的TEI配置文件设置默认嵌入模型。
- 修复了列表索引越界错误。
- 将CV模型聊天迁移至异步。
- 将Infinity升级至v0.6.11(要求Python>=3.11)。
- 防止异步聊天流在成功时进行冗余重试。
- 新增意大利语翻译支持。
- 修复了消息节点中变量显示不正确的问题。
- 将MinerU视为OCR模型进行处理。
- 修复了异步聊天流重复输出的问题。
- 将并发库从Trio替换为Asyncio。
- 将Python版本要求提升至>=3.12。
- 执行器管理器更新了Docker版本。
- 实现了内存功能。
- 修改了“重叠百分比”字段的名称。
- 修复了表格中的CSV解析问题。
- 移除了敏感信息日志。
- 增强了OceanBase连接的搜索功能。
- 为“开始”节点添加了网络钩子配置。
- 修复了调用思维导图端点时的事件循环错误。
- 增强了元数据操作。
- MinerU支持新的后端VLM-MLX引擎。
- 通过正确调用异步主函数修复了数据同步启动崩溃问题。
- 为元数据过滤器添加了半自动模式。
- 修复了异步问题和敏感信息日志记录。
- 新增了通义千问的DeepSeekV3.2模型,并移除了未使用的代码。
- 将MinerU添加为模型制造商。
- 修复了分词器问题。
- 为MinIO/S3添加了单桶模式支持。
- 简化了网络钩子的请求模式。
- 新增了Box连接器。
- 修复了元数据更新行为。
- 新增了文档生成器功能。
- 修复了忘记/重置密码功能。
- 在网络钩子的请求体中显示文件选项。
- 重构了元数据过滤器。
- 新增了GPT-5.2及Pro版本支持。
- 修复了Raptor分块方法缺少聊天属性的问题。
- 修复了Aspose幻灯片处理问题。
- 修复了Azure OpenAI资源未找到错误。
- 修复了演示文稿解析和嵌入编码异常处理。
- 支持将加密文件上传到对象存储。
- 将网络钩子的返回值设置为字符串。
- 执行器管理器更新了Docker版本。
- 改进了计算嵌入令牌总数的逻辑。
- 修复了流水线忽略MinerU后端配置以及缺少vllm模块的问题。
- 在用户填充表单提交时显示名称而非键值。
- 更新了数据集配置和检索测试。
- 修复了多个错误。
- 修复了AzureEmbed对象缺少令牌计数属性的问题。
- 移除了未使用的Python模块依赖。
- 对MinerU功能进行了多项改进。
- 修复了Excel导出问题。
- 修复了安全问题。
- 迁移到单桶模式的文档更新。
- 启用了编辑分块时的图像编辑功能。
- 将“知识库”更名为“数据集”。
- 为文档处理流水线新增了子分块分隔符配置。
- 内存功能完善。
- 更新了默认提示词。
- 现在仅支持MinerU-API。
- 修复了未修改子分隔符时无法保存文档处理流水线配置的问题。
- 更新了文档API示例响应以符合当前状态。
- 修复了空内存参数的问题。
- 更新了日志记录。
- 在聊天API中添加了多模态模型。
- 在文档处理流水线的转换器节点中新增目录选项。
- 拒绝了默认管理员账户登录普通服务。
- 修复了父子分块方法。
- 添加了许可证并修复了IDE警告。
- 修复了Markdown文件中的表格格式警告。
- 修复了PDF解析器重复的问题。
- 修复了模型未授权错误。
- 在编辑分块对话框中添加了图片上传器。
- 改进了时间戳的一致性。
- 修复了任务执行器问题。
- 改进了Cohere模型的令牌总数计算。
- 修复了IDE警告。
- 修复了编辑分块时的图片编辑问题。
- 更新了日志记录。
- 智能体补全API可以返回跟踪信息。
- Bedrock服务支持IAM认证。
- 为所有数据源类型的同名文件使用文件路径。
- 更新了网络钩子组件。
- 进一步更新了Bedrock模型配置。
- 为添加OCR模型提供了更好的用户体验。
- 聊天补全API支持元数据过滤。
- 显示网络钩子中间节点的错误信息。
- 支持将MinerU作为远程服务调用的文档说明。
- 显示中间节点的错误信息。
- 新增AI Badgr作为OpenAI兼容的聊天模型提供商。
- 对话中连续出现的图片将以轮播图形式合并显示。
- 实现了元数据功能。
- 在知识库信息检索中包含了文档ID。
- 文档列表和过滤器支持元数据过滤。
- 支持在一个智能体下使用多个检索工具。
- 将连接器与S3分离。
- 为图片添加了可选的缓存清除参数。
- 使用基于视觉的描述增强Excel图片提取。
- 修复了Python SDK检索文档名称为空的问题。
- 更新了RAGFlow SDK以保持一致性。
- 移除了中文注释并修复了函数参数错误。
- 修复了列出MCP工具可能被阻塞的问题。
- 移除了PPT解析器中无用的异常捕获。
- 修复了敏感信息明文日志记录的安全问题。
- 修复了字符转义问题。
- 当网络钩子返回流式格式字段时,消息显示状态字段。
- 对话中连续出现的图片使用轮播组件显示。
- 修复了Dashscope响应属性访问的令牌/日志工具。
- 在分块编辑器和对话框中显示分块类型。
- 修复了IDE警告。
- 修复了多个UI相关问题。
- 当选择了图片时隐藏拖拽区域的上传按钮。
- 优化了AWS S3连接器。
- 重构了添加LLM和语音转文本功能。
- 在数据集配置中增加了图像上下文窗口。
- 输出Infinity测试日志。
- Tika服务器升级。
- 增强网络钩子响应以包含状态和成功字段,并简化了ReAct智能体。
- 修复了任务取消功能。
- 更新了工作流。
- 在网络钩子模式下隐藏部分消息字段。
- 修复了多项错误(减少了元数据保存步骤等)。
- 修复了vision_figure_parser对docx/pdf的封装处理。
- 为记忆召回和消息操作符表单添加了记忆多选下拉框。
- 新增了GLM-4.7模型支持。
- 更新了方法调用以使用简化的异步工具反应。
- 修复了多个检索工具中仅一个生效的问题。
- 修复了元数据相关错误。
- 翻译了网络钩子调试界面的文本。
- 将标准错误重定向到标准输出。
- 修复了元数据问题和graphrag加速问题。
- 增强了下一步提示词。
- 修复了转换器节点中目录提示文本不正确的问题。
- 在网络钩子响应状态钩子中添加了空值安全检查。
- 重新组织了本地化翻译的措辞。
- 修复了对话消息中未显示等待输入的表单的问题。
- 优化了图像和表格的上下文窗口处理。
- 修复了知识库更新接口未更新文件服务的问题。
- 修复了测试错误。
- 修复了目录处理中未找到分块的问题。
- 支持通过空元数据过滤文档。
- 修复了目录名称。
- 保持了与聊天助手对话接口行为的一致性。
- 从环境配置文件中移除了MinerU设置。
- 更新了德语语言文件。
- 聊天消息中引用的图片以轮播形式显示在消息底部。
- 修复了元数据提示信息。
- 修复了CI中的404未找到错误。
- 仅当分块类型为图片时才允许在分块编辑器中更新图片。
- 新增了Airtable连接器和数据同步集成。
- 修复了生成元数据错误。
- 修复了API密钥模态框错误。
- 智能体聊天消息底部显示图片轮播。
- 在网络钩子模式下隐藏消息操作符的自动播放开关。
- 新增了消息管理功能。
- 修复了内存页面中无法选择LLM的问题。
- 修复了文本问题。
- 智能体只能从知识库或记忆中检索内容。
- 在消息底部预览图片。
- 修复了内存相关错误。
- 修复了检索来源判断逻辑。
- 修复了遗忘策略。
- 修复了内存配置中的用户提示文本框。
- 修复了用户界面上的小问题。
- 修复了消息持续时间显示。
- 优化了内存功能。
- 更新了本地LLM部署文档,增加了vLLM指南支持。
- 在检索节点中显示已选记忆列表。
- 允许更新记忆类型。
- 修复了更多内存相关错误。
- 修复了不允许检查的字段移除问题。
- 改进了图像和表格的上下文处理。
- 修复了内存保存问题。
- 修复了父子分块流水线的错误案例。
- 发布了v0.23.0版本说明文档。
- 修复了挑选消息到内存时的排序问题。
- 将“先进先出”的缩写从“fifo”更正为“FIFO”。
- 修复了前端无法同步文档窗口上下文的问题。
- 优化了内存大小的初始化。
- 修复了文档显示问题。
- 将Infinity引擎升级至0.6.15版本。
- 修复了在Infinity 0.6.15上的内存问题。
- 在README和文档中将版本引用更新为v0.23.0。
总结
代码地址:github.com/infiniflow/ragflow
ragflow v0.23.0 是一个里程碑式的大版本更新,在 Memory、Agent、多检索器、语音、多模态、数据源、模型支持与系统稳定性方面实现了全面提升。该版本为复杂 RAG 应用、企业级数据接入、多智能体与长期记忆场景奠定了坚实基础,标志着 ragflow 在工程成熟度与功能完整性上迈入新阶段。
更多推荐



所有评论(0)