编者注:本文是 Nemotron Labs 博客系列的一部分,该系列探讨了最新的开放模型、数据集和训练技术如何帮助企业在 NVIDIA 平台上构建专业化的 AI 系统和应用程序。每篇文章都突出介绍使用开放堆栈在生产中交付价值的实用方法——从透明的研究助手到可扩展的智能体。

当今企业面临的挑战是从各种文档中挖掘有价值的洞察,这些文档包括报告、演示文稿、PDF、网页和电子表格。

通常,团队通过手动审查文件、将数据复制到电子表格、构建仪表板以及使用基本搜索或基于模板的光学字符识别(OCR)工具来拼凑洞察,但这些工具往往会错过复杂媒体中的重要细节。

智能文档处理是一个由 AI 驱动的工作流程,能够自动阅读、理解和从文档中提取洞察。它使用智能体和检索增强生成(RAG)等技术来解释文档内的丰富格式——包括表格、图表、图像和文本——将多模态内容转化为其他多智能体系统和人员可以轻松使用的洞察。

借助 NVIDIA Nemotron 开放模型和 GPU 加速库,组织可以为研究、金融服务、法律工作流程等构建 AI 驱动的文档智能系统。

这些开放模型、数据集和训练方案在 MTEB、MMTEB 和 ViDoRe V3 等排行榜上取得了优异成果,这些基准用于评估多语言和多模态检索模型。团队可以从最佳模型中选择适合搜索和问答等任务的模型。

能够从复杂布局中提取含义、扩展到巨大文件库并确切显示答案来源的文档智能系统在高风险环境中极其有用。这些系统:

理解丰富的文档内容,超越简单的文本抓取,从图表、表格、图形和混合语言页面中捕获信息,像人类一样通过识别结构、关系和上下文来处理文档。

处理大量变化的数据,并行摄取和处理海量文档集合,并保持知识库持续更新。

找到用户真正需要的内容,帮助智能体精确定位与查询最相关的段落、表格或段落,以便它们能够精准准确地回应。

通过提供对特定页面或图表的引用来显示答案背后的证据,让团队获得透明度和可审计性,这在受监管的行业中至关重要。

结果是从静态文档档案转向直接为商业智能、客户体验和运营工作流程提供支持的活跃知识系统。

基于 NVIDIA Nemotron RAG 模型、Nemotron Parse 和加速计算构建的智能文档处理系统已经在重塑各行业组织从文档中获取洞察的方式。

Justt:AI 原生退款管理和争议优化

在金融服务领域,支付争议为商家带来重大收入损失和运营复杂性,很大程度上是因为处理争议所需的证据存在于非结构化格式中。交易日志、客户沟通和政策文档通常分散在各个系统中,难以大规模处理,使得争议处理缓慢、手动且成本高昂。

Justt.ai 提供了一个 AI 驱动的平台,可大规模自动化完整的退款生命周期。该平台直接连接到支付服务提供商和商家数据源,摄取交易数据、客户互动和政策,然后自动组装符合卡网络和发行商要求的争议特定证据。

该平台的 AI 驱动争议优化由 Nemotron Parse 提供支持,应用预测分析来确定哪些退款要争取或接受,以及如何优化每个响应以实现最大净回收。领先的酒店运营商如 HEI Hotels & Resorts 使用该平台自动化其物业的争议处理,在维护客人关系的同时重新夺回收入。

通过将以文档为中心的智能与决策自动化相结合,商家可以重新夺回因非法退款而损失的大部分收入,同时减少手动审查工作。

Docusign:扩展协议智能

Docusign 是智能协议管理的全球领导者,每天为超过 180 万客户和超过 10 亿用户处理数百万笔交易。

协议是每个企业的基础,但它们包含的关键信息往往埋藏在文档页面中。为了提取信息,Docusign 需要从复杂文档(如 PDF)中高保真度提取表格、文本和元数据,以便组织能够更快地理解和采取义务、风险和机会的行动。

Docusign 正在评估 Nemotron Parse 以实现大规模的深度合同理解。在 NVIDIA GPU 上运行,该模型将先进的 AI 与布局检测和 OCR 相结合。系统可以可靠地解释复杂表格并用所需信息重建表格。这减少了手动更正的需要,并有助于确保即使是最复杂的合同也能以客户期望的速度和准确性进行处理。

在此基础上,Docusign 将把协议存储库转换为结构化数据,为合同搜索、分析和 AI 驱动的工作流程提供支持——将协议转化为帮助组织及其团队提高可见性、降低风险并做出更快决策的商业资产。

Edison Scientific:大规模文献研究

Edison Scientific 的 Kosmos AI Scientist 帮助研究人员导航复杂的科学领域,综合文献、识别联系并提取证据。

Edison 需要一种快速准确地从大量 PDF 中提取结构化信息的方法,包括传统信息解析方法经常误处理的方程式、表格和图形。

通过将 NVIDIA Nemotron Parse 模型集成到其 PaperQA2 管道中,Edison 可以分解研究论文、索引关键概念并在特定段落中建立回应基础,提高科学家的吞吐量和答案质量。这种方法将庞大的研究语料库转变为交互式、可查询的知识引擎,加速假设生成和文献综述。

Nemotron Parse 的高效率使得大规模成本效益的服务成为可能,让 Edison 团队能够解锁整个多模态管道。

稳健的、领域特定的文档智能管道需要能够处理数据提取、嵌入和重排序的技术,同时保持数据安全并符合法规要求。

提取:Nemotron 提取和 OCR 模型快速摄取多模态 PDF、文本、表格、图表和图像,将它们转换为结构化的机器可读内容,同时保留布局和语义。

嵌入:Nemotron 嵌入模型将段落、实体和视觉元素转换为针对文档检索调优的向量表示,实现语义准确的搜索。

重排序:Nemotron 重排序模型评估候选段落,确保最相关的内容作为大语言模型的上下文浮现,提高答案保真度并减少幻觉。

解析:Nemotron Parse 模型解读文档语义,以精确的空间定位和正确的阅读流程提取文本和表格。克服布局变异性,它们将非结构化文档转化为可操作的数据,提高大语言模型和智能体工作流程的准确性。

这些功能被打包为 NVIDIA NIM 微服务和在 NVIDIA GPU 上高效运行的基础模型,让团队能够从概念验证扩展到生产,同时在其选择的云或数据中心环境中保持敏感数据安全。

最有效的 AI 系统使用前沿模型和 NVIDIA Nemotron 等开源模型的混合,通过大语言模型路由器分析每个任务并自动选择最适合的模型。这种方法在管理计算成本和提高效率的同时保持强劲性能。

访问关于如何使用 RAG 功能构建文档处理管道的分步教程。探索 Nemotron RAG 如何为不同行业量身定制的专业智能体提供支持。

此外,尝试 Nemotron RAG 模型和 NVIDIA NeMo Retriever 开放库,可在 GitHub 和 Hugging Face 上获取,以及 Hugging Face 上的 Nemotron Parse。

加入使用 NVIDIA 企业 RAG 蓝图构建的开发者社区——受到十几家行业领先的 AI 数据平台提供商信赖,现已在 build.nvidia.com、GitHub 和 NGC 目录中提供。

通过订阅 NVIDIA AI 新闻、加入社区并在 LinkedIn、Instagram、X 和 Facebook 上关注 NVIDIA AI,及时了解智能体 AI、NVIDIA Nemotron 等最新动态。

探索自定进度的视频教程和直播。

Q&A

Q1:什么是智能文档处理?它有什么作用?

A:智能文档处理是一个由AI驱动的工作流程,能够自动阅读、理解和从文档中提取洞察。它使用智能体和检索增强生成(RAG)等技术来解释文档内的丰富格式——包括表格、图表、图像和文本——将多模态内容转化为其他多智能体系统和人员可以轻松使用的洞察。

Q2:Nemotron Parse模型有什么特殊功能?

A:Nemotron Parse模型能够解读文档语义,以精确的空间定位和正确的阅读流程提取文本和表格。它克服布局变异性,将非结构化文档转化为可操作的数据,提高大语言模型和智能体工作流程的准确性。该模型结合先进的AI与布局检测和OCR技术。

Q3:智能文档处理系统在哪些行业有实际应用?

A:智能文档处理系统在金融服务、法律、研究等多个行业都有应用。例如Justt.ai在金融支付争议处理、Docusign在协议管理、Edison Scientific在科学文献研究等领域。这些系统帮助组织从静态文档档案转向直接为商业智能、客户体验和运营工作流程提供支持的活跃知识系统。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐