【必学收藏】大模型RAG技术实战:实时供应链漏洞识别新方法与优化指南
本研究提出创新供应链分析方法,结合检索增强生成(RAG)与网络爬虫技术,减少新信息融入LLM的延迟,实现供应链干扰因素实时分析。实验证明,微调嵌入检索模型带来最显著性能提升,自适应迭代检索技术进一步优化效果,尤其在复杂查询中表现突出。这为构建高效实时供应链分析系统提供了有效方法,对大模型应用具有参考价值。
按语
2025年8月23日,MITRE发表文章《Real-Time RAG for the Identification of Supply Chain Vulnerabilities》。赛迪研究院关注该领域研究,特予分享。

摘要
生成式人工智能的新技术能为美国供应链分析提供更深入的洞察,但真正具有参考价值的结论需要及时对海量数据进行持续更新与整合。大型语言模型(LLMs)带来了前所未有的分析机遇,但其知识库受限于模型最后的训练时间,导致这些功能对依赖新兴实时信息完成核心使命的机构而言无法使用。本研究提出一种创新的供应链分析方法,将新兴的检索增强生成(RAG)预处理与检索技术和先进的网络爬虫技术相结合。该方法旨在减少新信息融入增强型LLM的延迟,实现对供应链干扰因素的及时分析。通过实验,本研究评估了这些技术在时效性与质量权衡方面的组合效应。结果表明,在供应链分析中应用RAG系统时,微调嵌入检索模型始终能带来最显著的性能提升,凸显了检索质量的关键重要性。自适应迭代检索技术根据上下文动态调整检索深度,进一步提升了性能,尤其在处理复杂供应链查询时效果显著。相反,微调LLM的改进效果有限且资源成本更高,而向下查询抽象技术在实际应用中明显优于向上抽象技术。
1 研究背景
近年来,美国政府在了解本国整体经济和国家安全的工作中,明确提出要研究供应链催柔性问题。在《美国优先贸易政策》总统备忘录[1]中,“稳定的供应链”被列为国家安全的重要组成部分。该备忘录还要求联邦政府明确供应链可能被用于规避美国对从事不公平贸易行为国家所实施政策的途径。在另一项关于《释放美国能源潜力》的总统备忘录[2]中,鼓励美国非燃料矿产生产的原因之一是“加强美国及其盟友的供应链,降低恶意和敌对国家的全球影响力”。[3]。
然而,获取细粒度且实时的供应链数据面临诸多挑战。经济学文献通常采用国家级贸易数据或投入产出统计数据来分析全球供应链[4]。这类数据对商品和企业进行了高度聚合,可能掩盖关键产品的重要信息。同时,数据发布通常存在显著的时间延迟——例如,截至2025年2月,全球贸易分析项目(GTAP)的全球投入产出数据集最新仅更新至2017年。该数据集虽涵盖140多个国家,但将数据聚合为65个行业部门[5,6]。尽管可以使用更详细的海关数据(如ImportGenius提供的数据),其中包含企业层面的贸易交易信息,但这类数据通常需从高价数据提供商处获取,且与其他国家的数据整合耗时巨大,难以实现[7]。
还有一些未被广泛使用但潜力巨大的公开供应链数据源,例如强制性监管文件,这类数据具有极高价值,但从中提取相关信息存在较大难度。美国证券交易委员会(SEC)要求所有在证券交易所上市的公司进行特定的公开披露。这些公开文件包含关键数据,如经营风险、主要供应商与客户信息以及实际控制权归属等。直到最近,数据整合工作仅能由专业公司完成,随后这些公司会将整合后的数据转售(最著名的如彭博社)。但即便是这些数据聚合商,提取供应链信息仍需人工操作,因为相关信息通常以叙述形式呈现,而非结构化数据表。
LLM的出现为供应链数据收集开辟了新路径。由于LLM能够处理大量文本数据,有望填补供应链数据中的空白——尤其是在其设计中融入最新信息的情况下。这些空白包括数据发布与分析之间的时间差,以及在冗长的公开声明中“大海捞针”式的信息筛选难题。LLM通过即时、细粒度的分析,能够有效识别人类分析师可能遗漏的关键洞察,从而解决上述问题。本研究探索通过应用多种增强技术,使LLM能够通过检索企业最新的SEC文件,回答政策制定者关于美国供应链的关键问题。
2 问题陈述
2.1 核心问题
近年来,LLM因其在海量文本信息上的推理能力受到广泛关注,而RAG技术则在通过外部知识库增强这些模型的参数记忆方面表现突出[8]。在此背景下,LLM的作用是最大化预测序列正确结尾的概率,通常以响应提示词的形式实现。这一过程通常被视为一个优化问题,形式化表述如下:

本研究旨在最大化预测tokens yi,的概率,其中token指构成提示词的单词或单词片段。下标表示token在序列中的位置。给定提示词x和所有先前的tokens y1:i − 1,模型基于提示词和上下文进行条件判断,以捕捉最可能的token序列,确保每个新预测都与给定上下文和模型习得的分布保持一致。RAG技术通过整合检索功能进一步扩展了这一概念,形成新的联合概率,表述如下:

与LLM类似,RAG通常也被视为一个最大化问题,但此处我们试图找到最优联合概率——即找到正确支持信息z的可能性pη,与基于提示词x和正确检索信息z预测正确token序列y的概率之间的平衡。基于上述基础,我们将问题形式化如下:

本研究旨在确定一个最小时间T,使得现实世界中事件发生的时间Tevent,与LLM使用支持信息z生成满足或超过质量阈值(此处用Mtarget表示)的响应能力之间的差距最小化。通过最小化Tevent与τ之间的差距,我们有望实现近实时系统,能够基于信息和事件进行推理,而无需承受LLM和传统RAG实现中固有的知识缺口。此外,通过设定质量阈值,我们确保速度提升不会以可用性为代价,所采用的技术在任务中能维持有效的性能阈值。这一形式化表述为先进LLM增强技术中的权衡分析提供了框架,实现了时效性与质量的平衡。
3 研究方法
本研究RAG流程优化的核心在于运用多种RAG技术,以提升标准RAG实现的效果。文献综述表明,这些技术主要分为五类:检索前技术、检索中技术、检索后技术、生成技术和增强技术。

图1:RAG优化概述
3.1 检索前技术
检索前技术通过在最终生成所使用的标准检索流程前扩展和优化查询词,对提升信息检索系统的效果至关重要。其中,查询词扩展是提高检索信息质量和相关性的有效工具。本研究探索两种不同的查询词扩展方法:向上抽象和向下抽象。
-
查询词扩展——向上抽象:为探究抽象化在查询词处理中的影响,我们基于郑等人的“回溯法”(Step-Back)[17]实现了相关方法。回溯法是一种自动化提示技术,旨在帮助LLM在推理回答问题前先提炼更高层次的概念。该方法分为两步:第一步,收到用户问题后,LLM会被提示探索与该问题相关的更高层次原则,生成所谓的“回溯问题”。例如,若用户询问“粉刷这面墙需要多少油漆?”,回溯法可能生成“计算表面面积的方法有哪些?”。随后,回溯问题和原始问题将一同用于检索相关文档。在推理阶段,LLM利用为回溯问题和原始问题检索到的文档作为上下文,生成原始问题的答案。
-
查询词扩展——向下抽象:为探究反向抽象(即分解问题)的效果,我们对Kim等人在《澄清树》论文[18]中提出的方法进行了改进。该技术构建了一个树状数据结构,根节点为原始问题,子节点为问答对——每个问答对包含由LLM从原始问题分解而来的明确子问题及其对应的答案。例如,我们数据集中的一个问题为“美国航空集团公司是否发行了新的债务工具?”,该原始问题作为树的根节点,LLM生成的子节点问答对包括:{“美国航空集团公司是否修改了任何现有债务契约?”:“是,美国航空集团公司最近重新协商了债务条款”}和{“美国航空的长期债务到期时间表是否有即将发生的变化?”:“美国航空通过2013年信贷协议,将2013年定期贷款工具下10亿美元定期贷款的到期日延长”}。通过整合树的各个节点信息,得出原始问题的全面答案。与原始方法不同,我们的实现使用固定段落进行单样本学习,且不修剪生成树的分支。
3.2 检索中技术
检索中技术通过优化查询词与检索系统的交互方式,对检索过程进行精细化改进。本节重点评估检索类型和微调嵌入模型,以提升检索信息的精确性和相关性。
-
检索类型:为比较不同检索方法的效果,我们进行了稠密检索和稀疏检索的对比实验。稠密检索采用双编码器架构,通过嵌入模型将查询词和文档嵌入到共享向量空间中;稀疏检索则采用BM25算法(一种传统的基于术语的检索系统),根据与查询词的词汇重叠度对文档进行排序。
-
微调——嵌入模型:为探究更高质量嵌入的效果,我们使用对比损失目标对bge-small-en嵌入模型[27]的顶层8层进行微调。该方法为每个正样本段落创建149个干扰段落,确保模型能有效区分相关文档和无关文档。我们采用AdamW优化器,学习率设为1e-6,批量大小为4,权重衰减为0.01以提升泛化能力。微调过程持续3个epoch,在训练时长和过拟合风险之间取得平衡。这一过程增强了模型生成任务特定嵌入的能力,提升了下游评估中的检索质量。
3.3 检索后技术
检索后技术通过优化检索到的信息以获取更多相关内容,提升响应质量。我们探索了固定迭代检索和自适应迭代检索两种方法,以提高准确性和完整性。固定迭代检索使用固定次数的循环进行一致性优化,而自适应迭代检索则基于完整性评估动态调整。这些方法旨在优化生成过程,确保检索到正确信息。
-
迭代检索——固定:为探究检索后迭代的影响,我们采用了类似邵等人提出的ITER-RETGEN方法[19]。该方法的核心思想是通过基于先前生成的答案反复检索额外信息,迭代优化生成的响应。初始阶段与传统RAG流程类似:检索与原始提示词相关的信息,并基于这些检索内容生成初步答案。在后续迭代中,将初步答案与原始提示词结合,反馈给检索器,使其能够识别并检索因初始嵌入表示限制而遗漏的额外内容。每次检索到的新信息都会用于生成更新后的答案。ITER-RETGEN的独特之处在于,它会按照实现时设定的固定次数重复这一过程。我们的实现将迭代次数设定为3次,最终生成的结果即为最终答案。
-
迭代检索——自适应:此处我们采用一种对比检索步骤静态迭代与动态迭代的技术,该技术深受Khattab等人提出的Demonstrate-Search-Predict方法[20]的启发。与固定迭代方法(执行预定次数的迭代)不同,该方法基于对完整性和置信度的中间评估,动态调整检索迭代次数。初始阶段,使用一组预先设定的硬编码示例查询生成演示案例,为处理类似输入查询提供指导,明确分解和检索策略。随后,系统将输入查询分解为逻辑子问题,并为每个子问题迭代检索相关信息。在每次检索迭代中,系统评估检索到的信息是否足以解答子问题,动态决定是否需要进行额外的检索迭代。收集到足够信息后,将检索到的文档、子问题、原始查询和额外上下文整合成一个综合提示词,进而生成最终答案。
3.4 生成技术
评估生成模型的微调效果旨在提高其输出的准确性和相关性。通过调整模型参数,增强其生成上下文精准响应的能力。
微调——生成模型:为探究LLM参数调整对研究目标的影响,我们使用自定义损失函数对LLaMA 3.2 Instruct 3B模型[24]的顶层2层和模型头部进行微调。该损失函数结合了交叉熵损失和加权软n元语法匹配,其中交叉熵占75%,n元语法相似度占25%,以鼓励生成更符合上下文的答案。我们采用AdamW优化器,学习率设为1e-6,通过余弦预热稳定早期训练过程。微调采用分布式数据并行(DDP)技术,在2块NVIDIA A40 GPU上进行,每块GPU的批量大小为1,梯度累积步数为16,有效批量大小为32。权重衰减设为0.01,训练持续4个epoch,确保模型在学习过程中不发生过拟合。
4 数据
问答类RAG系统的数据工程工作通常涉及两类数据的整理:用于训练和评估的问题集,以及用于检索和推理答案的语料库[23]。针对本研究的应用场景,我们首先整理了一组用于先前供应链风险评估的风险指标[28,29,30],并将这些指标分解为一系列分析师通常需要研究和回答的问题,以确定供应链的漏洞等级。这些问题涵盖了多种潜在漏洞,包括关键矿产使用、地理集中度、研发投入、童工风险以及其他与企业运营和供应链健康相关的主题。在语料库选择上,我们选用SEC文件,因为这类文件公开可得、包含丰富的供应链风险洞察,且数量充足,足以支持系统中模型的有效微调。
为获取微调实验所需的详细数据,我们将问题集扩展为三元组形式,每个三元组包含原始问题、语料库中包含答案(显式或推导得出)的支持段落,以及问题的正确答案[14]。这一过程通过以下两种方法实现:
-
人工标注:一组主题专家(SMEs)可访问SEC的电子数据收集、分析和检索(EDGAR)数据库[21],并被要求回答提供的问题集。EDGAR是SEC的财务披露文件库,专家仅能使用这些文件作为回答问题的信息来源。除确定答案外,专家还需记录在所有查阅的文件中最有助于回答该问题的段落。通过这一工作,专家确定了四类与本研究问题相关的披露文件:10-K报表(年度报告)、10-Q报表(季度报告)、8-K报表(重大事项报告)和14-A报表(委托声明书)。
-
合成生成:由于人工创建这类数据存在数量限制,且微调需要大规模数据集[15],我们采用合成方法扩大数据规模,突破人工标注的局限。具体而言,我们采用了Saad-Falcon、Khattab、Potts和Zaharia提出的方法[22],该方法利用大参数LLM从领域内语料库生成问题-段落-答案三元组。本研究中,我们使用GPT-4o模型和经人工标注确定的相关披露文件集合生成数据。
两种方法的结合形成了全面且多样的数据集,为测试所提出系统的检索和生成能力提供了重要支持。
5 实验
本实验设计旨在实证测量LLM在满足有效识别潜在风险和脆弱性的性能阈值下,接收新供应链信息所需的时间。实验首先构建基准RAG实现作为测量基础;为实现可控且快速的实验,我们设计了一种机制来模拟相关事件的发生,进而触发新信息流入系统;最后,我们对基准RAG实例进行扩展,采用模块化设计,使上述技术能够以多种组合形式应用,并研究其效果。下表详细展示了实验设置,每行对应一种特定的RAG技术,包括稠密检索(alpha)、检索器微调(FTR)、生成器微调(FTG)、向上/向下抽象(UA/DA)以及固定/自适应迭代检索(FIR/AIR)。行中的“1”表示该技术在特定配置中被使用,列(标记为C1至C30)代表这些技术的独特组合,通过测试不同组合以评估其对系统性能的影响。

(表1:实验配置 注:表格中“###”“.”“○”“→”“-”等为原始数据标记,保留原样;C11、C21等为配置编号,部分编号重复或缺失为原始表格式)
本研究采用LlamaIndex[26]实现供应链数据的摄入、索引和检索,构建可扩展的模块化数据管道;选用Weaviate[25]作为向量数据库,因其开源特性且支持混合检索(结合语义检索和词汇检索);选择bge-small-en作为嵌入模型,平衡计算效率和检索效果;生成阶段使用LLaMA 3.2 3B Instruct模型,因为指令微调模型非常适合RAG提示词优化[16]。选择较小参数的模型主要是受硬件限制,同时也为了减少任务特定预训练偏差,更有效地展示增强技术的影响。
为模拟LLM实时接收新相关事件信息的过程,我们利用SEC的EDGAR系统,通过自定义脚本自动检索预定公司集合的披露文件(这些公司与评估问题相关)。这些文件与相关元数据一同存储在MongoDB实例中,其中一部分经过编码后作为初始知识库存入向量数据库。在每次实验运行中,我们系统地将剩余披露文件摄入向量数据库,并测量系统整合和适应新信息的能力。该设置使我们能够评估LLM在响应现实世界事件(如公司提交可能涉及供应链影响的企业披露文件)时,更新知识的效率和效果。
为测试第4节介绍的方法,我们对基准RAG架构进行扩展,在管道的不同阶段设置模块化插入点,以实现有针对性的增强。这些插入点战略性地设置在关键阶段,包括查询编码、检索前、检索中、检索后和生成阶段。这种模块化设计使不同的增强技术能够作为可互换模块实现,可在不同时间点启用或禁用,以评估其单独或组合应用的影响。在本研究中,一组特定的部署技术被称为一种“配置”,每次实验运行都会部署一种独特的配置进行评估。我们系统地分析了30种此类配置的效果,详情见表1。
5.1 评估指标
本研究还提供了正式指标,以进一步明确研究目标,并定义成功的标准及测量方法。为测量检索效果((p_{\eta}(z | x))),我们结合使用归一化折扣累积增益(nDCG)[9]、命中率(Hit Rate)、平均排名(Average Rank)和平均倒数排名(MRR)[10]。nDCG是一种排序质量指标,根据项目在列表中的位置对相关性进行折扣,然后将总增益归一化为完美排序;命中率是一种准确性指标,用于判断最佳支持段落是否包含在检索信息中;平均排名通过测量所有查询中相关项目排名的平均值,评估检索排序质量;MRR是每个查询中第一个相关项目排名倒数的平均值。
为评估实验中的生成质量((M)),我们使用基于召回率的摘要评估指标(ROUGE)[11]、双语评估替补(BLEU)[12]、精确匹配(Exact Match)和语义相似度(Semantic Similarity)[13]对输出结果进行评估。ROUGE和BLEU是n元语法匹配指标,用于评估LLM预测答案与正确标注数据的接近程度。两者的关键区别在于,BLEU会对n元语法的顺序进行惩罚,而ROUGE不会。精确匹配指生成答案与标注数据完全一致的数量,在本研究这类可能产生冗长响应的场景中,这通常是最严格的指标。为了考虑表述不同(n元语法不同)但语义与答案一致的情况,我们引入语义相似度指标,该指标基于文本的上下文和概念一致性而非精确词汇重叠,评估两段文本传达相同含义的紧密程度。具体实现方式是将文本表示为高维向量,并测量其在嵌入空间中的距离,语义相似的文本距离更小。
为避免上述问题对指标造成偏差,我们还统计了模型返回空白响应或表明无法利用现有知识回答问题的情况。最后一个指标是时间,即生成整个评估数据集答案所需的秒数,包括微调(如适用)在内的管道所有处理环节的耗时。

(图2:时间与ROUGE-1分数的帕累托前沿 注:纵轴为ROUGE-1分数,横轴为总时间(小时);None表示无特定技术启用,A=0表示alpha=0;FTR=检索器微调,FTG=生成器微调,UA=向上抽象,DA=向下抽象,AIR=自适应迭代检索,FIR=固定迭代检索)
6 实验结果
本研究结果分为以下两个小节进行探讨。第一节分析第2节所述的时效性和质量双重目标下的权衡空间;第二节深入探讨特定技术组合的影响,包括检索类型(alpha=1表示稠密检索)、微调、查询词扩展和迭代检索(详见第4节)。需要注意的是,下文6.2中提到的所有技术测量结果均为包含该技术的所有配置性能的平均值,但图4c和4d中的“None”类别除外——该类别是未修改的基准模型(含或不含稠密检索)的平均值。这样做是为了将重点技术的影响与使用冻结预训练模型的RAG实现进行对比。本节最后将通过主题专家的评估,对实验结果进行定性分析并总结关键发现。
6.1 权衡空间分析
我们的分析确定了7种配置,这些配置构成了评估双重目标(质量和时效性)时权衡空间的最优边界。本研究选用ROUGE-1作为质量指标,小时数作为时效性指标。选择ROUGE-1是因为关键术语(如产品或公司名称)的保留对输出结果至关重要。如前所述,此处的时间涵盖了生成评估问题答案的完整管道耗时,包括所有处理和微调环节。性能最佳的配置是图2纵轴最高点对应的配置,即检索器微调与自适应迭代检索相结合。该组合表现优异的原因可能在于,微调提升了初始检索的准确性,而自适应检索能够根据需要灵活迭代以收集必要信息。毫不意外的是,未修改的配置(未应用微调或检索技术)在时效性方面得分最高,对应图2横轴最左侧的点。最优边界上的其他点展示了部署RAG系统时的权衡考量,可根据实施优先级进行优化。例如,检索器微调在时效性和准确性之间取得了良好平衡,在不显著增加延迟的情况下提升了模型性能。若以时效性为首要目标,应沿边界线向左下方移动;若优先考虑质量,则需向右上方调整。位于最优边界下方和右侧的点表明存在边际效益递减现象:最右侧的配置以牺牲质量为代价换取了不成比例的处理时间增加,而最下方的配置则在质量大幅下降的同时,时效性并未得到相应提升。
6.2 技术对性能的影响
6.2.1 通过优质生成弥补检索不足
结果凸显了优质检索的重要性,并表明从检索性能不佳的状态中恢复存在较大挑战。具体而言,如图3所示,任何已部署的调优策略组合都无法超越检索器微调带来的性能提升。有趣的是,当将检索器微调与生成器微调相结合时,ROUGE-1指标和语义相似度指标的平均得分略有下降,但在BLEU指标上,这种组合反而带来了轻微的整体提升。
6.2.2 通过优质检索弥补生成不足
如图3所示,生成器微调相比基准模型实现了持续的性能提升。但在所有这些情况下,我们发现通过检索器微调(无论是单独使用还是与生成器微调结合使用),不仅能够挽回这些提升,在某些情况下甚至能实现超越。此外,生成器微调通常比检索器微调耗时更长。这表明在资源受限的环境中,应优先考虑检索器微调。

(图3:微调的影响 注:纵轴为平均得分,横轴为评估指标(BLEU、ROUGE-1、语义相似度);No Fine Tuning=无微调,Both Fine Tuned=两者均微调)
6.2.3 通过优化(RAG技术)实现性能恢复
图4a显示,平均而言,所有测试技术的性能均未超过检索器微调。这再次凸显了优质检索的重要性,并表明至少在本研究测试的技术范围内,无法通过其他方法完全替代检索器微调带来的增益。然而,迭代检索技术是最接近的替代方案,展现出部分恢复性能的潜力。相反,如图4b所示,这些技术的性能要么与生成器微调相当,要么略低于生成器微调。这表明通过迭代检索,确实可以弥补未进行生成器微调带来的性能损失。这一发现具有重要意义,因为它表明这些技术可以作为生成器微调的替代方案,而生成器微调在时间和计算资源方面成本较高。
6.2.4 查询词扩展:向上抽象与向下抽象
如图4c所示,向上抽象的性能明显低于向下抽象。事实上,使用向上抽象的配置平均而言始终是性能最低的,甚至低于未修改的基准模型。这可能是因为该方法向提示词中引入了高层次细节,而这些细节与回答底层问题并无直接关联。向下抽象则不会产生此类噪声,因为其生成的额外细节是直接从原始问题分解而来的。因此,对于本研究的应用场景,向下抽象是更有效的查询词扩展方法。
6.2.5 迭代检索:固定与自适应
如图4d所示,自适应迭代检索的性能始终优于固定迭代检索,尽管两者之间的差距相对较小。此外,与未修改的基准模型相比,自适应迭代检索展现出明显优势,进一步凸显了其在提升检索性能中的作用。这表明基于上下文动态确定检索步骤数,比固定迭代方法或单纯依赖未修改的RAG实现更能有效获取信息。这一结果验证了自适应迭代检索对最优配置的影响,表明其出色的单独性能是该组合方法整体有效性的关键因素(见6.1节)。

(图4:RAG技术的影响 注:(a)为检索器调优条件,(b)为生成器调优条件,©为查询词扩展条件,(d)为迭代检索条件;纵轴为平均得分,横轴为评估指标(BLEU、ROUGE-1、语义相似度);Downward Abstraction=向下抽象,Upward Abstraction=向上抽象,Adaptive Iterative Retrieval=自适应迭代检索,Fixed Iterative Retrieval=固定迭代检索)
6.3 人工评估
除了使用ROUGE、BLEU和语义相似度等定量指标评估性能外,我们还通过主题专家团队对表现最佳的两种配置(向下抽象+检索器微调、自适应迭代检索+检索器微调)的输出结果进行定性对比,同时纳入未修改的基准模型作为参考。专家们会收到评估问题、检索段落以及每种配置生成的答案,并被要求对输出结果进行定性评估。这些问题旨在基于企业最新的SEC文件评估其供应链风险,参与评估的专家均为从事供应链风险评估的经济学家和行业分析师。具体而言,专家需根据自身专业判断,记录生成的答案是否正确,并标记系统生成答案比人工标注数据集答案更准确的情况(即模型优于人工)。此外,专家还需指出哪些问题特别复杂或重要。
如图5所示,在三种评估配置中,自适应迭代检索生成的正确答案最多,在210个测试样本中准确率达到78%(本测试由四名供应链领域人工专家参与)。该配置在复杂问题上的表现也最为出色,这可能得益于其通过多轮检索和评估相关信息模拟推理的能力。有趣的是,基准模型在标记为“重要”的问题上表现略好,这表明此类问题有时可能更直接(复杂度较低)。这一发现强调,基于检索的系统需要在为复杂查询进行深度探索与为简单但高优先级查询进行直接检索之间取得平衡。

(图5:定性评估 注:(a)为各模型测试案例正确率,(b)为各模型答案优于人工的比例;Base=基准模型,Downward Abstraction=向下抽象,Adaptive Iterative=自适应迭代)
分析显示,仅有13%的评估问题出现人工生成答案优于所有三种测试配置的情况。值得注意的是,如图5所示,基准模型在24%的案例中表现优于人工响应——在所有配置中占比最高。相比之下,表现最差的配置在高复杂度问题上,答案优于人工的比例仅为10%。尽管需要进一步的误差分析才能得出明确结论,但这些发现表明,RAG系统不仅有潜力减少此类分析的时间成本,还能提升准确性,超越传统人工工作模式。
我们发现,测试的RAG配置擅长“大海捞针”,经常能在意想不到的地方发掘相关信息。当最新文件中缺乏所需数据时,系统通常会检索较旧的文件而非直接放弃。在某些情况下,历史信息至关重要——例如,某家公司通过将中国籍董事会成员替换为美国籍董事会成员,掩盖其中国背景,而仅依赖最新文件会得出该公司历史的“美化版本”。与此同时,系统有时会过度依赖过时文件。例如,它在识别某知名电动汽车(EV)公司的竞争对手时存在困难,主要原因是该公司的SEC文件在某个时间点后不再列出竞争对手。然而,其他电动汽车制造商在其年度报告中会明确指出竞争品牌。由于系统过度关注旧文件而未查阅这些最新披露,导致其过度强调欧洲和日本豪华品牌,而忽略了全球电动汽车和自动驾驶汽车领域的新进入者,包括美国和中国的科技公司及汽车制造商。
尽管测试的RAG配置在查找旧文件中的相关内容方面表现出色,但它们在对比年度文件时存在困难——通常只有当“增长”等词汇被明确提及时,才能检测到增减变化。此外,系统能够识别与风险相关的表述,但无法评估实际的风险暴露程度。在各行业的文件中,自然灾害、供应链中断、竞争和政府监管是常见主题,但系统若缺乏进一步上下文,无法区分常规的标准化表述与真正的生存威胁。企业的知名度也会产生影响:系统会持续标记那些披露详细劳工或人权实践的知名企业,而规模较小或受关注较少的企业可能被忽略。在一个典型案例中,系统在判断外资所有权问题时,仅根据首席执行官的姓名推断其国籍,而未识别出实际的外国主权财富基金投资。此类错误表明,未来的研究需要进一步优化系统对这些文件的评估和解读能力。
7 结论
本研究证实了RAG系统与网络爬虫技术相结合在增强实时供应链分析方面的潜力。论文评估了检索与生成技术之间的相互作用,关键发现表明,微调检索器在准确识别供应链干扰因素方面始终能带来最大的性能提升。尽管迭代检索技术能部分弥补非最优配置的不足,但分析证实,高质量检索对于最大化准确性和效率至关重要。通过人工评估,我们展示了RAG系统挖掘关键供应链洞察的能力,其经常能识别出人工审查中被忽略的相关信息。
鉴于对更及时、详细的供应链情报的需求日益增长——尤其是在美国经济和国家安全政策的背景下,我们的方法为将监管文件整合为可操作的洞察提供了一种可扩展的自动化解决方案。这对依赖全球贸易动态快速准确评估的政策制定者、研究人员和行业专业人士具有重要意义。
基于这些发现,未来的研究将重点优化系统提取和关联企业及产品特定信息的能力,同时探索来源的时间权重。我们预计,整合知识图谱将增强系统理解和关联企业、供应商与地缘政治因素之间关系的能力。此外,通过对来源进行时间权重分配或基于此目的重新排序,可以解决过度依赖旧文件的问题。通过互联网增强扩展实时数据摄入,将进一步减少延迟,提升对新兴干扰因素的响应速度。
此外,我们旨在探讨RAG技术与近期预训练创新相比的表现,明确这些技术发挥最大价值的条件。由于资源限制和每次实验运行所需的大量处理时间,我们未能深入研究研究结果的统计显著性——这一局限性将在未来的研究中解决。这些工作将增强结论的有效性,并深入洞察RAG系统的比较性能。最终,优化这些技术将提升LLM在日益复杂的全球环境中提高供应链可见性和韧性的效果。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套 AI 大模型突围资料包:
- ✅ 从零到一的 AI 学习路径图
- ✅ 大模型调优实战手册(附医疗/金融等大厂真实案例)
- ✅ 百度/阿里专家闭门录播课
- ✅ 大模型当下最新行业报告
- ✅ 真实大厂面试真题
- ✅ 2025 最新岗位需求图谱
所有资料 ⚡️ ,朋友们如果有需要 《AI大模型入门+进阶学习资源包》,下方扫码获取~
① 全套AI大模型应用开发视频教程
(包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点)
② 大模型系统化学习路线
作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!
③ 大模型学习书籍&文档
学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。
④ AI大模型最新行业报告
2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。
⑤ 大模型项目实战&配套源码
学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。
⑥ 大模型大厂面试真题
面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

以上资料如何领取?

为什么大家都在学大模型?
最近科技巨头英特尔宣布裁员2万人,传统岗位不断缩减,但AI相关技术岗疯狂扩招,有3-5年经验,大厂薪资就能给到50K*20薪!

不出1年,“有AI项目经验”将成为投递简历的门槛。
风口之下,与其像“温水煮青蛙”一样坐等被行业淘汰,不如先人一步,掌握AI大模型原理+应用技术+项目实操经验,“顺风”翻盘!

这些资料真的有用吗?
这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

以上全套大模型资料如何领取?

更多推荐



所有评论(0)