零成本让大模型“老实“！DeepSeek准确率飙升51%，GitHub已开源，小白程序员也能玩转

LingoEDU是一种降低大模型幻觉的新方法，通过在模型生成前对文本进行精准切分，并为每个最小信息单元分配唯一索引标记，实现可溯源的生成。实验显示，该方法使DeepSeek-R1准确率从9.0%提升至13.6%，相对提升51%。技术由深言科技与清华大学NLP实验室联合开发，已在GitHub开源，解决了传统上下文压缩方法的缺陷，既保留文本可读性又维持语义完整性。

小天才学习机打游戏

445人浏览 · 2026-01-05 16:41:07

小天才学习机打游戏 · 2026-01-05 16:41:07 发布

零成本降低大模型幻觉新方法，让DeepSeek准确率提升51%！

方法名为LingoEDU*（简称EDU），即基本信息单元（Elementary Discourse Unit，EDU）*技术。

LingoEDU在大模型正式生成之前装上的一个专门执行「预处理环节」的模型，这一环节主打精准切分，并且为每一个最小信息单元分配唯一的索引标记，给每一个生成内容打上标号——当需要引用某个信息时，可以精确地指向它的位置。

如此一来，让信息进入主模型进行思考生成前，先完成结构化预处理。

LingoEDU示意：将原文拆分成基本语义单元树后，能方便地在多文档问答、文档总结、DeepSearch等应用场景进行高效地上下文处理

这种「坐标系」让后续的所有操作都可以溯源，模型输出的任何内容都能精确对应到原文的具体位置，将「生成」关进「可追溯」的笼子里。

试想，如果生成的每句话、每个信息点都能精准地追溯到原文，都能check其正确与否，那么幻觉问题就可以在最大程度上被解决。

总结来说，其核心是对上下文进行结构化的精准切分，形成富含结构信息和语义信息的篇章结构树——每个节点都是一个完整的基本话语单元，节点之间通过清晰的层级关系连接。

LingoEDU具备如下优点：

1. 所形成的最小信息单元完整保留了原文的「语义信息」，同时保留了节点信息的完整性和节点之间信息的连贯性。
2. 使得上下文包含精准的「结构信息」，便于高效压缩，提升生成准确性。

实验结果显示，LingoEDU在切分准确性指标上显著超过所有基线模型，在成本和效率上也显著优于所有通用大模型的方法。

LingoEDU能够零成本适配所有大模型。在有着“AGI终极试炼”之称的HLE榜单上，DeepSeek-R1的准确率是9.0%，使用EDU之后准确率提升到13.6%，准确率相对提升51%。

这项研究由深言科技联合清华大学NLP实验室提出，以下是更多细节。

现有方案的两难困境

大模型产生幻觉的核心原因，从输出一侧来看，可以归结为其任务是基于概率的“合理的下一个词”的生成器；从输入一侧来看，则是由于输入的上下文过长，模型容易在海量信息中「迷路」，无法准确理解其中全部内容，从而产生不忠实于原文的输出。

前者是这种技术范式的固有特征，后者则可以在一定程度上被规范。

基于这一洞察，对后者问题的一个自然解决思路是：在把文档喂给模型之前，先做一些预处理，压缩去除冗余信息、保留必要信息，这样降低模型幻觉风险，同时降低模型处理成本和效率。

在过去的大模型训练过程中，任一基础模型都能实现对文档进行基本的结构化切分，但是其精准性却无法得到保证，这也是幻觉率居高不下的原因。

目前业界主要有两类上下文压缩方法，但都存在明显的缺陷：

显式压缩：看得见，但读不懂

这类方法直接对文本「动刀」，比如删除不重要的词或句子。

问题在于，这种操作往往基于单个词*（Token）*或粗糙的句子级别进行，容易把句子切得支离破碎。

比如，原文是「因为天气恶劣，航班被迫延误」，压缩后可能变成「天气恶劣，航班延误」——虽然保留了关键词，但因果关系变得模糊。

对模型来说，这就像阅读一篇被打了马赛克的文章，很难准确理解原意。

隐式压缩：效率高，但成了黑盒

另一类方法是把文本压缩成向量表示*（即“Gist Tokens”）*，相当于把整段话「浓缩」成一个黑盒表示。

这种方法效率很高，但问题在于：模型完全看不到原文是什么，只能依赖这个抽象的向量。

这就像让你只看一张照片的缩略图来描述细节——很容易产生误解和臆测。

我们需要的是什么？

归根结底，我们需要一种「两全其美」的方法：既保留文本的可读形式、避免黑盒带来的幻觉，又能维持语义的完整性、避免碎片化导致的连贯性丧失。

这就需要找到一种合适的切分方式，能把文档拆解成满足以上两个需求的信息块，作为文档处理、大模型正式生成的基础。

核心方法

团队提出全新框架LingoEDU，核心是提升文档处理的可溯源性和生成质量。该方法包含两个核心部分：以忠实度为导向的输入/输出设计，以及一套严格的自我修正数据合成流程。

△ LingoEDU方法示意图

训练方法侧：基于EDU的忠实度

忠实度意味着可溯源性。团队通过将生成过程完全锚定在预定义的每一个EDU上，来实现这一目标。

1.EDU表示策略：前置唯一索引标记，为模型创建参考坐标系

选择句子作为EDU：不同于大多方案选用token或段落，该项目选择

句子作为操作单元。
与token相比，句子包含完整的语义命题，减少了碎片化；
与段落相比，句子在不同文体中长度分布更稳定，便于模型建模。
最关键的是，团队在输入Embedding中为每个EDU前置了唯一的索引标记，为模型创建了一个明确的参考坐标系。通过明确的位置表示，方便大模型进行可溯源生成，提升生成内容的忠实度。

2. 增强型结构生成：让模型「引用」而非「创作」

指针机制：为了保证结构忠实于原文，项目采用了Augmented Markdown模式。模型被训练为输出指向EDU的“指针”，而不是重新生成文本内容。生成的节点格式如下：

**消除幻觉：**通过解码这个范围标记，可以将生成的结构无损地映射回原文的物理位置，从而有效消除了“位置幻觉”，从根本上消除了”凭空捏造”的可能。

3. 受限解码：从物理上阻止幻觉

为了进一步确保忠实度，项目在推理阶段施加了严格的词法约束。当模型生成范围标记中的数字时，可选的词表被严格限制为当前输入中实际存在的索引。

这就像给模型戴上了一副”有色眼镜”——它只能”看到”真实存在的选项，从物理上阻止了编造不存在引用的可能性。

训练数据侧：基于分解的可扩展数据合成

这一部分工作的核心作用是生产高质量的拆分数据用于模型训练。为了解决高质量、对齐的结构化数据稀缺的问题，项目引入了一个自动化流水线，其核心思想是在“角色”和“任务颗粒度”两个维度上进行分解。

1. 利用生成对抗的思想提升数据质量

项目实施了一种迭代优化机制，引入两个不同的代理：
a. 求解器（The Solver）：提出初步的EDU层级分解方案。
b. 批评家（The Critic）：审计提案的语义连贯性和边界精确度，只提供口头反馈，不直接修改结构。
这种对抗式协作迫使求解器重新思考模糊的边界，显著减少了在长文本场景下的性能退化。

2.双层任务分解（Bi-Level Task Decomposition）

核心作用：区分「结构信息」和「语义信息」，提升模型切分的准确性

团队认识到，文档结构化其实涉及两类本质不同的子任务：
a. 显性布局提取（Explicit Layout Extraction）： 这类任务确定性高，比如识别标题、列表、代码块等格式元素。模型主要依赖视觉和格式线索来构建骨架。
b. 深度语义分割（Deep Semantic Segmentation）： 这类任务歧义性高，模型专注于大段文本内的语义转换，划分更细粒度的EDU。
这种分离避免了端到端方法中常见的“指令冲突”（Instruction Conflict），即避免模型混淆视觉布局与语义逻辑，从而提升了训练数据的整体质量。

Lingo EDU让DeepSeek准确率相对提升51%

语义切分效果实验

为了验证LingoEDU的切分效果，团队构建了248篇文章*（包含web和pdf文件）组成的语义切分评测数据集，在这个数据集上，对比了本项目所采用的切分方法和各种基线方法的效果，主要指标是树编辑距离（TED，Tree Edit Distance）和文章级别准确率（DLA，Document Level Accuracy）*，同时针对成本和效率进行了对比。

实验结果显示，本项目的方法在切分准确性指标TED和DLA上显著超过所有基线模型，在成本和效率上也显著优于所有通用大模型的方法。

下游应用效果实验

相对线形的文本，精细化切分后的语义单元树能提供更加丰富的结构化信息和更加细粒度的信息管理和压缩，提升模型生成的准确性；同时由于信息表达的方式相对原始文本没有发生变化，可以方便地应用在各种下游任务上。

在有着中文网页检索天花板难度之称的测试集BrowseComp-ZH上，将各大模型的LLM API+RAG Research叠加EDU技术后，准确率全部提升，其中DeepSeek V3.1提升的幅度近一倍，达到18.7%。

在有着“AGI终极试炼”之称的HLE*（Humanity’s Last Exam，人类最后的考试）*测评集上，官方数据对行业头部大模型准确率的测评结果如下：

适配EDU技术之后，各模型的准确率表现有明显提升，DeepSeek R1的提升幅度较大，从9.0%提升到13.6%，准确率相对提升51%。

同时，团队也在LongBench*（包括Multi-Doc QA、Summarization和Few-shot任务）*上进行了对比实验，以Gemini-2.5-Pro和GPT-4.1为代表模型，验证LingoEDU的效果，实验结果显示LingoEDU能够提升模型在LongBench所有摘要总结、多文档问答等子任务的效果。

核心价值

价值点一：解决行业核心痛点——根治“幻觉”，让AI生成更可信

核心：直接回应当前大模型应用中最受诟病、也最影响商用的“幻觉”问题。LingoLingoEDU不是“缓解”，而是通过结构性变革**“根治”幻觉**。
LingoEDU*（基本语义单元）*技术，将文本拆解为一棵「语义树」。AI的每一次生成，都像在树上「按图索骥」，精准锚定到原文句子，从源头上杜绝了编造与偏离。
可溯源的生成：每个结论都能追溯到原文的精确位置，让AI「引用」而非「重写」，保证100%的文本忠实度。

价值点二：实现革命性效率——高效降本，实现智能“管理”

核心：将超长文本从粗放的压缩升级为“智能信息管理”，提供更优的投入产出比。
传统的上下文处理是「粗放式压缩」，而LingoEDU进行的是「精细化信息管理」。LingoEDU提供的不是更短的文本，而是结构更清晰、语义更完整的「文本地图」。
实验证明，该项目所采用的方法在取得最高切分精度的同时，成本与效率显著优于调用通用大模型。这意味着客户能以更低的计算开销，获得更准确、更可靠的AI处理结果。
这棵「语义树」是通用的能力增强器。无论是长文档问答、摘要总结还是复杂推理，它都能让现有模型的性能获得普适性提升。

价值点三：彰显技术领导力——定义新标准，从“黑盒”走向“白盒”

核心：将LingoEDU定位为一次重要的技术范式演进，引领行业走向可解释、可控制的AI。
AI应用正从「效果惊艳」走向「流程可信」。忠实度意味着可溯源性，LingoEDU正是这一理念的工程化实践，推动AI从「黑盒魔术」走向「白盒工程」。
开创了「基于分解的可扩展数据合成」流程，通过「求解器-批评家」循环与双层任务分解，自动化生产高质量训练数据，解决了该领域数据稀缺的核心瓶颈，构建了坚实的技术壁垒。
LingoEDU不仅是一项技术，更是为下一代可信AI基础设施提供的一个关键模块。它定义了如何让大模型更可靠地理解与处理人类复杂知识的新标准。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

AI浪潮下程序员如何突围？20256转型AI产品经理的完整攻略：程序员转型后薪资涨幅高达40%

2048 AI社区

YOLOv8

流程：1.利用Labelimg进行数据标注，在指定文件夹中生成xml标注文件。2.使用split.py实现数据集训练集、测试集、验证集的txt划分：train.txt、test.txt、trainval.txt、val.txt。3.使用split_voc_annotations.py文件实现对txt版本的训练集、测试集、验证集对应的xml标签划分到train、test、val文件夹。

2048 AI社区

VMware云原生转型之路

摘要：VMware通过Tanzu产品系列实现虚拟化与云原生技术的融合，将Kubernetes深度集成至vSphere环境，支持容器与虚拟机混合管理。关键技术包括Project Pacific实现资源共池、NSX-T提供容器网络、vSAN支持持久化存储。典型应用涵盖混合云部署、传统应用现代化改造及边缘计算场景。尽管面临资源调度、安全合规等挑战，VMware通过工具链整合和培训方案提供解决路径，未来将