上下文辅助预测：利用文本数据增强预测

原文：towardsdatascience.com/context-aided-forecasting-enhancing-forecasting-with-textual-data-c9af2ab057c1图片来源 [1]。在金融市场，文本数据和财经新闻在产生准确预测中常常扮演着关键角色——有时甚至比数值历史数据更为重要。最近，许多大型语言模型（LLMs）已经在和新闻情感分析上进行了微调。这些模

布客飞龙

517人浏览 · 2025-11-22 00:58:54

布客飞龙 · 2025-11-22 00:58:54 发布

原文：towardsdatascience.com/context-aided-forecasting-enhancing-forecasting-with-textual-data-c9af2ab057c1

<…/Images/773521a621b241c02e1bad3ef2bf8637.png>

图片来源 [1]

使用文本数据来增强预测性能并非新鲜事。

在金融市场，文本数据和财经新闻在产生准确预测中常常扮演着关键角色——有时甚至比数值历史数据更为重要。

最近，许多大型语言模型（LLMs）已经在Fedspeak和新闻情感分析上进行了微调。这些模型完全依赖于文本数据来估计市场情绪。

一篇引人入胜的新论文***“上下文是关键”*[1]**探讨了不同的方法：通过结合数值和外部文本数据，预测准确性能提高多少？

本文介绍了几个关键贡献：

上下文是关键（CiK）数据集：一个将数值数据与相应的文本信息配对的任务数据集。
感兴趣区域 CRPS (RCRPS)：一种针对评估概率预测而设计的修改版 CRPS 度量，侧重于上下文敏感窗口。
上下文是关键基准：一个新的评估框架，展示了外部文本信息如何使流行的时序模型受益。

让我们深入探讨。

✅ 在**AI 项目文件夹中找到上下文是关键的实战项目**——展示如何使用 Meta 的流行Llama-3.1模型进行上下文辅助预测。

上下文是关键方法

这个想法很简单：

我们如何将额外的文本信息嵌入历史数值数据中，以提高预测模型的准确性？

由于传统的时间序列模型无法处理文本数据，作者们为此目的采用了 LLMs。

他们概述了 4 种主要的文本数据集成方法：

A）提供额外上下文

在图 1中，该模型在以下时间序列示例（来自气象数据集）中高估了下午的日照水平。

通过指定位置在阿拉斯加，预测与观测数据更接近：

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/f483272812f035271d60e2959b35dfb1.png

图 1：通过指定位置纠正此时间序列的预测（来源)

此外，概率覆盖范围也得到了改善。虽然真实值仍然位于 5%-95%预测区间之外，但添加的上下文有助于细化模型。

B) 已知未来上下文输入

嵌入已知未来信息可以更好地指导预测。

这在当前接受未来已知输入（如 NHITS）的模型中已经可行。这里的区别在于我们可以提供临时信息。

在图 2中，模型被告知目标变量可能降至零——这在间歇数据中很常见：

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/a26027436432cf59850ea6ba5b4071a3.png

图 2：添加显式未来信息提高预测准确度（来源）

关键观察：

作者定义了一个覆盖零膨胀窗口的感兴趣区域（ROI），提示模型在计算 CPRS 时关注这个范围——这计算了我之前提到的 RCRPS 指标。
这种上下文使模型能够有效地捕捉稀疏数据（详细内容请查看图例）。

C) 将预测限制在特定水平

这个特性很有趣，因为传统的时序模型无法实现这一点。

在下面的任务中，我们告知模型目标值预计将超过 0.80：

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/e820b63cc3cb9fb69302a4862d7049eb.png

图 3：具有上下限的上下文感知预测提高准确性和降低不确定性（来源）

我们注意到以下情况：

初始预测在大多数预测中保持在 0.8 以上。
添加上下限使预测更接近真实值，同时缩小预测区间并降低不确定性。

D) 上下文学习/冷启动

这种方法在文本模型中很常见。

通过将示例作为输入的一部分，模型可以提高准确性。在文本应用中，这被称为上下文学习，可以用于预测。

在图 4中，将美国各州的失业率示例添加到提示中：

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/8abf1ea6ca5c1e41c4e55fe2620227c1.png

图 4：预测中的上下文学习与基于文本的提示类似（来源）

模型通过利用提供的失业数据调整预测。
这在冷启动场景中尤其有用：在预测没有数值上下文的新时间序列时，我们可以提供具有相似特征的示例来引导模型。

通用框架

我们刚刚看到了CiK 数据集的一些示例。

作者手动整理并发布了 71 个跨多个领域和数据集的任务。他们使用实时时间序列数据包括 MOIRAI 在内的基础时间序列模型进入基准测试，确保接触现有的公共数据集并避免数据泄露。

作者将这些任务分为三类：指令遵循、检索和推理。这些任务的详细信息可以在此浏览这里。上下文格式在图 5中展示：

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/65e07027c711736bda665a0d3357bf33.png

图 5：详细概述了我们可以通过丰富背景来改善预测的每一种方式（来源）

过程的背景建立在几个关键组件之上，这些组件提供了对目标变量及其行为的全面理解。首先是即时信息（cI），它包括时间不变细节。这包括对过程的描述、目标变量的内在性质、无法从数值数据中推断出的长期季节性模式，以及如值的要求等约束。

**历史信息（cH）**提供了在数值数据中不可见的过去行为的见解。这可能包括过去序列值的统计数据或忽略无关模式（例如，由传感器维护引起的异常）的原因。这些细节有助于细化对历史趋势和异常的理解。

**协变量信息（ccov）**涉及与目标变量统计上相关的额外变量，有助于提高预测准确性。这些可能包括提供背景或增强分析预测准确性的相关变量，如提供背景的相关变量。

最后，**未来信息（cF）和因果关系信息（ccausal）**关注前瞻性和关系方面。未来信息包括预期事件、模拟场景或可能影响结果约束（例如，库存短缺）。同时，因果关系信息强调协变量和目标之间的关系，区分真正的因果关系与偶然的相关性或混杂效应。这些元素共同确保了对过程的全面视角。

图 1-4 专注于涉及即时、历史和未来信息背景的任务。更多示例请参阅原文。

CiK 基准

作者在 CiK 数据集的 4 个类别中对模型进行了基准测试：

大型语言模型（LLMs）：包括流行的封闭式 LLMs（例如，GPT4-o）和开源模型（Mixtral-8x7B、Llama-3–8b 和 Llama-3.1–405b）。
基于 LLM 的预测器：包括 Time-LLM 和 UniTime，它们使用 GPT-2 作为处理文本数据和时间序列组件的骨干。
时间序列基础模型：如 MOIRAI 和 Chronos 这样的预训练模型在无需特定任务训练的情况下提供零样本预测。
统计模型：针对每个任务的数值历史数据拟合基线模型，如 ARIMA 和 ETS。

对于前两类，其中适用文本数据，使用两种提示方法比较了有和无背景的性能：

直接提示：模型通过单步生成整个预测范围的预测。将其视为多步预测。
LLMP（LLM 处理）：逐步生成预测，将每个结果附加到下一次预测的上下文中。将其视为自回归/递归预测。

结果显示在下面的图 6中。分数按任务类型和方法（直接与 LLMP）进行划分。

注意: 每个模型都包括基础和微调版本。例如，Llama-3–70B 代表基础模型，而 Llama-3–70B-Inst 是微调版本。基础模型在庞大的语料库（万亿词）上预训练，以预测序列中的下一个单词。微调模型在较小的指令数据集（约 10 万个样本或更多）上进行额外训练，使其更加精细。

指令数据集遵循以下格式：“[INST]执行此任务… [/INST]这里是答案…”

每个模型都有自己的指令格式，但所有在线看到的 Chat LLM 都是在这些数据集上训练的。还有一个第三步，即对齐，其中 LLM 进一步训练以提供有帮助、无偏见和非有害的响应。然而，这一步骤超出了当前论文的范围，因为它关注的是生成数字而不是文本。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/bf77901f31a858bbd3436a35a21bba1e.png

图 6：*在 CiK 基准测试上的结果。左侧第一列显示了所有任务的平均 RCRPS。第二列显示了每种方法相对于其他基线的排名，平均跨所有任务。其余列显示了按模型能力划分的平均 RCRPS。(来源)

我们注意到以下情况：