原文:towardsdatascience.com/context-aided-forecasting-enhancing-forecasting-with-textual-data-c9af2ab057c1

<…/Images/773521a621b241c02e1bad3ef2bf8637.png>

图片来源 [1]

使用文本数据来增强预测性能并非新鲜事

在金融市场,文本数据和财经新闻在产生准确预测中常常扮演着关键角色——有时甚至比数值历史数据更为重要。

最近,许多大型语言模型(LLMs)已经在Fedspeak和新闻情感分析上进行了微调。这些模型完全依赖于文本数据来估计市场情绪。

一篇引人入胜的新论文***“上下文是关键”*[1]**探讨了不同的方法:通过结合数值和外部文本数据,预测准确性能提高多少?

本文介绍了几个关键贡献:

  • 上下文是关键(CiK)数据集:一个将数值数据与相应的文本信息配对的任务数据集。

  • 感兴趣区域 CRPS (RCRPS):一种针对评估概率预测而设计的修改版 CRPS 度量,侧重于上下文敏感窗口。

  • 上下文是关键基准:一个新的评估框架,展示了外部文本信息如何使流行的时序模型受益。

让我们深入探讨。

✅ 在**AI 项目文件夹中找到上下文是关键实战项目**——展示如何使用 Meta 的流行Llama-3.1模型进行上下文辅助预测。

上下文是关键方法

这个想法很简单:

我们如何将额外的文本信息嵌入历史数值数据中,以提高预测模型的准确性?

由于传统的时间序列模型无法处理文本数据,作者们为此目的采用了 LLMs。

他们概述了 4 种主要的文本数据集成方法:

A)提供额外上下文

图 1中,该模型在以下时间序列示例(来自气象数据集)中高估了下午的日照水平。

通过指定位置在阿拉斯加,预测与观测数据更接近:

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/f483272812f035271d60e2959b35dfb1.png

图 1:通过指定位置纠正此时间序列的预测(来源)

此外,概率覆盖范围也得到了改善。虽然真实值仍然位于 5%-95%预测区间之外,但添加的上下文有助于细化模型。

B) 已知未来上下文输入

嵌入已知未来信息可以更好地指导预测。

这在当前接受未来已知输入(如 NHITS)的模型中已经可行。这里的区别在于我们可以提供临时信息。

图 2中,模型被告知目标变量可能降至零——这在间歇数据中很常见:

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/a26027436432cf59850ea6ba5b4071a3.png

图 2:添加显式未来信息提高预测准确度(来源

关键观察:

  • 作者定义了一个覆盖零膨胀窗口的感兴趣区域(ROI),提示模型在计算 CPRS 时关注这个范围——这计算了我之前提到的 RCRPS 指标。

  • 这种上下文使模型能够有效地捕捉稀疏数据(详细内容请查看图例)。

C) 将预测限制在特定水平

这个特性很有趣,因为传统的时序模型无法实现这一点。

在下面的任务中,我们告知模型目标值预计将超过 0.80:

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/e820b63cc3cb9fb69302a4862d7049eb.png

图 3:具有上下限的上下文感知预测提高准确性和降低不确定性(来源

我们注意到以下情况:

  • 初始预测在大多数预测中保持在 0.8 以上。

  • 添加上下限使预测更接近真实值,同时缩小预测区间并降低不确定性。

D) 上下文学习/冷启动

这种方法在文本模型中很常见。

通过将示例作为输入的一部分,模型可以提高准确性。在文本应用中,这被称为上下文学习,可以用于预测。

图 4中,将美国各州的失业率示例添加到提示中:

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/8abf1ea6ca5c1e41c4e55fe2620227c1.png

图 4:预测中的上下文学习与基于文本的提示类似(来源

  • 模型通过利用提供的失业数据调整预测。

  • 这在冷启动场景中尤其有用:在预测没有数值上下文的新时间序列时,我们可以提供具有相似特征的示例来引导模型。

通用框架

我们刚刚看到了CiK 数据集的一些示例。

作者手动整理并发布了 71 个跨多个领域和数据集的任务。他们使用实时时间序列数据包括 MOIRAI 在内的基础时间序列模型进入基准测试,确保接触现有的公共数据集并避免数据泄露。

作者将这些任务分为三类:指令遵循检索推理。这些任务的详细信息可以在此浏览这里。上下文格式在图 5中展示:

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/65e07027c711736bda665a0d3357bf33.png

图 5:详细概述了我们可以通过丰富背景来改善预测的每一种方式(来源

过程的背景建立在几个关键组件之上,这些组件提供了对目标变量及其行为的全面理解。首先是即时信息(cI),它包括时间不变细节。这包括对过程的描述、目标变量的内在性质、无法从数值数据中推断出的长期季节性模式,以及如值的要求等约束。

**历史信息(cH)**提供了在数值数据中不可见的过去行为的见解。这可能包括过去序列值的统计数据或忽略无关模式(例如,由传感器维护引起的异常)的原因。这些细节有助于细化对历史趋势和异常的理解。

**协变量信息(ccov)**涉及与目标变量统计上相关的额外变量,有助于提高预测准确性。这些可能包括提供背景或增强分析预测准确性的相关变量,如提供背景的相关变量。

最后,**未来信息(cF)因果关系信息(ccausal)**关注前瞻性和关系方面。未来信息包括预期事件、模拟场景或可能影响结果约束(例如,库存短缺)。同时,因果关系信息强调协变量和目标之间的关系,区分真正的因果关系与偶然的相关性或混杂效应。这些元素共同确保了对过程的全面视角。

图 1-4 专注于涉及即时历史未来信息背景的任务。更多示例请参阅原文。

CiK 基准

作者在 CiK 数据集的 4 个类别中对模型进行了基准测试:

  1. 大型语言模型(LLMs):包括流行的封闭式 LLMs(例如,GPT4-o)和开源模型(Mixtral-8x7B、Llama-3–8b 和 Llama-3.1–405b)。

  2. 基于 LLM 的预测器:包括 Time-LLM 和 UniTime,它们使用 GPT-2 作为处理文本数据和时间序列组件的骨干。

  3. 时间序列基础模型:如 MOIRAI 和 Chronos 这样的预训练模型在无需特定任务训练的情况下提供零样本预测。

  4. 统计模型:针对每个任务的数值历史数据拟合基线模型,如 ARIMA 和 ETS。

对于前两类,其中适用文本数据,使用两种提示方法比较了有和无背景的性能:

  • 直接提示:模型通过单步生成整个预测范围的预测。将其视为多步预测。

  • LLMP(LLM 处理):逐步生成预测,将每个结果附加到下一次预测的上下文中。将其视为自回归/递归预测。

结果显示在下面的图 6中。分数按任务类型和方法(直接与 LLMP)进行划分。

注意: 每个模型都包括基础和微调版本。例如,Llama-3–70B 代表基础模型,而 Llama-3–70B-Inst 是微调版本。基础模型在庞大的语料库(万亿词)上预训练,以预测序列中的下一个单词。微调模型在较小的指令数据集(约 10 万个样本或更多)上进行额外训练,使其更加精细。

指令数据集遵循以下格式:“[INST]执行此任务… [/INST]这里是答案…”

每个模型都有自己的指令格式,但所有在线看到的 Chat LLM 都是在这些数据集上训练的。还有一个第三步,即对齐,其中 LLM 进一步训练以提供有帮助、无偏见和非有害的响应。然而,这一步骤超出了当前论文的范围,因为它关注的是生成数字而不是文本。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/bf77901f31a858bbd3436a35a21bba1e.png

图 6:*在 CiK 基准测试上的结果。左侧第一列显示了所有任务的平均 RCRPS。第二列显示了每种方法相对于其他基线的排名,平均跨所有任务。其余列显示了按模型能力划分的平均 RCRPS。(来源)

我们注意到以下情况:

  • LLM 在平均性能上优于其他模型。

  • 对于大于 70B 参数的大型模型,直接提示比 LLMP 更好。

  • 微调模型在直接提示下表现更佳。在 LLMP 中,基础版本通常表现优异,因为它们没有经过指令训练。

  • 开源 Llama-3.1–405B-Inst 优于专有 GPT-4o。

  • TS 基础模型超越统计模型,但落后于基于 LLM 的模型,因为它们没有利用外部上下文。

评估上下文对基于 LLM 模型的影响至关重要:

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/2de5710992ea0001036b46a4790e5e9e.png

图 7带有和没有上下文的每个模型的性能(平均 RCRPS)。(来源)

如预期,大多数基于 LLM 的模型都受益于额外的上下文。

另一个关键因素是推理成本。

较大的 LLM,特别是那些具有>70B 参数的 LLM,需要昂贵的 GPU 和大量的 VRAM。例如,Llama-3.1–70 有 700 亿个参数。每个 fp16 参数使用 2 字节,因此加载模型需要 140GB 的内存(700 亿×2 字节)加上开销。

拥有专有 LLM 的 GPT-4o 通过付费墙 API 增加成本,按令牌收费——这些费用随时间波动。

为了解决这个问题,作者进行了一项成本分析,以评估性能与运行时间的关系:

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/054670434c167e68a11b4080324a69e1.png

图 8:*推理成本概述 :每个模型的平均 RCRPS 与参数数量,:平均推理时间(秒),跨任务平均。(来源)

注意:

  • Llama-405B-Instruct 的得分最高,但需要大量的推理时间(对数刻度的运行时间轴)。

  • LLMP 模型由于使用自回归技术,一次生成一个预测,因此需要更长的时间。

  • TS 基础模型有效地平衡了运行时间和性能。毫无疑问,多模态 TS 基础模型具有巨大的潜力。

结束语

如本文所述,基础时间序列(TS)模型的未来在于其整合多个领域/模态的能力。

在实践中,时间序列数据依赖于各种外部因素——其中一些因素是无法用现有的数值特征或协变量来捕捉的。

文本是一个这样的因素。这就是为什么根据场景,利用文本在时间序列问题中可以产生变革性的影响。

“上下文是关键”框架不是一个本地的多模态模型——它是一种新颖的方法,通过添加额外的上下文来丰富 LLM,以增强预测准确性。未来的研究可以探索更多整合这两种模态的方法。此外,作者发布的 dataset 和 benchmark 具有高度的重要性。

同时,初步的本地产多模态 TS 模型正在出现。我们将在未来的文章中介绍它们,所以请保持关注!

感谢阅读!

  • 订阅我的通讯,AI Horizon Forecast!

将 Transformer 革命化时间序列预测?——高级洞察,第二部分

参考文献

[1] Williams 等人。上下文是关键:使用必要文本信息的预测基准

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐