上下文辅助预测:利用文本数据增强预测
原文:towardsdatascience.com/context-aided-forecasting-enhancing-forecasting-with-textual-data-c9af2ab057c1图片来源 [1]。在金融市场,文本数据和财经新闻在产生准确预测中常常扮演着关键角色——有时甚至比数值历史数据更为重要。最近,许多大型语言模型(LLMs)已经在和新闻情感分析上进行了微调。这些模
<…/Images/773521a621b241c02e1bad3ef2bf8637.png>
图片来源 [1]
使用文本数据来增强预测性能并非新鲜事。
在金融市场,文本数据和财经新闻在产生准确预测中常常扮演着关键角色——有时甚至比数值历史数据更为重要。
最近,许多大型语言模型(LLMs)已经在Fedspeak和新闻情感分析上进行了微调。这些模型完全依赖于文本数据来估计市场情绪。
一篇引人入胜的新论文***“上下文是关键”*[1]**探讨了不同的方法:通过结合数值和外部文本数据,预测准确性能提高多少?
本文介绍了几个关键贡献:
-
上下文是关键(CiK)数据集:一个将数值数据与相应的文本信息配对的任务数据集。
-
感兴趣区域 CRPS (RCRPS):一种针对评估概率预测而设计的修改版 CRPS 度量,侧重于上下文敏感窗口。
-
上下文是关键基准:一个新的评估框架,展示了外部文本信息如何使流行的时序模型受益。
让我们深入探讨。
✅ 在**AI 项目文件夹中找到上下文是关键的实战项目**——展示如何使用 Meta 的流行Llama-3.1模型进行上下文辅助预测。
上下文是关键方法
这个想法很简单:
我们如何将额外的文本信息嵌入历史数值数据中,以提高预测模型的准确性?
由于传统的时间序列模型无法处理文本数据,作者们为此目的采用了 LLMs。
他们概述了 4 种主要的文本数据集成方法:
A)提供额外上下文
在图 1中,该模型在以下时间序列示例(来自气象数据集)中高估了下午的日照水平。
通过指定位置在阿拉斯加,预测与观测数据更接近:
图 1:通过指定位置纠正此时间序列的预测(来源)
此外,概率覆盖范围也得到了改善。虽然真实值仍然位于 5%-95%预测区间之外,但添加的上下文有助于细化模型。
B) 已知未来上下文输入
嵌入已知未来信息可以更好地指导预测。
这在当前接受未来已知输入(如 NHITS)的模型中已经可行。这里的区别在于我们可以提供临时信息。
在图 2中,模型被告知目标变量可能降至零——这在间歇数据中很常见:
图 2:添加显式未来信息提高预测准确度(来源)
关键观察:
-
作者定义了一个覆盖零膨胀窗口的感兴趣区域(ROI),提示模型在计算 CPRS 时关注这个范围——这计算了我之前提到的 RCRPS 指标。
-
这种上下文使模型能够有效地捕捉稀疏数据(详细内容请查看图例)。
C) 将预测限制在特定水平
这个特性很有趣,因为传统的时序模型无法实现这一点。
在下面的任务中,我们告知模型目标值预计将超过 0.80:
图 3:具有上下限的上下文感知预测提高准确性和降低不确定性(来源)
我们注意到以下情况:
-
初始预测在大多数预测中保持在 0.8 以上。
-
添加上下限使预测更接近真实值,同时缩小预测区间并降低不确定性。
D) 上下文学习/冷启动
这种方法在文本模型中很常见。
通过将示例作为输入的一部分,模型可以提高准确性。在文本应用中,这被称为上下文学习,可以用于预测。
在图 4中,将美国各州的失业率示例添加到提示中:
图 4:预测中的上下文学习与基于文本的提示类似(来源)
-
模型通过利用提供的失业数据调整预测。
-
这在冷启动场景中尤其有用:在预测没有数值上下文的新时间序列时,我们可以提供具有相似特征的示例来引导模型。
通用框架
我们刚刚看到了CiK 数据集的一些示例。
作者手动整理并发布了 71 个跨多个领域和数据集的任务。他们使用实时时间序列数据包括 MOIRAI 在内的基础时间序列模型进入基准测试,确保接触现有的公共数据集并避免数据泄露。
作者将这些任务分为三类:指令遵循、检索和推理。这些任务的详细信息可以在此浏览这里。上下文格式在图 5中展示:
图 5:详细概述了我们可以通过丰富背景来改善预测的每一种方式(来源)
过程的背景建立在几个关键组件之上,这些组件提供了对目标变量及其行为的全面理解。首先是即时信息(cI),它包括时间不变细节。这包括对过程的描述、目标变量的内在性质、无法从数值数据中推断出的长期季节性模式,以及如值的要求等约束。
**历史信息(cH)**提供了在数值数据中不可见的过去行为的见解。这可能包括过去序列值的统计数据或忽略无关模式(例如,由传感器维护引起的异常)的原因。这些细节有助于细化对历史趋势和异常的理解。
**协变量信息(ccov)**涉及与目标变量统计上相关的额外变量,有助于提高预测准确性。这些可能包括提供背景或增强分析预测准确性的相关变量,如提供背景的相关变量。
最后,**未来信息(cF)和因果关系信息(ccausal)**关注前瞻性和关系方面。未来信息包括预期事件、模拟场景或可能影响结果约束(例如,库存短缺)。同时,因果关系信息强调协变量和目标之间的关系,区分真正的因果关系与偶然的相关性或混杂效应。这些元素共同确保了对过程的全面视角。
图 1-4 专注于涉及即时、历史和未来信息背景的任务。更多示例请参阅原文。
CiK 基准
作者在 CiK 数据集的 4 个类别中对模型进行了基准测试:
-
大型语言模型(LLMs):包括流行的封闭式 LLMs(例如,GPT4-o)和开源模型(Mixtral-8x7B、Llama-3–8b 和 Llama-3.1–405b)。
-
基于 LLM 的预测器:包括 Time-LLM 和 UniTime,它们使用 GPT-2 作为处理文本数据和时间序列组件的骨干。
-
时间序列基础模型:如 MOIRAI 和 Chronos 这样的预训练模型在无需特定任务训练的情况下提供零样本预测。
-
统计模型:针对每个任务的数值历史数据拟合基线模型,如 ARIMA 和 ETS。
对于前两类,其中适用文本数据,使用两种提示方法比较了有和无背景的性能:
-
直接提示:模型通过单步生成整个预测范围的预测。将其视为多步预测。
-
LLMP(LLM 处理):逐步生成预测,将每个结果附加到下一次预测的上下文中。将其视为自回归/递归预测。
结果显示在下面的图 6中。分数按任务类型和方法(直接与 LLMP)进行划分。
注意: 每个模型都包括基础和微调版本。例如,Llama-3–70B 代表基础模型,而 Llama-3–70B-Inst 是微调版本。基础模型在庞大的语料库(万亿词)上预训练,以预测序列中的下一个单词。微调模型在较小的指令数据集(约 10 万个样本或更多)上进行额外训练,使其更加精细。
指令数据集遵循以下格式:“[INST]执行此任务… [/INST]这里是答案…”
每个模型都有自己的指令格式,但所有在线看到的 Chat LLM 都是在这些数据集上训练的。还有一个第三步,即对齐,其中 LLM 进一步训练以提供有帮助、无偏见和非有害的响应。然而,这一步骤超出了当前论文的范围,因为它关注的是生成数字而不是文本。
图 6:*在 CiK 基准测试上的结果。左侧第一列显示了所有任务的平均 RCRPS。第二列显示了每种方法相对于其他基线的排名,平均跨所有任务。其余列显示了按模型能力划分的平均 RCRPS。(来源)
我们注意到以下情况:
-
LLM 在平均性能上优于其他模型。
-
对于大于 70B 参数的大型模型,直接提示比 LLMP 更好。
-
微调模型在直接提示下表现更佳。在 LLMP 中,基础版本通常表现优异,因为它们没有经过指令训练。
-
开源 Llama-3.1–405B-Inst 优于专有 GPT-4o。
-
TS 基础模型超越统计模型,但落后于基于 LLM 的模型,因为它们没有利用外部上下文。
评估上下文对基于 LLM 模型的影响至关重要:
图 7:带有和没有上下文的每个模型的性能(平均 RCRPS)。(来源)
如预期,大多数基于 LLM 的模型都受益于额外的上下文。
另一个关键因素是推理成本。
较大的 LLM,特别是那些具有>70B 参数的 LLM,需要昂贵的 GPU 和大量的 VRAM。例如,Llama-3.1–70 有 700 亿个参数。每个 fp16 参数使用 2 字节,因此加载模型需要 140GB 的内存(700 亿×2 字节)加上开销。
拥有专有 LLM 的 GPT-4o 通过付费墙 API 增加成本,按令牌收费——这些费用随时间波动。
为了解决这个问题,作者进行了一项成本分析,以评估性能与运行时间的关系:
图 8:*推理成本概述 左:每个模型的平均 RCRPS 与参数数量,右:平均推理时间(秒),跨任务平均。(来源)
注意:
-
Llama-405B-Instruct 的得分最高,但需要大量的推理时间(对数刻度的运行时间轴)。
-
LLMP 模型由于使用自回归技术,一次生成一个预测,因此需要更长的时间。
-
TS 基础模型有效地平衡了运行时间和性能。毫无疑问,多模态 TS 基础模型具有巨大的潜力。
结束语
如本文所述,基础时间序列(TS)模型的未来在于其整合多个领域/模态的能力。
在实践中,时间序列数据依赖于各种外部因素——其中一些因素是无法用现有的数值特征或协变量来捕捉的。
文本是一个这样的因素。这就是为什么根据场景,利用文本在时间序列问题中可以产生变革性的影响。
“上下文是关键”框架不是一个本地的多模态模型——它是一种新颖的方法,通过添加额外的上下文来丰富 LLM,以增强预测准确性。未来的研究可以探索更多整合这两种模态的方法。此外,作者发布的 dataset 和 benchmark 具有高度的重要性。
同时,初步的本地产多模态 TS 模型正在出现。我们将在未来的文章中介绍它们,所以请保持关注!
感谢阅读!
- 订阅我的通讯,AI Horizon Forecast!
参考文献
[1] Williams 等人。上下文是关键:使用必要文本信息的预测基准
更多推荐



所有评论(0)