2024-arXiv-FinGPT: 通过传播意识和语境丰富的 LLM 增强基于情绪的股票变动预测
对于理解新闻对股票价格的影响至关重要。近年来,由于大语言模型(LLMs)具备先进的文本分析能力,这些模型被广泛应用于这一领域。然而,这些模型通常仅考虑新闻。
arXiv | https://arxiv.org/abs/2412.10823
摘要:
金融情绪分析对于理解新闻对股票价格的影响至关重要。近年来,由于大语言模型(LLMs)具备先进的文本分析能力,这些模型被广泛应用于这一领域。然而,这些模型通常仅考虑新闻内容本身,而忽略了新闻的传播情况,这妨碍了对短期股票走势的准确预测。此外,当前的方法往往缺乏足够的上下文数据和明确的指令,限制了 LLMs 对新闻的理解能力。
在本文中,我们提出了一种数据驱动的方法,通过结合新闻传播范围、上下文数据和明确指令,增强基于情感分析的股票走势预测能力。我们对近期与公司相关的新闻进行聚类,以评估其影响范围和影响力,并通过提供更多具体数据和精确指令来丰富提示信息。使用这些数据构建指令调优数据集,对LLM进行微调,以预测短期股票价格变动。实验结果表明,与现有方法相比,我们的方法将预测准确性提高了8%。
一、引言
金融市场对新闻、社交媒体和其他公众情绪信号极为敏感,这些信号会影响交易行为,最终影响股票价格。理解这些情绪变化可以提供有关价格运动模式的宝贵见解,因此情绪分析已成为现代金融预测不可或缺的组成部分。传统的情绪分析通常将情绪归类为正面、负面或中性。NLP 的进步显著增强了我们从大量文本来源中分析和解释情绪数据的能力。大多数先前的研究主要集中在提高单个新闻项目的情绪分析准确性上,很少将这些情绪数据汇总以评估整体市场情绪,也鲜有将结果集成到后续任务(如股票预测和风险管理)中。
大型语言模型(LLMs)的出现通过提供基于情绪的分类和股票运动预测的解释,彻底改变了金融情绪分析,近年来的研究如 FinRobot 通过其“市场预测器”工具超越了单一新闻分析,捕捉到了更广泛的市场情绪景观。尽管 LLM 在金融情绪分析方面带来了进步,现有的方法往往仅依赖新闻内容本身进行预测,忽视了新闻传播这一关键因素,此外还通常缺乏足够的背景数据和明确的指令,限制了LLM对新闻的理解能力。
在本文中,我们提出了一种新的方法,通过结合新闻传播广度、上下文数据和精确指令,增强以情感分析为基础的股票市场动向预测能力。通过聚类最近与公司相关的新闻文章,并使用聚类属性来评估新闻的传播范围和影响力,基于以下两个关键假设:
- 每个聚类的中心文章包含了最全面的信息,供语言模型处理;
- 聚类的大小反映了该主题的市场影响,较大的聚类表明更为重要的事件。
此外,我们通过添加每日股票价格和回报数据,并指示考虑新闻的短期或长期影响来增强提示。利用这些信息,我们构建了一个指令调优数据集,以微调语言模型,用于短期股票价格预测。
二、模型总体框架
我们的目标是基于新闻情绪预测周度股票价格变动。价格变动被归类为十二个标签:U1-U5 和 U5+ 表示上升趋势(0-1%,1-2%,2-3%,3-4%,4-5%,超过5%),D1-D5+ 则表示相应的下降趋势。预测基于前一周的股票价格、最近的新闻以及公司基本面(每季度更新)。模型还会生成预测理由,通过识别 [正面发展] 和 [潜在关注点] 来突出每个类别中最重要的 2-4 个因素,并提供 [预测与分析]。
整体框架遵循金融分析中对大语言模型进行微调的标准框架,工作主要集中在数据处理和提示工程这两个环节。

2.1 数据处理
高粒度(HG)在股票价格信息中的应用:基线方法仅使用每周的汇总股票价格变动。本文通过引入每日收盘价及其相应回报增加了数据的粒度。具有两个关键作用:
- 通过提供明确的每日价格变动,减少LLMs中的计算不确定性;
- 实现价格变化与新闻事件的时间精确对齐,为区分短期和长期影响提供基础。
新闻聚类(HG-NC):传统的股票市场分析往往缺乏系统化的新闻传播量化。更全面的方法需要分析整个新闻景观,通常活跃股票每周涉及超过 200 篇文章。这带来了显著的挑战:冗余信息处理、计算效率低下以及语言模型中潜在的令牌限制。为了解决这些挑战,在 HG 的基础上进一步开发了一种聚类方法,该方法能够高效地组织大量新闻内容,并通过**两个关键维度(报道频率和时间跨度)**捕捉新闻影响。包括以下步骤:
-
**数据收集:**从 Finnhub API 检索每周的金融新闻数据,包括标题和摘要。
-
**主题聚类:**将新闻文章转换为嵌入表示,然后使用 BERTopic 进行主题建模,以识别和聚类主题相关的内容。
-
**聚类质量评估:**通过成对相似性分析评估聚类的凝聚性:
- **高凝聚性聚类(平均成对相似性 > 0.6):**对于这些聚类,选择与聚类中心最近的文章作为聚类代表,并保留聚类大小和时间跨度的元数据。
- **低凝聚性聚类(平均成对相似性 ≤ 0.6):**再次选择与聚类中心最近的文章,但限制主题大小为2,并记录时间范围。这种设置反映了较低的聚类质量,并且对这些不那么凝聚的群体的信心较低。
-
**主题选择策略:**当高凝聚性聚类少于六个时,补充最多四个低凝聚性聚类,以确保足够的信息覆盖。 所有参数(相似性阈值、聚类大小和主题配额)可根据分析需求和LLM约束进行调整。
利用 BERTopic 和余弦相似性评估,聚类方法能够有效地将大量新闻浓缩为代表性样本,并量化新闻传播,从而增强股票价格变动预测。
2.2 提示工程:上下文增强的指令
为了适应包含每日股票信息和量化新闻传播的数据格式,需要上下文增强的指令以更好地进行分析。
- 基线方法:

- 对于 HG:我们指导大语言模型区分新闻的短期影响和长期影响,因为每日股票价格和回报可以揭示市场的即时反应。这种区分至关重要,因为短期新闻的影响通常已经在同周的股票变动中得到反映。

- 对于 HG-NC:基于HG,我们构建新闻组件,使用选定的代表性文章及其相关元数据(主题规模和时间覆盖范围)。然后,我们通过描述新闻组件并提供分析新闻传播对股票变动影响的指导方针来增强指令。

**指令调优:**训练数据集将我们的结构化输入提示(包括公司简介、历史股票价格、相关新闻、公司基本面以及利用情感分析进行预测的指令)与基于已知未来变动的 GPT-4o 生成的分析配对。然后,在提示中移除真实股票价格,使用该数据集对 Llama3-8B 进行每周股票变动预测的微调,并评估数值准确性与推理质量。

三、性能评估
使用两个关键指标来评估模型的性能:
- 二元准确率用于股票预测
- ROUGE 分数用于推理质量。
我们的分析比较了三种方法:基线方法、HG 方法、HG-NC 方法。
3.1 股票价格变动预测中的二元准确率
综合数据集包含 20 家公司的 380 个观测值,涵盖了多个市场板块,以确保评估的稳健性。

-
通过高粒度的股票价格数据和针对性的指示,预测准确度从 0.550 提高到 0.592。
-
在预测与分析组件中,**对时间维度的关注度增加,**与长期相关的频率从 15.0% 上升到 69.8%,与短期相关的频率从 7.5% 上升到 56.6%,表明 LLM 有效地遵循指示,区分短期和长期新闻的影响,并在股价预测中平衡这些影响,从而提高了准确度。
-
进一步将准确度提高到 63% 的 HG-NC 结果验证了我们的假设,即整合新闻聚类结果能够增强 LLM 捕捉市场动态以及新闻传播对股票变动影响的能力。
3.2 推理质量评估的 ROUGE 分数
使用 ROUGE 分数来评估推理质量,衡量 LLM 生成输出与参考摘要之间关键词汇和短语的重叠程度。ROUGE评分越高表明与参考文本的匹配度越高,且基于新闻内容的推理覆盖范围更广。
我们评估了三个指标:ROUGE-1、ROUGE-2 和最长公共子序列 ROUGE-L (ROUGE-N 表示 N-gram 共同出现统计)。

3.3 案例研究:波音公司
以波音公司(NYSE: BA)作为典型案例,HG-NC 方法的准确率为 63.2%,而 HG 方法的准确率为 52.63%。

我们通过衡量**高一致性聚类(其平均成对相似度大于0.6)**的文章数量占总新闻文章数量的比例来评估聚类性能。将预测比较分为三种情况:
- **情况 1:**HG-NC 正确而 NC 错误;
- **情况 2:**HG 正确而 HG-NC 错误;
- **情况 3:**两种方法得出相同预测。
总体而言,我们发现聚类性能与预测性能之间存在较强的正相关关系。 在HG-NC方法优于HG方法的7个实例(情况 1)中,我们观察到高一致性聚类的比例相对较高(大多超过50%)。相反,当这一比例低于40%(情况 2)时,性能下降,表明聚类未能充分捕捉或保留重要的市场信息。

周度新闻聚类统计:

波音公司2024/6/16-2024/6/23 HG-NC 方法的预测结果:

中…(img-WeHYlGfa-1739796129905)]
波音公司2024/6/16-2024/6/23 HG-NC 方法的预测结果:
[外链图片转存中…(img-jsmtftGV-1739796129905)]
更多推荐


所有评论(0)