面向次日短线题材交易的“因子 + 大模型 + RAG”盘后选股策略

【摘要】一种融合量化筛选与AI验证的双核智能策略。它通过结构化数据捕捉交易形态，再利用非结构化信息探寻内在驱动，旨在实现高确定性的T+1周期Alpha捕捉。

InterGPT

220人浏览 · 2025-12-04 23:54:37

InterGPT · 2025-12-04 23:54:37 发布

【摘要】一种融合量化筛选与AI验证的双核智能策略。它通过结构化数据捕捉交易形态，再利用非结构化信息探寻内在驱动，旨在实现高确定性的T+1周期Alpha捕捉。

引言

在量化交易领域，我们始终面对一个核心挑战，即如何在充满噪声的市场数据中，识别出具备高胜率的交易信号。传统的量化策略高度依赖历史数据的统计规律。它们在捕捉“相关性”方面表现出色，却常常难以触及驱动价格变化的“因果性”。这导致策略在市场风格切换时，容易出现信号失效或过拟合现象。一个纯粹由数据驱动的模型，可能会发现某个技术形态与次日上涨高度相关，但它无法分辨这种形态是由真实的产业催化剂引发，还是仅仅是市场情绪的短暂共振。

为了突破这一瓶颈，我们需要一种新的范式。这种范式不再将结构化的量价数据与非结构化的文本信息视为两个孤立的世界，而是将它们视为同一市场事实的两种不同维度的表达。本文将详细阐述一种AI增强型的盘后动量龙头策略。它并非对传统量化模型的简单替代，而是一次深度融合。策略的设计主导思想是构建一个双核驱动系统，让严谨的量化模型负责“筛选”，让具备认知能力的AI模型负责“验证”。通过这种方式，我们期望在每个交易日收盘后，能够生成一份不仅技术形态优美，且背后逻辑坚实的次日交易计划。

🌀 一、策略设计的核心思想

1.1 双核驱动范式

本策略的基石是混合智能 (Hybrid Intelligence)。它承认两种智能形式的独特价值。

机器智能（量化模型）。它擅长处理大规模、高维度的结构化数据。其优势在于效率、客观性与纪律性。它能以人类无法企及的速度，在全市场范围内扫描、计算并识别出符合预设规则的模式。
认知智能（AI大模型）。它擅长理解和推理非结构化信息，如自然语言文本。其优势在于深度、逻辑性与对新知识的快速吸收。它能读懂一篇公告背后的情绪，理解一项政策对产业链的深远影响，并判断市场叙事的强度。

双核驱动范式就是将这两者结合。量化模型作为策略的“骨架”，负责构建一个高概率的候选池。AI模型则作为策略的“灵魂”，负责对这些候选者进行深度剖析，赋予其逻辑支撑。

1.2 量化筛选-捕捉“形”

策略的第一阶段，我们专注于捕捉交易目标的“外在形态”。这里的“形”，指的是一只股票在量价关系、资金流动、尾盘行为等维度上呈现出的强势特征。我们相信，任何一次有意义的上涨，都必然会在这些可观测的数据上留下痕迹。

客观性。量化筛选完全基于预设的数学和逻辑规则。它排除了人类交易中常见的情绪偏见，如恐惧、贪婪或路径依赖。所有股票都在同一把标尺下被衡量。
高效性。面对数千只股票，人工筛选无法做到全面覆盖。量化系统能在几分钟内完成全市场扫描和多维度计算，确保不会遗漏任何一个潜在的机会。
可回测性。所有筛选规则都是明确的、可量化的。这使得策略可以在漫长的历史数据上进行严格的回测与验证，从而评估其在不同市场环境下的表现，并持续优化参数。

此阶段的目标是**“宁可错杀，不可放过”**。它会筛选出一个在技术和资金层面看起来“很美”的股票池。但我们清楚，美丽的外表下可能隐藏着陷阱。

1.3 AI精选-探寻“神”

策略的第二阶段，我们致力于探寻交易目标内在的“神韵”。这里的“神”，指的是驱动股价上涨的真实催化剂和市场叙事。一个纯粹的技术信号可能是脆弱的，但一个被强劲基本面或行业逻辑所支撑的信号，其生命力会顽强得多。

AI大模型，特别是结合了**检索增强生成（RAG）**技术的模型，为此提供了强大的工具。

实时信息整合。RAG架构允许AI在回答问题前，先从外部知识库（如实时新闻、公司公告、券商研报）中检索相关信息。这意味着AI的分析是基于最新的市场动态，而非其固有的、可能已经过时的训练数据。
深度语义理解。AI能够理解文本的深层含义。它能区分“战略合作”的含金量，判断“业绩预告”是超预期还是不及预期，并从一篇行业报告中提炼出关键的供需变化。
逻辑验证与风险识别。AI的核心任务是回答“为什么”。为什么这只股票在尾盘被资金拉升？通过检索分析，它可能会发现“公司昨晚发布了超预期的产品”或“其所在行业刚刚出台了重大利好政策”。同时，它也能发现潜在的风险，如“大股东即将减持”或“公司收到了监管问询函”。这些信息对于纯量化模型来说，几乎是不可见的。

此阶段的目标是**“去伪存真”**。它像一位经验丰富的投研专家，对量化模型提交的候选名单进行逐一“尽职调查”，剔除那些缺乏内在逻辑支撑的“伪信号”，留下形神兼备的优质目标。

1.4 最终目标

本策略的最终目标非常明确，即在每个T日收盘后，生成一份面向T+1日的、具备高确定性的短线交易计划。这里的“高确定性”并非指100%的成功率，而是在概率上，我们选择的交易标的，其上涨的驱动因素是多维度、相互验证的。它既符合数据统计上的强势规律，也契合当前市场的核心叙事逻辑。我们追求的，正是这种数据与叙事共振所带来的Alpha。

🌀 二、策略架构与执行流程

一个稳健的策略不仅需要清晰的思想，更需要严谨的工程化实现。本策略的执行流程被设计成一个模块化的数据处理管道，确保每一步都清晰、可控、可验证。

2.1 整体架构概览

策略的整体数据流可以被看作一个逐步收敛的漏斗模型。它从全市场数千只股票开始，通过一系列精密的筛选和验证，最终聚焦于少数几只核心标的。

我们可以使用Mermaid流程图来清晰地展示这一过程。

这个流程确保了策略的每一步输出都是下一步的精确输入，形成了一个逻辑闭环。

2.2 数据输入与预处理模块

策略的起点是接收外部输入并进行初始化处理。

2.2.1 动态持仓目标厘定

短线交易的资金管理至关重要。不同的资金体量，其风险承受能力和对流动性的要求截然不同。因此，策略的第一步是根据输入的总资本Capital，动态确定一个合理的目标持仓数量N_target。

设计原则。小资金追求弹性，应集中火力。大资金注重风险分散和流动性，应适度分散。
实现规则。这通常通过一个简单的分档规则实现，如下表所示。

资金规模 (Capital)	目标持仓数 (N_target)	核心考量
< 20万元	1 - 2 只	集中优势兵力，追求最大化弹性
20 - 50万元	2 - 3 只	兼顾弹性与初步的风险分散
50 - 100万元	3 - 4 只	进一步分散非系统性风险
> 100万元	4 - 6 只	优先考虑流动性与冲击成本

这个步骤的输出N_target将作为后续流程选择最终标的数量的依据。

2.2.2 AI驱动的概念空间扩展

市场的热点概念是动态演变的。用户输入一个宽泛的概念，如“人工智能”，可能无法精确捕捉到当前市场交易的核心。例如，在某个阶段，市场可能正在热炒“AI+医疗”，而在另一个阶段，则可能聚焦于“AI算力租赁”。

为了让策略更贴近市场脉搏，我们引入AI进行概念空间的动态扩展。

技术实现。利用RAG技术，向AI大模型提出一个类似这样的请求，“基于最近一周的市场新闻和券商研报，请列出与‘人工智能’相关的、当前热度最高的5个细分主题或概念。”
价值体现。AI会返回一个更具体、更具时效性的概念列表，如["Kimi概念", "Sora概念", "AI算力", "AI语料"]。使用这个扩展后的概念列表进行后续筛选，能确保我们的选股范围从一开始就聚焦在市场的“主战场”。

这一步将静态的概念输入，转化为了一个动态、智能的搜索空间。

2.3 量化筛选引擎

这是策略的“海选”阶段，目标是从全市场中筛选出符合基本交易要求和强势技术特征的股票。

2.3.1 基础池构建

在进行信号筛选之前，必须先清理掉那些不适合进行短线交易的“坏苹果”，并确保候选者具备足够的流动性。

风险过滤。这是交易的底线。
- 剔除ST、*ST股票。
- 剔除上市不足60个交易日的新股（波动性不可控）。
- 剔除当日停牌的股票。
流动性过滤。这是确保交易能够顺利执行的前提。
- 成交额要求。例如，要求当日成交额不低于1亿元。
- 换手率要求。例如，要求当日自由流通换手率不低于1%。
- 资金容量约束。对于大资金，还需增加一条规则，即单只股票的计划买入金额，不应超过其当日成交额的一个很小的比例（如5%），以避免对股价造成过大的冲击。

通过这一层过滤，我们得到了一个干净、可交易的“基础股票池”。

2.3.2 信号过滤层

在基础池内，我们进一步筛选出那些在T日当天表现出强烈上涨欲望的股票。这是一个多维度、多条件的组合过滤过程。

过滤维度	核心逻辑	具体筛选条件（示例）
价格行为	寻找已经启动，但尚未过度发散的标的	当日涨跌幅 `pct_chg_d1` 介于 (0%, 7%) 之间；当日振幅 `amplitude_d1` 小于 15%。
量能与换手	确认上涨行为得到了成交量的支持	当日量比 `volume_ratio` > 1.5；当日换手率 `turnover_rate_ff_d1` > 3%。
尾盘行为	捕捉收盘前资金的“抢筹”动作	尾盘30分钟收益率 `tail_return_30m` > 0.5%；尾盘成交量占比 `tail_volume_ratio_30m` > 20%；尾盘价格位置 `tail_price_position_30m` ≥ 0.7。
资金流向	验证是否有主力资金在积极参与	主力资金净流入 `net_inflow_main` > 0；主力净流入占比 `net_inflow_main_ratio` ≥ 5%。

这一系列严格的过滤条件，确保了进入下一轮评分环节的股票，都是当天市场上表现最活跃、技术形态最健康的“种子选手”。

2.4 综合评分模块

“海选”之后是“精选”。我们需要一个量化评分体系，对所有“种子选手”进行打分和排名，选出其中的佼佼者。

2.4.1 评分体系设计原则

一个好的评分体系必须遵循几个基本原则。

标准化。所有参与评分的因子，其原始单位和数值范围各不相同。必须将它们进行标准化处理（如Z-score或百分位排名），转换到同一尺度下，才能进行有意义的加权求和。
正负向分离。评分体系应包含两类因子。一类是正向因子，其数值越大，得分越高（如尾盘收益率）。另一类是负向因子（或称风险惩罚项），其数值越大，得分越低（如近期波动率）。
权重分配。应根据因子对未来短期股价的预测能力（通常通过历史回测来验证），为每个因子分配一个合理的权重。

2.4.2 量化得分计算 (`QuantitativeScore`)

QuantitativeScore是完全基于结构化数据的客观评分。其计算过程如下。

因子选择。我们选择一系列被证明在短线预测中有效的因子，并明确其作用方向和权重。

维度	作用方向	建议权重
尾盘动量	正向	0.15
尾盘量能	正向	0.12
尾盘强度	正向	0.10
主力动向	正向	0.10
量能活跃	正向	0.10
换手活跃	正向	0.08
涨幅	正向	0.08
技术信号	正向	0.05
其他资金	正向	0.08
波动风险	负向	-0.06
回撤风险	负向	-0.06
估值风险	负向	-0.02

标准化处理。对候选池中的所有股票，计算每个因子的Z-score。
z = (x_i - mean(x)) / std(x)
其中 x_i 是某股票的因子值，mean(x) 和 std(x) 是当前候选池中所有股票该因子值的均值和标准差。
加权求和。将每个因子的Z-score乘以其对应的权重，然后求和，得到该股票的QuantitativeScore。
QuantitativeScore = Σ (z_score_i * Weight_i)

这个分数客观地反映了一只股票在当前市场环境和候选池中的相对技术优势。

2.5 AI验证与决策增强模块

这是策略区别于传统量化模型的关键所在，也是策略的“大脑”。它负责对量化评分最高的候选股进行深度验证。

2.5.1 AI催化剂分析 (`AIScore`)

对于量化评分排名前列的股票（例如，排名前 N_target * 2 的股票），我们启动AI分析模块。

信息检索。AI通过RAG，实时检索与目标公司相关的、过去48小时内的所有公开信息，包括但不限于。
- 公司公告（业绩预告、合同订单、投资并购等）。
- 主流财经媒体的新闻报道。
- 各大券商发布的研究报告。
- 行业监管部门发布的政策文件。
- （可选）投资者社区、社交媒体上的高热度讨论。
信息提炼与评分。AI对检索到的信息进行阅读、理解和总结，并输出一个结构化的JSON对象。
- catalyst_summary。用一两句话总结出最核心的上涨催化剂。
- catalyst_score。给出一个0-10分的催化剂强度评分。这个评分并非主观臆断，而是基于一个预设的评分标准（Rubric）。例如，“发布颠覆性新产品”可能对应9-10分，而“常规经营动态”可能只对应1-2分。
- risk_tags。识别并标记出任何潜在的风险点，如["监管问询", "大股东减持计划"]。
风险一票否决。这是一个硬性规则。如果AI分析返回的risk_tags列表非空，无论该股票的量化评分有多高，都将直接被剔除出最终的候选名单。这是策略风险控制的核心防线。

2.5.2 最终得分合成 (`FinalScore`)

对于通过了AI风险排查的股票，我们将它们的量化得分和AI催化剂得分进行加权合成，得到最终的决策依据FinalScore。

合成公式。
FinalScore = (QuantitativeScore / 10) * 0.7 + AIScore.catalyst_score * 0.3
设计考量。
- 量化为基。70%的权重给予QuantitativeScore，这确保了我们的选择始终建立在坚实的技术和资金面基础之上。我们不选择那些只有“故事”但技术形态走坏的股票。
- AI加持。30%的权重给予AIScore，这使得具备真实、强劲催化剂的股票能够脱颖而出。它解决了量化模型无法区分“信号真伪”的痛点。
- 尺度对齐。QuantitativeScore的原始得分范围较大，需要先进行尺度压缩（如除以10），使其与AIScore的0-10分范围相匹配，才能进行有意义的加权。

2.6 交易计划生成与输出

策略管道的最后一环，是将复杂的分析结果转化为一份清晰、可执行的交易计划。

最终排序。根据FinalScore对所有候选股进行降序排列。
标的选择。选取排名最高的N_target只股票。如果通过所有筛选和验证的股票数量少于N_target，则“宁缺毋滥”，只选择现有的，剩余资金留作现金。
仓位分配。根据FinalScore的大小，对选中的股票进行加权分配仓位。
- 计算选中股票的FinalScore总和TotalScore。
- 每只股票的权重 Weight = FinalScore / TotalScore。
- （可选）对权重进行微调，以满足一些额外的风控约束，如单只股票仓位不超过总资金的30%。
生成报告。最后，系统会自动生成一份结构化的交易计划报告，其内容通常包括。

栏目	内容描述
证券代码/简称	交易标的的基本信息
综合得分	最终的`FinalScore`，直观反映推荐强度
建议权重	基于得分计算出的资金分配比例
预计投入资金	`Capital * Weight`
建议股数	根据T日收盘价计算出的、取整到100的股数
推荐建议 (AI生成)	AI生成的`catalyst_summary`，用自然语言解释核心上涨逻辑

这份报告就是策略在T日收盘后的最终交付物，为T+1日的交易提供了全部必要信息。

为了更直观地展示策略的最终交付物，我们以一个具体的、虚构的场景为例。这个示例将演示当所有数据处理和分析流程执行完毕后，系统输出的T+1日交易计划的具体形态。

场景设定

输入资本 (Capital)：300,000 元
目标概念 (Target Concept)：人工智能
T日日期：2024年5月15日（收盘后）

根据上述输入，策略首先确定目标持仓数N_target为3。随后，经过AI概念扩展、量化筛选、综合评分与AI验证等一系列流程，系统最终生成如下的交易计划表。

T+1日交易计划表示例 (2024年5月16日)

序号	ticker	证券简称	命中概念示例	当日涨跌幅	量比	换手率	尾盘30m收益	尾盘量占比	尾盘价位	主力净流入占比 net_inflow_main_ratio	综合得分 Score_final	建议权重	假设收盘价 raw_close(元)	建议股数	预计投入资金(元)	推荐建议（因子 + 大模型）
1	002230	科大讯飞	人工智能, 语音识别	+4.0%	2.0	6.0%	+1.2%	0.27	0.90	0.11	1.00	0.40	55.0	2,000	110,000	近期多篇新闻聚焦其大模型与教育应用落地，政策与舆情整体偏正面，属本轮 AI 概念核心标的之一。尾盘放量拉升且主力净流入显著，短线情绪较强，适合中等偏上仓位参与，但不宜在次日大幅高开时盲目追价。
2	000977	浪潮信息	人工智能, 服务器	+3.2%	1.8	5.5%	+1.0%	0.24	0.86	0.09	0.86	0.35	42.0	2,400	100,800	研报与新闻持续强调其在 AI 服务器和算力基础设施的核心地位，订单与行业景气度支撑较强。尾盘资金介入积极但不极端，适合作为本轮 AI 题材的弹性品种，建议中等仓位，注意随行业整体波动控制止盈止损。
3	603019	中科曙光	人工智能, 算力中心	+2.5%	1.6	4.8%	+0.9%	0.23	0.82	0.08	0.76	0.25	38.0	1,900	72,200	最新公告与新闻更多围绕数据中心和政企云项目，AI 概念属性偏“基础设施支撑”，主题纯度中等偏上。尾盘资金表现良好但强度略逊于前两只，适合作为组合中相对稳健的 AI 配置标的，建议适中或偏轻仓，遇到高开宜谨慎追高。

示例解读

多维度决策。表格清晰地展示了最终入选标的并非仅依赖单一维度。例如，“智能语音A”不仅量化得分高，其AI分析出的“新模型发布”构成了强有力的事件驱动，使其综合得分最高。
量化权重分配。综合得分FinalScore直接决定了资金的分配权重。得分最高的“智能语音A”获得了40%的配置，体现了将主要火力集中于确定性最高机会的原则。
可执行性。报告直接给出了“建议股数”，这是根据预计投入资金和T日收盘价计算得出的、已向下取整至100的整数倍。交易员在次日可直接参考此数值进行下单操作，极大提升了执行效率。
逻辑透明化。“推荐建议”一栏用自然语言解释了每只股票入选的核心逻辑，即AI找到的“神”。这使得交易决策不再是一个黑箱，交易员能够理解每一笔交易背后的原因，增强了持仓的信心和对策略的信任。

这个示例完整地体现了策略从数据输入到最终生成一份结构化、可量化、可解释、可执行的交易计划的全过程。它不仅是一个推荐列表，更是一份浓缩了数据洞察与逻辑推理的作战地图。

🌀 三、策略的实施与注意事项

一个策略从设计到实盘，中间还有很长的路要走。理论的完美不代表实践的成功。

3.1 交易执行纪律

策略生成了计划，但执行才是决定成败的关键。必须建立一套铁的纪律。

买入时机。短线交易对入场点非常敏感。通常不建议在集合竞价或开盘瞬间就冲动买入。开盘后的15-30分钟，待市场情绪初步稳定后，是较为理想的介入窗口。
价格控制。如果目标股票在T+1日开盘时就大幅高开（例如，超过5%），这通常意味着信号的性价比已经大幅降低，追高风险剧增。此时应果断放弃或大幅降低买入仓位。
止损。这是短线交易的生命线。必须为每笔交易设置一个硬性的止损位（例如，-7%）。一旦股价触及，必须无条件执行，绝不抱有任何幻想。
止盈。短线交易追求的是复利和资金效率，而非抓住每一段涨幅。设置一个合理的止盈目标（例如，+15%），达到后即可分批或全部了结，将利润兑现。
时间止损。如果一只股票在买入后，经过一段预设的时间（例如，5个交易日）仍未达到止盈或止损位，表现不温不火，也应主动卖出。这说明其上涨动能可能已经衰竭，资金应被重新部署到新的机会上。

3.2 模型的迭代与优化

市场是不断进化的，策略也必须随之进化。

权重优化。评分模型中的因子权重并非一成不变。应定期（如每季度或每半年）通过对最新市场数据的回测，来重新校准各因子的权重，以适应变化的市场风格。
因子库扩充。不断研究和引入新的有效因子（Alpha Factor）是保持策略生命力的关键。例如，可以引入基于分析师预期的因子、基于产业链上下游关系的因子等。
AI模型微调。AI的Prompt和评分标准也需要持续优化。通过不断复盘AI的分析结果与市场实际走势的匹配度，可以逐步提升AI判断的准确性。

3.3 风险管理

除了个股层面的止损，还需要考虑系统性风险。

仓位控制。策略计算出的仓位是基于特定市场环境的。当侦测到整个市场处于高风险区域时（例如，主要指数跌破重要支撑位），应在策略层面引入一个全局的风险系数，对所有交易计划的仓位进行等比例缩减。
分散化。即使在同一概念板块内，也应尽量避免将所有仓位集中在业务模式、产品结构高度同质化的几家公司上，以防范细分领域的“黑天鹅”事件。