【阅读文献笔记】Cascade Reservoir Outflow Simulation Based on Physics-Constrained Random Forest
准确的水库出库流量模拟对水资源管理至关重要。然而,传统基于机器学习的模拟方法未充分考虑水库运行的物理约束,可能导致负流量、水位超出水库自身限制等不切实际的问题。本研究利用 Sigmoid 函数将物理约束融入随机森林(RF)模型,构建了用于梯级水库出库流量模拟的物理约束随机森林模型(PC-RF)。采用基于水文年类型的分层抽样策略构建训练集和验证集,以决定系数(R²)和均方根误差(RMSE)作为评价指
标题(Title)
Cascade Reservoir Outflow Simulation Based on Physics-Constrained Random Forest
基于物理约束随机森林的梯级水库出库流量模拟
摘要(Abstract)
-
Accurate reservoir outflow simulation is crucial for water resource management. However, traditional machine learning-based simulation methods have not sufficiently considered the physical constraints of reservoir operation, which may lead to unrealistic issues such as negative outflows or water levels exceeding the reservoir’s own limitations. This study integrates physical constraints into the random forest (RF) model using the Sigmoid function, constructing a physics-constrained random forest model (PC-RF) for cascade reservoir outflow simulation. A stratified sampling strategy based on hydrological year types is used to create the training and validation datasets. The coefficient of determination (R²) and root mean square error (RMSE) are used to evaluate the model’s performance for medium- to long-term predictions of reservoir outflows on a 10-day time scale. Additionally, the mean decrease in impurity method is used to assess the importance of input features, thereby enhancing the model’s interpretability. The application to the Yalong River cascade reservoir indicates that (1) compared to traditional RF, the PC-RF achieved significant breakthroughs, with an increase of 37.13% in the R² and a decrease of 60.04% in the RMSE when simulating outflows from the Lianghekou Reservoir, with all reservoirs maintaining an R² above 0.95, with no instances of unrealistic outcomes; (2) PC-RF effectively integrated historical operational patterns with top three features being previous period outflow, current inflow, and previous period inflow, providing interpretable insights for operational decision-making. The PC-RF model demonstrates high accuracy and practical potential in cascade reservoir outflow simulation, providing valuable applications for cascade reservoir management and water resource optimization.
-
准确的水库出库流量模拟对水资源管理至关重要。然而,传统基于机器学习的模拟方法未充分考虑水库运行的物理约束,可能导致负流量、水位超出水库自身限制等不切实际的问题。本研究利用 Sigmoid 函数将物理约束融入随机森林(RF)模型,构建了用于梯级水库出库流量模拟的物理约束随机森林模型(PC-RF)。采用基于水文年类型的分层抽样策略构建训练集和验证集,以决定系数(R²)和均方根误差(RMSE)作为评价指标,评估模型在 10 日尺度水库出库流量中长期预测中的性能。此外,通过杂质平均减少量(MDI)方法评估输入特征的重要性,提升模型的可解释性。在雅砻江梯级水库的应用结果表明:(1)与传统 RF 相比,PC-RF 取得显著突破,模拟两河口水库出库流量时 R² 提升 37.13%、RMSE 降低 60.04%,所有水库的 R² 均保持在 0.95 以上,无任何不切实际的模拟结果;(2)PC-RF 有效融合了历史运行模式,其最重要的三个特征为前期出库流量、当期入库流量和前期入库流量,为运行决策提供了可解释的参考依据。PC-RF 模型在梯级水库出库流量模拟中展现出较高的准确性和实用潜力,为梯级水库管理和水资源优化提供了有价值的应用。
该篇文章的笔记
缩写表(Abbreviations):
| 英文缩写 | 英文全称 | 中文翻译 |
|---|---|---|
| ML | Machine learning | 机器学习 |
| RF | Random forest | 随机森林 |
| PC-RF | Physics-constrained RF | 物理约束随机森林 |
| RNN | Recurrent neural network | 循环神经网络 |
| LSTM | Long short-term memory | 长短期记忆网络 |
| BiLSTM | Bidirectional LSTM | 双向长短期记忆网络 |
| PC-BiLSTM | Physics-constrained BiLSTM | 物理约束双向长短期记忆网络 |
| R² | Coefficient of determination | 决定系数 |
| RMSE | Root mean square error | 均方根误差 |
| MDI | Mean decrease in impurity | 杂质平均减少量 |
| LHK | Lianghekou | 两河口 |
| JP1 | Jinping I | 锦屏一级 |
| ET | Ertan | 二滩 |
1. 该篇文章的研究目的
-
解决传统机器学习模型的核心缺陷:传统机器学习(如 RF、LSTM)用于水库出库流量模拟时,因缺乏对水库运行物理约束的考量,易产生负流量、水位超限等不符合实际的结果,限制了模型的可靠性。
-
优化数据划分策略:现有研究多采用时间连续性数据划分方法,难以覆盖丰水年、平水年、枯水年等不同水文条件下的水库调度模式,导致模型泛化能力不足。
-
填补 RF 与物理约束耦合的研究空白:随机森林是水库出库流量模拟的有效工具,但目前关于其与物理约束耦合的研究较少,需提升模型在复杂水文动态场景下的适应性。
-
兼顾模型准确性与可解释性:在提升模拟精度的同时,通过特征重要性分析,让模型结果更易被理解和应用于实际水库调度决策,为梯级水库管理和水资源优化提供技术支持。
2. 该篇文章的研究方法
2.1 模型构建:物理约束随机森林(PC-RF)
-
输入输出结构定义:以当期入库流量(Q_tin)、前期入库流量(Q_{t-1}in)、当期初始库容(V_{t-1})、前期出库流量(Q_{t-1}out)为输入变量,当期出库流量(Q_tout)为输出变量,构建模型映射关系(Q_t^out = f (Q_t^in, Q_{t-1}^in, V_{t-1}, Q_{t-1}^out))。
-
物理约束嵌入:通过 Sigmoid 函数将水量平衡约束、库容约束、出库流量约束刚性嵌入 RF 模型。其中,水量平衡约束考虑库容变化与出入库流量的关系;库容约束限定水库在不同时期(汛期、非汛期)的上下限库容;出库流量约束明确出库流量的合理范围。Sigmoid 函数通过计算调整系数(R_upper、R_lower),实现对超出约束范围的模拟结果的平滑调整,既保证约束满足,又避免梯度不连续问题。
-
参考模型设置:同步构建物理约束双向长短期记忆网络(PC-BiLSTM),并与无约束的 RF、BiLSTM 模型进行对比,共形成 4 个模型(RF、PC-RF、BiLSTM、PC-BiLSTM),以全面验证 PC-RF 的性能。
2.2 数据处理:基于水文年类型的分层抽样
-
水文年分类:根据水库入库流量百分位数,将水文年划分为丰水年(入库流量前 30%)、平水年(入库流量 30%-70%)、枯水年(入库流量后 30%)。
-
数据集划分:对丰、平、枯水年数据分别按 8:2 比例随机抽样,再合并形成总训练集和总验证集,确保训练集和验证集均包含各类水文年的充足数据,同时保持调度期内出入库数据的连续性。
2.3 模型评价与可解释性分析
-
评价指标:采用决定系数(R²)和均方根误差(RMSE)评估模型精度,R² 越接近 1、RMSE 越小,表明模型拟合效果越好。
-
可解释性分析:利用随机森林内置的 MDI 方法,通过量化各特征对模型预测精度的贡献(即杂质减少量),识别影响出库流量的关键特征。
2.4 建模框架总览
](https://i-blog.csdnimg.cn/direct/0d63e5f5613541ed9b635046e56c1f7f.png)
Figure 1:The modeling framework in this study → 图 1:本研究的建模框架
如图 1 所示,PC-RF 建模流程为:首先定义模型输入输出结构→基于水文年类型进行分层抽样划分数据→通过 Sigmoid 函数将物理约束嵌入 RF 模型→利用 R² 和 RMSE 评估模型性能,结合 MDI 方法进行特征重要性分析。
3. 该篇文章的研究内容
3.1 研究区域与数据基础


Table 1:The information on the three reservoirs in the Yalong River Basin → 表 1:雅砻江流域三个水库的相关信息
-
研究区域:选取雅砻江流域梯级水库为研究对象,该流域为长江八大支流之一,具有明显的干湿季,汛期为 6-10 月,枯水期为 11 月 - 次年 5 月,包含两河口(LHK,多年调节)、锦屏一级(JP1,年调节)、二滩(ET,季调节)三个核心水库。
-
数据收集:收集 1958-2021 年 10 日尺度的水库出入库流量、库容数据,以及水库静态特征参数(正常蓄水位、防洪水位、死水位及对应库容等,详见表 1)。其中部分水库早期出库数据基于设计阶段数据补充。
3.2 数据集抽样结果
](https://i-blog.csdnimg.cn/direct/536afd90919d465f8829d4ef799fcbea.png)
Figure 3:Results of dataset sampling based on inflow of LHK reservoir from 1958 to 2021 → 图 3:1958-2021 年两河口(LHK)水库基于入库流量的数据集抽样结果
以两河口水库为例,64 年数据被划分为丰水年 19 年、平水年 26 年、枯水年 19 年。如图 3 所示,丰水年入库流量主要集中在 700-1000 m³/s,平水年为 600-750 m³/s,枯水年为 450-600 m³/s,训练集(圆圈)和验证集(半圆)在时间轴上均匀分布,确保各类水文年数据充分覆盖。
3.3 模型性能对比分析

Figure 4:Outflow simulation results from RF and BiLSTM models for the LHK reservoir in validation periods → 图 4:验证期内随机森林(RF)和双向长短期记忆网络(BiLSTM)模型对两河口(LHK)水库的出库流量模拟结果
-
无约束模型性能:无约束 RF 模型的 R² 为 0.6940、RMSE 为 202.49 m³/s,无约束 BiLSTM 模型的 R² 为 0.6588、RMSE 为 213.85 m³/s,两者精度均较低,且未考虑物理约束可能产生不合理结果(如图 4 所示)。

Figure 5:Outflow simulation results from the PC-RF and PC-BiLSTM models in the LHK reservoir for (a) the entire time series, (b) flood season, and © dry season in validation periods → 图 5:验证期内物理约束随机森林(PC-RF)和物理约束双向长短期记忆网络(PC-BiLSTM)模型对两河口(LHK)水库的出库流量模拟结果:(a)全时间序列、(b)汛期、(c)枯水期 -
物理约束模型性能:PC-RF 模型表现最优,总 R² 达 0.9517、RMSE 为 80.91 m³/s,在枯水年(R²=0.9600、RMSE=64.65 m³/s)和丰水年(R²=0.9382、RMSE=99.57 m³/s)均保持高精度;而 PC-BiLSTM 模型精度显著不足,枯水年 R² 仅 0.5943,汛期 R²=0.6390、RMSE=259.76 m³/s(如图 5 所示)。

Figure 6:Reservoir storage results from the PC-RF and PC-BiLSTM models in the LHK reservoir based on water balance constraint → 图 6:基于水量平衡约束的物理约束随机森林(PC-RF)和物理约束双向长短期记忆网络(PC-BiLSTM)模型对两河口(LHK)水库的库容模拟结果 -
库容预测验证:基于水量平衡约束的库容预测结果显示,PC-RF 和 PC-BiLSTM 的 R² 均大于 0.9,因两河口水库库容大,出库流量误差对库容预测的影响较小,保证了库容预测的稳定性(如图 6 所示)。
3.4 PC-RF 在梯级水库的应用验证
](https://i-blog.csdnimg.cn/direct/64d4f7b05bf24dc3900790c47b75babf.png)
Figure 7:Outflow simulation results of PC-RF model for outflow simulation at three reservoirs: (a,b) LHK, (c,d) JP1, and (e,f) ET for the validation periods. Left panels show time series comparison between observed and simulated outflow; right panels show scatter plots with 1:1 line and relative error → 图 7:物理约束随机森林(PC-RF)模型对三个水库的出库流量模拟结果:(a,b)两河口(LHK)、(c,d)锦屏一级(JP1)、(e,f)二滩(ET)(验证期)。左图为实测与模拟出库流量的时间序列对比;右图为含 1:1 线的散点图及相对误差分布
将 PC-RF 应用于雅砻江三个梯级水库,验证期内所有水库的 R² 均超过 0.95,RMSE 分别为 80.91(LHK)、78.40(JP1)、93.99(ET)m³/s。相对误差(RE)分析显示,多数数据点误差集中在 ±10% 以内,仅在枯水期低流量等极端场景下存在少数大误差(最大 RE 达 434.42%),但高误差(±50% 以上)频率极低(0.77%-4.55%),整体误差可控(如图 7 所示)。
3.5 特征重要性分析
](https://i-blog.csdnimg.cn/direct/d545ffd73ebd4541b2a0b68515430348.png)
Figure 8:Feature importance analysis for PC-RF model during (a) flood season, (b) dry season, and © RF model without physical constraints → 图 8:物理约束随机森林(PC-RF)模型在(a)汛期、(b)枯水期及(c)无物理约束随机森林(RF)模型的特征重要性分析
通过 MDI 方法分析显示,PC-RF 模型在洪枯季的前三大核心特征一致:前期出库流量(汛期 18.32%、枯水期 19.81%)、当期入库流量(汛期 12.44%、枯水期 13%)、前期入库流量(汛期 11.68%、枯水期 11.38%)。此外,汛期 “距防洪库容的距离”(3.7%)、枯水期 “距正常蓄水位库容的距离”(5.34%)也是关键特征;而无约束 RF 模型存在特征依赖失衡,前期出库流量占比达 57.41%,过度依赖历史模式(如图 8 所示)。
4. 该篇文章的最大创新点
-
创新一:提出基于 Sigmoid 函数的物理约束嵌入方法。与传统损失函数 “软约束” 不同,Sigmoid 函数能确保模型输出 100% 满足物理约束,同时避免硬约束导致的梯度不连续问题,还可根据约束违反程度自适应调整约束强度,解决了传统模型的不切实际结果问题。
-
创新二:设计基于水文年类型的分层抽样策略。突破时间连续性数据划分的局限,确保训练集和验证集覆盖丰、平、枯各类水文年场景,既保持了调度期数据的连续性,又提升了模型在不同水文条件下的泛化能力。
-
创新三:实现模型准确性与可解释性的统一。通过 MDI 方法量化特征重要性,明确了影响水库出库流量的核心物理特征,揭示了模型的决策逻辑,使机器学习模型从 “黑箱” 变为可解释的决策工具,为实际调度提供明确参考。
5. 该篇文章给我们的启发
-
物理约束与机器学习的融合是水文模拟的重要方向。单纯依赖数据驱动的机器学习模型易脱离实际物理规律,而将水量平衡、库容限制等基础物理知识嵌入模型,能显著提升模拟的可靠性和实用性。
-
数据划分需贴合研究对象的核心特征。水库调度受水文年类型影响显著,因此数据划分应优先考虑水文特征差异,而非单纯遵循时间顺序,这一思路可推广至其他受周期性、阶段性因素影响的水文模型构建。
-
模型可解释性是工程应用的关键。对于水库调度等实际工程问题,仅追求高精度不够,需通过特征重要性分析等方法让模型结果 “可理解、可应用”,才能真正辅助决策。
-
极端场景的模型优化需重点关注。低流量、极端枯水年等稀有场景因数据不足导致模拟精度较低,未来可通过数据增强、迁移学习等方法补充此类场景数据,提升模型的全面适应性。
-
多约束融合可进一步拓展模型边界。当前模型主要考虑了水量、库容、出库流量约束,未来可融入生态流量、工程维护、应急调度等更多约束条件,使模型更贴合实际水库的复杂运行需求。
更多推荐



所有评论(0)