标题(Title)

在这里插入图片描述

  • Identifying control factors of hydrological behavior through catchment classification in mainland China

  • 通过中国陆地流域分类识别水文行为控制因素

摘要(Abstract)

  • Catchment classification based on hydrological similarity helps to understand the control factors of hydrological behavior. However, the relationship between hydrological behavior and its influencing factors has been unclear in mainland China because long-term and widely-distributed flow data is unavailable. Thus, this study intends to identify control factors of hydrological behavior in China’s basins by using classification. Gauged basins are clustered into several classes using the fuzzy c-means method based on flow signatures, which quantify catchment hydrological behavior. The classification and regression tree is employed to learn from cluster results and then obtain classes of basins without observed flow. Correlation methods are used to analyze the influence of basin signatures on flow signatures, while the difference significance test is applied to the hydrological behavior diversity between clusters from classification and regression tree. Results show that China’s basins are divided into five clusters, with low flow signatures more distinguishing classes than high flow signatures. It confirms that climate factors dominate hydrological behavior. However, soil is also an important control factor found in this study, which is rare in others. These findings help to understand hydrological behavior in China and reveal its control factors.

  • 基于水文相似性的流域分类有助于理解水文行为的控制因素。然而,由于缺乏长期且广泛分布的流量数据,中国陆地流域的水文行为与其影响因素之间的关系尚未明确。因此,本研究旨在通过分类方法识别中国流域水文行为的控制因素。研究基于量化流域水文行为的流量特征,采用模糊 C 均值聚类(FCM)方法将有观测数据的流域划分为若干类别;利用分类回归树(CART)从聚类结果中学习规律,进而获得无观测流量数据流域的类别;通过相关性分析方法探究流域特征对流量特征的影响,并采用差异显著性检验分析分类回归树聚类结果中不同类别间的水文行为差异。结果表明,中国流域可划分为 5 个类别,其中低流量特征的类别区分能力优于高流量特征;气候因素主导水文行为,但本研究发现土壤也是重要控制因素,这在以往研究中较为罕见。这些发现有助于理解中国流域的水文行为并揭示其控制因素。

该篇文章的笔记

1. 该篇文章的研究目的

  • 填补中国流域分类研究空白:以往中国流域分类多依赖径流深度、地形等有限指标,未能全面反映流量大小、频率、持续时间等水文行为特征,且缺乏针对全国尺度的综合流域分类研究,需构建更全面的分类体系。

  • 揭示水文行为与影响因素的关联:中国流域地形、气候差异显著(从寒冷干旱高原到温暖湿润平原),但因缺乏长期广泛的流量观测数据,水文行为与流域特征(气候、土壤、地形等)的关系尚不明确,需通过分类方法精准识别控制因素。

  • 解决无资料流域的分类难题:现有分类方法多局限于有观测数据的流域,难以推广至无资料区域,需建立从 “有资料流域” 到 “无资料流域” 的分类迁移方法。

  • 明确分类核心科学问题:一是中国流域应如何基于水文行为进行合理分类;二是综合考虑流域多维度特征时,水文行为的关键控制因素是什么。

2. 该篇文章的研究方法

2.1 数据基础

  • 流域特征数据(BS):来源于中国流域属性与气象数据集(CCAM),涵盖 1990-2020 年流域尺度气象时间序列及地质、土地覆盖、地形、土壤等静态特征,共 4911 个流域(覆盖中国全域,除西北部分区域及海南、台湾岛),筛选后最终选取 123 个原始特征(表 1 / 表 7 / 表 13)。

  • 流量特征数据(FS):基于全球河段洪水再分析数据集(GRFR)计算获得,该数据集提供 1980-2019 年 3 小时尺度全球河流水量数据,经验证与全球 14000 余个观测站日数据一致性良好。选取 16 个流量特征,涵盖流量大小、频率、持续时间、时序、变化率及流域响应 6 个维度(表 2 / 表 8 / 表 14)。

  • 样本筛选:选取 633 个源头流域(不受上游人类活动干扰)作为聚类样本,确保数据代表性。

2.2 流域分类方法(三种核心方法)

(1)基于流域特征的模糊 C 均值聚类(BS-FCM)

在这里插入图片描述
Figure A1:Silhouette coefficient under different numbers of clusters. The selected number of clusters is marked in red because of the largest silhouette coefficient. → 图 A1:不同聚类数下的轮廓系数。红色标记为选定的聚类数(轮廓系数最大)。

  • 预处理:对高维流域特征(123 个)进行主成分分析(PCA)降维,保留特征值大于 1 的 23 个主成分,累积贡献率达 86%,缓解高维数据聚类偏差。

  • 聚类参数:通过轮廓系数确定最优聚类数为 5(图 A1 / 图 A5);模糊因子采用 Schwammle 和 Jensen(2010)公式计算,确保聚类模糊性合理。
    在这里插入图片描述
    Figure 2:Cumulative frequency curve of maximum membership coefficient (MC) in (a) basin signature (BS) division and (b) flow signature (FS) division under 50 runs of fuzzy c-means (FCM) clustering. → 图 2:50 次模糊 C 均值(FCM)聚类下,(a)流域特征(BS)划分和(b)流量特征(FS)划分中最大隶属系数(MC)的累积频率曲线。

  • 稳定性验证:重复聚类 50 次,多数流域的最大隶属系数(MC)高于 0.8(图 2 / 图 12),证明聚类结果稳定。

(2)基于流量特征的模糊 C 均值聚类(FS-FCM)
  • 预处理:将 16 个流量特征标准化至 [0,1] 区间,减少极端值对聚类的影响。

  • 核心逻辑:流量特征直接量化水文行为,以此为基础的聚类结果可作为 “水文行为真实类别” 的基准,为后续无资料流域分类提供训练目标。

(3)基于分类回归树的无资料流域推广(CART)

在这里插入图片描述
Figure 3:The structure of classification and regression tree (CART). Division by CART with BS as input features and class results from the FS division as the target. The letters following the cluster number represent subclusters within each cluster. Nomenclature abbreviations: pre_mean: mean daily precipitation; bdticm: depth to bedrock; gst_mean: mean daily ground surface temperature; cecsol_sl1: cation exchange capacity at soil layer 1; orcdrc_sl7: organic carbon content at soil layer 7; lat: mean latitude; high_prec_freq: frequency of high-precipitation days (≥ 5 times mean daily precipitation). → 图 3:分类回归树(CART)的结构。以流域特征(BS)为输入特征,流量特征(FS)划分结果为目标进行分类。聚类编号后的字母表示各类别内的子聚类。术语缩写:pre_mean = 日平均降水量;bdticm = 基岩深度;gst_mean = 日平均地表温度;cecsol_sl1=1 层土壤阳离子交换量;orcdrc_sl7=7 层土壤有机碳含量;lat = 平均纬度;high_prec_freq = 强降水日频率(≥日平均降水量的 5 倍)。

  • 数据预处理:剔除流域特征中 Pearson 或 Spearman 相关系数大于 0.9 的变量,缓解多重共线性;采用 10 折交叉验证确定剪枝参数(复杂度参数 = 0.0095),设置平衡类权重以缓解标签不平衡。

  • 模型训练:以流域特征(BS)为输入,流量特征聚类(FS-FCM)结果为目标,训练 CART 模型,生成明确的分类规则(图 3 / 图 13),实现无资料流域的类别推断。

2.3 控制因素分析与差异检验

在这里插入图片描述
Figure 10:Games-Howell pairwise comparison test to show the hydrological behaviors differences of each class. The dark blue shade (light blue shade) suggests a statistical difference based on the 0.05 (0.1) significance level. Each panel shows Games-Howell p-values for one FS of five basin classes. → 图 10:Games-Howell 成对比较检验显示各类别水文行为差异。深蓝色阴影(浅蓝色阴影)表示基于 0.05(0.1)显著性水平的统计差异。每个子图显示 5 个流域类别中某一流量特征(FS)的 Games-Howell 检验 p 值。

  • 相关性分析:采用 Pearson(线性关系)、Spearman(单调非线性关系)、Kendall(单调非线性关系)三种偏相关系数,分析流域特征与流量特征的关联;通过 4 种 p 值校正方法(Bonferroni、Holm、Benjamin/Hochberg FDR、Benjamin/Yekutieli FDR)验证结果稳健性。

  • 控制因素判定:在每个类别中,将通过显著性检验(p<0.05)且相关系数绝对值最大的流域特征定为该流量特征的主导因素;综合数量占比和影响强度,确定流域水文行为的核心控制因素。

  • 差异显著性检验:采用 Games-Howell 检验(适用于样本量和方差不等的多重比较),分析不同类别间流量特征的差异显著性(图 10 / 图 20)。

2.4 研究流程总览

![图 1 本研究的流程示意图](Figure 1 对应示意)
Figure 1:A schematic diagram of this study. Abbreviations: CCAM: China Catchment Attributes and Meteorology; GRFR: Global Reach-Level Flood Reanalysis; CART: classification and regression tree; FCM: fuzzy c-means. → 图 1:本研究的流程示意图。缩写:CCAM = 中国流域属性与气象数据集;GRFR = 全球河段尺度洪水再分析数据集;CART = 分类回归树;FCM = 模糊 C 均值聚类

如图 1 所示,研究整体流程为:①数据准备(从 CCAM 提取流域特征、从 GRFR 计算流量特征);②三类流域分类(BS-FCM、FS-FCM、CART);③控制因素分析(三种偏相关分析);④类别差异检验(Games-Howell 检验),最终揭示流域分类结果及水文行为控制因素。

3. 该篇文章的研究内容

3.1 流域分类结果

(1)聚类数量与稳定性

通过轮廓系数分析,确定最优聚类数为 5(图 A1 / 图 A5)。重复 50 次 FCM 聚类后,BS-FCM 和 FS-FCM 中多数流域的最大隶属系数(MC)集中在 0.8-1.0 区间(图 2 / 图 12),其中 BS-FCM 中 80% 以上流域的 MC≥0.8,FS-FCM 中该比例达 79.1%(表 3 / 表 9 / 表 15),证明 5 类划分具有高稳定性。

(2)三类分类方法的结果对比

在这里插入图片描述
Figure 5:Basin distribution from CCAM, no political boundaries involved. The results of the three class division methods are: (a) BS division, (b) FS division, and © CART division. It should be noted that only classes (b) and © have a corresponding relationship. → 图 5:基于 CCAM 的流域分布(不涉及政治边界)。三种分类方法的结果:(a)流域特征(BS)划分;(b)流量特征(FS)划分;(c)分类回归树(CART)划分。注:仅(b)和(c)的类别存在对应关系。

  • BS-FCM(图 5a / 图 15a):流域空间分布呈现明显的地理连贯性,反映气候因素的主导作用(气候因素空间异质性低于地形、土壤等因素)。

  • FS-FCM(图 5b / 图 15b):空间分布相对分散,大致以纬度为界分为南、北两组(南方 2 类、北方 3 类),其类别与 BS-FCM 的第 3 类高度对应。

  • CART(图 5c / 图 15c):继承了 FS-FCM 的核心特征(以流量特征为目标训练),同时呈现类似 BS-FCM 的地理连贯性,可推广至全部 4911 个流域,各类别数量分别为:0 类 762 个、1 类 220 个、2 类 1486 个、3 类 526 个、4 类 1917 个(表 5 / 表 11 / 表 17)。

(3)CART 分类规则与能量 - 水分限制划分

![图 3 分类回归树(CART)的结构](Figure 3 对应示意) Figure 4:The distribution of aridity index after grouping all the basins by mean daily precipitation with a threshold of 2.454 mm/d. → 图 4:以日平均降水量 2.454 mm/d 为阈值对所有流域分组后,干旱指数的分布情况。

CART 的第一层分裂变量为日平均降水量(阈值 2.454 mm/d),对应干旱指数阈值 1.0(图 4 / 图 14),将流域分为能量限制型(干旱指数 <1)和水分限制型(干旱指数> 1),与以往研究(Kuentz et al., 2017)一致。后续分裂变量以土壤特征为主(如土层 1 阳离子交换量、土层 7 有机碳含量),辅以纬度、日平均地表温度等,证明气候和土壤是分类的核心依据(图 3 / 图 13)。

3.2 水文行为控制因素分析

在这里插入图片描述
Figure 6:The Pearson partial correlation coefficients between FS and BS. Only partial correlation coefficients that passed the significance test are shown. FS on the vertical axis are grouped by classes. The detailed information on nomenclature abbreviations is in Table 1. → 图 6:流量特征(FS)与流域特征(BS)的 Pearson 偏相关系数。仅显示通过显著性检验的偏相关系数。纵轴流量特征按类别分组。术语缩写详情见表 1。在这里插入图片描述
Figure A2:The (a) Spearman and (b) Kendall partial correlation coefficients between FS and BS. Only partial correlation coefficients that passed the significance test are shown. FS on the vertical axis are grouped by classes. The detailed information on nomenclature abbreviations is in Table 1. → 图 A2:流量特征(FS)与流域特征(BS)的(a)Spearman 偏相关系数和(b)Kendall 偏相关系数。仅显示通过显著性检验的偏相关系数。纵轴流量特征按类别分组。术语缩写详情见表 1。

(1)相关性分析结果

三种偏相关系数结果一致性较高,验证了关联的稳健性(图 6 / 图 16、图 A2 / 图 A6)。主要规律包括:①不同类别中多个流量特征与相似流域特征关联(如 0 类中偏度、高流量 discharge 等均与冰雪覆盖面积相关);②同一土壤特征在不同深度对流量特征的影响相似(如有机碳含量对多个流量特征的作用);③几何参数对线性关系影响较小,但对非线性关系有一定贡献(如 2 类中形状因子与 Q5 相关)。

(2)控制因素的类型占比

在这里插入图片描述
Figure 7:Type-proportional distribution of FS correlation factors under two correlations: (a) Pearson, (b) Kendall. The left bar represents the proportion of the total absolute partial correlation coefficients for each class. The right bar represents the proportion of specific correlation feature counts. Only the feature with the largest absolute value is retained for the features of different soil depths. In the calculation of the right bar, the number of features that passed the significance test is summed and divided by the total number of features of that feature type (features of different soil depths are also regarded as one) to ensure the balance of the number of features. → 图 7:两种相关性下流量特征关联因素的类型占比分布:(a)Pearson 相关;(b)Kendall 相关。左柱表示各类别总绝对偏相关系数的占比;右柱表示特定关联特征数量的占比。不同深度的土壤特征仅保留绝对值最大的 1 个。右柱计算中,将通过显著性检验的特征数量求和后除以该类型特征的总数(不同深度土壤特征视为 1 类),以保证特征数量的平衡性。

无论是 Pearson(线性)还是 Kendall(非线性)相关性,气候和土壤特征在 “影响数量占比” 和 “影响强度占比” 中均超过 50%(图 7 / 图 17)。其中,气候因素主导流量的整体动态(如干旱指数控制实际蒸散发),土壤因素则对低流量特征(如基流指数 BFI)影响显著,二者共同构成中国流域水文行为的核心控制因素。

(3)各类别主导因素

![图 8 偏相关系数绝对值最大的流域特征及其对应的流量特征](Figure 8 对应示意)
Figure 8:The BS with the largest absolute value of the partial correlation coefficient and the corresponding FS. → 图 8:偏相关系数绝对值最大的流域特征(BS)及其对应的流量特征(FS)。

不同类别主导因素存在差异,但均以气候和土壤为主(表 6 / 表 12 / 表 18):①0 类:冰雪覆盖面积控制偏度、高流量持续时间等;②1 类:酸性火山岩面积影响平均比流量、基流指数等;③2 类:非冻结饱和土壤导热率控制偏度、变异系数等;④3 类:人口密度影响高流量频率变异系数;⑤4 类:水体面积影响平均比流量、径流系数等。

3.3 各类别流量特征差异

(1)流量特征分布

在这里插入图片描述
Figure 9:FS distribution for the selected basin in five clusters. → 图 9:5 个聚类中选定流域的流量特征(FS)分布。
633 个样本流域的流量特征在 5 类中呈现显著差异(图 9 / 图 19),且该分布特征可推广至全部 4911 个流域(线性 / 非线性主导因素的箱线图显示样本与整体分布一致,图 A3 / 图 A7、图 A4 / 图 A8)。

(2)差异显著性检验

16 个流量特征中,7 个描述流量大小的特征仅 2 个(CVQ、BFI)能有效区分多数类别;低流量特征(BFI、低流量频率 LowFr、低流量持续时间变异系数 LowDurVar)的类别区分能力显著优于高流量特征,这与土壤因素对低流量的强控制作用密切相关(低流量更依赖土壤蓄水能力)。

4. 该篇文章的最大创新点

  • 创新一:构建多维度综合流域分类体系。突破以往中国流域分类依赖单一指标(如径流深度、地形)的局限,整合气候、地质、土地覆盖、地形、土壤等多类型流域特征,结合流量特征直接量化水文行为,实现更科学的流域分类。

  • 创新二:明确土壤是中国流域水文行为的关键控制因素。以往全球多数研究仅强调气候的主导作用,本研究通过充分纳入不同深度、不同类型的土壤特征(如有机碳含量、饱和导水率等),发现土壤与气候共同控制水文行为,且对低流量特征的影响更显著,填补了相关研究空白。

  • 创新三:建立 “有资料 - 无资料” 流域分类迁移方法。通过 FS-FCM 获得 “水文行为真实类别”,再利用 CART 学习流域特征与该类别的映射关系,生成明确分类规则,成功将分类结果推广至全国 4911 个流域,解决了无资料流域分类的难题。

  • 创新四:揭示低流量特征的分类鉴别优势。首次明确在中国流域中,低流量特征(与土壤因素密切相关)比高流量特征(与气候因素密切相关)更能有效区分流域类别,为后续流域分类的特征选择提供重要参考。

5. 该篇文章给我们的启发

  • 启发一:流域分类需兼顾 “过程响应” 与 “多源特征”。流量特征直接反映水文行为(过程响应),而流域特征(气候、土壤等)是行为的驱动因素,二者结合才能实现兼具科学性和实用性的分类,避免单纯依赖地形或气候的片面性。

  • 启发二:土壤因素在水文研究中不可忽视。以往研究常因土壤数据获取难度大或特征选择不足而忽略其影响,本研究表明,充分考虑不同深度、不同属性的土壤特征,能更精准揭示水文行为机制,尤其对低流量模拟、干旱期水资源管理具有重要意义。

  • 启发三:低流量特征是流域分类与水资源管理的关键切入点。低流量特征更能反映流域的 “蓄水 - 释水” 能力,其分类鉴别优势提示我们,在水资源短缺、干旱频发的背景下,应加强低流量相关研究,为生态基流保障、干旱应对提供支撑。

  • 启发四:无资料流域研究可通过 “数据驱动 + 规则迁移” 实现突破。CART 模型将模糊聚类的结果转化为明确的 if-else 规则,既保留了数据驱动的准确性,又具备强可解释性,为无资料流域的水文模拟、参数估算提供了可行路径。

  • 启发五:未来流域分类可融合深度学习与过程机制。现有聚类方法依赖人工特征选择,深度学习(如深度聚类)能同时优化特征提取与聚类结果,结合水文过程模型(如地下水过程、土壤水分变化),可进一步提升分类的科学性和泛化能力。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐