RegEM数据插值方法
因此,在对GPS时间序列进行分析之前,必须要进行数据预处理,其中一个非常重要的过程就是插值,通过对缺失数据插补以获得均匀采样的时间序列 (Griffiths and Ray, 2015)。对于缺失值,本文选用 Schneider 等(2001)提出的 RegEM数据插值法,RegEM法考虑站点坐标时间序列的物理背景以及各站之间的相关性,不依赖数据模型,也不引入先验信息,只依据数据自身特性进行插值,
由于GNSS观测时受到接收机故障或者环境因素的干扰会使得在数据解算中出现异常,导致获得的GNSS时间序列出现缺失。若缺失数据比例过大,则在时间域上对坐标序列建模时必然影响参数(尤其是测站速度)估计的精度;而在频率域上对其进行谱分析时,则会导致混频现象。因此,在对GPS时间序列进行分析之前,必须要进行数据预处理,其中一个非常重要的过程就是插值,通过对缺失数据插补以获得均匀采样的时间序列 (Griffiths and Ray, 2015)。本文使用气象学中广泛使用的方法调整最大似然法(Regularized EM algorithm, RegEM)用于插值缺失的数据。该方法最早由Schneider (2001)提出,该方法以岭回归方法实现回归正则化及参数估计,利用交叉检验实现给定精度的时空矩阵插值。
该算法的基本原理如下:假设X为n×p维的观测矩阵,n为观测历元,p为测站个数。数据矩阵X的待估均值和协方差矩阵分别为μ和σ。假定某一观测历元i所有的测站的坐标向量为Xi,历元i时刻pa个非缺失的测站坐标构成的向量为xa,而剩下的pm个缺失的测站坐标构成向量为xm。假设xa的均值为μa,xm的均值为μm。那么对于X中每一历元的观测值,缺失的坐标向量与非缺失的坐标向量可以用以下的线性回归模型描述:
![]()
式中的矩阵B为回归系数,残差e为均值为0,协方差矩阵C未知的随机变量。在EM算法的每一次迭代中,给定均值μ和协方差σ,通过条件最大似然估计计算X中每一行包含数据缺失的观测值的回归系数B和残差协方差阵C。然后采用以下的方法进行数据缺失的填补:
![]()
式中μa和μm分别为非缺失和缺失数据均值的估计值,B 为估计得到的回归系数。对缺失数据进行填补后,再计算新的μ和σ。上述过程需要进行数次的迭代,只到估计的缺失值的均值和协方差达到指定的终止条件为止。
我们选择其中一个测站,原始的时间序列通过三倍四分位法进行异常值剔除,然后移除线性项和周期项得到 GPS 残差时间序列。对于缺失值,本文选用 Schneider 等(2001)提出的 RegEM数据插值法,RegEM法考虑站点坐标时间序列的物理背景以及各站之间的相关性,不依赖数据模型,也不引入先验信息,只依据数据自身特性进行插值,图3为DANE测站的RegEM 插值效果图,红色实线为原始残差序列,绿色实线为RegEM插值结果。

DANE测站的垂直方向的GNSS时间序列处理:(a)GNSS数据粗差剔除和RegEM插值结果(绿色实线);(b)进行EMD降噪处理的时间序列(红色实线);(c)回加周期项和趋势项的GNSS时间序列
更多推荐
所有评论(0)