【论文阅读】 DreamWaQ: Learning Robust Quadrupedal Locomotion With Implicit Terrain Imagination via DRL
DreamWaQ框架,通过非对称actor-critic架构和隐式地形想象技术,使四足机器人仅依靠本体感知实现复杂地形下的稳健行走。
1.方法
DreamWaQ 采用不对称的 actor-critic 架构,核心在于隐式地形想象(Implicit Terrain Imagination)使机器人能够适应各种地形。策略网络接收时间部分观测作为输入,而价值网络接收完整状态。这种架构使策略网络在训练过程中探索所有可能的轨迹,从而提高其鲁棒性。

1.1.网络
1.1.1 策略网络
- 输入包括本体感知观测 o t \boldsymbol o_t ot、机身速度 v t \boldsymbol v_t vt 和潜在状态 z t \boldsymbol z_t zt。
- 输出对应期望的关节角度 a t \boldsymbol a_t at,通过PD控制器跟踪,其中 K p = 28 , k d = 0.7 K_p=28,k_d=0.7 Kp=28,kd=0.7。
1.1.2. 价值网络
- 输入包括本体感知观测 o t \boldsymbol o_t ot、机身速度 v t \boldsymbol v_t vt ,机身受到的干扰力 d t \boldsymbol d_t dt 和周围地形的高度 h t \boldsymbol h_t ht。
- 输出是状态价值的估计值。
1.1.3.上下文辅助估计器网络
上下文辅助估计器网络(CENet)通过共享编码器架构联合学习估计自身状态和环境的潜在表示。这种架构简化了网络,提高了估计的准确性。网络使用的是 β \beta β-VAE,包括:
- 编码器:将时间部分观测编码为机身速度 v t \boldsymbol v_t vt 和潜在状态 z t \boldsymbol z_t zt。
- 解码器:重建下一个观测 o t + 1 \boldsymbol o_{t+1} ot+1。

VAE模型:
1.2. CENet损失
CENet 用来优化的损失函数为:
L C E = L e s t + L V A E \mathcal L_{\mathrm {CE}} = \mathcal L_{\mathrm {est}} + \mathcal L_{\mathrm {VAE}} LCE=Lest+LVAE
L e s t \mathcal L_{\mathrm {est}} Lest 是机身线速度估计损失,用来计算估计的速度 v ~ t \tilde {\boldsymbol v}_t v~t 和真值 v t \boldsymbol v_t vt 之间的误差:
L e s t = M S E ( v ~ t , v t ) \mathcal L_{\mathrm {est}} = MSE(\tilde {\boldsymbol v}_t, \boldsymbol v_t) Lest=MSE(v~t,vt)
L V A E \mathcal L_{\mathrm {VAE}} LVAE 是 β \beta β-VAE 损失,包含下一步观测 o ~ t + 1 \tilde {\boldsymbol o}_{t+1} o~t+1 的重建损失和潜在空间 z t \boldsymbol z_t zt 分布的KL散度:
L V A E = M S E ( o ~ t + 1 , o t + 1 ) + β D K L ( q ( z t ∣ o t H ) ∥ p ( z t ) ) \mathcal L_{\mathrm {VAE}} = MSE(\tilde {\boldsymbol o}_{t+1}, \boldsymbol o_{t+1}) + \beta D_{KL}(q(\boldsymbol z_t ~\vert ~\boldsymbol o_t^H) ~\Vert ~p(\boldsymbol z_t)) LVAE=MSE(o~t+1,ot+1)+βDKL(q(zt ∣ otH) ∥ p(zt))
q ( z t ∣ o t H ) q(\boldsymbol z_t \vert \boldsymbol o_t^H) q(zt∣otH) 是给定 o t H \boldsymbol o_t^H otH 的 z t \boldsymbol z_t zt 后验分布, p ( z t ) p(\boldsymbol z_t) p(zt) 是 z t \boldsymbol z_t zt 的先验分布(定为标准正态分布)。KL散度用于正则化潜在空间,使其接近标准正态分布,这种正则化有助于生成新样本,并确保潜在空间的连续性和可解释性。
D K L = 1 2 ∑ ( μ 2 + σ 2 − log σ 2 − 1 ) D_{KL} = \frac{1}{2} \sum (\mu^2 + \sigma^2 -\log \sigma^2 - 1) DKL=21∑(μ2+σ2−logσ2−1)
1.3.自适应自举
论文中考虑估计器网络的自举在训练早期产生的大噪声可能影响策略的性能,就提出了自适应自举方法来调节训练过程中的自举概率。
根据m个环境的差异系数(CV),例如回报值的标准差相对于平均值的比值。当差异系数很小时自举,以使策略对不准确的估计更加稳健。反过来当agent学习得不够好时,就不再自举。自举概率计算公式为:
p b o o t = 1 − t a n h ( C V ( R ) ) p_{boot} = 1 - tanh (CV (\boldsymbol R)) pboot=1−tanh(CV(R))
t a n h tanh tanh 是双曲正切,用于平滑地将 C V ( R ) CV(R) CV(R) 的上限设为1。
1.4.奖励函数
除了常用的奖励函数,论文中引入了功率分布奖励,通过惩罚所有电机的功率的方差来减少电机过热。
1.5.课程
地形课程:包含平滑、粗糙、离散和楼梯地形。
速度课程:网格自适应课程,可以获取在低速运动时更好、更稳定的转弯,从而防止脚绊倒。
2.创新
- 提出一种新的通过非对称 actor-critic 架构的运动学习框架,以仅使用本体感觉隐式地想象地形属性。
- 提出一种情境辅助估计器网络来联合估计自身状态和环境。
3.实验
- 模拟环境
使用Isaac Gym模拟器进行训练,训练了1000次迭代,每次迭代有4096个代理进行领域随机化训练。训练过程中使用了近端策略优化(PPO)算法,并采用Adam优化器进行优化。- 学习曲线:DreamWaQ的学习曲线显示其性能优于其他比较方法,即使在没有外部感知的情况下,其表现也接近于可以直接访问周围地形高度图的“oracle”策略。
- 命令跟踪:在Gazebo中评估了机器人的命令跟踪性能。DreamWaQ的速度绝对跟踪误差(ATE)最小。
- 显式估计:在楼梯环境中比较了 CENet 和 EstimatorNet 的估计误差。CENet在正常行走和遇到楼梯绊倒时都能更准确地估计身体速度。
- 鲁棒性测试:通过对机器人施加随机推力来测试学习策略的鲁棒性。DreamWaQ能够承受的最大推力和存活率均高于其他方法。
- 现实世界实验
- 长距离行走:机器人成功地适应了不同的地形,包括湿滑的楼梯和泥泞的斜坡。
- 足端反应:在面对绊倒和滑倒等不确定性时,机器人能够立即调整其步态并稳定其姿态。
4.总结
DreamWaQ框架通过DRL使四足机器人仅靠本体感知在复杂地形稳健行走。其中,CENet网络可联合估计自身状态和环境上下文,提升策略鲁棒性。实验表明,该方法在模拟和现实环境中表现优异,具有良好的鲁棒性和适应性。
更多推荐



所有评论(0)