微分动态规划(Differential Dynamic Programming, DDP)

微分动态规划(Differential Dynamic Programming, DDP)变分法思路由贝尔曼最优性原理得到：V(X,t)=min⁡u∈Ω{ϕ[X(tf),tf]+∫t0tfL(x(t),u(t),t)dt}=min⁡u∈Ω{∫t0t0+dtL(x(τ),u(τ),τ)dτ+V(X+ΔX,t+dt)}\begin{aligned}V(X, t)&=\min ...

犹有傲霜枝

9274人浏览 · 2019-07-24 21:10:28

犹有傲霜枝 · 2019-07-24 21:10:28 发布

微分动态规划(Differential Dynamic Programming, DDP)

变分法思路

由贝尔曼最优性原理得到：
$\begin{aligned} V(X, t)&=\min _{u \in \Omega}\left\{\phi\left[X\left(t_{f}\right), t_{f}\right]+\int_{t_{0}}^{t_{f}} L(x(t), u(t), t) d t\right\}\\ &=\min _{u \in \Omega}\left\{\int_{t_{0}}^{t_{0}+d t} L(x(\tau), u(\tau), \tau) d \tau+V(X+\Delta X, t+d t)\right\} \end{aligned}$
离散化得：
$\begin{array}{l}{x_{k+1}=f\left(x_{k}, u_{k}\right)} \\ \\{V_{k}=\min _{u}\left[l\left(x_{k}，u_{k}\right)+V_{k+1}\left(x_{k+1}\right)\right]}\end{array}$
对 $k$ 时刻的值函数 $V (x, k)$ 做变分，令 $Q(δx,δu)=Vk(x+δx)−Vk(x)Q(\delta x,\delta u)=V_k(x+\delta x)-V_k(x)$ ，对 $Q$ 在标称轨迹 $x_k,u_k)$ 进行二阶泰勒展开：
$\begin{aligned} Q(\delta x, \delta u)&=V(x+\delta x)-V(x)\\ &=l\left(x_{k}+\delta x_{k}, u_{k}+\delta u_{k}\right)+V_{k+1}\left(x_{k+1}+\delta x_{k+1}\right)-\left(l\left(x_{k}, u_{k}\right)+V_{k+1}\left(x_{k+1}\right)\right)\\ &\approx \delta x_{k}^{T} l_{x_{k}}+\delta u_{k}^{T} l_{u_{k}}+\frac{1}{2}\left(\delta x_{k}^{T} l_{x x_{k}} \delta x_{k}+2 \delta x_{k}^{T} l_{x u_{k}} \delta u_{k}+\delta u_{k}^{T} l_{u u_{k}} \delta u_{k}\right)+\\&\qquad \qquad\qquad\qquad\quad\delta x_{k+1}^{T} V_{x_{k+1}}+\frac{1}{2} \delta x_{k+1}^{T} V_{x x_{k+1}} \delta x_{k+1} \end{aligned}$
又有 $x_{k+1}=f(x_k,u_k)$ ，二阶泰勒展开得到：
$\delta x_{k+1}=\delta f\left(x_{k}, u_{k}\right)=f_{x_{k}} \delta x_{k}+f_{u_{k}} \delta u_{k}+\frac{1}{2}\left(\delta x_{k}^{T} f_{x x_{k}} \delta x+2 \delta x_{k}^{T} f_{x u_{k}} \delta u_{k}+\delta u_{k}^{T} f_{u u_{k}} \delta u\right)$
将 $δxk+1\delta x_{k+1}$ 带入 $Q(δx,δu)Q(\delta x,\delta u)$ 中，得到：
$Q(\delta x,\delta u) \approx\frac{1}{2}\left[\begin{array}{c}{1} \\ {\delta x_k} \\ {\delta u_k}\end{array}\right]^T\left[\begin{array}{ccc}{0} & {Q_{\mathrm{x}_k}^{T}} & {Q_{\mathrm{u}_k}^{T}} \\ {Q_{\mathrm{x}_k}} & {Q_{\mathrm{xx}_k}} & {Q_{\mathrm{xu}_k}^T} \\ {Q_{\mathrm{u}_k}} & {Q_{\mathrm{ux}_k}} & {Q_{\mathrm{uu}_k}}\end{array}\right]\left[\begin{array}{c}{1} \\ {\delta x_k} \\ {\delta u_k}\end{array}\right]$
其中：
$\begin{aligned} &Q_{x} =l_{x_{k}}+f_{x_{k}}^{T} V_{x_{k+1}} \\ &Q_{u} =l_{u_{k}}+f_{u_{k}}^{T} V_{x_{k+1}} \\ &Q_{x x} =l_{x x_{k}}+f_{x_{k}}^{T} V_{x x_{k+1}} f_{x_{k}}+V_{x_{k+1}} f_{x_{k} x_{k}} \\ &Q_{u u} =l_{u u_{k}}+f_{u_{k}}^{T} V_{x x_{k+1}} f_{u_{k}}+V_{x_{k+1}} f_{u_{k} u_{k}} \\ &Q_{u x} =l_{u x_{k}}+f_{u_{k}}^{T} V_{x x_{k+1}} f_{x_{k}}+V_{x_{k+1}} f_{u_{k} x_{k}} \end{aligned}$
将 $Q(δx,δu)Q(\delta x, \delta u)$ 视为 $δu\delta u$ 的二次函数，令 $∂Q(δx,δu)δu=0\frac{\partial Q(\delta x,\delta u)}{\delta u}=0$ ，有：
$\begin{aligned} \frac{\partial Q(\delta x, \delta u)}{\delta u} &= \frac{1}{2}(2Q_{\mathbf{uu}_k}\delta u+Q_{\mathbf{ux}_k}\delta x+\delta x^TQ_{\mathbf{xu}_k}+Q_{\mathbf{u}_k}+Q_{\mathbf{u} _k})\\ &=Q_{\mathbf{uu}_k}\delta u+Q_{\mathbf{ux}_k}\delta x+Q_{\mathbf{u}_k}\\ &=0 \end{aligned}$
计算得： $δu∗=−Quuk−1(Quk+Quxkδx)\delta u^* = -Q_{\mathbf{uu}_k}^{-1}(Q_{\mathbf{u}_k}+Q_{\mathbf{ux}_k}\delta x)$
原理如下图：
在这里插入图片描述
令 $K=−Quuk−1Quxkk=-Q_{\mathbf{uu}_k}^{-1}Q_{\mathbf{u}_k},\ K=-Q_{\mathbf{uu}_k}^{-1}Q_{\mathbf{ux}_k}$ ，则 $δu∗=arg⁡min⁡δuQ(δx,δu)=k+Kδx\delta u^{*}=\underset{\delta u}{\arg \min } Q(\delta x, \delta u)=k+K \delta x$ ，将其带入 $Q(δx,δu)Q(\delta x,\delta u)$ ，可以整理成如下形式：
$Q(\delta x,\delta u)\approx\Delta V+V_{\mathbf{x}_k}^T\delta{x}+\frac{1}{2!}\delta x^TV_{\mathbf{xx}_k}\delta x$
对比可以得到：
$\begin{aligned} &\Delta V=-\frac{1}{2}Q_{\mathbf{u}_k}^TQ_{\mathbf{uu}_k}^{-1}Q_{\mathbf{u}_k}\\ &V_{\mathbf{x}_k}=Q_{\mathbf{x}_k}-Q_{\mathbf{ux}_k}^TQ_{\mathbf{uu}_k}^{-1}Q_{\mathbf{u}_k}\\ &V_{\mathbf{xx}_k}=Q_{\mathbf{xx}_k}-Q_{\mathbf{xu}_k}^TQ_{\mathbf{uu}_k}^{-1}Q_{\mathbf{ux}_k} \end{aligned}$
其中 $QuukQ_{\mathbf{uu}_k}$ 是半正定对称阵。

DDP伪代码：

由给定的控制序列 $uˉk\bar{u}_k$ ，正向得带计算标称轨迹。
$\begin{aligned} &\bar{x}_{k+1}=f(\bar{x}_k,\bar{u}_k)\\ &l_{x_k},l_{u_k},l_{xx_k},l_{ux_k},l_{uu_k}\\ &f_{x_k},f_{u_k},f_{x_kx_k},f_{u_ku_k},f_{u_kx_k} \end{aligned}$
反向迭代：从 $T$ 到 $1$ 迭代
- 计算 $V_{x_{k+1}}$ ， $V_{xx_{k+1}}$
- 计算 $Q$ 函数
- 计算 $δuk∗\delta u_k^*$ ，得到 $k_k$ ， $K_k$
正向迭代更新控制序列
$\begin{aligned} &x_1 = \bar{x}(1)\\ &u_k=\bar{u}_k+k_k+K_k(x_k-\bar{x}_k)\\ &x_{k+1}=f(x_k,u_k) \end{aligned}$
是否收敛，否就跳转1，是就结束

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

『从需求文档到可运行代码：AI 编程的全流程实践』

2048 AI社区

Flutter框架跨平台鸿蒙开发——Build流程深度解析

2048 AI社区

上下文协议（MCP）Java SDK 指南

我们先通过这个类，定义一个非常简单的 MCP 工具，用来打印收到的提示词（prompt），该方法返回一个.build();});这里我们首先定义了输入的 JSON Schema，用来为用户输入建立一个清晰的契约。接着，使用该输入 Schema 来实例化一个Tool，在处理逻辑中提取出prompt参数，并最终返回包含该prompt的结果。在本文中，我们首先回顾了 MCP 及其 Java SDK 的整